!@#… WIRED지의 2008년 7월호 커버스토리는 무려 ‘이론의 종말’이었다. 뭐 인류 문명이 끝났다거나 과학이 무너진는 것이 아니라, 이론으로 모델링을 하고 검증을 하는 기존의 과학 과정과는 달리 엄청난 양의 데이터 자체에서 모델이 끌어내진다는 것. 당연한 이야기지만 LHC 개장 분위기와 맞물린 기획인데다가 원래 이 잡지가 선언적 낚시를 은근히 즐기는터라 그런 제목이 나온 것이지만, 꽤 구미가 당기는 이야기다. 이론의 ‘종말’까진 아니더라도 데이터를 닥치고 모으고 어떻게든 패턴을 컴퓨터로 도출해내는 힘이 한층 강해지고 있는 건 확실하니까.
!@#… 최근, 하버드 버크먼센터에서 재미있는 프로젝트를 발표했다. 미디어클라우드(http://www.mediacloud.org)라는 녀석의 알파버전으로, 온갖 온라인 상의 글들을 손쉽게 내용분석해서 각종 비교연구를 실증적으로 도출해내는 툴. 이렇게 이야기하면 뭔가 좀 감이 안잡힐 수 있을텐데, 예를 들어 특정 언론사들이 다른 언론들과 달리 어떤 특정 키워드들을 같이 연동해서 사용했는지 봄으로써 그들의 프레임 구축을 증명할 수 있다. 혹은 특정 이슈가 각 매체에 나타나서 붐을 타는 시기를 비교함으로써 이슈가 여러 미디어 사이에서 흐르는 방향 즉 영향관계를 추정할 수 있다. 미디어에서 주로 다루는 특정 지역을 위치정보로 지도화시킬 수도 있는데, 맥락을 잘만 뽑아내면 어떤 지역들이 주로 세트로 묶여서 언급되는지 즉 외교프레이밍이 어떻게 이루어지는지도 볼 수 있다. 그리고 단순히 언론사의 미디어뿐만 아니라 개인블로그들도 데이터에 포함시킬 수 있는 만큼, 서버용량만 충분하다면 그 활용의 폭은 무궁무진하다. 그 유명한 문제제기, “과연 블로고스피어의 담론은 기존 언론사 저널리즘의 대안인가 아니면 그냥 메아리인가”에 대해서 전체 경향을 놓고 계산하는 것이라든지 말이다. 그리고 당연하게도, 그런 패턴을 아는 것이 향후 미디어전략을 세우는 것에 크나큰 도움이 된다.
!@#… 사실 이런 식의 연구는 언론학에서 ‘내용분석’이라는 연구방법론으로 계속 해오던 것의 연장선상에 있다. 그런데 이전에는 수동으로 기사들을 뽑아서 특정 부분을 연구목적에 맞게 코딩해서 등장 빈도와 기타 수치들을 비교분석하는 지난한 과정을 거쳐야 했으며 그 작업을 위해서 여러 대학(원)생 알바들이 동원되고 덕분에 한번에 다룰 수 있는 자료의 양에도 신뢰도에도 대부분 한계가 있고 등등 뭐 그랬다. 하지만 미디어클라우드는 그런 과정을 자동화시키고 엄청난 양의 데이터를 한꺼번에 분석할 수 있게 한다. 특별히 더 어려워질 것 없이 사실상 전수검사를 할 수 있게되는 것. 미디어 내용분석연구의 자동화라는 은근히 좀 엄청난 목표로 달려나가는 프로젝트다.
!@#… 기본적으로 이 물건은 두 가지 덩어리로 이루어지는데, 하나는 텍스트를 필요한 요소들로 코딩하는 데이터베이스 작성툴이고 다른 하나는 그 데이터를 분석하는 비교하는 알고리즘이다. 데이터베이스 작성툴은 톰슨-로이터스의 CALAIS 프로젝트에서 만드는 것인데, 입력하는 텍스트를 자연어 프로세싱에 의해 분석하여 사람과 장소 사건 등등 의미구조로 분류해서 저장한다. 그리고 미디어클라우드가 그 데이터를 여러 방식으로 조합하고 비교해서 분석결과를 도출한다. 게다가 오픈소스라서, 능력만 된다면 누구나 분석하는 알고리즘을 얼마든지 추가하고 개조할 수도 있다.
!@#… 이런 것이 소개되는 것을 보자면 항상 즐거움과 한탄이 함께 한다. 즐거움이야 이런 재미있는 툴이 나와줌으로써 더 많은 이들이 더 많은 자료를 더 쉽게 분석해서 세상에 합리적 근거라는 것이 좀 더 장려될 수 있다는 것. 한탄은 물론 이 분야 연구자는 이게 보편화되는 만큼 더 기발한 것을 생각해내지 않으면 밥그릇이 없어진다는 것(사실 현재 수학중인 지도교수님이 이런 비슷한 물건을 수년째 따로 개발해오고 있었는데, 이것 참…;;;).
!@#… 이제 버전0.3이기는 하지만, 한국쪽 미디어 환경에 적용시킬 수 있는 방법이 어떨련지 한번 분석할 필요가 있다. 너도나도 RSS피드로 전문을 발행하고 다닌면 모를까, 결국 웹사이트에서 텍스트를 긁어와야 하는데 한국 사이트들의 전형적인 구성방식이나 웹호환성 문제가 좀 난감해야 말이지. 사실 언론재단이나 언론학회, 하다못해 민언련이라도 총대를 메고 아예 공식적으로 이 코드를 바탕으로 한국미디어용 ‘미디어구름’을 만들어서 공개하면 제일 좋겠지만, 시대를 크게 앞서간 카인즈 뉴스검색 서비스조차 최근 수년간 틀어지고 있는 모습을 생각하자면 (사이트는 미디어가온 어쩌고 하면서 인터페이스와 인증이 이상해지고, 내용면에서는 여러 메이저 일간지들이 철수하고…) 그런 식의 공공 프로젝트에 대해 너무 기대를 크게 가질 근거는 없을 듯. 그냥, 적당히 뜻이 맞는 연구자 몇 명 긁어모으고 미디어에 관심많은 컴공과 계열의 파트너가 좀 필요할 듯 하다.
!@#… 여튼 뭐… 그냥 기록 삼아, 혹은 다짐 삼아 또는 행여나 누가 관심을 가지고 힘을 합칠 수 있을지 모르니 몇 마디 남겨놨음. 답잖게 여기서 이런 착실하게 전공스러운 이야기를 하다니…;;;
— Copyleft 2009 by capcold. 이동/수정/영리 자유 —
Pingback by seoulrain's me2DAY
서울비의 생각…
capcold님의 ‘미디어클라우드’ 이야기…