미디어 내용분석 연구의 자동화: 미디어클라우드

!@#… WIRED지의 2008년 7월호 커버스토리는 무려 ‘이론의 종말’이었다. 뭐 인류 문명이 끝났다거나 과학이 무너진는 것이 아니라, 이론으로 모델링을 하고 검증을 하는 기존의 과학 과정과는 달리 엄청난 양의 데이터 자체에서 모델이 끌어내진다는 것. 당연한 이야기지만 LHC 개장 분위기와 맞물린 기획인데다가 원래 이 잡지가 선언적 낚시를 은근히 즐기는터라 그런 제목이 나온 것이지만, 꽤 구미가 당기는 이야기다. 이론의 ‘종말’까진 아니더라도 데이터를 닥치고 모으고 어떻게든 패턴을 컴퓨터로 도출해내는 힘이 한층 강해지고 있는 건 확실하니까.

!@#… 최근, 하버드 버크먼센터에서 재미있는 프로젝트를 발표했다. 미디어클라우드(http://www.mediacloud.org)라는 녀석의 알파버전으로, 온갖 온라인 상의 글들을 손쉽게 내용분석해서 각종 비교연구를 실증적으로 도출해내는 툴. 이렇게 이야기하면 뭔가 좀 감이 안잡힐 수 있을텐데, 예를 들어 특정 언론사들이 다른 언론들과 달리 어떤 특정 키워드들을 같이 연동해서 사용했는지 봄으로써 그들의 프레임 구축을 증명할 수 있다. 혹은 특정 이슈가 각 매체에 나타나서 붐을 타는 시기를 비교함으로써 이슈가 여러 미디어 사이에서 흐르는 방향 즉 영향관계를 추정할 수 있다. 미디어에서 주로 다루는 특정 지역을 위치정보로 지도화시킬 수도 있는데, 맥락을 잘만 뽑아내면 어떤 지역들이 주로 세트로 묶여서 언급되는지 즉 외교프레이밍이 어떻게 이루어지는지도 볼 수 있다. 그리고 단순히 언론사의 미디어뿐만 아니라 개인블로그들도 데이터에 포함시킬 수 있는 만큼, 서버용량만 충분하다면 그 활용의 폭은 무궁무진하다. 그 유명한 문제제기, “과연 블로고스피어의 담론은 기존 언론사 저널리즘의 대안인가 아니면 그냥 메아리인가”에 대해서 전체 경향을 놓고 계산하는 것이라든지 말이다. 그리고 당연하게도, 그런 패턴을 아는 것이 향후 미디어전략을 세우는 것에 크나큰 도움이 된다.

!@#… 사실 이런 식의 연구는 언론학에서 ‘내용분석’이라는 연구방법론으로 계속 해오던 것의 연장선상에 있다. 그런데 이전에는 수동으로 기사들을 뽑아서 특정 부분을 연구목적에 맞게 코딩해서 등장 빈도와 기타 수치들을 비교분석하는 지난한 과정을 거쳐야 했으며 그 작업을 위해서 여러 대학(원)생 알바들이 동원되고 덕분에 한번에 다룰 수 있는 자료의 양에도 신뢰도에도 대부분 한계가 있고 등등 뭐 그랬다. 하지만 미디어클라우드는 그런 과정을 자동화시키고 엄청난 양의 데이터를 한꺼번에 분석할 수 있게 한다. 특별히 더 어려워질 것 없이 사실상 전수검사를 할 수 있게되는 것. 미디어 내용분석연구의 자동화라는 은근히 좀 엄청난 목표로 달려나가는 프로젝트다.

!@#… 기본적으로 이 물건은 두 가지 덩어리로 이루어지는데, 하나는 텍스트를 필요한 요소들로 코딩하는 데이터베이스 작성툴이고 다른 하나는 그 데이터를 분석하는 비교하는 알고리즘이다. 데이터베이스 작성툴은 톰슨-로이터스의 CALAIS 프로젝트에서 만드는 것인데, 입력하는 텍스트를 자연어 프로세싱에 의해 분석하여 사람과 장소 사건 등등 의미구조로 분류해서 저장한다. 그리고 미디어클라우드가 그 데이터를 여러 방식으로 조합하고 비교해서 분석결과를 도출한다. 게다가 오픈소스라서, 능력만 된다면 누구나 분석하는 알고리즘을 얼마든지 추가하고 개조할 수도 있다.

!@#… 이런 것이 소개되는 것을 보자면 항상 즐거움과 한탄이 함께 한다. 즐거움이야 이런 재미있는 툴이 나와줌으로써 더 많은 이들이 더 많은 자료를 더 쉽게 분석해서 세상에 합리적 근거라는 것이 좀 더 장려될 수 있다는 것. 한탄은 물론 이 분야 연구자는 이게 보편화되는 만큼 더 기발한 것을 생각해내지 않으면 밥그릇이 없어진다는 것(사실 현재 수학중인 지도교수님이 이런 비슷한 물건을 수년째 따로 개발해오고 있었는데, 이것 참…;;;).

!@#… 이제 버전0.3이기는 하지만, 한국쪽 미디어 환경에 적용시킬 수 있는 방법이 어떨련지 한번 분석할 필요가 있다. 너도나도 RSS피드로 전문을 발행하고 다닌면 모를까, 결국 웹사이트에서 텍스트를 긁어와야 하는데 한국 사이트들의 전형적인 구성방식이나 웹호환성 문제가 좀 난감해야 말이지. 사실 언론재단이나 언론학회, 하다못해 민언련이라도 총대를 메고 아예 공식적으로 이 코드를 바탕으로 한국미디어용 ‘미디어구름’을 만들어서 공개하면 제일 좋겠지만, 시대를 크게 앞서간 카인즈 뉴스검색 서비스조차 최근 수년간 틀어지고 있는 모습을 생각하자면 (사이트는 미디어가온 어쩌고 하면서 인터페이스와 인증이 이상해지고, 내용면에서는 여러 메이저 일간지들이 철수하고…) 그런 식의 공공 프로젝트에 대해 너무 기대를 크게 가질 근거는 없을 듯. 그냥, 적당히 뜻이 맞는 연구자 몇 명 긁어모으고 미디어에 관심많은 컴공과 계열의 파트너가 좀 필요할 듯 하다.

!@#… 여튼 뭐… 그냥 기록 삼아, 혹은 다짐 삼아 또는 행여나 누가 관심을 가지고 힘을 합칠 수 있을지 모르니 몇 마디 남겨놨음. 답잖게 여기서 이런 착실하게 전공스러운 이야기를 하다니…;;;

Copyleft 2009 by capcold. 이동/수정/영리 자유 —

Trackback URL for this post: http://capcold.net/blog/3175/trackback
12 thoughts on “미디어 내용분석 연구의 자동화: 미디어클라우드

Trackbacks/Pings

  1. Pingback by seoulrain's me2DAY

    서울비의 생각…

    capcold님의 ‘미디어클라우드’ 이야기…

Comments


  1. 제가 다른 목적으로 좀 해봤는데, ‘한국어’가 그렇게 원망스러울 수 없었습니다. 한국어는 활용이 무궁무진한데다 쉽게 의미를 비틀 수 있다보니 이게 영어식의 개념어 분석으로는 신뢰할만한 데이터가 나오질 않더군요. 특히나 지식인들은 논란을 피해가려고 일부러 글을 모호하게 쓰고, 일반인들은 갖가지 은어와 풍자를 섞어 쓰다보니 난감하기 그지 없습니다. 제가 잘 몰라서 그럴 수도 있겠지만 아직 한국어 contents analysis의 갈 길은 머나멀다는 생각만 들었습니다.

    여하간 미디어 담론과 일반인 담론이 동기화되는 메커니즘이 유의하게 나오는 지까지는 확인을 안 해봤는데, 적어도 확실하던 것은 하나가 있었지요. 학계든 언론이든 일반인이든 자신의 성향에 맞는 커뮤니티 내에서 자기증폭만 시키는 겁니다. 다들 담장을 높이 쌓고 소리만 고래고래 지르고 있는 것이지요. =_=

  2. 흑…우리나라에서는 이런 이야기 하면, 정작 그것이 필요한 사람들이 반문하겠죠. ‘지금 무슨 뜬구름 잡는 이야기인가요?’

  3. “이론으로 모델링을 하고 검증을 하는 기존의 과학 과정과는 달리 엄청난 양의 데이터 자체에서 모델이 끌어내진다는 것”

    흠.. 역시 하민혁이 하는 일은 저 동네서 먼저 알아보는 듯. 선진국이 달리 선진국이랴 싶어요. ^^
    블로그도 마찬가지인 거거든요.
    지가 무슨 빅브라자라고 조를 잡고 근거 잡아서 논문 쓰는 데 블질의 가치가 있는 게 아니라
    툭 던져서 자극하고 말하게 하는 데 가치가 있는 것이라는. 이구이성을 통해 모델이 드러나게 하는.

    먼 소리댜? 나도 몰라요~ 뭔 소린지. 휘릭~ =33

  4. 최신 기술은 언제나 안드로메다로 가고 있군요 ㅠ.ㅠ

    종이신문에 투입하자는 공적자금(최문순 블로그)으로 이런 프로젝트로 연구하겠다는 사람들 지원해주면 좋을텐데요..

  5. 자동 뉴스분석 프로그램 같은거 있었으면 좋겠다고 생각했는데, 이미 만들어지고 있었군요.
    한국에도 나왔으면 좋겠지만 아직 요원한 일로 보이는군요 orz

  6. 저런 물건은 꽤 오래전부터 개발되고 있는 모양이더군요. 앞으로 정말 강력한 분석도구가 되겠네요. 한국어에 적용하긴 좀 더 시간이 필요할지 몰라도요.

  7. !@#… 채승병님/ 한국어가 “엄청나게” 더 분석하기 어렵다기보다(키워드 방식보다는 조사로 클래스가 규정되는 모듈단위의 결합으로 해부해야 할테니 자동 분석을 하기가 더 어렵다는 것은 확실하지만), 분석툴을 영어 내지 유럽어권에서 주로 개발하다보니 어쩔 수 없는 결과죠… 국어국문학이 어학보다 문학에 편중된 학계풍토가 크게 아쉽습니다. // 담장 속 소리지르기는 확실히 주목해야할 현상이죠. 제가 그토록 문제시하는 “지사정신”의 생성원리 가운데 하나이기도 하고, 언젠가 더 자세히 다룰 기회가 있을 듯.

    nomodem님/ 그래서 미디어 ‘클라우드’였던 것이군요!

    하민혁님/ 다만 수많은 이구이성 속에서 모델이 솟아오르게 하려면 왜곡시키지 않고 자연스레 성향들을 읽어내어 분류 및 종합하는 과정 또한 거쳐야 하는데, 그런 장치가 아시다시피 현재는 좀 많이 부족하죠.

    Joyh님/ 그러게 말입니다. 돈 좀 주지.

    언럭키즈님/ 그러게 말입니다. 돈 좀 주지. (2)

    지나가던이님/ 많은 이들이 오래전부터 있었으면 좋겠다 꿈은 꾸고, 일부는 시도를 해보지만, 결국 먼저 사람들이 실제로 사용할 수 있는 프로토타입을 내놓는게 장땡이죠 (수소 자동차도, 타임머신도 다 그런 것 아니겠습니까… 핫핫). 그게 바로 오픈소스가 가지는 강력한 장점이기도 한데, 완성본을 내밀 필요가 없다! 라는 것. // 한국어에 대한 적용은… 돈과 사람. 사람이야 돈에 따라올 수 있으니, 결국 돈.

  8. 아니 이런 편리한 것이…! 온라인 내용분석은 주 연구분야는 아니지만 확실히 이런 것이 도입되면 다수의 동기들이 투입되서 괴로워하던 캐고생 연구들은 상당히 편리+신뢰도 UP해지지 않을까 합니다. 나쁘게 말하면 그만큼 알바가 줄어들 수도 있으려나…;

  9. !@#… 시바우치님/ 알바만 줄어드는 것이 아니라, 더욱 강력한 발상들을 계속 쥐어짜지 않으면 전문가로 자리잡기조차 힘들어지겠죠.

  10. 역시 저따위가 생각한건 누구나 먼저했던거군요… 올블로그 초기에 담론분석에 관해 이야기를 띄어놓은적이 있었는데, 이미 누군가는 하고 있군요ㅠ

    감사합니다 ^^;

  11. !@#… 익명님/ 뭐 오픈소스인데다가, 본문에서 이야기 꺼냈듯 한국어용 엔진도 아직 없으니 지금이라도 같이 하시면 됩니다. :-)