상단영역

본문영역

[강장묵의 굿모닝! 4차산업혁명(12) 가짜뉴스, 만들기보다 찾기가 훨씬 어렵다

이 기사를 공유합니다

[e경제뉴스 강장묵 컬럼] 오늘날 세계는 경제적으로도 갈등이 속출하고 있다. 그렇다고 해서 ICT에 대한 투자, 미래를 준비하는 것에 소홀하지 않다.

한국정보화진흥원의 보고서(2018)에 따르면, IBM은 3억명 환자데이터 보유하고 이를 기초로 빅데이터를 분석하고 있고 구글의 딥마인드는 환자 100만명 안구검사 기록을 확보하여 한 단계 깊고 정확한 눈건강 관련 인공지능 개발에 성큼 다가섰다.

우리나라에서는 숙박공유가 절반은 불법이지만 에어비앤비(AirB&B)는 전세계에서 8년간 축적 데이터를 분석해 빅데이터 기업으로 성장했다. 알리페이 역시, 5억명의 스마트폰 결제정보를 매초 2000건씩 축적하고 있는데, 이 패턴과 정보라면 이미 원천기술 개발에 필요한 연구재료 어느 국가와 비교할 수 없는 수준이다.

데이터를 축적하고 이를 활용하는 사회의 노력이 앞서면 그 전후방 효과는 실로 엄청나다. 그 중 하나가 가짜뉴스를 막는 것이다.

  <만들기 쉬운 가짜뉴스> 

안전하고 범용적인 인공 지능(safe AGI; artificial general intelligence)을 목표로 설립된 미국의 비영리 인공지능(AI) 연구기관 '오픈 AI(Open AI)'가 새롭게 개발하는 인공지능이 실로 놀랍다. 필자는 수시로 Open AI(https://openai.com)를 방문하면서, 우리나라는 왜 이런 시도에 정부도 기업도 소홀하기만 한 걸까.

뉴스에서 매일 다투는 그 소모적인 논쟁에 10%만이라도 애쓰면 달라질텐데, 과학기술에 전력을 다해 사회현안 문제를 해결하는 지도자는 찾기 어려운 것일까.

어쨋거나 그들은 ‘글짓기 인공지능’을 개발했다. 그리고 돌연 이 원천 기술을 비공개하기로 결정했다. 왜 그랬을까.

GPT-2라는 알고리즘으로 개발된 '글짓기 인공지능'의 글쓰기 실력이 보통의 소설가, 시인 못지 않기 때문이다. 이 가공할 기술의 글쓰기 학습능력이 너무 뛰어나 '가짜뉴스 등에 악용이 우려된다'는 이유로 특허와 알고리즘을 밝히지 않았다고 한다.

2017년부터 지금까지 대한민국 뉴스 250만건을 딥러닝 해본 필자 입장에서는 가짜뉴스 생산은 너무나 쉽고 이걸 찾고 발견하는 기술적인 진보는 작금의 정책 입안자 또는 연구에 대한 얇은 이해 수준으로는 한계가 있다는 것과 같다. 대한민국은 가짜뉴스 찾기의 R&D 기술에 첫발을 내딛었을 뿐이다.

<문맥에 이율배반적이지 않은 가짜뉴스, 찾기 더욱 어렵다>

우리가 신문기사를 읽을 때, 숫자나 특정 팩트가 잘못된 것을 찾는 것은 수월하다. 그러나 기사 안에서 논리적으로 아주 일치하는데, 가짜뉴스인 경우에는 기술적으로는 찾기가 아주 어렵다.

이 경우에는 해당 가짜뉴스 본문에만 집중해서는 안되고 인터넷이라는 광활한 곳에서 관련 기사들과 모두 비교 검토해 소설처럼 짜맞춘 가짜뉴스라는 사실을 밝혀야 한다.

즉 문맥을 읽고 이해하고 인터넷에서 다시 여러 정보를 검토하고 해당 가짜뉴스가 지나친 오도 또는 편향된 주장이라는 반박을 할 수 있는 인공지능을 개발할 수 있을까.

우선 가짜를 만드는 것과 가짜를 판단하는 것은 다른 문제이다.

작금의 대한민국은 댓글부대 운용 등으로 고위층이 감옥에 가거나 재판 중에 있다. 그러나 마음만 먹는다면 당장 AI 알고리즘으로 자동 생성할 수 있는 가짜뉴스와 댓글에 대해 법원은 누구를 감옥에 넣을지 궁금하기만 하다.

가짜뉴스를 찾아도 한번 퍼진 가짜소문을 막는 것은 불가능하다.

디지털 세상은 정보의 생산과 공유에 대해 사실확인과 차단은 비대칭적이다. 이 말뜻은 누구나 쉽게 가짜뉴스를 생산하고 퍼트리기는 자본과 노동력이 적게 든다. 반면, 한번 퍼진 가짜뉴스를 막는데는 엄청난 자본과 노동력이 필요하고 설사 막는다고 해도 읽는 모든 이들의 기억을 지울 수는 없다.

필자는 GPT-2 알고리즘이 사뭇 궁금했다. 조선일보의 기사를 참고해보니, “판타지 소설 '반지의 제왕'에 나오는 '레골라스와 김리는 함성을 지르며 무기를 들고 오크를 향해 진격했다'는 문장을 넣으면, 인공지능은 이어 '오크들은 귀가 먹먹할 정도의 맹렬한 공격을 퍼부었다.

심지어 엘론드마저 후퇴할 수밖에 없었다'로 시작되는 약 2000자 분량의 문단을 만들어냈다. 원작 소설에는 없는 새로운 문장이다. '존 F. 케네디 전 미국 대통령이 살아 돌아와 다시 한 번 대통령이 되면 무슨 말을 할까'라고 물었을 때는 "저는 모든 국민이 목소리를 낼 때 미국이 다시 위대한 일을 해낼 수 있다고 믿습니다"라고 시작하는 연설문을 만들었다.

'재활용은 지구를 위해 좋지 않다'는 상식과 어긋나는 문장을 넣었을 때도 '재활용 시스템은 거대한 시간·에너지·비용을 요구한다. 쓰레기 자체를 줄이는 것이 더 효율적이다'며 주제를 뒷받침하는 1800자의 완결된 글을 만들어 냈다. 뉴스 기사를 쓸 때는 기사뿐만 아니라 기사 내용과 일치하는 사진 설명까지 만들어 냈다.

그 알고리즘은 무엇일지 궁금하여 깃 허브를 찾아보았다.

해당 내용을 아직 연구원들과 충분하게 분석하지는 않은 상태지만, 샘플만으로 검토해볼 때, 우리말 역시 조만간 가짜뉴스 생산이 수월해질 전망이다.

GPT-2 수준의 정교한 알고리즘이 아니더라도, 가짜뉴스 생산을 통해 해당 가짜뉴스가 마치 중대한 뉴스인듯한 착각을 불러일으켜주는 여러 이상 행동을 자동으로 처리하는 알고리즘과 인공지능은 동남아, 중국 등 인접국의 개발자를 통해서라도 쉽게 만들 수 있다.

아마도 총선과 대선 등이 오면 국회의원들은 자신의 선거구에서의 승리를 위해 가짜뉴스 생산과 확산에 대한 유혹을 뿌리치기 어려울지 모른다.

가짜뉴스는 우리나라의 경우에는 그 개념마저 선명하지 않다. 어디까지가 가짜이고 어디까지가 표현의 자유인지, 그냥 본인이 피해를 당했으면 가짜뉴스로 억울하다는 코스프레만 만연하다. 이런 사회현상이 길어지면 바람직하지 않은 현상들이 출현할 것이다.

기본적으로 국민들은 뉴스나 전문가들의 견해를 믿지 못할 것이다. 둘째로는 진짜와 가짜의 공방이 길어질수록 그 피로감이 높아져서 건전한 참여가 사라질 것이다.

가짜뉴스는 단순히 뉴스의 문제를 넘어 민주주의의 가치 그리고 국민에게 신뢰라는 값을 헤아릴 수 없는 것들에 대한 신념을 무너트리는 문제이다.

범정부적인 노력으로 Open AI의 도전과 같이 가짜뉴스 생산 AI도 만들어보고 이를 막는 AI도 만들면서 핵심 기술과 주변부의 기술을 고도화해야 한다.

그토록 찬연하게 아끼고 민족의 정체성으로 생각하는 한글이 아닌가. 한글로 만든 가짜뉴스와 이를 찾고 막는 한글 자연어처리 연구는 국가의 미래가 걸린 사안이다.

저작권자 © SDG뉴스 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

지속가능경제