상단여백
HOME News 종합
AI가 배워야할 한국어 말뭉치는 '무엇?'...국립국어원 공개일상대화 등 400만건과 900만 어절 분석자료
(출처=IBK연구소)

[e경제뉴스 임명재 기자] 국립국어원이 AI의 한국어 처리 능력 향상에 필수적인 학습용 한국어 자료 8종을 30일 국립국어원 '모두의 말뭉치'(https://corpus.korean.go.kr)에서 공개한다고 밝혔다.

국립국어원은 지난해 8월 '모두의 말뭉치'에서 인공지능 학습용 한국어 말뭉치 13종 18억 어절을 공개한 바 있다.

이번에 새로 공개하는 자료는 2020년 구축한 일상 대화 말뭉치 2232건, 대화를 녹음한 음성 자료 500시간 분량, 2019년 생산된 35개 매체의 신문 기사 63만여 건, 한국어의 특성을 정밀하게 분석한 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치 600만 어절이다.

상호 참조 해결 말뭉치는 같은 대상을 가리키는 표현을 서로 연결(상호 참조)한 자료이고, 무형 대용어 복원 말뭉치는 대화나 문장에서 생략된 주어나 목적어 등을 복원한 자료다.

국립국어원은 "음성까지 제공한 일상 대화 자료는 연령별, 지역별로 고르게 선정한 2500여 명의 참여자와 모두 이용 허락 계약을 체결, 구축해 음성 활용 대화 시스템 개발 등 다양한 인공지능 서비스 개발과 한국어 음성 연구에 폭넓게 활용할 수 있을 것"이라고 기대했다.

이번 공개 자료에는 기존에 배포한 신문 자료와 문장을 구성하는 단어들의 문법적 관계를 분석한 말뭉치를 수정, 보완한 자료도 담았다. 또 2003년에 서울말 변화 양상을 연구할 목적으로 만들었던 '서울말 낭독체 발화 말뭉치'도 형식과 내용을 다듬어 포함했다.

(출처=국립국어원)

국립국어원 소강춘 원장은 “국립국어원은 앞으로 한국어 인공지능이 한국어다운 소통 능력을 갖출 수 있도록 전문적이고 분석적인 한국어 언어 자료를 지속적으로 구축, 공개하여 관련 학계 및 산업계에서 적극 활용할 수 있도록 지원할 계획”이라고 말했다.

자료는 '모두의 말뭉치' 누리집에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있다.

 

임명재 기자  economynews@daum.net

<저작권자 © e경제뉴스, 무단 전재 및 재배포 금지>

임명재 기자의 다른기사 보기
icon인기기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
Back to Top