상단영역

실시간뉴스
편집 : 2024-03-29 18:34 (금)

본문영역

AI가 배워야할 한국어 말뭉치는 '무엇?'...국립국어원 공개

일상대화 등 400만건과 900만 어절 분석자료

이 기사를 공유합니다
(출처=IBK연구소)

[e경제뉴스 임명재 기자] 국립국어원이 AI의 한국어 처리 능력 향상에 필수적인 학습용 한국어 자료 8종을 30일 국립국어원 '모두의 말뭉치'(https://corpus.korean.go.kr)에서 공개한다고 밝혔다.

국립국어원은 지난해 8월 '모두의 말뭉치'에서 인공지능 학습용 한국어 말뭉치 13종 18억 어절을 공개한 바 있다.

이번에 새로 공개하는 자료는 2020년 구축한 일상 대화 말뭉치 2232건, 대화를 녹음한 음성 자료 500시간 분량, 2019년 생산된 35개 매체의 신문 기사 63만여 건, 한국어의 특성을 정밀하게 분석한 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치 600만 어절이다.

상호 참조 해결 말뭉치는 같은 대상을 가리키는 표현을 서로 연결(상호 참조)한 자료이고, 무형 대용어 복원 말뭉치는 대화나 문장에서 생략된 주어나 목적어 등을 복원한 자료다.

국립국어원은 "음성까지 제공한 일상 대화 자료는 연령별, 지역별로 고르게 선정한 2500여 명의 참여자와 모두 이용 허락 계약을 체결, 구축해 음성 활용 대화 시스템 개발 등 다양한 인공지능 서비스 개발과 한국어 음성 연구에 폭넓게 활용할 수 있을 것"이라고 기대했다.

이번 공개 자료에는 기존에 배포한 신문 자료와 문장을 구성하는 단어들의 문법적 관계를 분석한 말뭉치를 수정, 보완한 자료도 담았다. 또 2003년에 서울말 변화 양상을 연구할 목적으로 만들었던 '서울말 낭독체 발화 말뭉치'도 형식과 내용을 다듬어 포함했다.

(출처=국립국어원)

국립국어원 소강춘 원장은 “국립국어원은 앞으로 한국어 인공지능이 한국어다운 소통 능력을 갖출 수 있도록 전문적이고 분석적인 한국어 언어 자료를 지속적으로 구축, 공개하여 관련 학계 및 산업계에서 적극 활용할 수 있도록 지원할 계획”이라고 말했다.

자료는 '모두의 말뭉치' 누리집에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있다.

 

저작권자 © SDG뉴스 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

지속가능경제