상단여백
HOME Issue
AI 한국어 표준데이터 10만개 무료 공개AI스피커, AI 챗봇 만드는데 필요한 학습용 데이터 확대
5일 개최된 LG CNS AI커뮤니티 행사에서 이주열 AI빅데이터연구소장이 ‘코쿼드2.0’을 소개하고 있다.(사진=LG CNS 제공)

[e경제뉴스 이춘영 기자] LG CNS는 AI의 자연어 이해를 위한 한국어 표준데이터 10만여개를 제작해 무료로 개방한다고 5일 밝혔다.

언어와 관련한 AI 개발을 위해서는 인간이 공부할 때 필요한 교과서와 유사한 개념인 AI 학습용 표준데이터가 필요하다. 해외는 미국 스탠포드대학, MS 등이 제작한 영문 표준데이터 등이 존재하지만 국내는 한국어 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했다.

LG CNS는 이날 강서구 마곡 LG사이언스파크에 국내 AI 전문가 300여명을 초청해 ‘AI Tech Talk(테크톡) for NLU’을 열고 AI 학습용 한국어 표준데이터 ‘코쿼드 2.0’을 공개했다.

코쿼드 2.0은 지난해 12월 LG CNS가 공개한 ‘코쿼드 1.0’ 대비 한국어 표준데이터가 3만여개 늘어난 10만개의 한국어 표준데이터를 담고 있다. 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화한 버전이다.

예를 들어 "대한민국의 수도와 그 면적은"이라는 질문에 "서울특별시, 605.25㎢입니다"라고 답하는 AI는 코쿼드 1.0 학습만으로 개발이 가능했다.

그러나 여기서 한 걸음 더 나아가 "서울특별시의 특징은"이라는 질문에 "도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산으로 둘러싸여 있으며"라는 식의 답을 AI가 하기 위해서는 코쿼드 2.0으로 AI를 학습시켜야 한다는 것이 LG CNS 측 설명이다.

이번에 공개된 한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 누구나 다운로드 가능하다.

현신균 LG CNS 최고기술책임자(CTO)는 "응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여코자 한다"고 말했다.

이춘영 기자  economynews@daum.net

<저작권자 © e경제뉴스, 무단 전재 및 재배포 금지>

이춘영 기자의 다른기사 보기
icon인기기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
Back to Top