문체부 ‘국어 말뭉치 구축 중장기 계획’ 발표, 한국어 잘하는 ‘챗GPT’ 개발 박차

문체부, 국립국어원과 2027년까지 한국어 고품질 말뭉치 10억 어절까지 확대한다 AI 자연어 처리 능력 밑바탕 되는 말뭉치 사업, 막대한 비용 부담으로 정부 개입 불가피 AI 스타트업 부담 줄이는 국립국어원 ‘모두의 말뭉치’, 국내 AI 시장 발전의 밑거름 될까

160X600_GIAI_AIDSNote
사진=국립국어원

최근 오픈AI에서 개발한 생성 AI 챗봇 ‘챗GPT’가 세계적인 주목을 받고 있는 가운데, 국내에서는 챗GPT 서비스의 ‘한국어’ 대응이 아쉽다는 반응이 나오고 있다. 영미권에서 개발된 만큼, 섬세한 한국어 소통을 기대하기는 어렵다는 평가다. 이에 정부는 차후 고차원적 한국어 능력을 갖춘 ‘챗GPT’ 개발에 박차를 가할 예정이다.

문화체육관광부는 11일 발표된 ‘제2차 문화진흥 기본계획(2023~2027년)’에서 한국어를 잘하는 ‘챗GPT’를 선보이기 위해 ‘한국형 AI 언어모델’ 개발을 지원한다고 밝혔다. 이를 위해 문체부는 국립국어원과 함께하는 ‘국어 말뭉치 구축 중장기 계획’을 제시하고, AI 언어모델의 한국어 처리기술을 고도화하기 위한 고품질 말뭉치를 오는 2027년에 10억 어절까지 확대한다는 방침이다.

‘말뭉치’ 사업, AI 기술 발전의 밑바탕

말뭉치(코퍼스, corpus)는 다양한 분야의 언어 자료를 모아 컴퓨터로 분석하고 처리할 수 있도록 입력한 자료다. ‘한국어 말뭉치’는 한글 어휘와 어휘 특성의 저장소라고 볼 수 있으며, 사전 편찬, 언어 교육, 언어 연구 등에 꾸준히 활용되어왔다. 말뭉치는 AI의 고차원적 자연어 처리 능력의 밑바탕이 되는 만큼, 최근 챗GPT 열풍 이후로 한국어 인공지능 개발 수요에 대한 중요성이 한층 부각되는 추세다.

말뭉치 확보를 위해서는 가장 먼저 저작권을 확보한 자료를 수집해야 하며, 추가적으로 사람이 직접 말뭉치에 한국어 분석 정보(어휘 의미, 구문, 개체명, 감성 등)를 입력하고 검수해 인공지능이 학습할 수 있는 형식으로 가공해야 한다. 이 과정에서 상당한 시간과 비용이 소모된다.

금전적 여유가 있는 대기업은 자체적으로 AI 모델에 학습시킬 다양한 한국어 자료를 수집할만한 여력이 있다. 반면 중소기업이나 스타트업은 뛰어난 AI 기술력을 갖추고 있더라도 데이터 수집 분야에서 한계에 부딪힐 가능성이 크다. 무리하게 데이터를 수집하는 과정에서 사실이 아닌 자료를 사용하거나, 저작권 및 윤리적인 문제가 발생할 가능성을 배제할 수 없기 때문이다. 이뿐만 아니라 데이터베이스 구축에 드는 여러 비용 역시 부담으로 작용한다.

국립국어원은 2018년부터 대규모 한국어 말뭉치 사업을 시작했으며, 현재 거대 인공지능(AI) 기술에 활용될 37종(약 22억 어절)의 말뭉치를 ‘모두의 말뭉치’ 사이트를 통해 공식적으로 제공하고 있다. 국립국어원 ‘말뭉치 사업’은 고차원적인 한국어를 이해할 수 있는 자료인 동시에 저작권이 해결된 정보인 만큼 누구나 자유롭게 사용할 수 있다. AI 학습용 데이터베이스 구축에 대한 부담 없이 누구나 기술력을 펼칠 수 있는 발판을 정부 차원에서 마련한 셈이다.

사진=국립국어원

‘말뭉치’ 구축 정부 사업이 중요한 이유

‘자연어 처리’는 인공지능 기술에서 매우 중요한 역할을 수행한다. 인간의 말을 인식 및 분석하고, 다시 자연어 답변을 내놓기 위해서는 자연어 처리를 위한 향상된 기술이 필요하기 때문이다. 하지만 지금껏 국내에서는 개발자 인력을 동원해 기존 알고리즘을 ‘변형’하는 작업만 주로 이뤄졌을 뿐, 한국어 말뭉치 사전 업그레이드는 좀처럼 이뤄지지 않고 있었다.

말뭉치는 AI 분야 개발과 연구를 위해 반드시 갖춰져야 할 디지털 데이터베이스지만, 방대한 오프라인 문서를 디지털화한 뒤 일일이 태깅하는 작업을 요구하는 만큼 초기 구축 비용이 막대하다. 게다가 말뭉치 구축 범위가 고어나 방언, 북한 언어까지 확대될 경우 민간이 접근하기 더욱 어려워진다. 결과물 또한 저작권으로 묶어두기 어려운 탓에 수익 창출에도 한계가 있다. 민간 기업보다는 정부 차원의 개입이 필요한 사업인 셈이다.

정부는 이미 한 차례 한글 말뭉치 프로젝트를 추진한 바 있다. 대표적인 사업이 ’21세기 세종 프로젝트’다. 국립국어원은 1998년부터 2007년까지 150억원의 예산을 투입해 ‘세종 말뭉치’ 사업이 포함된 21세기 세종 프로젝트를 완료했다. 세종 말뭉치에는 무려 2억 어절에 해당하는 방대한 데이터베이스가 구축됐으며, 이는 당시 영국이나 미국, 일본에 뒤지지 않는 수준이었다.

정부 주도의 말뭉치 사업은 세종 프로젝트가 완료된 2007년 이후 사실상 발전이 없었으나, 2018년 ‘모두의 말뭉치’ 사업이 활성화되면서 재차 속도가 붙고 있다. 정부 차원의 한국어 말뭉치 제공은 스타트업의 언어자료 구축 비용 절감 및 인공지능 기술의 고도화에 크게 기여하고 있다. 말뭉치 구축 사업이 정부 계획대로 원활히 추진된다면, 차후 AI 기술을 보유한 다수의 스타트업이 본격적으로 날개를 펼칠 수 있는 발판이 마련될 것으로 전망된다.