양질의 데이터가 AI의 성패를 가르는 시대, 테스트웍스 50억원 시리즈 B 투자 유치

테스트웍스 50억원 투자 유치, ‘통합 관리 솔루션 기반 성장성 높이 평가’ AI 시장 활용 범위 넓어지며 유형별 데이터 품질 기준 필요성 대두 퓨샷러닝·오토라벨링으로 최대한의 학습 효과 노린다

160X600_GIAI_AIDSNote
사진=테스트웍스

인공지능 데이터 검증 스타트업 테스트웍스가 50억원 규모의 시리즈 B 브릿지 임팩트 투자를 유치했다고 16일 밝혔다. 이번 투자 라운드에는 엠와이소셜컴퍼니와 더웰스인베스트먼트가 운용하는 코리아임팩트스케일업 투자조합, 신한자산운용, 포스코기술투자, 아트임팩트투자조합이 신규 투자자로 참여했다.

“데이터 수집·가공 솔루션 고도화에 박차”

2015년 설립된 테스트웍스는 자율주행을 비롯한 각종 인공지능(AI) 데이터를 가공하고 검증하는 기업으로, 크라우드-소싱 기반 데이터 수집 가공 플랫폼 에이아이웍스(aiworks)를 비롯해 데이터 자동화 가공 관리 솔루션 블랙올리브(blackolive) 2D & 3D, 인공지능 데이터 품질 검증 전문 도구 ADQ 등을 개발해 운영 중이다. 투자자들은 테스트웍스의 3D 데이터 구축 기술과 AI 반도체·임베디드 SW 품질 검증, 통합 관리솔루션 기반의 성장성을 높이 평가한 것으로 전해진다.

테스트웍스는 이번에 유치한 투자금을 활용해 차별화된 고품질 AI 기술 기반의 AI 데이터 라이프사이클 올인원(AI Data Lifecycle All-in-one) 솔루션을 고도화하고, 차량용 반도체 칩을 포함한 AI 반도체·임베디드 SW 통합 관리 솔루션을 최적화하기 위해 나선다. 또 기업 고객들의 신뢰성 기반 품질 요구 사항과 검증 과정에서 친환경 탄소중립에 부응할 수 있도록 에너지 효율을 강화한 고품질 서비스로 기업의 성장 동력을 확보한다는 계획이다.

윤석원 테스트웍스 대표는 “이번 투자 유치는 테스트웍스의 사회 가치 창출 성장 가능성에 더해 AI 기반 기술력과 경쟁력을 인정받아 투자를 유치했다는 것에 큰 의미를 가진다”며 “투자금을 활용해 솔루션의 기술력을 높이는 동시에 다양한 적용 산업 분야에서 고품질 서비스를 제공하겠다”고 밝혔다.

양질의 데이터셋, AI 모델의 성패를 좌우하다

국내 AI 시장은 생성형 AI를 포함한 기술 혁신에 따라 전 산업에 걸쳐 빠른 속도로 AI 채택 가속화를 앞당기며 시장 성장세가 계속될 것이라고 전망하고 있다. 하지만 현장에는 AI 도입과 관련한 데이터의 수습 및 품질, 모델 학습, 성능 향상, 상용화를 위한 수많은 해결 과제가 산적해 있다. 특히 가짜 데이터로 인한 시스템 오류 사례, 편향된 데이터로 인한 인종·성차별 논란 등은 데이터가 단순 의사 결정을 위한 기반을 넘어 기술의 경쟁력을 판가름하는 핵심 요소가 되고 있다는 사실을 극명하게 보여준다.

데이터는 통계적 분석 등에 활용되는 정형 데이터와 이미지, 영상, 3D, 음성, 자연어 등 비정형 데이터로 구분할 수 있다. 우리가 쉽게 접하는 디지털 정보에서는 비정형 데이터가 대부분을 차지하는데, 비정형 데이터는 정형 데이터 관리에 비해 통합적으로 검증하고 관리하기가 쉽지 않다. 이에 과학기술정보통신부의 ‘핵심 인공지능(AI) 데이터 품질 표준안’, 한국지능정보사회진흥원(NIA)의 ‘AI 학습용 데이터 품질관리 가이드라인’ 등 국가 차원에서 데이터 품질 진단을 위한 절차 및 기반을 제안하고 있지만, 데이터의 형태별 특성에 따른 검증과 관리에 대한 내용은 찾아볼 수 없어 현장에서 활용되는 경우는 극히 드물다.

전문가들은 데이터의 품질 기준은 콘텐츠의 유형 및 연구 내용, AI 활용 목적에 따라 달라져야 한다고 강조한다. 기술의 활용 목적에 적합한 고품질의 데이터를 사용해야만 AI의 학습을 효과적으로 수행할 수 있으며 일반화된 결과를 도출할 수 있다는 이유에서다. 나아가 정확한 데이터 검증은 학습에 필요한 데이터의 양을 최소화해 AI 기술 개발과 서비스에 필요한 시간과 비용을 절감하는 효과까지 기대할 수 있어 AI 기술의 성패를 좌우하는 핵심 과제로 주목받고 있다.

AI 모델 성능 검증 프로세스/출처=테스트웍스

최소한의 정보로 최대 효과 기대, 현장 데이터 갈증 해소할 수 있을까

테스트웍스는 일찌감치 AI 기술의 발전과 사회적 영향력을 고려할 때 데이터 품질이 매우 중요한 요소가 될 것이라고 진단했다. AI 프로젝트에 소요되는 시간 대부분을 데이터를 수집 및 정제, 라벨링하는 작업이 차지하고 있다는 사실을 확인한 테스트웍스는 최소한의 학습 데이터를 활용해 라벨링을 수행할 수 있는 퓨샷러닝(few-shot learning) 기술을 비롯해 적은 학습 데이터를 증강하는 비지도학습(GAN) 기술, 사람의 검수 과정 없이 학습 데이터를 축적해서 모델을 학습하는 오토라벨링(auto labeled data training) 등을 연구하는 데 박차를 가했다. 그 결과 테스트웍스는 한국인정기구(KOLAS)의 국제공인시험기관 인정을 획득하는 등 데이터 품질 관리에 대한 전문성 및 기술력을 국제적으로 입증 받았다. 최근에는 베트남 지사를 설립해 글로벌 시장에 나설 준비를 마친 상태다.

과거와 달리 AI 기술의 발전은 모델 자체가 아닌 모델이 학습하는 데이터에 의해 이뤄지고 있다. 일상생활부터 산업, 의료, 학술 연구에 이르기까지 AI의 활용 분야가 무궁무진한 만큼 필요한 데이터 종류와 활용 방법도 갈수록 다양해지고 있다. 다년간 쌓아온 AI 데이터 구축 경험을 앞세운 테스트웍스가 다양한 그 기술력을 인정받아 고품질의 데이터셋 구축을 도모하며 AI 생태계를 활성화하는 순기능을 발휘할 수 있을지 이목이 쏠린다.