최근 급격하게 챗GPT, 구글의 바드, 마이크로소프트의 시드니와 같은 대규모 언어 모델이 점점 더 널리 보급되면서 자연어 처리 분야에 혁명을 일으키고 있다. 그러나 저명한 언어학자 노암 촘스키 교수는 이안 로버츠, 제프리 와트슨과 함께 이러한 모델이 지능과 도덕성을 모두 결여한 ‘사이비 과학’이라고 비판했다. 촘스키 교수와 그의 공동 저자들은 뉴욕 타임즈에 실린 “챗GPT의 거짓 약속”이라는 제목의 기고문에서 문장을 잘못 해석하고 잘못된 정보를 학습할 수 있는 가능성 등 대규모 언어 모델의 한계에 대해 강조했다.

촘스키 교수는 “챗GPT는 설계상 가능한 것과 불가능한 것을 구분하지 못한다”고 꼬집었다. 일례로 ‘지구가 평평하다’와 ‘지구가 둥글다’를 둘 다 학습한 뒤 시간이 흐르면서 확률이 높은 답을 제시할 뿐이라는 설명이다. 또 진짜 지능은 인과관계 등을 통해 옳고 그름을 판단하는 윤리적 사고를 할 수 있지만, 기계학습 AI는 아직 그렇지 않다고 주장했다. 그는 “이런 이유로 기계학습 시스템의 예측은 항상 피상적이고 불확실하다”며 “설령 예측이 맞더라도 사이비 과학에 불과하다”고 지적했다.

이러한 우려는 일견 타당하지만 한편으로는 대규모 언어 모델의 많은 잠재적 이점을 간과한 주장이기도 하다. 예를 들어, 대규모 언어모델은 기계 번역, 의료 진단, 장애인을 위한 교육 리소스를 개선하고 있다. 인류의 발전과 기술의 발전에는 시행착오가 있을 수밖에 없다. 모든 기술에는 부작용과 역기능이 있기 때문에 완벽하게 안전한 개발은 불가능하다. 하지만 부작용과 역기능을 최소화하기 위해 윤리적이고 책임감 있는 방식으로 설계하고 사용하려는 노력을 멈추지 말아야 한다.

오래된 논의

대규모 언어 모델에 대한 비판은 하나도 거를 것이 없다. 그렇지만 이러한 비판은 전혀 새로울 것이 없기도 하다. 인류가 최초로 자동차를 발명했을 때 사람들은 그것이 ‘마차’는 아니라고 비판했을 것이다. 자동차와 마차는 일견 유사하지만, 본질적으로 다르다. 대규모 언어 모델은 ‘언어’로 하는 일을 할 수 있을 뿐임에도 이것을 ‘언어’ 그 자체로 혼동하는 사람들이 많다.

이러한 한계에도 불구하고 대규모 언어 모델은 이미 자연어 처리와 사회 전반에 혁신적인 영향을 미치고 있다. 가장 중요한 이점 중 하나는 기계 번역을 개선할 수 있는 잠재력이다. 언어 간 번역의 정확성을 개선하는 데 사용되어 언어 장벽을 허물고 문화 간 이해를 증진하는 데 도움이 된다. 또한 이러한 모델은 장애인을 위한 교육 리소스에 대한 접근성을 개선하여 포용성과 평등을 증진할 수 있는 잠재력을 가지고 있다.

대규모 언어 모델은 인간의 창의성과 생산성을 위한 새로운 기회를 창출할 수 있는 잠재력이 있다. 반복적이거나 일상적인 작업을 자동화하여 더 의미 있고 창의적인 작업에 시간을 할애할 수 있게 해준다. 이는 저널리즘부터 창작물 제작, 고객 서비스에 이르기까지 다양한 산업에 큰 영향을 미칠 수 있다. 하지만 우리 사회에 비가역적 변화를 초래할 수 있는 기술인 만큼, 그 어느 때보다도 신중한 논의가 필요한 상황이다.

일부 AI 개발자들은 “챗GPT가 이미 공개된 기술을 개선한 것에 불과하며 숨겨진 비밀이 없다”고 주장하고 있다. AI를 무분별하게 사용하면 어떤 방향으로든 문제를 일으킬 수 있기 때문에 오랫동안 AI를 연구해 온 기업들은 조용히 개발해 왔다는 것이다. 반면 “오픈AI는 윤리적 문제를 미뤄둔 채 챗GPT를 공개했다”라고 덧붙였다. 확실히 오픈AI는 세상의 주목을 받았지만, 동시에 섣부른 변화가 시작됐다.

대규모 언어 모델의 근본적 한계

대규모 언어 모델의 중요한 한계 중 하나는 문장을 잘못 해석할 가능성을 본질적으로 개선할 수 없다는 점이다. 촘스키와 그의 공동 저자들이 주장하듯이, 이러한 모델은 무엇이 진실인지, 무엇이 진실이었는지, 무엇이 진실이 될 것인지, 무엇이 진실이 될 수 있는지, 무엇이 진실이 될 수 없는지를 이해하는 능력이 없다. 조건부 추측을 하거나 인과관계를 설명하는 것처럼 보이지만 단지 묘사하고 설명할 수 있을 뿐이다. 따라서 이러한 모델은 학습된 데이터 세트에 존재하는 패턴과 편견을 반영하여 부정확하거나 편향된 응답을 생성하기도 한다.

또 다른 우려는 부정확한 데이터가 입력될 경우 대규모 언어 모델이 잘못된 정보를 학습할 수 있다는 점이다. 대규모 언어 모델이라는 이름답게 언어를 흉내 내기 위해서는 매우 막대한 양의 데이터를 처리해야 한다. 이 막대한 언어-데이터를 모두 검수하기란 불가능에 가깝다. 또한 이러한 모델은 학습된 데이터에 존재하는 편견과 차별을 지속시켜 예측조차 어려운 다양한 방식으로 해로운 결과를 초래할 수 있다. 수십만 명의 사람들이 이용하는 챗봇이 혐오와 차별을 아무렇지 않게 내뱉는다면 사용자인 인간에게 잘못된 정보와 인식을 심어주는 악영향을 끼치게 될 것이다. 특히 주 사용자층이 아직 이성적으로 미성숙한 청소년들이라면 문제는 더욱 심각해진다.

마지막으로, 챗GPT와 같은 대규모 언어 모델은 허위 정보나 선전을 퍼뜨릴 가능성이 있다는 비판을 받고 있다. 촘스키와 그의 공동 저자들이 지적했듯이, 이러한 모델은 여론을 조작하거나 가짜 뉴스를 증폭시키는 데 사용될 수 있으며, 이미 재앙의 전조가 나타나고 있다. 유튜브에 챗GPT로 블로그를 작성하는 방법 등을 검색하면 수십 개의 영상이 쏟아지는 상황이다. 대부분의 내용은 블로그를 개설하고 챗GPT로 영문 스크립트를 작성한 뒤 그대로 복사하고 붙여 넣어 만드는 내용이다. 이렇게 하면 전문적인 내용도 비전문가가 보기에는 그럴싸하게 작성할 수 있고, 검색 유입을 통한 광고로 수익을 올릴 수 있다. 블로그뿐 아니라 유튜브 영상 등을 생성해 내는 방식도 등장하고 있으며, 추후 어떻게 응용될지 알 수 없는 상황이다.

이런 사례가 늘어날수록 정보의 사실 여부를 검증하기가 어려워지고, 정보가 오염되면서 인터넷의 전반적인 신뢰도가 훼손된다. 저명한 SF 작가 테드 창이 “챗GPT는 정보를 압축해서 저장하기에 원본이 아닌 흐린 JPEG을 보는 것과 비슷하다”는 말을 한 것처럼 대규모 언어 모델은 인터넷 자체의 화질을 저하시킬 위험성이 있다. 이미 네이처, 사이언스 등의 학술지들은 챗GPT로 생성한 논문의 저자 자격을 인정하지 않기로 결정했고, 미국 교육기관 등에서도 챗GPT 접속을 차단하고 나섰다. 오픈AI는 표절 등 부적절한 활용을 막기 위해 챗GPT가 쓴 문장을 감지하는 기술을 개발하고 있다고 하지만 결과는 요원하다.

떠오르는 AI 윤리

대규모 언어 모델을 윤리적이고 책임감 있게 사용하기 위한 가장 중요한 단계 중 하나는 AI 편향성을 해결하는 것이다. 편향성은 모델을 학습시키는 데 사용되는 학습 데이터 세트의 다양성 부족으로 인해 발생할 수 있으며, 그 결과 차별과 편견이 지속될 수 있다. 따라서 편견을 방지하기 위해 편향되지 않은 다양한 데이터 세트로 모델을 학습시키는 것이 중요하다.

이를 위해 전 세계 여러 기업과 조직이 노력하고 있다. IBM은 AI 모델을 실시간으로 모니터링하고 편견이 감지되면 관리자에게 경고하는 AI OpenScale이라는 기술을 개발했다. 링크드인은 특정 성별, 인종, 연령 또는 지역의 구성원이 학습 데이터 세트에 과대 또는 과소 대표될 때 개발자에게 경고하는 LiFT라는 도구도 개발했다. 이러한 기술과 도구는 AI 언어 모델의 공정하고 윤리적인 사용을 보장하는 데 매우 중요하다.

대규모 언어 모델을 윤리적이고 책임감 있게 사용하기 위한 또 다른 필수 요소는 투명성과 책임성이다. 모델이 학습한 데이터에 대한 접근 권한과 명확한 설명을 제공해야 한다. 연구자와 개발자는 잠재적인 오용 가능성을 예상하고 이러한 공격에 탄력적으로 대응할 수 있는 시스템을 설계해야 한다. 강력한 보안 조치를 개발하고 대규모 언어 모델의 개발 및 사용에 대한 윤리적 지침을 공개적으로 논의할 필요가 있다.

따라서 협업이 매우 중요하다. 언어 모델이 우리 사회에 가져올 여파가 너무나 크기 때문에 폐쇄적인 논의가 이뤄져서는 안 된다. 연구자, 개발자, 정책 입안자 및 기타 이해관계자 간의 협업은 대규모 언어 모델과 관련된 잠재적 위험과 윤리적 문제를 해결하는 데 도움이 될 수 있다. 이러한 협업은 개방적이고 투명한 대화를 촉진하기 위해 고안된 워크숍, 컨퍼런스 또는 기타 이벤트의 형태로 이루어질 수 있다. 또한 모범 사례와 경험의 공유를 촉진하여 이러한 모델을 개발하고 사용하는 데 따르는 어려움에 대한 이해를 공유할 수 있다.

비가역적 변화 시작됐다

촘스키 교수는 “챗GPT와 같은 프로그램들은 설계상 가능한 것과 불가능한 것을 구분하지 못한다”면서 “머신러닝 시스템은 ‘지구가 평평하다’와 ‘지구가 둥글다’를 둘 다 학습할 수 있다. 단지 시간이 흐르면서 확률이 달라질 뿐이라고 취급한다”고 지적했다. 그러면서 “이런 이유로 머신러닝 시스템의 예측은 항상 피상적이고 불확실하다”며 “설령 머신러닝의 예측이 맞더라도 이는 사이비 과학에 불과하다”고 말했다.

노암 촘스키와 그의 공동 저자들이 제기한 비판은 타당하지만, 대규모 언어 모델이 가져온 많은 이점도 있다. 이미 자연어 처리 분야의 변화는 시작됐으며 기계 번역, 의료 진단, 장애인을 위한 교육 리소스를 개선할 수 있는 잠재력을 가지고 있다. 그러나 잠재적인 위험을 완화하고 이러한 모델이 윤리적이고 책임감 있는 방식으로 설계되고 사용되도록 하는 것이 중요하다.

촘스키 교수 등은 “진짜 지능은 사실 같지 않더라도 통찰력 있는 것들을 생각하고 표현할 능력에서 나타난다”며 “또한 진짜 지능은 윤리적 사고를 할 수 있다”고 강조했다. 이를 위해서 연구자, 개발자, 정책 입안자 및 기타 이해관계자 간의 협업을 통해 대규모 언어 모델의 부작용을 예측하고 윤리적 위험지대를 경계하며 투명성과 책임성을 계속해서 강조해야 한다. 주의를 기울이고 지속적으로 논의한다면 대규모 언어 모델은 인간의 창의성과 생산성을 위한 새로운 기회를 창출하는 동시에 오늘날 사회가 직면한 가장 시급한 과제를 해결할 수 있는 잠재력을 가지고 있다.

이형우 기자

[email protected] 정확성은 신속성에 우선한다고 믿습니다. 모든 정보를 성실하게 검증하고 명확한 근거를 바탕으로 보도하겠습니다.