언어모델도 꾸준히 진화한다. 마치 인간 두뇌의 진화 방식을 보는 것 같다. 주로 아이를 키우면서 깨달은, 내가 알고 있는 지능의 발달과 언어모델의 진화는 비슷한 점이 많다. 예를 들면, 어딘가의 임계점에 도달하면 갑자기 새로운 차원의 능력이 발휘된다. 이전 지능으로는 하기 어려운 놀랄만한 일을 하기 시작한다. 미시적으로는 점진적 발전이고 거시적으로는 비약적 발전이다. 우리 모두는 언어모델의 발견이라는 비약적 발견을 수년 전 겪었다.
돌이켜 생각해보면 2021년 대규모의 언어모델이 본격적으로 등장하기 시작한 이래, 세 번 정도의 큰 진화가 있었다. 이 진화의 각 단계를 돌파하는 것에 2년 정도의 기간이 걸렸다. 각 하나의 단계는 인간 지능 수만년 동안의 발달과 유사할 정도로 매우 큰 것이었다. 자연 선택에 의존하는 진화와 다르게, 지구에서 가장 똑똑한 사람들이, 전용기를 마련할 생각에, 그들의 모든 시간과 능력을 투입한 이 인공 진화를 통해 모델은 급격히 발전했다. 인간 지능을 대체할 능력을 갖추었다. 나는 앞으로 한 두번의 진화가 일어난다면 조만간 인류가 만드는 AI 모델이 인간 지능을 뛰어 넘을 것으로 생각된다. 이는 짧으면 3년, 길어야 5년 내 완성될 것으로 보인다.
그 이후에 펼쳐질 세상은 예측할 수 없다. 지능은 그 보다 낮은 수준이나 다른 인식 체계를 가진 개체의 예측을 허락하지 않는다. 돌고래나 침팬지는 인간의 미래를 말할 수도, 예측할 수도 없다. 반면 인간은 침팬지의 미래를 알 수 있고 유전자 편집 기술로 그 미래를 마음대로 할 수 있다. 인간도 AGI, 혹은 Super-intelligence가 지배하는 세상을 절대로 알 수 없다.
내가 생각하는 언어모델의 첫 번째 큰 진화는 인류가 가진 모든 디지털 정보를 학습한 다음 단어 예측기의 완성이다. 2022년, 2023년에는 대부분의 언어모델 학습 데이터의 많은 부분을 웹에서 수집한 데이터에 의존했다. 웹에서 수집한 데이터는 품질이 그렇게 좋지 않다. 중2병 환자들이 작성하는 싸이월드 게시물이나 라면에 파를 넣을지 말지에 대한 토론이 이루어지는 200개의 댓글 창을 생각해보라. 이를 학습에 쓸 수 있을 만큼의 정리된 문서로 만드는 일이 중요했다. 또 부족한 자연어 문서를 확보하기 위해 PDF 등 문서나 유명한 서적의 스캔본도 많이 이용했다. 언어모델도 ‘위대한 게츠비’나 ‘전쟁과 평화’, 그리고 ‘공산당 선언’을 완벽하게 읽었다. 마침 인터넷의 발전, SNS의 확산을 통해 기하급수적으로 증가한 디지털 정보와 지식들이 도움이 되었다. 우리가 생산하는 유투브 동영상도 모두 언어모델 학습에 포함된다.
이는 당연히 인류 역사상 어떤 단일 인간 지능도 달성해지 못한 수준의 학습량이다. “책 읽기 고문법”이 생기거나 “책 읽기 직업”이 생겨 하루에 500페이지 정도의 책을 매일 읽는 놀라운 사람이 있다고 치자. 이 가련한 이가 평생을 읽어야 고작 50억(5B) 토큰을 볼 수 있다. 이 것도 물론 대단한 양이지만 언어모델이 학습하는 조 단위 학습량에 비하면 미미한 숫자이다. 놀랍게도 언어모델은 이를 모두 기억하고 있다. 아니 ‘기억’이라기 보다는 이를 인용한 답변을 줄 수 있다.
생성형 인공지능 붐을 일으켰던 ChatGPT의 세번째 버전은 대략 1750억개의 파라미터 크기를 가지고 있다. (OpenAI는 그 이후 모델의 정확한 파라미터 크기를 비밀로 한다.) 이는 인간 두뇌의 약 2배에서 3배 정도 크기이다. 단순히 파라미터 크기차이가 2배~3배라도 실제 기억이 저장되는 것은 그들 간의 연결이므로 실제 저장할 수 있는 용량은 그보다 훨씬 많을 것이다. 순수한 처리 정보 볼륨의 관점에서 이미 2020년 즈음에 저명한 연구실에서 학습하고 있던 언어 모델들은 용량 측면에서 인간 지능을 앞섰다.
이러한 학습 데이터와 신경망 스케일의 증가로 인류 범위의 다음 단어 예측기를 만들어 낸 것이다. 사실 다음 단어 예측기 그 자체는 예전부터 있었던 것이고 문서 분류 등 다양한 분야에서 이미 활용되고 있었다. 생성형 인공지능이 각광받을 수 있는 촉매가 된 것은 이러한 크기의 확장과 함께 이를 이용한 강력한 어플리케이션으로 ‘대화’를 선정했다는 점이다. 그래서 이름이 ‘Chat’ + ‘GPT’로 풀어 쓰면 대화를 나눌 수 있는 다음 단어 예측기란 뜻이다. 그럴싸한 말을 하고, 글을 쓰고, 대화를 나눌 수 있다. 내밀한 대화나 공감을 나눌 수 있는 것처럼 보이지만 사실은 이 시점에 가장 있을 법하고 사람이 좋아할 만한 말을 하는 ‘예측기’라는 사실은 변함이 없다.
이전 세대의 예측기와 차별화된 점은 앞서 말했듯이 어마어마한 정보를 학습했기 때문이라는 점, 그리고 그 정보를 모두 기억하고 있다는 점, 마지막으로 가장 중요하게는 이러한 정보를 바탕으로 일반화(Generalize)와 지식 전이(Knowledge transfer)를 할 수 있는 능력을 가졌다는 점이다.
여기서 일반화라는 말을 나는 ‘뛰어난 유추 능력’이라고 표현하고 싶다. 뛰어난 유추 능력이란 예를 들면 이런 것이다. ‘사탕’, ‘캔디’, ‘목캔디’를 예로 들어보자. ‘사탕’, ‘캔디’는 자주 나타나는 단어다. 그런데 ‘사탕’, ‘목캔디’는 그보다는 덜하다. 사탕이 무엇이고 캔디가 무엇인지 상세하게 설명한 문서를 읽었을 수도 있지만, 이를 바탕으로 이해하기 보다는 용례적으로 사탕과 캔디가 더 서로 교환 가능하고 유사한 의미임을 학습하고 있다. ‘아이에게 사탕을 줄테니 얼른 씻으라고 했다.’ 라는 말, 데이터를 배웠다면 이를 ‘아이에게 캔디를 줄테니 얼른 씻으라고 했다.’가 ‘아이에게 목캔디를 줄테니 얼른 씻으라고 했다.’보다 있을 법한 일 임을 안다. 위는 용례의 일반화이다.
지식 전이의 예를 하나 들어보겠다. 만약 모델이 “인류는 히로시마와 나가사키에서 두 번의 원자폭탄 섬광을 실제로 보았다.”를 어디선가 읽었다면 이후 “지금까지 실전에 활용된 핵탄두의 수는 총 _”를 밑줄을 예측할 때 ‘3’보다 ‘2’가 더 확률적으로 높은 대답이라고 판단할 것이다. 이는 ‘두 번’, ‘2’, ‘원자폭탄’, ‘핵탄두’ 등이 유사한 의미라는 사실을 확률적으로 납득해야 한다. 이는 인간 지능에도 마찬가지다. 이러한 있을 법한 일을 더 빠르게 파악하는 유추 과정은 논리적 사고의 과정을 거치지 않고 순식간에 발현된다.
다른 대상, 다른 용법, 다른 환경, 심지어 다른 언어까지 이러한 유추에 기반한 일반화는 빠르게 일어난다. ‘5줄로 요약해’를 가르치면 ‘3줄로 요약해’는 어떤 지시 인지 따로 가르칠 필요가 없다. 언어모델이 일머리가 있어졌다. 지금까지는 경험할 수 없었던 거대한 언어공간에 기반한 일반화로 정말 사람과 대화한다는 느낌을 받을 수 있었다. 아마 OpenAI의 몇몇 연구진이 이를 최초로 발견했을 것이고 Microsoft의 경영진들이 이를 보고 받았고, 이어서 전세계 사람들이 2022년 11월 30일부터 이를 알게 되었다.
today we launched ChatGPT. try talking with it here: chat.openai.com – Sam Altman
물론 이러한 유추에 기반한 고도의 일반화 능력도 무한히 자연스럽게 확대될 수는 없다. 시간의 장벽, 언어의 장벽, 문화의 장벽, 그리고 논리성의 장벽이 존재한다. 언어의 장벽을 설명할 때 내가 즐겨 드는 예는 ‘추상화의 수준’ (granularity) 이다. 악기를 연주할 때 영어는 보통 ‘Play’라는 동사 하나로 대부분의 용례를 커버한다. Play the piano, guitar, drum 등. 하지만 한국어의 경우 피리를 불거나, 바이올린을 켜거나, 북을 친다고 표현한다. 언어 관점에서 동일한 정보가 아니며 한 쪽 언어를 압도적으로 많이 배울 경우 다른 언어로의 유추 과정에서 일정 부분의 오류가 발생할 수 있다.
또한 유추는 두 의미 혹은 상황의 유사성을 매우 빠르게 발견하기 위해 특화된 저수준의 사고 방식이다. 따라서 유추만으로 해결할 수 없는 보다 높은 수준의 사고 과정이 필요하다. 나는 이를 “언어로 표현되는 논리적 징검다리” 더 짧게는 “말로하는 코딩 과정”이라고 표현한다. 이를 다음으로 살펴보겠다.
두 번째는 언어모델의 혁신은, 다음 단어 예측과, 이 다음 단어 예측이 타당한지 검토하고 추론하는 사고 과정이 결합된 모델이다. 사람의 행동과 사고 과정이 단일 주체가 아닐 것이라는 의심은 꾸준히 제기되어 왔다. 길게는 프로이트의 이드, 에고, 슈퍼에고부터 시작하여, 최근의 마음챙김(Mindfulness)에 따른 경험하는 자아 (Experiencing Self)와 관찰하는 자신(Observing Self), 행동경제학의 System 1 적 사고와 System 2 사고까지 모두 인간 사고와 심리를 독립적으로 행동하는 몇 개 주체의 상호작용으로 해석하려는 시도를 지속해왔다.
나는 단일 주체로의 해석보다는 이러한 개념을 다층적으로 도입하고 이의 상호작용으로 해석하려는 노력이 훨씬 더 설득력있게 들린다. 왜냐하면 인간 지능도 틀림없는 진화의 산물이고 진화 과정은 전문성을 가진 기관(Organ)으로의 분화라고 생각한다. 이는 인간 개체 뿐 아니라, 그 대리인으로 작동하는 기업, 국가 등에서도 모두 관찰할 수 있다. 지능도 흔히 생존과 자동 반응을 담당하는 ‘파충류의 뇌’에서 시작하여 점점 더 복잡한 사고가 가능하게 하는 기관이 덧붙여진 형태로 발전해 왔다. 따라서 각 기관은 서로 다른 목적을 경주하는 별개로 존재하여 왔으며, 이렇게 진화하는 편이 하나의 기관이 손상되어도 개체의 생존은 유지되는 형태였을 것이다.
언어모델도 더 높은 층위의 사고 과정을 모방하기 시작했는데, 이는 단순한 다음 단어의 확률적인 예측으로는 풀 수 없는 어려운 문제를 해결하기 위함이었다. 그 첫 번째로 ‘사고 과정’ (Reasoning)이 도입되었다. 위에서 언급한 경험하는 자아나 이드, System 1 사고는 모두 다음 단어 예측과 유사한 패턴을 가진다. 미래를 예측하지 않고, 반사적으로 반응하며, 여러 대안이 동시에 떠오르지 않는다. 따라서 결과의 재검토가 어렵다. 그 결과 지능은 때때로 장기적으로는 손해인 결정을 하는데, 이는 복잡한 문제를 해결하는 것에는 치명적인 오류이다. 앞서 확률적으로 높은 결정을 해버리면 돌이킬 수 없다. 우리는 더 넓은 대안을 탐색할 싹을 잘라버릴 수 있다.
사고 과정을 위한 몇 가지 디자인 요소가 도입되었다. 첫 번째로 ‘다음 단어 예측’ 과정 과의 완전한 분리다. 이전에도 학습 과정 중 ‘Chain of Thought’ 방식의 데이터를 일정 수준 주입하면 복잡한 문제를 해결하는 능력이 향상되어 있다고 알려져있었다. 명시적 사고 과정 도입을 위해서는 학습이나 추론(Inference) 과정에서 <think> 같은 별도의 토큰을 사용하거나 그 보다 더 복잡한 방식으로 답변과 사고의 과정을 분리해낸다. 이 분리된 채널은 질문에 대한 마지막 답변의 앞에 생성됨으로써 사고 과정을 통해 답변을 생성토록 유도되었다.
두 번째로는 학습의 목적을 달리 가져간다. 기존의 ‘다음 단어 예측'(Autoregressive) 방식이 아닌 사고 과정에서 내뱉은 결과의 정답 여부나, 그 과정이 올바르게 전개 되었는지를 별도 모델로 평가하고 더 올바른 방향의 전개를 선호하도록 학습한다. 즉, 충분히 다양한 대안을 탐색할 수 있도록 모델의 잠재력을 끌어올리고, 더 올바른 방향을 선호하게 정렬해가는 과정을 거치면서 모델은 점점 더 어려운 문제를 해결할 수 있게 진화해 나간다. 이 사고 과정을 살펴보면 인간의 논리적 사고와는 다르게 엄청나게 긴, 때로는 수십 페이지 규모의 논리적 전개 흐름을 볼 수 있다. 이 과정에서 언어모델은 답을 제시하거나, 조건을 판단하거나, 논리를 전개하거나, 오류를 검증하거나, 대안을 찾아내는 작업을 무수히 반복한다. 모델을 학습 하는 과정은 일종의 확률적 공간을 구축하는 것이라 할 수 있는데, 추론 과정에서는 이 확률 공간 내 가장 유망한 하나의 루트를 개척하는 것이 아니라 수백번의 서로 다른 시도를 하여 결론에 도달하는 것이다.
이 과정은 흡사 전산학에서의 Tree나 Graph Search 과정을 보는 것 같기도 하다. 앞서서 말한 말로 하는 수식 전개나 코딩과도 유사해보인다. 단순 자연어 질의를 주고 받는 Chat 모델에서 발전하여 이러한 논리적 사고를 통해 해결하려고 하는 첫 번째 영역이 수학 문제의 풀이나 코드 영역이 된 것은 단순한 우연이 아니다. 검증 가능한 축적된 데이터를 많이 확보하고 있기도 하고, 이를 통해 대체가능한 일, 사람의 단가가 매우 높기도 하고, 마지막으로는 이런 과정을 학습하면서 언어모델의 전반적인 논리적 추론 능력을 크게 향상 시킬 수 있기 때문이다. 논리적 전개의 방법은 어느 영역이나 언어도 유사하다. 단기적으로는 검증 가능한 모든 일이 언어모델이 가능한 일이 될 것이다.
최근의 모델 활용은 이와 같은 추론 시 탐색 과정, 즉 Test Time 활용을 극대화 한다. 따라서 기존의 방법보다 훨씬 더 많은 GPU 자원, 소위 토큰을 활용한다. 인간의 두뇌도 마찬가지다. 앞서서 말한 1번의 다음 단어 예측기는 에너지를 거의 소비하지 않는다. 하지만 사고 과정은 집중(Attention)이 필요하며, 되돌아 가기 위한 상태 복원용 기억(Memory)가 필요하다. 인간이나 GPU 모두 엄청나게 많은 에너지가 필요하다. 실제로 두뇌도 뜨거워지고, GPU도 뜨거워진다. 휴식하거나 식혀야 한다. 이러한 부작용을 방지하기 위해 인간은 선택적 집중을 통해 에너지를 최소화 하도록 진화했다. 나는 언어모델의 환각(Hallucination) 현상도 일부는 이러한 에너지 최소화 추구가 원인이라고 생각한다.
이러한 사고 과정 강화, 추론 모델은 OpenAI-o1으로 처음 대중에게 공개, 상용화 되었으며 그 시점은 2024년 12월로 ChatGPT가 처음 선보인 후 2년이 지났을 무렵이었다. 지금은 거의 대부분의 모델이 추론 기능을 사용한다. 단지 드러내지 않을 뿐이다.
마지막은 현재 활발하게 연구되고 있는 단계다. 언어모델은 그 생성 공간을 외부 개입 없이 무한한 탐색 공간으로 확장하는 자기 회귀적 진화(Autonomous AI)로 나아가고 있다. 자세히 공개되진 않았지만 아마 OpenAI나 Anthropic 연구실에서는 이미 상당한 실적을 내고 있을 것이다. 다른 모든 것을 자동화 하는 AI인데, 스스로의 학습을 자동화 하지 못할 이유는 무엇인가? 1700년대 이후 인간 이성의 급격한 발전이래 인류는 외계인의 도움을 받지 않고 스스로 탐구하고 미지의 지평을 넓혀 왔다. 외계인을 고문해서 얻어낸 지식이 아니다. AI도 스스로 이러한 탐구 과정을 따라하거나, 아니면 곧 인간이 AI에게 이러한 패턴을 따라 하게 만들 것이다.
언어모델 학습을 위한 자연(Organic) 토큰 데이터는 이미 소진 되었다고 한다. 언어모델이 생성한 합성(Synthetic) 데이터에 의존하는 비율은 지속하여 늘어나고 있다. 심지어 거의 모든 학습 데이터를 합성하여 이용한 언어모델도 공개되고 있다. 이런 모델들은 통상 일상 대화 능력보다는 복잡한 코딩이나 업무 수행 능력에 초점을 맞추어 학습 된다. 대화할 인격은 없지만 논리적 사고를 뛰어나게 잘한다. 학습 데이터 중 합성된 논리 데이터 비율이 50%가 넘었다는 말은, 이미 AI가 생성한 데이터로 AI를 스스로 학습시킨다는 의미다.
스스로 자기(나는 아니라고 생각하지만 혹여나 모델에 자아가 있다면)에게 도움이 되는 데이터를 검색하거나 수집하거나 정제하고, 만약 필요한 지식이 있다면 스스로 합성하여 증강한다. 이를 위해 나의 생각이 짧다고 느끼면 필요한 다른 모델과 논의하거나 협업할 수 있다. 보다 높은 수준의 연구, 진보를 위한 인간 행위를 그대로 따라 할 수 있다. 이 과정이 지난 수백년 간 인간이 했던 것 이상, 적어도 십만 배는 빠른 속도로 진행될 수 있다. 나는 ‘특이점’이 이 순간 발현 되리라 생각한다. 약 두 주 전 손정의 회장이 ‘초인공지능’을 언급하며 이러한 지능 폭발이 앞으로 2년이내 달성 가능하리라 예측했다.
과거를 돌이켜보면 인간 지능 발전과 연구를 위해 필요한 조건이 몇 가지 있었다. AI의 발전도 인류가 성취한 연구 과정과 다르지 않다.
첫 번째로는 ‘외부 지식’의 습득이 있어야 한다. 지능이 폭발적으로 발전하려면 외부의 지식이 있어야 한다. 인간은 글자를 읽고, 언어 모델은 Token을 읽는다. 때로는 검색된 외부 문서를 보고 내는 답이 더 정확할 수 있다. 이렇게 얻은 지식은 당연히 내가 알고 있는 것이 아닌 변화를 추동하기 위한 외부의 것이다. 고립된 시스템은 빠르게 발전하지 못한다.
두 번째로는 ‘외부 지능’과의 협력이 있어야 한다. 더 나은 결과를 내기 위한 생각의 과정과 결론의 비교가 필요하다. 인간이 논문을 출판하고, 학회를 개최하는 것은 이런 집단 지능으로 보다 거대한 인류의 지능을 만들어 내기 위함이다. 교류가 늘어날 수록 발전의 속도도 빨라진다. 빠른 교류는 결국 시스템의 통합이다. 탐색의 범위가 갑자기 확장되고, 생각치 못했던 것이 오류라고 밝혀진다.
마지막으로 ‘검증과 성찰’이 필요하다. 연구 시스템에 합의에 의해 도달한 결론이 기여하려면 반드시 검증이라는 과정을 거쳐야 한다. 검증된 지식과 결론만 선별하여, 그 것이 한 인간이건, 연구 팀이건, 학계 던 자아 성찰이라는 과정을 통해 다음 행위에 영향을 주어야 한다. 이는 모델을 강화학습 과정을 통해 개선 시키는 것과 비슷하다.
인류의 대단한 성취는 모두 양의 되먹임(Positive Feedback)에 의해 만들어 졌다고 생각한다. 언어모델은 이미 인간이 만든 모든 디지털 지식을 읽었다. 다음 단계는 그 지식을 이용해 새로운 지식을 생산하는 것이다. 만약 AI가 위에서 언급한 세 가지 단계를 완성시켜 인간 연구자 수준으로 올라선다면, 가설을 세우고 실험하고 검증할 수 있게 된다면, 그 순간부터는 단순한 수용적 학습이 아니라 자기 증폭적 지식 생산 과정이 시작된다. 인간이 지난 수백 년 동안 과학 혁명을 통해 걸어온 길을 AI는 수년 혹은 수개월 단위로 반복할지도 모른다. 그 순간 인류는 ‘지능’과 ‘과학’이라는 용어를 재정의해야 한다.