본문 바로가기
아는게 힘이다/과학, 공학

ChatGPT는 어떻게 우리 곁으로 왔을까?

by 후쿠선장 2025. 7. 30.
반응형
주사위에서 챗봇까지: ChatGPT는 어떻게 우리 곁으로 왔을까?

주사위에서 챗봇까지: ChatGPT는 어떻게 우리 곁으로 왔을까?

최첨단 기술의 상징인 ChatGPT, 그 시작이 모나코의 한 카지노에서 비롯되었다면 믿으시겠어요? 거대 언어모델(LLM)의 장대한 변천사를 따라가 봅니다.

2022년 겨울, 세상은 마치 마법처럼 등장한 인공지능 챗봇, ChatGPT에 열광했습니다. 하룻밤 사이에 나타난 듯한 이 놀라운 기술은 우리의 질문에 막힘없이 답하고, 시를 쓰고, 코드를 짜주며 전 세계를 충격에 빠뜨렸습니다. 마치 공상 과학 영화 속 미래가 갑자기 현실이 된 것 같았죠.

하지만 이 모든 것이 정말 하룻밤 만에 이루어진 기적이었을까요? 아니면 우리가 미처 알지 못했던 수십 년간의 끈질긴 여정 끝에 맺어진 결실이었을까요? 이 질문에 답하기 위해, 우리는 시간을 거슬러 올라가야 합니다. 놀랍게도 그 여정의 시작은 최첨단 컴퓨터 연구소가 아닌, 우연과 확률이 지배하는 모나코의 한 카지노에서 영감을 얻은 아이디어에서 출발합니다. 지금부터 주사위 던지기에서 시작해 ChatGPT에 이르기까지, 거대 언어모델(LLM)의 장대한 변천사를 함께 따라가 보겠습니다.

1장. 카지노의 비밀: 불확실성을 길들인 몬테카를로 알고리즘

인공지능의 역사를 이야기하는데 웬 카지노냐고요? 모든 것의 시작에는 '몬테카를로 알고리즘'이라는 독특한 이름의 방법론이 있습니다. 이 이름은 모나코의 유명한 도박 도시, 몬테카를로에서 따온 것으로, 그 원리 또한 도박의 확률 게임과 깊은 관련이 있습니다.

몬테카를로 방법의 핵심은 '무작위로 많이 해보는 것'입니다. 수학적으로 완벽하게 계산하기 너무 복잡하거나 불가능한 문제에 부딪혔을 때, 무수히 많은 무작위 시도를 통해 그 해답에 가까운 근사치를 얻어내는 기법이죠.

가장 고전적인 예는 원주율(π) 값을 구하는 문제입니다. 정사각형 안에 꼭 맞는 원을 그리고, 그 안에 무작위로 수많은 점을 찍는다고 상상해 보세요. 점들이 충분히 많고 고르게 분포한다면, 정사각형 전체에 찍힌 점의 개수와 원 안에 찍힌 점의 개수의 비율은 정사각형의 넓이와 원의 넓이 비율과 거의 같아질 겁니다. 이 비율을 이용해 원주율의 근사치를 계산할 수 있죠.

이 아이디어가 초기 인공지능 연구에 중요했던 이유는 바로 '탐색 문제' 때문이었습니다. 체스나 바둑처럼 경우의 수가 무한에 가까운 게임에서 모든 경우의 수를 계산하는 것은 불가능합니다. 이때 몬테카를로 방법은 모든 길을 다 가보는 대신, 무작위로 몇 개의 유망한 경로를 탐색해보고 그 결과를 바탕으로 최적의 수를 추정하는 방식으로 활용될 수 있었습니다. 훗날 이세돌 9단을 꺾은 '알파고' 역시 이 아이디어를 계승한 '몬테카를로 트리 탐색(MCTS)'이라는 훨씬 정교한 알고리즘을 핵심 무기로 사용했습니다.

몬테카를로 방법의 등장은 '하나의 완벽한 정답'을 추구하던 기존 계산 패러다임에서 '수많은 시도를 통한 확률적 근사치'라는 새로운 길을 열었습니다. 이는 복잡하고 불확실한 현실 세계의 문제를 해결하기 위한 첫걸음이었으며, 확률에 기반해 가장 그럴듯한 답을 찾아가는 이 접근 방식은 훗날 다음 단어를 확률적으로 예측하는 거대 언어모델의 기본 철학과도 맞닿아 있습니다.

2장. 인공지능의 탄생과 두 갈래 길

몬테카를로 방법이 확률적 접근의 씨앗을 뿌렸다면, 인공지능이라는 분야가 공식적으로 싹을 틔운 곳은 1956년 여름, 미국 다트머스 대학에서 열린 역사적인 워크숍이었습니다. 젊은 수학자 존 매카시는 이 워크숍에서 "기계가 지능을 모방하도록 만들 수 있다"는 대담한 가설을 내세우며, '인공지능(Artificial Intelligence)'이라는 용어를 처음으로 세상에 알렸습니다.

이 모임을 기점으로, AI 연구는 크게 두 가지 방향으로 나뉘어 발전하기 시작했습니다.

첫 번째 길은 '기호주의(Symbolism)' 또는 '하향식(Top-down)' 접근법입니다. 이들은 인간의 지능을 논리적인 규칙과 기호 조작의 결과물로 보았습니다. 인간의 지식과 추론 과정을 명시적인 규칙으로 프로그래밍할 수 있다면 기계도 생각할 수 있다고 믿었죠.

두 번째 길은 '연결주의(Connectionism)' 또는 '상향식(Bottom-up)' 접근법입니다. 이들은 인간의 뇌 구조에서 영감을 얻었습니다. 수많은 신경세포(뉴런)들이 서로 연결되어 학습과 기억이 일어나는 것처럼, 단순한 계산 장치(인공 뉴런)들을 대규모로 연결하면 지능이 저절로 창발할 것이라고 생각했습니다.

그리고 이 연결주의 진영에서 세상을 바꿀 첫 번째 영웅이 등장합니다. 1958년, 심리학자 프랭크 로젠블랫이 개발한 '퍼셉트론(Perceptron)'이 바로 그 주인공입니다. 퍼셉트론은 뇌의 뉴런을 모방한 최초의 실용적인 인공 신경망 모델로, 여러 입력을 받아 가중치를 곱하고 그 합이 특정 임계값을 넘으면 활성화되는 단순한 구조였습니다. 혁신적인 점은 이 가중치를 데이터로부터 '학습'할 수 있다는 것이었습니다. 퍼셉트론의 등장은 기계가 경험을 통해 배울 수 있다는 연결주의의 가능성을 현실로 보여준 기념비적인 사건이었습니다.

3장. 첫 번째 겨울: AI를 좌절시킨 XOR 문제

퍼셉트론의 등장은 AI 연구계에 엄청난 낙관론을 불어넣었습니다. 이 단순한 인공 뉴런은 AND나 OR 같은 몇 가지 논리 연산을 스스로 학습해냈죠. 이 문제들은 '선형 분리'가 가능, 즉 좌표 평면에서 하나의 직선으로 정답과 오답을 완벽하게 나눌 수 있다는 공통점이 있었습니다.

하지만 이 낙관론은 'XOR(배타적 논리합)'이라는 아주 간단해 보이는 문제 앞에서 속수무책으로 무너졌습니다. XOR은 두 입력값이 서로 '다를' 때만 1을 출력하는데, 이 결과는 어떤 직선을 그어도 정답과 오답을 나눌 수 없습니다.

1969년, MIT의 마빈 민스키와 시모어 페퍼트는 저서 『퍼셉트론』에서 이 한계를 수학적으로 증명하며 연결주의 연구에 찬물을 끼얹었습니다. 이 사건의 파장은 엄청났습니다. "AI가 이렇게 단순한 문제도 못 푼다니!"라는 비판이 쏟아졌고, AI에 대한 기대는 실망으로 바뀌었습니다. 이는 AI 연구에 대한 투자가 급격히 줄어드는 'AI 겨울(AI Winter)'을 불러왔습니다.

결국 퍼셉트론의 실패는 연결주의 아이디어 자체의 실패가 아니라, 그 '단순함'의 실패였습니다. 이 혹독한 겨울은 연구자들에게 복잡한 세상을 모델링하기 위해서는 모델 자체도 더 깊고 복잡해져야 한다는, 즉 '딥러닝'으로 나아가야 한다는 중요한 교훈을 남겼습니다.

4장. 암흑기를 끝낸 구원투수: 다층 퍼셉트론과 역전파 알고리즘

첫 번째 AI 겨울이라는 긴 터널의 끝에서 빛을 밝힌 것은 "하나의 선으로 안 되면, 여러 개의 선을 쓰면 되지 않을까?"라는 단순한 아이디어였습니다. 이 발상의 전환을 구현한 것이 바로 '다층 퍼셉트론(Multi-Layer Perceptron, MLP)'입니다. MLP는 입력층과 출력층 사이에 하나 이상의 '은닉층(hidden layer)'을 추가한 구조입니다.

은닉층을 추가하는 것은 평평한 종이를 접거나 구부릴 수 있는 능력을 얻는 것과 같습니다. 공간을 적절히 왜곡시키면, 원래는 직선으로 나눌 수 없었던 점들도 간단히 나눌 수 있게 되는 것이죠. 즉, 은닉층은 입력 데이터를 더 높은 차원의 공간으로 보내거나 비선형적으로 변환하여 문제를 더 쉽게 만들어주는 역할을 합니다.

하지만 이 복잡한 네트워크를 어떻게 '학습'시켜야 할까요? 이 난제를 해결하며 딥러닝의 심장을 뛰게 만든 알고리즘이 바로 '오차 역전파(Backpropagation)'입니다. 역전파는 최종 결과의 오차를 네트워크의 끝에서부터 시작 방향으로 거꾸로 전파시키며, 각 연결(가중치)이 오차에 얼마나 기여했는지('책임'을 묻는 과정)를 계산하여 가중치를 조금씩 수정해나가는 방식입니다.

MLP와 역전파 알고리즘의 결합은 AI 역사상 가장 중요한 돌파구 중 하나였습니다. 드디어 AI는 깊은 신경망을 학습시킬 수 있는 강력한 무기를 손에 넣었고, 딥러닝이라는 거대한 혁명의 서막을 열었습니다.

5장. 2012년, 딥러닝의 빅뱅: 이미지넷 챌린지와 AlexNet

1980년대에 이론적 무기는 갖춰졌지만, 딥러닝은 여전히 잠재력을 폭발시키지 못했습니다. 이 상황을 극적으로 바꾼 두 가지 요소는 바로 '빅데이터''GPU'였습니다.

2009년 공개된 '이미지넷(ImageNet)'은 1,400만 장이 넘는 방대한 이미지 데이터로, 깊은 신경망이 세상을 학습할 최고의 교과서가 되어주었습니다. 동시에 게임 그래픽 처리를 위해 개발된 GPU의 강력한 병렬 연산 능력은 딥러닝 훈련 시간을 획기적으로 단축시켰습니다.

'알고리즘', '데이터', '하드웨어'라는 삼위일체가 마침내 완성되었고, 2012년 '이미지넷 대규모 영상 인식 챌린지(ILSVRC)'에서 역사적인 사건이 일어납니다. 제프리 힌튼 교수 팀의 'AlexNet'이라는 심층 합성곱 신경망(CNN)이 15.3%라는 압도적인 오류율로 우승을 차지한 것입니다. 2위 팀의 오류율(26.2%)과 비교하면, 그야말로 경쟁자들을 멀찌감치 따돌린 경이로운 성과였죠.

AlexNet의 성공은 단순히 층을 깊게 쌓은 것뿐만 아니라, ReLU 활성화 함수, 드롭아웃, GPU 활용 등 당시로서는 혁신적인 여러 기술을 집대성했기 때문입니다. 이 사건을 계기로 AI 연구 패러다임은 완전히 뒤바뀌었고, '규모가 곧 성능'이라는 믿음은 훗날 거대 언어모델의 등장을 예고하는 신호탄이 되었습니다.

6장. 시간의 흐름을 이해하기: 순환 신경망(RNN)의 등장과 한계

AlexNet이 정적인 이미지의 세계를 정복한 후, AI 연구자들의 시선은 '순서'가 중요한 데이터, 즉 순차 데이터(Sequential Data)로 향했습니다. 언어, 주가, 음악처럼 앞선 내용이 뒤따라오는 내용에 영향을 미치는 데이터들이죠.

이 문제를 해결하기 위해 등장한 모델이 바로 '순환 신경망(Recurrent Neural Network, RNN)'입니다. RNN의 핵심 아이디어는 '기억'입니다. 네트워크 내부에 '순환'하는 고리를 만들어 이전 단계의 정보를 현재 단계의 계산에 반영하죠.

하지만 RNN에는 치명적인 약점이 있었습니다. 바로 기억력이 형편없다는 '장기 의존성 문제(Long-Term Dependency Problem)'였죠. 문장이 길어질수록 초반부의 중요한 정보가 뒤로 갈수록 점점 희미해져 결국 사라져 버리는 현상입니다. 이는 역전파 과정에서 기울기가 점차 0에 가깝게 사라지는 '기울기 소실 문제(Vanishing Gradient Problem)' 때문이었습니다.

이 문제를 해결하기 위해 'LSTM(Long Short-Term Memory)''GRU(Gated Recurrent Unit)' 같은 개선된 모델이 등장했습니다. 이 모델들은 '게이트(Gate)'라는 정교한 장치를 도입하여 어떤 정보를 기억하고, 잊고, 출력할지를 결정함으로써 중요한 정보를 훨씬 더 오랫동안 기억할 수 있게 했습니다. 하지만 여전히 순차적으로 데이터를 처리해야 한다는 근본적인 한계는 남아있었습니다.

7장. "Attention Is All You Need": 세상을 바꾼 트랜스포머

2017년, 구글 연구원들이 발표한 "Attention Is All You Need"라는 논문이 모든 것을 바꿔놓았습니다. 이 논문은 '트랜스포머(Transformer)'라는 혁신적인 아키텍처를 선보이며, 지난 수십 년간 순차 데이터 처리의 근간이었던 '순환(recurrence)' 구조를 완전히 버렸습니다.

트랜스포머는 단어를 하나씩 순서대로 처리하는 대신, '셀프 어텐션(Self-Attention)'이라는 메커니즘을 통해 모든 단어를 한 번에 펼쳐놓고 각 단어가 문장 내 다른 모든 단어와 어떤 관계를 맺고 있는지 동시에 계산합니다.

이 메커니즘은 '쿼리(Query)', '키(Key)', '밸류(Value)'라는 세 가지 벡터를 통해 작동합니다. 특정 단어의 '쿼리'를 문장 내 모든 단어의 '키'와 비교하여 연관성 점수를 계산하고, 이 점수를 가중치로 삼아 각 단어의 '밸류'를 조합함으로써 문맥을 풍부하게 반영한 새로운 표현을 만들어냅니다.

트랜스포머는 여기서 한 걸음 더 나아가 '멀티-헤드 어텐션(Multi-Head Attention)'을 사용합니다. 여러 개의 '헤드'가 각각 다른 관점(예: 문법적 관계, 의미적 관계 등)에서 단어 간의 관계를 병렬적으로 학습한 뒤, 그 결과를 종합하여 훨씬 더 깊이 있는 문맥 이해를 가능하게 합니다.

순차 처리라는 족쇄를 완전히 벗어던진 트랜스포머는 장기 의존성 문제를 근본적으로 해결했을 뿐만 아니라, 모든 계산을 병렬로 처리할 수 있게 되면서 현대 GPU 하드웨어의 성능을 극한까지 활용할 수 있게 했습니다. 이 압도적인 효율성은 이전에는 상상조차 할 수 없었던 '거대(Large)' 언어모델의 시대를 열었습니다.

8장. 거인의 시대: 문맥을 이해하는 BERT와 이야기를 만드는 GPT

트랜스포머라는 강력한 아키텍처가 등장하자, 이를 기반으로 한 두 개의 거대한 모델 가문이 탄생하여 자연어 처리의 세계를 양분하게 됩니다. 하나는 문맥을 깊이 있게 '이해'하는 데 특화된 BERT이고, 다른 하나는 유창하게 이야기를 '생성'하는 데 특화된 GPT입니다.

BERT: 문맥의 탐정

BERT(Bidirectional Encoder Representations from Transformers)는 트랜스포머의 인코더 구조를 활용합니다. BERT의 학습 방식은 '빈칸 채우기' 문제와 같은 '마스크 언어 모델(Masked Language Model, MLM)'입니다. 문장의 일부 단어를 가리고, 앞뒤 문맥을 모두 살펴본 뒤 빈칸에 들어갈 원래 단어를 예측하도록 훈련되죠. 이처럼 문장의 전체 맥락을 양방향으로 동시에 고려하기 때문에, BERT는 단어의 미묘한 의미 차이를 파악하는 데 매우 뛰어난 능력을 보이며, 구글 검색 엔진 등에 활용되어 검색어의 의도를 정확히 파악하는 데 기여했습니다.

GPT: 창의적인 이야기꾼

반면, GPT(Generative Pre-trained Transformer)는 트랜스포머의 디코더 구조를 기반으로 합니다. GPT의 학습 방식은 '다음 단어 예측(Next Token Prediction)'입니다. 주어진 문장의 일부를 보고 그 다음에 올 가장 확률이 높은 단어를 맞추는 훈련을 무한히 반복하죠. 이 '자기회귀적(Autoregressive)' 방식 때문에 GPT는 새로운 텍스트를 창의적으로 생성하는 데 매우 강력한 힘을 발휘합니다.

GPT의 진정한 잠재력은 모델의 크기가 폭발적으로 증가하면서 드러났습니다. 특히 1,750억 개의 파라미터를 가진 GPT-3는 별도의 훈련 없이 단 몇 개의 예시만 보여주면(이를 '퓨샷 학습, Few-shot learning'이라 합니다) 새로운 작업을 즉석에서 수행하는 놀라운 능력을 보여주었습니다. GPT는 단순한 텍스트 생성기를 넘어, 범용적인 언어 문제 해결사로의 가능성을 처음으로 보여주었습니다.

9장. 인간적인 AI의 탄생: ChatGPT의 비밀, RLHF와 DPO

GPT-3는 경이로웠지만, 때로는 사실과 다른 내용을 지어내거나(환각 현상), 유해한 내용을 생성하기도 했습니다. 모델이 인간의 의도와 가치에 부합하도록 '정렬(Alignment)'하는 과정이 필요했죠.

이 문제를 해결하고 ChatGPT를 탄생시킨 핵심 기술이 바로 '인간 피드백을 통한 강화학습(Reinforcement Learning from Human Feedback, RLHF)'입니다. RLHF는 총 3단계에 걸쳐 모델을 조련하는 과정입니다.

  1. 1단계: 지시 튜닝 (Supervised Fine-Tuning, SFT): 사전 훈련된 모델에게 '지시-모범 답안'으로 구성된 고품질 데이터셋을 학습시켜, 사용자의 지시를 따르고 대화 형식으로 답변하는 기본 능력을 갖추게 합니다.
  2. 2단계: 보상 모델 훈련 (Reward Model Training): 인간 평가자가 여러 답변에 대해 선호도 순위를 매기면, 이 데이터를 학습하여 어떤 답변이 인간을 더 만족시킬지 점수로 예측하는 '보상 모델(심판 AI)'을 만듭니다.
  3. 3단계: 강화학습을 통한 미세 조정: 1단계 모델이 생성한 답변을 2단계 보상 모델이 채점하고, 모델은 더 높은 점수(보상)를 받는 방향으로 자신의 파라미터를 계속 수정해 나갑니다. 이 과정을 통해 모델은 점차 더 유용하고, 정직하며, 무해한 답변을 생성하도록 학습됩니다.

최근에는 RLHF의 복잡성을 개선한 '직접 선호 최적화(Direct Preference Optimization, DPO)'가 주목받고 있습니다. DPO는 별도의 보상 모델 없이 인간의 선호도 데이터 쌍을 이용해 언어모델을 직접 최적화하는 더 간단하고 안정적인 방법으로, 차세대 모델 정렬 기술로 각광받고 있습니다.

10장. 세계는 LLM 전쟁 중: 대한민국 대표 선수들은 누구?

ChatGPT의 등장은 전 세계 테크 산업에 '거대 언어모델(LLM) 전쟁'의 서막을 열었습니다. 글로벌 기업들이 치열한 경쟁을 벌이는 가운데, '소버린 AI(Sovereign AI)', 즉 기술 주권의 중요성이 대두되었습니다. 한국의 독특한 언어, 문화, 역사적 맥락을 깊이 있게 이해하는 자체 LLM 개발에 국내 기업들도 사활을 걸고 있습니다. 대한민국의 LLM 대표 선수들을 소개합니다.

대한민국 LLM 대표선수 비교
개발사 모델명 주요 특징
네이버 HyperCLOVA X 방대한 네이버 데이터 기반, 한국어 특화, 'Thinking' 기능, 자사 서비스(검색, 쇼핑 등) 연동
카카오 Kanana (구 KoGPT) 오픈소스(상업적 활용 가능), 경량화 및 효율성, 한국어 성능 우수, 멀티모달 지원
SKT A.X (에이닷엑스) '프롬 스크래치' 자체 개발, 멀티모달(VLM), 고성능 문서 인코더, 통신 특화
LG AI 연구원 EXAONE 전문가용 AI, 추론+생성 하이브리드, 수학/코딩/과학 등 전문분야 특화
업스테이지 SOLAR 경량 모델(SLM)로 최고 수준 성능, 높은 효율성 및 비용효과, 글로벌 리더보드 1위

이처럼 치열해지는 경쟁 속에서 국내 LLM들의 성능을 객관적으로 비교하고 평가하기 위한 노력도 함께 이루어지고 있습니다. 업스테이지가 주도하여 만든 'Open Ko-LLM 리더보드'는 한국어 능력을 평가하는 표준화된 벤치마크를 통해 국내 AI 생태계 발전에 기여하고 있습니다.

결론: 에이전트 AI를 향하여, 그리고 우리 앞의 과제

주사위를 던져 확률을 계산하던 아이디어에서 출발한 인공지능의 여정은, 70여 년이 지난 지금 인간처럼 대화하고 창작하는 거대 언어모델의 시대를 열었습니다. 하지만 기술의 진화는 여기서 멈추지 않습니다. 전문가들은 LLM의 다음 단계로 '에이전트 AI(Agentic AI)'를 주목하고 있습니다.

에이전트 AI는 단순히 질문에 답하는 수동적인 챗봇을 넘어, 스스로 목표를 설정하고, 계획을 세우며, 인터넷 검색이나 코드 실행과 같은 '도구'를 사용하여 복잡한 과업을 자율적으로 수행하는 시스템입니다. 이는 AI가 수동적인 정보 생성자에서 능동적인 문제 해결사로 진화하는 거대한 패러다임의 전환을 의미합니다.

이처럼 눈부신 미래를 향해 달려가는 길목에서, AI 분야의 거장들은 서로 다른 방향을 가리키고 있습니다. '딥러닝의 대부' 제프리 힌튼은 현재의 LLM이 인간을 뛰어넘는 '초지능'으로 발전할 수 있음을 경고하며 안전의 중요성을 강조합니다. 반면, 또 다른 거장 얀 르쿤은 현재의 LLM이 현실 세계에 대한 근본적인 이해, 즉 '상식'이 결여되어 있다며, 세상을 이해하는 '세계 모델(World Model)'이라는 새로운 아키텍처가 필요하다고 주장합니다.

이들의 논쟁은 우리가 기술의 정점에 다다른 것이 아니라, 이제 막 새로운 대륙의 해안에 도착했음을 시사합니다. 그리고 이 강력한 신기술은 우리에게 편향과 공정성, 가짜 정보, 책임과 투명성, 경제적·사회적 영향 등 수많은 과제를 안겨줍니다.

카지노의 확률 게임에서 시작된 작은 아이디어는 이제 인류의 미래를 좌우할 거대한 기술이 되었습니다. 이 여정은 더 이상 소수의 과학자와 엔지니어들만의 이야기가 아닙니다. 이 강력하고 새로운 지능을 어떻게 개발하고, 우리 사회에 어떻게 책임감 있게 통합할 것인지를 결정하는 다음 장은, 바로 우리 모두의 손에 달려 있습니다.

반응형