Step 18 GPT: 텍스트 생성의 시작

Decoder-only 구조 — ChatGPT의 조상 (GPT / KoGPT2)

1. BERT vs GPT: 무엇이 다른가?

Step 15의 RoBERTa(BERT 계열)는 이해(Understanding)에 특화된 모델이었습니다. GPT는 반대로 생성(Generation)에 특화된 모델입니다. 같은 Transformer지만 방향이 다릅니다.

📊 BERT vs GPT 핵심 비교

구분BERT / RoBERTaGPT
구조Encoder-onlyDecoder-only
어텐션 방향양방향 (앞뒤 모두 봄)단방향 (앞만 봄)
사전학습 방식Masked Language ModelNext Token Prediction
강점문장 이해, 분류텍스트 생성
대표 활용감정분석, QA, NER번역, 요약, 대화, 창작
ChatGPT의 조상✅ GPT → GPT-2 → GPT-3 → ChatGPT

2. GPT의 핵심: Next Token Prediction

GPT의 학습 방법은 단순합니다. "다음 단어를 맞춰라!"
별도 라벨 없이 텍스트 자체가 정답이 되는 자기지도학습(Self-supervised Learning)입니다.

🎯 Next Token Prediction 시각화

학습 시: 각 위치에서 다음 토큰 예측 나는 밥을 먹고 싶다 <EOS> 나는 밥을 먹고 싶다 <EOS> → "밥을" 예측 → "먹고" 예측 → "싶다" 예측 → EOS 예측 Causal Masking (인과 마스킹) "먹고"를 예측할 때 → "나는", "밥을"만 볼 수 있음 "싶다", "<EOS>"는 미래이므로 볼 수 없음 (미래 정보 차단) → BERT와 달리 오른쪽(미래) 토큰을 보지 않기 때문에 생성이 가능!

3. GPT 텍스트 생성 과정

🔄 Autoregressive 생성

텍스트를 한 토큰씩 순서대로 생성 오늘 GPT "날씨가" Step 1 오늘 날씨가 GPT "좋다" Step 2 오늘 날씨가 좋다 GPT <EOS> Step 3 (종료) 최종 생성 결과 "오늘 날씨가 좋다" EOS 토큰이 나오면 생성 종료

4. GPT 계보

📅 GPT 발전 역사

모델연도파라미터특징
GPT-12018117MDecoder-only 구조 최초 제안
GPT-220191.5B"너무 위험해서 공개 못 함" (나중에 공개)
GPT-32020175BFew-shot learning, 세상을 놀라게 함
ChatGPT2022미공개GPT-3.5 + RLHF, 1억 명 돌파
GPT-42023미공개멀티모달, 현재 최강
KoGPT22021125M한국어 특화 GPT-2, SKT 개발

5. KoGPT2: 한국어 GPT

KoGPT2는 SKT가 GPT-2 구조를 한국어 데이터로 학습시킨 모델입니다. 한국어 텍스트 생성에 특화되어 있으며, 무료로 공개되어 있습니다.

🇰🇷 GPT-2 vs KoGPT2

구분GPT-2 (OpenAI)KoGPT2 (SKT)
학습 언어영어 위주한국어 위주
학습 데이터WebText (40GB)한국어 웹 텍스트 40GB+
토크나이저BPE (영어 최적화)Sentencepiece (한국어 최적화)
한국어 생성어색함자연스러움
공개 여부일부 공개완전 공개 (HuggingFace)

6. GPT 실습 노트북

아래 두 노트북에서 GPT-2와 KoGPT2를 직접 실습합니다.

① GPT-2 (영어)

② KoGPT2 (한국어)