Step 18 GPT: 텍스트 생성의 시작

Decoder-only 구조 — ChatGPT의 조상 (GPT / KoGPT2)

1. BERT vs GPT: 무엇이 다른가?

Step 15의 RoBERTa(BERT 계열)는 이해(Understanding)에 특화된 모델이었습니다. GPT는 반대로 생성(Generation)에 특화된 모델입니다. 같은 Transformer지만 방향이 다릅니다.

📊 BERT vs GPT 핵심 비교

구분	BERT / RoBERTa	GPT
구조	Encoder-only	Decoder-only
어텐션 방향	양방향 (앞뒤 모두 봄)	단방향 (앞만 봄)
사전학습 방식	Masked Language Model	Next Token Prediction
강점	문장 이해, 분류	텍스트 생성
대표 활용	감정분석, QA, NER	번역, 요약, 대화, 창작
ChatGPT의 조상	❌	✅ GPT → GPT-2 → GPT-3 → ChatGPT

2. GPT의 핵심: Next Token Prediction

GPT의 학습 방법은 단순합니다. "다음 단어를 맞춰라!"
별도 라벨 없이 텍스트 자체가 정답이 되는 자기지도학습(Self-supervised Learning)입니다.

🎯 Next Token Prediction 시각화

3. GPT 텍스트 생성 과정

🔄 Autoregressive 생성

4. GPT 계보

📅 GPT 발전 역사

모델	연도	파라미터	특징
GPT-1	2018	117M	Decoder-only 구조 최초 제안
GPT-2	2019	1.5B	"너무 위험해서 공개 못 함" (나중에 공개)
GPT-3	2020	175B	Few-shot learning, 세상을 놀라게 함
ChatGPT	2022	미공개	GPT-3.5 + RLHF, 1억 명 돌파
GPT-4	2023	미공개	멀티모달, 현재 최강
KoGPT2	2021	125M	한국어 특화 GPT-2, SKT 개발

5. KoGPT2: 한국어 GPT

KoGPT2는 SKT가 GPT-2 구조를 한국어 데이터로 학습시킨 모델입니다. 한국어 텍스트 생성에 특화되어 있으며, 무료로 공개되어 있습니다.

🇰🇷 GPT-2 vs KoGPT2

구분	GPT-2 (OpenAI)	KoGPT2 (SKT)
학습 언어	영어 위주	한국어 위주
학습 데이터	WebText (40GB)	한국어 웹 텍스트 40GB+
토크나이저	BPE (영어 최적화)	Sentencepiece (한국어 최적화)
한국어 생성	어색함	자연스러움
공개 여부	일부 공개	완전 공개 (HuggingFace)

6. GPT 실습 노트북

아래 두 노트북에서 GPT-2와 KoGPT2를 직접 실습합니다.

① GPT-2 (영어)

② KoGPT2 (한국어)