Step 15의 RoBERTa(BERT 계열)는 이해(Understanding)에 특화된 모델이었습니다. GPT는 반대로 생성(Generation)에 특화된 모델입니다. 같은 Transformer지만 방향이 다릅니다.
| 구분 | BERT / RoBERTa | GPT |
|---|---|---|
| 구조 | Encoder-only | Decoder-only |
| 어텐션 방향 | 양방향 (앞뒤 모두 봄) | 단방향 (앞만 봄) |
| 사전학습 방식 | Masked Language Model | Next Token Prediction |
| 강점 | 문장 이해, 분류 | 텍스트 생성 |
| 대표 활용 | 감정분석, QA, NER | 번역, 요약, 대화, 창작 |
| ChatGPT의 조상 | ❌ | ✅ GPT → GPT-2 → GPT-3 → ChatGPT |
GPT의 학습 방법은 단순합니다. "다음 단어를 맞춰라!"
별도 라벨 없이 텍스트 자체가 정답이 되는 자기지도학습(Self-supervised Learning)입니다.
| 모델 | 연도 | 파라미터 | 특징 |
|---|---|---|---|
| GPT-1 | 2018 | 117M | Decoder-only 구조 최초 제안 |
| GPT-2 | 2019 | 1.5B | "너무 위험해서 공개 못 함" (나중에 공개) |
| GPT-3 | 2020 | 175B | Few-shot learning, 세상을 놀라게 함 |
| ChatGPT | 2022 | 미공개 | GPT-3.5 + RLHF, 1억 명 돌파 |
| GPT-4 | 2023 | 미공개 | 멀티모달, 현재 최강 |
| KoGPT2 | 2021 | 125M | 한국어 특화 GPT-2, SKT 개발 |
KoGPT2는 SKT가 GPT-2 구조를 한국어 데이터로 학습시킨 모델입니다. 한국어 텍스트 생성에 특화되어 있으며, 무료로 공개되어 있습니다.
| 구분 | GPT-2 (OpenAI) | KoGPT2 (SKT) |
|---|---|---|
| 학습 언어 | 영어 위주 | 한국어 위주 |
| 학습 데이터 | WebText (40GB) | 한국어 웹 텍스트 40GB+ |
| 토크나이저 | BPE (영어 최적화) | Sentencepiece (한국어 최적화) |
| 한국어 생성 | 어색함 | 자연스러움 |
| 공개 여부 | 일부 공개 | 완전 공개 (HuggingFace) |
아래 두 노트북에서 GPT-2와 KoGPT2를 직접 실습합니다.