GPT-3와 ChatGPT는 구조가 거의 같습니다. 하지만 ChatGPT는 사람처럼 대화하고 명령을 따릅니다. 이 차이를 만드는 것이 바로 Instruction Tuning + RLHF입니다.
| 구분 | GPT-3 (기본) | InstructGPT / ChatGPT |
|---|---|---|
| 학습 방식 | 다음 토큰 예측 | Instruction Tuning + RLHF |
| "번역해줘"라고 하면? | 다음에 올 텍스트 생성 (엉뚱한 답) | 실제로 번역해줌 |
| 안전성 | 위험한 내용 생성 가능 | 유해 답변 거부 |
| 대화 능력 | 약함 | 자연스러운 대화 |
| 사용자 의도 파악 | 어려움 | 잘 파악함 |
모델에게 "명령(Instruction) → 올바른 답변(Response)" 쌍을 수천~수만 개 학습시켜, 다양한 명령에 적절히 반응하도록 만드는 파인튜닝입니다.
Reinforcement Learning from Human Feedback. Instruction Tuning만으로는 부족합니다. 사람이 직접 "이 답변이 더 좋다"고 평가해서 모델을 더 개선합니다.
| 모델 | 기반 | 특징 | 라이선스 |
|---|---|---|---|
| Llama-3-Instruct | Meta Llama 3 | 오픈소스 최강급, 8B~70B | Meta License |
| Mistral-Instruct | Mistral | 7B로 강력, 효율적 | Apache 2.0 |
| Qwen2.5-Instruct | Alibaba Qwen | 한국어도 준수, 다국어 강점 | Apache 2.0 |
| EXAONE-Instruct | LG AI Research | 한국어 최강, 지시 따르기 특화 | EXAONE License |
| HCX-Instruct | NAVER HyperCLOVA | 국내 최대 한국어 모델 기반 | 상업 라이선스 |
messages = [
{
"role": "system",
"content": """당신은 친절한 고객 서비스 담당자입니다.
항상 공손하게 답변하고, 모르는 것은 모른다고 말하세요."""
},
{
"role": "user",
"content": "환불은 어떻게 하나요?"
},
{
"role": "assistant",
"content": "안녕하세요! 환불 절차를 안내드리겠습니다..."
}
]
# System: AI의 역할/성격 정의
# User: 사용자 입력
# Assistant: AI 답변 (다중 턴 대화 시 이전 답변도 포함)