Step 21 Instruct: 명령을 따르는 AI

RLHF와 Instruction Tuning — ChatGPT가 대화하는 방식

1. GPT와 ChatGPT는 무엇이 다른가?

GPT-3와 ChatGPT는 구조가 거의 같습니다. 하지만 ChatGPT는 사람처럼 대화하고 명령을 따릅니다. 이 차이를 만드는 것이 바로 Instruction Tuning + RLHF입니다.

📊 GPT vs InstructGPT(ChatGPT) 비교

구분GPT-3 (기본)InstructGPT / ChatGPT
학습 방식다음 토큰 예측Instruction Tuning + RLHF
"번역해줘"라고 하면?다음에 올 텍스트 생성 (엉뚱한 답)실제로 번역해줌
안전성위험한 내용 생성 가능유해 답변 거부
대화 능력약함자연스러운 대화
사용자 의도 파악어려움잘 파악함

2. Instruction Tuning이란?

모델에게 "명령(Instruction) → 올바른 답변(Response)" 쌍을 수천~수만 개 학습시켜, 다양한 명령에 적절히 반응하도록 만드는 파인튜닝입니다.

📝 Instruction 데이터 형식

GPT-3 학습 데이터 (기존)
# 그냥 텍스트 나열
오늘 날씨가 좋아서 공원에 갔다.
아이들이 뛰어노는 모습을 보며...
...
Instruction Tuning 데이터
### Instruction:
다음 문장을 영어로 번역해줘.
"오늘 날씨가 좋다"

### Response:
"The weather is nice today."
다양한 Instruction 유형 학습 번역해줘 요약해줘 코드 짜줘 설명해줘 분류해줘 이메일써줘 Instruction-Tuned LLM 명령의 종류에 관계없이 정확히 수행!

3. RLHF: 인간 피드백으로 강화학습

Reinforcement Learning from Human Feedback. Instruction Tuning만으로는 부족합니다. 사람이 직접 "이 답변이 더 좋다"고 평가해서 모델을 더 개선합니다.

🔄 RLHF 3단계 프로세스

① Supervised Fine-tuning Instruction 데이터로 기본 파인튜닝 SFT Model 생성 (명령 이해 기초 학습) ② Reward Model 학습 인간 평가자가 답변 A vs B 중 더 좋은 것 선택 Reward Model 생성 (좋은 답변 판별 학습) ③ PPO 강화학습 Reward Model이 점수 주면 높은 점수 받도록 업데이트 최종 ChatGPT 스타일 모델 (사람이 좋아하는 답변 생성) 👤 인간 평가자 (Annotator) "A 답변이 더 좋아요" / "B 답변이 더 정확해요" 결과: 사람이 선호하는 방식으로 대화하는 AI 유해 답변 거부, 명확한 설명, 자연스러운 대화

4. 오픈소스 Instruct 모델들

🌐 대표적인 Instruct 모델

모델기반특징라이선스
Llama-3-InstructMeta Llama 3오픈소스 최강급, 8B~70BMeta License
Mistral-InstructMistral7B로 강력, 효율적Apache 2.0
Qwen2.5-InstructAlibaba Qwen한국어도 준수, 다국어 강점Apache 2.0
EXAONE-InstructLG AI Research한국어 최강, 지시 따르기 특화EXAONE License
HCX-InstructNAVER HyperCLOVA국내 최대 한국어 모델 기반상업 라이선스

5. System Prompt: AI의 성격 설정

🎭 System / User / Assistant 역할

messages = [
    {
        "role": "system",
        "content": """당신은 친절한 고객 서비스 담당자입니다.
항상 공손하게 답변하고, 모르는 것은 모른다고 말하세요."""
    },
    {
        "role": "user",
        "content": "환불은 어떻게 하나요?"
    },
    {
        "role": "assistant",
        "content": "안녕하세요! 환불 절차를 안내드리겠습니다..."
    }
]
# System: AI의 역할/성격 정의
# User: 사용자 입력
# Assistant: AI 답변 (다중 턴 대화 시 이전 답변도 포함)

✅ Instruct 핵심 정리