한국어 NLP 모델 완전 정리¶

모델 분류¶

인코더 전용 (Encoder-only)¶

이해/분류 작업에 특화. 새로운 텍스트 생성 불가.

디코더 전용 (Decoder-only)¶

텍스트 생성에 특화. 이전 단어들을 보고 다음 단어 예측.

인코더-디코더 (Encoder-Decoder)¶

입력 이해 + 출력 생성. 번역, 요약 등에 사용.


한국어 NLP 모델 발전 역사¶

연도 모델 유형 개발 기관 주요 특징
2019 KoBERT 인코더 SKT 최초 한국어 BERT, 감성분석 특화
2020 KoGPT 디코더 SKT 최초 한국어 GPT, 텍스트 생성
2020 KcBERT 인코더 beomi 댓글/비속어 학습, 실전 데이터
2020 KoELECTRA 인코더 개인 연구자 효율적 학습, 적은 리소스
2021 KLUE 인코더 NAVER 한국어 벤치마크 표준, 고품질
2022 KE-T5 인코더-디코더 KETI 한국어 T5, 번역/요약 가능
2022 KoGPT2 디코더 SKT GPT-2 기반, 향상된 생성
2022 Polyglot-ko 디코더 EleutherAI Korea 오픈소스 LLM, 1.3B~12.8B
2023 KULLM 디코더 고려대 NLP&AI Lab LLaMA 기반 한국어 파인튜닝
2023 SOLAR 디코더 Upstage 10.7B, 성능 최적화
2024 EXAONE 3.0 디코더 LG AI연구원 2.4B~32B, 기업용 최적화
2024 Kanana 1.5 디코더 카카오 오픈소스, 실용적 성능
2024 Llama3-Motif-102B 디코더 모레(Moreh) 102B, 최강 한국어 성능
2024 KULLM3 디코더 고려대 SOLAR 기반 업그레이드
2025 EXAONE Deep 디코더 LG AI연구원 추론 특화, 딥시크 스타일
2025 Korean Qwen2.5 디코더 엘리스 32B/72B, Qwen 한국어 특화
2025 Llama-Thunder-LLM 디코더 서울대 이재진 교수팀 한국판 딥시크, 추론 강화

인코더 전용 모델 (Encoder-only)¶

KoBERT¶

항목 내용
개발 SKT (2019)
기반 BERT-base
파라미터 110M
특징 최초 한국어 BERT, 감성분석에 강함
용도 텍스트 분류, 감성분석, NER
장점 한국어 태스크 baseline으로 널리 사용
단점 데이터 품질이 KLUE보다 낮음

KcBERT¶

항목 내용
개발 beomi (2020)
기반 BERT-base
특징 댓글 데이터 학습, 비속어/구어체 강함
용도 SNS/댓글 분석, 실전 텍스트
장점 실제 인터넷 언어 이해력 우수
단점 공식 문서에는 약함

KoELECTRA¶

항목 내용
개발 개인 연구자 (2020)
기반 ELECTRA
특징 효율적 학습 방식 (토큰 대체 탐지)
용도 리소스 제한 환경, 빠른 학습
장점 BERT보다 적은 데이터로 학습 가능
단점 커뮤니티 지원 부족

KLUE (★ 추천)¶

항목 내용
개발 NAVER (2021)
기반 RoBERTa
모델 klue/bert-base, klue/roberta-base, klue/roberta-large
특징 한국어 NLP 벤치마크 표준, 고품질 데이터
용도 모든 한국어 이해 태스크
장점 최고 성능, 체계적 평가 기준 제공
단점 생성 불가 (인코더 전용)
추천 이유 순수 한국어 텍스트 작업에 최적

디코더 전용 모델 (Decoder-only)¶

KoGPT / KoGPT2¶

항목 내용
개발 SKT (2020, 2022)
기반 GPT-2
파라미터 125M (KoGPT), 더 큰 버전 존재
특징 한국어 텍스트 생성
용도 문장 생성, 챗봇, 창작
장점 자연스러운 한국어 생성
단점 최신 LLM에 비해 작음

Polyglot-ko¶

항목 내용
개발 EleutherAI Korea (2022)
기반 GPT-NeoX
파라미터 1.3B / 3.8B / 5.8B / 12.8B
특징 오픈소스, 다양한 크기 제공
용도 텍스트 생성, 대화, 추론
장점 완전 오픈소스, 커스터마이징 가능
단점 상업적 사용 제한 있을 수 있음

KULLM¶

항목 내용
개발 고려대 NLP&AI Lab (2023)
기반 LLaMA
파라미터 5.8B / 12.8B
특징 LLaMA를 한국어로 파인튜닝
용도 범용 LLM, 대화, 추론
장점 LLaMA의 성능 + 한국어
단점 LLaMA 라이선스 제약

SOLAR¶

항목 내용
개발 Upstage (2023)
파라미터 10.7B
특징 성능 최적화, 상업적 사용 가능
용도 엔터프라이즈 LLM
장점 한국 기업용 최적화
단점 일부 버전 유료

EXAONE 3.0/3.5 (★ 2024)¶

항목 내용
개발 LG AI연구원 (2024)
파라미터 2.4B / 7.8B / 32B
특징 기업용 최적화, 다양한 크기 제공
용도 엔터프라이즈 AI, 산업 응용
장점 한국 기업 환경 특화, 상업적 활용
단점 일부 제한적 공개

Kanana 1.5¶

항목 내용
개발 카카오 (2024)
특징 오픈소스, 실용적 성능
용도 범용 텍스트 생성
장점 카카오톡 대화 데이터 학습
단점 최신 모델 대비 작은 규모

Llama3-Motif-102B (★ 2024)¶

항목 내용
개발 모레(Moreh) (2024)
파라미터 102B
특징 2024년 최강 한국어 성능
용도 대규모 추론, 복잡한 태스크
장점 벤치마크 최상위 성능
단점 높은 컴퓨팅 요구사항

KULLM3¶

항목 내용
개발 고려대 NLP&AI Lab (2024)
기반 SOLAR
특징 KULLM 시리즈 최신 버전
용도 학술 연구, 범용 LLM
장점 지속적인 개선과 업데이트
단점 커뮤니티 기반 지원

EXAONE Deep (★ 2025)¶

항목 내용
개발 LG AI연구원 (2025)
특징 추론 특화, 딥시크(DeepSeek) 스타일
용도 복잡한 추론, 수학, 코딩
장점 추론 능력 강화
단점 최신 모델로 안정화 진행 중

Korean Qwen2.5 (★ 2025)¶

항목 내용
개발 엘리스 (2025)
파라미터 32B / 72B
기반 Alibaba Qwen2.5
특징 Qwen을 한국어로 특화
용도 고성능 범용 LLM
장점 Qwen의 우수한 성능 + 한국어
단점 리소스 요구사항 높음

Llama-Thunder-LLM (2025)¶

항목 내용
개발 서울대 이재진 교수팀 (2025)
특징 한국판 딥시크, 추론 강화
용도 연구용 LLM, 추론 태스크
장점 학술 연구 기반 고품질
단점 상용화 미정

인코더-디코더 모델 (Encoder-Decoder)¶

KE-T5¶

항목 내용
개발 KETI (2022)
기반 T5
특징 한국어 Text-to-Text, 번역/요약 가능
용도 기계번역, 요약, QA
장점 인코더-디코더 구조로 다양한 태스크
단점 커뮤니티 지원 부족

PAUST-T5¶

항목 내용
개발 PAUST (개인/기업)
기반 T5
특징 한국어 T5 변형
용도 번역, 요약
장점 T5 구조 활용 가능
단점 문서화 부족

다국어 모델 (코드스위칭 지원)¶

mBERT (multilingual BERT)¶

항목 내용
개발 Google (2018)
특징 104개 언어 지원
용도 영어 섞인 한국어 문장
장점 다국어 동시 처리
단점 단일 언어 모델보다 성능 낮음

XLM-RoBERTa¶

항목 내용
개발 Facebook AI (2019)
특징 100개 언어, 크로스링구얼
용도 다국어/코드스위칭 텍스트
장점 mBERT보다 성능 우수
단점 모델 크기 큼

mBART¶

항목 내용
개발 Facebook AI (2020)
기반 BART (Seq2Seq)
특징 다국어 번역/요약
용도 다국어 생성 작업
장점 인코더-디코더로 번역 가능
단점 한국어 단독보다 성능 낮음

mT5¶

항목 내용
개발 Google (2020)
기반 T5
특징 101개 언어 지원 Text-to-Text
용도 다국어 번역, 요약, QA
장점 범용적 활용 가능
단점 한국어 특화 모델보다 성능 낮음

사용 가이드¶

텍스트 분류 / 감성분석¶

→ KLUE (klue/roberta-base)

댓글 / SNS 분석¶

→ KcBERT

텍스트 생성 / 챗봇¶

→ KoGPT2, Polyglot-ko, EXAONE 3.0

번역 / 요약¶

→ KE-T5, mT5

영어 섞인 한국어¶

→ XLM-RoBERTa, mBERT

대규모 LLM 작업¶

→ Korean Qwen2.5 (72B), Llama3-Motif-102B, EXAONE 3.5 (32B)

기업용 / 상용화¶

→ EXAONE 3.0/Deep, SOLAR

추론 특화 (수학, 코딩)¶

→ EXAONE Deep, Llama-Thunder-LLM

오픈소스 / 연구용¶

→ Polyglot-ko, KULLM3, Kanana 1.5


모델 선택 플로우차트¶

작업이 "생성"인가?
├─ 아니오 (이해/분류)
│   ├─ 순수 한국어? → KLUE ⭐
│   ├─ 댓글/SNS? → KcBERT
│   └─ 영어 섞임? → XLM-RoBERTa
│
└─ 예 (생성)
    ├─ 번역/요약? → KE-T5, mT5
    ├─ 짧은 생성? → KoGPT2
    └─ 대화/추론? → Polyglot-ko, KULLM

참고 링크¶

  • KLUE: https://klue-benchmark.com/
  • Hugging Face 한국어 모델: https://huggingface.co/models?language=ko
  • KoGPT: https://github.com/SKT-AI/KoGPT2
  • Polyglot-ko: https://github.com/EleutherAI/polyglot