일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- NLP
- a.x
- HyperClovaX
- 마카오여행일정
- GPT
- 파이썬개발
- GS아트센터 주차
- 프롬프트엔지니어링
- llm
- yokohamafmarinos
- GPT-OSS
- AI검색
- 개발자현황
- llm비교
- 한국어 nlp
- huggingface
- 콘텐츠전략
- mi:dm
- qwen
- 한국어llm
- Python
- GS아트센터 a열
- ecomgpt
- deepseek
- 개발자생태
- gs아트센터
- 딥러닝
- re-ranker
- it
- SageMaker
- Today
- Total
너드한 일상
[LLM] 무료로 쓰는 최신 LLM, GPT‑OSS 분석 본문
안녕하세요 티아입니다👋
2025년 8월 5일, OpenAI가 GPT-OSS라는 오픈소스 모델을 공개했는데요,
최근 OpenAI가 공개한 GPT-OSS 시리즈는 단순히 오픈소스로 푼 GPT가 아닙니다.
특히 20B 모델은 MMLU 기준 상위 10위권에 오르며,
심지어 Gemini-2.5-Pro 바로 뒤에 위치할 정도로 놀라운 벤치마크 성능을 기록했습니다.
월 200달러 구독료도, ‘호수 물’도 필요 없는,
사실상 전기요금 수준(거의 무료)으로 최신 모델을 쓸 수 있다는 건 진짜 놀라운 경험이었습니다.
🧪 직접 돌려본 소감: 기대와 현실의 괴리
하지만 실제 체감은 조금 달랐습니다.
- 강 건너기 문제(라벨만 바뀐)조차 해결하지 못하는 경우가 있었음
- SOTA 모델과는 여전히 큰 격차 존재
- 심지어 일부 상황에서는 QwQ-32B 같은 다른 로컬 모델보다 못한 결과
즉, 벤치마크 점수는 인상적이었지만 실사용 품질은 한참 부족하다는 게 솔직한 느낌입니다. 특히 지식 기반 질문에서 최신 정보나 디테일은 여전히 많이 빠져 있었고, Qwen3-30B-A3B 같은 모델과 비교하면 지식량 차이가 확연했습니다.
⚙️ 기술적 포인트
벤치마크 gpt-oss-120b gpt-oss-20b OpenAI 상업 모델 대비
벤치마크 | gpt-oss-120b | gpt-oss-20b | OpenAI 상업 모델 대비 |
MMLU (종합 추론 이해) | 90 | 85.3 | o3: 93.4, o4-mini: 93 — 약간 낮지만 오픈 모델 기준으로 매우 우수 |
GPQA Diamond (고급 지식 기반 질의응답) | 80.9 | 74.2 | o3: 77, o4-mini: 81.4 — 120b 모델은 상업 모델 수준, 20b도 준수한 성능 |
AIME 수학 벤치마크 (2024, 2025) | 96.6 → 97.9 | 96 → 98.7 | o3: 91.6 → 88.9, o4-mini: 93.4 → 92.7 — 오히려 더 높은 점수를 기록한 사례도 있음 |
기술적으로도 흥미로운 지점이 많습니다.
- 구조: General Grouped-Query Attention (쿼리 헤드 64, KV 헤드 8)
- 컨텍스트 윈도우: RoPE + YaRN → 131K 토큰
- 아키텍처: MoE 트랜스포머 (120B → 실제 활성 파라미터 5.1B, top-4 라우팅)
- 활성화 함수: Gated SwiGLU
- 양자화: MXFP4 (4.25bit) → 파라미터 90% 이상 압축, 단일 80GB GPU에 120B 모델 탑재 가능
이게 단순한 최적화가 아니라, 비용 절감·배포 전략의 산물이라는 점이 인상적입니다. Unsloth가 이미 1.58bit 양자화를 구현했지만, 실제 프로덕션에서는 정확도 우선이기 때문에 OpenAI의 선택은 현실적이라 볼 수 있습니다.
또 하나 중요한 건, 이 모델들의 진짜 “비밀 소스”가 구조적 혁신보다는 distillation(지식 증류)일 가능성이 높다는 겁니다.
즉, 인터넷 원천 데이터 대신 SOTA 모델(o3 등)의 출력으로 만든 synthetic 데이터를 학습에 활용했을 거라는 추측입니다. 이는 소형 모델 성능을 극적으로 끌어올리는 데 이미 입증된 방법이죠.
🤔 로컬 AI, 누가 진짜 쓸까?
직접 써보면서 계속 든 고민은 “이걸 누가 실제로 쓸까?”였습니다.
- 하드웨어는 있지만 유료 모델 구독을 피하려는 학생?
- 가격에 민감해서 무료 코딩 모델을 원하는 개발자?
- 아니면 단순히 “할 수 있으니까 해보는” 얼리어답터? (저처럼요 😅)
실제로는 로컬 모델이 아직 이미지에서 데이터 추출도 제대로 못 하고, 툴콜(tool calling) 같은 기능도 미흡했습니다. 속도도 기대만큼 빠르지 않았고, 컨텍스트 윈도우 제한 때문에 실용성이 떨어지는 경우도 많았습니다.
그렇다 보니 지금은 “재미있지만 꼭 필요한 건 아님” 수준이라는 생각이 들었습니다. 맥 스튜디오를 여러 대 엮거나 고가 GPU를 사가며 돌려야 할 ‘진짜 이유’는 아직 찾지 못했습니다.
🔮 앞으로의 전망: Jevon’s Paradox와 로컬 AI의 미래
그럼에도 불구하고, Jevon’s Paradox처럼 “싸지고 쉬워지면 결국 더 많이 쓰게 된다”는 흐름은 피할 수 없다고 봅니다.
- 지금은 실험적 수준이지만,
- 곧 냉장고, TV, 심지어 휴대폰까지 모두가 에이전트를 돌리는 시대가 올지도 모릅니다.
- 언젠가 다시 ‘호수 물’을 말려버릴 정도로 폭발적 활용이 일어날 수도 있겠죠.
결국 로컬 모델은 특화·증류된 소형 모델 중심으로 발전하며,
“할 수 있으니까 한다” 수준에서 벗어나, 진짜 유용한 AI 에이전트로 자리 잡을 날이 올 거라 생각합니다.
✍️ 정리
GPT-OSS 20B는 벤치마크에서는 분명 인상적입니다.
하지만 실제 사용 경험은 아직 기대에 못 미치고, 여전히 Qwen·GLM·DeepSeek 같은 다른 오픈 모델들과 비교가 필요합니다.
그럼에도 “MacBook에서 최신급 오픈 모델을 무료로 돌릴 수 있다”는 사실 자체가 시대의 변화를 보여줍니다.
저는 여전히 이 흐름이 흥미롭고, 앞으로 로컬 AI가 어디까지 갈 수 있을지 지켜볼 생각입니다.