개발자
🪙 AI 프롬프트 토큰 카운터
GPT·Claude·Gemini 토큰 수와 컨텍스트 사용량을 한 화면에. 한국어 비효율과 API 비용까지 동시 추정.
본 도구는 참고용입니다
- 입력값·환경에 따라 결과가 달라질 수 있으며 정확성을 보장하지 않습니다.
- 중요한 의사결정에는 전문가 조언을 받으세요.
- 토큰 수는 문자 분류 기반 휴리스틱 추정치입니다 — 실제 토크나이저와 ±10~20% 차이날 수 있어요. 정확한 청구 비용은 각 공급사 콘솔에서 확인하세요. 가격은 2026년 5월 기준 참고치이며 변동 가능.
입력 토큰 기준 배수 — 출력이 입력의 1배라고 가정
ⓘ 위 그래프는 2M 토큰 기준 상대 길이. 1K = 약 750단어 영문 / 약 400자 한국어 (추정).
토큰(token)이란?
LLM은 문자가 아닌 토큰이라는 단위로 텍스트를 처리합니다. 한 토큰은 영문 기준 약 4글자(¾ 단어)에 해당하며, 한국어는 한 음절이 1~2 토큰으로 쪼개집니다. 모델 가격·컨텍스트 한도·응답 속도가 모두 토큰 단위로 매겨지므로 프롬프트를 최적화하려면 토큰 수를 의식하는 게 첫걸음.
영문
4 chars ≈ 1 token
한국어
1~1.5 자 ≈ 1 token
코드
3 chars ≈ 1 token
숫자·공백
3 chars ≈ 1 token
모델별 컨텍스트 한도·가격 (2026.05 기준)
| 모델 | 컨텍스트 | 입력 / 1M | 출력 / 1M | 특징 |
|---|---|---|---|---|
| GPT-4o | 128K | $2.50 | $10.00 | 범용 주력, 멀티모달 강함 |
| GPT-4o mini | 128K | $0.15 | $0.60 | 저가 + 빠름, 분류·요약 |
| Claude Opus 4 | 200K | $15.00 | $75.00 | 추론·코드 최강, 장문 안정 |
| Claude Sonnet 4 | 200K | $3.00 | $15.00 | 균형형 — 대부분 작업에 적합 |
| Claude Haiku 4.5 | 200K | $0.80 | $4.00 | 빠르고 저렴, 분류·태깅 |
| Gemini 2.5 Pro | 2M | $1.25 | $10.00 | 초장문 — 책·논문 한 번에 |
| Gemini 2.5 Flash | 1M | $0.30 | $2.50 | 저가 + 1M 컨텍스트 |
⚠️ 가격은 변동될 수 있습니다. 결제 전 OpenAI / Anthropic / Google AI Studio 공식 페이지에서 최신 단가 확인 권장.
한국어 토큰 효율 — 왜 영문보다 비쌀까?
LLM 토크나이저는 영어 위주 코퍼스로 학습되어 한국어 음절을 더 잘게 쪼갭니다. 동일 의미를 표현해도 한국어는 영문 대비 약 1.5~2배 토큰을 소비. 모델별 차이도 큽니다 — GPT-4o의 o200k_base는 이전 cl100k 대비 한국어를 30~40% 효율적으로 처리하며, Claude는 한국어가 가장 비효율적인 편입니다.
- 비용 민감 작업: 시스템 프롬프트·context document는 영문으로, 사용자 응답만 한국어로
- 토큰 절약 팁: 불필요한 존댓말·접속사 제거 (~10~15% 절감)
- JSON 출력: 한글 key 대신 영문 key 사용 (key가 매번 반복되므로 효과 큼)
- 여러 언어 혼용 시: 모델별 큰 차이 — GPT/Gemini 우선 검토
컨텍스트 윈도우(context window) 활용 가이드
모델이 한 번에 읽을 수 있는 토큰 수. 입력 + 출력 합산 한도로, 초과 시 오래된 메시지가 잘리거나 에러가 발생합니다.
128K (GPT-4o)
책 1권의 ¼ 수준
단일 PDF·코드 파일 1~2개, 일반 대화에 충분
200K (Claude)
책 한 권 절반
긴 문서 요약·코드베이스 분석에 안정적
1M (Gemini Flash)
책 4~5권
여러 문서 비교, 영상 자막 요약
2M (Gemini Pro)
책 10권 분량
대형 코드베이스·논문 묶음 한 번에
💡 컨텍스트가 길수록 모델 응답 속도는 느려지고 가격도 일부 단계에서 올라갑니다(예: Gemini Pro는 200K 초과 시 입력가 2배). 무조건 크다고 좋은 게 아닙니다.
자주 묻는 질문 (FAQ)
Q1. 이 도구의 토큰 수는 얼마나 정확한가요?
문자 분류(한글/CJK/영문/숫자/공백/구두점) 기반 휴리스틱으로 계산하므로 실제 토크나이저와 ±10~20% 오차가 있을 수 있습니다. 한국어 비중이 높을수록 오차가 커집니다. 정확한 수치가 필요하면 OpenAI의 tokenizer.openai.com, Anthropic의 count_tokens API, Google AI Studio를 사용하세요. 본 도구는 모델 간 상대 비교와 비용 견적에 최적화돼 있습니다.
Q2. tiktoken 같은 정확한 토크나이저를 쓰지 않는 이유는?
tiktoken WASM은 ~1.5MB로 페이지 무게를 크게 늘립니다. 또한 Claude·Gemini 토크나이저는 공개돼 있지 않아 어차피 추정뿐입니다. 본 도구는 모바일에서도 즉시 동작하는 가벼움을 우선했습니다. 정확도가 결정적인 작업은 공식 도구를 권장합니다.
Q3. 왜 한국어가 영어보다 토큰을 더 많이 쓰나요?
LLM 토크나이저는 영어 코퍼스에 최적화돼 있어 "the", "ing" 같은 흔한 영문 패턴은 1토큰으로 압축되지만, 한글 음절은 보통 1~2개 서브워드로 쪼개집니다. 같은 의미의 한국어 텍스트는 영문 대비 약 50~100% 더 많은 토큰을 소비. 모델별로는 GPT-4o의 o200k_base가 한국어를 가장 효율적으로 처리하고, Claude가 가장 비효율적인 편입니다.
Q4. 시스템 프롬프트도 매번 비용으로 청구되나요?
예. 입력 토큰으로 매 호출마다 청구됩니다. 다만 OpenAI·Anthropic·Gemini 모두 프롬프트 캐싱을 제공해 반복되는 시스템 프롬프트는 50~90% 할인된 단가가 적용됩니다(최소 토큰 수·캐시 유지 시간 등 조건 있음). 긴 시스템 프롬프트를 자주 호출한다면 캐싱 활용이 핵심.
Q5. 출력 토큰이 입력 토큰보다 훨씬 비싼 이유는?
생성은 자기회귀(autoregressive)로 토큰 하나하나를 순차 디코딩해야 해서 GPU 시간이 더 듭니다. 모델 가격이 보통 입력:출력 = 1:3~5로 책정되는 이유. "답변을 짧게" 또는 구조화된 JSON 스키마로 응답 길이를 제한하면 비용을 크게 절감할 수 있습니다.
Q6. 컨텍스트 한도를 넘으면 어떻게 되나요?
API는 에러를 반환합니다(보통 400 Bad Request, context_length_exceeded). ChatGPT·Claude 웹 인터페이스는 자동으로 가장 오래된 메시지를 잘라내(truncate) 진행. 의식하지 못한 채 이전 맥락이 사라질 수 있으니 긴 대화에서는 주기적으로 요약·정리 권장.
Q7. API 비용을 효과적으로 줄이려면?
1) 모델 선택 — 분류·요약은 mini/Haiku/Flash, 복잡한 추론만 GPT-4o/Opus. 2) 출력 제한 — max_tokens 설정 + "300자 이내" 같은 지시. 3) 프롬프트 캐싱 — 반복 시스템 프롬프트 활용. 4) 영문 프롬프트 — 시스템·context는 영문으로. 5) 배치 API — OpenAI/Anthropic의 batch는 50% 할인.
Q8. 환율은 어떻게 계산되나요?
₩ 환산은 1 USD = 1,380원으로 단순 계산합니다. 실제 카드 청구는 결제 시점 환율 + 카드사 수수료가 추가되므로 실제 청구액은 표시 금액보다 약 1~3% 높을 수 있습니다.