황현동 블로그 개발, 인생, 유우머

260313 LLM API 견적 리서치

Tags:

260313 LLM API 견적 리서치

기준 시점: 2026-03-13 15:41 +09:00

한눈에 결론 👀

  • 토큰 단가만 보면 아주 싼 축은 DeepSeek V3.2, OpenAI GPT-5 nano, Groq의 소형 오픈모델 계열이다.
  • 웹검색까지 포함한 “질문 1회당 리서치” 비용은 검색 도구 호출비가 생각보다 크게 작용한다. 토큰 단가만 보고 고르면 과소추정되기 쉽다.
  • 품질/가격 균형만 보면:
    • 저가형: DeepSeek V3.2 + 외부 검색 API
    • 검색 내장형 저가: xAI grok-4.1-fast
    • 안정적 상용형: OpenAI GPT-5 mini
    • 고품질 상위형: Claude Sonnet 4.5, OpenAI GPT-5.4, xAI grok-4
  • 반복 질문이 많으면 프롬프트 캐시 효과가 매우 크다. 공급사 기본 캐시만 잘 써도 입력 비용을 대략 75%~89%까지 줄일 수 있다.

조사 범위

  • Anthropic Claude API
  • OpenAI API
  • xAI Grok API
  • DeepSeek API
  • 추가 저가/무료 후보: Google Gemini Developer API, Groq

1. Anthropic Claude API 가격

공식 가격 문서 기준 핵심 모델:

모델 입력(1M tok) 캐시 읽기 출력(1M tok) 메모
Claude Haiku 3 claude-3-haiku-20240307 $0.25 $0.03 $1.25 매우 저렴
Claude Haiku 3.5 $0.80 $0.08 $4.00 이전 세대 대비 성능 상승
Claude Haiku 4.5 $1.00 $0.10 $5.00 최신 Haiku 계열
Claude Sonnet 4.5 $3.00 $0.30 $15.00 리서치/정리 품질 상위

프롬프트 캐시 쓰기 비용:

  • 5분 캐시 쓰기: 기본 입력가의 1.25배
  • 1시간 캐시 쓰기: 기본 입력가의 2배

웹 검색 도구:

  • 1,000회 검색당 $10
  • 검색 결과로 들어온 텍스트는 일반 입력 토큰으로도 다시 과금된다.

해석 💡

  • claude-3-haiku-20240307는 여전히 매우 싸다.
  • 다만 실제 리서치 자동화에서 웹검색 결과를 길게 붙이고 답변도 길게 뽑으면, 출력단가가 낮지 않은 편이라 Haiku 3와 DeepSeek/Grok Fast의 격차가 벌어진다.
  • 품질이 필요한 조사형 답변이면 Claude는 보통 Sonnet 4.5가 기준선이 되는데, 비용은 저가형 대비 훨씬 높다.

2. OpenAI API 가격

공식 가격 페이지 기준 대표 모델:

모델 입력(1M tok) 캐시 입력(1M tok) 출력(1M tok) 메모
GPT-5 nano $0.05 $0.005 $0.40 초저가
GPT-5 mini $0.25 $0.025 $2.00 가격/성능 균형
GPT-5.4 $2.50 $0.25 $15.00 상위 품질

웹 검색 도구:

  • 일반 웹 검색: 1,000회 호출당 $10
  • 미리보기(non-preview가 아닌 preview 검색): 1,000회 호출당 $25
  • 검색으로 가져온 콘텐츠 토큰은 모델 입력 토큰으로 별도 계산된다.

프롬프트 캐시:

  • 자동 캐시
  • 기본적으로 1,024 토큰 이상 프리픽스부터 적용
  • 문서상 prompt_cache_keyprompt_cache_retention 옵션 제공

해석 💡

  • OpenAI는 캐시 단가가 매우 공격적이다. 반복되는 시스템 프롬프트, 툴 설명, 스키마가 길수록 유리하다.
  • 실제 운영에서 GPT-5 mini + prompt cache + web search 조합은 꽤 예측 가능하고 안정적이다.
  • 토큰 단가만 보면 GPT-5 nano가 아주 싸지만, 웹 리서치 품질은 질문 난이도에 따라 부족할 수 있다.

3. xAI Grok API 가격

공식 xAI API 페이지와 모델 문서 기준:

모델 입력(1M tok) 캐시 입력(1M tok) 출력(1M tok) 메모
grok-4.1-fast $0.20 $0.05 $0.50 검색 내장형 저가 추천
grok-4-fast $0.20 $0.05 $0.50 128k 초과 입력은 더 비쌈
grok-4 $3.00 문서 확인 못함 $15.00 상위 품질

도구 비용:

  • 라이브 검색: 1,000회당 $5
  • 도구 호출: 성공한 1,000회당 $5부터

프롬프트 캐시:

  • cached prompt tokens 지원
  • 문서상 반복 프리픽스를 재사용하도록 설계
  • x-grok-conv-id 사용 시 캐시 적중률 향상 가능

해석 💡

  • 검색 내장형으로 한정하면 grok-4.1-fast는 꽤 강력한 가성비 포지션이다.
  • 같은 “질문 1회당 웹 리서치” 기준으로 보면 OpenAI/Claude보다 검색 호출비가 낮아 유리하다.
  • 아주 긴 컨텍스트를 자주 밀어 넣으면 grok-4-fast는 128k 초과 구간 가격 변화를 꼭 확인해야 한다.

4. DeepSeek API 가격

공식 가격 문서 기준:

모델 Cache Miss 입력(1M tok) Cache Hit 입력(1M tok) 출력(1M tok) 메모
DeepSeek V3.2-Exp / DeepSeek-V3.1 / DeepSeek-Reasoner $0.28 $0.028 $0.42 현재 문서상 매우 저렴

컨텍스트 캐시:

  • 모든 사용자 기본 활성화
  • 접두(prefix) 중복이 있으면 자동 재사용
  • 응답의 prompt_cache_hit_tokens, prompt_cache_miss_tokens로 효과 확인 가능

해석 💡

  • 순수 토큰 비용만 보면 현 시점 최강 가성비 축 중 하나다.
  • 다만 공식 문서 기준, OpenAI/Claude/xAI처럼 명시된 first-party 웹 검색 과금표는 찾지 못했다.
  • 즉, DeepSeek로 웹 리서치를 하려면 보통 외부 검색 API 비용을 별도로 붙여 계산해야 한다.

5. 추가 저가/무료 후보

Google Gemini Developer API

공식 가격 문서 기준:

  • Gemini Developer API에는 Free tier가 명시되어 있다.
  • 최신 문서 기준 Gemini 3.1 Flash-Lite Preview는 입력 $0.25/M, 출력 $1.50/M
  • Google Search grounding은 하루 500회 무료가 보이고, 이후 과금 항목이 있다.

해석 💡

  • “완전 무료로 조금 써보기”는 Gemini가 가장 접근성이 좋다.
  • 다만 무료 구간을 넘기면, 검색 그라운딩 과금이 붙으므로 장기 운영형으로는 토큰단가만 보고 싸다고 보기 어렵다.

Groq

공식 가격 문서 기준:

  • Get started for free가 명시되어 있다.
  • 예: Llama 3.1 8B Instant 입력 $0.05/M, 출력 $0.08/M
  • 검색 도구는 Basic search $5 / 1,000, Visit website $5 / 1,000, Basic search with content $8 / 1,000

해석 💡

  • 아주 싼 단가로 오픈모델 API를 써보고 싶으면 Groq도 후보가 된다.
  • 다만 리서치 품질은 사용 모델에 크게 좌우된다. “싸다”와 “좋다”는 분리해서 봐야 한다.

6. 한국어 글자수 기준 쉬운 환산 📏

토큰은 공급사마다 다르지만, 한국어는 영어보다 토큰 효율이 떨어질 때가 많다.

이번 정리에서는 예산 계산용 보수치로 아래를 추천한다:

  • 한글 1,000자 ~= 1,000 tokens
  • 여유를 더 두고 싶으면 한글 1,000자 ~= 1,200 tokens

로컬 샘플링 메모:

  • OpenAI 계열 토크나이저 샘플 기준, 한국어 텍스트는 대략 1자당 0.4 ~ 1.3 토큰 범위가 나왔다.
  • 띄어쓰기/숫자/영문/URL/코드가 많으면 토큰이 늘기 쉽다.
  • 실무 예산은 1자 = 1토큰으로 두면 크게 틀리지 않는 편이다.

그래서 아주 쉽게 보면:

항목 계산식
1,000자 입력 비용 (입력 단가 / 1,000,000) x 1,000
1,000자 출력 비용 (출력 단가 / 1,000,000) x 1,000

예시:

  • Claude Haiku 3 입력 1,000자: 약 $0.00025
  • Claude Haiku 3 출력 1,000자: 약 $0.00125
  • GPT-5 mini 입력 1,000자: 약 $0.00025
  • GPT-5 mini 출력 1,000자: 약 $0.00200
  • DeepSeek 출력 1,000자: 약 $0.00042
  • Grok 4.1 Fast 출력 1,000자: 약 $0.00050

7. “웹검색 포함 리서치 질문 1회” 비용 예시 🔎

가정:

  • 시스템/지시문 + 사용자 질문 + 검색결과 컨텍스트 합계 입력: 12,000 tokens
  • 최종 답변: 2,000 tokens
  • 검색 호출: 1회
  • 한국어 기준으로는 대략 질문 300~500자 + 검색 스니펫/발췌 1만자 내외 + 답변 2천자 수준으로 보면 된다.

계산식:

  • 총비용 ~= 입력토큰 x 입력단가 + 출력토큰 x 출력단가 + 검색호출비
  • 단, 검색으로 가져온 텍스트는 보통 입력토큰으로도 다시 잡힌다.

결과:

모델 질문 1회 비용(USD) 100회 1,000회
DeepSeek V3.2 $0.0042 $0.42 $4.20
Groq Llama 3.1 8B + 검색도구 $0.00576 $0.58 $5.76
xAI grok-4.1-fast $0.0084 $0.84 $8.40
OpenAI GPT-5 nano $0.0114 $1.14 $11.40
Claude Haiku 3 $0.0155 $1.55 $15.50
OpenAI GPT-5 mini $0.0170 $1.70 $17.00
Claude Haiku 3.5 $0.0276 $2.76 $27.60
Gemini 3.1 Flash-Lite Preview 문서상 검색과금 구조 확인 필요 - -
Claude Sonnet 4.5 $0.0760 $7.60 $76.00
xAI grok-4 $0.0710 $7.10 $71.00

주의:

  • DeepSeek 값에는 외부 검색 API 비용이 빠져 있다.
  • Groq/Gemini는 검색 도구 요금 구조가 OpenAI/Claude/xAI와 달라 실제 플로우에 따라 오차가 클 수 있다.
  • OpenAI/Claude/xAI는 검색 도구 사용료와 검색 결과 토큰료가 둘 다 중요하다.

더 깊은 리서치 시나리오

가정:

  • 입력 32,000 tokens
  • 출력 5,000 tokens
  • 검색 호출 3회

대략 비용:

  • DeepSeek V3.2: $0.01106 + 외부 검색비
  • xAI grok-4.1-fast: $0.0239
  • OpenAI GPT-5 mini: $0.0480
  • Claude Haiku 3: $0.04425
  • Claude Sonnet 4.5: $0.2010

즉, 검색을 여러 번 돌리는 리서치형 질문은 툴 호출비가 누적되므로, 고급 모델을 쓰면 질문 수가 늘수록 차이가 빠르게 커진다.

8. 캐시로 비용 줄이는 방법 🧠

공급사 기본 캐시를 반드시 활용

  • Anthropic: cache_control 기반 prompt caching
  • OpenAI: 자동 prompt caching + prompt_cache_key
  • xAI: cached prompt tokens + x-grok-conv-id
  • DeepSeek: 기본 활성화된 context caching

가장 좋은 실전 구조

추천은 3단 캐시다:

  1. 검색 질의 캐시
  2. URL/본문 요약 캐시
  3. LLM 프롬프트 프리픽스 캐시

왜 이 구조가 좋은가:

  • 같은 질문이 다시 오면 검색 자체를 생략할 수 있다.
  • 질문은 달라도 같은 URL이 자주 인용되면, 페이지 요약 재생성을 막을 수 있다.
  • 시스템 프롬프트, 출력 포맷 설명, 툴 스키마, 지식베이스 헤더가 길면 공급사 캐시가 매우 잘 먹힌다.

가장 먼저 할 일

  • 검색 결과를 통째로 매번 모델에 넣지 말고 URL 단위 요약 캐시를 만든다.
  • 최종 답변용 모델 앞단에 저가 모델을 하나 둬서:
    • 검색어 생성
    • 중복 질문 판별
    • 관련 문서 후보 압축
    • 답변 가능 여부 분류
      를 먼저 처리한다.
  • 상위 모델은 마지막 합성 단계에서만 쓰는 편이 보통 더 싸다.

캐시 절감 효과 예시

가정:

  • 10,000 입력 토큰짜리 공통 프리픽스를 100개의 관련 질문에서 반복 사용

입력 비용 절감:

  • Claude Sonnet 4.5: 약 89.1% 절감
  • OpenAI GPT-5 mini: 약 89.1% 절감
  • DeepSeek V3.2: 약 89.1% 절감
  • xAI grok-4.1-fast: 약 74.3% 절감

캐시 설계시 주의

  • exact match 캐시만 두면 “말만 조금 바뀐 같은 질문”을 못 잡는다.
  • 그래서 정규화(exact cache) + 임베딩 유사도(semantic cache)를 같이 쓰는 편이 좋다.
  • 단, semantic cache는 잘못 맞아도 위험하므로:
    • 짧은 TTL
    • 신뢰도 threshold
    • 출처(URL hash, 문서 버전) 검증
      를 같이 둬야 한다.

9. 추천 운영안

A안: 비용 최우선

  • 모델: DeepSeek V3.2
  • 검색: 외부 검색 API
  • 캐시: 질문 캐시 + URL 요약 캐시 + DeepSeek context cache

장점:

  • 매우 싸다.

단점:

  • 검색을 직접 붙여야 한다.
  • 모델 품질/툴링 안정성은 직접 검증이 필요하다.

B안: 구현 편의 + 가격 균형

  • 모델: OpenAI GPT-5 mini 또는 xAI grok-4.1-fast
  • 검색: 공급사 기본 웹 검색
  • 캐시: 공급사 prompt cache + 자체 질문/URL 캐시

장점:

  • 구현이 단순하다.
  • 검색 포함 비용 예측이 쉽다.

단점:

  • DeepSeek 조합보다는 비싸다.

C안: 답변 품질 최우선

  • 모델: Claude Sonnet 4.5, GPT-5.4, grok-4
  • 검색: 공급사 기본 검색 또는 직접 검색 + 출처제어
  • 캐시: 반드시 사용

장점:

  • 어려운 리서치 질문에서 품질 상한이 높다.

단점:

  • 질문 수가 늘면 비용 차이가 금방 커진다.

10. 개인적인 결론

질문마다 웹검색이 들어가는 리서치 자동화를 만든다면:

  • 초기 MVP: GPT-5 mini 또는 grok-4.1-fast
  • 비용 최적화형 운영: DeepSeek V3.2 + 외부 검색 + 3단 캐시
  • 품질 상위형 운영: Sonnet 4.5를 최종 합성 단계에만 제한 투입

가장 중요한 포인트는 이것이다:

  • 토큰 단가보다 “검색 호출 수”와 “검색 결과를 얼마나 길게 넣느냐”가 총비용을 크게 바꾼다.
  • 캐시를 제대로 쓰면 같은 업무군에서 비용을 체감상 반토막이 아니라, 대개 70% 이상 줄일 수 있다.

출처 URL

  • Anthropic pricing: https://docs.claude.com/en/docs/about-claude/pricing
  • Anthropic prompt caching: https://docs.claude.com/en/docs/build-with-claude/prompt-caching
  • OpenAI pricing: https://openai.com/api/pricing/
  • OpenAI prompt caching: https://developers.openai.com/docs/guides/prompt-caching
  • xAI API pricing: https://x.ai/api
  • xAI models / tools: https://docs.x.ai/docs/models
  • DeepSeek pricing: https://api-docs.deepseek.com/quick_start/pricing
  • DeepSeek context caching: https://api-docs.deepseek.com/guides/kv_cache
  • Google Gemini API pricing: https://ai.google.dev/gemini-api/docs/pricing
  • Groq pricing: https://groq.com/pricing/

사용자 질문 프롬프트

$hhd-research 

다양한 LLM api 사용 예상 견적 리서치 

claude api 가격 예상
- claude-3-haiku-20240307 
- ...
다른 api 가격 예상 
- openai
- grok
- deepseek
그외 무료나 아주 저렴한 api 가 있는지?

가격 예상은 토큰당 비용이 기본
추가로 쉬운 설명으로 한글 글자수로 예상 견적 산출 추가 
질문마다 리서치를 수행할때 웹검색을 수행할텐데 이럴때 예상 가격 견적
질문을 캐시하는 방식으로 비용절감이 가능하다고 들었는데, 좋은 솔루션은?

think ultra hard