저장토큰(Cached Tokens)이란? AI API 비용 90% 절감하는 핵심 개념 총정리
AI API를 사용하면서 비용이 부담되시나요? 매번 동일한 프롬프트를 반복 전송하면서 불필요한 토큰 비용이 발생하고 있다면, 저장토큰에 대해 알아야 할 때입니다. 저장토큰은 AI 서비스 이용 비용을 최대 90%까지 절감할 수 있는 혁신적인 기능으로, OpenAI, Anthropic, Google 등 주요 AI 기업에서 모두 지원하고 있습니다.
저장토큰(Cached Tokens)의 정확한 의미
저장토큰은 AI 모델에 반복적으로 전송되는 입력 토큰을 캐시에 저장하여 재사용하는 기술입니다. 일반적으로 AI API를 호출할 때마다 시스템 프롬프트, 배경 정보, 예시 등 동일한 내용을 매번 전송해야 합니다. 이때 발생하는 입력 토큰 비용은 사용량에 비례하여 누적됩니다.
저장토큰 기능을 활용하면 한 번 처리된 프롬프트 내용이 캐시에 저장되고, 후속 요청에서는 저장된 토큰을 참조하여 재계산 과정을 생략합니다. 이를 통해 비용 절감과 응답 속도 향상이라는 두 가지 이점을 동시에 얻을 수 있습니다. 특히 긴 시스템 프롬프트나 대용량 문서를 기반으로 여러 질문을 처리하는 경우 효과가 극대화됩니다.
• • •
📌 관련 글
주요 AI 서비스별 저장토큰 지원 현황
OpenAI의 프롬프트 캐싱
OpenAI는 Prompt Caching이라는 이름으로 저장토큰 기능을 제공합니다. GPT-4o, GPT-4o mini, o1-preview, o1-mini 등 최신 모델에서 1,024 토큰 이상의 프롬프트에 자동으로 적용됩니다. 별도의 설정 없이도 동일한 프롬프트 접두사가 감지되면 자동으로 캐시가 적용되어 50% 할인된 요금이 청구됩니다. 캐시는 일반적으로 5~10분간 유지되며, 비활성 상태에서도 최대 1시간까지 보존될 수 있습니다.
Anthropic Claude의 프롬프트 캐싱
Anthropic은 Claude 모델에서 더욱 적극적인 캐싱 정책을 제공합니다. cache_control 매개변수를 사용하여 캐시할 콘텐츠를 명시적으로 지정할 수 있으며, 캐시 읽기 시 기본 입력 토큰 대비 90% 저렴한 요금이 적용됩니다. Claude Opus 4.1, Claude Sonnet 4.5 등 최신 모델에서는 1,024 토큰 이상부터 캐싱이 가능합니다. 자세한 기술 문서는 Anthropic 공식 문서에서 확인할 수 있습니다.
Google Gemini의 컨텍스트 캐싱
Google은 Gemini API에서 Context Caching이라는 이름으로 이 기능을 제공합니다. 암시적 캐싱과 명시적 캐싱 두 가지 방식을 지원하며, Gemini 2.5 모델에서는 캐시 적중 시 75%의 비용 할인이 자동 적용됩니다. TTL(Time To Live)을 직접 설정하여 캐시 유지 시간을 조절할 수도 있습니다.
• • •
저장토큰으로 비용을 절감하는 원리
AI 모델이 텍스트를 처리할 때는 토큰화, 임베딩 계산, 어텐션 메커니즘 등 복잡한 연산 과정을 거칩니다. 저장토큰은 이 중 어텐션 계산의 중간 결과물인 KV(Key-Value) 캐시를 저장합니다. 동일한 입력이 다시 들어오면 저장된 KV 캐시를 불러와 연산을 건너뛰기 때문에 처리 시간과 컴퓨팅 자원이 크게 절약됩니다.
이러한 절약 효과는 서비스 제공업체가 사용자에게 할인된 요금으로 돌려주는 방식입니다. 실제로 긴 프롬프트의 경우 지연 시간이 최대 85%까지 단축되는 효과도 보고되고 있습니다. 대화형 에이전트, 문서 분석 도구, 코딩 어시스턴트 등 반복적인 컨텍스트를 활용하는 애플리케이션에서 특히 유용합니다.
• • •
저장토큰 활용을 위한 실전 전략
프롬프트 구조 최적화하기
저장토큰의 효과를 극대화하려면 프롬프트 구조를 전략적으로 설계해야 합니다. 정적 콘텐츠(시스템 지침, 배경 정보, 도구 정의)는 프롬프트 앞부분에 배치하고, 동적 콘텐츠(사용자 입력, 변경되는 데이터)는 뒤쪽에 배치하는 것이 기본 원칙입니다. 캐시는 프롬프트의 접두사(prefix) 단위로 저장되기 때문에 앞부분이 동일해야 캐시 적중률이 높아집니다.
최소 토큰 요건 확인하기
각 AI 서비스별로 캐싱이 적용되는 최소 토큰 수가 다릅니다. 예를 들어 OpenAI는 1,024 토큰, Claude Haiku는 2,048 토큰이 최소 요건입니다. 프롬프트가 이 기준 미만이면 캐싱이 적용되지 않으므로 사전에 토큰 수를 계산해 두는 것이 좋습니다.
캐시 수명 관리하기
대부분의 저장토큰 캐시는 5분 정도의 기본 TTL을 가지며, 사용할 때마다 갱신됩니다. Anthropic의 경우 추가 비용을 지불하면 1시간 TTL 옵션도 선택할 수 있습니다. 애플리케이션의 요청 패턴에 맞춰 적절한 캐시 전략을 수립해야 합니다.
• • •
서비스별 저장토큰 가격 비교
| 구분 | 내용 |
|---|---|
| OpenAI 캐시 할인율 | 50% (일반 입력 토큰 대비) |
| Anthropic 캐시 읽기 | 90% 할인 (기본 입력 가격의 10%) |
| Anthropic 캐시 쓰기 | 25% 추가 비용 (5분 TTL 기준) |
| Google Gemini 캐시 적중 | 75% 할인 (Gemini 2.5 모델) |
| 최소 캐시 토큰 (OpenAI) | 1,024 토큰 |
| 최소 캐시 토큰 (Claude Sonnet) | 1,024 토큰 |
| 캐시 유지 시간 | 기본 5분 (사용 시 갱신) |
• • •
✅ 꼭 알아두세요
- 프롬프트 순서가 중요합니다: 정적 콘텐츠를 앞에, 동적 콘텐츠를 뒤에 배치해야 캐시 적중률이 높아집니다.
- 캐시는 정확히 일치해야 합니다: 프롬프트 접두사가 한 글자라도 다르면 캐시 미스가 발생합니다.
- 동시 요청 시 주의하세요: 병렬 요청의 경우 첫 번째 응답이 완료된 후에야 캐시가 생성됩니다.
- API 응답에서 확인하세요: cached_tokens 필드를 통해 실제 캐시 적용 여부를 확인할 수 있습니다.
• • •
📖 함께 읽으면 좋은 글
- 급구알바 빠르게 구하는 방법 총정리 | 당일 채용 성공 노하우
- 연말정산간소화서비스 이용방법 총정리 2026년 일정과 주의사항
- 구인공고 사이트 추천 및 효과적인 작성법 2025 총정리 | 무료·유료 채용플랫폼 완벽 비교
자주 묻는 질문 (FAQ)
Q. 저장토큰은 모든 AI 모델에서 사용할 수 있나요?
A. 아닙니다. 저장토큰(프롬프트 캐싱) 기능은 특정 모델에서만 지원됩니다. OpenAI의 경우 GPT-4o, o1 시리즈 등 최신 모델에서, Anthropic은 Claude 3.5 이상 모델에서, Google은 Gemini 1.5 이상 모델에서 사용할 수 있습니다. 구버전 모델은 지원되지 않을 수 있으므로 공식 문서를 확인하시기 바랍니다.
Q. 저장토큰을 사용하면 AI 응답 품질이 달라지나요?
A. 아닙니다. 저장토큰은 입력 처리 과정의 연산을 최적화하는 것이지 모델의 응답 생성 방식을 변경하지 않습니다. 캐시된 토큰과 일반 토큰은 모델 입장에서 동일하게 처리되므로 응답 품질에는 영향을 미치지 않습니다.
Q. 저장토큰 기능을 사용하려면 별도 설정이 필요한가요?
A. 서비스에 따라 다릅니다. OpenAI는 자동으로 적용되어 별도 설정이 필요 없습니다. 반면 Anthropic은 cache_control 매개변수를 명시적으로 지정해야 하며, Google Gemini는 암시적(자동)과 명시적(수동) 캐싱을 모두 지원합니다. 명시적 캐싱을 사용하면 더 세밀한 제어가 가능합니다.
• • •
마치며
저장토큰은 AI API 비용을 획기적으로 줄일 수 있는 필수 최적화 기술입니다. 반복적인 프롬프트를 캐시에 저장하여 최대 90%의 비용 절감과 85%의 지연 시간 단축 효과를 얻을 수 있습니다. AI 서비스를 본격적으로 활용하는 개발자라면 각 플랫폼의 캐싱 정책을 숙지하고, 프롬프트 구조를 최적화하여 비용 효율적인 서비스를 구축하시기 바랍니다.