Por el equipo DDH · Digital Dashboard Hub

Coste Por Token Across All Major AI Models (2026)

Precios de entrada y salida por millón de tokens para cada modelo principal de OpenAI, Anthropic y Google, más los mecanismos de caché, batch y ventana de contexto que determinan tu factura mensual real — actualizado a junio de 2026.

By DDH Research Team at Digital Dashboard Hub·Updated June 15, 2026

Browse all 40+ free prompt tools

Desde junio de 2026, los precios de los modelos de IA se cotizan por millón de tokens (MTok) y se dividen en una tasa de entrada más barata y una tasa de salida más cara. Los modelos más baratos y capaces de la clase fronteriza — gpt-5.4 a $2.50 entrada / $15.00 salida, Claude Sonnet 4.6 a $3 / $15, y Gemini 2.5 Pro a $1.25 / $10 — se agrupan estrechamente, mientras que los modelos razonadores de nivel superior (gpt-5.5-pro a $30 / $180, Claude Fable 5 a $10 / $50) cuestan 5-12 veces más. Los precios a continuación se extraen de la página de precios activa de cada proveedor y deben verificarse allí antes de comprometer un presupuesto.

El precio de los tokens solo nunca predice tu factura. El caché de prompts, los descuentos por batch y cuánto contexto insertes en cada llamada afectan los costos reales entre 2-10 veces. Esta guía enumera cada precio actual, luego muestra los mecanismos que realmente mueven el número — y puedes ingresar tus propios volúmenes en nuestro Calculador de Costes de Prompts de IA (cómo funciona) para estimar una cifra mensual.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Precios por token, todos los modelos principales (por 1M tokens, junio de 2026)

Feature	Entrada ($/MTok)	Salida ($/MTok)	Nivel
OpenAI gpt-5.5	5.00	30.00	Fronterizo
OpenAI gpt-5.5-pro	30.00	180.00	Razonamiento premium
OpenAI gpt-5.4	2.50	15.00	Caballo de batalla
OpenAI gpt-5.4-mini	0.75	4.50	Eficiente
OpenAI gpt-5.4-nano	0.20	1.25	Volumen / barato
OpenAI gpt-5.3-codex	1.75	14.00	Codificación
Claude Opus 4.8	5.00	25.00	Fronterizo
Claude Sonnet 4.6	3.00	15.00	Caballo de batalla
Claude Haiku 4.5	1.00	5.00	Eficiente
Claude Fable 5	10.00	50.00	Premium
Gemini 3.5 Flash	1.50	9.00	Caballo de batalla
Gemini 3.1 Pro (Preview)	2.00	12.00	Fronterizo (≤200k)
Gemini 3.1 Flash-Lite	0.25	1.50	Volumen / barato
Gemini 2.5 Pro	1.25	10.00	Caballo de batalla
Gemini 2.5 Flash	0.30	2.50	Eficiente
Gemini 2.5 Flash-Lite	0.10	0.40	El más barato

Precios a partir de junio de 2026, según [OpenAI](https://developers.openai.com/api/docs/pricing), [Anthropic](https://claude.com/pricing) ([detalle de API](https://platform.claude.com/docs/en/about-claude/pricing)) y [Google Gemini](https://ai.google.dev/gemini-api/docs/pricing). Sujeto a cambios; confirma en las páginas activas.

Qué contiene esta guía

Esta es una página de referencia. Escanea la tabla que necesites:

1. Cómo funciona realmente la fijación de precios por token (entrada vs salida, por qué la salida cuesta más).

2. Precios de OpenAI API — la familia completa gpt-5.5 y gpt-5.4 más modelos codex y de medios.

3. Precios de Anthropic / Claude API — Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5.

4. Precios de Google Gemini API — Gemini 3.5, 3.1 y niveles 2.5.

5. La tabla de comparación de todos los modelos de un vistazo.

6. Caché de prompts — cómo las lecturas en caché reducen el coste de entrada hasta un 90%.

7. Descuentos por batch — 50% de descuento cuando la latencia no importa.

8. Precios de ventana de contexto — por qué el contexto largo puede duplicar silenciosamente una factura.

9. Cómo estimar tu coste mensual real.

10. Fuentes y lecturas adicionales.

Cómo funciona la fijación de precios por token

Cada API importante mide el uso en tokens, no en palabras o caracteres. Un token es un fragmento subpalabra; en inglés, aproximadamente 1 token ≈ 4 caracteres ≈ 0,75 palabras (según la documentación de tokenización de Anthropic y OpenAI). Un correo de 500 palabras tiene aproximadamente 670 tokens; un documento de 10 páginas tiene aproximadamente 5.000-6.000 tokens.

Los precios casi siempre se dividen en dos tasas. Los tokens de entrada (tu prompt, mensaje del sistema y cualquier contexto que adjuntes) se facturan a una tasa; los tokens de salida (lo que genera el modelo) se facturan a una tasa más alta — típicamente 4-6 veces la tasa de entrada. Esa asimetría es por qué la resumición (entrada larga, salida corta) es barata y la generación (entrada corta, salida larga) es comparativamente cara.

Las tasas se cotizan por 1.000.000 de tokens (1M, escrito MTok). Entonces gpt-5.4 a $2.50 / $15.00 significa $2.50 por millón de tokens de entrada y $15.00 por millón de tokens de salida. Una sola solicitud de 4.000 entrada + 1.000 tokens de salida en gpt-5.4 cuesta (4.000/1.000.000 × $2.50) + (1.000/1.000.000 × $15.00) = $0,01 + $0,015 = $0,025.

Tres modificadores cambian esa matemática base: caché de prompts (entrada más barata repetida), procesamiento por batch (trabajos no urgentes más baratos) y precios por nivel de ventana de contexto (algunos modelos cobran más por encima de un umbral de contexto). Los tres se tratan a continuación. Para convertir recuentos de tokens en dólares sin hacer la aritmética manualmente, usa el Calculador de Costes de Prompts de IA. Para una factura de comparación directa con tu volumen mensual, ejecuta los números a través de nuestro calculador de costes de prompts de IA.

Precios de OpenAI API (a partir de junio de 2026)

La familia gpt-5.5 de OpenAI es el nivel fronterizo; la familia gpt-5.4 es la línea de trabajo eficiente en costes, con variantes mini y nano para trabajo de alto volumen y bajo riesgo. El modelo gpt-5.3-codex está optimizado para agentes de codificación. Todas las cifras a continuación son por 1M tokens y se extraen de la página de precios de OpenAI API; confirma allí antes de presupuestar.

``` Model Input ($/MTok) Output ($/MTok) gpt-5.5 5.00 30.00 gpt-5.5-pro 30.00 180.00 gpt-5.4 2.50 15.00 gpt-5.4-mini 0.75 4.50 gpt-5.4-nano 0.20 1.25 gpt-5.3-codex 1.75 14.00 ```

Los medios tienen precios separados: gpt-image-2 se ejecuta a $8.00 entrada / $30.00 salida por 1M tokens, y Sora-2 video se mide por segundo — $0.10/seg a 720p y $0.50/seg a 1024p.

Seleccionar dentro de la familia: gpt-5.4-nano a $0.20 / $1.25 es aproximadamente 25 veces más barato en entrada que gpt-5.5 y es el valor predeterminado correcto para clasificación, etiquetado y enrutamiento. Reserva gpt-5.5-pro para razonamiento genuinamente difícil — a $180/MTok de salida es el token de salida más caro de cualquier modelo en esta guía.

Precios de Anthropic / Claude API (a partir de junio de 2026)

La línea Claude de Anthropic abarca Haiku (más rápido, más barato), Sonnet (equilibrado), Opus (modelo general más capaz) y Fable 5 (el nivel premium). Notablemente, las generaciones Opus y Sonnet 4.6+ tienen un precio fijo independientemente de qué punto de lanzamiento llames. Las cifras son por 1M tokens de la página de precios de Claude y el detalle de precios de API.

``` Model Input ($/MTok) Output ($/MTok) Claude Opus 4.8 5 25 Claude Opus 4.5 / 4.6 / 4.7 5 25 Claude Sonnet 4.6 / 4.5 3 15 Claude Haiku 4.5 1 5 Claude Fable 5 10 50 ```

Dos ventajas estructurales se destacan. Primero, Claude Opus 4.8 coincide con el precio de entrada de gpt-5.5 ($5) pero reduce su salida en $5/MTok ($25 vs $30) — y es dramáticamente más barato que gpt-5.5-pro. Segundo, las lecturas en caché en Opus 4.8 cuestan solo $0.50/MTok (10% de la entrada base), lo que hace que las cargas de trabajo de contexto repetido sean mucho más baratas que la tasa de titular sugiere (ver caché a continuación).

Anthropic también factura herramientas del lado del servidor por separado: la herramienta de búsqueda web es $10 por cada 1.000 búsquedas. Si construyes un agente de investigación que busca en cada turno, ese elemento de línea puede rivalizar con tu gasto en tokens, así que métralo explícitamente.

Precios de Google Gemini API (a partir de junio de 2026)

La línea Gemini de Google es generalmente la más barata de los tres proveedores en niveles de capacidad comparables, especialmente las variantes Flash-Lite para trabajo de alto volumen. Algunos niveles (Gemini 3.1 Pro Preview) cotizan la tasa en o por debajo de un umbral de contexto. Las cifras son por 1M tokens de la página de precios de Gemini API.

``` Model Input ($/MTok) Output ($/MTok) Gemini 3.5 Flash 1.50 9.00 Gemini 3.1 Pro (Preview) 2.00 12.00 (≤200k context) Gemini 3.1 Flash-Lite 0.25 1.50 Gemini 2.5 Pro 1.25 10.00 Gemini 2.5 Flash 0.30 2.50 Gemini 2.5 Flash-Lite 0.10 0.40 ```

Gemini 2.5 Flash-Lite a $0.10 / $0.40 es el modelo más barato en toda esta guía — la mitad del coste de entrada de gpt-5.4-nano y una cuarta parte de la tasa de salida de Gemini 3.1 Flash-Lite. Para extracción, clasificación y otras tareas de bajo riesgo en masa donde no necesitas razonamiento fronterizo, establece el piso de precios.

Nota la nota de contexto de 3.1 Pro Preview: su tasa de $2.00 / $12.00 se cotiza en o por debajo de 200k tokens. Como con cualquier proveedor, las llamadas de contexto largo pueden moverse a un nivel de precios diferente, así que verifica la página activa para los umbrales exactos antes de enviar prompts muy grandes.

Todos los modelos principales de un vistazo

La tabla a continuación colapsa cada modelo en una sola comparación para que puedas ver dónde cae cada uno. El precio de salida es el número que generalmente domina las facturas reales, ya que la generación tiende a producir más tokens de lo que esperarías. El nivel 'caballo de batalla barato' (gpt-5.4, Sonnet 4.6, Gemini 2.5 Pro) es donde debería sentarse la mayoría del tráfico de producción a menos que una tarea genuinamente necesite el nivel fronterizo.

Caché de prompts: la palanca más grande en el coste de entrada

El caché de prompts te permite reutilizar un fragmento de entrada grande y estable — un prompt del sistema largo, una base de conocimiento, un documento — en muchas solicitudes con un descuento pronunciado. En lugar de pagar el precio de entrada completo en cada llamada, pagas un coste de escritura único y luego un coste de lectura diminuto en cada acierto de caché.

En la API de Anthropic, los mecanismos son explícitos (detalle de precios): una escritura en caché de 5 minutos cuesta 1,25 veces la tasa de entrada base, una escritura de 1 hora cuesta 2 veces, y una lectura en caché (acierto) cuesta solo 0,1 veces la entrada base — es decir, 10% del precio de entrada. Para Claude Opus 4.8 eso significa lecturas en caché a $0.50/MTok en lugar de $5.00/MTok, un ahorro del 90% en la porción en caché.

Las matemáticas: supongamos que adjuntas una base de conocimiento de 50.000 tokens a 1.000 solicitudes de Opus 4.8. Sin caché, eso son 50M tokens de entrada a $5 = $250 solo para el contexto repetido. Con caché, pagas una escritura (~50.000 tokens × 1,25x = aproximadamente $0,31) más 999 lecturas al 10% (≈49.95M × $0.50/MTok ≈ $25). Reduces el coste de contexto repetido de $250 a aproximadamente $25 — aproximadamente 90% de descuento.

El caché se rentabiliza cuando el mismo prefijo grande aparece en muchas llamadas dentro de la ventana de caché. No hace nada para prompts únicos o prompts donde la mayor parte de la entrada cambia cada vez. OpenAI y Google también ofrecen caché; verifica la página de precios de cada proveedor para las tasas de descuento actuales y mínimos.

Descuentos por batch: 50% de descuento cuando la latencia no importa

Si un trabajo no necesita una respuesta inmediata — resumen nocturno de un trabajo atrasado, clasificación en masa, etiquetado de conjunto de datos — los APIs de batch intercambian latencia por un descuento. La API de Batch de Anthropic es 50% de descuento en entrada y salida (precios); OpenAI y Google ofrecen niveles de batch comparables (verifica sus páginas de precios para porcentajes exactos y ventanas de entrega).

El apilamiento importa: batch y caché pueden combinarse. Un trabajo nocturno que reutiliza un prompt del sistema fijo en miles de registros puede tomar el descuento de lectura en caché en el prefijo y el descuento de batch en el resto. Para una carga de trabajo que es tanto repetitiva como no urgente, la tasa efectiva puede aterrizar bien bajo la mitad del precio de titular.

El compromiso es el tiempo de entrega — los trabajos por batch típicamente se resuelven dentro de una ventana (a menudo hasta 24 horas) en lugar de en segundos. Usa batch para pipelines, no para nada en lo que un usuario esté esperando.

Precios de ventana de contexto: el multiplicador de factura silencioso

Los modelos modernos aceptan ventanas de contexto enormes — Anthropic incluye una ventana de contexto de 1M tokens a precios estándar en Opus 4.6+, Sonnet 4.6 y Fable 5. Esa capacidad es un arma de doble filo: cada token que pones en contexto se factura a la tasa de entrada en cada llamada.

La trampa es RAG y aplicaciones de conversación larga que siguen anexando. Si desarrollas una conversación a 100.000 tokens de contexto y haces 20 turnos más, vuelves a pagar esos 100.000 tokens de entrada en cada uno de los 20 turnos — 2M tokens de entrada de sobrecarga antes de contar ningún contenido nuevo. En Opus 4.8 eso son $10 en coste puro de repetición de contexto para una sola conversación.

Dos mitigaciones: (1) almacena en caché la porción estable del contexto para que la repetición se facture al 10% en lugar del 100%; (2) resume o trunca los turnos antiguos para que la ventana no crezca sin límites. Algunos proveedores también cotizan precios por nivel por encima de un umbral de contexto (p. ej. Gemini 3.1 Pro Preview cotiza su tasa en ≤200k) — verifica el umbral en la página de precios activa antes de enviar prompts muy grandes.

Cómo estimar tu coste mensual real

Las tasas por token de titular son el punto de partida, no la respuesta. Para estimar una factura mensual real, trabaja a través de cinco números: (1) solicitudes por mes, (2) tokens de entrada promedio por solicitud, (3) tokens de salida promedio por solicitud, (4) qué modelo, y (5) qué fracción de entrada es almacenable en caché o procesable por batch.

Ejemplo trabajado. Digamos que un asistente de soporte maneja 100.000 solicitudes/mes en Claude Sonnet 4.6 ($3 / $15), promediando 3.000 entrada + 500 tokens de salida, con un prompt del sistema de 2.000 tokens que es almacenable en caché. Entrada base: 100k × 3.000 = 300M tokens; de eso, ~200M es el prompt almacenable en caché que se repite. En caché: ~200M × $0.30/MTok (10% de $3) = $60; entrada no almacenable ~100M × $3 = $300; salida 100k × 500 = 50M × $15 = $750. Total ≈ $1.110/mes — versus aproximadamente $1.650 sin caché.

Los dos errores de estimación más grandes son subestimar los tokens de salida (los modelos son más verbosos de lo que la gente espera) e ignorar la repetición de contexto en aplicaciones multiturno. Construye una pequeña hoja de cálculo, o salta la aritmética e ingresa tus volúmenes en el Calculador de Costes de Prompts de IA — ver cómo funciona el calculador para la metodología. Luego valida contra tu primera semana real de facturación de API; las estimaciones son direccionales hasta que el uso medido las confirma.

Lista de verificación de control de costes: enruta tareas fáciles al modelo más barato capaz (Gemini 2.5 Flash-Lite, gpt-5.4-nano, Haiku 4.5); almacena en caché prefijos estables; procesa por batch cualquier cosa no urgente; limita la longitud de salida; y recorta contexto agresivamente. Estas cinco palancas rutinariamente cortan una factura por la mitad o más — mucho más que cambiar de proveedores por una diferencia de tasa fraccionada.

Fuentes y lecturas adicionales

Todos los precios en esta guía se cotizan a partir de junio de 2026 y están sujetos a cambios — siempre confirma en las páginas activas a continuación antes de comprometer un presupuesto.

Precios de OpenAI API: https://developers.openai.com/api/docs/pricing

Precios de Anthropic / Claude: https://claude.com/pricing

Detalle de precios de Claude API (caché, batch, herramientas): https://platform.claude.com/docs/en/about-claude/pricing

Precios de Google Gemini API: https://ai.google.dev/gemini-api/docs/pricing

Regla general de token a texto (1 token ≈ 4 caracteres ≈ 0,75 palabras): según la documentación de tokenización de Anthropic y OpenAI.

Estima tu propio gasto con el Calculador de Costes de Prompts de IA y lee la metodología de calculador.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related prompt tools

Generador de Prompts de Código→Generador de Prompts ChatGPT→Generador de Emails Empresariales→Generador de Esquemas de Entradas de Blog→Generador de Meta SEO→

Frequently Asked Questions

¿Qué modelo de IA tiene el coste más bajo por token en 2026?

A partir de junio de 2026, Gemini 2.5 Flash-Lite es el más barato a $0.10 entrada / $0.40 salida por 1M tokens, según la página de precios de Gemini. Entre niveles baratos comparables, gpt-5.4-nano ($0.20 / $1.25) y Claude Haiku 4.5 ($1 / $5) son los equivalentes de OpenAI y Anthropic. Estos son mejores para tareas de alto volumen y bajo riesgo como clasificación y extracción, no para razonamiento fronterizo.

¿Por qué la salida es más cara que la entrada?

Generar tokens es más intensivo en computación que leerlos — cada token de salida requiere un pase completo hacia adelante a través del modelo, mientras que la entrada puede procesarse de manera más eficiente. En los proveedores, las tasas de salida se ejecutan aproximadamente 4-6 veces la tasa de entrada. Por eso la resumición (entrada larga, salida corta) es barata y la generación abierta (entrada corta, salida larga) es comparativamente cara. Consulta la página de precios de cada proveedor para ratios exactos.

¿Cuánto ahorra realmente el caché de prompts?

En la API de Anthropic, una lectura en caché cuesta el 10% de la tasa de entrada base, por lo que reutilizar un prefijo grande y estable ahorra aproximadamente el 90% en esa porción (detalle de precios). Para Claude Opus 4.8, la entrada en caché cae de $5.00 a $0.50 por 1M tokens. El inconveniente: el caché solo ayuda cuando el mismo prefijo grande se repite en muchas llamadas dentro de la ventana de caché. No hace nada para prompts únicos.

¿Cuál es el descuento de la API de batch?

La API de Batch de Anthropic es 50% de descuento en entrada y salida para trabajos que no necesitan una respuesta inmediata (precios). OpenAI y Google ofrecen niveles de batch comparables — verifica sus páginas de precios para porcentajes exactos y ventanas de entrega. Batch y caché pueden apilarse, así que un pipeline no urgente y repetitivo puede ejecutarse a bien menos de la mitad de la tasa de titular.

¿Una ventana de contexto más grande cuesta más?

La ventana en sí misma a menudo se incluye a precios estándar — Anthropic incluye contexto de 1M tokens a tasas estándar en Opus 4.6+, Sonnet 4.6 y Fable 5. Pero pagas la tasa de entrada por cada token que realmente pones en contexto, en cada llamada. Las aplicaciones multiturno que siguen anexando vuelven a pagar todo el contexto en cada turno, lo que multiplica silenciosamente la factura. Almacenar en caché la porción estable y recortar turnos antiguos son las principales mitigaciones.

¿Cómo estimo mi coste real mensual de IA?

Multiplica solicitudes/mes por tokens de entrada y salida promedio por solicitud, aplica las tasas por token del modelo, luego descuenta cualquier porción almacenable en caché o procesable por batch. Los tokens de salida y la repetición de contexto multiturno son los dos costes más subestimados. La forma más rápida es saltar la aritmética y usar el Calculador de Costes de Prompts de IA (metodología aquí), luego valida contra tu primera semana real de facturación de API.

Estima tu factura real de IA antes de comprometerte.

Ingresa tus volúmenes en el Calculador de Costes de Prompts de IA gratuito — sin registro, parte de más de 40 herramientas de prompts gratuitas de Digital Dashboard Hub.

Browse all prompt tools →