Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Por The DDH Team · Digital Dashboard Hub

Calculadora de costos de razonamiento o1 / o3 (2026)

By The DDH Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Los modelos de razonamiento de la serie o de OpenAI — o3, o3-mini y el deprecado o1 — facturan de manera diferente a todos los modelos de chat en la API. Antes de que el modelo produzca un solo token visible para el usuario, genera tokens de razonamiento interno: un borrador privado de cadena de pensamiento que el modelo usa para planificar, verificar y refinar su respuesta. Esos tokens de razonamiento NUNCA se devuelven al llamador. Pero se facturan a la tarifa de salida completa, cada uno de ellos. Una respuesta de 200 tokens que tardó 4,000 tokens de razonamiento en producirse factura 4,200 tokens de salida — no 200.

Este mecanismo único es responsable de casi todas las historias de sorpresas de facturación que escuchamos sobre modelos de razonamiento. Un equipo estima el costo contando las palabras en su respuesta, ejecuta la producción durante una semana y recibe una factura 5-15x mayor a lo que presupuestaron. La solución no es evitar modelos de razonamiento — para las cargas de trabajo correctas (matemáticas, síntesis de código, planificación de múltiples pasos, verificación formal) son dramáticamente mejores que chat. La solución es presupuestar contra la forma del token de razonamiento, no la respuesta visible.

A partir de junio de 2026, la escala de la serie o es: **o3 a $2.00 entrada / $8.00 salida por 1M tokens**, **o3-mini a $0.55 / $2.20**, y **o1 a $15 / $60** (deprecado — migra). La transición de o1 a o3 fue una caída de precio del 87% en el modelo de razonamiento insignia — uno de los mayores cortes de precio de un solo modelo en la historia de la API (cobertura de VentureBeat). El razonamiento ahora es ~7x más barato que hace un año, y las matemáticas a continuación reflejan ese reinicio.

A continuación: la tabla completa de precios del modelo de razonamiento de junio de 2026, la fórmula de costo de tokens de razonamiento (la que realmente necesitas), cuatro ejemplos de matemática en $ trabajados que muestran la prima de tokens de pensamiento en dólares, un árbol de decisión para cuándo el razonamiento vence al chat, y una FAQ basada en fuentes. Redacta rápidamente indicaciones ajustadas para razonamiento que minimicen el exceso de tokens de pensamiento con nuestro generador de indicaciones gratuito de ChatGPT. Calculadoras hermanas: costo de GPT-5 · costo de API de OpenAI · costo de DeepSeek.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Precios de modelos de razonamiento de la serie o de OpenAI — junio de 2026

Feature
Entrada ($/1M)
Salida ($/1M, incl. razonamiento)
Ventana de contexto
o3$2.00$8.00200K
o3-mini$0.55$2.20200K
o1 (deprecado — migra a o3)$15.00$60.00200K

Fuente, a partir de junio de 2026: precios de OpenAI (https://developers.openai.com/api/docs/pricing). Los tokens de razonamiento se facturan a la tarifa de salida aunque no se devuelvan al llamador. Sin descuento de entrada en caché publicado en la serie o a partir de esta fecha de verificación. La ventana de contexto de 200K se aplica a las tres filas. o1 permanece en la página de precios para compatibilidad de ventana de migración pero está en fin de vida — todas las compilaciones nuevas deben dirigirse a o3 u o3-mini.

La fórmula de costo de tokens de razonamiento (la que nadie te advierte)

En modelos de chat como GPT-5.5, la fórmula de costo es directa — pagas por los tokens de entrada que enviaste y los tokens de salida que el modelo escribió. En la serie o, hay un tercer término que no aparece en ningún campo de respuesta pero absolutamente aparece en tu factura:

``` cost = (input_tokens / 1,000,000) × input_price + (reasoning_tokens / 1,000,000) × output_price ← invisible al llamador + (visible_output / 1,000,000) × output_price ```

El recuento de reasoning_tokens se reporta en la respuesta de la API bajo `usage.completion_tokens_details.reasoning_tokens`. Léelo. Regístralo. Si omites este campo no tienes idea de lo que realmente estás pagando por llamada — el campo `content` te muestra la respuesta de 200 tokens, pero el campo `reasoning_tokens` es donde se oculta la factura de 4,000 tokens.

La forma práctica de tokens de razonamiento que vemos en implementaciones de producción: matemática simple / clasificación con razonamiento habilitado = 200-800 tokens de razonamiento; generación de código de múltiples pasos = 1,500-5,000 tokens de razonamiento; tareas complejas de planificación / estilo de prueba = 5,000-25,000 tokens de razonamiento; bucles agentes con auto-verificación = 20,000-80,000 tokens de razonamiento por consulta. Presupuesta la envolvente completa, no la respuesta visible.


Ejemplo trabajado 1: la llamada de clasificación 'barata' que no es barata

Un equipo migra un pipeline de clasificación de gpt-5.4-mini a o3-mini, esperando mayor precisión en casos extremos. Entrada: 500 tokens (la rúbrica + el documento). Salida visible: 50 tokens (una etiqueta JSON). Se ve idéntica al chat en forma — así que presupuestan contra matemáticas de chat.

**Estimación de chat (incorrecta)**: 0.0005 × $0.55 + 0.00005 × $2.20 = $0.000275 + $0.00011 = **$0.000385 por llamada**. En 100k llamadas/mes, $38.50.

**Realidad**: o3-mini genera ~1,200 tokens de razonamiento antes de producir cada etiqueta de 50 tokens. Factura de salida real = (1,200 + 50) / 1,000,000 × $2.20 = $0.00275. Total: $0.000275 entrada + $0.00275 salida = **$0.003 por llamada** — 7.8x la estimación de forma de chat. En 100k llamadas/mes, $300, no $38.50.

Lección: incluso en el nivel 'mini' de la escala de razonamiento, la cola de tokens de pensamiento domina. Si tu tarea de clasificación NO necesita razonamiento de múltiples pasos, mantente en gpt-5.4-mini ($0.50 / $1.50 entrada/salida) — la misma forma de llamada aterriza en $0.000125 por llamada, 24x más barata que o3-mini. La prima de razonamiento solo se paga por sí sola cuando el razonamiento es realmente el cuello de botella. Referencia cruzada: calculadora de costo de API de OpenAI para la escala de chat completa.


Ejemplo trabajado 2: la respuesta de 200 tokens que costó $0.0336

El ejemplo estrella. Un usuario le hace a o3 una pregunta de producto pesada en matemáticas. La respuesta visible es 200 tokens de prosa clara. El modelo pensó durante 4,000 tokens de razonamiento para llegar allí — ejecutando conversiones de unidades, verificaciones de casos extremos y una pasada de verificación final.

Entrada: 1,000 tokens (la pregunta + una indicación del sistema de 500 tokens). Factura de salida: (4,000 razonamiento + 200 visible) / 1,000,000 × $8.00 = 4,200 / 1,000,000 × $8 = **$0.0336 solo en salida**. Más entrada: 0.001 × $2 = $0.002. **Total por llamada: $0.0356.**

Compara con la estimación de forma de chat contra la respuesta visible: 0.001 × $2 entrada + 0.0002 × $8 salida = $0.002 + $0.0016 = $0.0036. **El costo real es 9.9x la estimación de respuesta visible.**

Compara con gpt-5.5 en la misma entrada/salida: 0.001 × $5 + 0.0002 × $30 = $0.005 + $0.006 = $0.011 por llamada. o3 es 3.2x más caro que gpt-5.5 en esta llamada — pero la respuesta de o3 maneja correctamente el caso extremo de matemáticas, y la respuesta de gpt-5.5 es sutilmente incorrecta. Si la prima del 3.2x vale la pena es una cuestión de costo de error descendente, no una cuestión de precio de token.


Ejemplo trabajado 3: bucle de síntesis de código agente en o3

Un agente de codificación genera un módulo Python de 150 líneas a partir de una especificación. El agente se ejecuta en un bucle de 4 turnos: plan → escribir → auto-revisar → parche. En cada turno el modelo piensa mucho antes de producir salida visible.

Forma por turno: entrada ~2,500 tokens (sistema + herramientas + transcripción creciente), salida visible ~400 tokens, razonamiento ~6,000 tokens. Factura de salida por turno: (6,000 + 400) / 1,000,000 × $8 = **$0.0512**. Entrada por turno: 0.0025 × $2 = $0.005. Total por turno: $0.0562.

**Total de 4 turnos: ~$0.225 por ejecución de síntesis de código en o3.** Compara con gpt-5.5-pro en el mismo bucle (sin tokens de razonamiento, pero más salida visible ~800 tokens/turno): 0.0025 × $30 entrada + 0.0008 × $180 salida = $0.075 + $0.144 = $0.219/turno × 4 = $0.876. **o3 es 3.9x más barato que gpt-5.5-pro en esta carga de trabajo a pesar de la prima de razonamiento, porque la tarifa de salida de pro es mucho más alta.**

La conclusión clave: en tareas donde el razonamiento es lo que estás comprando, la escala $2 / $8 de o3 vence a todos los niveles de chat premium. La trampa es usar o3 para tareas donde el razonamiento no es el cuello de botella — ahí es donde la cola de tokens de pensamiento te hace pagar por computación que no mejora la respuesta.


Ejemplo trabajado 4: 100,000 llamadas de razonamiento/mes — la realidad presupuestaria

Escala los números por llamada a una carga de trabajo mensual realista. Supón 100k llamadas/mes, forma mixta: 1,200 tokens de entrada promedio, 300 salida visible, 3,500 tokens de razonamiento (la mediana de producción que vemos en tráfico real de o3).

Por llamada: 0.0012 × $2 + (3,500 + 300) / 1,000,000 × $8 = $0.0024 + $0.0304 = $0.0328. **Mensual en o3: $3,280.**

En o3-mini (asumiendo la misma forma; mini típicamente usa 30-50% menos tokens de razonamiento — digamos 2,000 en lugar de 3,500): 0.0012 × $0.55 + (2,000 + 300) / 1,000,000 × $2.20 = $0.00066 + $0.00506 = $0.00572. **Mensual en o3-mini: $572.** o3-mini es 5.7x más barato para la misma forma de llamada con un pequeño delta de precisión.

En el viejo o1 (solo para comparación — migra): 0.0012 × $15 + 3,800/1,000,000 × $60 = $0.018 + $0.228 = $0.246. **Mensual en o1: $24,600.** o3 es 7.5x más barato que o1 para la misma carga de trabajo — la caída de precio del 87% es real y deberías estar capturándola.

El orden de palancas para mantener los costos de razonamiento bajo control: (1) limita `max_completion_tokens` para acotar el peor caso, (2) usa `reasoning_effort: 'low'` donde la tarea tolera menos pensamiento, (3) baja a o3-mini donde la calidad se mantiene, (4) enruta solo las consultas verdaderamente vinculadas al razonamiento a o3 — deja que gpt-5.4-mini maneje el resto. Ver nuestro calculadora de costo de DeepSeek para la alternativa de pesos abiertos de razonamiento.


La caída de precio del 87% de o1 a o3 — y lo que cambia

Cuando o3 se lanzó a $2 / $8 versus o1's $15 / $60, OpenAI anunció una reducción de precio efectiva del 80-87% en el modelo de razonamiento insignia (cobertura de VentureBeat). En entrada, o3 es 7.5x más barato que o1. En salida (donde los tokens de razonamiento se facturan), o3 también es 7.5x más barato. Efecto neto: cualquier carga de trabajo de o1 movida a o3 aterriza en ~13% del costo anterior con mejoras de calidad en el benchmark al mismo tiempo.

No es un ajuste de precio marginal — es una revalorización de la categoría de razonamiento. Las cargas de trabajo que eran inviables en o1 ($25k/mes para 100k llamadas de complejidad media) ahora están bajo $4k/mes en o3. Los modelos de razonamiento han pasado de 'válvula de escape premium para problemas difíciles' a 'defecto plausible para cualquier tarea donde la cadena de pensamiento ayuda.'

Lo que esto significa para tu plan de migración: si tienes CUALQUIER tráfico de o1 aún en ejecución, la migración está vencida. Cambio de código: reemplaza el ID de modelo `o1` con `o3`, deja todo lo demás idéntico (misma ventana de contexto, mismo mecanismo de facturación de tokens de razonamiento, misma forma de respuesta). Verás una reducción de costo de 7-8x en la misma carga de trabajo antes de cualquier otra optimización.

Lo que esto significa para tus decisiones de compilación: cuando estabas evitando modelos de razonamiento por la tarifa de salida de $60/M, reconsídéra. A $8/M, o3 es competitivo con gpt-5.5 ($30/M salida) una vez que factorizas en la calidad de respuesta mejor en tareas vinculadas al razonamiento. El argumento en dólares por chat-en-lugar-de-razonamiento se ha debilitado materialmente.


Árbol de decisión: cuándo los modelos de razonamiento vencen a los modelos de chat

**Usa o3 / o3-mini cuando**: (1) la tarea tiene corrección objetivamente verificable — matemáticas, código que se ejecuta y pasa pruebas, acertijos lógicos, extracción formal con verdad base; (2) la tarea tiene dependencias de múltiples pasos que los modelos de chat pierden (programación multi-restricción, razonamiento multi-salto sobre una base de conocimiento, plan-entonces-ejecutar); (3) tienes una evaluación que muestra una mejora de precisión real sobre el modelo de chat equivalente en TU tarea — no en un benchmark.

**Mantente con modelos de chat (gpt-5.4 / gpt-5.5) cuando**: (1) la tarea es generación abierta — contenido, copia, conversación, lluvia de ideas — donde 'corrección' es gusto, no verdad; (2) la tarea es extracción / clasificación simple donde los modelos de chat ya alcanzan 95%+ de precisión (pagar 5-15x por un modelo de razonamiento te da el último 1-3%, a menudo no vale la pena); (3) importa la latencia y no puedes esperar a que el modelo piense (los modelos de razonamiento añaden 5-30 segundos de latencia del pensamiento interno antes de cualquier salida).

**Usa o3-mini específicamente cuando**: (1) quieres la forma de razonamiento pero la respuesta visible es corta y el costo del error es moderado; (2) clasificación con casos extremos duros donde chat-tier obtiene ~90% y necesitas 96%+; (3) tienes una carga de trabajo de alto volumen donde la caída de o3 → o3-mini (entrada 4x más barata, salida 3.6x más barata) es la diferencia entre un despliegue viable y uno no viable.

**La prueba de evaluación**: antes de comprometer una carga de trabajo a modelos de razonamiento, ejecuta 100 consultas representativas a través de o3 y tu mejor modelo de chat. Puntuación de corrección. Si la mejora de precisión es <5% absoluta, mantente en chat — la prima de razonamiento no se pagará por sí sola. Si la mejora es >10%, el razonamiento casi seguramente vale la pena. Entre 5% y 10% es una decisión de juicio de costo de error descendente.

Compara la alternativa de pesos abiertos: costos de DeepSeek-R1 $0.55 / $2.19 por 1M tokens — casi idéntica a los $0.55 / $2.20 de o3-mini. La brecha de costo entre razonamiento propietario (o3-mini) y razonamiento de pesos abiertos (R1) se ha cerrado completamente; la diferenciación es ahora calidad, latencia e integración de herramientas, no precio.


Cómo controlar el exceso de tokens de razonamiento (las palancas que funcionan)

**Palanca 1 — parámetro `reasoning_effort`.** La serie o acepta un valor `reasoning_effort` de 'low', 'medium' o 'high'. Low reduce el pensamiento interno en 50-70% y recorta las facturas de tokens de razonamiento proporcionalmente. Para tareas donde la primera respuesta plausible del modelo es usualmente correcta, 'low' es el defecto correcto. Reserva 'high' para tareas donde has visto mediblemente que 'medium' produce respuestas incorrectas.

**Palanca 2 — límite de `max_completion_tokens`.** Establece un techo duro en la salida combinada (razonamiento + visible). Establécelo a tu factura aceptable en el peor caso por llamada. Si el modelo alcanza el límite, verás `finish_reason: 'length'` — manéjalo explícitamente (reintentar con más presupuesto, o degradar a una alternativa de modelo de chat).

**Palanca 3 — borrador acotado en la indicación.** Contraintuitivamente, instruir al modelo 'trabaja esto en como máximo 3 pasos' o 'verifica solo la restricción crítica' forma la traza de razonamiento y reduce el recuento de tokens sin dañar mediblemente la precisión en la mayoría de tareas. Los modelos de razonamiento responden bien a los límites de razonamiento a nivel de indicación.

**Palanca 4 — pre-descomponer la tarea.** Si puedes dividir una tarea de razonamiento de múltiples pasos en 3 llamadas de modelo de chat más simple + 1 llamada de modelo de razonamiento (en lugar de una gran llamada de modelo de razonamiento), las llamadas de chat se facturan a $0.50/M y la única llamada de razonamiento tiene un borrador mucho más pequeño para manejar. Ahorros típicos de 50-70% en cargas de trabajo agentes.

**Palanca 5 — registra `reasoning_tokens` en cada llamada.** OpenAI expone el recuento en `usage.completion_tokens_details.reasoning_tokens`. Envíalo a tu pila de observabilidad. La primera vez que veas un valor atípico de tokens de razonamiento de 25k en producción, entenderás por qué esta palanca importa más que las otras cuatro combinadas — atrapa los valores atípicos, no la mediana.

**Palanca 6 — enruta la tarea, no enrutes el modelo.** Construye un clasificador frente a tu modelo de razonamiento: consultas simples se enrutan a gpt-5.4-mini ($0.50 / $1.50), consultas complejas se enrutan a o3. Una carga de trabajo de 100k-llamada/mes donde el 70% puede ir a chat y el 30% necesita razonamiento aterriza en ~$1,200/mes combinado vs $3,280 si todo va a o3. El enrutador en sí cuesta casi nada.


o3 vs o3-mini: cuándo el nivel 4x más barato es realmente suficiente

o3-mini a $0.55 / $2.20 es aproximadamente 4x más barato que o3 en entrada y 3.6x más barato en salida. También típicamente genera 30-50% menos tokens de razonamiento para la misma tarea — el modelo más pequeño converge más rápido a una respuesta. Efecto combinado: o3-mini es a menudo 5-6x más barato que o3 en producción para la misma carga de trabajo.

Dónde o3-mini mantiene la calidad: extracción estructurada con casos extremos duros, generación de código de complejidad media (función única, bien especificada), clasificación con 5-15 clases y límites ambiguos, Q&A multi-salto sobre una pequeña base de conocimiento.

Dónde o3-mini se queda corta y necesitas o3 completo: planificación agente de horizonte largo (>5 pasos de razonamiento secuencial), trabajo matemático de estilo de prueba, síntesis de código por encima de ~200 líneas, tareas donde la evaluación muestra o3-mini en <85% de precisión.

Política predeterminada en mini: lanza cada nueva carga de trabajo de razonamiento en o3-mini primero. Ejecuta una evaluación de 200 muestras contra o3. Si o3-mini está dentro de 3 puntos porcentuales de la precisión de o3, mantén mini. Si la brecha es de 3-7 puntos, decide basándote en el costo del error. Si la brecha es >7 puntos, muévete a o3. Esta política mantiene 60-80% del tráfico de razonamiento típico en el nivel más barato sin impacto de calidad medible a nivel de producto.


Por qué no hay descuento de entrada en caché en la serie o (y qué hacer al respecto)

A diferencia de la familia de chat GPT-5 — donde los precios de entrada en caché leen visitas de caché de indicación a ~10% de la tarifa de entrada estándar (un descuento del 90%) — la serie o NO publica un descuento de entrada en caché a partir de junio de 2026. Cada token de entrada se factura a la tarifa completa $2/M (o3) o $0.55/M (o3-mini) independientemente del estado de caché.

Por qué importa: en modelos de chat, estructurar tu prefijo de indicación primero para maximizar visitas de caché puede reducir la factura de entrada en 30-50%. Esa palanca no está disponible en modelos de razonamiento. Cada indicación del sistema largo cuesta precio completo cada llamada.

Implicación práctica: en cargas de trabajo de la serie o, mantén las indicaciones del sistema CORTAS. Una indicación del sistema de modelo de razonamiento de 2,000 tokens que se almacenaría en caché a $0.20/M efectivo en gpt-5.5 en lugar cuesta $2/M completos en o3 — los mismos tokens, 10x más caros. Recorta sin piedad. Mueve contexto estable al prefijo de solo mensaje de usuario si tiene que estar allí en absoluto.

Solución para patrones de razonamiento repetidos: pre-computa el paso de razonamiento una vez con o3, almacena la conclusión, y sirve consultas de forma idéntica-subsecuente desde un pipeline de modelo de chat + recuperación que simplemente recupera la conclusión en caché. Este patrón (razona una vez, sirve desde caché) enruta el razonamiento costoso a una fracción minúscula del tráfico. Ver nuestro generador de indicaciones de código para los patrones de indicaciones anclados en caché que funcionan en niveles de chat.

Mira el registro de cambios de OpenAI — si/cuándo el almacenamiento en caché llega a la serie o, las matemáticas de costo en esta guía cambian materialmente. A partir de 2026-06-20 no ha ocurrido.


Migrando de o1: la lista de verificación

o1 está deprecado. Los precios permanecen en la página para compatibilidad de migración pero las nuevas compilaciones deberían dirigirse a o3 u o3-mini. La migración es uno de los intercambios de modelo más simples que OpenAI jamás ha enviado:

**Paso 1**: reemplaza `model: 'o1'` con `model: 'o3'` (o `model: 'o3-mini'`) en tus llamadas de API. Mismo endpoint, misma forma de solicitud, misma forma de respuesta. El contrato de API de la serie o es estable a través de la transición o1 → o3.

**Paso 2**: re-ajusta `reasoning_effort`. o3 converge más rápido que o1 — cargas de trabajo que necesitaban 'high' en o1 frecuentemente aterrizan en 'medium' en o3 con calidad igual o mejor. Prueba antes de asumir que 'high' aún es requerido.

**Paso 3**: re-línea de base tu presupuesto de costo. La caída de precio de 7.5x en entrada y salida significa que tu factura mensual debería caer ~85% para la misma carga de trabajo. Si no cae por esa cantidad, probablemente estés emitiendo más tokens de razonamiento — verifica si `reasoning_effort` predeterminado más alto en el nuevo modelo.

**Paso 4**: re-ejecuta tu suite de evaluación. La calidad debe ser igual o mejor en todo benchmark que tenemos datos; si una tarea específica retrocede, abre un problema y considera si se necesita ajustar `reasoning_effort` o la estructura de indicación para el nuevo modelo.

**Paso 5**: archiva rutas de código específicas de o1. Cuanto más tiempo o1 permanezca en tu base de código, más probable es que un ingeniero agregue otra llamada contra ella. Quita el ID heredado, fuerza una rotura de compilación, migra todo.


Metodología de sourcing — cómo mantener estos números actuales

Cada precio en esta guía viene de la página de precios activa de OpenAI en developers.openai.com/api/docs/pricing, obtenida en 2026-06-20 y verificada de forma cruzada contra los avisos de depreciación en o1 y los posts de lanzamiento para o3. Donde un número no pudo verificarse contra la página oficial (p.ej., precios de entrada en caché para la serie o) notamos explícitamente que no se publica en lugar de fabricar un valor.

OpenAI no versionea su página de precios con entradas de registro de cambios explícitas — los cambios se envían silenciosamente. La categoría de la serie o ha sido particularmente volátil: solo o3 ha visto una caída de precio importante (el corte del 87% de o1) y un ajuste silencioso en la semántica de facturación de tokens de razonamiento desde el lanzamiento. Re-verifica trimestralmente si tu factura mensual de razonamiento excede $1,000.

**Cómo verificar antes de presupuestar**: abre developers.openai.com/api/docs/pricing en una ventana privada, encuentra la sección de la serie o, y confirma que los cuatro números ($2 / $8 para o3, $0.55 / $2.20 para o3-mini) coincidan con esta guía. Si coinciden, esta guía es actual. Si no lo hacen, confía en la página activa y notifícanos.

**La semántica de facturación de tokens de razonamiento se documenta por separado** en platform.openai.com/docs/guides/reasoning. Esa página explícitamente declara que los tokens de razonamiento se facturan a la tarifa de salida y se reportan bajo `usage.completion_tokens_details.reasoning_tokens`. El comportamiento estructural — borrador interno, nunca devuelto, totalmente facturado — ha sido estable desde el lanzamiento de o1 y se aplica idénticamente a o3 y o3-mini.

**Por qué omitimos algunos números comúnmente citados**: guías de terceros a veces listan tasas de entrada en caché de la serie o o descuentos por volumen que no aparecen en la página activa de OpenAI. En lugar de propagar tasas posiblemente obsoletas o posiblemente fabricadas, las omitimos. Si OpenAI publica una tarifa de entrada en caché para la serie o después de que esta guía se envíe, re-obtendremos y actualizaremos — hasta entonces, planifica contra tasas de entrada completas.

Cómo estimar el costo de cualquier llamada de razonamiento de la serie o en 5 pasos

  1. 1

    Estima tus tokens de entrada

    Misma regla de modelo de chat: caracteres ÷ 4 o palabras ÷ 0.75. Mantén las indicaciones del sistema cortas en la serie o (sin descuento de entrada en caché significa que cada token se factura a tarifa completa cada llamada).

    → Open the Generador de indicaciones de ChatGPT (ajustado para razonamiento)
  2. 2

    Estima tus tokens de salida VISIBLE

    Estima la longitud de respuesta visible al usuario de la misma manera — palabras ÷ 0.75. Esta es la punta del iceberg en modelos de razonamiento; la cola de tokens de razonamiento debajo usualmente domina la factura.

  3. 3

    Estima tus tokens de RAZONAMIENTO (el término oculto)

    Medianas de producción que vemos: matemática simple/clasificación 200-800; código multi-paso 1,500-5,000; planificación compleja 5,000-25,000; bucles de auto-verificación agentes 20,000-80,000. Para una compilación inicial, presupuesta 3,000-5,000 tokens de razonamiento por llamada y refina contra `usage.completion_tokens_details.reasoning_tokens` actual de logs.

  4. 4

    Aplica la fórmula de costo de razonamiento

    cost = (input_tokens / 1M) × input_price + ((reasoning_tokens + visible_output) / 1M) × output_price. Ejemplo de llamada o3: 1,000 entrada + 4,000 razonamiento + 200 visible = 0.001 × $2 + 0.0042 × $8 = $0.002 + $0.0336 = $0.0356 por llamada. Ese $0.0356 es ~10x lo que la estimación de solo salida visible habría mostrado.

  5. 5

    Ajusta reasoning_effort + max_completion_tokens

    Predeterminado a `reasoning_effort: 'low'` y levanta solo cuando una evaluación muestra ganancias de calidad. Siempre establece `max_completion_tokens` para que un borrador descontrolado no pueda facturar 80k tokens de salida — eso es $0.64 en o3 de una mala consulta.

Frequently Asked Questions

¿Cuánto cuesta o3 por 1M tokens en 2026?

A partir de junio de 2026, OpenAI's o3 cobra $2.00 por 1M tokens de entrada y $8.00 por 1M tokens de salida — con la advertencia crítica de que los tokens de razonamiento interno se facturan a la tarifa de salida aunque no se devuelvan al llamador. Una llamada típica de o3 que genera 3,500 tokens de razonamiento + 300 tokens de salida visible factura 3,800 tokens contra la tarifa de $8/M de salida ($0.0304), más entrada. Basado en la página de precios activa de OpenAI.

¿Qué son los tokens de razonamiento y por qué cuestan extra?

Los tokens de razonamiento son tokens de borrador privado de cadena de pensamiento interno que los modelos de la serie o generan antes de producir la respuesta visible al usuario. Es cómo el modelo planifica, verifica y refina su respuesta. Nunca se devuelven al llamador (el campo `content` muestra solo la respuesta visible), pero se facturan a la tarifa de salida completa. Una respuesta de 200 tokens que tardó 4,000 tokens de razonamiento en producirse factura 4,200 tokens de salida — no 200. Este es el mecanismo único que hace que los modelos de razonamiento cesten 5-15x más que los modelos de chat en cargas de trabajo aparentemente idénticas.

¿Los tokens de razonamiento cuentan para la facturación de salida?

Sí. Cada token de razonamiento se factura a la tarifa de salida del modelo, idénticamente a los tokens de salida visible. La respuesta de la API reporta el recuento bajo `usage.completion_tokens_details.reasoning_tokens` — registra este campo en cada llamada o no tienes visibilidad en tu forma de costo real. El campo `total_tokens` incluye tokens de razonamiento en la suma de salida.

¿Es o3 más barato que o1?

Sí — dramáticamente. o3 tiene precios de $2 entrada / $8 salida por 1M tokens; o1 (ahora deprecado) era $15 / $60. Eso es una reducción de 7.5x en entrada y salida, o aproximadamente 87% de descuento. La misma carga de trabajo que costaba $24,600/mes en o1 aterriza en ~$3,280/mes en o3 con calidad en paridad o mejor. Cada carga de trabajo de o1 debe ser migrada a o3. Ver: https://venturebeat.com/ai/openai-announces-80-price-drop-for-o3-its-most-powerful-reasoning-model

Precios de o3 vs o3-mini — ¿cuándo mini es suficiente?

o3-mini a $0.55 / $2.20 por 1M tokens es aproximadamente 4x más barato en entrada y 3.6x más barato en salida que o3. También genera 30-50% menos tokens de razonamiento para tareas típicas. Política predeterminada: lanza cada nueva carga de trabajo de razonamiento en o3-mini primero, ejecuta una evaluación de 200 muestras contra o3, mantén mini si la precisión está dentro de 3 puntos. Mini maneja extracción estructurada, código de complejidad media, clasificación con casos extremos duros. Muévete a o3 completo para planificación agente de horizonte largo, matemática de estilo de prueba, o síntesis de código de 200+ líneas.

¿Cómo reduzco mi costo de API de o3?

Seis palancas: (1) establece `reasoning_effort: 'low'` como predeterminado y levanta solo cuando sea necesario; (2) limita `max_completion_tokens` para que un borrador descontrolado no pueda facturar 80k tokens; (3) baja a o3-mini donde la evaluación lo permite; (4) pre-descomponer tareas de múltiples pasos en chat-model + una llamada de modelo de razonamiento; (5) mantén las indicaciones del sistema cortas (sin descuento de entrada en caché en la serie o — cada token se factura a tarifa completa cada llamada); (6) construye un enrutador que envíe solo consultas verdaderamente vinculadas al razonamiento a o3 y enruta el resto a gpt-5.4-mini a $0.50 / $1.50.

Costo de o3 vs DeepSeek R1 — ¿cuál es más barato?

Casi idéntico en la tarifa principal. DeepSeek-R1 es $0.55 / $2.19 por 1M tokens — esencialmente lo mismo que los $0.55 / $2.20 de o3-mini. La brecha a o3 completo ($2 / $8) es aproximadamente 4x a favor de DeepSeek. DeepSeek-R1 también ofrece un descuento de entrada de caché publicado del 90% que la serie o no tiene. Para costo puro en cargas de trabajo de razonamiento pesado, R1 gana; para uso de herramientas, profundidad de llamadas de función, e integración de ecosistema OpenAI, o3 u o3-mini aún ganan. Ver nuestro calculadora de costo de DeepSeek para la imagen completa de costo de pesos abiertos.

¿Por qué no hay descuento de entrada en caché en la serie o?

A partir de junio de 2026, OpenAI no ha publicado precios de entrada en caché para la serie o. Cada token de entrada en o3 se factura a la tarifa completa de $2/M independientemente del estado de caché — no hay nivel de $0.20/M como en gpt-5.5. La solución estructural: mantén las indicaciones del sistema cortas en modelos de razonamiento (cada token cuesta precio completo cada llamada), y considera una arquitectura 'razona una vez, sirve desde caché' donde pre-computes el paso de razonamiento con o3 y sirves consultas de forma idéntica-subsecuentes desde un pipeline de modelo de chat + recuperación. Mira el registro de cambios de OpenAI — si el almacenamiento en caché llega a la serie o, las matemáticas de costo cambian materialmente.

Deja de pagar de más en tokens de razonamiento.

La serie o factura 5-15x los modelos de chat en volúmenes de tokens idénticos. Nuestro Generador de Indicaciones de IA escribe indicaciones ajustadas para razonamiento que minimizan el exceso de tokens de pensamiento — basado en TU negocio + tarea. Prueba gratuita de 14 días, sin tarjeta.

Browse all prompt tools →

Biblioteca gratuita de prompts — más de 100 prompts listos para copiar

Prompts seleccionados cada semana para ChatGPT, Claude, Midjourney y DALL·E. Sin spam. Cancela cuando quieras.

Sin spam. Un correo por semana. Más de ~12.000 usuarios de prompts ya suscritos.