Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Por el equipo de DDH · Digital Dashboard Hub

Calculadora de Costes Fine-Tuning 2026: Precios de Entrenamiento + Servicio en Todos los Proveedores

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

El fine-tuning tiene dos líneas de costes: entrenamiento (pagado una sola vez para producir el modelo personalizado) e inferencia servida (pagada cada vez que llamas al modelo después, normalmente con un incremento sobre la tasa del modelo base). En 2026, las tasas de entrenamiento varían de $0,50 a $25 por 1M tokens de entrenamiento según el tamaño del modelo, mientras que las tasas de inferencia servida son 1,5-3x la tasa del modelo base en la mayoría de proveedores. Algunos proveedores también cobran una cuota diaria de hosting para mantener tu modelo personalizado activo.

El fine-tuning tiene sentido económico cuando: tienes suficiente volumen para que el incremento de inferencia amortice los ahorros en ingeniería de prompts, la tarea se beneficia del control de estilo o formato que los prompts no pueden lograr de forma limpia, o estás ejecutando un modelo base más pequeño y barato que necesita equipararse a la calidad de un modelo más grande en una tarea específica. A continuación está la tabla de precios completa y los cálculos de $ para cada caso canónico. Estima rápidamente el coste base de inferencia con nuestra calculadora de costes de prompts IA, o descarga la hoja de trucos PDF gratuita de fine-tuning 2026.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Precios de entrenamiento y inferencia servida de fine-tuning — Junio 2026

Feature
Entrenamiento $/1M
Entrada servida $/1M
Salida servida $/1M
Inferencia base $/1M (entrada/salida)
Hosting
OpenAI gpt-5.4$25.00$3.75$22.50$2.50 / $15.00Incluido
OpenAI gpt-5.4-mini$8.00$1.13$6.75$0.75 / $4.50Incluido
OpenAI gpt-5.4-nano$2.50$0.30$1.88$0.20 / $1.25Incluido
OpenAI gpt-4.1-mini$4.00$0.60$2.40$0.40 / $1.60Incluido
OpenAI gpt-4.1-nano$1.50$0.15$0.60$0.10 / $0.40Incluido
Anthropic Claude Haiku 4.5 (Bedrock)$10.00$1.50$7.50$1.00 / $5.00$0.0001/seg hosting después del entrenamiento
Google Gemini 2.5 Flash$3.00$0.30$2.50$0.30 / $2.50Hosting gratuito
Google Gemini 2.5 Flash-Lite$1.50$0.10$0.40$0.10 / $0.40Hosting gratuito
Mistral Small fine-tune$1.00$0.30$0.90$0.30 / $0.90$2/mes por fine-tune
Mistral Medium fine-tune$4.00$2.10$6.30$2.10 / $6.30$4/mes por fine-tune
Together AI Llama 3.3-70B$0.90$0.88$0.88$0.88 / $0.88Hosting gratuito
Together AI Llama 4 Scout$2.50$1.30$1.30$1.30 / $1.30Hosting gratuito
Cohere Command R7B fine-tune$3.00$0.50$1.50$0.50 / $1.50Hosting gratuito

Fuentes, a partir de junio de 2026: Fine-tuning de OpenAI (https://platform.openai.com/docs/guides/fine-tuning), Fine-tuning de Anthropic + AWS Bedrock (https://docs.aws.amazon.com/bedrock/latest/userguide/model-customization.html), Fine-tuning de Google Vertex AI (https://cloud.google.com/vertex-ai/generative-ai/docs/models/tune-models), Fine-tuning de Mistral (https://docs.mistral.ai/capabilities/finetuning/), Together AI (https://docs.together.ai/docs/fine-tuning-overview), Cohere (https://docs.cohere.com/docs/fine-tuning). Las tasas de entrenamiento se cotizan por 1M tokens de entrenamiento (suma de tokens de entrada + salida en el conjunto de datos, multiplicada por el número de épocas). El incremento de inferencia servida sobre la base varía según el proveedor — Mistral, Google y Together cobran cerca de la paridad con la base; OpenAI cobra 1,5x en entrada, 1,5x en salida.

Cómo se factura el fine-tuning

Dos líneas de facturación, a veces tres. El entrenamiento se mide por 1M tokens de entrenamiento, donde 'tokens de entrenamiento' equivale a (tokens de entrada + salida en tu conjunto de datos) × (número de épocas de entrenamiento). Un conjunto de datos de 100k ejemplos con 1.000 tokens por ejemplo y 3 épocas de entrenamiento factura 300M tokens de entrenamiento.

La inferencia servida se mide por 1M tokens de entrada y 1M tokens de salida, igual que el modelo base — pero con un incremento. OpenAI cobra 1,5x entrada base y 1,5x salida base para la inferencia del modelo fine-tuned. Google, Mistral y Together típicamente cobran a paridad o cerca de la paridad base. Anthropic a través de Bedrock aplica un incremento de 1,5x similar a OpenAI.

Las cuotas de hosting se aplican en algunos pocos proveedores. Mistral cobra una cuota mensual plana por fine-tune ($2-4/mes). Anthropic a través de Bedrock cobra por segundo para la unidad de modelo desplegada (típicamente $0.0001/seg o aproximadamente $260/mes con disponibilidad 24/7). OpenAI, Google y Together incluyen el hosting en el precio de inferencia.

La fórmula completa:

``` training_cost = (dataset_tokens × epochs / 1,000,000) × training_price serve_cost = (monthly_input_tokens / 1,000,000) × ft_input_price + (monthly_output_tokens / 1,000,000) × ft_output_price hosting = per-day or per-month fee (if applicable) total_monthly = serve_cost + hosting + (training_cost / amortization_months) ```


Ejemplo calculado 1: costes de entrenamiento en toda la gama

Conjunto de datos de referencia: 10.000 ejemplos, 800 tokens por ejemplo (prompt + completación), 3 épocas = 24M tokens de entrenamiento.

OpenAI gpt-5.4-mini: 24 × $8 = $192. OpenAI gpt-5.4: 24 × $25 = $600. OpenAI gpt-4.1-nano: 24 × $1,50 = $36. Google Gemini 2.5 Flash: 24 × $3 = $72. Mistral Small: 24 × $1 = $24. Together Llama 3.3-70B: 24 × $0,90 = $21,60. Together Llama 4 Scout: 24 × $2,50 = $60. Anthropic Claude Haiku 4.5 (Bedrock): 24 × $10 = $240.

El coste de entrenamiento es pequeño en relación a las facturas típicas de inferencia a escala de producción. Para una carga de trabajo que ejecuta $5.000/mes en inferencia, un coste de entrenamiento de $192 se amortiza en días. La decisión raramente se basa en el coste de entrenamiento; se basa en si la inferencia servida es más barata que base + ingeniería de prompts, y si la calidad mejora lo suficiente para justificar la complejidad operacional.

El fine-tuning de código abierto en Together es el líder en precios a $0,90/1M para Llama 3.3-70B. Si puedes ejecutar esa barra de calidad, entrenar un conjunto de datos de 24M tokens por $21,60 es esencialmente gratis a escala de producción.


Ejemplo calculado 2: coste mensual de inferencia servida

Carga de trabajo mensual de referencia: 100k llamadas API × 1.000 entrada + 500 tokens de salida = 100M entrada + 50M tokens de salida.

Base gpt-5.4-mini: 100 × $0,75 + 50 × $4,50 = $75 + $225 = $300/mes. gpt-5.4-mini fine-tuned: 100 × $1,13 + 50 × $6,75 = $113 + $337,50 = $450,50/mes. El incremento fine-tuned cuesta +$150,50/mes.

Para que el fine-tuning sea más barato neto que base + ingeniería de prompts, el modelo fine-tuned necesita eliminar suficientes tokens de prompt para recuperar el incremento, o reemplazar un modelo base más caro. Concretamente: si el fine-tuning de gpt-5.4-mini te permite dejar de usar gpt-5.5 ($5/$30), ahorras 100 × ($5 - $1,13) + 50 × ($30 - $6,75) = $387 + $1.162,50 = $1.549,50/mes sobre la base gpt-5.5. Incluso después del incremento de $150,50 sobre la base gpt-5.4-mini, eso es una victoria neta de $1.400+/mes.

Código abierto a través de Together con inferencia a paridad cercana: 100 × $0,88 + 50 × $0,88 = $132/mes. Sustancialmente más barato que el fine-tuned de OpenAI de nivel medio a $450, aunque intercambias características de ecosistema y simplicidad operacional.


Cuándo el fine-tuning justifica la complejidad operacional

Cinco casos canónicos donde el fine-tuning paga. Primero, tareas de clasificación o extracción donde un modelo pequeño fine-tuned iguala a un modelo base de nivel medio — caso típico de 2026: fine-tuning de gpt-5.4-nano en 5.000 ejemplos etiquetados para igualar la calidad de gpt-5.4-mini en una tarea de extracción específica. El coste de inferencia se reduce 3x.

Segundo, consistencia de estilo o voz que pocos prompts de few-shot no pueden capturar completamente — el fine-tuning de un modelo pequeño en 1.000 ejemplos de voz de marca produce salida más alineada con la marca que incluso un prompt de 10-shot en un modelo base.

Tercero, rigidez de formato de salida. Conformidad con esquema JSON, DSL personalizado, ordenamiento determinista de campos — el fine-tuning produce salida estructurada más confiable que el prompting guiado por esquema en la mayoría de tareas.

Cuarto, reducción de token de prompt a alto volumen. Un modelo fine-tuned con las instrucciones incorporadas en pesos puede servir la misma tarea con un prompt de 50 tokens que un modelo base necesita 1.500 tokens para. En 10M llamadas/mes, los ahorros superan ampliamente el incremento de inferencia.

Quinto, conocimiento específico del dominio que el grounding no puede resolver de forma limpia — fine-tuning en un corpus de conversaciones internas de Slack o terminología específica de la empresa, donde la recuperación falla en la cola larga.

Anti-casos: tareas donde un modelo base de nivel superior ya alcanza la barra de calidad (el incremento nunca se amortiza), tareas con muy bajo volumen (el coste de entrenamiento domina), tareas donde los datos subyacentes cambian semanalmente (tendrías que reentrenar constantemente), y tareas donde la diversidad de salida importa (el fine-tuning reduce la varianza).


Fine-tuning de código abierto vs propietario

Propietario (OpenAI, Anthropic, Google, Mistral) te ofrece facilidad de uso — sube un archivo JSONL, espera una hora, obtén un modelo personalizado. Sin provisión de GPU, sin decisiones de escalado. El intercambio es el incremento sobre las tasas de inferencia base y la falta de portabilidad de pesos.

Código abierto en Together, Modal, RunPod o auto-alojado te ofrece coste de inferencia a paridad cercana (pagas aproximadamente lo mismo que la inferencia base, ya que controlas el despliegue) y portabilidad completa — posees el adaptador LoRA o los pesos completos y puedes cambiar de proveedor. El intercambio es la complejidad operacional y la necesidad de gestionar tus propias evaluaciones, despliegues y escalado.

Para una carga de trabajo típica de 1-5M llamadas/mes de producción, el fine-tuning propietario normalmente sale más barato a nivel de coste de ingeniería cuando incluyes operaciones. Para cargas de trabajo de 10M+ llamadas/mes, el incremento de inferencia comienza a exceder el coste de operaciones; el código abierto se convierte en el líder de precios.

Patrón híbrido que funciona bien en 2026: usa fine-tuning propietario para enviar rápido, cambia a código abierto en Together una vez que el volumen cruza el umbral donde el coste de ops se amortiza. La migración es directa cuando ambos lados entrenan con el mismo formato JSONL.


Costes ocultos: evaluaciones, deriva y reentrenamiento

Más allá del entrenamiento e inferencia, tres costes operacionales sorprenden a los equipos.

Coste de evaluación. Los modelos fine-tuned necesitan una barra de calidad continua. El patrón estándar es un conjunto de prueba retenido de 100-1.000 ejemplos etiquetados, puntuado cada vez que envías una nueva versión. Si calificas con un LLM-como-juez usando gpt-5.5, eso es 100-1.000 llamadas LLM por pasada de evaluación a $0,02/llamada = $2-$20. Multiplica por número de versiones y cadencia semanal.

Coste de deriva. El mundo cambia. Un modelo fine-tuned en enero en tickets de soporte al cliente degradará cuando se envíen nuevas características de producto, la terminología evolucione y los patrones de tickets cambien. Planifica una pasada de reentrenamiento cada 60-90 días, lo que significa que el coste de entrenamiento se anualiza — multiplica tu número de entrenamiento de $192 por 4-6 reentranamientos por año.

Coste de gestión de versiones. Tendrás múltiples modelos fine-tuned en producción simultáneamente (actual, candidato, reversión). En proveedores con cuotas de hosting por mes esto multiplica la factura; en proveedores con hosting incluido es gratis. Considera esto cuando elijas un proveedor.

Conclusión: el coste total de propiedad para un modelo fine-tuned es 1,5-3x las matemáticas brutas de entrenamiento + inferencia cuando incluyes ops. Vale la pena cuando los ahorros o el levantamiento de calidad lo justifican; caro cuando no lo hace.


LoRA vs fine-tuning completo en 2026 — costes, calidad e intercambios de portabilidad

Casi todo fine-tune en 2026 es LoRA (Low-Rank Adaptation) o un fine-tuning completo, y la elección genera una brecha de coste de 5-20x antes incluso de elegir un proveedor. LoRA congela los pesos del modelo base y entrena un pequeño adaptador — típicamente 1-5% del número de parámetros — que se inserta en capas de atención y proyección. El fine-tuning completo actualiza cada peso en el modelo base y produce un punto de control personalizado autónomo. Ambos producen un modelo que puedes servir; los costes, techos de calidad y formas operacionales se ven muy diferentes.

En coste de entrenamiento la brecha es grande. Un adaptador LoRA para Llama 3.3-70B se entrena en aproximadamente 3-5 horas de GPU en un cluster H100 para un trabajo de 24M tokens; en el punto final de LoRA gestionado de Together eso resulta ser aproximadamente $21,60 (24 × $0,90/1M) — el mismo número que usamos en el ejemplo calculado anterior, porque la tasa titular de Together es la tasa LoRA. Un fine-tuning completo del mismo modelo 70B en los mismos 24M tokens ejecuta aproximadamente 35-60 horas de H100 en un cluster RunPod o Modal auto-gestionado. A ~$2,49/hora de RunPod para un H100 80GB SXM en junio de 2026, eso es $87-$150 en alquiler puro de GPU, más overhead de orquestación y algunos intentos fallidos para los que deberías presupuestar, aterrizando el coste real de fine-tuning completo en $200-$300. La brecha de 10x entre LoRA de $22 y fine-tuning completo de $200+ es el número titular a recordar.

Las diferencias de calidad son más pequeñas que la brecha de costes sugiere. En los benchmarks publicados en 2026 — MMLU-Pro, GSM8K, HumanEval y la mayoría de tareas de clasificación — el fine-tuning completo supera un LoRA bien ajustado por 1-3 puntos de porcentaje. Esa brecha se amplía cuando la tarea exige un cambio grande de estilo o formato de la distribución de preentrenamiento del modelo base: salida solo SQL pesada, un idioma de bajo recurso no inglés, un DSL específico del dominio, o una reescritura de estilo de casa estricta puede empujar la brecha a 5-8 puntos. Para la mayoría de tareas de clasificación, extracción y estilo asistente de producción, la penalización de calidad de LoRA está dentro del ruido de tu arnés de evaluación, y no la verías en producción a menos que la midieras específicamente.

La exposición del proveedor difiere agudamente. OpenAI, Anthropic y Google cotizan por tasa de token de entrenamiento y nunca te dicen qué método usan bajo el capó — fugas internas y perfiles de latencia de inferencia sugieren que OpenAI ejecuta adaptadores de estilo LoRA para fine-tunes de gpt-4.1-nano y gpt-5.4-mini y fine-tunes completos solo para el nivel insignia, pero ni confirman ni exponen la elección. Pagas la tasa publicada y obtienes un id de modelo. Las plataformas de código abierto exponen la elección explícitamente. Together AI enumera SKUs separados de LoRA y fine-tune completo — Llama 3.3-70B LoRA a $0,90/1M de entrenamiento es el titular; el fine-tuning completo de la misma base enumera aproximadamente $5,40/1M, una prima de 6x. Modal y RunPod te permiten alquilar las GPUs y ejecutar cualquiera de las rutas con marcos como Unsloth, Axolotl o torchtune; comes el coste de orquestación pero obtienes control completo.

La portabilidad es donde la ventaja estructural de LoRA se muestra. Un adaptador LoRA 70B pesa 50-500MB dependiendo del rango (típicamente rango 16-64 en configuraciones de producción 2026) — lo suficientemente pequeño para versionar en almacenamiento de objetos, intercambiar en tiempo de solicitud y probar A/B cinco variantes de un modelo base cargado en una sola GPU. vLLM y SGLang ambos soportan servicio multi-LoRA en 2026, permitiéndote mantener diez adaptadores activos por modelo base y enrutar solicitudes por inquilino, tarea o experimento. Un fine-tune completo de un modelo 70B produce 140GB de pesos float-16; necesitas un despliegue separado por variante, cada uno consumiendo su propia memoria GPU, y las pruebas A/B cuestan N veces más que el servicio de modelo único.

La historia de portabilidad también importa cuando el modelo base se depreca. Llama 3.1 fue estado del arte 18 meses antes de esta guía; ahora está superado por 3.3 y Llama 4 Scout. Un LoRA entrenado contra 3.1 normalmente puede re-entrenarse contra 3.3 en pocas horas en el mismo conjunto de datos — tu canalización de datos, conjunto de evaluación y barrido de hiperparámetros se trasladan. Un fine-tune completo se suelta a su base; la única ruta a una base más nueva es un ciclo de reentrenamiento completo. Para equipos que ejecutan en una cadencia de actualización de modelo base de 6-12 meses, LoRA reduce el coste de retrenamiento recurrente en 5-10x.

Cuándo el fine-tuning completo sigue siendo la llamada correcta: cargas de trabajo donde la brecha de calidad de 1-3 puntos se traduce en ingresos o riesgo medible (clasificación de alto volumen donde 1% de precisión mueve una línea P&L, filtrado crítico de seguridad, extracción regulada con requisitos de formato codificado), tareas con corpus de entrenamiento muy grandes (>100M tokens) donde la descomposición de bajo rango de LoRA comienza a perder información, y servicio de alto volumen de un solo inquilino donde el overhead de memoria de GPU de un modelo completo se amortiza en millones de llamadas por día. En esos casos la brecha de $200 vs $22 es irrelevante — se amortiza en horas de ahorros de inferencia.

Una más línea de coste que importa: overhead en tiempo de inferencia. Un adaptador LoRA agrega latencia de 1-3% sobre la inferencia del modelo base cuando se sirve a través de la ruta multi-LoRA optimizada de vLLM en 2026 — efectivamente gratis a escala de producción. Un fine-tune completo tiene overhead de inferencia cero por definición, pero toma una ranura de GPU separada. En un H100 único puedes servir un Llama 3.3-70B base con diez adaptadores LoRA cargados a ~$2,49/hora; servir diez fine-tunes completos de la misma base requiere diez despliegues separados a aproximadamente $25/hora solo en alquiler de GPU. Para cargas de trabajo SaaS multi-inquilino donde cada cliente obtiene un adaptador personalizado, esta brecha de coste se compone — LoRA puede mantener el coste por inquilino en los centavos mientras que los fine-tunes completos precian la misma arquitectura fuera de viabilidad por debajo del nivel empresarial.

Regla conclusiva para 2026: por defecto LoRA. Entrénalo en Together a $22 por pasada de 24M tokens, envíalo detrás de un punto final vLLM multi-adaptador, ejecuta una evaluación retenida, y solo escala a un fine-tune completo si la brecha de calidad se muestra en tu métrica de negocio. El defecto captura el 80% de los casos de uso de producción al décimo del coste; la ruta de escalado está abierta si lo necesitas.


Flujo de decisión de cinco pasos para si hacer fine-tuning

Paso 1: estima el coste del modelo base en tu carga de trabajo actual usando nuestra calculadora de costes GPT vs Claude vs Gemini. Los números por debajo de $500/mes rara vez justifican la complejidad operacional de un fine-tune; los números por encima de $5.000/mes frecuentemente lo hacen.

Paso 2: intenta primero ingeniería de prompts. Ejemplos de few-shot, esquemas de salida estructurados, prompting de cadena de pensamiento y una visión fresca del prompt del sistema normalmente cierran el 60-80% de la brecha entre base y calidad fine-tuned a coste cero de ops.

Paso 3: si la ingeniería de prompts se estanca por debajo de tu barra de calidad, construye un conjunto de datos etiquetado de 500-1.000 ejemplos. Usa un modelo base más fuerte (gpt-5.5 o Sonnet 4.6) para etiquetas de arranque; verifica manualmente el 10-20% de ellas.

Paso 4: entrena un fine-tune pequeño ($20-$200) en un modelo base pequeño (gpt-5.4-nano, gpt-5.4-mini, Gemini 2.5 Flash, o Llama 3.3-70B a través de Together). Compara contra base de nivel medio en tu conjunto de prueba retenido.

Paso 5: si el modelo pequeño fine-tuned iguala la base de nivel medio en calidad, envíalo — probablemente acabas de cortar el coste de inferencia 3-5x. Si no lo hace, o el modelo base de nivel medio es la respuesta correcta, o la brecha está en los datos (más ejemplos, etiquetas mejores) en lugar de la técnica.

Frequently Asked Questions

¿Cuál es el modelo fine-tunable más barato en 2026?

Together AI Llama 3.3-70B a $0,90/1M de entrenamiento e inferencia a paridad cercana de $0,88/1M es la opción fine-tune alojada más barata entre proveedores principales. OpenAI gpt-4.1-nano a $1,50/1M de entrenamiento es la opción propietaria más barata.

¿El fine-tuning ahorra dinero en inferencia?

No directamente — la mayoría de proveedores cobran 1,5x base para inferencia fine-tuned. El fine-tuning ahorra dinero cuando te permite bajar a un nivel base más barato (p. ej., de gpt-5.5 a gpt-5.4-mini fine-tuned) o elimina un prompt de instrucción largo. De lo contrario cuesta más por llamada, no menos.

¿Cuál es la fórmula de token de entrenamiento?

training_tokens = (suma de tokens de entrada + salida en tu conjunto de datos) × epoch_count. Un conjunto de datos de 10k ejemplos con 800 tokens por ejemplo y 3 épocas = 24M tokens de entrenamiento. Multiplica por la tasa de entrenamiento $/1M.

¿Debería hacer fine-tuning o usar ingeniería de prompts?

Intenta primero ingeniería de prompts. Ejemplos de few-shot, esquemas de salida estructurados y un prompt del sistema más ajustado normalmente cierran el 60-80% de la brecha al fine-tuning a coste cero de ops. Solo haz fine-tuning cuando la ingeniería de prompts se estanca por debajo de tu barra de calidad.

¿Con qué frecuencia necesito reentrenar?

Planifica una pasada de reentrenamiento cada 60-90 días para la mayoría de cargas de trabajo de producción. Los datos subyacentes se desplazan (cambios de producto, terminología, comportamiento del cliente) y el modelo necesita ser realineado. Presupuesta para 4-6 ciclos de reentrenamiento por año.

¿Puedo hacer fine-tuning a Claude?

Sí — Anthropic ofrece fine-tuning para Claude Haiku 4.5 a través de AWS Bedrock. La tasa de entrenamiento es aproximadamente $10/1M tokens de entrenamiento con un incremento de 1,5x en la inferencia servida. Confirma contra la documentación de personalización de modelos de AWS Bedrock.

¿Puedo hacer fine-tuning a GPT-5.5?

No a partir de junio de 2026. Los modelos fine-tunable insignia de OpenAI en 2026 son gpt-5.4 ($25/1M), gpt-5.4-mini ($8/1M) y gpt-5.4-nano ($2,50/1M). Confirma en la página de fine-tuning de OpenAI para la lista actual.

¿Es el fine-tuning de código abierto más barato que el propietario?

Normalmente sí en la factura de inferencia bruta — Together AI cobra a paridad cercana vs inferencia base, mientras que OpenAI marca 1,5x. Operacionalmente, el código abierto cuesta más en tiempo de ingeniería, gestión de despliegues e infraestructura de evaluación. Para cargas de trabajo de >10M llamadas/mes, el código abierto típicamente gana neto de ops.

¿Cuál es la diferencia de coste entre LoRA y fine-tuning completo?

Típicamente 5-20x en coste de entrenamiento. Un fine-tune LoRA de 24M tokens de Llama 3.3-70B en Together AI ejecuta aproximadamente $22 (24 × $0,90/1M). Un fine-tune completo de la misma base en RunPod o Modal ejecuta $200-$300 en alquiler de GPU (35-60 horas de H100 a ~$2,49/hora más overhead de orquestación). La calidad típicamente difiere solo por 1-3 puntos en benchmarks estándar, así que LoRA es el defecto correcto a menos que esa brecha mueva una métrica de negocio real.

¿OpenAI y Anthropic usan LoRA bajo el capó?

No lo revelan. El perfilado de latencia de inferencia y filtraciones intermitentes sugieren que OpenAI usa adaptadores de estilo LoRA para fine-tunes de modelos más pequeños como gpt-4.1-nano y gpt-5.4-mini, mientras que reserva fine-tuning completo para el nivel insignia. Anthropic y Google tampoco exponen el método. Pagas la tasa de token de entrenamiento publicada y obtienes un id de modelo — el método se abstrae. Si necesitas control explícito sobre LoRA vs completo, usa proveedores de código abierto como Together AI, Modal o RunPod, que exponen la elección como SKUs separados.

¿Puedo hacer prueba A/B de múltiples adaptadores LoRA de un modelo base?

Sí — esa es una de las ventajas estructurales de LoRA. Un adaptador LoRA 70B pesa 50-500MB (rango 16-64 en configuraciones típicas de 2026), lo suficientemente pequeño para mantener diez adaptadores activos por base en una sola GPU. vLLM y SGLang ambos soportan servicio multi-LoRA en 2026, permitiéndote enrutar solicitudes por inquilino, tarea o experimento sin girar un despliegue por variante. Los fine-tunes completos producen puntos de control de múltiples GB (140GB para un 70B en fp16) que requieren un despliegue separado por variante — las pruebas A/B cuestan N veces más que el servicio de modelo único.

Obtén la hoja de trucos de fine-tuning 2026

PDF de una página con cada tasa de entrenamiento del modelo fine-tunable, tasa de inferencia servida y cuota de hosting — gratis, sin puerta de registro.

Browse all prompt tools →

Biblioteca gratuita de prompts — más de 100 prompts listos para copiar

Prompts seleccionados cada semana para ChatGPT, Claude, Midjourney y DALL·E. Sin spam. Cancela cuando quieras.

Sin spam. Un correo por semana. Más de ~12.000 usuarios de prompts ya suscritos.