Casi todo fine-tune en 2026 es LoRA (Low-Rank Adaptation) o un fine-tuning completo, y la elección genera una brecha de coste de 5-20x antes incluso de elegir un proveedor. LoRA congela los pesos del modelo base y entrena un pequeño adaptador — típicamente 1-5% del número de parámetros — que se inserta en capas de atención y proyección. El fine-tuning completo actualiza cada peso en el modelo base y produce un punto de control personalizado autónomo. Ambos producen un modelo que puedes servir; los costes, techos de calidad y formas operacionales se ven muy diferentes.
En coste de entrenamiento la brecha es grande. Un adaptador LoRA para Llama 3.3-70B se entrena en aproximadamente 3-5 horas de GPU en un cluster H100 para un trabajo de 24M tokens; en el punto final de LoRA gestionado de Together eso resulta ser aproximadamente $21,60 (24 × $0,90/1M) — el mismo número que usamos en el ejemplo calculado anterior, porque la tasa titular de Together es la tasa LoRA. Un fine-tuning completo del mismo modelo 70B en los mismos 24M tokens ejecuta aproximadamente 35-60 horas de H100 en un cluster RunPod o Modal auto-gestionado. A ~$2,49/hora de RunPod para un H100 80GB SXM en junio de 2026, eso es $87-$150 en alquiler puro de GPU, más overhead de orquestación y algunos intentos fallidos para los que deberías presupuestar, aterrizando el coste real de fine-tuning completo en $200-$300. La brecha de 10x entre LoRA de $22 y fine-tuning completo de $200+ es el número titular a recordar.
Las diferencias de calidad son más pequeñas que la brecha de costes sugiere. En los benchmarks publicados en 2026 — MMLU-Pro, GSM8K, HumanEval y la mayoría de tareas de clasificación — el fine-tuning completo supera un LoRA bien ajustado por 1-3 puntos de porcentaje. Esa brecha se amplía cuando la tarea exige un cambio grande de estilo o formato de la distribución de preentrenamiento del modelo base: salida solo SQL pesada, un idioma de bajo recurso no inglés, un DSL específico del dominio, o una reescritura de estilo de casa estricta puede empujar la brecha a 5-8 puntos. Para la mayoría de tareas de clasificación, extracción y estilo asistente de producción, la penalización de calidad de LoRA está dentro del ruido de tu arnés de evaluación, y no la verías en producción a menos que la midieras específicamente.
La exposición del proveedor difiere agudamente. OpenAI, Anthropic y Google cotizan por tasa de token de entrenamiento y nunca te dicen qué método usan bajo el capó — fugas internas y perfiles de latencia de inferencia sugieren que OpenAI ejecuta adaptadores de estilo LoRA para fine-tunes de gpt-4.1-nano y gpt-5.4-mini y fine-tunes completos solo para el nivel insignia, pero ni confirman ni exponen la elección. Pagas la tasa publicada y obtienes un id de modelo. Las plataformas de código abierto exponen la elección explícitamente. Together AI enumera SKUs separados de LoRA y fine-tune completo — Llama 3.3-70B LoRA a $0,90/1M de entrenamiento es el titular; el fine-tuning completo de la misma base enumera aproximadamente $5,40/1M, una prima de 6x. Modal y RunPod te permiten alquilar las GPUs y ejecutar cualquiera de las rutas con marcos como Unsloth, Axolotl o torchtune; comes el coste de orquestación pero obtienes control completo.
La portabilidad es donde la ventaja estructural de LoRA se muestra. Un adaptador LoRA 70B pesa 50-500MB dependiendo del rango (típicamente rango 16-64 en configuraciones de producción 2026) — lo suficientemente pequeño para versionar en almacenamiento de objetos, intercambiar en tiempo de solicitud y probar A/B cinco variantes de un modelo base cargado en una sola GPU. vLLM y SGLang ambos soportan servicio multi-LoRA en 2026, permitiéndote mantener diez adaptadores activos por modelo base y enrutar solicitudes por inquilino, tarea o experimento. Un fine-tune completo de un modelo 70B produce 140GB de pesos float-16; necesitas un despliegue separado por variante, cada uno consumiendo su propia memoria GPU, y las pruebas A/B cuestan N veces más que el servicio de modelo único.
La historia de portabilidad también importa cuando el modelo base se depreca. Llama 3.1 fue estado del arte 18 meses antes de esta guía; ahora está superado por 3.3 y Llama 4 Scout. Un LoRA entrenado contra 3.1 normalmente puede re-entrenarse contra 3.3 en pocas horas en el mismo conjunto de datos — tu canalización de datos, conjunto de evaluación y barrido de hiperparámetros se trasladan. Un fine-tune completo se suelta a su base; la única ruta a una base más nueva es un ciclo de reentrenamiento completo. Para equipos que ejecutan en una cadencia de actualización de modelo base de 6-12 meses, LoRA reduce el coste de retrenamiento recurrente en 5-10x.
Cuándo el fine-tuning completo sigue siendo la llamada correcta: cargas de trabajo donde la brecha de calidad de 1-3 puntos se traduce en ingresos o riesgo medible (clasificación de alto volumen donde 1% de precisión mueve una línea P&L, filtrado crítico de seguridad, extracción regulada con requisitos de formato codificado), tareas con corpus de entrenamiento muy grandes (>100M tokens) donde la descomposición de bajo rango de LoRA comienza a perder información, y servicio de alto volumen de un solo inquilino donde el overhead de memoria de GPU de un modelo completo se amortiza en millones de llamadas por día. En esos casos la brecha de $200 vs $22 es irrelevante — se amortiza en horas de ahorros de inferencia.
Una más línea de coste que importa: overhead en tiempo de inferencia. Un adaptador LoRA agrega latencia de 1-3% sobre la inferencia del modelo base cuando se sirve a través de la ruta multi-LoRA optimizada de vLLM en 2026 — efectivamente gratis a escala de producción. Un fine-tune completo tiene overhead de inferencia cero por definición, pero toma una ranura de GPU separada. En un H100 único puedes servir un Llama 3.3-70B base con diez adaptadores LoRA cargados a ~$2,49/hora; servir diez fine-tunes completos de la misma base requiere diez despliegues separados a aproximadamente $25/hora solo en alquiler de GPU. Para cargas de trabajo SaaS multi-inquilino donde cada cliente obtiene un adaptador personalizado, esta brecha de coste se compone — LoRA puede mantener el coste por inquilino en los centavos mientras que los fine-tunes completos precian la misma arquitectura fuera de viabilidad por debajo del nivel empresarial.
Regla conclusiva para 2026: por defecto LoRA. Entrénalo en Together a $22 por pasada de 24M tokens, envíalo detrás de un punto final vLLM multi-adaptador, ejecuta una evaluación retenida, y solo escala a un fine-tune completo si la brecha de calidad se muestra en tu métrica de negocio. El defecto captura el 80% de los casos de uso de producción al décimo del coste; la ruta de escalado está abierta si lo necesitas.