Presque tous les fine-tunes en 2026 sont soit une LoRA (Low-Rank Adaptation) soit un fine-tune complet, et le choix crée un écart de coût de 5-20x avant même de choisir un fournisseur. LoRA gèle les poids du modèle de base et entraîne un petit adaptateur — généralement 1-5% du nombre de paramètres — qui s'insère dans les couches d'attention et de projection. Le fine-tuning complet met à jour tous les poids du modèle de base et produit un checkpoint personnalisé autonome. Les deux produisent un modèle que vous pouvez servir ; les coûts, les plafonds de qualité et les formes opérationnelles se présentent très différemment.
Sur le coût d'entraînement l'écart est important. Un adaptateur LoRA pour Llama 3.3-70B s'entraîne en environ 3-5 heures GPU sur un cluster H100 pour un job de 24M tokens ; sur le point de terminaison LoRA géré de Together cela revient à environ $21,60 (24 × $0,90/1M) — le même nombre utilisé dans l'exemple détaillé ci-dessus, car le tarif principal de Together est le tarif LoRA. Un fine-tune complet du même modèle de 70B sur les mêmes 24M tokens s'exécute environ 35-60 heures H100 sur un cluster RunPod ou Modal auto-géré. Au tarif ~$2,49/hr de RunPod pour une H100 80GB SXM en juin 2026, c'est $87-$150 en pur coût de location GPU, plus frais d'orchestration et quelques exécutions échouées à prévoir, débarquant le coût réel du fine-tune complet à $200-$300. L'écart de 10x entre LoRA de $22 et fine-tune complet $200+ est le nombre principal à retenir.
Les différences de qualité sont plus petites que l'écart de coût ne le suggère. Dans les benchmarks publiés de 2026 — MMLU-Pro, GSM8K, HumanEval et la plupart des tâches de classification — le fine-tuning complet surpasse une LoRA bien accordée par 1-3 points de pourcentage. Cet écart s'élargit quand la tâche exige un décalage important de style ou de format par rapport à la distribution de pré-entraînement du modèle de base : sortie exclusivement SQL, une langue non anglaise à ressources faibles, un DSL propre au domaine, ou une réécriture de style de maison stricte peuvent repousser l'écart à 5-8 points. Pour la plupart des tâches de classification de production, extraction et de style assistant, la pénalité de qualité LoRA est dans le bruit de votre harnais d'évaluation, et vous ne le verriez pas en production à moins que vous mesurer spécifiquement pour cela.
L'exposition du fournisseur diffère fortement. OpenAI, Anthropic et Google facturent par tarif de token d'entraînement et ne vous disent jamais quelle méthode ils utilisent sous le capot — les fuites internes et le profilage de latence d'inférence suggèrent qu'OpenAI utilise des adaptateurs de style LoRA pour les fine-tunes gpt-4.1-nano et gpt-5.4-mini et ne fait le fine-tuning complet que pour le tier flagship, mais ils ne confirment ni n'exposent le choix. Vous payez le tarif publié et obtenez un ID de modèle. Les plateformes open-source exposent explicitement le choix. Together AI liste des SKU LoRA et fine-tune complet séparés — Llama 3.3-70B LoRA à $0,90/1M d'entraînement est le titre ; le fine-tuning complet de la même base liste à environ $5,40/1M, une prime de 6x. Modal et RunPod vous laissent louer les GPUs et exécuter chaque chemin avec des frameworks comme Unsloth, Axolotl ou torchtune ; vous mangez le coût d'orchestration mais obtenez le contrôle complet.
La portabilité est où l'avantage structurel de LoRA se manifeste. Un adaptateur LoRA 70B pèse 50-500MB selon le rang (généralement rang 16-64 dans les configurations de production 2026) — assez petit pour être versionné dans le stockage d'objets, échangé à la requête et tester A/B cinq variantes à partir d'un modèle de base chargé sur un seul GPU. vLLM et SGLang supportent tous deux la servitude multi-LoRA en 2026, vous permettant de garder dix adaptateurs chauds par modèle de base et d'acheminer les requêtes par tenant, tâche ou expérience. Un fine-tune complet d'un modèle 70B produit 140GB de poids float-16 ; vous avez besoin d'un déploiement séparé par variante, chacun consommant sa propre mémoire GPU, et les tests A/B coûtent N fois autant que la servitude d'un seul modèle.
L'histoire de portabilité compte aussi quand le modèle de base se fait déprécier. Llama 3.1 était l'état de l'art 18 mois avant ce guide ; il est maintenant supercédé par 3.3 et Llama 4 Scout. Une LoRA entraînée contre 3.1 peut généralement être re-entraînée contre 3.3 en quelques heures sur le même ensemble de données — votre pipeline de données, ensemble d'évaluation et sweep d'hyperparamètres se reportent tous. Un fine-tune complet est soudé à sa base ; le seul chemin vers une base plus récente est un cycle complet de retraînement. Pour les équipes tournant sur un cycle de retraînement de modèle de base de 6-12 mois, LoRA réduit le coût de retraînement récurrent de 5-10x.
Quand le fine-tuning complet est toujours le bon appel : charges de travail où l'écart de qualité de 1-3 points se traduit en revenu mesurable ou en risque (classification à haut volume où 1% de précision déplace une ligne P&L, filtrage critique à la sécurité, extraction réglementée avec exigences de format codées en dur), tâches avec très grandes corpora d'entraînement (>100M tokens) où la décomposition de faible rang de LoRA commence à perdre d'informations, et servitude à un seul tenant à haut volume où la surcharge de mémoire par GPU d'un modèle complet est amortie sur des millions d'appels par jour. Dans ces cas l'écart de $200 vs $22 est irrélévant — il s'amortit en heures d'économies d'inférence.
Une ligne de coût supplémentaire qui compte : surcharge à la requête. Un adaptateur LoRA ajoute 1-3% de latence par rapport à l'inférence du modèle de base quand servi via le chemin multi-LoRA optimisé de vLLM en 2026 — effectivement gratuit à l'échelle de la production. Un fine-tune complet a zéro surcharge d'inférence par définition, mais prend un slot GPU séparé. Sur une seule H100 vous pouvez servir une base Llama 3.3-70B avec dix adaptateurs LoRA chargés à ~$2,49/hr ; servir dix fine-tunes complets de la même base nécessite dix déploiements séparés à environ $25/hr en pur coût de location GPU. Pour les charges de travail SaaS multi-tenant où chaque client obtient un adaptateur personnalisé, cet écart de coût se compose — LoRA peut garder le coût par tenant en centimes tandis que les fine-tunes complets tarif la même architecture hors viabilité en dessous du tier entreprise.
Règle net pour 2026 : défaut vers LoRA. Entraînez-le sur Together à $22 par passage de 24M tokens, déployez-le derrière un point de terminaison vLLM multi-adaptateur, exécutez une évaluation retenue, et n'escaladez vers un fine-tune complet que si l'écart de qualité se manifeste dans votre métrique commerciale. Le défaut attrape 80% des cas de production au dixième du coût ; le chemin d'escalade est ouvert si vous le nécessitez.