Fast jedes Fine-Tune in 2026 ist entweder ein LoRA (Low-Rank Adaptation) oder ein vollständiges Fine-Tune, und die Wahl treibt einen Kostenspalt von 5–20x, bevor Sie überhaupt einen Anbieter auswählen. LoRA friert die Gewichte des Basis-Modells ein und trainiert einen kleinen Adapter — normalerweise 1–5% der Parameter-Anzahl — der sich in Attention- und Projection-Layern einfügt. Vollständiges Fine-Tuning aktualisiert jeden Gewicht im Basis-Modell und erzeugt einen selbstständigen benutzerdefinierten Checkpoint. Beide erzeugen ein Modell, das Sie bedienen können; die Kosten, Qualitätsobergrenzen und operativen Formen sehen sehr unterschiedlich aus.
Bei Trainingskosten ist der Spalt groß. Ein LoRA-Adapter für Llama 3.3-70B trainiert in ungefähr 3–5 GPU-Stunden auf einem H100-Cluster für einen 24M-Token-Job; auf Together's verwaltetem LoRA-Endpoint kostet das etwa $21.60 (24 × $0.90/1M) — die gleiche Zahl, die wir im durchgerechneten Beispiel oben verwendet haben, weil Together's publik gemachte Rate die LoRA-Rate ist. Ein vollständiges Fine-Tune des gleichen 70B-Modells an den gleichen 24M Tokens läuft auf ungefähr 35–60 H100-Stunden auf einem selbstverwalteten RunPod- oder Modal-Cluster. Bei RunPod's ~$2.49/Std. für eine 80GB H100 SXM im Juni 2026 sind das $87–$150 in reiner GPU-Miete, plus Orchestrierungs-Overhead und ein paar fehlgeschlagene Runs, die Sie einkalkulieren sollten, landen reale vollständige Fine-Tune-Kosten bei $200–$300. Der 10x-Spalt zwischen $22 LoRA und $200+ vollständigem Fine-Tune ist die zu merkende Schlagzahl.
Qualitätsunterschiede sind kleiner als der Kostenspalt vermuten lässt. Über veröffentlichte Benchmarks in 2026 — MMLU-Pro, GSM8K, HumanEval und die meisten Klassifizierungs-Aufgaben — schlägt vollständiges Fine-Tuning einen gut abgestimmten LoRA um 1–3 Prozentpunkte. Der Spalt vergrößert sich, wenn die Aufgabe eine große Style- oder Format-Verschiebung gegenüber dem Basis-Modells-Pretraining-Verteilung verlangt: Heavy-SQL-only-Ausgabe, eine nicht-englische Low-Resource-Sprache, eine domänenspezifische DSL oder ein striktes House-Style-Rewriting können den Spalt auf 5–8 Punkte push. Für die meisten Production-Klassifizierungs-, Extraktions- und Assistant-artigen Workloads liegt der LoRA-Qualitäts-Penalty innerhalb des Rauschens Ihrer Eval-Harness, und Sie würden es im Produktionsbetrieb nicht sehen, wenn Sie nicht speziell dafür gemessen hätten.
Anbieter-Exposition unterscheidet sich scharf. OpenAI, Anthropic und Google preis nach Training-Token-Rate und sagen Ihnen nie, welche Methode sie unter der Haube verwenden — interne Leaks und Inference-Latenz-Profiling deuten an, dass OpenAI LoRA-artige Adapter für gpt-4.1-nano und gpt-5.4-mini Fine-Tunes führt und vollständige Fine-Tunes nur für die Flagship-Tier, aber sie bestätigen oder stellen die Wahl nicht offen. Sie zahlen die publik gemachte Rate und erhalten eine Modell-ID. Open-Source-Plattformen stellen die Wahl explizit dar. Together AI listet separate LoRA- und vollständige Fine-Tune-SKUs — Llama 3.3-70B LoRA bei $0.90/1M Training ist die Schlagzahl; vollständiges Fine-Tuning der gleichen Basis listet bei ungefähr $5.40/1M, ein 6x Premium. Modal und RunPod lassen Sie GPUs mieten und einen beiden Pfaden mit Frameworks wie Unsloth, Axolotl oder torchtune ausführen; Sie essen die Orchestrierungs-Kosten, aber bekommen volle Kontrolle.
Portabilität ist, wo LoRA's struktureller Vorteil zeigt. Ein 70B LoRA-Adapter wiegt 50–500MB je nach Rank (normalerweise Rank 16–64 in 2026 Production-Setups) — klein genug, um in Objektspeicher zu versionieren, beim Request-Handling zu tauschen und fünf Varianten von einem geladenen Basis-Modell auf einer einzelnen GPU A/B zu testen. vLLM und SGLang unterstützen beide Multi-LoRA-Serving in 2026, lassen Sie zehn Adapter pro Basis-Modell heiß halten und routen Requests nach Tenant, Aufgabe oder Experiment. Ein vollständiges Fine-Tune eines 70B-Modells erzeugt 140GB Float-16-Gewichte; Sie brauchen ein separates Deployment pro Variante, jede verbrauchend eigenen GPU-Speicher, und A/B-Tests kosten N-mal so viel wie Single-Model-Serving.
Die Portabilitäts-Geschichte zählt auch, wenn das Basis-Modell deprecated wird. Llama 3.1 war State-of-the-Art 18 Monate bevor dieser Guide; es ist jetzt durch 3.3 und Llama 4 Scout ersetzt. Ein LoRA trainiert gegen 3.1 kann normalerweise in ein paar Stunden gegen 3.3 re-trainiert werden — Ihre Datenpipeline, Eval-Set und Hyperparameter-Sweep alle trageweg. Ein vollständiges Fine-Tune ist an seine Basis vernietet; der einzige Pfad zu einer neueren Basis ist ein vollständiger Retraining-Zyklus. Für Teams auf einem 6–12 Monat Basis-Modell-Refresh-Rhythmus reduziert LoRA die wiederkehrenden Retrain-Kosten um 5–10x.
Wann vollständiges Fine-Tuning noch die richtige Anruf ist: Workloads, bei denen der 1–3 Punkt Qualitäts-Spalt in messbaren Umsatz oder Risiko übersetzt (hochvolumige Klassifizierung, wo 1% Genauigkeit eine P&L-Linie bewegt, sicherheitskritisches Filtering, regulierte Extraktion mit hartcodierten Format-Anforderungen), Aufgaben mit sehr großen Training-Korpora (>100M Tokens), wo LoRA's Low-Rank-Dekomposition beginnt, Information zu verlieren, und Single-Tenant-hochvolumiges Serving, bei dem der Pro-GPU-Memory-Overhead eines vollständigen Modells über Millionen von Calls pro Tag amortisiert wird. In diesen Fällen ist der $200 vs $22 Spalt irrelevant — er amortisiert sich in Stunden Inference-Einsparungen.
Ein weiterer Kostensatz, der zählt: Inference-Zeit-Overhead. Ein LoRA-Adapter fügt 1–3% Latenz über Basis-Modell-Inference hinzu, wenn bedient durch vLLM's optimierten Multi-LoRA-Pfad in 2026 — praktisch kostenlos im Production-Maßstab. Ein vollständiges Fine-Tune hat null Inference-Overhead per Definition, aber nimmt einen separaten GPU-Slot. Auf einem einzelnen H100 können Sie ein Basis Llama 3.3-70B mit zehn LoRA-Adaptern geladen bei ~$2.49/Std. bedienen; zehn vollständige Fine-Tunes der gleichen Basis bedienen erfordert zehn separate Deployments bei ungefähr $25/Std. in GPU-Miete allein. Für Multi-Tenant-SaaS-Workloads, bei denen jeder Kundin einen benutzerdefinierten Adapter erhält, potenziert sich dieser Kostenspalt — LoRA kann Kosten pro Tenant im Cents halten, während vollständige Fine-Tunes diese Architektur außerhalb der Viability unter der Enterprise-Tier preis.
Fazit-Regel für 2026: Default zu LoRA. Trainieren Sie es auf Together bei $22 pro 24M-Token-Durchlauf, schiff es hinter einen Multi-Adapter vLLM-Endpoint, führen Sie ein gehaltenes Eval aus, und escalieren Sie nur zu einem vollständigen Fine-Tune, wenn der Qualitäts-Spalt in Ihrer Geschätsmetrik zeigt. Der Default erfasst 80% of Production-Usecases bei einem Zehntel der Kosten; der Escalation-Pfad ist offen, wenn Sie ihn brauchen.