Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Von The DDH Team · Digital Dashboard Hub

Fine-Tuning Kostenrechner 2026: Training + Serving-Preise bei jedem Anbieter

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Fine-Tuning hat zwei Kostenzeilen: Training (einmalig bezahlt, um das benutzerdefinierte Modell zu erstellen) und Served-Inference (jedes Mal bezahlt, wenn Sie das Modell danach aufrufen, normalerweise mit einem Aufschlag über der Basis-Modell-Rate). Im Jahr 2026 liegen die Trainingsraten bei $0,50–$25 pro 1M Trainings-Tokens, je nach Modellgröße, während die Served-Inference-Raten bei den meisten Anbietern 1,5–3x der Basis-Modell-Rate liegen. Einige Anbieter berechnen auch eine tägliche Hosting-Gebühr, um Ihr benutzerdefiniertes Modell warm zu halten.

Fine-Tuning ist wirtschaftlich sinnvoll, wenn: Sie genügend Volumen haben, damit sich der Inference-Aufschlag durch Prompt-Engineering-Einsparungen amortisiert, die Aufgabe von Style- oder Format-Kontrolle profitiert, die Prompts nicht sauber erreichen können, oder Sie auf einem kleineren, billigeren Basis-Modell laufen, das auf einer bestimmten Aufgabe die Qualität eines größeren Modells erreichen muss. Nachfolgend finden Sie die vollständige Preistabelle und berechnete $ Mathematik für jeden kanonischen Fall. Schnell geschätzte Basis-Inference-Kosten mit unserem KI-Prompt-Kostenrechner, oder laden Sie sich das kostenlose 2026 Fine-Tuning-Spickzettel-PDF herunter.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Fine-Tuning Training & Served-Inference-Preise — Juni 2026

Feature
Training $/1M
Served Input $/1M
Served Output $/1M
Basis-Inference $/1M (Input/Output)
Hosting
OpenAI gpt-5.4$25.00$3.75$22.50$2.50 / $15.00Enthalten
OpenAI gpt-5.4-mini$8.00$1.13$6.75$0.75 / $4.50Enthalten
OpenAI gpt-5.4-nano$2.50$0.30$1.88$0.20 / $1.25Enthalten
OpenAI gpt-4.1-mini$4.00$0.60$2.40$0.40 / $1.60Enthalten
OpenAI gpt-4.1-nano$1.50$0.15$0.60$0.10 / $0.40Enthalten
Anthropic Claude Haiku 4.5 (Bedrock)$10.00$1.50$7.50$1.00 / $5.00$0.0001/Sek. Hosting nach Training
Google Gemini 2.5 Flash$3.00$0.30$2.50$0.30 / $2.50Kostenloses Hosting
Google Gemini 2.5 Flash-Lite$1.50$0.10$0.40$0.10 / $0.40Kostenloses Hosting
Mistral Small fine-tune$1.00$0.30$0.90$0.30 / $0.90$2/Monat pro Fine-Tune
Mistral Medium fine-tune$4.00$2.10$6.30$2.10 / $6.30$4/Monat pro Fine-Tune
Together AI Llama 3.3-70B$0.90$0.88$0.88$0.88 / $0.88Kostenloses Hosting
Together AI Llama 4 Scout$2.50$1.30$1.30$1.30 / $1.30Kostenloses Hosting
Cohere Command R7B fine-tune$3.00$0.50$1.50$0.50 / $1.50Kostenloses Hosting

Quellen, Stand Juni 2026: OpenAI Fine-Tuning (https://platform.openai.com/docs/guides/fine-tuning), Anthropic + AWS Bedrock Fine-Tuning (https://docs.aws.amazon.com/bedrock/latest/userguide/model-customization.html), Google Vertex AI Fine-Tuning (https://cloud.google.com/vertex-ai/generative-ai/docs/models/tune-models), Mistral Fine-Tuning (https://docs.mistral.ai/capabilities/finetuning/), Together AI (https://docs.together.ai/docs/fine-tuning-overview), Cohere (https://docs.cohere.com/docs/fine-tuning). Trainingsraten sind pro 1M Trainings-Tokens angegeben (Summe der Input + Output Tokens im Dataset, multipliziert mit der Epoch-Anzahl). Der Served-Inference-Aufschlag über der Basis variiert je nach Anbieter — Mistral, Google und Together berechnen nahe Parität mit der Basis; OpenAI berechnet 1,5x bei Input, 1,5x bei Output.

Wie Fine-Tuning abgerechnet wird

Zwei Abrechnungszeilen, manchmal drei. Das Training wird pro 1M Trainings-Tokens gemessen, wobei "Trainings-Tokens" gleich (Input + Output Tokens in Ihrem Dataset) × (Anzahl der Trainings-Epochen) ist. Ein Dataset mit 100k Beispielen mit 1.000 Tokens pro Beispiel und 3 Trainings-Epochen wird mit 300M Trainings-Tokens abgerechnet.

Served-Inference wird pro 1M Input- und 1M Output-Tokens gemessen, genau wie das Basis-Modell — aber mit einem Aufschlag. OpenAI berechnet für das Fine-Tuned-Modell-Inference 1,5x Input und 1,5x Output der Basis. Google, Mistral und Together berechnen normalerweise bei oder nahe der Basis-Parität. Anthropic über Bedrock wendet einen ähnlichen 1,5x-Aufschlag wie OpenAI an.

Hosting-Gebühren gelten bei einigen wenigen Anbietern. Mistral berechnet eine pauschale monatliche Gebühr pro Fine-Tune ($2–4/Monat). Anthropic über Bedrock berechnet pro Sekunde für die bereitgestellte Modelleinheit (typischerweise $0.0001/Sek. oder etwa $260/Monat bei 24/7-Betrieb). OpenAI, Google und Together binden das Hosting in den Inference-Preis ein.

Die vollständige Formel:

``` training_cost = (dataset_tokens × epochs / 1,000,000) × training_price serve_cost = (monthly_input_tokens / 1,000,000) × ft_input_price + (monthly_output_tokens / 1,000,000) × ft_output_price hosting = per-day or per-month fee (if applicable) total_monthly = serve_cost + hosting + (training_cost / amortization_months) ```


Durchgerechnetes Beispiel 1: Trainingskosten in der gesamten Produktlinie

Referenz-Dataset: 10.000 Beispiele, 800 Tokens pro Beispiel (Prompt + Completion), 3 Epochen = 24M Trainings-Tokens.

OpenAI gpt-5.4-mini: 24 × $8 = $192. OpenAI gpt-5.4: 24 × $25 = $600. OpenAI gpt-4.1-nano: 24 × $1.50 = $36. Google Gemini 2.5 Flash: 24 × $3 = $72. Mistral Small: 24 × $1 = $24. Together Llama 3.3-70B: 24 × $0.90 = $21.60. Together Llama 4 Scout: 24 × $2.50 = $60. Anthropic Claude Haiku 4.5 (Bedrock): 24 × $10 = $240.

Die Trainingskosten sind relativ zu typischen Rechnungen für Inferenzen im Produktionsmaßstab gering. Für eine Workload, die $5.000/Monat für Inferenzen kostet, amortisieren sich Trainingskosten von $192 in wenigen Tagen. Die Entscheidung dreht sich selten um Trainingskosten; sie dreht sich darum, ob Served-Inference billiger ist als Basis + Prompt-Engineering, und ob sich die Qualität genug verbessert, um die operative Komplexität zu rechtfertigen.

Open-Source Fine-Tuning auf Together ist der Preis-Anführer bei $0.90/1M für Llama 3.3-70B. Wenn Sie diesen Qualitätsstandard erfüllen können, kostet das Training eines 24M-Token-Datasets $21.60 — praktisch kostenlos im Produktionsmaßstab.


Durchgerechnetes Beispiel 2: Monatliche Served-Inference-Kosten

Referenz-Monatliche Workload: 100k API-Aufrufe × 1.000 Input + 500 Output Tokens = 100M Input + 50M Output Tokens.

Basis gpt-5.4-mini: 100 × $0.75 + 50 × $4.50 = $75 + $225 = $300/Monat. Fine-Tuned gpt-5.4-mini: 100 × $1.13 + 50 × $6.75 = $113 + $337.50 = $450.50/Monat. Der Fine-Tuned-Aufschlag kostet +$150.50/Monat.

Damit Fine-Tuning netto billiger ist als Basis + Prompt-Engineering, muss das Fine-Tuned-Modell entweder genug Prompt-Tokens eliminieren, um den Aufschlag auszugleichen, oder ein teureres Basis-Modell ersetzen. Konkret: Wenn Fine-Tuning gpt-5.4-mini es Ihnen ermöglicht, die Verwendung von gpt-5.5 ($5/$30) einzustellen, sparen Sie 100 × ($5 - $1.13) + 50 × ($30 - $6.75) = $387 + $1.162.50 = $1.549.50/Monat gegenüber Basis gpt-5.5. Selbst nach dem $150.50-Aufschlag gegenüber Basis gpt-5.4-mini ist das ein Netto-Gewinn von über $1.400/Monat.

Open-Source über Together bei nahezu Parität-Inference: 100 × $0.88 + 50 × $0.88 = $132/Monat. Wesentlich billiger als Fine-Tuned OpenAI Mid-Tier bei $450, obwohl Sie bei Ökosystem-Features und operativer Einfachheit Kompromisse eingehen.


Wann sich Fine-Tuning den operativen Overhead lohnt

Fünf kanonische Fälle, bei denen sich Fine-Tuning lohnt. Erstens: Klassifizierungs- oder Extraktions-Aufgaben, bei denen ein Fine-Tuned Small Model die Qualität eines Basis-Mid-Tier-Modells erreicht — typischer Fall 2026: Fine-Tuning gpt-5.4-nano an 5.000 gekennzeichneten Beispielen, um auf einer bestimmten Extraktions-Aufgabe gpt-5.4-mini-Qualität zu erreichen. Die Inference-Kosten sinken um 3x.

Zweitens: Style- oder Voice-Konsistenz, die Few-Shot-Prompts nicht vollständig erfassen können — Fine-Tuning eines Small Models an 1.000 Beispielen von Brand-Voice erzeugt konsistentere On-Brand-Ausgabe als sogar ein 10-Shot-Prompt auf einem Basis-Modell.

Drittens: Output-Format-Strenge. JSON-Schema-Einhaltung, benutzerdefinierte DSL, deterministische Feld-Ordnung — Fine-Tuning erzeugt zuverlässigere strukturierte Ausgabe als Schema-geleitetes Prompting bei den meisten Aufgaben.

Viertens: Prompt-Token-Reduktion bei hohem Volumen. Ein Fine-Tuned-Modell mit den Anweisungen in den Gewichten eingebacken kann die gleiche Aufgabe mit einem 50-Token-Prompt erfüllen, den ein Basis-Modell 1.500 Tokens benötigt. Bei 10M Aufrufen/Monat überwiegen die Einsparungen den Inference-Aufschlag.

Fünftens: Domänenspezifisches Wissen, das Grounding nicht sauber löst — Fine-Tuning an einem Corpus von internen Slack-Conversations oder unternehmensspezifischer Terminologie, wo das Abrufen den Long Tail verfehlt.

Anti-Fälle: Aufgaben, bei denen ein Top-Tier-Basis-Modell bereits den Qualitätsstandard erfüllt (der Aufschlag zahlt sich nie zurück), Aufgaben mit sehr niedrigem Volumen (Trainingskosten dominieren), Aufgaben, bei denen sich die zugrundeliegenden Daten wöchentlich ändern (Sie müssen ständig umtrainieren), und Aufgaben, bei denen Output-Diversität wichtig ist (Fine-Tuning verengt die Varianz).


Open-Source vs proprietäres Fine-Tuning

Proprietär (OpenAI, Anthropic, Google, Mistral) bietet Ihnen Benutzerfreundlichkeit — laden Sie eine JSONL-Datei hoch, warten Sie eine Stunde, erhalten Sie ein benutzerdefiniertes Modell. Keine GPU-Bereitstellung, keine Skalierungsentscheidungen. Der Kompromiss ist der Aufschlag gegenüber den Basis-Inference-Raten und das Fehlen der Gewicht-Portabilität.

Open-Source auf Together, Modal, RunPod oder selbstgehostet bietet Ihnen nahezu Parität-Inference-Kosten (Sie zahlen ungefähr die gleiche Gebühr wie Basis-Inference, da Sie die Deployment kontrollieren) und volle Portabilität — Sie besitzen den LoRA-Adapter oder die vollständigen Gewichte und können Provider wechseln. Der Kompromiss ist operative Komplexität und die Notwendigkeit, Ihre eigenen Evals, Deployments und Skalierungen zu verwalten.

Für eine typische Workload mit 1–5M Aufrufen/Monat im Produktionsbetrieb ist proprietäres Fine-Tuning auf der Engineering-Kostenebene normalerweise billiger, wenn Sie die Betriebskosten einbeziehen. Für Workloads mit 10M+ Aufrufen/Monat übersteigt der Inference-Aufschlag die Betriebskosten; Open-Source wird zum Kostenführer.

Hybrid-Muster, das 2026 gut funktioniert: Verwenden Sie proprietäres Fine-Tuning, um schnell zu versenden, wechseln Sie zu Open-Source auf Together, sobald das Volumen den Schwellenwert überschreitet, bei dem sich die Betriebskosten amortisieren. Die Migration ist unkompliziert, wenn beide Seiten im gleichen JSONL-Format trainieren.


Versteckte Kosten: Evals, Drift und Retraining

Über Training und Inference hinaus überraschen drei operative Kosten Teams.

Eval-Kosten. Fine-Tuned-Modelle benötigen eine kontinuierliche Qualitätskontrolle. Das Standard-Muster ist ein gehaltenes Test-Set von 100–1.000 gekennzeichneten Beispielen, bewertet jedes Mal, wenn Sie eine neue Version ausliefern. Wenn Sie mit einem LLM-as-Judge unter Verwendung von gpt-5.5 bewerten, das sind 100–1.000 LLM-Aufrufe pro Evaluierungs-Durchlauf bei $0.02/Aufruf = $2–$20. Multiplizieren Sie mit der Versionszahl und wöchentlichem Rhythmus.

Drift-Kosten. Die Welt ändert sich. Ein Modell, das im Januar an Support-Tickets Fine-Tuned wurde, wird sich verschlechtern, wenn neue Produktfeatures ausgeliefert werden, die Terminologie sich weiterentwickelt und sich Ticket-Muster verschieben. Planen Sie einen Retraining-Durchlauf alle 60–90 Tage ein, was bedeutet, dass Trainingskosten annualisiert werden — multiplizieren Sie Ihre $192-Trainings-Nummer mit 4–6 Retrainings pro Jahr.

Versions-Management-Kosten. Sie werden mehrere Fine-Tuned-Modelle gleichzeitig im Produktionsbetrieb haben (aktuell, Kandidat, Rollback). Bei Anbietern mit monatlichen Hosting-Gebühren multipliziert dies die Rechnung; bei Anbietern mit enthaltenem Hosting ist es kostenlos. Berücksichtigen Sie dies bei der Anbieterauswahl.

Fazit: Die Gesamtkostenbilanz für ein Fine-Tuned-Modell ist 1,5–3x die reine Training + Inference-Mathematik, wenn Sie die Betriebskosten einbeziehen. Lohnt sich, wenn die Einsparungen oder Qualitätsverbesserungen es rechtfertigen; teuer, wenn nicht.


LoRA vs vollständiges Fine-Tuning in 2026 — Kosten-, Qualitäts- und Portabilitäts-Kompromisse

Fast jedes Fine-Tune in 2026 ist entweder ein LoRA (Low-Rank Adaptation) oder ein vollständiges Fine-Tune, und die Wahl treibt einen Kostenspalt von 5–20x, bevor Sie überhaupt einen Anbieter auswählen. LoRA friert die Gewichte des Basis-Modells ein und trainiert einen kleinen Adapter — normalerweise 1–5% der Parameter-Anzahl — der sich in Attention- und Projection-Layern einfügt. Vollständiges Fine-Tuning aktualisiert jeden Gewicht im Basis-Modell und erzeugt einen selbstständigen benutzerdefinierten Checkpoint. Beide erzeugen ein Modell, das Sie bedienen können; die Kosten, Qualitätsobergrenzen und operativen Formen sehen sehr unterschiedlich aus.

Bei Trainingskosten ist der Spalt groß. Ein LoRA-Adapter für Llama 3.3-70B trainiert in ungefähr 3–5 GPU-Stunden auf einem H100-Cluster für einen 24M-Token-Job; auf Together's verwaltetem LoRA-Endpoint kostet das etwa $21.60 (24 × $0.90/1M) — die gleiche Zahl, die wir im durchgerechneten Beispiel oben verwendet haben, weil Together's publik gemachte Rate die LoRA-Rate ist. Ein vollständiges Fine-Tune des gleichen 70B-Modells an den gleichen 24M Tokens läuft auf ungefähr 35–60 H100-Stunden auf einem selbstverwalteten RunPod- oder Modal-Cluster. Bei RunPod's ~$2.49/Std. für eine 80GB H100 SXM im Juni 2026 sind das $87–$150 in reiner GPU-Miete, plus Orchestrierungs-Overhead und ein paar fehlgeschlagene Runs, die Sie einkalkulieren sollten, landen reale vollständige Fine-Tune-Kosten bei $200–$300. Der 10x-Spalt zwischen $22 LoRA und $200+ vollständigem Fine-Tune ist die zu merkende Schlagzahl.

Qualitätsunterschiede sind kleiner als der Kostenspalt vermuten lässt. Über veröffentlichte Benchmarks in 2026 — MMLU-Pro, GSM8K, HumanEval und die meisten Klassifizierungs-Aufgaben — schlägt vollständiges Fine-Tuning einen gut abgestimmten LoRA um 1–3 Prozentpunkte. Der Spalt vergrößert sich, wenn die Aufgabe eine große Style- oder Format-Verschiebung gegenüber dem Basis-Modells-Pretraining-Verteilung verlangt: Heavy-SQL-only-Ausgabe, eine nicht-englische Low-Resource-Sprache, eine domänenspezifische DSL oder ein striktes House-Style-Rewriting können den Spalt auf 5–8 Punkte push. Für die meisten Production-Klassifizierungs-, Extraktions- und Assistant-artigen Workloads liegt der LoRA-Qualitäts-Penalty innerhalb des Rauschens Ihrer Eval-Harness, und Sie würden es im Produktionsbetrieb nicht sehen, wenn Sie nicht speziell dafür gemessen hätten.

Anbieter-Exposition unterscheidet sich scharf. OpenAI, Anthropic und Google preis nach Training-Token-Rate und sagen Ihnen nie, welche Methode sie unter der Haube verwenden — interne Leaks und Inference-Latenz-Profiling deuten an, dass OpenAI LoRA-artige Adapter für gpt-4.1-nano und gpt-5.4-mini Fine-Tunes führt und vollständige Fine-Tunes nur für die Flagship-Tier, aber sie bestätigen oder stellen die Wahl nicht offen. Sie zahlen die publik gemachte Rate und erhalten eine Modell-ID. Open-Source-Plattformen stellen die Wahl explizit dar. Together AI listet separate LoRA- und vollständige Fine-Tune-SKUs — Llama 3.3-70B LoRA bei $0.90/1M Training ist die Schlagzahl; vollständiges Fine-Tuning der gleichen Basis listet bei ungefähr $5.40/1M, ein 6x Premium. Modal und RunPod lassen Sie GPUs mieten und einen beiden Pfaden mit Frameworks wie Unsloth, Axolotl oder torchtune ausführen; Sie essen die Orchestrierungs-Kosten, aber bekommen volle Kontrolle.

Portabilität ist, wo LoRA's struktureller Vorteil zeigt. Ein 70B LoRA-Adapter wiegt 50–500MB je nach Rank (normalerweise Rank 16–64 in 2026 Production-Setups) — klein genug, um in Objektspeicher zu versionieren, beim Request-Handling zu tauschen und fünf Varianten von einem geladenen Basis-Modell auf einer einzelnen GPU A/B zu testen. vLLM und SGLang unterstützen beide Multi-LoRA-Serving in 2026, lassen Sie zehn Adapter pro Basis-Modell heiß halten und routen Requests nach Tenant, Aufgabe oder Experiment. Ein vollständiges Fine-Tune eines 70B-Modells erzeugt 140GB Float-16-Gewichte; Sie brauchen ein separates Deployment pro Variante, jede verbrauchend eigenen GPU-Speicher, und A/B-Tests kosten N-mal so viel wie Single-Model-Serving.

Die Portabilitäts-Geschichte zählt auch, wenn das Basis-Modell deprecated wird. Llama 3.1 war State-of-the-Art 18 Monate bevor dieser Guide; es ist jetzt durch 3.3 und Llama 4 Scout ersetzt. Ein LoRA trainiert gegen 3.1 kann normalerweise in ein paar Stunden gegen 3.3 re-trainiert werden — Ihre Datenpipeline, Eval-Set und Hyperparameter-Sweep alle trageweg. Ein vollständiges Fine-Tune ist an seine Basis vernietet; der einzige Pfad zu einer neueren Basis ist ein vollständiger Retraining-Zyklus. Für Teams auf einem 6–12 Monat Basis-Modell-Refresh-Rhythmus reduziert LoRA die wiederkehrenden Retrain-Kosten um 5–10x.

Wann vollständiges Fine-Tuning noch die richtige Anruf ist: Workloads, bei denen der 1–3 Punkt Qualitäts-Spalt in messbaren Umsatz oder Risiko übersetzt (hochvolumige Klassifizierung, wo 1% Genauigkeit eine P&L-Linie bewegt, sicherheitskritisches Filtering, regulierte Extraktion mit hartcodierten Format-Anforderungen), Aufgaben mit sehr großen Training-Korpora (>100M Tokens), wo LoRA's Low-Rank-Dekomposition beginnt, Information zu verlieren, und Single-Tenant-hochvolumiges Serving, bei dem der Pro-GPU-Memory-Overhead eines vollständigen Modells über Millionen von Calls pro Tag amortisiert wird. In diesen Fällen ist der $200 vs $22 Spalt irrelevant — er amortisiert sich in Stunden Inference-Einsparungen.

Ein weiterer Kostensatz, der zählt: Inference-Zeit-Overhead. Ein LoRA-Adapter fügt 1–3% Latenz über Basis-Modell-Inference hinzu, wenn bedient durch vLLM's optimierten Multi-LoRA-Pfad in 2026 — praktisch kostenlos im Production-Maßstab. Ein vollständiges Fine-Tune hat null Inference-Overhead per Definition, aber nimmt einen separaten GPU-Slot. Auf einem einzelnen H100 können Sie ein Basis Llama 3.3-70B mit zehn LoRA-Adaptern geladen bei ~$2.49/Std. bedienen; zehn vollständige Fine-Tunes der gleichen Basis bedienen erfordert zehn separate Deployments bei ungefähr $25/Std. in GPU-Miete allein. Für Multi-Tenant-SaaS-Workloads, bei denen jeder Kundin einen benutzerdefinierten Adapter erhält, potenziert sich dieser Kostenspalt — LoRA kann Kosten pro Tenant im Cents halten, während vollständige Fine-Tunes diese Architektur außerhalb der Viability unter der Enterprise-Tier preis.

Fazit-Regel für 2026: Default zu LoRA. Trainieren Sie es auf Together bei $22 pro 24M-Token-Durchlauf, schiff es hinter einen Multi-Adapter vLLM-Endpoint, führen Sie ein gehaltenes Eval aus, und escalieren Sie nur zu einem vollständigen Fine-Tune, wenn der Qualitäts-Spalt in Ihrer Geschätsmetrik zeigt. Der Default erfasst 80% of Production-Usecases bei einem Zehntel der Kosten; der Escalation-Pfad ist offen, wenn Sie ihn brauchen.


Fünf-Schritt-Decision-Flow, ob Fine-Tuning

Schritt 1: schätzen Sie Basis-Modell-Kosten auf Ihrer aktuellen Workload mit unserem GPT vs Claude vs Gemini Kostenrechner. Zahlen unter $500/Monat rechtfertigen selten den operativen Overhead eines Fine-Tunes; Zahlen über $5.000/Monat oft.

Schritt 2: versuchen Sie zuerst Prompt-Engineering. Few-Shot-Beispiele, strukturierte Output-Schemas, Chain-of-Thought-Prompting und ein frischer Blick auf den System-Prompt schließen normalerweise 60–80% der Spaltung zwischen Basis und Fine-Tuned-Qualität bei null Betriebskosten.

Schritt 3: wenn Prompt-Engineering unter Ihrem Qualitäts-Bar stagniert, bauen Sie ein 500–1.000 Beispiel gekennzeichnetes Dataset. Verwenden Sie ein stärkeres Basis-Modell (gpt-5.5 oder Sonnet 4.6), um Labels bootstrap; Spot-überprüfung 10–20% von Hand.

Schritt 4: trainieren Sie ein kleines Fine-Tune ($20–$200) auf einem kleinen Basis-Modell (gpt-5.4-nano, gpt-5.4-mini, Gemini 2.5 Flash, oder Llama 3.3-70B über Together). Vergleichen Sie gegen Basis-Mid-Tier auf Ihrer gehaltenen Test-Set.

Schritt 5: wenn das Fine-Tuned-Small-Modell Basis-Mid-Tier bei Qualität erreicht, verschiffen Sie es — Sie haben wahrscheinlich gerade die Inference-Kosten um 3–5x geschnitten. Wenn nicht, entweder das Basis-Mid-Tier-Modell ist die richtige Antwort, oder die Spaltung ist in den Daten (mehr Beispiele, bessere Labels) statt der Technik.

Frequently Asked Questions

Was ist das billigste Fine-Tunable-Modell in 2026?

Together AI Llama 3.3-70B bei $0.90/1M Training und $0.88/1M Parität-Nähe-Inference ist die billigste gehostete Fine-Tune-Option unter großen Anbietern. OpenAI gpt-4.1-nano bei $1.50/1M Training ist die billigste proprietäre Option.

Spart Fine-Tuning Geld bei Inference?

Nicht direkt — die meisten Anbieter berechnen 1,5x Basis für Fine-Tuned-Inference. Fine-Tuning spart Geld, wenn es Sie ermöglicht, zu einem billigeren Basis-Tier zu fallen (z. B. von gpt-5.5 zu Fine-Tuned gpt-5.4-mini) oder einen langen Instruction-Prompt zu eliminieren. Ansonsten kostet es mehr pro Call, nicht weniger.

Was ist die Training-Token-Formel?

training_tokens = (Summe von Input + Output Tokens über Ihr Dataset) × epoch_count. Ein 10k-Beispiel-Dataset mit 800 Tokens pro Beispiel und 3 Epochen = 24M Trainings-Tokens. Multiplizieren Sie mit der Training $/1M Rate.

Sollte ich Fine-Tuning oder Prompt-Engineering verwenden?

Versuchen Sie zuerst Prompt-Engineering. Few-Shot-Beispiele, Strukturierte-Output-Schemas und ein gestrafft System-Prompt schließen normalerweise 60–80% der Spaltung zu Fine-Tuning bei null Betriebskosten. Fine-Tune nur, wenn Prompt-Engineering unter Ihrem Qualitäts-Bar stagniert.

Wie oft muss ich umtrainieren?

Planen Sie einen Retraining-Durchlauf alle 60–90 Tage für die meisten Production-Workloads. Zugrunde liegende Daten driften (Produktänderungen, Terminologie, Kundenverhalten) und das Modell muss neu ausgerichtet werden. Budget für 4–6 Retraining-Zyklen pro Jahr.

Kann ich Claude Fine-Tunen?

Ja — Anthropic bietet Fine-Tuning für Claude Haiku 4.5 durch AWS Bedrock. Die Training-Rate ist ungefähr $10/1M Trainings-Tokens mit einem 1,5x-Aufschlag auf Served-Inference. Bestätigen Sie gegen AWS Bedrock Model-Customization-Docs.

Kann ich GPT-5.5 Fine-Tunen?

Nicht ab Juni 2026. Die Flagship Fine-Tunable-Modelle von OpenAI in 2026 sind gpt-5.4 ($25/1M), gpt-5.4-mini ($8/1M) und gpt-5.4-nano ($2.50/1M). Bestätigen Sie auf OpenAI's Fine-Tuning-Seite für die aktuelle Liste.

Ist Open-Source Fine-Tuning billiger als proprietär?

Normalerweise ja bei der reinen Inference-Rechnung — Together AI berechnet Parität-Nähe vs Basis-Inference, während OpenAI 1,5x aufschlägt. Operativ kostet Open-Source mehr in Engineering-Zeit, Deploy-Verwaltung und Eval-Infrastruktur. Für >10M Aufrufe/Monat-Workloads gewinnt Open-Source normalerweise netto der Betriebskosten.

Was ist der Kostenunterschied zwischen LoRA und vollständigem Fine-Tuning?

Normalerweise 5–20x in Trainingskosten. Ein 24M-Token LoRA Fine-Tune von Llama 3.3-70B auf Together AI läuft etwa $22 (24 × $0.90/1M). Ein vollständiges Fine-Tune der gleichen Basis auf RunPod oder Modal kostet $200–$300 in GPU-Miete (35–60 H100-Stunden bei ~$2.49/Std. plus Orchestrierungs-Overhead). Die Qualität unterscheidet sich normalerweise nur um 1–3 Punkte auf Standard-Benchmarks, also ist LoRA die richtige Default, wenn dieser Spalt keine echte Geschätsmetrik bewegt.

Verwenden OpenAI und Anthropic LoRA unter der Haube?

Sie legen es nicht offen. Inference-Latenz-Profiling und gelegentliche Leaks deuten an, dass OpenAI LoRA-artige Adapter für Fine-Tunes von kleineren Modellen wie gpt-4.1-nano und gpt-5.4-mini verwendet, während es vollständiges Fine-Tuning für die Flagship-Tier reserviert. Anthropic und Google legen die Methode auch nicht offen. Sie zahlen die publik gemachte Training-Token-Rate und erhalten eine Modell-ID zurück — die Methode ist abstrahiert weg. Wenn Sie explizite Kontrolle über LoRA vs vollständig brauchen, verwenden Sie Open-Source-Anbieter wie Together AI, Modal oder RunPod, die die Wahl als separate SKUs darstellen.

Kann ich mehrere LoRA-Adapter von einem Basis-Modell A/B testen?

Ja — das ist einer der strukturellen Vorteile von LoRA. Ein 70B LoRA-Adapter wiegt 50–500MB (Rank 16–64 in typischen 2026-Setups), klein genug, um zehn Adapter pro Basis auf einer einzelnen GPU heiß zu halten. vLLM und SGLang unterstützen beide Multi-LoRA-Serving in 2026, lassen Sie Requests nach Tenant, Aufgabe oder Experiment routen, ohne ein Deployment pro Variante zu spinnen. Vollständige Fine-Tunes erzeugen Multi-GB-Checkpoints (140GB für ein 70B bei fp16), die ein separates Deployment pro Variante erfordern — A/B-Tests kosten N-mal so viel wie Single-Model-Serving.

Erhalten Sie das 2026 Fine-Tuning-Spickzettel

Einseitige PDF mit jedem Fine-Tunebaren-Modells Training-Rate, Served-Inference-Rate und Hosting-Gebühr — kostenlos, kein Signup-Gate.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.