KI-Kosten · Token-Kalkulation · Modellvergleich
Was KI-Tokens kosten und wie man sie kalkuliert
KI-Anbieter rechnen in Tokens. Ihre Buchhaltung rechnet in Euro pro Monat. Hier ist die Brücke — mit aktuellen Modellpreisen, ehrlichen Vergleichen und konkreten Budgetrahmen.
Was ist ein Token?
Ein Token ist die Recheneinheit von Sprachmodellen. Nicht ein Wort, sondern ein Teilstück davon. Im Deutschen: ca. 1,3 Tokens pro Wort. Im Englischen ca. 1,0.
Faustregel: 1.000 Tokens ≈ 750 deutsche Wörter. Eine A4-Seite Text ≈ 1.500–2.000 Tokens. Ein 10-seitiges PDF ≈ 15.000–20.000 Tokens.
Jeder API-Aufruf hat zwei Kosten: Input-Tokens (was Sie an das Modell schicken — Prompt, Kontext, Dokumente) und Output-Tokens (was das Modell antwortet). Output ist bei allen Anbietern 3–5x teurer als Input.
Aktuelle Modellpreise im Vergleich (Q2 2026)
Preise pro 1 Million Tokens in Euro (Wechselkurs: 1 USD ≈ 0,92 EUR). Nur aktuelle Modelle — keine abgekündigten Versionen.
| Modell | Anbieter | Input / 1M | Output / 1M | Kontext |
|---|---|---|---|---|
| Claude Opus 4 | Anthropic | 13,80 € | 69,00 € | 200K |
| Claude Sonnet 4 | Anthropic | 2,76 € | 13,80 € | 200K |
| Claude Haiku 4 | Anthropic | 0,74 € | 3,68 € | 200K |
| GPT-5 | OpenAI | ~4,60 € | ~18,40 € | 256K |
| GPT-4.1 | OpenAI | 1,84 € | 7,36 € | 1M |
| GPT-4.1 mini | OpenAI | 0,37 € | 1,47 € | 1M |
| Gemini 2.5 Pro | 1,15 € | 4,60 € | 1M | |
| Mistral Large 2 | Mistral (EU) | 2,76 € | 8,28 € | 128K |
| Llama 4 Maverick (lokal) | Meta (Open Source) | 0 € | 0 € | 1M |
Preise Stand April 2026. GPT-5 basiert auf veröffentlichten Pricing-Angaben von OpenAI. Alle Angaben ohne Garantie — Preise ändern sich quartalsweise.
Wann welches Modell besser ist als Claude
Claude ist nicht für jede Aufgabe die beste Wahl. Eine ehrliche Einordnung:
GPT-5 / GPT-4.1 gewinnt bei:
Multimodale Aufgaben (Bild + Text), Echtzeit-Sprachinteraktion, Function Calling in komplexen Tool-Ketten, Ecosystem-Integration (Azure, Microsoft 365). GPT-4.1 bietet außerdem ein 1M-Token-Kontextfenster — doppelt so groß wie Claude Sonnet.
Gemini 2.5 Pro gewinnt bei:
Preis-Leistung bei großen Kontextfenstern (1M Tokens nativ), Google-Workspace-Integration, Video-Analyse. Für reine Textverarbeitung mit viel Kontext oft das günstigste Modell bei vergleichbarer Qualität.
Mistral Large 2 gewinnt bei:
EU-Datensouveränität (Hosting in Europa), Mehrsprachigkeit (besonders Französisch, Deutsch), On-Premise-Deployment mit kommerziellem Support. Relevant wenn DSGVO-konformes europäisches Hosting eine harte Anforderung ist.
Claude Opus/Sonnet gewinnt bei:
Code-Generierung und -Analyse, lange strukturierte Textausgaben (Artikel, Berichte, technische Dokumentation), Instruktionsbefolgung bei komplexen Prompts, Vermeidung von Halluzinationen in regulierten Kontexten.
Die richtige Frage ist nicht "welches Modell ist das beste?" sondern "welches Modell löst meine spezifische Aufgabe am kosteneffizientesten?"
Kalkulations-Framework
Tokens pro Anfrage — Richtwerte:
- Einfache Frage/Antwort: 500–1.000 Tokens
- Dokument-Zusammenfassung (1 Seite): 2.000–4.000 Tokens
- RAG-Anfrage mit Kontext: 4.000–15.000 Tokens
- Komplexe Analyse (10+ Seiten Input): 20.000–50.000 Tokens
- Code-Review (ein Pull Request): 5.000–20.000 Tokens
Budgetrahmen: Was bekommt man für welches Budget?
Unter 100 €/Monat
Prototyp, internes Tool, Content-Pipeline
- ~500 Anfragen/Tag mit Haiku 4 oder GPT-4.1 mini
- ~100 Anfragen/Tag mit Claude Sonnet oder GPT-4.1
- Content-Pipeline (Artikel + LinkedIn + PDF): ~2.000 Durchläufe/Monat
- Internes Suchtool für ein Team von 10–20 Personen
- Typischer Anwendungsfall: Erster PoC, interne Automatisierung, Content-Produktion
100–1.000 €/Monat
Produktionssystem, abteilungsweiter Einsatz
- ~2.000 Anfragen/Tag mit Sonnet/GPT-4.1
- RAG-System für 50–100 Nutzer mit umfangreicher Dokumentenbasis
- Automatisierte Anfragenbearbeitung (Sales, Support, Technik)
- Kombination: kleine Anfragen via Haiku, komplexe via Sonnet (Modell-Routing)
- Typischer Anwendungsfall: Produktivsystem für eine Abteilung, Customer-facing Chatbot mit moderatem Volumen
1.000–5.000 €/Monat
Unternehmensweiter Einsatz, multiple Systeme
- 10.000+ Anfragen/Tag über mehrere Systeme
- Mehrere KI-Integrationen parallel (Search, Analyse, Content, Code-Review)
- Opus/GPT-5 für komplexe Aufgaben, Haiku/mini für Massenverarbeitung
- Ab hier lohnt sich die On-Premise-Kalkulation — bei gleichem Volumen auf eigener Hardware fallen die Token-Kosten weg
- Typischer Anwendungsfall: Mittelständler mit mehreren KI-Touchpoints, SaaS-Unternehmen mit KI-Features
5.000+ €/Monat
On-Premise wird Pflicht
- Ab 5.000 €/Monat Token-Kosten ist On-Premise fast immer günstiger
- Eigene GPU-Infrastruktur (NVIDIA A100/H100) amortisiert sich in 6–12 Monaten
- Zusätzlicher Vorteil: volle Datenkontrolle, kein Drittlandtransfer, keine API-Abhängigkeit
- Open-Source-Modelle (Llama 4, Mistral) erreichen für die meisten Aufgaben 90%+ der Qualität proprietärer Modelle
- Typischer Anwendungsfall: Regulierte Industrien, Defense, Healthcare, Unternehmen mit Compliance-Anforderungen die Cloud ausschließen
Warum On-Premise-Hardware 2.000–5.000 €/Monat kostet
Wenn Tokens 0 € kosten — woher kommen dann die monatlichen Kosten? Die Rechnung ist transparenter als sie klingt:
| Kostenposition | Monatlich | Warum |
|---|---|---|
| GPU-Hardware (Abschreibung) | 800–2.000 € | NVIDIA A100 (40GB): ~12.000 €, Abschreibung über 36 Monate = 333 €/Monat. Für Llama 70B+ braucht man 2–4 GPUs. |
| Strom | 200–600 € | Ein GPU-Server zieht 1–3 kW im Betrieb. Bei 24/7 und 0,30 €/kWh (DE-Industrietarif): 220–660 €/Monat. Kühlung kommt dazu. |
| Hosting / Rack Space | 200–500 € | Colocation im Rechenzentrum: Strom, Kühlung, Netzwerk, physische Sicherheit. Eigener Serverraum: anteilige Miete + Klimatisierung. |
| IT-Betrieb (anteilig) | 500–1.500 € | Updates, Monitoring, Modellwechsel, Fehleranalyse. Kein Vollzeit-Admin, aber 5–15 Stunden/Monat IT-Aufwand. Bei 80 €/Stunde intern: 400–1.200 €. |
| Backup + Redundanz | 100–400 € | Redundante Speicher, regelmäßige Backups der Modellkonfiguration und Vektordatenbanken. Nicht teuer, aber nicht optional. |
Gesamtrahmen On-Premise: 1.800–5.000 €/Monat, abhängig von Modellgröße und Verfügbarkeitsanforderung. Zum Vergleich: dieselbe Leistung über API kostet ab ~3.000 €/Monat aufwärts. Der Breakeven liegt typischerweise bei 3.000–5.000 €/Monat API-Kosten — darunter ist Cloud günstiger, darüber On-Premise.
Token-Gesundheit: Risiken und Monitoring
Token-Kosten sind vorhersagbar — solange man sie überwacht. Ohne Monitoring explodieren sie. Typische Risiken:
- Prompt Bloat. System-Prompts wachsen über Monate von 200 auf 5.000 Tokens — weil jeder ein "noch ein Kontext" hinzufügt. Lösung: Prompt-Versionierung und regelmäßiges Audit.
- Retry-Schleifen. Fehlgeschlagene Anfragen werden automatisch wiederholt — 3x, 5x, 10x. Jeder Retry kostet Tokens. Lösung: Exponential Backoff mit maximalem Retry-Count und Budget-Alarm.
- Unnötiger Kontext. Ganze Dokumente werden mitgeschickt, obwohl 2 Absätze reichen. Lösung: Chunking und Relevanz-Filterung vor dem API-Call.
- Kein Rate Limiting. Ein Bug oder ein einzelner Nutzer kann tausende Anfragen pro Stunde auslösen. Lösung: Per-User-Limits, Budget-Caps pro Stunde/Tag.
- Modellwechsel ohne Kalkulation. Upgrade von Haiku auf Sonnet "weil die Antworten besser sind" — ohne zu rechnen, dass die Kosten sich ver-4-fachen. Lösung: A/B-Tests mit Kostenvergleich.
Monitoring-Checkliste:
- Dashboard mit täglichem Token-Verbrauch (Input + Output getrennt)
- Alarm bei >120% des Tagesdurchschnitts
- Kosten pro Anfrage-Typ (Search, Analyse, Content, Chat)
- Budget-Cap pro API-Key (Anthropic und OpenAI bieten das nativ an)
- Monatlicher Review: Prompt-Länge, Cache-Hit-Rate, Retry-Rate
Vier Optimierungshebel
1. Prompt Caching (50–90% Ersparnis auf Input). Claude und OpenAI cachen wiederkehrende Kontexte (System-Prompt, Dokumentenbasis). Ein System-Prompt von 2.000 Tokens wird beim ersten Call berechnet, danach aus dem Cache bedient — zu 10% des Preises.
2. Modell-Routing (40–70% Ersparnis). Einfache Aufgaben (Klassifizierung, Extraktion, kurze Antworten) an Haiku/mini. Komplexe Aufgaben (Analyse, Code, lange Texte) an Sonnet/GPT-4.1. Die meisten Systeme können automatisch routen.
3. Kontext-Management (Faktor 5–10). Statt 20.000 Tokens Dokument pro Anfrage: relevante Absätze per Vektorsuche extrahieren → 2.000 Tokens. Gleiche Antwortqualität, 90% weniger Input-Kosten.
4. On-Premise ab Breakeven. Ab ~3.000 €/Monat API-Kosten: Hardware-Kalkulation durchrechnen. Open-Source-Modelle (Llama 4, Mistral) decken 80–90% der Use Cases ab. Die restlichen 10–20% (die nur Opus/GPT-5 können) laufen weiter über API — aber das Volumen ist klein genug, um unter 500 €/Monat zu bleiben.
Konkret: Was unsere Content-Pipeline pro Durchlauf kostet
AlpiType Content Pipeline — reale Kosten
Input: ~5.000 Tokens (Systemprompt + Datei-Inhalt)
Output: ~2.500 Tokens (Artikel + LinkedIn + Meta + PDF-Summary)
Modell: Claude Sonnet 4
Kosten pro Durchlauf: ~0,05 € (~5 Cent)
100 Artikel/Monat: ~5 €/Monat Token-Kosten
PDF-Rendering: 0 € (Chrome lokal)
WordPress-Publishing: 0 € (REST API)
Trade-offs
- Billigstes Modell ≠ billigste Lösung. Ein schwaches Modell, das 3 Retries braucht, kostet mehr als ein starkes, das beim ersten Mal richtig antwortet.
- Preise fallen quartalsweise. Kalkulieren Sie konservativ, aber sperren Sie sich nicht in 3-Jahres-Verträge auf Basis heutiger Preise ein.
- On-Premise ist nicht kostenlos. 0 € Token-Kosten, aber 2.000–5.000 €/Monat Betrieb. Lohnt sich erst ab signifikantem Volumen.
- Lock-in ist real. Wer Prompts für GPT-5 optimiert, kann nicht einfach zu Claude wechseln (und umgekehrt). Abstraktionsschicht einplanen.
Weiterführende Artikel
KI nutzen, ohne Daten in die Cloud zu schicken
On-premise KI: Wie Systeme vollständig lokal betrieben werden.
Sind Ihre Daten überhaupt für KI nutzbar?
Datenqualität prüfen, bevor Sie in KI investieren.
Was KI in einem realen Industrieprojekt kostet
Konkrete Zahlen, Phasen und ROI aus realen Projekten.
Nicht sicher, ob das auf Ihren Fall zutrifft?
Wir prüfen Ihr Setup in 2 Wochen und sagen Ihnen, ob KI machbar ist.
Machbarkeits-Audit anfragen →Landsberg am Lech · alpitype.de
Sprechen Sie mit einem Ingenieur
Kein Vertrieb. Sie sprechen direkt mit einem unserer Software-Architekten über Ihr konkretes Problem. 30 Minuten. Antwort innerhalb von 24 Stunden.
Email: info@alpitype.com
LinkedIn: AlpiType