3 min Lesezeit

KI-Kosten · Token-Kalkulation · Modellvergleich

Was KI-Tokens kosten und wie man sie kalkuliert

KI-Anbieter rechnen in Tokens. Ihre Buchhaltung rechnet in Euro pro Monat. Hier ist die Brücke — mit aktuellen Modellpreisen, ehrlichen Vergleichen und konkreten Budgetrahmen.

Was ist ein Token?

Ein Token ist die Recheneinheit von Sprachmodellen. Nicht ein Wort, sondern ein Teilstück davon. Im Deutschen: ca. 1,3 Tokens pro Wort. Im Englischen ca. 1,0.

Faustregel: 1.000 Tokens ≈ 750 deutsche Wörter. Eine A4-Seite Text ≈ 1.500–2.000 Tokens. Ein 10-seitiges PDF ≈ 15.000–20.000 Tokens.

Jeder API-Aufruf hat zwei Kosten: Input-Tokens (was Sie an das Modell schicken — Prompt, Kontext, Dokumente) und Output-Tokens (was das Modell antwortet). Output ist bei allen Anbietern 3–5x teurer als Input.

Aktuelle Modellpreise im Vergleich (Q2 2026)

Preise pro 1 Million Tokens in Euro (Wechselkurs: 1 USD ≈ 0,92 EUR). Nur aktuelle Modelle — keine abgekündigten Versionen.

Modell	Anbieter	Input / 1M	Output / 1M	Kontext
Claude Opus 4	Anthropic	13,80 €	69,00 €	200K
Claude Sonnet 4	Anthropic	2,76 €	13,80 €	200K
Claude Haiku 4	Anthropic	0,74 €	3,68 €	200K
GPT-5	OpenAI	~4,60 €	~18,40 €	256K
GPT-4.1	OpenAI	1,84 €	7,36 €	1M
GPT-4.1 mini	OpenAI	0,37 €	1,47 €	1M
Gemini 2.5 Pro	Google	1,15 €	4,60 €	1M
Mistral Large 2	Mistral (EU)	2,76 €	8,28 €	128K
Llama 4 Maverick (lokal)	Meta (Open Source)	0 €	0 €	1M

Preise Stand April 2026. GPT-5 basiert auf veröffentlichten Pricing-Angaben von OpenAI. Alle Angaben ohne Garantie — Preise ändern sich quartalsweise.

Wann welches Modell besser ist als Claude

Claude ist nicht für jede Aufgabe die beste Wahl. Eine ehrliche Einordnung:

GPT-5 / GPT-4.1 gewinnt bei:

Multimodale Aufgaben (Bild + Text), Echtzeit-Sprachinteraktion, Function Calling in komplexen Tool-Ketten, Ecosystem-Integration (Azure, Microsoft 365). GPT-4.1 bietet außerdem ein 1M-Token-Kontextfenster — doppelt so groß wie Claude Sonnet.

Gemini 2.5 Pro gewinnt bei:

Preis-Leistung bei großen Kontextfenstern (1M Tokens nativ), Google-Workspace-Integration, Video-Analyse. Für reine Textverarbeitung mit viel Kontext oft das günstigste Modell bei vergleichbarer Qualität.

Mistral Large 2 gewinnt bei:

EU-Datensouveränität (Hosting in Europa), Mehrsprachigkeit (besonders Französisch, Deutsch), On-Premise-Deployment mit kommerziellem Support. Relevant wenn DSGVO-konformes europäisches Hosting eine harte Anforderung ist.

Claude Opus/Sonnet gewinnt bei:

Code-Generierung und -Analyse, lange strukturierte Textausgaben (Artikel, Berichte, technische Dokumentation), Instruktionsbefolgung bei komplexen Prompts, Vermeidung von Halluzinationen in regulierten Kontexten.

Die richtige Frage ist nicht "welches Modell ist das beste?" sondern "welches Modell löst meine spezifische Aufgabe am kosteneffizientesten?"

Die meisten Unternehmen überschätzen die Token-Kosten und unterschätzen die Integrationskosten. Tokens sind 30–50% der Rechnung. Der Rest ist Engineering.

Kalkulations-Framework

Anfragen/Tag x Tokens/Anfrage x Preis/Token x 22 Arbeitstage = Monatskosten

Tokens pro Anfrage — Richtwerte:

Einfache Frage/Antwort: 500–1.000 Tokens
Dokument-Zusammenfassung (1 Seite): 2.000–4.000 Tokens
RAG-Anfrage mit Kontext: 4.000–15.000 Tokens
Komplexe Analyse (10+ Seiten Input): 20.000–50.000 Tokens
Code-Review (ein Pull Request): 5.000–20.000 Tokens

Budgetrahmen: Was bekommt man für welches Budget?

Unter 100 €/Monat

Prototyp, internes Tool, Content-Pipeline

~500 Anfragen/Tag mit Haiku 4 oder GPT-4.1 mini
~100 Anfragen/Tag mit Claude Sonnet oder GPT-4.1
Content-Pipeline (Artikel + LinkedIn + PDF): ~2.000 Durchläufe/Monat
Internes Suchtool für ein Team von 10–20 Personen
Typischer Anwendungsfall: Erster PoC, interne Automatisierung, Content-Produktion

100–1.000 €/Monat

Produktionssystem, abteilungsweiter Einsatz

~2.000 Anfragen/Tag mit Sonnet/GPT-4.1
RAG-System für 50–100 Nutzer mit umfangreicher Dokumentenbasis
Automatisierte Anfragenbearbeitung (Sales, Support, Technik)
Kombination: kleine Anfragen via Haiku, komplexe via Sonnet (Modell-Routing)
Typischer Anwendungsfall: Produktivsystem für eine Abteilung, Customer-facing Chatbot mit moderatem Volumen

1.000–5.000 €/Monat

Unternehmensweiter Einsatz, multiple Systeme

10.000+ Anfragen/Tag über mehrere Systeme
Mehrere KI-Integrationen parallel (Search, Analyse, Content, Code-Review)
Opus/GPT-5 für komplexe Aufgaben, Haiku/mini für Massenverarbeitung
Ab hier lohnt sich die On-Premise-Kalkulation — bei gleichem Volumen auf eigener Hardware fallen die Token-Kosten weg
Typischer Anwendungsfall: Mittelständler mit mehreren KI-Touchpoints, SaaS-Unternehmen mit KI-Features

5.000+ €/Monat

On-Premise wird Pflicht

Ab 5.000 €/Monat Token-Kosten ist On-Premise fast immer günstiger
Eigene GPU-Infrastruktur (NVIDIA A100/H100) amortisiert sich in 6–12 Monaten
Zusätzlicher Vorteil: volle Datenkontrolle, kein Drittlandtransfer, keine API-Abhängigkeit
Open-Source-Modelle (Llama 4, Mistral) erreichen für die meisten Aufgaben 90%+ der Qualität proprietärer Modelle
Typischer Anwendungsfall: Regulierte Industrien, Defense, Healthcare, Unternehmen mit Compliance-Anforderungen die Cloud ausschließen

Warum On-Premise-Hardware 2.000–5.000 €/Monat kostet

Wenn Tokens 0 € kosten — woher kommen dann die monatlichen Kosten? Die Rechnung ist transparenter als sie klingt:

Kostenposition	Monatlich	Warum
GPU-Hardware (Abschreibung)	800–2.000 €	NVIDIA A100 (40GB): ~12.000 €, Abschreibung über 36 Monate = 333 €/Monat. Für Llama 70B+ braucht man 2–4 GPUs.
Strom	200–600 €	Ein GPU-Server zieht 1–3 kW im Betrieb. Bei 24/7 und 0,30 €/kWh (DE-Industrietarif): 220–660 €/Monat. Kühlung kommt dazu.
Hosting / Rack Space	200–500 €	Colocation im Rechenzentrum: Strom, Kühlung, Netzwerk, physische Sicherheit. Eigener Serverraum: anteilige Miete + Klimatisierung.
IT-Betrieb (anteilig)	500–1.500 €	Updates, Monitoring, Modellwechsel, Fehleranalyse. Kein Vollzeit-Admin, aber 5–15 Stunden/Monat IT-Aufwand. Bei 80 €/Stunde intern: 400–1.200 €.
Backup + Redundanz	100–400 €	Redundante Speicher, regelmäßige Backups der Modellkonfiguration und Vektordatenbanken. Nicht teuer, aber nicht optional.

Gesamtrahmen On-Premise: 1.800–5.000 €/Monat, abhängig von Modellgröße und Verfügbarkeitsanforderung. Zum Vergleich: dieselbe Leistung über API kostet ab ~3.000 €/Monat aufwärts. Der Breakeven liegt typischerweise bei 3.000–5.000 €/Monat API-Kosten — darunter ist Cloud günstiger, darüber On-Premise.

Token-Gesundheit: Risiken und Monitoring

Token-Kosten sind vorhersagbar — solange man sie überwacht. Ohne Monitoring explodieren sie. Typische Risiken:

Prompt Bloat. System-Prompts wachsen über Monate von 200 auf 5.000 Tokens — weil jeder ein "noch ein Kontext" hinzufügt. Lösung: Prompt-Versionierung und regelmäßiges Audit.
Retry-Schleifen. Fehlgeschlagene Anfragen werden automatisch wiederholt — 3x, 5x, 10x. Jeder Retry kostet Tokens. Lösung: Exponential Backoff mit maximalem Retry-Count und Budget-Alarm.
Unnötiger Kontext. Ganze Dokumente werden mitgeschickt, obwohl 2 Absätze reichen. Lösung: Chunking und Relevanz-Filterung vor dem API-Call.
Kein Rate Limiting. Ein Bug oder ein einzelner Nutzer kann tausende Anfragen pro Stunde auslösen. Lösung: Per-User-Limits, Budget-Caps pro Stunde/Tag.
Modellwechsel ohne Kalkulation. Upgrade von Haiku auf Sonnet "weil die Antworten besser sind" — ohne zu rechnen, dass die Kosten sich ver-4-fachen. Lösung: A/B-Tests mit Kostenvergleich.

Monitoring-Checkliste:

Dashboard mit täglichem Token-Verbrauch (Input + Output getrennt)
Alarm bei >120% des Tagesdurchschnitts
Kosten pro Anfrage-Typ (Search, Analyse, Content, Chat)
Budget-Cap pro API-Key (Anthropic und OpenAI bieten das nativ an)
Monatlicher Review: Prompt-Länge, Cache-Hit-Rate, Retry-Rate

Vier Optimierungshebel

1. Prompt Caching (50–90% Ersparnis auf Input). Claude und OpenAI cachen wiederkehrende Kontexte (System-Prompt, Dokumentenbasis). Ein System-Prompt von 2.000 Tokens wird beim ersten Call berechnet, danach aus dem Cache bedient — zu 10% des Preises.

2. Modell-Routing (40–70% Ersparnis). Einfache Aufgaben (Klassifizierung, Extraktion, kurze Antworten) an Haiku/mini. Komplexe Aufgaben (Analyse, Code, lange Texte) an Sonnet/GPT-4.1. Die meisten Systeme können automatisch routen.

3. Kontext-Management (Faktor 5–10). Statt 20.000 Tokens Dokument pro Anfrage: relevante Absätze per Vektorsuche extrahieren → 2.000 Tokens. Gleiche Antwortqualität, 90% weniger Input-Kosten.

4. On-Premise ab Breakeven. Ab ~3.000 €/Monat API-Kosten: Hardware-Kalkulation durchrechnen. Open-Source-Modelle (Llama 4, Mistral) decken 80–90% der Use Cases ab. Die restlichen 10–20% (die nur Opus/GPT-5 können) laufen weiter über API — aber das Volumen ist klein genug, um unter 500 €/Monat zu bleiben.

Konkret: Was unsere Content-Pipeline pro Durchlauf kostet

AlpiType Content Pipeline — reale Kosten

Input: ~5.000 Tokens (Systemprompt + Datei-Inhalt)
Output: ~2.500 Tokens (Artikel + LinkedIn + Meta + PDF-Summary)
Modell: Claude Sonnet 4
Kosten pro Durchlauf: ~0,05 € (~5 Cent)
100 Artikel/Monat: ~5 €/Monat Token-Kosten
PDF-Rendering: 0 € (Chrome lokal)
WordPress-Publishing: 0 € (REST API)

Trade-offs

Billigstes Modell ≠ billigste Lösung. Ein schwaches Modell, das 3 Retries braucht, kostet mehr als ein starkes, das beim ersten Mal richtig antwortet.
Preise fallen quartalsweise. Kalkulieren Sie konservativ, aber sperren Sie sich nicht in 3-Jahres-Verträge auf Basis heutiger Preise ein.
On-Premise ist nicht kostenlos. 0 € Token-Kosten, aber 2.000–5.000 €/Monat Betrieb. Lohnt sich erst ab signifikantem Volumen.
Lock-in ist real. Wer Prompts für GPT-5 optimiert, kann nicht einfach zu Claude wechseln (und umgekehrt). Abstraktionsschicht einplanen.

Weiterführende Artikel

KI nutzen, ohne Daten in die Cloud zu schicken

On-premise KI: Wie Systeme vollständig lokal betrieben werden.

Sind Ihre Daten überhaupt für KI nutzbar?

Datenqualität prüfen, bevor Sie in KI investieren.

Was KI in einem realen Industrieprojekt kostet

Konkrete Zahlen, Phasen und ROI aus realen Projekten.

Nicht sicher, ob das auf Ihren Fall zutrifft?

Wir prüfen Ihr Setup in 2 Wochen und sagen Ihnen, ob KI machbar ist.

Machbarkeits-Audit anfragen →

Ihr AlpiType Team
Landsberg am Lech · alpitype.de

Sprechen Sie mit einem Ingenieur

Kein Vertrieb. Sie sprechen direkt mit einem unserer Software-Architekten über Ihr konkretes Problem. 30 Minuten. Antwort innerhalb von 24 Stunden.

Email: info@alpitype.com

LinkedIn: AlpiType

Anton Lytvynenko

CEO, AlpiType

Unsere Geschichte →