Rechtliche Analyse
Ein KI-Agent fragt an: „Darf ich https://ihre-firma.de/produkte abrufen?" Diese Meldung — etwa aus Claude Code oder einem Automatisierungsframework — klingt harmlos. Doch hinter dieser einzelnen Anfrage steckt eine Frage, die Compliance-Teams in Industrieunternehmen zunehmend beschäftigt: Unter welchen Bedingungen darf eine KI Webinhalte lesen, verarbeiten und weiternutzen? Die Antwort hat mehrere Schichten.
Tool: WebFetch
URL: https://ihre-firma.de/produkte
Prompt: Extrahiere alle Produktnamen und Preise
# Was passiert hier rechtlich?
→ HTTP-Request an Ihren Server
→ HTML-Inhalt wird verarbeitet
→ Ergebnis geht an das KI-Modell
# Wessen Inhalt? Welcher Zweck? Wo läuft das Modell?
1. Eigene Website: rechtlich problemlos
Wenn ein KI-Agent Ihre eigene Website abruft — ob zur Analyse, zur Inhaltspflege oder als Wissensquelle für interne Automatisierungen — ist das rechtlich unproblematisch. Technisch ist es identisch mit einem Browser-Besuch. Sie sind Inhaber der Domain, Herausgeber der Inhalte und Controller aller dort verarbeiteten Daten.
Ein Webhook, der Ihre Produktseite liest, um Texte zu prüfen? Ein Agent, der Ihre Dokumentation analysiert, um Wissenslücken zu identifizieren? Beides fällt unter die normale Nutzung Ihrer eigenen Infrastruktur. Keine urheberrechtliche Einschränkung, kein Vertragsproblem, kein Datenschutzrisiko — sofern auf den Seiten keine personenbezogenen Daten Dritter verarbeitet werden.
2. DSGVO: wann wird es relevant?
Sobald Ihre Website personenbezogene Daten enthält — Kontaktformulare, Nutzerprofile, B2B-Kontaktdaten, Log-Daten mit IP-Adressen — greift die DSGVO. Nicht weil die KI fetcht, sondern weil personenbezogene Daten verarbeitet werden.
Für die eigene Website gilt: Sie sind Verantwortlicher im Sinne der DSGVO Art. 4 Nr. 7. Die Rechtsgrundlage für die KI-gestützte Analyse Ihrer eigenen Inhalte ist in der Regel das berechtigte Interesse nach Art. 6(1)(f) DSGVO — sofern die Analyse dem legitimen Geschäftsbetrieb dient und keine Datenschutzinteressen der betroffenen Personen überwiegen.
Kritisch wird es, wenn externe KI-Dienste eingesetzt werden: Schickt Ihr Agent personenbezogene Daten an einen Cloud-KI-Anbieter, liegt Auftragsverarbeitung vor. Ein Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO ist dann Pflicht. Ohne AVV ist die Verarbeitung rechtswidrig — unabhängig davon, ob die Daten "nur kurz" übermittelt werden.
3. Urheberrecht: Drittseiten sind nicht frei
Bei fremden Websites sieht die Rechtslage anders aus. Texte, Bilder, Datenbanken auf externen Seiten sind urheberrechtlich geschützt — auch wenn sie öffentlich zugänglich sind. Das Abrufen allein verletzt noch kein Recht. Das Verarbeiten, Speichern und kommerzielle Weiternutzen schon.
Der Gesetzgeber hat mit §44b UrhG (Text- und Data-Mining-Ausnahme, in Kraft seit 2021) eine Schranke eingeführt: Das automatisierte Verarbeiten von Werken für KI-Analyse ist grundsätzlich zulässig. Aber: Rechteinhaber können diese Nutzung ausdrücklich vorbehalten. Wer einen solchen Vorbehalt erklärt — etwa in der robots.txt oder in den Nutzungsbedingungen — schließt die Ausnahme aus. Für kommerzielle Nutzung gelten strengere Maßstäbe als für wissenschaftliche Forschung.
Für strukturierte Daten gilt zusätzlich §87b UrhG (Datenbankschutzrecht). Wer eine Datenbank durch systematisches Scraping ganz oder wesentlich abruft oder vervielfältigt, verletzt das Sui-generis-Schutzrecht des Datenbankerstellers — auch ohne persönlichen Schöpfungsakt. Produktdatenbanken, Preislisten, Verzeichnisse: Sie alle können unter diesen Schutz fallen.
4. EU AI Act: neue Pflichten für KI-Systeme
Der EU AI Act (seit August 2024 in Kraft, schrittweise Anwendung) adressiert das Thema direkt. Anbieter von KI-Systemen mit allgemeinem Verwendungszweck (GPAI-Modelle) müssen nach Art. 53(1)(c) EU AI Act eine Zusammenfassung der für das Training genutzten Inhalte veröffentlichen.
Das Opt-out für Text- und Data-Mining ergibt sich aus §44b Abs. 3 UrhG in Verbindung mit Art. 4 Abs. 3 der Richtlinie (EU) 2019/790: Rechteinhaber können die maschinelle Verarbeitung ihrer Inhalte ausdrücklich vorbehalten. Dieser Vorbehalt muss maschinenlesbar sein — die robots.txt ist dafür eine anerkannte Methode.
Für Compliance-Teams bedeutet das: KI-Agenten, die automatisiert externe Quellen abrufen, müssen dokumentieren, welche Domains sie verarbeiten und ob dort TDM-Vorbehalte erklärt wurden. Das ist keine theoretische Anforderung — es ist eine Nachweis- und Dokumentationspflicht auf Seiten des GPAI-Anbieters, die bei Nutzung relevant werden kann.
5. Praktische Regel für den Betrieb
6. Die AlpiType-Perspektive: On-Premise verändert alles
Die Diskussion über KI und Web-Fetching dreht sich meist um die falsche Frage. Die richtige Frage ist nicht „Darf die KI das lesen?" — sondern: „Wer kontrolliert, was die KI liest und wohin die Daten danach gehen?"
Wenn Claude Code auf Ihrer eigenen Infrastruktur läuft und Ihre eigene Website analysiert, verlässt kein einziges Byte Ihr Netzwerk. Der Fetch ist ein interner HTTP-Request — identisch mit dem, was Ihr Monitoring-Tool oder Ihr Crawler täglich macht. Das ist kein Datentransfer. Das ist ein Entwickler-Tool.
Wenn dasselbe Werkzeug als Cloud-Dienst läuft und Ihre Produktseite abruft, um Inhalte in einen externen Kontext zu laden, entsteht eine völlig andere rechtliche Situation: Auftragsverarbeitung, mögliche Drittstaaten-Übermittlung, Kontrollverlust über die Weiternutzung.
On-Premise KI ist kein Sicherheits-Buzzword. Es ist die technische Voraussetzung dafür, dass Fragen wie diese gar nicht entstehen. Wenn das Modell lokal läuft, entscheiden Sie — nicht der Anbieter —, welche URLs aufgerufen werden, welche Daten verarbeitet werden und was mit den Ergebnissen passiert. Die Compliance-Frage wird zur Engineering-Frage. Und Engineering-Fragen lassen sich lösen.
Fazit
KI-Agenten, die Webinhalte abrufen, sind kein Randphänomen mehr. Sie sind Teil des normalen Entwicklungsalltags — und sie werden es noch stärker werden. Die Rechtslage in Deutschland ist klar strukturiert, wenn man sie kennt: Eigene Inhalte sind frei. Fremde Inhalte haben Grenzen. Personendaten erfordern Vertragsgrundlagen. Interne Daten gehören nicht in externe Systeme.
Die Unternehmen, die damit richtig umgehen, dokumentieren ihre KI-Zugriffe, prüfen robots.txt und ToS systematisch und setzen auf Infrastruktur, die ihnen die Kontrolle zurückgibt. Das ist kein Mehraufwand. Das ist sorgfältige Ingenieursarbeit.
Technisches Gespräch vereinbaren
Wir zeigen Ihnen, wie On-Premise KI in Ihrer Infrastruktur aussieht — und welche Compliance-Fragen sich damit von selbst erledigen.
Technisches Gespräch vereinbaren →