Darf KI Ihre Website lesen?

Rechtliche Analyse

Ein KI-Agent fragt an: „Darf ich https://ihre-firma.de/produkte abrufen?" Diese Meldung — etwa aus Claude Code oder einem Automatisierungsframework — klingt harmlos. Doch hinter dieser einzelnen Anfrage steckt eine Frage, die Compliance-Teams in Industrieunternehmen zunehmend beschäftigt: Unter welchen Bedingungen darf eine KI Webinhalte lesen, verarbeiten und weiternutzen? Die Antwort hat mehrere Schichten.

            # Claude Code — typische Ausgabe beim Web-Fetch

            Tool: WebFetch

            URL: https://ihre-firma.de/produkte

            Prompt: Extrahiere alle Produktnamen und Preise

            # Was passiert hier rechtlich?

            → HTTP-Request an Ihren Server

            → HTML-Inhalt wird verarbeitet

            → Ergebnis geht an das KI-Modell

            # Wessen Inhalt? Welcher Zweck? Wo läuft das Modell?

1. Eigene Website: rechtlich problemlos

Wenn ein KI-Agent Ihre eigene Website abruft — ob zur Analyse, zur Inhaltspflege oder als Wissensquelle für interne Automatisierungen — ist das rechtlich unproblematisch. Technisch ist es identisch mit einem Browser-Besuch. Sie sind Inhaber der Domain, Herausgeber der Inhalte und Controller aller dort verarbeiteten Daten.

Ein Webhook, der Ihre Produktseite liest, um Texte zu prüfen? Ein Agent, der Ihre Dokumentation analysiert, um Wissenslücken zu identifizieren? Beides fällt unter die normale Nutzung Ihrer eigenen Infrastruktur. Keine urheberrechtliche Einschränkung, kein Vertragsproblem, kein Datenschutzrisiko — sofern auf den Seiten keine personenbezogenen Daten Dritter verarbeitet werden.

Ihre eigene Website lesen ist wie ein Browser-Besuch. Nur effizienter.

2. DSGVO: wann wird es relevant?

Sobald Ihre Website personenbezogene Daten enthält — Kontaktformulare, Nutzerprofile, B2B-Kontaktdaten, Log-Daten mit IP-Adressen — greift die DSGVO. Nicht weil die KI fetcht, sondern weil personenbezogene Daten verarbeitet werden.

Für die eigene Website gilt: Sie sind Verantwortlicher im Sinne der DSGVO Art. 4 Nr. 7. Die Rechtsgrundlage für die KI-gestützte Analyse Ihrer eigenen Inhalte ist in der Regel das berechtigte Interesse nach Art. 6(1)(f) DSGVO — sofern die Analyse dem legitimen Geschäftsbetrieb dient und keine Datenschutzinteressen der betroffenen Personen überwiegen.

Kritisch wird es, wenn externe KI-Dienste eingesetzt werden: Schickt Ihr Agent personenbezogene Daten an einen Cloud-KI-Anbieter, liegt Auftragsverarbeitung vor. Ein Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO ist dann Pflicht. Ohne AVV ist die Verarbeitung rechtswidrig — unabhängig davon, ob die Daten "nur kurz" übermittelt werden.

3. Urheberrecht: Drittseiten sind nicht frei

Bei fremden Websites sieht die Rechtslage anders aus. Texte, Bilder, Datenbanken auf externen Seiten sind urheberrechtlich geschützt — auch wenn sie öffentlich zugänglich sind. Das Abrufen allein verletzt noch kein Recht. Das Verarbeiten, Speichern und kommerzielle Weiternutzen schon.

Der Gesetzgeber hat mit §44b UrhG (Text- und Data-Mining-Ausnahme, in Kraft seit 2021) eine Schranke eingeführt: Das automatisierte Verarbeiten von Werken für KI-Analyse ist grundsätzlich zulässig. Aber: Rechteinhaber können diese Nutzung ausdrücklich vorbehalten. Wer einen solchen Vorbehalt erklärt — etwa in der robots.txt oder in den Nutzungsbedingungen — schließt die Ausnahme aus. Für kommerzielle Nutzung gelten strengere Maßstäbe als für wissenschaftliche Forschung.

Für strukturierte Daten gilt zusätzlich §87b UrhG (Datenbankschutzrecht). Wer eine Datenbank durch systematisches Scraping ganz oder wesentlich abruft oder vervielfältigt, verletzt das Sui-generis-Schutzrecht des Datenbankerstellers — auch ohne persönlichen Schöpfungsakt. Produktdatenbanken, Preislisten, Verzeichnisse: Sie alle können unter diesen Schutz fallen.

Öffentlich zugänglich bedeutet nicht: frei nutzbar.

4. EU AI Act: neue Pflichten für KI-Systeme

Der EU AI Act (seit August 2024 in Kraft, schrittweise Anwendung) adressiert das Thema direkt. Anbieter von KI-Systemen mit allgemeinem Verwendungszweck (GPAI-Modelle) müssen nach Art. 53(1)(c) EU AI Act eine Zusammenfassung der für das Training genutzten Inhalte veröffentlichen.

Das Opt-out für Text- und Data-Mining ergibt sich aus §44b Abs. 3 UrhG in Verbindung mit Art. 4 Abs. 3 der Richtlinie (EU) 2019/790: Rechteinhaber können die maschinelle Verarbeitung ihrer Inhalte ausdrücklich vorbehalten. Dieser Vorbehalt muss maschinenlesbar sein — die robots.txt ist dafür eine anerkannte Methode.

Für Compliance-Teams bedeutet das: KI-Agenten, die automatisiert externe Quellen abrufen, müssen dokumentieren, welche Domains sie verarbeiten und ob dort TDM-Vorbehalte erklärt wurden. Das ist keine theoretische Anforderung — es ist eine Nachweis- und Dokumentationspflicht auf Seiten des GPAI-Anbieters, die bei Nutzung relevant werden kann.

5. Praktische Regel für den Betrieb

Eigene Inhalte: immer erlaubt. Eigene Website, eigene Dokumentation, eigene APIs — KI-Abruf ohne rechtliche Einschränkung. DSGVO gilt nur wenn Personendaten enthalten sind, dann AVV prüfen.

Öffentliche Drittseiten: robots.txt und ToS lesen. Vor jedem systematischen Abruf externer Seiten: robots.txt auf Disallow und TDM-Vorbehalt prüfen. Nutzungsbedingungen auf Scraping-Verbote scannen. Im Zweifel: nicht scrapen.

Personenbezogene Daten: AVV abschließen. Sobald der KI-Agent Daten verarbeitet, die Personen identifizieren können (auch indirekt), ist ein Auftragsverarbeitungsvertrag mit dem KI-Anbieter Pflicht.

Interne oder klassifizierte Daten: niemals an externe KI. Betriebs- oder Geschäftsgeheimnisse, M&A-Informationen, strategische Pläne: Diese Inhalte dürfen Cloud-KI-Systemen grundsätzlich nicht zugänglich gemacht werden.

6. Die AlpiType-Perspektive: On-Premise verändert alles

Die Diskussion über KI und Web-Fetching dreht sich meist um die falsche Frage. Die richtige Frage ist nicht „Darf die KI das lesen?" — sondern: „Wer kontrolliert, was die KI liest und wohin die Daten danach gehen?"

Wenn Claude Code auf Ihrer eigenen Infrastruktur läuft und Ihre eigene Website analysiert, verlässt kein einziges Byte Ihr Netzwerk. Der Fetch ist ein interner HTTP-Request — identisch mit dem, was Ihr Monitoring-Tool oder Ihr Crawler täglich macht. Das ist kein Datentransfer. Das ist ein Entwickler-Tool.

Wenn dasselbe Werkzeug als Cloud-Dienst läuft und Ihre Produktseite abruft, um Inhalte in einen externen Kontext zu laden, entsteht eine völlig andere rechtliche Situation: Auftragsverarbeitung, mögliche Drittstaaten-Übermittlung, Kontrollverlust über die Weiternutzung.

On-Premise KI ist kein Sicherheits-Buzzword. Es ist die technische Voraussetzung dafür, dass Fragen wie diese gar nicht entstehen. Wenn das Modell lokal läuft, entscheiden Sie — nicht der Anbieter —, welche URLs aufgerufen werden, welche Daten verarbeitet werden und was mit den Ergebnissen passiert. Die Compliance-Frage wird zur Engineering-Frage. Und Engineering-Fragen lassen sich lösen.

Kontrolle ist keine Einschränkung. Sie ist die Voraussetzung für Vertrauen.

Fazit

KI-Agenten, die Webinhalte abrufen, sind kein Randphänomen mehr. Sie sind Teil des normalen Entwicklungsalltags — und sie werden es noch stärker werden. Die Rechtslage in Deutschland ist klar strukturiert, wenn man sie kennt: Eigene Inhalte sind frei. Fremde Inhalte haben Grenzen. Personendaten erfordern Vertragsgrundlagen. Interne Daten gehören nicht in externe Systeme.

Die Unternehmen, die damit richtig umgehen, dokumentieren ihre KI-Zugriffe, prüfen robots.txt und ToS systematisch und setzen auf Infrastruktur, die ihnen die Kontrolle zurückgibt. Das ist kein Mehraufwand. Das ist sorgfältige Ingenieursarbeit.

Technisches Gespräch vereinbaren

Wir zeigen Ihnen, wie On-Premise KI in Ihrer Infrastruktur aussieht — und welche Compliance-Fragen sich damit von selbst erledigen.

Technisches Gespräch vereinbaren →

Ihr AlpiType Team München · alpitype.de