Viele Unternehmen möchten ihren Website-Support mit KI verbessern: Ein Chatbot beantwortet Fragen zu Leistungen, Öffnungszeiten, Preisen, Downloads oder internen Abläufen und entlastet das Team. Besonders spannend sind dabei RAG-Systeme. RAG steht für Retrieval Augmented Generation. Vereinfacht gesagt kombiniert ein Sprachmodell die Nutzereingabe mit ausgewählten Informationen aus einer eigenen Wissensbasis, etwa FAQ-Seiten, Produktdatenblättern, Vertragsvorlagen oder Support-Dokumenten.
Genau diese Stärke macht RAG-Chatbots aus Datenschutzsicht relevant. Wer eigene Dokumente, Kundendaten oder interne Inhalte in eine Vektordatenbank bringt, verarbeitet unter Umständen personenbezogene Daten. Dazu kommen Prompts, Chatverläufe, Logdaten, Zugriffskonzepte, Auftragsverarbeiter und mögliche KI-Fehler. Website-Betreiber sollten RAG deshalb nicht nur als Marketing- oder Support-Funktion planen, sondern als eigenen Datenverarbeitungsprozess mit klaren Verantwortlichkeiten.
Warum RAG für Website-Betreiber interessant ist
Ein klassischer KI-Chatbot antwortet oft aus dem allgemeinen Wissen des Modells. Das kann für einfache Formulierungen reichen, ist aber problematisch, wenn der Bot konkrete Aussagen über ein Unternehmen treffen soll. RAG ergänzt das Modell um eine kontrollierte Wissensbasis. Der Chatbot sucht passende Textabschnitte, fügt sie dem Prompt hinzu und formuliert daraus eine Antwort. Dadurch kann der Bot aktueller, nachvollziehbarer und näher an den eigenen Inhalten arbeiten.
Für KMU, Agenturen, Kanzleien, Händler oder Dienstleister kann das praktisch sein: Ein Website-Chatbot kann Besucher durch Services führen, häufige Fragen beantworten, Support-Tickets vorbereiten oder Wissen aus Handbüchern zugänglich machen. Ein konkretes Tool für KI-gestützte Website-Chats ist chatreact.ai. Auch WordPress-Seiten mit vielen Beiträgen, Downloads oder Leistungsseiten profitieren, wenn die Inhalte sauber strukturiert sind.
Die Datenschutzkonferenz (DSK) beschreibt in ihrer Orientierungshilfe zu RAG-Systemen, dass RAG positive Effekte auf Richtigkeit, Nachvollziehbarkeit und die Aktualisierbarkeit von Informationen haben kann. Gleichzeitig betont sie, dass die Bewertung immer vom konkreten Einsatz abhängt. Für Website-Betreiber heißt das: RAG kann ein datenschutzfreundlicher Baustein sein, ist aber kein Freifahrtschein.
Der wichtigste Unterschied: Wissen abrufen ist nicht automatisch Training
Viele Verantwortliche werfen KI-Training, Fine-Tuning und RAG in einen Topf. Das führt zu falschen Entscheidungen. Bei RAG werden Dokumente typischerweise aufbereitet, in Textabschnitte geteilt, in Vektoren umgewandelt und in einer Datenbank abgelegt. Bei einer Anfrage sucht das System semantisch passende Abschnitte und ergänzt damit die Eingabe an das Sprachmodell. Das Modell selbst muss dadurch nicht neu trainiert werden.
Dieser Unterschied ist wichtig, weil Informationen in einer RAG-Wissensbasis meist leichter aktualisiert, gelöscht oder beauskunftet werden können als Daten, die in Modellparametern gelandet sind. Wenn sich ein Produkttext ändert oder eine Person Löschung verlangt, lässt sich ein einzelnes Dokument oder ein Chunk grundsätzlich gezielter entfernen. Trotzdem bleibt zu prüfen, welches Sprachmodell, welches Embedding-Modell und welcher Hosting-Anbieter eingesetzt werden. Ein RAG-System kann weiterhin personenbezogene Daten verarbeiten, speichern oder an Dienstleister übertragen.
Welche Daten im Chatbot wirklich verarbeitet werden
Der erste Datenschutz-Check sollte nicht beim KI-Modell beginnen, sondern bei einer Datenlandkarte. Welche Informationen fließen in die Wissensbasis? Sind dort Namen, E-Mail-Adressen, Telefonnummern, Kundennummern, Vertragsdetails, Bewerbungsdaten, Gesundheitsdaten oder interne Notizen enthalten? Welche Daten geben Besucher im Chat ein? Werden Chatverläufe gespeichert? Gibt es Analyse- oder Qualitätslogs?
Für viele öffentliche Website-Chatbots ist eine einfache Regel sinnvoll: Die Wissensbasis sollte nur Inhalte enthalten, die auch tatsächlich für die Beantwortung öffentlicher Besucherfragen notwendig sind. Interne Tickets, CRM-Exporte, E-Mail-Postfächer oder unbereinigte Dokumentenablagen gehören nicht ungeprüft in einen RAG-Index. Je weniger personenbezogene Daten in der Wissensbasis landen, desto einfacher werden Rechtsgrundlage, Transparenz, Löschung und Zugriffsschutz.
Wenn personenbezogene Daten unvermeidbar sind, braucht es einen dokumentierten Zweck. Ein Chatbot zur Produktberatung ist anders zu bewerten als ein Kundenportal, das Bestellungen, Verträge oder Beschwerden einbindet. Auch die Rechtsgrundlage kann unterschiedlich ausfallen. Dieser Beitrag ersetzt keine individuelle Rechtsberatung, zeigt aber die typischen Prüfpunkte, die Website-Betreiber vor dem Start klären sollten.
Rechtsgrundlage, Zweckbindung und Datenminimierung klären
Die DSGVO verlangt für jede Verarbeitung personenbezogener Daten eine Rechtsgrundlage. Bei einem Website-Chatbot kommen je nach Ausgestaltung zum Beispiel Vertragserfüllung, vorvertragliche Kommunikation, berechtigte Interessen oder eine Einwilligung in Betracht. Entscheidend ist nicht das Etikett „KI“, sondern der konkrete Prozess: Welche Daten werden wofür verarbeitet, wie lange gespeichert und wer bekommt Zugriff?
Die Zweckbindung wird bei RAG besonders praktisch. Wenn Dokumente ursprünglich für Support, Vertrieb oder interne Schulung erstellt wurden, dürfen sie nicht automatisch für beliebige KI-Antworten genutzt werden. Betreiber sollten pro Datenquelle festhalten, für welchen Chatbot-Zweck sie genutzt wird. Eine öffentliche Website-Suche braucht andere Inhalte als ein interner Assistenzbot für Mitarbeitende.
Datenminimierung bedeutet außerdem: Nicht alles indexieren, was technisch möglich ist. Besser ist ein kuratierter Datenbestand mit freigegebenen Dokumenten, klaren Verantwortlichen, Versionierung und Löschregeln. Für WordPress-Seiten kann das heißen, nur veröffentlichte Seiten, ausgewählte Beiträge und aktuelle FAQ-Inhalte einzubeziehen, nicht aber private Beiträge, Entwürfe, Formulareinsendungen oder WooCommerce-Kundendaten.
Transparenz im Frontend und in der Datenschutzerklärung
Besucher sollten verstehen, dass sie mit einem KI-gestützten System interagieren, welche Daten verarbeitet werden und welche Grenzen der Chatbot hat. Das gehört direkt in die Nutzerführung und in die Datenschutzerklärung. Wichtig sind Angaben zu Anbieter, Hosting, Zweck, Datenkategorien, Speicherdauer, Rechtsgrundlage, Empfängern, Drittlandtransfer und Betroffenenrechten.
Wenn der Chatbot externe KI-Dienste nutzt, müssen Auftragsverarbeitung, Serverstandorte, Unterauftragsverarbeiter und Trainingsnutzung geprüft werden. Viele Unternehmen möchten vermeiden, dass Prompts oder Dokumente zur Verbesserung fremder Modelle genutzt werden. Diese Einstellung sollte vertraglich und technisch abgesichert sein, nicht nur in einer Marketingbeschreibung stehen.
Auch der Cookie- und Consent-Bereich kann betroffen sein, wenn der Chatbot Analyse-Cookies setzt, Tracking einbindet oder Drittinhalte lädt. Ein reiner Server-Chat ohne Tracking kann anders bewertet werden als ein Widget, das mehrere externe Skripte, Session-IDs und Marketing-Events auslöst.
Betroffenenrechte müssen praktisch funktionieren
Ein häufiger Schwachpunkt bei KI-Projekten ist die Frage: Was passiert, wenn eine Person Auskunft, Berichtigung oder Löschung verlangt? Bei RAG-Systemen kann die Antwort besser handhabbar sein als bei nachtrainierten Modellen, weil Dokumente und Chunks grundsätzlich auffindbar und austauschbar bleiben. Das funktioniert aber nur, wenn die Datenquellen dokumentiert sind und die Vektordatenbank nicht als Blackbox betrieben wird.
Website-Betreiber sollten daher vor dem Launch testen, wie einzelne Dokumente entfernt, neu indexiert oder aus dem Antwortkontext ausgeschlossen werden. Auch Chatprotokolle brauchen klare Fristen. Wenn Logs zur Qualitätskontrolle gespeichert werden, sollten sie möglichst pseudonymisiert, zugriffsbeschränkt und nach einem festen Zeitraum gelöscht werden.
Sicherheit: Prompt Injection und falsche Quellen mitdenken
RAG-Chatbots bringen neue Sicherheitsfragen mit sich. Eine manipulierte Webseite, ein fehlerhaftes PDF oder eine eingeschleuste Anweisung in einem Dokument kann versuchen, das Modell zu beeinflussen. Solche Prompt-Injection-Risiken sind besonders relevant, wenn der Bot nicht nur antwortet, sondern Aktionen auslösen soll, etwa E-Mails verschicken, Tickets ändern oder Kundendaten abrufen.
Für öffentliche Website-Chatbots ist ein enger Funktionsumfang sinnvoll. Der Bot sollte Quellen bevorzugen, Antworten begrenzen, sensible Daten nicht ausgeben und bei unsicheren Fragen an Menschen übergeben. Rollen- und Rechtemodelle gehören ebenfalls dazu: Nicht jeder Inhalt, den ein Administrator sehen darf, darf auch jedem Website-Besucher angezeigt werden.
Die DSK-Orientierungshilfe zu technischen und organisatorischen Maßnahmen bei KI-Systemen verweist unter anderem auf Zweckbindung, Intervenierbarkeit, Integrität und Vertraulichkeit. Praktisch bedeutet das: klare Tests, Freigabeprozesse, Monitoring, Schutz vor Manipulation und menschliche Kontrolle bei kritischen Antworten.
AI Act: KI-Kompetenz nicht vergessen
Neben der DSGVO spielt der EU AI Act eine Rolle. Für viele normale Website-Chatbots wird nicht automatisch ein Hochrisiko-System vorliegen. Trotzdem gilt die Pflicht zur KI-Kompetenz nach Artikel 4 bereits seit 2025 für Anbieter und Betreiber von KI-Systemen. Die EU-Kommission betont, dass Organisationen ein risikobasiertes Verständnis ihrer eingesetzten KI-Systeme, deren Chancen, Grenzen und Gefahren aufbauen sollten.
Für KMU muss daraus kein überdimensioniertes Compliance-Projekt werden. Sinnvoll sind kurze Rollenleitfäden: Wer pflegt die Wissensbasis? Wer prüft Antworten? Wer darf neue Datenquellen einbinden? Wer reagiert auf Datenschutzanfragen? Wer entscheidet, wann der Bot abgeschaltet oder angepasst wird? Eine einfache Schulung für Support, Marketing und Website-Administration kann mehr bewirken als ein langes Papier, das niemand nutzt.
Praktische Checkliste vor dem Launch
- Datenquellen erfassen: Nur freigegebene, aktuelle und notwendige Inhalte indexieren.
- Personenbezogene Daten reduzieren: Kundendaten, Bewerbungen, interne Notizen und Formulareinsendungen nicht ungeprüft einbinden.
- Anbieter prüfen: Auftragsverarbeitung, Hosting, Unterauftragnehmer, Trainingsnutzung und Drittlandtransfer klären.
- Transparenz schaffen: Datenschutzerklärung, Chat-Hinweis, Kontaktweg und Grenzen des Bots verständlich darstellen.
- Löschung testen: Dokumente, Chunks und Chatlogs gezielt entfernen und neu indexieren können.
- Sicherheit absichern: Zugriffsschutz, Prompt-Injection-Tests, Quellenbegrenzung und menschliche Übergabe einplanen.
- Qualität messen: Antworten regelmäßig gegen freigegebene Quellen prüfen und falsche Inhalte korrigieren.
- KI-Kompetenz dokumentieren: Zuständigkeiten, Schulungen und Freigabeprozesse für das Team festhalten.
Was in WordPress besonders wichtig ist
Bei WordPress-Projekten lohnt sich eine saubere Trennung zwischen öffentlichen Inhalten und internen Daten. Ein RAG-Index sollte nicht blind alle Tabellen, Medien, Kommentare, Formular-Plugins oder Shopdaten einlesen. Besser ist eine definierte Quelle, zum Beispiel veröffentlichte Seiten, ausgewählte FAQ-Beiträge und geprüfte PDF-Downloads. Rollen wie Administrator, Editor und Support sollten unterschiedliche Befugnisse haben.
Auch bei der technischen Einbindung sollte der Datenschutz nicht nachträglich kommen. Prüfen Sie, ob das Chat-Widget externe Skripte lädt, ob IP-Adressen an Dritte gehen und ob der Bot ohne unnötige Cookies funktioniert. Wer parallel seinen DSGVO-Auftritt überprüfen möchte, kann mit einem DSGVO-Website-Check beginnen und anschließend den KI-Chatbot als eigenen Verarbeitungsvorgang ergänzen.
Fazit: RAG ist hilfreich, wenn die Wissensbasis sauber bleibt
RAG-Chatbots können Website-Support, interne Abläufe und digitale Beratung deutlich verbessern. Aus Datenschutzsicht ist der Ansatz oft besser steuerbar als ein unkontrolliertes KI-System, weil Wissen aus einer eigenen Datenbasis kommt und grundsätzlich aktualisiert oder gelöscht werden kann. Genau deshalb hängt die Qualität aber an der Vorbereitung: Datenquellen, Rollen, Transparenz, Sicherheit und Löschprozesse müssen stimmen.
Für Website-Betreiber in Deutschland ist der beste Start kein großes KI-Versprechen, sondern ein kleiner, gut abgegrenzter Anwendungsfall. Beginnen Sie mit öffentlichen, geprüften Inhalten, testen Sie Antworten, dokumentieren Sie die Verarbeitung und erweitern Sie den Bot erst, wenn Datenschutz, Technik und Teamprozesse zuverlässig funktionieren. Wenn Sie zusätzlich Rechtstexte, Consent-Einstellungen oder KI-Transparenz prüfen möchten, helfen strukturierte Generatoren und eine klare Verantwortlichkeit im Unternehmen.
Quellen und weiterführende Informationen
- DSK: Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systeme mit RAG-Methode
- DSK: Orientierungshilfe zu technischen und organisatorischen Maßnahmen bei Entwicklung und Betrieb von KI-Systemen
- EU-Kommission: AI Literacy Questions & Answers zu Artikel 4 des AI Act
- EDPB: Opinion 28/2024 zu Datenschutzaspekten von KI-Modellen
- BfDI: Die KI-Verordnung der EU aus Datenschutzsicht