Wie Medien-Webseiten KI-Crawler steuern
Die RTR-Servicestelle für Künstliche Intelligenz hat Webseiten österreichischer Medien untersucht.
Mit der zunehmenden Nutzung generativer KI rückt die Frage in den Fokus, wie Webseiten automatisierten Zugriff auf ihre Inhalte technisch steuern. Die RTR-Servicestelle für Künstliche Intelligenz hat dazu eine empirische Analyse veröffentlicht, die untersucht, welche Signale österreichische Webseiten in ihren robots.txt-Dateien in Bezug auf Text- und Data-Mining (TDM) aussenden. Grundlage bilden die Common-Crawl-Daten von mehr als 2,6 Millionen Webseiten im Zeitraum 2018–2025. Dieser Datensatz ermöglicht eine historische Auswertung öffentlich zugänglicher robots.txt-Dateien und die Analyse von Trends bei der Nennung verschiedener Crawler.
Ergebnisse der empirischen Analyse
Die Untersuchung zeigt, dass die Mehrheit österreichischer Medien-Webseiten weiterhin eine sehr schlanke robots.txt verwendet. Zwischen 75 % und 85 % der Medien-Webseiten nennen nur einen einzigen Crawler, der nahezu immer als Wildcard („User-agent: *“) eingetragen ist. Seit 2023 ist jedoch ein moderater Anstieg differenzierter Einträge erkennbar: Rund ein Viertel der Medien-Webseiten nennen (signalisieren) inzwischen mehrere Crawler.
Die Analyse dokumentiert zudem, dass KI-bezogene Crawler zunehmend adressiert werden. Insgesamt entfallen rund 7 % aller formalen Zugriffsbeschränkungen auf KI-Bots, im Medienbereich sogar 34 %.
Die Studie interpretiert eine Differenzierung nach Zweck der Datenerhebung auf Basis der in der robots.txt genannten Bot-Namen: So werden Bots, die typischerweise für KI-Training eingesetzt werden (z. B. GPTBot), getrennt von klassischen Suchmaschinen-Crawlern geführt.
Die tatsächliche Steuerung erfolgt technisch und organisatorisch jedoch außerhalb dieses Protokolls.
Moderne Medieninfrastrukturen
Moderne Medien-Webseiten steuern den Zugriff durch Bots längst nicht primär über die robots.txt-Datei. Vielmehr erfolgt die Differenzierung über Cloudservices, Content Delivery Networks, API-Zugänge, Edge-Filter oder Paywalls. Die robots.txt dient in diesem Kontext vor allem als standardisiertes technisches Kommunikationsmittel, während die operative Kontrolle und Priorisierung technisch an anderen Schnittstellen umgesetzt werden.
Mehr Crawler-Namen in einer robots.txt bedeuten daher nicht zwingend eine stärkere Restriktion, sondern dokumentieren lediglich eine formale Auseinandersetzung mit unterschiedlichen Bot-Typen.
RTR betont, dass die Mehrheit der Webseiten grundsätzlich Signale über robots.txt sendet und dass Medienseiten zunehmend KI-Crawler differenzieren. Sie verweist auf Trends, nach denen Webseiten seit 2025 KI-Crawler teilweise explizit zulassen, um Sichtbarkeit zu erhöhen oder individuelle Vereinbarungen zu berücksichtigen. Doch gerade bei Medienseiten erfolgt die Steuerung von Zugriffen überwiegend über die erwähnten Cloud- und Infrastrukturmechanismen, die in der Analyse nicht erfasst werden.
Fazit zum Medien-Seiten-Aspekt
Die RTR-Studie liefert wertvolle Einblicke in die Entwicklung der formalen Signalisierung von KI-Bots im österreichischen Web. Für Medien-Webseiten sind diese Signale jedoch nur ein Teilaspekt: Sie zeigen, dass die Auseinandersetzung mit KI-Crawlern zunimmt, erlauben jedoch keine belastbare Aussage über tatsächliche Restriktionen oder Zulassungen.
Service: Link zur gesamten Studie
(PA/red)