Wie Medien-Webseiten KI-Crawler steuern

Die RTR-Servicestelle für Künstliche Intelligenz hat Webseiten österreichischer Medien untersucht.

06.02.2026 10:12

Redaktion

Mit der zunehmenden Nutzung generativer KI rückt die Frage in den Fokus, wie Webseiten automatisierten Zugriff auf ihre Inhalte technisch steuern. Die RTR-Servicestelle für Künstliche Intelligenz hat dazu eine empirische Analyse veröffentlicht, die untersucht, welche Signale österreichische Webseiten in ihren robots.txt-Dateien in Bezug auf Text- und Data-Mining (TDM) aussenden. Grundlage bilden die Common-Crawl-Daten von mehr als 2,6 Millionen Webseiten im Zeitraum 2018–2025. Dieser Datensatz ermöglicht eine historische Auswertung öffentlich zugänglicher robots.txt-Dateien und die Analyse von Trends bei der Nennung verschiedener Crawler.

Ergebnisse der empirischen Analyse

Die Untersuchung zeigt, dass die Mehrheit österreichischer Medien-Webseiten weiterhin eine sehr schlanke robots.txt verwendet. Zwischen 75 % und 85 % der Medien-Webseiten nennen nur einen einzigen Crawler, der nahezu immer als Wildcard („User-agent: *“) eingetragen ist. Seit 2023 ist jedoch ein moderater Anstieg differenzierter Einträge erkennbar: Rund ein Viertel der Medien-Webseiten nennen (signalisieren) inzwischen mehrere Crawler.

Die Analyse dokumentiert zudem, dass KI-bezogene Crawler zunehmend adressiert werden. Insgesamt entfallen rund 7 % aller formalen Zugriffsbeschränkungen auf KI-Bots, im Medienbereich sogar 34 %.

Die Studie interpretiert eine Differenzierung nach Zweck der Datenerhebung auf Basis der in der robots.txt genannten Bot-Namen: So werden Bots, die typischerweise für KI-Training eingesetzt werden (z. B. GPTBot), getrennt von klassischen Suchmaschinen-Crawlern geführt.

Die tatsächliche Steuerung erfolgt technisch und organisatorisch jedoch außerhalb dieses Protokolls.

Moderne Medieninfrastrukturen

Moderne Medien-Webseiten steuern den Zugriff durch Bots längst nicht primär über die robots.txt-Datei. Vielmehr erfolgt die Differenzierung über Cloudservices, Content Delivery Networks, API-Zugänge, Edge-Filter oder Paywalls. Die robots.txt dient in diesem Kontext vor allem als standardisiertes technisches Kommunikationsmittel, während die operative Kontrolle und Priorisierung technisch an anderen Schnittstellen umgesetzt werden.

Mehr Crawler-Namen in einer robots.txt bedeuten daher nicht zwingend eine stärkere Restriktion, sondern dokumentieren lediglich eine formale Auseinandersetzung mit unterschiedlichen Bot-Typen.

RTR betont, dass die Mehrheit der Webseiten grundsätzlich Signale über robots.txt sendet und dass Medienseiten zunehmend KI-Crawler differenzieren. Sie verweist auf Trends, nach denen Webseiten seit 2025 KI-Crawler teilweise explizit zulassen, um Sichtbarkeit zu erhöhen oder individuelle Vereinbarungen zu berücksichtigen. Doch gerade bei Medienseiten erfolgt die Steuerung von Zugriffen überwiegend über die erwähnten Cloud- und Infrastrukturmechanismen, die in der Analyse nicht erfasst werden.

Fazit zum Medien-Seiten-Aspekt

Die RTR-Studie liefert wertvolle Einblicke in die Entwicklung der formalen Signalisierung von KI-Bots im österreichischen Web. Für Medien-Webseiten sind diese Signale jedoch nur ein Teilaspekt: Sie zeigen, dass die Auseinandersetzung mit KI-Crawlern zunimmt, erlauben jedoch keine belastbare Aussage über tatsächliche Restriktionen oder Zulassungen.

Service: Link zur gesamten Studie

(PA/red)