Robots Exclusion Standard
Da Robots-Exclusion-Standard is a Netzweakprotokoll zum Ausspean bzw. kanalisian vo Suachbots. Dea Quasi-Standard soi dafia soang, dass a Webcrawler (Robota) beim Duachsuachn vo oana Netzseitn zeascht de Datei robots.txt im Wuazlvazeichnis (Root) vo oana Domäne lesn duat. In dera Datei ko festgelgt wean, ob und wia a Webcrawler a Netzseitn duachsuacht wean deaf. Auf de Weis hod ma de Meglichkeit ausgsuachte Bereiche vo oana Netzpresenz fia bestimmte Suachmaschina spean z lossn. Des Protokoll is owa nua a Hiweis und setzt voaraus, dass da Webcrawler si dro hoit.
Da Robots-Exclusion-Standard garantiat ned de geringste Geheimhoitung. Unfreindliche Webcrawler (z. B. vo Hackern) interessiat si grod fia soichane Seitn.
Syntax
WerkelnOweisung | Bschreiwung | Beispui | Funktion |
---|---|---|---|
User-agent:
|
Spezifiziarung vom Webcrawler | User-agent: Lausbua
|
Guit nua fian Webcrawler, dea wo „Sidewinder“ hoasst. |
User-agent: *
|
Wildcard fian User-agent; guit fia olle Webcrawler | ||
Disallow:
|
Auslesn ned ealaubt | Disallow:
|
Koa Ausschluss; de komplette Netzpresenz deaf duachsuacht wean. |
Disallow: /
|
De komplette Netzpresenz deaf ned duachsuacht wean. | ||
Disallow: /Temp/ Disallow: /default.html
|
S Vazeichnis „Temp“ und de Datei „default.html“ deafn ned duachsuacht wean. | ||
Disallow: /default
|
Olle Datein und Vazeichnis, de wo mit „default“ ofonga, wean ned duachsuacht, z. B. „default.html“, „default.php“, „default-page.html“, „defaultfolder/“, usw. | ||
$
|
Zeinend-Anka (nua Googlebot, Yahoo! Slurp, msnbot) | Disallow: /*.pdf$
|
Olle PDF-Dateien wean ignoriat |
?
|
URLs mit '?' behondeln (nua Googlebot) | Disallow: /*?
|
Olle URLs de wo a '?' enthoidn wean ignoriat. |
Allow: /*?$
|
Olle URLs de wo a '?' enthoidn san ealaubt. | ||
Allow:
|
Auslesn ealaum (nua Ask.com, Googlebot, Yahoo! Slurp, msnbot) | Disallow: / Allow: /public/
|
Nua s Vazeichnis „public“ deaf duachsuacht wean, da Rest ned |
Crawl-delay:
|
Auslesegschwindigkeit (nua Yahoo! Slurp, msnbot) | Crawl-delay: 120
|
Nua olle 120 Sekundn deaf a neie Seite zum Auslesn aufgruafa wean |
Sitemap:
|
URL vo da Sitemap (nua Googlebot, Yahoo! Slurp, msnbot, Ask.com) | Sitemap: http://example.com/sitemap.xml
|
De Sitemap nochn Sitemap-Protokoll liegt unta da ogewanan Adress. |
Beispui
WerkelnIn dem Beispui wead oin Suachbots ealaubt olle Datein z besuacha. De Wildcard (Joker) *
moant olle Suachbots und es is nix vabotn:
User-agent: *
Disallow:
Oin Suachbots is ois vabotn:
User-agent: *
Disallow: /
Olle Suachbots soin 4 Vazeichnis (Directories) ned bsuacha:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
A bestimmta Suachbot deaf a bestimmts Vazeichnis (Directory) ned bsuacha:
User-agent: LausaBot # fiktiva Suachbot 'LausaBot'
Disallow: /private/
Olle Suachbots deafa a bstimmte Datei ned duachsuacha:
User-agent: *
Disallow: /directory/file.html
Schau aa
WerkelnLiteratua
Werkeln- Ian Peacock: Showing Robots the Door, What is Robots Exclusion Protocol? In: Ariadne, May 1998, Issue 15, Webversion.
Im Netz
Werkeln- The Web Robots Pages
- robots.txt – Robots kontrollieren Erläuterungen zur Datei robots.txt bei SELFHTML
- Google.de: Googlebot: Der Web-Crawler von Google, Wollen Sie etwas aus Googles Index entfernen?
- Google.com: Googlebot Syntax-Eaweidarungen
- ACAP − Automated Content Access Protocol
Exklusionsstandards: | Robots Exclusion Standard · Metatags · nofollow |
Marketing-Umfäid: | Internet Marketing · Content Marketing · E-Mail Marketing · Display Advertising · Web Analytics |
Suachmaschin-Marketing: | Suachmaschin-Marketing · Social Media Optimization · Online Identity Management · Paid Inclusion · Pay per Click (PPC) · Google Bombe · TrustRank |
Suachmaschinspam: | Spamdexing · Web Scraping · Scraper Site · Linkfarm · Free for all linking |
Valinkung: | Valinkungsmethoden · Linktausch · Backlink · Diafnvalinkung |
Sunstigs: | Geotargeting · Human Search Engine · Stoppweata · Giftweata · Content Farm |