Neu robots.txt: Kann/sollte man Seiten mit anhängendem Parameter ausschließen

ongnamo · 11. Mai 2022

Hallo,

wenn ich meine Webseite über Seobility crawlen lasse, werden auch Seiten mit anhängenden Parametern wie ?Sortierung=3 oder ?af=50 analysiert. Daher nehme ich an, dass auch Google und andere Bots das tun. Aus meiner Sicht wäre das nicht erforderlich und würde Crawling-Budget sparen.

Ist es empfehlenswert, solche Seiten, die in der URL einen Parameter haben, in der robots.txt auszuschließen?

Morimus · 11. Mai 2022

Crawling-Budget? Von Google?
Ich glaube, da musst du dir keine Sorgen drum machen.

Schau dir doch an, was in der search console alles gesammelt wird.
Bei uns werden diese Seiten gecrawlt, sind aber nicht indexiert.
Derzeit 5435 Seiten.

ongnamo · 11. Mai 2022

Zitat von Morimus:
Bei uns werden diese Seiten gecrawlt, sind aber nicht indexiert.

das ist doch genau der Punkt: Warum sollte man das limitierte crawling budget für Seiten verbrauchen, die nicht zu indizieren sind?

Morimus · 11. Mai 2022

Welche Sorge hast du genau? Das deine Seiten nicht indexiert sind?
Schau in die Search Console. Wenn dein Shop nicht erst letzte Woche erstellt wurde, wurden vermutlich alle deine Seiten bereits gecrawlt.
Stell Google eine Sitemap zur Verfügung. Die wird mit berücksichtigt bei erneuten crawlen.

Bei uns kommen im Monat ca. 100 Seiten hinzu. In der Regel dauert es 2-3 Wochen, bis diese Seiten im Index sind.

ongnamo · 11. Mai 2022

Nun, die Sorge stammt daher, dass ich verschiedentlich so etwas gelesen habe:

Die robots.txt hilft dabei, das vorhandene Crawl-Budget der Webseite besser zu nutzen und auf die Bereiche der Webseite zu verteilen. Natürlich findet der Robot relevante Inhalte auch über interne und externe Verlinkungen, jedoch ist es gewinnbringender den Suchmaschinen-Robot direkt auf die relevanten Inhalte hinzuweisen und die irrelevanten Inhalte mit dem DISALLOW Befehl auszuschließen. Mit dem Vorgehen optimiert man das vorhandene Crawl-Budget, dass der Webseite seitens der Suchmaschine gestellt wird auf relevante Inhalte und steigert somit die Effizienz in der Nutzung des Crawl-Budgets.

Ich bin auf das Thema gestoßen, nachdem wir letztes WE unseren Shop auf Version 5 gehoben haben und ich mir nach langer Zeit die robots.txt angesehen habe. Unsere Seite ist alt genug, dass alle Seiten indiziert sind. Seit Ende April werden nur noch ca. 3000 Seiten/Tag indiziert, vorher waren es über 5000 Seiten/Tag. Das ist hier aber nicht der Punkt. Es ist eher dein letzter Satz: Neue Produkte oder Veränderung werden tendenziell verzögert indiziert, weil Google irrelevante Seiten crawlt. Warum also 2 - 3 Wochen, wenn es doch auch in 1 Woche ging, wenn man Google sagt, welche Bereiche nicht zu crawlen sind?

Vielleicht liegt ich ja auch falsch.

Morimus · 11. Mai 2022

Seit Ende April werden nur noch ca. 3000 Seiten/Tag indiziert, vorher waren es über 5000 Seiten/Tag.

Das konnte ich so ebenfalls nach dem Umzug auf Shop 5 beobachten.

Beruhigt hat mich folgender Blogpost von Google selbst:

Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.

Quelle: https://developers.google.com/search/blog/2017/01/what-crawl-budget-means-for-googlebot?hl=de

Es ist eher dein letzter Satz: Neue Produkte oder Veränderung werden tendenziell verzögert indiziert, weil Google irrelevante Seiten crawlt.

Wenn du mit irrelevanten Seiten die Seiten meinst, die zwar noch nicht gecrawlt wurden, du dies aber gerne hättest, magst du recht haben.
Wenn du die Seiten meinst, mit anhängenden Parametern dann kann ich sagen das dies nicht der Fall ist.
Wenn ich über Matomo die letzten 6 Monate filtere, mir die Seiten anschaue, die ausgeschlossen, gecrawlt, aber zurzeit nicht indexiert sind, komme ich auf insgesamt 65 besuche des google robots auf alle knapp 5.5k Seiten.

en001 · 13. Mai 2022

Daten die Google betreffen sieht man in der Searchconsole bei Abdeckung > Gecrawlt – zurzeit nicht indexiert
https://search.google.com/search-console/index?resource_id=

Man hat ja zu viele Seiten meistens durch Sorierungen von Seiten oder Kategorielistings in Shops.
Also hat man seine Standard-Sortierung dort und setzt alles andere was nutzbar ist auf noindex

Forum	Antworten	Datum
Neu hood.de - Wie kann ich Dateien (z.B. Sicherheitsdatenblatt) automatisch einbinden?	Einrichtung und Installation von JTL-eazyAuction	0	heute um 20:45 Uhr
Neu JERA kann keine Conrad-Erlöse aus JTL importieren, JTL-SCX importiert keine Conrad-Rechnungen	JTL-ShippingLabels - Fehler und Bugs	3	10. Dezember 2025
Neu Wo kann ich mich über JTL Kundencenter beschweren? 20 Minuten Lang einen Bug im Ticket dokumentiert, und am Ende "ein Fehler ist aufgetreten"	Smalltalk	3	8. Dezember 2025
Neu DPD: YourInternalID 28: (1) Strasse - Postleitzahl - Ort kann nicht zugeordnet werden. Evtl. liegt ein Schreibfehler in der Adresse vor.	JTL-ShippingLabels - Fehler und Bugs	0	8. Dezember 2025
Bestand anderer Kinderartikel wird in Artikelstammdaten mit angezeigt – wie kann man das deaktivieren?	JTL-Wawi 1.11	2	5. Dezember 2025
Neu 1.11.4 Programmstart bricht ab, Fehlerprotokoll kann nicht geschrieben werden	User helfen Usern - Fragen zu JTL-Wawi	0	4. Dezember 2025
Extension Store: Kann Kompatibiltität zu Wawi 1.11 nicht einstellen	JTL-Wawi 1.11	6	26. November 2025
Beantwortet SalesOrderPosition.AmazonCustomJSON kann nicht interpretiert werden	User helfen Usern - Fragen zu JTL-Wawi	1	20. November 2025
Neu Kann man keine Testlizenzen mehr archivieren?	Allgemeine Fragen zu JTL-Shop	0	17. November 2025
DHL 4.0 Absenderreferenz kann nicht gespeichert werden	JTL-Wawi 1.11	1	31. Oktober 2025
Kann ich mit dieser SQL Version die neue WaWi 1.11.1 installieren?	JTL-Wawi 1.11	2	31. Oktober 2025
Neu Wawi 1.10 weigert sich zu starten und 1.11 kann man nicht downloaden	JTL-Wawi - Fehler und Bugs	4	18. Oktober 2025
Neu JTL Wawi 1.10.14.3 / Unbehandelte Ausnahme im WaWi-Error-Log / Die Sammlung wurde geändert. Der Enumerationsvorgang kann möglicherweise ....	JTL-Wawi - Fehler und Bugs	1	14. Oktober 2025
Neu Kann man das Shop-Guthaben von Kunden per Workflow beeinflussen?	User helfen Usern - Fragen zu JTL-Wawi	0	11. Oktober 2025
Neu Kunde kann sich im Checkout-Prozess nicht anmelden bzw. bleibt nicht angemeldet.	Installation / Updates von JTL-Shop	11	10. Oktober 2025
Artikel kann trotz Lagerbestand nicht reserviert werden	Arbeitsabläufe in JTL-WMS / JTL-Packtisch+	0	7. Oktober 2025

Suche

Suche

Neu robots.txt: Kann/sollte man Seiten mit anhängendem Parameter ausschließen

ongnamo

Sehr aktives Mitglied

Morimus

Sehr aktives Mitglied

ongnamo

Sehr aktives Mitglied

Morimus

Sehr aktives Mitglied

ongnamo

Sehr aktives Mitglied

Morimus

Sehr aktives Mitglied

en001

Sehr aktives Mitglied

Ähnliche Themen