Neu robots.txt: Kann/sollte man Seiten mit anhängendem Parameter ausschließen

ongnamo

Sehr aktives Mitglied
31. März 2013
1.147
106
Hallo,

wenn ich meine Webseite über Seobility crawlen lasse, werden auch Seiten mit anhängenden Parametern wie ?Sortierung=3 oder ?af=50 analysiert. Daher nehme ich an, dass auch Google und andere Bots das tun. Aus meiner Sicht wäre das nicht erforderlich und würde Crawling-Budget sparen.

Ist es empfehlenswert, solche Seiten, die in der URL einen Parameter haben, in der robots.txt auszuschließen?
 

Morimus

Sehr aktives Mitglied
16. Mai 2019
405
100
Crawling-Budget? Von Google?
Ich glaube, da musst du dir keine Sorgen drum machen.

Schau dir doch an, was in der search console alles gesammelt wird.
Bei uns werden diese Seiten gecrawlt, sind aber nicht indexiert.
Derzeit 5435 Seiten.
 

Morimus

Sehr aktives Mitglied
16. Mai 2019
405
100
Welche Sorge hast du genau? Das deine Seiten nicht indexiert sind?
Schau in die Search Console. Wenn dein Shop nicht erst letzte Woche erstellt wurde, wurden vermutlich alle deine Seiten bereits gecrawlt.
Stell Google eine Sitemap zur Verfügung. Die wird mit berücksichtigt bei erneuten crawlen.

Bei uns kommen im Monat ca. 100 Seiten hinzu. In der Regel dauert es 2-3 Wochen, bis diese Seiten im Index sind.
 

ongnamo

Sehr aktives Mitglied
31. März 2013
1.147
106
Nun, die Sorge stammt daher, dass ich verschiedentlich so etwas gelesen habe:

Die robots.txt hilft dabei, das vorhandene Crawl-Budget der Webseite besser zu nutzen und auf die Bereiche der Webseite zu verteilen. Natürlich findet der Robot relevante Inhalte auch über interne und externe Verlinkungen, jedoch ist es gewinnbringender den Suchmaschinen-Robot direkt auf die relevanten Inhalte hinzuweisen und die irrelevanten Inhalte mit dem DISALLOW Befehl auszuschließen. Mit dem Vorgehen optimiert man das vorhandene Crawl-Budget, dass der Webseite seitens der Suchmaschine gestellt wird auf relevante Inhalte und steigert somit die Effizienz in der Nutzung des Crawl-Budgets.

Ich bin auf das Thema gestoßen, nachdem wir letztes WE unseren Shop auf Version 5 gehoben haben und ich mir nach langer Zeit die robots.txt angesehen habe. Unsere Seite ist alt genug, dass alle Seiten indiziert sind. Seit Ende April werden nur noch ca. 3000 Seiten/Tag indiziert, vorher waren es über 5000 Seiten/Tag. Das ist hier aber nicht der Punkt. Es ist eher dein letzter Satz: Neue Produkte oder Veränderung werden tendenziell verzögert indiziert, weil Google irrelevante Seiten crawlt. Warum also 2 - 3 Wochen, wenn es doch auch in 1 Woche ging, wenn man Google sagt, welche Bereiche nicht zu crawlen sind?

Vielleicht liegt ich ja auch falsch.
 

Morimus

Sehr aktives Mitglied
16. Mai 2019
405
100
Seit Ende April werden nur noch ca. 3000 Seiten/Tag indiziert, vorher waren es über 5000 Seiten/Tag.
Das konnte ich so ebenfalls nach dem Umzug auf Shop 5 beobachten.

Beruhigt hat mich folgender Blogpost von Google selbst:
Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.
Quelle: https://developers.google.com/search/blog/2017/01/what-crawl-budget-means-for-googlebot?hl=de

Es ist eher dein letzter Satz: Neue Produkte oder Veränderung werden tendenziell verzögert indiziert, weil Google irrelevante Seiten crawlt.
Wenn du mit irrelevanten Seiten die Seiten meinst, die zwar noch nicht gecrawlt wurden, du dies aber gerne hättest, magst du recht haben.
Wenn du die Seiten meinst, mit anhängenden Parametern dann kann ich sagen das dies nicht der Fall ist.
Wenn ich über Matomo die letzten 6 Monate filtere, mir die Seiten anschaue, die ausgeschlossen, gecrawlt, aber zurzeit nicht indexiert sind, komme ich auf insgesamt 65 besuche des google robots auf alle knapp 5.5k Seiten.