Neu Nova: 1,8 Mio Shop5 Seiten bei Google nicht indexiert ??!!!! :O

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
Hallo,

dass Merkmalfilter-Seiten eigene URLs haben ist nicht optimal, das Thema geht auch in diese Richtung: https://forum.jtl-software.de/threads/sitemap-wird-bei-bing-wird-wegen-fehler-abgelehnt.209842/
Ich hatte im anderen Thread schon etwas zu unseren Plänen bzgl. der Merkmal-Filterung geschrieben.
Grob: Wir wollen das Thema angehen, es ist aber sehr zeitaufwändig, daher können wir dafür aktuell noch keinen Zeitrahmen nennen.

Viele Grüße
Michael
ich hab den Shop nun von 5.2 auf 5.3.3 upgedatet und das rel=nofollow in den "dropdownitem" der Merkmal-Filter (siehe oben), ist immer noch nicht im Template. Bei andern Merkmal-Filtern ist es drin.
Wäre cool, wenn das ins Template kommen könnte. Ist ein Template-Bug....

Wollte eben wieder mal eine meiner Seiten mit dem Screaming Frog crawlen und hab dann bei 600.000 zu crawlende URLs abgebrochen, weil die dropdown-filter ein follow (bzw. fehlendes nofollow) haben. Das belastet den Server sinnlos, wenn ein Crawler Millionen Filterkombinationen folgt und URLS baut (die zwar alle wohl auf noindex stehen, aber doch nutzlos abgespidert werden und Resourcen kosten)...

Ist ein bisschen nervig, das rel=nofollow als Fix bei jedem Update ins Nova-Template einzufügen.... :-/
 

NoOne

Aktives Mitglied
16. März 2024
172
76
ich hab den Shop nun von 5.2 auf 5.3.3 upgedatet und das rel=nofollow in den "dropdownitem" der Merkmal-Filter (siehe oben), ist immer noch nicht im Template. Bei andern Merkmal-Filtern ist es drin.
Wäre cool, wenn das ins Template kommen könnte. Ist ein Template-Bug....

Wollte eben wieder mal eine meiner Seiten mit dem Screaming Frog crawlen und hab dann bei 600.000 zu crawlende URLs abgebrochen, weil die dropdown-filter ein follow (bzw. fehlendes nofollow) haben. Das belastet den Server sinnlos, wenn ein Crawler Millionen Filterkombinationen folgt und URLS baut (die zwar alle wohl auf noindex stehen, aber doch nutzlos abgespidert werden und Resourcen kosten)...

Ist ein bisschen nervig, das rel=nofollow als Fix bei jedem Update ins Nova-Template einzufügen.... :-/
a) Warum machst du das im NOVA und nicht in einem Child? Child-Templates werden beim Update nicht überschrieben.
b) disallow in der robots.txt auf URLs die __ beinhalten dürfte da effektiver sein.
 

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
a) Warum machst du das im NOVA und nicht in einem Child? Child-Templates werden beim Update nicht überschrieben.
b) disallow in der robots.txt auf URLs die __ beinhalten dürfte da effektiver sein.
Das Child Template muss ich irgendwann auch überprüfen - kann ja nicht wissen ob sich in der Datei technisch was geändert hat. Oder sehe ich das falsch. Die Ausnahme in der Robots.txt durchzuschleppen ist wohl möglich. Aber das löst das eigentliche Problem nicht.

Ich bin kein Programmierer, sondern Suchmaschinen-Optimierer und würde mir wünschen, dass mir hier irgendwer bestätigt, dass das fehlende rel=nofollow in Zeile 28 der characteristic.tpl ein Templatefehler ist.

{dropdownitem
class="{if $attributeValue->isActive()}active{/if} filter-item"
href="{if !empty($attributeValue->getURL())}{$attributeValue->getURL()}{else}#{/if}"
title="{if $Merkmal->getData('cTyp') === 'BILD'}{$attributeValue->getValue()|escape:'html'}{/if}"
rel="nofollow"
}

Es ist im Grunde in 2 Minuten behoben. Und vielleicht kann sich, wenn es als Fehler bestätigt ist, einfach mal jemand die 2 Minuten Zeit nehmen den Wert in den Code einzufügen und es nicht auf Issue-Nr. 10532xx setzen. Wenn sich jemand die Zeit nimmt, den Fehler zu bestätigen, kann er ihn in 2 Minuten auch gleich beheben.

Ich habe den Fehler auf meiner Update-Checkliste. Es kostet mich aber im Allgemeinen mehr Zeit als 2 Minuten, weil ich jedes Mal suchen muss, ob der Fehler noch da ist oder ob sich was anderes geändert hat....

Für die meisten hat der Fehler wenig spürbare Auswirkungen, da vermutlich wenige Shops viele Dropdown-Filter mit vielen Elementen verwenden... bei mir explodiert das aber.

Das hier ist das Crawl-Bild einer der Websites ohne den Fehler....
in der Mitte ist ein Ball, der etwas außerhalb der normalen Kräfte liegt. Wenn man das Crawlbild zu Seite dreht, erkennt man diese Ball-Struktur. Es sind Ersatzteile für Kettensägen, von hunderten Sägeketten-Modellen. Dieser Cluster explodiert mir wie eine Bombe dann zu 1,6 Millionen gecrawlten URL
https://www.fischer-lahr.de/images/zeugs-und-gruuscht/Kraeftebasiertes-3D-CrawlDiagramm.html

Die Merkmalseiten sind für mich lebenswichtig und ich kotze schon ein bisschen, dass die Merkmalseiten (vor allem die globalen Merkmale) seit Shop5 überhaupt nicht mehr in der Sitemap auftauchen und ich verlinke sie fleißig manuell, damit sie nicht in die allerletzte Hierarchie rutschen...... Aber das millionenfache Crawlen von Filterwerten brauch ich echt nicht..... :rolleyes:
 

forumjtlolshopag

Sehr aktives Mitglied
6. Juni 2018
682
185
Das hier ist das Crawl-Bild einer der Websites ohne den Fehler....
in der Mitte ist ein Ball, der etwas außerhalb der normalen Kräfte liegt. Wenn man das Crawlbild zu Seite dreht, erkennt man diese Ball-Struktur. Es sind Ersatzteile für Kettensägen, von hunderten Sägeketten-Modellen. Dieser Cluster explodiert mir wie eine Bombe dann zu 1,6 Millionen gecrawlten URL
https://www.fischer-lahr.de/images/zeugs-und-gruuscht/Kraeftebasiertes-3D-CrawlDiagramm.html
Explodiert wirklich wie eine Bombe, sieht auch aus wie eine Sternenkarte. Wir haben hier statt "nofollow" alles auf "Javascript" Links (data-href) angepasst, weil das indexieren auch Serverlast verursacht, je nachdem wie komplex die Attribute bei den Artikeln sind.
 
  • Gefällt mir
Reaktionen: der_Martin

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
Explodiert wirklich wie eine Bombe, sieht auch aus wie eine Sternenkarte. Wir haben hier statt "nofollow" alles auf "Javascript" Links (data-href) angepasst, weil das indexieren auch Serverlast verursacht, je nachdem wie komplex die Attribute bei den Artikeln sind.
das ist der Normalzustand der Seite mit 11600 Knoten. Bei 1,8 Millionen Knoten kannst die nicht mehr crawlen....o_O
 

P0ttwal

Sehr aktives Mitglied
13. Juli 2021
110
30
Ich setze generell alle Seiten die ein _S2 und so weiter enthalten auf noindex und nofollow im Child Theme Template Head. Hilft, aber es gibt immer wieder andere Bots die sich komplett in der URL Struktur verlaufen und hohe Serverlast verursachen. Ansonsten geht es eigentlich.

Wollte PRG Patterns noch ausprobieren, gibt ja mittlerweile ein Plugin dafür.

https://www.jtl-software.de/extensi...gin-fuer-jtl-shop-5-by-netzdingede-jtl-shop-5
 
  • Gefällt mir
Reaktionen: der_Martin

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
Ich setze generell alle Seiten die ein _S2 und so weiter enthalten auf noindex und nofollow im Child Theme Template Head. Hilft, aber es gibt immer wieder andere Bots die sich komplett in der URL Struktur verlaufen und hohe Serverlast verursachen. Ansonsten geht es eigentlich.

Wollte PRG Patterns noch ausprobieren, gibt ja mittlerweile ein Plugin dafür.

https://www.jtl-software.de/extensi...gin-fuer-jtl-shop-5-by-netzdingede-jtl-shop-5
Danke! PRG klingt gut.... noFollow ist ne Empfehlung, aber bei weitem nicht jeder Crawler oder auch KI-Spider hält sich daran. Das kann bei uns zu ganz erheblicher Serverbelastung führen - wobei die meisten Kombinationen von Filterwerten ja auch einfach nur sinnlos sind und keinen Nutzen bringen....

Wollte schon mal auf nen LightSpeed Server mit entsprechendem Caching gehen, damit mir die Spider nicht so reinhauen, speziell wenn sie wie blöde nutzlosen Links folgen... aber mit LightSpeed Technik, gegenüber dem Apache, hab ich wieder einen Rattenschwanz anderer Probleme an der Backe, da der nicht wirklich unterstützt wird....
 

simplybecause

Sehr aktives Mitglied
25. Dezember 2012
119
32
Weil ich aktuell ein ähnliches Problem habe: ich habe mitte September das genannte PRG-Plugin instaliert. Nach kurzer Zeit ist die Anzahl der Crawlvorgänge für die Filter-URLs auf nahezu 0 runter gegangen. Da ich noch ein weiteres Crawl-Problem habe, hab ich auch die URLs für Bewertungssterne maskiert. Da kommen schnell ein paar Tausend URLs zusammen, wenn man Varianten hat. Nur leider werden diese Seiten nicht mit noindex im header ausgegeben sonder mit einem canonical-tag. So sind sie dann im Index gelandet. Leider crawlt Google diese URLs nicht mehr wirklich und ich werde sie nicht los. Ist zum ko ...