Neu Nova: 1,8 Mio Shop5 Seiten bei Google nicht indexiert ??!!!! :O

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
Hi,
wir sind vor einiger Zeit von Shop 4 auf 5 umgestiegen. Nun habe ich in der Google Konsole zufällig festgestellt, das Google 1,8 Millionen Shopseiten nicht indexiert!
WHAT???!!! o_O

Das Problem:
Google scheint einige Filterwerte zu followen. Und der Bot produziert sich daraus lustige Filter-Kombinationen, die alle eine eigene URL erhalten.... Millionen!!!
Ich halte es für einen Template Bug im Nova....

Während nämlich normal anklickbare Filterwerte ein rel=nofollow haben, wie es sein soll, kann ich das nofollow bei Dropdown Filtern im Code des Anchor Tags nicht finden (????).
Und ich hab auf manchen Seiten viele Dropdown-Filter https://yerd.de/YERD-Saegeketten ... dazu kommen die Merkmalwert-Seite, die diese Dropdowns auch haben.

Obwohl die Filterseiten wohl auf noindex stehen, folgt und crawlt der Bot diese also. Etwa 1,8mio Seiten aktuell....

Ich hab in den Admin-Einstellungen Merkmalwert-URLs auf "index" stehen. Aber das betrifft ja wohl nur die Merkmal-Seiten, die ich zwingend indexieren möchte!!!!! Die sind sehr wichtig für mich. Auch die Links von den Artikeldetailseiten zu den Merkmalseiten sollen natürlich auf follow stehen. Aber nicht etwa dass zusammen-geklickte Filter-Kombinationen gefollowed werden. Da bekomme ich endlos duplizierten Content und z.T. völlig sinnlose Seiten....

Wie gesagt: Da die normalen Anklick-Filter ein nofollow haben, die Dropdown-Filter aber wohl nicht, sehe ich darin den Fehler...

Kann mir jemand sagen, wo ich das fixen kann. Oder hat jemand eine Idee, wieso Google plötzlich Millionen URLs crawlt und produziert.....???

Grüße
Martin
 
  • Gefällt mir
Reaktionen: forumjtlolshopag

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
Diese Filter hat sich der Bot auf einer Merkmalseite zu einer neuen URL zusammen geklickt, gecrwalt und in der Google Konsole gespeichert.
https://yerd.de/Zubehoer-Solo-SOLOR...AO-Motorsaege__Zubehoer-Alpina-600-Motorsaege

Er hat sich, wie du siehst, gefiltert, welche weiteren Motorsägen zu den Sägeketten dieser exotischen Motorsäge passen. Fehler in der Konsole: Seite steht auf "noindex". Was gut ist, weil: Es ist völlig sinnlos.... alle 4 Motorsägen sind super exotische Modelle und kein Mensch auf der Welt hat die 4 Sägen zusammen im Einsatz. Die Schnittmenge aller übereinstimmenden Motorsägen mit gleicher Kettengeometrie, hat für die Praxis kaum einen verwertbaren Bezug.

Aber mein Problem ist halt: Der Bot crawlt Millionen von einzelnen Seiten... die nur in homeopathischen Dosen überhaupt Sinn ergeben. Die Merkmalseite möchte ich schon indexieren... welche Kette passt auf diese eine Motorsäge! Aber der Bot soll natürlich nicht den Filterwerten folgen und sie crawlen.... Das sind astronomische Seitenmengen...

Aber wenigstens ist die Google KI nun wahrscheinlich der führende Experte für Motorsägenketten auf der Welt. :)

Wenn du die Filter anschaust: Oben sind Dropdown-Filter, mit passenden Motorsägen-Modellen für bestimmte Ketten. Unten sind "klassische" anklick Filter mit den Ketten-Spezifikationen. Soweit ich auf andern Seiten gesehen habe, haben die "klassichen" ein "nofollow" im Anchor. Die Dropdowns nicht....

????
 

en001

Sehr aktives Mitglied
15. März 2017
479
52
Auch ein nofollow schützt nicht denn es kann ja immer Links ohne nofollow geben. Das noindex reicht aus. Das crawlen verhinderst du so nicht.
Was helfen könnte wäre ein canonical-Link zu Seite deiner Wahl wenn es da aktivierte Filter gibt.
Aber auch das verhindert kein sofortiges crawlen.

Die Meldung in der Searchkosole ist nur ein Hinweis. Du kannst die Ansicht ja auf "Eingereichte URL" beschränken.
 

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
OK. Aber hatte ich voher nie.

Ich MEINE in Shop4 standen die Filter alle auf nofollow (??). Das wäre zumindest ein Hinweis für den Bot dass er seine Resourcen in eine Sackgasse steckt, die sich nicht lohnt. Seriöse Bots würden das Verkehrsschild wohl berücksichtigen.
Ich habe 9000 indexierte Seiten und 1,8 Mio gecrawlte, aber nicht indexierte. Mein Problem ist halt, dass bei Millionen Seitenaufrufen die Leistung des Servers leidet. Und den Google-Bot kann ich nicht per htaccess ausschließen...
 

en001

Sehr aktives Mitglied
15. März 2017
479
52
Im Robots-Meta-Tag fehlt das nofollow. Da steht nur noindex was ein noindex,follow bewirkt.

Du kannst den Googlebot drosseln. Aber der passt sich an die Geschwindigkeit auch so immer an.
https://support.google.com/webmasters/answer/48620?hl=de

Nur gibt es sicherlich wichtigeres zu lösen bei den Filtern. Ich wollte gestern testweise ein Hochbeet zusammenstellen.
Für jede Änderung musste ich am Desktop erst Seitenweise nach unten scrollen.
Solche Sachen sind viel wichtiger. Das vertreibt Besucher.
 

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
ich möchte ja nur diesen Filter-Links ein rel=nofollow geben. Ein Teil der Filter-Links hat das nofollow ja auch. Aber ich mag nicht der kompletten Seite ein nofollow geben und alles tot schießen. ...

Mir wär geholfen, wenn ich einen Hinweis bekäme, wo ich das fixen kann. Wie gesagt: Halte es für einen Bug im Nova Template....

PS: Zum scrollen durch die Filter.... Wenn ich mich recht erinnere reduzierte sich bei Shop4 nach setzen eines Filters die Filtermöglichkeit mit dem neuen Laden der Seite. Es stand nur noch eine reduzierte Auswahl an Produkten auf der Seite. Und eben die weiteren Filter für diese Produkte. Das hilft mir weiter...
Wenn ich z.b. einen runden Blumentopf filtere, dann macht es meist wenig Sinn, wenn ich nachher auch noch alle weitere Formen, Größen, Farben, Materialien usw für qudratische und rechteckige Blumentöpfe habe ...und alle Filter für Hochbeete und schlag mich tod dazu.
Wenn mir jemand sagen könnte, wie ich das wieder hin bekomme oder was ich da falsch gemacht habe, dann wäre ich dankbar. Ich hätte gerne nur noch die Optionen der gefilterten Merkmale übrig...
 
Zuletzt bearbeitet:

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
Wollte noch mal nachfragen ob jemand mir einen Tipp gegeben kann, wo ich das fixe. .... also rel=nofollow in alle Filter-Links.
Halte es für einen Template Bug, lasse mich aber gerne eines besseren belehren...

Das Problem ist für mich wirklich, wenn 2 oder mehr Bots gleichzeitig zig tausend unnötiger Seiten crawlen und vom hundertste ins tausendste kommen.....
das verursacht mir eine ziemlich ungesunde und überflüssige Serverlast.....
 

forumjtlolshopag

Sehr aktives Mitglied
6. Juni 2018
682
185
Muss mich hier mal einhaken. Finde das auch nicht sinnvoll, das alle möglichen Filter gecrawlt werden. Es erhöht unnötig die Serverlast, weil viele Crawlanfragen durchgeführt werden, die eh nicht im Index landen sollen. Wäre alles doppelter Content. Was ich auch sehe, das Google auch POST Requests absendet bei Variationen innerhalb der Artikel. Das macht auch keinen Sinn...
Ich werde wohl die Filter Links umschreiben, das es keine Links per se, sondern Javascript klickbare Elemente sind.
 

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
wenn du mir einen Tipp hättest, wo ich im Template die Links zumindest auf noFollow schreiben kann...? Manche sind ja noFollow. manche nicht...

PS: Weiß nicht ob sich der aktuelle Google Crawler von Javascript abhalten lässt. Einen klaren Hinweis "da gibts nix zu holen" wär schon sinnvoll, bevor die Reise in der Sackgasse endet. Er hat ja auch ein Crawl-Budget, das er nicht unnötig durch noFollow Stöberei verbrauchen mag...

PPS: früher konnte man durch globale Merkmale die Merkmalseiten (die enorm wichtig für mich sind ... und die nun durch follow-filter Konkurrenz bekommen!!) zumindest in der SItemap prominenter machen. Das vermisse ich auch ein bisschen... Im Augenblick haben alle Merkmale (von der Artikeldetail-Seite aus) den gleichen Linkwert.
 

forumjtlolshopag

Sehr aktives Mitglied
6. Juni 2018
682
185
In der "characteristic.tpl" und "genericFilterItem.tpl" über unser Child Template hab ich die Links zu Buttons umgeschrieben. Über Javascript werden diese für Nutzer dann aufrufbar. Google folgt keinen Buttons, löst auch größtenteils keine Formulare aus. Die schauen nur nach Links. "nofollow" wird von Google sowieso nicht mehr beachtet und trotzdem abgegrast, weshalb man Kunden Funktionen sicherheitshalber in Forms oder Javascripts umsetzen sollte. Mir bringt es nix, wenn Google alle Variantenkombinationen in einer Kategorie crawlt. Ist alles doppelter Content, sofern nicht mit noindex oder canonical ausgeschlossen. Da will ich mir das crawlen sparen, damit mehr Power für menschliche Nutzer da sind.

Hier nochmal Google zu Nofollow:
https://developers.google.com/search/blog/2019/09/evolving-nofollow-new-ways-to-identify?hl=de

Siehe den Punkt: "Warum werden solche Links nicht mehr vollständig ignoriert, wie es bei nofollow der Fall war?"

Auf jeden Fall danke für den Hinweis. Hab das bei uns nachgeprüft nachvollzogen und gleich korrigiert.

Bin der Meinung dass das nächste Template von JTL auf sowas achten sollte...
 

forumjtlolshopag

Sehr aktives Mitglied
6. Juni 2018
682
185
Übrigens sowas sehe ich bei der Nachverfolgung der Requests häufig. Es macht einfach keinen Sinn, das Suchmaschinen so einen Aufruf auslösen.scrn-shop-filter.jpg

Edit: Hab das jetzt auch für die Sortierung und die Anzahl der Artikel mit umgestellt.
 
Zuletzt bearbeitet:

ergowebshop

Sehr aktives Mitglied
14. Januar 2022
147
32
Bei uns steht in der Search Console auch ca. 500 Seiten indexiert (ist auch grob richtig so) aber fast 5.000 nicht indexiert.
Und wir haben ein Fire Template, kein Nova.

Google crawlt erst einmal alles Mögliche, aber solange es nicht indexiert ist (über die Console "Indexierung beantragt" oder manuell hinzugefügte URL), ist es auch unwichtig für die eigentlichen Suchergebnisse, es nervt nur in der Console.

Aber ist bekannt, da taucht dann der dümmste Kram von Variationskombinationen und Filtern auf, und wir haben da die Indexierung von Merkmal-URLs ausgeschalt (ja, du brauchst es, wir hatten es gar nicht erst an und trotzdem..).

Und wenn es welche davon nicht mehr gibt, stehen die in der Console als 404, fliegen dann aber nicht irgendwann raus. Ja soll ich jetzt über 4.000 Links kopieren und bei "Seite entfernen" rein knallen?!
 

Anhänge

  • index müll.png
    index müll.png
    49,9 KB · Aufrufe: 13

en001

Sehr aktives Mitglied
15. März 2017
479
52
Der Error 404 heißt ja nur das die Seite nicht existiert. Die SearchConsole kann ja nicht wissen ob das so sein soll oder nicht. Deshalb gibt sie den Hinweis darauf.
Mehr ist es nicht. Es hat keinen Einfluss auf die Seite. Es sind nur Hinweise. Wer es schärfer will schickt den Error 410.
Ein noindex ist immer der richtige Weg damit Seiten nicht in den Index kommen.
Nur dazu muss Google crawlen können ohne das sie behindert werden durch z.B zu lange Header und schlechte Antwortzeiten.

Last beim Server gibt es nicht dirch Google denn die passen sich an den Server an.
Witer oben steht ja ein Link wie man das weiter trosseln kann.
 

z0mbi3

Aktives Mitglied
22. Oktober 2018
65
17
Last beim Server gibt es nicht dirch Google denn die passen sich an den Server an.
Witer oben steht ja ein Link wie man das weiter trosseln kann.
Nicht nur durch Google allein, ja. Es gibt ja weitaus mehr Bots die die Seiten crawlen. Wie schon angedeutet, macht das keinen Sinn und verursacht natürlich eine gewisse Last auf dem Server.
Zudem gibt es ja noch das Crawl Budget, was damit sinnlos verbraten wird und es erzeugt Linktiefe, die ggf. von Suchmaschinen schwer gedeutet werden kann.
Statt zu drosseln einfach bestimmte Funktionen die nicht für Bots sind, und auch nicht gewollt, so umbauen, das es keine einfachen Links sind und das Thema ist durch.
Drosseln würde ich eher nicht, zumal auch nicht jeder Bot sich daran halten wird.
 

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
In der "characteristic.tpl" und "genericFilterItem.tpl" über unser Child Template hab ich die Links zu Buttons umgeschrieben. Über Javascript werden diese für Nutzer dann aufrufbar. Google folgt keinen Buttons, löst auch größtenteils keine Formulare aus. Die schauen nur nach Links. "nofollow" wird von Google sowieso nicht mehr beachtet und trotzdem abgegrast, weshalb man Kunden Funktionen sicherheitshalber in Forms oder Javascripts umsetzen sollte. Mir bringt es nix, wenn Google alle Variantenkombinationen in einer Kategorie crawlt. Ist alles doppelter Content, sofern nicht mit noindex oder canonical ausgeschlossen. Da will ich mir das crawlen sparen, damit mehr Power für menschliche Nutzer da sind.

noch mal nachgefragt: bin grad an einem andern Shop und lasse den ScreamingFrog drüber laufen. Bei 880.000 gefunden URLs habe ich den Crawl des Frogs abgebrochen... der Frog findet ständig noch mehr URLs.

Dachte, ich hätte in der Konfiguration des Crawlers die "nofollow" Links aus Versehen für's Crawlen angekreuzt. Aber nö, er soll die nofollows nicht crawlen!
Dann ist mir das hier wieder eingefallen.... :cool:
FRAGE: Unter welchem Pfad finde ich die beiden Templates??


Kann die beiden Templates nicht mehr finden, wo ich das nofollow in den Dropdown-Merkmalfiltern einfügen kann... ansonst kann ich es knicken die Seite mit dem ScreamingFrog zu spidern. Der (wie jeder andere Crawler) produziert mir Millionen URLs....
 

der_Martin

Sehr aktives Mitglied
13. Oktober 2016
325
29
Also, wen's interessiert: in der Zeile 28 der characteristic.tpl sollte man vielleicht ein rel=nofollow einfügen...

PHP:
          {dropdownitem
                    class="{if $attributeValue->isActive()}active{/if} filter-item"
                    href="{if !empty($attributeValue->getURL())}{$attributeValue->getURL()}{else}#{/if}"
                    title="{if $Merkmal->getData('cTyp') === 'BILD'}{$attributeValue->getValue()|escape:'html'}{/if}"
                   rel="nofollow"
                }

Ich hoffe allerdings, dass JTL das als Bug ansieht und im nächsten Update korrigiert... :)
 

MHillmann

Moderator
Mitarbeiter
11. Oktober 2018
1.328
471
  • Gefällt mir
Reaktionen: der_Martin