Suchmaschinen, Spider, Bot, Crawler

  • Hinweis: Am 25.02.2025 zwischen 21:30 u. 22:30 Uhr - Einschränkungen beim Login und Erreichen folgender Dienste: FFN, Kundencenter, Admin, JTL-Shop, JTL-Wawi, Lizenzserver, ISI Gateway, Vouchers, Kassensysteme, Plan&Produce, Versand. Grund dafür ist ein Major Upgrade des OAuth-Dienstes. Vielen Dank für euer Verständnis!

shop1060

Gut bekanntes Mitglied
11. Juni 2008
146
5
Wien
Hat schon einer von euch sich die Datenbanktabelle 'tbesucherbot' vom JTL-Shop2 (v2.17) angesehen? Es scheint als käme der Bot 'Slurp' von Yahoo nie vorbei ...

Ursache ist ein Rufzeichen zu wenig im PHP-Code der Datei 'besucher.php' oder ein Rufzeichen zu viel im Feld cName betreffend 'Yahoo!'.

Ich habe es im PHP-Code korrigiert, und auch gleich zwei weitere Bots von Suchmaschinen eingebaut (twiceler/Cuil; gigabot/Gigablast) und die Datenbanktabelle ergänzt.

Wer dies auch gern hätte aber den Code nicht selbst ändern möchte, der schreibt mir.
 

D********t

Guest
AW: Suchmaschinen, Spider, Bot, Crawler

Erstmal vielen Dank für den Hinweis, aber bevor ich Dich um Anleitung zum ändern bitte, kann das jemand nachvollziehen und offiziell bestätigen? Zumal "Slurp" sich nicht gerade wie einer von den guten Bots anhört ;)

Inktomi, Fireball und Scooter stehen bei mir übrigens auch auf NULL.

Hab hier gleich noch was dazu gefunden:

http://www.abakus-internet-marketing.de/foren/viewtopic/t-19276.html
 

conny2540

Sehr aktives Mitglied
23. November 2006
2.310
4
Österreich
AW: Suchmaschinen, Spider, Bot, Crawler

Also ich schaue mir diese Log im Shop-Admin niemals an, da ich ein Tool gegen Spammer, Hacker und böse Bots einsetze und die wirklich bösen oder geclonten Yahoo, Slurp oder wie sie heissen sowieso der HP verwiesen werden. Nur die "echten" dürfen bei mir rein. Man kann auch nicht pauschal über den Daumen sagen wer böse oder gut ist. Da sind sehr viele clones unterwegs, das wissen aber nur wirklich die Profis, die sich auschließlich damit beschäftigen.

Ich würde euch einmal das Projekt Bot-Trap empfehlen. Nach einem Hack meines Forums, hatte ich dann endgültig die Schnauze voll. Dieses Tool ist sehr empfehlenswert und nimmt einen Webmaster sehr viel arbeit ab. Ist sehr leicht im JTL-Shop einzubauen.

Soweit ich aus meinen Stat lesen kann, besucht aber Yahoo alle meine Seiten regelmäßig und crawlt diese auch. Bin dort auch sehr weit oben zu finden... somit kann ich das genannte Verhalten leider nicht bestätigen.
 

D********t

Guest
AW: Suchmaschinen, Spider, Bot, Crawler

Kann auch sein, das die Besuche mancher Bots nur einfach nicht in die Datenbank geschrieben werden, aufgrund der von shop1060 genannten Schreibfehler und diese Bots aber trotzdem crawlen, weil was sollte sie ausser der robots.txt davon abhalten? Bei Zen Cart waren die gängigen Bots Dauergast bei mir, konnte man im Adminbereich immer schön live einsehen.

Danke Conny, Bot-Trap schau ich mir mal an...
 

conny2540

Sehr aktives Mitglied
23. November 2006
2.310
4
Österreich
AW: Suchmaschinen, Spider, Bot, Crawler

Was mir auch noch dazu einfällt. Die Ursache des Nicht-Besuches, kann auch auch eine falsch angepasste .htaccess oder robots.txt sein. Aber sonst kann ich das Verhalten leider nicht bestätigen. Vielleicht ist auch irgendwo generell irrtümlich no follow gesetzt... ?
 

conny2540

Sehr aktives Mitglied
23. November 2006
2.310
4
Österreich
AW: Suchmaschinen, Spider, Bot, Crawler

Kann auch sein, das die Besuche mancher Bots nur einfach nicht in die Datenbank geschrieben werden, aufgrund der von shop1060 genannten Schreibfehler und diese Bots aber trotzdem crawlen, weil was sollte sie ausser der robots.txt davon abhalten? Bei Zen Cart waren die gängigen Bots Dauergast bei mir, konnte man im Adminbereich immer schön live einsehen.

Danke Conny, Bot-Trap schau ich mir mal an...

Nö, das kann nicht sein, ich habe da nichts geändert, ist original JTL und funktioniert perfekt. Bot-Trap sortiert nur die "geclonten/falschen/bösen" Bots aus. Dies kann man in der log-Stat von Bot-Trap nachsehen. Auf meine Server-Stats sehe ich dann auch 1 Zugriff und nicht mehr, weil der eine 404-Seite bekommt, bzw. eine Seite mit einer Rechenaufgabe, die Bots ja nicht lösen können, weil sie ja automatisch "laufen". In den Erro-Logs des Servers fallen dann andere gesperrte IP's rein, die ich in der .htaccess gesperrt habe, weil im Bot-Trap-Forum noch umstritten und nicht auf der Blacklist. Ich habe auch generell bestimmte Länder gesperrt, von denen nichts Gutes kommt und die eh bei mir nicht einkaufen, weil ich dort nicht hinliefere.

Man hat da mehrere Möglichkeiten, deshalb bin ich auf .htaccess und robots nachträglich gekommen. Auch der Header kann falsch gesetzt worden sein mit no follow, somit kommt zwar 1 Zugriff in die Log des Shop-Admin, aber gelistet wird man nicht, weil der dort Stop macht.
Um bessere Auswertungen zu bekommen gibt es jede Menge andere Tools, ich würde das vom Shop-Admin, weil auch abgespeckt nicht sehr beherzigen.

Eine gute Stat, variabel einsetzbar ist bescounter, der Wertet auch die Server-Logfiles aus und man kann Filter setzen. Ebenfalls leicht einzubauen und kann man in jeder tpl.-Seite einbauen, die man mitloggen möchte.
 

shop1060

Gut bekanntes Mitglied
11. Juni 2008
146
5
Wien
AW: Suchmaschinen, Spider, Bot, Crawler

'Yahoo!' ist nicht 'Yahoo'. - Der Unterschied liegt beim Rufzeichen.

Wenn das Datenbankfeld 'Yahoo' aktualisiert werden soll (per Kommando UPDATE), dieses Feld aber nicht existiert wird eben nichts geändert. Das Feld mit der Bezeichnung 'Yahoo!' bleibt jedenfalls unverändert. - Es hat ja auch einen anderern Namen.

Der Fehler außert sich in falscher Statistik im Admin-Bereich des JTL- Shop, auch wenn diese (noch) nicht sehr aussagekräftig ist. Trotzdem sind Fehler zum Korrigieren da. Suchmaschinen oder 'böse Besucher' werden dadurch nicht behindert.

Auch bei mir wurde zu einigen Suchmaschinen noch kein Besuchsdatum eingetragen. Gibt es die überhaupt noch, oder haben die sich schon mit Google zusammengetan?
Bei manueller Suche, ob und welche Suchmaschinen auf den Seiten aktiv sind, habe ich die Zugriffslogs meines Providers durchforstet. Als simples Kriterium habe ich nach Zugriffen auf die Datei 'robots.txt' gesucht. Gute Suchmaschinen werten sie aus, Fakes ist sie wohl ziemlich egal.