Neu Webseite selbst "spidern"?

Lou Zypher · 23. Februar 2020

Mahlzeit zusammen,

ist irgendwie kein JTL-Thema, aber dann auch wieder doch, bin mir unschlüssig über den passenden Forenbereich.

Ich hab einen neuen Grosshändler aufgetan, dessen Artikel ich gern übernehmen würde.
Problem dabei ist nur ich bekomme weder eine CSV oder ähnliches, welche ich importieren könnte noch sonstiges.
Das einzige, was mir so adhoc einfällt, wäre jeden Artikel einzeln auf der Seite aufzurufen und diesen dann in der Wawi anlegen, alternativ mit den Grundinfos (Art.Nr, Name, Preis) in einer CSV zu tippen, diese an meine weiteren Bedürfnisse anpassen (meine Art.Nr., mein Artikelname, mein Preis, meine Kategorie etc.pp. etc.) und dann per Ameise zu importieren.

Wenn ich nun ausser der Webseite des Händlers ansonsten nichts habe: gibt es eine "erlegante" Lösung dazu?
Theoretisch würde ich das notfalls so machen, sind knapp 4000 Artikel, sofern es aber etwas zeitsparenderes gibt wäre natürlich top!

Gibts u.U. ein Tool, welches z.B. die Seite spidert und relevante Daten ausliest und diese dann speichert oder etwas in die Richtung?

upbox · 24. Februar 2020

Hi,

der www.screamingfrog.co.uk kann das und noch viel mehr

Kann ich empfehlen, man muss sich aber ein bisschen einarbeiten und die richtigen Felder finden. https://www.screamingfrog.co.uk/seo-spider/user-guide/configuration/#custom-extraction

Das kannst du auslesen:

XPath: XPath selectors, including attributes.
CSS Path: CSS Path and optional attribute.
Regex: For more advanced uses, such as scraping HTML comments or inline JavaScript.

marcelj · 24. Februar 2020

Problematisch wird es wohl, wenn du die Seite jedes mal neu crawlen musst um deine Bestände zu aktualisieren... das könnte auf Dauer negativ aufgefasst werden (Beeinträchtigung des Betriebs)

Bei den Beschreibungstexten könnte sich eine Urheberrechtsverletzung ergeben falls Schöpfungshöhe erreicht, ähnliches Thema mit Produktbildern, bzw. Leistungsschutzrechte verletzt.

Was denkt sich bloß ein Großhändler, der seine Ware verkaufen will - aber nicht die Daten dazu bereitstellt. Schon komisch von denen?

Wenn du eine Einwilligung für das Abgreifen und die Nutzung der Daten hast, ich setze sowas gerne um und habe Erfahrung mit Web Scraping.

fibergirl · 24. Februar 2020

Weiß denn der Großhändler überhaupt etwas von seinem Glück?

Lou Zypher · 24. Februar 2020

Bilder und Texte liegen die Genehmigungen vor, da ist kein Hinderniss zu erwarten.
Und ja, er weiss etwas davon, ich steh schon länger mit ihm in Kontakt deswegen.

Das einzige wäre wenn ich durch das "spidern" irgendwann mal tatsächlich seine Seite lahmlegen sollte, ich denke da wird wohl jeder etwas dagegen haben, wird aber wohl ein Punkt sein den er selbst noch nicht bedacht hat.
Möglichkeit wäre nachts zwischen X und X Uhr, da werden wohl eher weniger da unterwegs sein.
Ah, und Bestände, wobei ich die direkt auf der Seite sehe, dann müsste ich aber in regelmässigen Zeiträumen die Artikel einmal direkt online ansehen, da ist der Bestand immer zu sehen.

Warum/wieso keine CSV zu haben ist entzieht sich meiner Kenntniss, lt. Anbieter besteht keine Möglichkeit dazu.

Suche

Suche

Neu Webseite selbst "spidern"?

Lou Zypher

Sehr aktives Mitglied

upbox

Offizieller Servicepartner

marcelj

Mitglied

fibergirl

Sehr aktives Mitglied

Lou Zypher

Sehr aktives Mitglied