Neu Webseite selbst "spidern"?

Lou Zypher

Sehr aktives Mitglied
5. August 2019
216
31
Mahlzeit zusammen,

ist irgendwie kein JTL-Thema, aber dann auch wieder doch, bin mir unschlüssig über den passenden Forenbereich.

Ich hab einen neuen Grosshändler aufgetan, dessen Artikel ich gern übernehmen würde.
Problem dabei ist nur ich bekomme weder eine CSV oder ähnliches, welche ich importieren könnte noch sonstiges.
Das einzige, was mir so adhoc einfällt, wäre jeden Artikel einzeln auf der Seite aufzurufen und diesen dann in der Wawi anlegen, alternativ mit den Grundinfos (Art.Nr, Name, Preis) in einer CSV zu tippen, diese an meine weiteren Bedürfnisse anpassen (meine Art.Nr., mein Artikelname, mein Preis, meine Kategorie etc.pp. etc.) und dann per Ameise zu importieren.

Wenn ich nun ausser der Webseite des Händlers ansonsten nichts habe: gibt es eine "erlegante" Lösung dazu?
Theoretisch würde ich das notfalls so machen, sind knapp 4000 Artikel, sofern es aber etwas zeitsparenderes gibt wäre natürlich top!

Gibts u.U. ein Tool, welches z.B. die Seite spidert und relevante Daten ausliest und diese dann speichert oder etwas in die Richtung?
 

upbox

Offizieller Servicepartner
SPBanner
17. Januar 2011
235
16

marcelj

Mitglied
2. April 2019
48
7
Problematisch wird es wohl, wenn du die Seite jedes mal neu crawlen musst um deine Bestände zu aktualisieren... das könnte auf Dauer negativ aufgefasst werden (Beeinträchtigung des Betriebs)

Bei den Beschreibungstexten könnte sich eine Urheberrechtsverletzung ergeben falls Schöpfungshöhe erreicht, ähnliches Thema mit Produktbildern, bzw. Leistungsschutzrechte verletzt.

Was denkt sich bloß ein Großhändler, der seine Ware verkaufen will - aber nicht die Daten dazu bereitstellt. Schon komisch von denen?

Wenn du eine Einwilligung für das Abgreifen und die Nutzung der Daten hast, ich setze sowas gerne um und habe Erfahrung mit Web Scraping.
 

Lou Zypher

Sehr aktives Mitglied
5. August 2019
216
31
Bilder und Texte liegen die Genehmigungen vor, da ist kein Hinderniss zu erwarten.
Und ja, er weiss etwas davon, ich steh schon länger mit ihm in Kontakt deswegen.

Das einzige wäre wenn ich durch das "spidern" irgendwann mal tatsächlich seine Seite lahmlegen sollte, ich denke da wird wohl jeder etwas dagegen haben, wird aber wohl ein Punkt sein den er selbst noch nicht bedacht hat.
Möglichkeit wäre nachts zwischen X und X Uhr, da werden wohl eher weniger da unterwegs sein.
Ah, und Bestände, wobei ich die direkt auf der Seite sehe, dann müsste ich aber in regelmässigen Zeiträumen die Artikel einmal direkt online ansehen, da ist der Bestand immer zu sehen.

Warum/wieso keine CSV zu haben ist entzieht sich meiner Kenntniss, lt. Anbieter besteht keine Möglichkeit dazu.