Bref, j’ai scrapé les résultats d’Amazon.

Peut-être avez-vous lu mon dernier billet/appel à l’aide consacré à la question “Comment faire pour scraper les résultats d’amazon?“. Peut-être cela vous a t’il intéressé, peut-être pas … Peut-être aussi que cela pourrait vous servir un jour.

Un petit challenge pour toi …

J’ai il y a peu reçu un mail de la part d’une connaissance. Un gars à qui j’ai déjà travaillé quelques fois. Le mail était intitulé “Little challenge… extract data from amazon?”. En voyant le titre, je me suis vite dit qu’il me connaissait assez bien : dés que j’entends le mot challenge, je suis directement motivé :-) . Voici le (une partie du) contenu du message :

Salut ****,

Petit challenge pour toi…

Tu penses que tu peux m’extraire la liste des produits d’amazon ici:
http://www.amazon.fr/s/ ****

Il me faudrait à chaque fois le nom du produit et le prix dans un premier temps.

Possible pour toi? Apparemment y a plein de petits logiciels qui existent…

Bref, on me demandait de scraper (crawler ?) les résultats d’Amazon.

Qu’est-ce que le scraper et crawler ?

C’est une bonne question. En fait, je me pose moi même la question et je n’ai pas vraiment la réponse. Pour moi, scraper/crawler signifie parcourir les résultats d’une requête et en tirer des informations.

On peut ensuite utiliser ces informations de plusieurs façon :

  • Connaitre le classement d’un site web sur une requête Google
  • Connaitre ses concurrents
  • Analyser les résultats d’un moteur de recherche pour en trouver la formule magique
  • Connaitre la liste de tous les livres écrits par untel ou untel
  • Analyser les balises h1 de vos concurrents
  • etc.

La plupart des référenceurs actuels scrapent google pour plusieurs de ces raisons.

A titre d’exemple, la définition d’un référenceur assez connu du milieu Black hat. SEOblackout : “Récupérer le contenu d’une page web en vue de réutiliser ce contenu sur son propre site. Le but est d’obtenir du contenu sans efforts, la plupart du temps de façon automatique. Cela permet au scraper de générer des milliers de pages sur des thématiques ciblées. Sur ces pages ainsi générées, le scraper va ajouter des Adsenses ou des liens d’affiliation afin de gagner de l’argent facilement.” Et oui, comme quoi avec un peu/beaucoup/passionnément d’entrainement, on peut tout imaginer :-)

Quelles solutions ?

En tant que “petit geek”, mon premier réflexe a été Google. Résultat : il existe des tonnes de logiciels (souvent payants) qui permettent de faire une tonne de tâche automatisées sans trop se fatiguer.

C’est là que je me suis souvenu d’un outils SEO que j’avais téléchargé quelques mois auparavant (avant d’acheter mon nouveau PC) qui permettait de faire des macros sur internet. J’ai donc finalement décidé d’utiliser iMacro. J’ai installé la version complète (gratuite 30jours) et j’ai créé ma petite macro perso.

Comment créer votre macro sur iMacro?

C’est assez simple. Il suffit d’appuyer sur le bouton “record” puis d’effectuer la série d’actions que vous voulez exécuter à plusieurs reprises. Si vous voulez exécuter une tâche plus complexe, un wiki est disponible et contient pas mal de documentation.

Je ne vous en dirai pas plus sur ma macro. Si vous avez des questions, les commentaires sont là pour ça!

Ensuite?

J’ai du retoucher un peu ma macro en mettant les doigts dans le code. Au début, je n’y comprenais pas grand chose, mais avec un peu d’efforts, et en consultant la doc, je m’en suis bien sorti.

Finalement, t’as réussi à scraper Amazon?

J’ai lancé ma macro et j’ai un peu attendu. Quelques temps plus tard, j’avais mes résultats. (en fait, il y a quand même eu quelques petits bugs, mais je ne veux pas refroidir ceux qui veulent tester le tool :p)

Si vous avez des questions, n’hésitez pas!

Leave a Reply

Your email address will not be published. Required fields are marked *

CommentLuv badge