Scraper avec BeautifulSoup - python - Michaël Tirat - Data Analyst

Le « scraping » ou l’art de récupérer des informations via les balises html de n’importe quel site internet est sujet à discussion… Droit intellectuel, violation des conditions d’utilisation (se référer aux CU du site en question), charges sur le serveur, etc…

Si autant de questions se posent, il ne faut pas non plus se voiler la face, le scraping est énormément utilisé : veille concurrentielle (‘benchmarking’), génération de leads (prospection), surveillance de réputation en ligne, analyse de marché et j’en passe.

En tant que Data Analyst, le scraping est une technique importante à connaître, et il faut bien se faire la main sur des sites. Si l’on pense éthique, on peut penser donc que scraper des sites internets tels que ceux des GAFAs est un bon moyen de travailler les compétences. Les moyens financiers sont tels qu’un internaute seul ne va pas à lui seul causer de problèmes, tant que les données collectées sont utilisées à des fins personnelles (pour ma part des compétences techniques).

Ainsi, j’ai décidé de tenter de collecter des données sur les produits disponibles sur une grande plateforme…

articles scrapés

Le stratégie est la suivante :

trouver la liste des catégories de produits,
à chaque lien de catégorie, scraper la liste des liens des produits dépendant de cette dernière,
et enfin scraper sur le lien de la page article.

Les problèmes techniques rencontrés sont quant à eux nombreux :

blocage systématique sur les requêtes intempestives,
liens encodés à remanier avec des .replace(« ; », »& »)
gérer le header de requête…

Avec de la réflexion et des tests, j’ai été en mesure de récolter plus de 8000 articles avec leurs caractéristiques.

Ainsi, avec les librairies pandas, requests, BeautifulSoup, du regex, le tout sous python, voici la logique que j’ai codée.
Import de librairies nécessaires :

création du header grâce à l’inspecteur sous firefox :

n’oubliez-pas de rafraîchir la page (ctrl + r) afin que les données se mettent à jour. Vous observerez alors le ‘User-agent’ indiqué par votre navigateur sur le site d’amazon.

Dans le code suivant :

Création des listes vides qui vont stocker les informations souhaitées,
Initialisation d’un compteur à Zéro afin de visionner les occurrences (et ainsi surveiller le fonctionnement de chaque itération),
Requête sur l’url grâce à la librairie « requests » et paramètre du header réglé,
lancement du script à la condition que la réponse à la requête soit « 200 »
condition « while » pour indiquer que si le scraping du nom de l’article est vide, le script relance la requête sur la même url
un time.sleep() pour conditionner un comportement humain de navigation sur internet

Puis enfin :

on vient collecter chaque information souhaitée,
chaque information est stockée dans une liste dédiée,
puis on crée un dataframe pandas en vue de l’exporter…

if single_soup.find('span', class_="a-size-large product-title-word-break") is not None: single_title = single_soup.find('span', class_="a-size-large product-title-word-break").getText().strip() #------------------------------------- TITRE print(single_title) name.append(single_title) else : name.append(None) if single_soup.find('span', class_="a-icon-alt") is not None: single_note = single_soup.find('span', class_="a-icon-alt").getText().strip().replace(",",".").split(" ")[0] #------------------------------------- NOTES print(single_note) notes.append(single_note) else : notes.append(None) single_evaluation = single_soup.find('span', id="acrCustomerReviewText") if single_evaluation is not None : #------------------------------------- EVALUATIONS string_evaluations = single_evaluation.get_text() eval_value = re.findall(r'd+', string_evaluations) int_evaluations = int(''.join(eval_value)) evaluations.append(int_evaluations) else : evaluations.append(None) single_sub_categories = single_soup.find_all("a", class_="a-link-normal a-color-tertiary") #------------------------------------- CATEGORIES ET SOUS CATEGORIES liste_sub_categories =[] for words in single_sub_categories: liste_sub_categories.append(words.get_text().strip()) categories.append(liste_sub_categories) if single_soup.find('span', class_="a-offscreen") is not None : single_price = single_soup.find('span', class_="a-offscreen").get_text() #------------------------------------- PRIX tarif.append(single_price) else : tarif.append(None) table = single_soup.find('table', id="productDetails_techSpec_section_1") #------------------------------------- TABLE DES SPECIFICITES if table: th_elements = table.find_all('th', class_="a-color-secondary a-size-base prodDetSectionEntry") td_elements = table.find_all('td', class_="a-size-base prodDetAttrValue") dico_table_product = {} for prodattribute, prodspec in zip(th_elements, td_elements): # Clean the text during extraction using regular expression key = re.sub(r'[^wséè]+', '', prodattribute.get_text().strip()) value = re.sub(r'[^wséè]+', '', prodspec.get_text().strip()) dico_table_product[key] = value dico_infos.append(dico_table_product) random_sleeper = random.randint(1,6) time.sleep(random_sleeper) else : pass df = pd.DataFrame({"article" : name, "prix":tarif , "note": notes, "evaluation": evaluations, "categories": categories, "infos": dico_infos})

Grâce aux librairies et langage Python, via un notebook google colaboratory, j’ai pu collecter plusieurs milliers de produits et informations correspondantes comme le prix, la marque, la note des acheteurs, le nombre d’avis, la couleur, la matière, etc…

Michael Tirat

Custom Snippet : automatisez vos routines de code sur VScode

juin 13, 2024

Injecter du html dans votre rapport Power BI

juin 10, 2024

Librairie Python ‘Random’ : aléatoire or not aléatoire ?

mai 31, 2024

Suivez-moi sur

You might also like

Suivez-moi sur

Scraper avec BeautifulSoup – python

You might also like

Connectons-nous !