Dans ce projet d’analyse de données concernant les Charts Spotify en France depuis janvier 2017 (date de début des données disponibles), mes objectifs sont les suivants :
- utiliser l’ETL Mage-ai (concurrent direct d’Airflow) en full python,
- récupérer les charts france hebdomadaires,
- récupération de données via les endpoints d’API spotify,
- scraper les paroles des chansons présentes dans les données,
- réaliser une classification par genre musical (spotify fournit des infos bien trop floues),
- réaliser une base de donnée qui sera automatisée grâce à l’ETL,
- coder un programme d’analyse des chansons (présence de mots vulgaires, nuages de mots mettant en avant les thématiques, analyse des rimes, richesse des mots, type de rimes, récupération automatique de la langue …)
C’est parti !
Dans cette première partie du projet, je vous présente l’installation et une utilisation sommaire de l’ETL :