Base de données spotify charts france - Michaël Tirat - Data Analyst

Cher (chère) lecteur/lectrice,

Dans les méandres de mes projets personnels et étant un grand mélomane, je me suis donné comme objectif de créer ma propre base de données basée sur les titres les plus écoutés entre les débuts des DATAs de Spotify jusqu’en 2024(mai).
Aimant aller jusqu’au bout de mes idées, j’ai entrepris de « web-scrapper » (grâce à la superbe librairie python : ‘Helium’) les paroles en anglais et en français de ces titres (scrapper l’ensemble étant très lourd c’est déjà pas mal !)

LIEN EN BAS DE L’ARTICLE !

Une fois la structure configurée sur Workbench, les données importées via des fichiers csv, m’est venue l’idée de partager mon fichier qui représente un très bon exercice pour travailler les compétences en SQL.

En effet, le fichier Dump comprend 4 tables au travers desquelles de multiples manipulations sont possibles afin de travailler :

les CTE (Common Table Expression),
les WINDOWS FUNCTIONS,
les filtres de base,
les systèmes de recommandations basés sur le KNN (K-Nearest Neighbour) ainsi que le clustering via la table « audio_features »,
le clustering
les fonctions avancées LAG(), DENSE_RANK()…

Bref, une cour de récréation pour Data Analyst en devenir ou souhaitant s’amuser avec des données.

En résumé, la base de données comprends 4 tables :

« charts_weeks » :
- uri (id du morceau musical) FK,
- streams (nombre de streamings sur la semaine),
- date_week (date de la semaine concernée);

« audio_features » :
- uri (id du morceau musical) FK,
- artist_id,
- image (image de l’album),
- release_date (date de sortie officielle),
- duration (en millisecondes)
- sound (extrait audio),
- genre (préalablement préparé pour générer des genres globaux),
- acoustic,
- danceability,
- energy,
- instrumental,
- key_value,
- live,
- loud,
- speech,
- tempo,
- time_signature,
- valence
- (les données quantitatives provenant de spotify sont diponibles ici : infos_quantitative_spotify )

« tracks » :
- track_id,
- artist (artiste principal)
- featuring (Null si aucun featuring)
- track_name,
- production

« lyrics »:
- uri (id du morceau musical) PRIMARY KEY,
- word_cloud (paroles filtrées : les pronoms, déterminants, etc ont été enlevés, dans la mesure du réalisable),
- lyrics_language (langue de la chanson)

Infos supplémentaires :

Taille de la BDD : 28.5 mib

Characterset : utf8mb4

Télécharger le fichier DUMP SQL :

Télécharger le fichier DUMP

Michael Tirat

SQL : comment créer un tableau croisé sans galère ?

juin 25, 2024

Gestion des doublons en SQL

juin 20, 2024

Suivez-moi sur

Infos supplémentaires :

Télécharger le fichier DUMP

You might also like

Catégories

Suivez-moi sur

Infos supplémentaires :

Télécharger le fichier DUMP

You might also like

Catégories

Mots clé

Connectons-nous !