• Page d’accueil
  • Portfolio-projets
  • articles
  • Qui Suis-je ?
  • Suivez-moi sur

    Facebook Pagelike Widget
  • Page d’accueil
  • Portfolio-projets
  • articles
  • Qui Suis-je ?

Cher (chère) lecteur/lectrice,

Dans les méandres de mes projets personnels et étant un grand mélomane, je me suis donné comme objectif de créer ma propre base de données basée sur les titres les plus écoutés entre les débuts des DATAs de Spotify jusqu’en 2024(mai).
Aimant aller jusqu’au bout de mes idées, j’ai entrepris de « web-scrapper » (grâce à la superbe librairie python : ‘Helium’) les paroles en anglais et en français de ces titres (scrapper l’ensemble étant très lourd c’est déjà pas mal !)

 

LIEN EN BAS DE L’ARTICLE !

 

Une fois la structure configurée sur Workbench, les données importées via des fichiers csv, m’est venue l’idée de partager mon fichier qui représente un très bon exercice pour travailler les compétences en SQL.

En effet, le fichier Dump comprend 4 tables au travers desquelles de multiples manipulations sont possibles afin de travailler :

  • les CTE (Common Table Expression),
  • les WINDOWS FUNCTIONS,
  • les filtres de base,
  • les systèmes de recommandations basés sur le KNN (K-Nearest Neighbour) ainsi que le clustering via la table « audio_features »,
  • le clustering
  • les fonctions avancées LAG(), DENSE_RANK()…

Bref, une cour de récréation pour Data Analyst en devenir ou souhaitant s’amuser avec des données.

 

En résumé, la base de données comprends 4 tables :

  • « charts_weeks »  :
    • uri (id du morceau musical) FK,
    • streams (nombre de streamings sur la semaine),
    • date_week (date de la semaine concernée);

 



  • « audio_features » :
    • uri (id du morceau musical) FK,
    • artist_id,
    • image (image de l’album),
    • release_date (date de sortie officielle),
    • duration (en millisecondes)
    • sound (extrait audio),
    • genre (préalablement préparé pour générer des genres globaux),
    • acoustic,
    • danceability,
    • energy,
    • instrumental,
    • key_value,
    • live,
    • loud,
    • speech,
    • tempo,
    • time_signature,
    • valence
    • (les données quantitatives provenant de spotify sont diponibles ici : infos_quantitative_spotify )


  • « tracks » :
    • track_id,
    • artist (artiste principal)
    • featuring (Null si aucun featuring)
    • track_name,
    • production


  • « lyrics »:
    • uri (id du morceau musical) PRIMARY KEY,
    • word_cloud (paroles filtrées : les pronoms, déterminants, etc ont été enlevés, dans la mesure du réalisable),
    • lyrics_language (langue de la chanson)


Infos supplémentaires :

Taille de la BDD : 28.5 mib

Characterset : utf8mb4

Télécharger le fichier DUMP SQL :

Télécharger le fichier DUMP

 

 

base de donnéesSQL

  • Share On Facebook
  • Tweet It


Michael Tirat



You might also like
SQL : comment créer un tableau croisé sans galère ?
juin 25, 2024
Gestion des doublons en SQL
juin 20, 2024

  • Catégories

    • Base de données (1)
    • Data visualisation (1)
    • dataviz python (1)
    • pandas (1)
    • Power BI (2)
    • Projets (1)
    • Python (9)
    • SQL (3)
    • Tips (5)
    • web scraping (2)
  • Mots clé

    aleatoire astuce automatisation base de données BeautifulSoup carte choroplèthe dashboard data cleaning data visualisation dataviz départements EDA folium geospatial jupyter notebook NLP notebook pandas pivot plotly power BI python random Regex snippet SQL tableau de bord tips vscode web scraping





  • Connectons-nous !

    • github
    • linkedin

© Copyright Michaël Tirat 2024 - Data Analyst