• Page d’accueil
  • Portfolio-projets
  • articles
  • Qui Suis-je ?
  • Suivez-moi sur

    Facebook Pagelike Widget
  • Page d’accueil
  • Portfolio-projets
  • articles
  • Qui Suis-je ?

Les doublons sont la première préoccupation des Data analysts. Ne pas les prendre en compte fausse les calculs et les insights.
Alors comment les détecter et les isoler en SQL en utilisant le moins de mémoire possible ?

Voici un exemple grâce au « QUALIFY » et « ROW_NUMBER »

"clients" id client_id name 1 200001 dupond 4 200001 dupond 7 200004 gerard 6 200004 gerard 9 200004 gerard 5 200006 dupontel ' 1/ find values that have duplicates : ' SELECT client_id, name FROM customers GROUP BY client_id, name HAVING COUNT(*) > 1; id client_id name 1 200001 dupond 7 200004 gerard ' 2/ find values that are duplicates ' SELECT id, client_id, name FROM customers QUALIFY ROW_NUMBER() OVER (PARTITION BY clinet_id, name ORDER BY client_id) > 1; id client_id name 4 200001 dupond 6 200004 gerard 9 200004 gerard
SQL

  • Share On Facebook
  • Tweet It


Michael Tirat



You might also like
Base de données spotify charts france
septembre 13, 2024
SQL : comment créer un tableau croisé sans galère ?
juin 25, 2024

  • Catégories

    • Base de données (1)
    • Data visualisation (1)
    • dataviz python (1)
    • pandas (1)
    • Power BI (2)
    • Projets (1)
    • Python (9)
    • SQL (3)
    • Tips (5)
    • web scraping (2)
  • Mots clé

    aleatoire astuce automatisation base de données BeautifulSoup carte choroplèthe dashboard data cleaning data visualisation dataviz départements EDA folium geospatial jupyter notebook NLP notebook pandas pivot plotly power BI python random Regex snippet SQL tableau de bord tips vscode web scraping





  • Connectons-nous !

    • github
    • linkedin

© Copyright Michaël Tirat 2024 - Data Analyst