Profilazione di gruppi costruiti automaticamente dai brani musicali ascoltati su Spotify in base alle loro caratteristiche musicali.
Per questo scopo si sono scaricati 586.672 brani musicali presenti nel database https://www.kaggle.com/code/mrankitgupta/spotify-data-analysis-using-python/data?select=tracks.csv fino all’ultima data disponibile (16/04/2021) e selezionato solo quelli rilasciati dall’anno 2020.
Ogni brano è descritto in termini di:
Artista (artist)
Nome (name)
Popolarità (popularity)
Positività (valence)
Tonalità (key)
Indicazione_di_tempo (time_signature)
Modalità (mode)
Durata_min (duration_ms)
Qualità_del_suono (loudness)
Musica_dal_vivo (liveness)
Tempo_bpm (tempo)
Danzabilità (danceability)
Energia (energy)
Musica_strumentale (instrumentalness)
Musica_acustica (acousticness)
Presenza_di_parlato (speechiness)
artista
brano
indice di popolarità del brano
brano positivo e allegro (da 0 a 1)
codice (p.e. 0=do, 1=do♯/re♭, 2=re, …)
battiti in una misura (p.e. 3=3/4)
modalità del brano (maggiore o minore)
durata del brano (minuti)
se valore basso, miglior qualità (da -60 a
probabilità che sia registrato dal vivo
velocità della misura (battiti per minuto)
grado di danzabilità
brano veloce, forte e rumoroso
probabilità che sia solo strumentale
probabilità che sia acustico
quantità di parole parlate
Per la costruzione dei gruppi sono state usate le ultime 5 caratteristiche.
Il software utilizzati sono stati KNIME per l’accesso, la pulizia e trasformazione dei dati ed R per i metodi analitici (Cluster Analysis, PCA che vengono trattati in questo corso) e la visualizzazione grafica dei risultati.
Una pre-analisi, che utilizza varie misure statistiche (wss, pseudo-F, silhouette), suggerisce di utilizzare 5 gruppi (cluster) in quanto offrono una migliore separabilità tra di loro insieme a una migliore omogeneità al loro interno.
Per una migliore comprensione dei risultati, si è confrontato il valore medio di ogni caratteristica del cluster con il valore medio del totale (alto→superiore alla media, basso→inferiore alla media); in più, sono stati associati i generi musicali (Blues, Country, Classical, Dance, Easy Listening, Folk, Hip-hop/Rap, Jazz, Latin, Metal, New Age, Pop, R&B, Rock) degli artisti che fanno parte del cluster.
Per verificare se i brani si adattano ai cluster, sono state poi presi a titolo di esempio 3 tra i più popolari per ogni cluster per eventuale verifica (ai cluster sono stati assegnati dei nomi a titolo puramente esemplificativo) :
Cluster 1 (31%) – “Danzabile“
È caratterizzato da alta Energia e Danzabilità; bassa Musica Acustica e Strumentale, Presenza di parlato e Qualità del suono. Generi musicali più rappresentati: Pop, Hip-hop/Rap, Dance e Rock.
Brani campione:
Leave the door open (Bruno Mars)
Hold on (Justin Beber)
Save Your Tears (The Weeknd)
Cluster 2 (35%) – “Liricista”
È caratterizzato da alta Presenza di parlato, Energia e Positività e; bassa Musica Acustica e Strumentale. Generi musicali più rappresentati: Hip-hop/Rap, Pop e Latin.
Brani campione:
Astronaut In The Ocean (Masked Wolf)
Telepatia (Kali Uchis)
The Business (Tiësto)
Cluster 3 (5%) – “Rilassante”
È caratterizzato da alta Musica Strumentale e Acustica e Qualità del suono; bassa Danzabilità, Energia, Presenza di parlato e Positività. Generi musicali più rappresentati: New Age, Jazz e Classical.
Brani campione:
Dark Beyond the Blue (Hammock)
Itsy bitsy spider (Mingmei Hsueh)
Funny Thing (Thundercat)
Cluster 4 (9%) – “Strumentale”
È caratterizzato da alta Musica Strumentale, Energia, Musica dal vivo e Danzabilità;
bassa Musica Acustica, Positività e Presenza di parlato. Generi musicali più rappresentati: Dance, Pop e Rock.
Brani campione:
Jealous (Eyedress)
Take Me Where Your Heart Is (Q)
The Logical Song (MATTN)
Cluster 5 (20%) – “Spensierata”
Rappresenta il 20%. È caratterizzato da alta Musica Acustica e Danzabilità; bassa Musica Strumentale, Energia e Presenza di parlato. Generi musicali più rappresentati: Pop, Hip-hop/Rap e Rock.
Brani campione:
willow (Taylor Swift)
drivers licence (Olivia Rodrigo)
Good Days (SZA)
I cluster si possono visualizzare in un piano a 2 dimensioni riducendo le 5 caratteristiche a 2 “componenti” con una perdita contenuta di informazione attraverso il metodo dell’Analisi delle Componenti Principali (PCA).
La prima componente spiega il 35% della variabilità, mentre la seconda ne spiega il 26%: con queste 2 dimensioni si spiega il 61% di tutta la variabilità.
Il vantaggio è che si possono proiettare i punti (i brani e le 5 caratteristiche originali) in un piano cartesiano dove gli assi sono rappresentati dalle 2 dimensioni.

La prima dimensione (in ascissa) risulta correlata positivamente soprattutto con Energia e Danzabilità e negativamente con Musica Acustica e Strumentale per cui l’asse è stato nominato “Impegnata vs Commerciale” mentre la seconda dimensione (in ordinata) è correlata positivamente soprattutto con la Presenza di parlato e Danzabilità e negativamente con Energia e Musica Strumentale, in questo caso l’asse è stato nominato “Energizzante vs Rilassante“.