Profilazione dei brani musicali su SPOTIFY

Profilazione di gruppi costruiti automaticamente dai brani musicali ascoltati su Spotify in base alle loro caratteristiche musicali.

Per questo scopo si sono scaricati 586.672 brani musicali presenti nel database https://www.kaggle.com/code/mrankitgupta/spotify-data-analysis-using-python/data?select=tracks.csv fino all’ultima data disponibile (16/04/2021) e selezionato solo quelli rilasciati dall’anno 2020.

Ogni brano è descritto in termini di:

Artista (artist)
Nome (name)
Popolarità (popularity)
Positività (valence)
Tonalità (key)
Indicazione_di_tempo (time_signature)
Modalità (mode)
Durata_min (duration_ms)
Qualità_del_suono (loudness)
Musica_dal_vivo (liveness)
Tempo_bpm (tempo)
Danzabilità (danceability)
Energia (energy)
Musica_strumentale (instrumentalness)
Musica_acustica (acousticness)
Presenza_di_parlato (speechiness)

artista
brano
indice di popolarità del brano
brano positivo e allegro (da 0 a 1)
codice (p.e. 0=do, 1=do♯/re♭, 2=re, …)
battiti in una misura (p.e. 3=3/4)
modalità del brano (maggiore o minore)
durata del brano (minuti)
se valore basso, miglior qualità (da -60 a
probabilità che sia registrato dal vivo
velocità della misura (battiti per minuto)
grado di danzabilità
brano veloce, forte e rumoroso
probabilità che sia solo strumentale
probabilità che sia acustico
quantità di parole parlate

Per la costruzione dei gruppi sono state usate le ultime 5 caratteristiche.

Il software utilizzati sono stati KNIME per l’accesso, la pulizia e trasformazione dei dati ed R per i metodi analitici (Cluster Analysis, PCA che vengono trattati in questo corso) e la visualizzazione grafica dei risultati.

Una pre-analisi, che utilizza varie misure statistiche (wss, pseudo-F, silhouette), suggerisce di utilizzare 5 gruppi (cluster) in quanto offrono una migliore separabilità tra di loro insieme a una migliore omogeneità al loro interno.

Per una migliore comprensione dei risultati, si è confrontato il valore medio di ogni caratteristica del cluster con il valore medio del totale (alto→superiore alla media, basso→inferiore alla media); in più, sono stati associati i generi musicali (Blues, Country, Classical, Dance, Easy Listening, Folk, Hip-hop/Rap, Jazz, Latin, Metal, New Age, Pop, R&B, Rock) degli artisti che fanno parte del cluster.

Per verificare se i brani si adattano ai cluster, sono state poi presi a titolo di esempio 3 tra i più popolari per ogni cluster per eventuale verifica (ai cluster sono stati assegnati dei nomi a titolo puramente esemplificativo) :

Cluster 1 (31%) – “Danzabile
È caratterizzato da alta Energia e Danzabilità; bassa Musica Acustica e Strumentale, Presenza di parlato e Qualità del suono. Generi musicali più rappresentati: Pop, Hip-hop/Rap, Dance e Rock.
Brani campione:
Leave the door open (Bruno Mars)
Hold on (Justin Beber)
Save Your Tears (The Weeknd)

Cluster 2 (35%) – “Liricista
È caratterizzato da alta Presenza di parlato, Energia e Positività e; bassa Musica Acustica e Strumentale. Generi musicali più rappresentati: Hip-hop/Rap, Pop e Latin.
Brani campione:
Astronaut In The Ocean (Masked Wolf)
Telepatia (Kali Uchis)
The Business (Tiësto)

Cluster 3 (5%) – “Rilassante
È caratterizzato da alta Musica Strumentale e Acustica e Qualità del suono; bassa Danzabilità, Energia, Presenza di parlato e Positività. Generi musicali più rappresentati: New Age, Jazz e Classical.
Brani campione:
Dark Beyond the Blue (Hammock)
Itsy bitsy spider (Mingmei Hsueh)
Funny Thing (Thundercat)

Cluster 4 (9%) – “Strumentale
È caratterizzato da alta Musica Strumentale, Energia, Musica dal vivo e Danzabilità;
bassa Musica Acustica, Positività e Presenza di parlato. Generi musicali più rappresentati: Dance, Pop e Rock.
Brani campione:
Jealous (Eyedress)
Take Me Where Your Heart Is (Q)
The Logical Song (MATTN)

Cluster 5 (20%) – “Spensierata
Rappresenta il 20%. È caratterizzato da alta Musica Acustica e Danzabilità; bassa Musica Strumentale, Energia e Presenza di parlato. Generi musicali più rappresentati: Pop, Hip-hop/Rap e Rock.
Brani campione:
willow (Taylor Swift)
drivers licence (Olivia Rodrigo)
Good Days (SZA)

I cluster si possono visualizzare in un piano a 2 dimensioni riducendo le 5 caratteristiche a 2 “componenti” con una perdita contenuta di informazione attraverso il metodo dell’Analisi delle Componenti Principali (PCA).

La prima componente spiega il 35% della variabilità, mentre la seconda ne spiega il 26%: con queste 2 dimensioni si spiega il 61% di tutta la variabilità.

Il vantaggio è che si possono proiettare i punti (i brani e le 5 caratteristiche originali) in un piano cartesiano dove gli assi sono rappresentati dalle 2 dimensioni.

La prima dimensione (in ascissa) risulta correlata positivamente soprattutto con Energia e Danzabilità e negativamente con Musica Acustica e Strumentale per cui l’asse è stato nominato “Impegnata vs Commerciale” mentre la seconda dimensione (in ordinata) è correlata positivamente soprattutto con la Presenza di parlato e Danzabilità e negativamente con Energia e Musica Strumentale, in questo caso l’asse è stato nominato “Energizzante vs Rilassante“.