Kaggleに「Spotifyで配信されている音楽 約100年分・およそ17万曲分のデータ」があったので、ダウンロードして分析してみました。
では、いってみよう!!(๑˃̵ᴗ˂̵)و
分析してみた
まずは、pandasでダウンロードしたcsvファイルをデータフレームにして読み込んでみます。
データを見ると、曲ごとに色々なパラメーターが付与されています。
artists(アーティスト名)やtempo(テンポ)などはそのままの意味ですけど、見慣れないパラメーターもあります。
これは、SpotifyがAIで判定した独自の評価項目のようです。
たとえば、danceabilityは「踊りやすさ」を示す項目になります。
(詳しくは、ドキュメント↓のObjects Indexの項目あたりに書いてあります。)
本筋には関係ないですけど…データフレームの先頭の曲はラフマニノフのこの曲でした。
ヒストグラムを見る
ヒストグラムを作ってみました。
ここから分かるのは、
- year(リリース時期)を見てみると、1940年台後半からほぼ同じくらいの量の曲データが入ってるみたい。
- インスト曲は少ない。
- 4拍子の曲が圧倒的に多い。その他も3拍子。(SpotifyのAIが複雑な変拍子を上手く判定できない部分が大きい気もします。)
- BPMは120あたりが一番多く見えるけど、100以下を2倍、200以上を1/2倍して100から200の間に収めるとそこまで大きな差にはならなさそう。
あたりですかね。
相関関係を調べる
データをseabornで行列散布図にしてみます。
強い相関がありそうなものは、あんまり多くなさそうかな…?
…図を見るだけでは微妙なので、相関係数を計算します。
結果はこちら。
ある程度の相関関係がありそうなもの(相関係数が0.5以上もしくは-0.5以下)に色を付けてみました。
やはり、強い相関があるものは少なかったです。
つまり、Spotify独自の評価項目のパラメーターは「それぞれ意味を持った視点になっているのかな」と思いました。(主成分分析しても意味が薄そう。)
ある程度相関がありそうなパラメーターの考察
とはいっても、いくつか色がついている(相関関係がある)部分があります。
その理由を考察してみました。
acousticnessとyear
acousticness(アコースティック度合い)とyear(リリース時期)の相関関係。
有名なMoogシンセサイザーの登場が1960年台、デジタル録音の開始が1970年台です。
それ以後、電子楽器やレコーディング・ミキシング技術の発達は多くの楽曲に影響を与えました。
したがって、時代を追うごとにacousticnessが低い曲が増加した感じでしょうか?
valenceとdanceability
valence(明るさ/ポジティブさ)とdanceability(踊りやすさ)の相関関係。
“ポジティブさ“をどうやってSpotifyのAIが判定しているかは、よく分かりません。
しかし、確かに直観的に”踊れる曲“はある程度ポジティブな気はします。
acousticnessとenergy
acousticness(アコースティック度合い)とenergy(迫力/激しさ)の相関関係。
「迫力を出すためには…そりゃ、アコースティック感は減るでしょ。」という感じ。笑
たとえば、アコースティック編成でメタルとかをやるのはなかなか難しいそうですしね。
やっている方はいるみたいですけど。(すごい)
loudnessとenergy
loudness(ラウドネスの値)とenergy(迫力/激しさ)の相関関係。
…こちらも「まぁ、そりゃあそうでしょ。」という結果。笑
音圧戦争との関係も感じます。
loudnessとacousticness
loudness(ラウドネスの値)とacousticness(アコースティック度合い)の相関関係。
こちらも、今までの流れから順当な結果です。
popularityとyear
popularity(人気/知名度)とyear(リリース時期)の相関関係。
この結果には、結構驚きました。
というのも、散布図から明らかに分かる正の相関があります。(相関係数は約0.86)
加えて、過去10年程度はpopularity(人気/知名度)が低い曲もたくさん存在しているのも特徴的です。
これは、
- 多くの人は生まれた年代~最近の曲を好んで聴く傾向がある。
- 最近は誰でも音楽を作ってSpotifyに配信できる。
あたりが理由だと考えました。
acousticnessとpopularity
popularity(人気/知名度)とacousticness(アコースティック度合い)の相関関係。
この相関が一番意外でした。
理由を考えてみると…
まず、acousticness(アコースティック度合い)が高い傾向にある曲は、主にクラシック音楽や過去の曲です。
次に、popularity(人気/知名度)のパラメーターは、あくまでSpotifyの中での人気や知名度(らしい)です。
そして、Spotifyユーザーは比較的若年層が多いです。
「定額制音楽配信サービス」利用者は15.5%。年代別にすると、10代(37.0%)、20代(23.5%)、30代(17.5%)、40代(10.0%)、50代(9.5%)、60代(6.0%)で、若年層の方が利用率が高い傾向にある。
サブスク音楽配信サービス利用率は15.5% Spotifyユーザはシェア率が高い ヘビーユーザが多いのは? 月次定点調査(2020年8月度)
そのため、若いユーザーが比較的acousticness(アコースティック度合い)の高い曲を聴かないので、popularity(人気/知名度)が低くくなると考えられます。
そうなると、この結果も納得できる気がします。
まとめと感想
いかがだったでしょうか。
僕自身は、分析する前“曲の長さ”と”リリース時期”や“テンポ”と”リリース時期”辺りには、強い相関関係がありそうだと予想していました。
しかし、条件をかなり絞らなければ年代によってそこまで大きく変わらないようですね。
(とはいえ、Spotifyに配信されている曲の総数は5000 万曲以上と言われています。17万曲といえど、全体の3%程度です。)
ちなみに、今回のデータ分析はSpotifyが独自にAIで判定したデータが正しいのが前提の話です。
SpotifyのAPIを介して個別の曲の特徴パラメーターのデータを取得して照らし合わせてみると、的外れに思える数値もあったので、確実にデータの分析結果が正しいかは分かりません。
また、そもそもこのデータ自体が意図的に色々な値が均一になるように作られている気もします。
それでも、なかなか個人的には面白かったです。
ヒット曲に絞った分析などもまたやってみたいと思います。
追記:やりました。
では!(๑˃̵ᴗ˂̵)و