目次
散布図とは?
縦軸と横軸に2つのデータを対応させ、データを点でプロット(散布)したものが散布図です
そして散布図では2つのデータの分布、つまり「相関関係」を把握できるのが特長です
相関とは?
相関係数(そうかんけいすう)
2つの確率変数の間にある線形な関係の強弱を測る指標である。
−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。
また相関係数が0のとき確率変数は無相関であるという
Wikipedia
…というのが定義ですが、ポイントは3つあります
- 最大値が「1」で最小値が「-1」になる
- 正の相関の場合、片方が高いともう片方も高くなる
- 相関係数が「0」の時は相関が無い
具体例を挙げてみましょう
学校のテストで「国語の点数」と「数学の点数」に正の相関がある場合
「国語の点数が高い学生は、数学の点数も高かった」となります
一方で「体育の成績」と「美術の成績」に不の相関があった場合
「体育が得意な学生は美術が苦手」ということになります
上記の通りマイナスの相関(不の相関)は「A」が上がれば「B」が下がる関係なので、相関が無いとは言えません
相関係数が「0」の場合が、「相関が無い」となりますになります
「英語の成績」と「身長」のように関係ない場合などが当てはまります
散布図の設定方法
散布図を作成するときには「棒グラフ」や「折れ線グラフ」とは違ったデータが必要です
「項目データ1つ」と「数値データ2つ」を用意しましょう
今回は国別のGDPのデータをプロットするために、
「各国ごと」の「一人当たりGDP」と「GDP総額」をリスト化しています
簡単に散布図を作成することができました
横軸に「一人当たりGDP」と縦軸に「GDP総額」でTop10か国がプロットされました
ただこれだけでは終わりません…
散布図の「ラベル」の設定方法
散布図を作っただけのデフォルトでは「データラベル」が付いていません
つまりどのプロットが何のデータなのか分かるように「ラベル」を付けましょう
ちなみに…
「各生徒ごとの国語・数学」の散布図ではラベルは必要ありませんが
「国別のGDP」の散布図ではラベルは欲しいですよね
ラベルの内容>「セルの値」を選択
項目を選択する
「Y値」が必要ないので消します
バブルプロットの設定方法
散布図は「2つの数値データ」を可視化しますが、
バブルプロットでは「3つの数値データを」可視化します
「横軸」「縦軸」「バブルの大きさ」で可視化します
散布図の右側にさらにデータを追加しましょう(今回は人口)
作成方法は散布図とほぼ同じなので割愛します
バブルごとに色を変える方法
デフォルトではバブルが1色なので、項目別に色を設定しましょう
もちろんそれぞれ個別で設定もできますが、設定一つでカラーを分けることができます
まとめ
今回は「散布図」と「バブルプロット」についてご紹介してきました
なぜか分かりにくい設定方法になっていますが
使い慣れると可視化のレベルが1つ上がるので、ぜひ使ってみてください