ヒストグラムは、データの分布を視覚的に表現するためのグラフです。データを一定の区間(ビン)に分け、それぞれのビンに含まれるデータの頻度を棒グラフの形で表示します。これにより、データの分布の形状や偏り、外れ値の有無を簡単に把握することができます。
この記事ではExcel分析ツールを使ってヒストグラムのグラフを作成する手順と関数を使ってヒストグラムを作成する方法ついて解説します。
【この記事でわかること】
・エクセル「分析ツール」と関数を使ったヒストグラムの作成方法
エクセル「分析ツール」を使ったヒストグラム作成のやり方と具体例
ヒストグラムは”クラスのテストの点数”、”商品の売上個数”、”顧客の年齢など、データの分布状況、データの性質や傾向を視覚的に把握するのに有効です。
今回のヒストグラム作成は”ある商品購入者の年齢”に関するデータを使用して説明します。データはchatGPTを使って生成した仮想データです。
まず、エクセルの分析ツールを使ってヒストグラムの作成を行う手順を解説します。
エクセル「分析ツール」の有効化
エクセルで回帰分析を行うためには、「分析ツール」を有効にする必要があります。このツールはデフォルトでは有効化されていないことが多いので、まずは「データ分析」ツールを有効化する必要があります。
データ分析ツールの有効化手順
- Excelを開き、上部にある「ファイル」タブをクリックします。
- メニューの一番下にある「オプション」を選択します。
- 左側のメニューから「アドイン」カテゴリを選択し、「分析ツール」を見つけます。
- 下部の「管理」ボックスで「Excelアドイン」を選択し、「設定」をクリックします。
- 表示されるリストから「分析ツール」にチェックを入れ、「OK」をクリックします。
これで、分析ツールが使用可能になります。
具体例でヒストグラム作成の手順を解説
次に、具体的なヒストグラム作成の手順を説明します。
ヒストグラム作成の手順
- データの区間を設定:セルに任意のデータ区間の上限値を作成します(例:20以下をカウントしたい場合は20)。データ区間の数は”ビン”と呼ばれ、データの傾向を把握しやすいように適切に設定する必要があります。
- データ分析ツールを選択:Excelの「データ」タブに移動し、右端にある「データ分析」を選択
- ヒストグラムを選択:表示されるリストから「ヒストグラム」を選択
- 入力範囲の指定:
- 入力範囲:ヒストグラムを作成するデータの範囲を選択します。(例:$A$1:$C$13)
- データ区間:データ範囲を指定しない場合、自動的にデータの範囲を決定します。ここで設定するのは手順1で作成したデータ区間の上限値です。
- 出力範囲:分析結果を表示するセル範囲を指定します。(例:$E$1)
- グラフ出力のチェック:グラフ出力にチェックを入れます。
- OKをクリック:設定が完了したら、「OK」ボタンをクリック。エクセルが相関分析を実行し、指定したセル範囲に結果を出力します。
最適な”ビン”の数とは?
適切なビンの数を選ぶことは、データの分布を正確に視覚化するために重要です。
過少ビン: ビンの数が少なすぎると、データの特徴が失われ、あまり意味のない分布になる
過多ビン: ビンの数が多すぎると、ヒストグラムが過度に細分化されてノイズが多くなり、データの全体的な傾向を理解しにくくなる
ビンの数はデータの傾向が把握できれば任意の数でOKですが、以下のような方法もあるので参考にしてみてください。
【平方根法】
・ビンの数をデータポイントの数の平方根にする方法
・計算式: ビンの数=√n (n はデータポイントの数)
・例: データポイントが30の場合、ビンの数は約5.5(四捨五入して6)
【スタージェスの公式】
・データの対数を用いてビンの数を決定
・計算式: ビンの数=log2(n)+1 (n はデータポイントの数)
・例: データポイントが30の場合、ビンの数は約5.9(四捨五入して6)
ヒストグラムの結果の見方
作成したヒストグラムを見方について説明します。
出力されるグラフの解釈
ヒストグラムは、X軸にデータの範囲(ビン)、Y軸にビン内のデータの頻度を表す棒グラフの形で表示されます。各棒の高さは、そのビンに含まれるデータの数を示します。棒が高いほど、その範囲に多くのデータが含まれていることを意味します。
分布の形状とその意味
ヒストグラムの形状を見ることで、データの分布を理解することができます。一般的な分布の形状とその意味を以下に示します。
- 正規分布:中央が高く、左右対称な形状。データが平均値を中心に均等に分布していることを示します。
- 偏りのある分布:片方に偏った形状。データが一方に偏って分布していることを示します(例えば、左に偏る場合は左偏、右に偏る場合は右偏)。
- 二峰性分布:2つの高い山がある形状。データが2つの異なるグループに分かれていることを示します。
- 外れ値:分布の範囲外にある棒。異常値や例外的なデータが存在することを示します。
例題のヒストグラムの結果
上記は例題の分析結果です。度数分布表(左表)とヒストグラムグラフ(グラフ作成に✓を入れた場合)が表示されます。例題では”20代以下、30代、40代、50代の年齢別ヒストグラム”を作成したかったのでデータ区間は上限値の”29、39、49、59”に設定しました。表の”次の級”とは今回の場合60以上のデータを指します。ヒストグラムグラフを作成することで年齢別の分布を一目で把握できるようになりました。
出力オプション:パレート図、累積分布表
エクセル分析ツールの出力オプションにあるパレート図、累積分布表についても簡単に説明しておきます。
出力オプションの累積分布表を選択すると頻度の隣に”累積%”とグラフにも第二軸に”累積%”が表示されます。これは頻度の比率を足し合わせた値で、例の表では、1~29までの値が35%、1~39までの値が75%、といった具合に各データ区間がデータ全体のどれくらいの比率を占めているかを把握することができます。
出力オプションの累積分布表を選択すると累積分布表が2つ表示されます。新しく表示された右表は頻度を降順に並べ替えたものです。頻度順に並べ替えることで頻度の大きい順にデータ全体への影響度が把握しやすくなります。
エクセルの関数を使ってヒストグラムを作成する場合
FREQUENCY
関数を使ったヒストグラム作成方法について説明します。
FREQUENCY関数を使ったヒストグラムの作成手順
- データの区間を設定:セルに任意のデータ区間の上限値を作成します(例:20以下をカウントしたい場合は20)。
- 頻度を表示したいセルを全てを選択:例:D2:D5
- FREQUENCY関数を入力:上部の数式バーに関数を入力(例:=FREQUENCY(B2:B21,C2:C5))
- 配列数式として入力:
Ctrl + Shift + Enter
を押して、配列数式として入力します。
※関数を使うとグラフの作成も手動でしないといけないので、個人的には分析ツールの使用をおすすめします。
エクセルの”配列数式”とは?
Excelで複数の値を同時に計算し、その結果を複数のセルに出力することができる数式です。通常の数式が1つのセルに対して計算を行うのに対し、配列数式は複数のセルに対して一度に計算を行います。
例えば、A1:A3
に {1, 2, 3} 、 B1:B3
に {4, 5, 6} のデータがあるとします。これらの範囲の対応する値を掛け合わせたい場合、C1に”=A1:A3 * B1:B3
”の配列数式を使用します。C1にA1 * B1
、C2にA2 * B2
、C3にA3 * B3
の計算結果が表示されます。