エクセル分析ツール

Excelで箱ひげ図を作る方法|四分位数とデータ分布の読み方

記事内に広告が含まれています。

ライン別・ロット別にデータを比較したいとき、平均だけ見ていると見落とすことがある。ばらつきの大きさ、分布の偏り、飛び抜けた値の存在——それを一枚の図で伝えるのが箱ひげ図です。

この記事では、2工程の引張強度データを例に、Excelで箱ひげ図を作る手順と読み方を解説します。四分位数・IQR・外れ値の計算も含めて整理します。

箱ひげ図の構成要素

箱ひげ図は5つの値(5数要約)と外れ値で構成されます。

要素意味Excelの関数
最小値(ひげ下端)外れ値を除く最小値—(自動計算)
第1四分位数 Q1データの下位25%の境界値=QUARTILE.INC(範囲, 1)
中央値 Q2データの中央値(50%点)=QUARTILE.INC(範囲, 2)
第3四分位数 Q3データの上位25%の境界値=QUARTILE.INC(範囲, 3)
最大値(ひげ上端)外れ値を除く最大値—(自動計算)
外れ値フェンス外の値(点で表示)—(自動判定)

箱の幅が四分位範囲(IQR = Q3 − Q1)で、データの中央50%が箱の中に収まります。ひげの端は「外れ値と判断されない範囲での最大・最小値」です。

外れ値の判定基準

Excelの箱ひげ図は、以下の基準で外れ値を判定します。\[ \text{下限フェンス} = Q_1 – 1.5 \times IQR \] \[ \text{上限フェンス} = Q_3 + 1.5 \times IQR \]

この範囲を超えた値が外れ値として点(●)で表示されます。ひげの端はフェンス内の最小・最大値になります。

例題:2工程の引張強度比較

工程Aと工程Bでそれぞれ20個の部品を製造し、引張強度(MPa)を測定しました。

工程Aのデータ(n=20)

492, 495, 497, 498, 499, 500, 501, 501, 502, 503, 503, 504, 505, 506, 507, 508, 509, 511, 513, 528

工程Bのデータ(n=20)

497, 498, 499, 500, 500, 501, 501, 502, 502, 503, 503, 503, 504, 504, 505, 505, 506, 507, 508, 510

平均は工程Aが504.1 MPa、工程Bが502.9 MPaとほぼ同じです。しかし分布のかたちは全然違います。

四分位数と外れ値の計算

Excelの QUARTILE.INC は、データをソートしたときの位置 \( q/4 \times (n-1) \)(0始まり)で四分位数を線形補間します。工程A(n=20)の場合、Q1の位置は \( 1/4 \times 19 = 4.75 \) となります。

指標工程A工程B
最小値492497
Q1(第1四分位数)499.75500.75
Q2(中央値)503.00503.00
Q3(第3四分位数)507.25505.00
最大値528510
IQR(= Q3 − Q1)7.504.25
下限フェンス(Q1 − 1.5×IQR)488.50494.38
上限フェンス(Q3 + 1.5×IQR)518.50511.38
ひげ下端492497
ひげ上端513510
外れ値528(1件)なし

工程AのIQR(7.50)は工程B(4.25)の約1.8倍。中央値は同じ503 MPaですが、工程Aの方が中央50%のばらつきが大きく、528 MPaという外れ値も検出されています。

Excelで箱ひげ図を作る手順

  1. データをExcelに入力する(工程Aを列A、工程Bを列Bに入力)
  2. 両方の列を選択する(ヘッダー行も含める)
  3. メニュー「挿入」→「グラフ」→「統計グラフの挿入」→「箱ひげ図」を選択
  4. グラフが挿入される。右クリック「データ系列の書式設定」で外れ値の表示・非表示を切り替えられる

Excel 2016以降では箱ひげ図が標準グラフとして使えます。Excel 2013以前では、棒グラフを加工して手動で作成する必要があります。

グラフの書式設定ポイント

「データ系列の書式設定」パネルで次の設定ができます。

  • 四分位数の計算方式:「包含」(QUARTILE.INC相当)と「排他」(QUARTILE.EXC相当)の切り替え。通常はデフォルトの「包含」を使う
  • 平均値マーカー(×)の表示:中央値との差を視覚的に確認できる
  • 外れ値の表示・非表示:レポート用途に応じて切り替え

箱ひげ図の読み方

工程A・工程Bの箱ひげ図から読み取れることをまとめます。

ばらつきの比較:箱の縦幅(IQR)が工程Aの方が大きく、工程Bの方が安定して製造できていることがわかります。ひげの長さもAの方が長く、全体的な散らばりが大きい状態です。

中央値の位置:どちらも503 MPaで同じです。平均では差が1.2 MPaあるのは、工程Aの外れ値528が平均を引き上げているためです。中央値は外れ値の影響を受けません。

外れ値の確認:工程Aの528 MPaは上限フェンス(518.50)を超えており、外れ値と判定されています。この製品の測定ミスなのか、工程の異常なのかを個別に確認する必要があります。

分布の偏り:箱の中で中央値が下寄りか上寄りかを見ると、分布の歪みがわかります。工程Aは中央値503に対してQ3(507.25)までの距離がQ1(499.75)までの距離より長く、高い値側にやや裾が伸びた右裾の分布です。

ヒストグラムとの使い分け

箱ひげ図とヒストグラムは似た用途ですが、向いている場面が違います。

グラフ強み弱み
箱ひげ図複数グループを1枚で比較できる。外れ値が一目でわかる分布の細かい形状(二峰性など)は見えにくい
ヒストグラム分布の形を詳細に確認できる。正規性の目視チェックに向く複数グループの比較が見づらい

工程比較やロット間変動の確認なら箱ひげ図、単一グループの分布形状の確認ならヒストグラムを作るやり方を使うのが基本的な使い分けです。

正規性を統計的に確認したい場合はシャピロウイルク検定、データのばらつきを工程能力として定量化したい場合は工程能力指数(Cp・Cpk)を参照してください。

まとめ

箱ひげ図は四分位数(Q1・Q2・Q3)とIQRを使ってデータの分布を5つの数値で要約するグラフです。

  • 箱の縦幅(IQR = Q3 − Q1)がばらつきの指標。箱が狭いほど安定している
  • 外れ値は「Q1 − 1.5×IQR より小さい」「Q3 + 1.5×IQR より大きい」値として自動判定される
  • 中央値は外れ値の影響を受けないため、平均と一緒に確認すると分布の歪みが見える
  • Excel 2016以降では「挿入 → 統計グラフ → 箱ひげ図」で簡単に作成できる
  • 複数グループの比較に強く、工程間・ロット間のばらつき比較に最適

管理図で工程の時系列変動を確認したい場合はX-R管理図の作り方と見方、工程能力の定量評価は工程能力指数(Cp・Cpk)も合わせてご覧ください。

タイトルとURLをコピーしました