エクセル分析ツール

外れ値の検出方法|Grubbs検定・IQR法をExcelで実践する手順

記事内に広告が含まれています。

データに「明らかにおかしい値」が混じっていると、平均・標準偏差・相関係数などの統計量が大きくゆがみます。外れ値を感覚で「除外する・しない」と判断するのではなく、統計的な基準で客観的に特定することが重要です。

この記事では、引張強度の測定データを例に、IQR法(四分位範囲)とGrubbs検定の2つの手法でExcelを使って外れ値を検出する手順を解説します。検出後の対処法も合わせて説明します。

この記事でわかること

  • 外れ値が統計解析に与える影響
  • IQR法(四分位範囲)の計算手順とExcel実装
  • Grubbs検定(統計的検定)の計算手順とExcel実装
  • 2つの手法の使い分け
  • 外れ値を検出した後の対処法

外れ値とは・影響

外れ値(outlier)は、データの全体的なパターンから大きく外れた観測値のことです。測定ミス・記録ミス・設備トラブル・本当に稀な事象など、さまざまな原因で発生します。

外れ値が1点あるだけで統計量は次のように変化します。

統計量 外れ値の影響
平均 外れ値の方向に引き寄せられる
標準偏差 大きく膨らむ(ばらつきが過大評価される)
ピアソン相関係数 大きく変化する(0.93 → 0.60 になることも)
回帰分析の係数 外れ値に引っ張られて傾きが変化する

外れ値への影響が小さい手法としてスピアマン順位相関係数や中央値などのロバスト統計量があります。ただし「外れ値に強い手法を使う」よりも「外れ値を正しく処理する」ことが基本です。

例題データ

鋼材の引張強度(MPa)を10サンプル測定した結果です。大半は195〜205MPaの範囲に収まっていますが、1点だけ248MPaという大きな値があります。

サンプル 引張強度(MPa)
No.1 195
No.2 198
No.3 201
No.4 200
No.5 203
No.6 197
No.7 202
No.8 199
No.9 248
No.10 196

IQR法(四分位範囲を使う方法)

IQR(四分位範囲)を使って「上限・下限フェンス」を定め、その外側の値を外れ値と判定する手法です。正規分布を仮定しないため、分布の形状によらず使えます。

計算手順

STEP 1:データを昇順に並べ、第1四分位数(Q1)と第3四分位数(Q3)を求めます。

今回のデータ(昇順): 195, 196, 197, 198, 199, 200, 201, 202, 203, 248

\[
Q_1 = 197.25, \quad Q_3 = 202.25
\]

ExcelではQUARTILE.EXC関数を使います。

=QUARTILE.EXC(A1:A10, 1)  → Q1
=QUARTILE.EXC(A1:A10, 3)  → Q3

STEP 2:IQRを計算します。

\[
\text{IQR} = Q_3 – Q_1 = 202.25 – 197.25 = 5.0
\]

STEP 3:上限フェンスと下限フェンスを計算します。

\[
\text{下限フェンス} = Q_1 – 1.5 \times \text{IQR} = 197.25 – 7.5 = 189.75
\]

\[
\text{上限フェンス} = Q_3 + 1.5 \times \text{IQR} = 202.25 + 7.5 = 209.75
\]

STEP 4:フェンスの外側の値を外れ値と判定します。

No.9(248 MPa)は上限フェンス 209.75 を大きく超えているため、外れ値と判定されます。

Excelでの実装

=QUARTILE.EXC(A1:A10,1)          (Q1)
=QUARTILE.EXC(A1:A10,3)          (Q3)
=D2-D1                           (IQR = Q3 - Q1)
=D1-1.5*D3                       (下限フェンス)
=D2+1.5*D3                       (上限フェンス)
=IF(OR(A1<$D$4,A1>$D$5),"外れ値","") (判定列)

Grubbs検定(統計的検定)

Grubbs検定(グラブス検定)は、データが正規分布に従うことを前提に、最も外れた1点が統計的に有意な外れ値かどうかを検定する方法です。

計算手順

STEP 1:平均と標準偏差を計算します。

\[
\bar{x} = \frac{195+196+\cdots+248}{10} = \frac{2039}{10} = 203.9 \text{ MPa}
\]

\[
s = \sqrt{\frac{\sum(x_i – \bar{x})^2}{n-1}} = \sqrt{\frac{2220.9}{9}} \approx 15.71 \text{ MPa}
\]

STEP 2:検定統計量Gを計算します。

\[
G = \frac{|x_{\max} – \bar{x}|}{s} = \frac{|248 – 203.9|}{15.71} = \frac{44.1}{15.71} \approx 2.808
\]

STEP 3:棄却限界値と比較します。

n = 10、有意水準 α = 0.05 のときの棄却限界値は G_critical ≈ 2.290 です。

\[
G = 2.808 > G_{\text{critical}} = 2.290 \quad \Rightarrow \quad \text{外れ値と判定(棄却)}
\]

No.9(248 MPa)は有意水準5%で統計的に外れ値と判定されます。

Grubbs検定の棄却限界値(参考)

n α = 0.10 α = 0.05 α = 0.01
5 1.672 1.715 1.764
7 1.938 2.020 2.139
10 2.176 2.290 2.482
15 2.493 2.549 2.806
20 2.709 2.799 3.001

2つの手法の使い分け

比較項目 IQR法 Grubbs検定
正規性の前提 不要 必要
外れ値の数 複数を同時に検出可 1点ずつ検定
サンプルサイズ 小さくても使える n ≥ 6 推奨
客観的な有意性判定 なし(フェンスは慣習的な値) あり(p値で判定)
使いやすさ Excel関数だけで完結 棄却限界値の参照が必要

日常的なデータ確認には IQR法、品質管理や論文提出など統計的根拠が必要な場面では Grubbs検定を使うのが実務的な判断基準です。正規性の確認が必要な場合はシャピロウイルク検定を先に実施してください。

検出後の対処法

外れ値を検出したら、次の手順で対処します。

  • 原因を調査する:測定ミス・記録ミス・設備異常・実験条件の逸脱など原因を確認する
  • 記録ミスなら修正または削除:根拠を明記してデータを修正する
  • 正当な観測値なら残す:設備トラブルなどの特殊要因が確認できない場合は原則として除外しない
  • 除外する場合は理由を記録する:「〇〇のため除外」と明記し、除外前後の解析結果を両方報告する

外れ値を除外した場合でも、除外したことと理由をレポートや報告書に必ず記載してください。

まとめ

  • 外れ値は平均・標準偏差・相関係数・回帰係数を大きく歪める。感覚ではなく統計的な基準で特定する
  • IQR法: フェンス = Q1±1.5×IQR。正規性不要・複数の外れ値を同時に検出できる
  • Grubbs検定: G = |最大偏差| / s。正規分布を前提に有意性を検定できる
  • 今回の例(248 MPa): IQR法・Grubbs検定どちらでも外れ値と判定された
  • 外れ値を除外するときは必ず理由を記録し、除外前後の解析結果を両方示す

外れ値の影響を受けにくい相関係数の計算にはスピアマン順位相関係数を、外れ値の視覚的な確認には箱ひげ図散布図を合わせて使うと効果的です。

タイトルとURLをコピーしました