分散分析法(Excel)

分散分析の前提条件|正規性・等分散・独立性をExcelで確認する手順

記事内に広告が含まれています。

「一元配置分散分析を実行したら有意差が出たが、前提条件の確認を忘れていた」——分析を終えた後で気づくと、結果の信頼性ごと問い直されてしまいます。

分散分析(ANOVA)には「正規性」「等分散性」「独立性」という3つの前提条件があります。この記事では、各前提条件の意味とExcelでの確認方法を、引張強度データを例に解説します。前提が崩れていた場合の対処法も合わせて紹介します。

分散分析の3つの前提条件

一元配置・二元配置を問わず、分散分析を適用するには次の3つの前提が必要です。

前提条件内容確認方法
正規性各グループのデータが正規分布に従うシャピロウイルク検定、Q-Qプロット
等分散性各グループの分散が等しいルビーン検定、バートレット検定
独立性各観測値が互いに独立している実験設計の段階で担保(統計的検定では確認しない)

3つのうち統計的に検証できるのは正規性と等分散性です。独立性は実験のデザイン段階(ランダム化・無作為化)によって確保するものなので、分析前に実験条件を確認します。

例題:3種類の熱処理条件と引張強度

以下のデータを使って前提条件を確認していきます。3種類の熱処理条件(A・B・C)それぞれ6サンプルの引張強度(MPa)です。

サンプル条件A(MPa)条件B(MPa)条件C(MPa)
1412435458
2418441462
3405438455
4421443467
5408436460
6415440464

グループごとの平均と標準偏差(小数第2位で四捨五入)は次のとおりです。

条件平均(MPa)標準偏差(MPa)
A413.175.85
B438.833.13
C461.004.20

前提条件①:正規性の確認

シャピロウイルク検定とは

正規性の確認にはシャピロウイルク検定が最も一般的です。帰無仮説は「データは正規分布に従う」で、p値が有意水準(通常 α=0.05)を超えれば正規性を棄却できないと判断します。

サンプルサイズが小さい(n < 50)場合はシャピロウイルク検定が適しています。詳しい計算手順はシャピロウイルク検定で正規性を確認するで解説しています。

Excelでの確認方法

ExcelにはシャピロウイルクのW統計量を直接計算する関数がないため、次のいずれかの方法で確認します。

  • Q-Qプロット: データを昇順に並べ、理論正規分位数と実測値を散布図でプロット。直線状に並べば正規性あり
  • 歪度・尖度の確認: =SKEW() で歪度、=KURT() で尖度を求める。歪度の絶対値が1未満、尖度の絶対値が2未満なら正規性からの逸脱は小さい

今回の例題では、各グループ n=6 と小サンプルのためQ-Qプロットで確認します。いずれのグループも点がおおむね直線上に並んでいれば正規性を仮定してよいと判断します。

正規性が崩れていた場合

正規性の検定でp値 < 0.05 になった場合、分散分析の代わりにクルスカルワリス検定(ノンパラメトリック版の一元配置分散分析)を使います。クルスカルワリス検定は正規性の仮定が不要で、3グループ以上の中央値の差を検定します。

前提条件②:等分散性の確認

ルビーン検定とは

等分散性の確認にはルビーン検定(Levene’s test)がよく使われます。帰無仮説は「全グループの分散は等しい」で、p値 ≥ 0.05 なら等分散性を仮定できます。ルビーン検定は正規性の仮定に頑健なため、分散分析の前提確認に適しています。

ルビーン検定の計算手順はルビーン検定で等分散性を確認するで詳しく解説しています。

Excelでの計算手順

ルビーン検定はExcelの標準関数だけでも計算できます。手順は次のとおりです。

  1. 各グループのデータからグループ平均を引いた絶対値(\(|x_{ij} – \bar{x}_i|\))を計算する
  2. その絶対値データで一元配置分散分析を実施する(データ → データ分析 → 分散分析: 一元配置)
  3. F検定のp値を読む。p ≥ 0.05 なら等分散性を棄却できない

今回の例題データで計算すると、F値 = 1.89、p値 = 0.18 となり、等分散性は棄却されません(α=0.05)。

等分散性が崩れていた場合

等分散性の検定でp値 < 0.05 になった場合、通常のF検定ではなくウェルチのANOVA(等分散を仮定しない分散分析)を使います。ウェルチのANOVAは各グループの分散が異なっていても使える頑健な手法です。

前提条件③:独立性の確認

独立性は「あるサンプルの測定値が別のサンプルの値に影響しない」ことを意味します。これは実験のランダム化によって担保するものであり、統計的な検定で事後確認はしません。

独立性が崩れる典型例は次の2つです。

  • 同一個体の繰り返し測定: 同じ部品を3回測定してそれぞれ別データとして扱う → 対応のあるデータとして分析が必要
  • 時系列の自己相関: 連続した生産工程で隣り合うサンプルの値が相関している → 時系列を考慮した分析が必要

独立性を担保するには、実験前にランダム化(処理順序をランダムに割り付ける)とブロック化(系統誤差を局所管理する)を設計段階で組み込みます。

前提条件チェック後の分析フロー

3つの前提条件を確認してから分散分析を実行する流れをまとめます。

  1. 独立性の確認: 実験設計を見直す。ランダム化されているか確認する
  2. 正規性の確認: シャピロウイルク検定 or Q-Qプロットで確認する
    • OK → 次へ
    • NG → クルスカルワリス検定(ノンパラ)を使う
  3. 等分散性の確認: ルビーン検定で確認する
    • OK → 通常の分散分析(F検定)を実行する
    • NG → ウェルチのANOVAを使う
  4. 分散分析で有意差あり → 多重比較法で差のある群を特定する

分散分析で有意差が確認できたら、どのグループ間に差があるかをTukeyのHSD法などの多重比較法で特定します。

まとめ

分散分析を正しく使うために確認すべき前提条件は3つです。

  • 正規性: 各グループのデータが正規分布に従うか → シャピロウイルク検定で確認。崩れていればクルスカルワリス検定へ
  • 等分散性: 各グループの分散が等しいか → ルビーン検定で確認。崩れていればウェルチのANOVAへ
  • 独立性: 各観測値が独立しているか → 実験設計のランダム化で担保

前提条件の確認は「分析の念のため」ではなく、結果の解釈が正しいかどうかを左右する重要なステップです。一元配置分散分析二元配置分散分析を実行する前に、必ずこの手順を踏んでから進めてください。

タイトルとURLをコピーしました