PR

一元配置分散分析を例題でわかりやすく解説

一元配置実験と一元配置分散分析の違い

一元配置実験と一元配置分散分析は言葉は似ていますがことなる概念です。ですが、密接に関連しているので、まずはそれぞれの意味を再確認していきましょう。

一元配置実験とは

実験計画法のひとつで複数の因子(独立変数)とその異なる水準が応答変数(従属変数)に与える影響を調べる手法です。取り上げる因子が一つの場合を一元配置、二つの場合を二元配置、三つ以上の場合を多元配置と呼びます。

一元配置分散分析とは

一元配置実験で得られたデータを統計的に分析する方法です。分散分析は独立変数の異なるレベル間での従属変数の平均値に統計的に有意な差があるかどうかを評価する分析方法です。この分析は、複数のグループ間で平均値がどの程度異なるかを調べるために使います。
ちなみに、分散分析はAnalysis of Varianceの頭文字をとってANOVAといい、一元配置分散分析はOne-way ANOVAとも呼ばれます。

要するに、一元配置実験はデータを集めるプロセスであり、一元配置分散分析はそのデータを解析する手法といえます。

わかりやすくカレーの作り方を例にとって考えてみましょう。
おいしいカレーを作るために作り方を変えて味の変化を検証してみます。
煮込み時間を10分、20分、30分と変えてカレーを作り、カレーの美味しさを1~10の10段階評価で点数付けをしてみます。この実験では「煮込み時間」が因子、その「時間(10分、20分、30分)」が水準、「味の評価」が応答変数になります。各水準をN回実験し、得られた評価結果を分散分析で水準間に有意差があるか検証します。これが一元配置実験、分散分析の一連の流れです。

一元配置実験の分散分析方法

では、分散分析のやり方を順を追って見ていきましょう。

  • ステップ1
    データの準備
    • 一元配置実験によってデータを集めます。
  • ステップ2
    基本統計量の計算
    • 各グループの平均値と全体の平均値を計算、標本サイズ(データ点の数)を確認。
  • ステップ3
    平方和の計算
    • 群間平方和: 各グループの平均と全体平均との差の平方を、そのグループの標本サイズで重み付けし、すべてのグループについて合計する。
    • 群内平方和: 各データ点とそのデータ点が属するグループの平均との差の平方を合計する。
  • ステップ4
    自由度の計算
    • 群間自由度: グループ数から1を引いたもの。
    • 群内自由度: 全データ点の数からグループ数を引いたもの。
  • ステップ5
    分散の計算
    • 群間分散: 群間平方和を群間自由度で割る。
    • 群内分散: 群内平方和を群内自由度で割る。
  • ステップ6
    F統計量の計算
    • F値 = 群間分散 / 群内分散
  • ステップ7
    p値を求める
    • F値からF分布表を用いてp値を求める
  • ステップ8
    有意差の有無を判断
    • p値 < α: 群間に統計的に有意な差がある
    • p値 ≥ α: 群間に統計的に有意な差がない

一元配置分散分析の例題

カレーの作り方を例に一元配置の分散分析方法を解説してきます。

  • ステップ1
    データの準備
    • カレーの煮込み時間を30分、60分、90分と変えたときの美味しさを10人に1~10の10段階で評価してもらったとしましょう。結果が以下データです。
    • (30分) 6 7 5 6 7 6 5 6 7 6
    • (60分) 8 9 7 8 9 8 7 8 9 8
    • (90分) 7 8 6 7 8 7 6 7 8 7
  • ステップ2
    基本統計量の計算
    • 1.各グループの平均:
    •  30分: (6+7+5+6+7+6+5+6+7+6) / 10 = 61 / 10 = 6.1
    •  60分: (8+9+7+8+9+8+7+8+9+8) / 10 = 81 / 10 = 8.1
    •  90分: (7+8+6+7+8+7+6+7+8+7) / 10 = 71 / 10 = 7.1
    • 2.全体平均:
    •  (61 + 81 + 71) / 30 = 213 / 30 = 7.1
  • ステップ3
    平方和の計算
    • 1.群間平方和(SSB):
    •  30分: 10 * (6.1 – 7.1)² = 10 * (-1)² = 10
    •  60分: 10 * (8.1 – 7.1)² = 10 * 1² = 10
    •  90分: 10 * (7.1 – 7.1)² = 10 * 0² = 0
    •  SSB = 10 + 10 + 0 = 20
    • 2.群内平方和(SSW):
    • 各スコアからそのグループの平均を引き、その差を二乗し、全顧客についての合計を取ります。
    • 30分グループの最初の顧客の場合、(6 – 6.1)² = (-0.1)² = 0.01 となります。
    • これをすべての顧客に対して行い、合計するとSSW = 14.7 になります。
  • ステップ4
    自由度の計算
    • 群間自由度(dfB): 3 – 1 = 2
    • 群内自由度(dfW): 30 – 3 = 27
  • ステップ5
    分散の計算
    • 群間分散(MSB): SSB / dfB = 20 / 2 = 10
    • 群内分散(MSW): SSW / dfW = 14.7 / 27 ≈ 0.544
  • ステップ6
    F統計量の計算
    • F = MSB / MSW = 10 / 0.544 ≈ 18.367
  • ステップ7
    p値を求める
    • F値からF分布表を用いてp値を求める。実際にはエクセルやpythonを使って求めるほうが簡単です。
      エクセルを使う場合は「=F.DIST.RT(F統計量, 群間自由度, 郡内自由度)」の関数を使うと求められます。
    • 今回の例では p = 7.51e-6
  • ステップ8
    有意差の有無を判断
    • 今回の例では α = 0.05に設定します。
    • p(7.51e-6) < α(0.05)であるため、煮込み時間の違いが美味しさに統計的に有意な影響を与えていると判断できます。

▶Excelで分散分析のやり方を解説

タイトルとURLをコピーしました