統計的仮説検定

統計的検出力(パワー分析)とは|β・第2種の過誤とサンプルサイズの設計

記事内に広告が含まれています。

「検定で有意差なし(p > 0.05)だったから差はない」という結論は正しくないことがあります。サンプルサイズが不十分な場合、本当は差があるのに検出できない(第2種の過誤)可能性があるためです。

この記事では、統計的検出力(パワー)の意味と計算方法を解説します。t検定のパワー分析を例に、α・β・効果量・サンプルサイズの関係を整理し、目標パワー0.80を達成するためのnの設計方法まで説明します。

この記事でわかること

  • 第1種の過誤(α)・第2種の過誤(β)・検出力(1−β)の意味
  • 検出力に影響する4つの要因(n・効果量・α・σ)
  • t検定のパワー分析の計算手順
  • 目標パワー0.80に必要なサンプルサイズの求め方
  • パワー分析を実験計画に活用する方法

2種類の過誤と検出力

仮説検定の結果は「棄却する・しない」の2択ですが、真の状態との組み合わせで4通りの結果が生じます。

帰無仮説が真(差なし) 対立仮説が真(差あり)
帰無仮説を棄却(有意差あり) 第1種の過誤(α)
誤って「差あり」と判断
正しい判断
(真陽性)
帰無仮説を棄却しない(有意差なし) 正しい判断
(真陰性)
第2種の過誤(β)
本当は差があるのに「差なし」と判断

このうち統計的検出力(パワー)= 1 − β は、「本当に差があるとき、それを正しく検出できる確率」です。

  • α(有意水準): 通常 0.05 に設定。差がないのに誤って「ある」と判断する確率
  • β: 差があるのに「ない」と判断する確率。通常 0.20 以下が目標
  • 検出力 1−β: 差を正しく検出できる確率。通常 0.80(80%)以上が目標

仮説検定の基本的な考え方は仮説検定の考え方と手順で解説しています。

検出力に影響する4つの要因

検出力は以下の4つで決まります。

要因 検出力への影響 実務での対策
サンプルサイズ n nが大きいほど検出力が上がる 実験前にパワー分析でnを決める
効果量 d 差が大きいほど検出しやすい 先行研究や仕様要求から想定差を設定する
有意水準 α αを緩めると検出力が上がるがαエラーも増える 通常は 0.05 のまま変えない
標準偏差 σ ばらつきが小さいほど検出しやすい 測定精度の改善・均質な実験条件

効果量の意味と計算方法は効果量(Cohen’s d・η²)の求め方で解説しています。

例題:t検定のパワー分析

新しい熱処理条件が引張強度を改善するか調べたいとします。既存条件の平均は μ₀ = 200 MPa、標準偏差は σ = 10 MPa です。改善目標は 5 MPa(μ₁ = 205 MPa)で、有意水準 α = 0.05(両側)としてサンプルサイズを検討します。

STEP 1:効果量(Cohen’s d)を計算する

\[
d = \frac{|\mu_1 – \mu_0|}{\sigma} = \frac{|205 – 200|}{10} = 0.5
\]

d = 0.5 は「中程度の効果量」です(Cohen の基準: small = 0.2、medium = 0.5、large = 0.8)。

STEP 2:非心パラメータ δ を計算する

1標本t検定の場合、サンプルサイズ n での非心パラメータは次のとおりです。

\[
\delta = d \times \sqrt{n}
\]

n = 20 のとき:

\[
\delta = 0.5 \times \sqrt{20} = 0.5 \times 4.472 = 2.236
\]

STEP 3:検出力を求める

正規分布による近似で検出力を求めます(α = 0.05 両側の棄却点 z_α/2 = 1.96)。

\[
\text{Power} \approx \Phi(\delta – z_{\alpha/2}) = \Phi(2.236 – 1.96) = \Phi(0.276) \approx 0.609
\]

n = 20 のときの検出力は約 61% です。「差がある場合に61%の確率でしか検出できない」ということになります。目標の80%には届いていません。

STEP 4:目標パワー 0.80 に必要な n を求める

Power = 0.80 には Φ(δ – 1.96) = 0.80 が必要なので、δ – 1.96 = 0.842 → δ = 2.802。

\[
n = \left(\frac{\delta}{d}\right)^2 = \left(\frac{2.802}{0.5}\right)^2 = 5.604^2 \approx 31.4
\]

よって n ≥ 32 が必要です。

目標パワー別のサンプルサイズ早見表

α = 0.05(両側)、1標本t検定における効果量別の必要サンプルサイズです。

効果量 d Power = 0.70 Power = 0.80 Power = 0.90
0.2(小) 155 197 264
0.5(中) 25 32 44
0.8(大) 10 14 19

効果量が小さいほど大きなサンプルサイズが必要になります。製造工程の改善評価では d = 0.5 前後が多く、n ≈ 30〜50 がひとつの目安です。サンプルサイズの計算詳細はサンプルサイズの決め方で解説しています。

実験計画への活用

パワー分析は実験設計の前に実施するのが基本です。流れは次のとおりです。

  • 事前パワー分析:実験前に「この n で本当に差を検出できるか」を確認する
  • 効果量の設定:先行文献・仕様書・過去データから「最低限検出したい差」を決める
  • 結果の解釈:「有意差なし」のとき、パワーが低ければ「差がない」ではなく「検出できなかった」可能性を検討する

「有意差なし = 差がない」という誤解は、パワーが低いまま実験を行った場合に特に起こりやすい問題です。p値の意味についてはp値とはでも整理しています。

まとめ

  • 統計的検出力(パワー)= 1 − β。「真に差があるとき正しく検出できる確率」
  • 目標は Power ≥ 0.80(β ≤ 0.20)。実験前にパワー分析でnを設計する
  • 検出力を上げるには n を増やすか、σを下げるか、大きな効果量を狙う
  • d = 0.5(中程度)・α = 0.05・Power = 0.80 では n ≈ 32 が必要
  • 「有意差なし」の結論は、パワーが十分な場合にのみ「差がない」と解釈できる

効果量の計算は効果量(Cohen’s d・η²)の求め方、サンプルサイズの算出手順はサンプルサイズの決め方で詳しく解説しています。

タイトルとURLをコピーしました