統計的検出力（パワー分析）とは｜β・第2種の過誤とサンプルサイズの設計

「検定で有意差なし（p > 0.05）だったから差はない」という結論は正しくないことがあります。サンプルサイズが不十分な場合、本当は差があるのに検出できない（第2種の過誤）可能性があるためです。

この記事では、統計的検出力（パワー）の意味と計算方法を解説します。t検定のパワー分析を例に、α・β・効果量・サンプルサイズの関係を整理し、目標パワー0.80を達成するためのnの設計方法まで説明します。

この記事でわかること

2種類の過誤と検出力

仮説検定の結果は「棄却する・しない」の2択ですが、真の状態との組み合わせで4通りの結果が生じます。

	帰無仮説が真（差なし）	対立仮説が真（差あり）
帰無仮説を棄却（有意差あり）	第1種の過誤（α）誤って「差あり」と判断	正しい判断（真陽性）
帰無仮説を棄却しない（有意差なし）	正しい判断（真陰性）	第2種の過誤（β）本当は差があるのに「差なし」と判断

このうち統計的検出力（パワー）= 1 − β は、「本当に差があるとき、それを正しく検出できる確率」です。

仮説検定の基本的な考え方は仮説検定の考え方と手順で解説しています。

検出力は以下の4つで決まります。

効果量の意味と計算方法は効果量（Cohen’s d・η²）の求め方で解説しています。

新しい熱処理条件が引張強度を改善するか調べたいとします。既存条件の平均は μ₀ = 200 MPa、標準偏差は σ = 10 MPa です。改善目標は 5 MPa（μ₁ = 205 MPa）で、有意水準 α = 0.05（両側）としてサンプルサイズを検討します。

\[ d = \frac{|\mu_1 – \mu_0|}{\sigma} = \frac{|205 – 200|}{10} = 0.5 \]

d = 0.5 は「中程度の効果量」です（Cohen の基準: small = 0.2、medium = 0.5、large = 0.8）。

1標本t検定の場合、サンプルサイズ n での非心パラメータは次のとおりです。

\[ \delta = d \times \sqrt{n} \]

n = 20 のとき:

\[ \delta = 0.5 \times \sqrt{20} = 0.5 \times 4.472 = 2.236 \]

正規分布による近似で検出力を求めます（α = 0.05 両側の棄却点 z_α/2 = 1.96）。

\[ \text{Power} \approx \Phi(\delta – z_{\alpha/2}) = \Phi(2.236 – 1.96) = \Phi(0.276) \approx 0.609 \]

n = 20 のときの検出力は約 61% です。「差がある場合に61%の確率でしか検出できない」ということになります。目標の80%には届いていません。

Power = 0.80 には Φ(δ – 1.96) = 0.80 が必要なので、δ – 1.96 = 0.842 → δ = 2.802。

\[ n = \left(\frac{\delta}{d}\right)^2 = \left(\frac{2.802}{0.5}\right)^2 = 5.604^2 \approx 31.4 \]

よって n ≥ 32 が必要です。

α = 0.05（両側）、1標本t検定における効果量別の必要サンプルサイズです。

効果量 d	Power = 0.70	Power = 0.80	Power = 0.90
0.2（小）	155	197	264
0.5（中）	25	32	44
0.8（大）	10	14	19

効果量が小さいほど大きなサンプルサイズが必要になります。製造工程の改善評価では d = 0.5 前後が多く、n ≈ 30〜50 がひとつの目安です。サンプルサイズの計算詳細はサンプルサイズの決め方で解説しています。

パワー分析は実験設計の前に実施するのが基本です。流れは次のとおりです。

「有意差なし = 差がない」という誤解は、パワーが低いまま実験を行った場合に特に起こりやすい問題です。p値の意味についてはp値とはでも整理しています。

効果量の計算は効果量（Cohen’s d・η²）の求め方、サンプルサイズの算出手順はサンプルサイズの決め方で詳しく解説しています。

検出力の土台となるαとβの関係（トレードオフ）は、第1種の誤りと第2種の誤りで整理しています。