統計的仮説検定

相関係数の有意性検定|t検定でρ=0を確認する手順とExcel計算

記事内に広告が含まれています。

「散布図を見たら明らかに右肩上がりなのに、これって本当に相関があると言っていいんだろうか」——こういう場面、製造現場でもデータ分析でもよくあります。

目で見て「相関がある」と判断するのは危険です。サンプル数が少ないと、偶然そう見えているだけかもしれません。それを確認するのが相関係数の有意性検定です。

この記事では、ピアソン相関係数 r が「偶然ゼロでないように見えているだけ」なのか「統計的に意味のある相関がある」のかを判定する手順を解説します。t統計量の計算からExcel関数の使い方、Fisher’s z変換を使った信頼区間まで、例題を通じてひとつずつ確認していきます。

相関係数の有意性検定とは

ピアソン相関係数 r は、n個のサンプルから計算した「標本相関係数」です。真の母集団での相関係数(ρ、ロー)がどこにあるのかは、r だけではわかりません。

有意性検定では、次の仮説を立てます。帰無仮説は「ρ = 0(母集団に相関はない)」、対立仮説は「ρ ≠ 0(母集団に相関がある)」です。

「相関がないと仮定したとき、今回得られた r がこれほど大きくなる確率(p値)はどのくらいか?」——これを計算します。p値が有意水準(通常5%)を下回れば、「偶然ではなく、本当に相関がある」と判断します。

検定統計量 t の計算式

相関係数の有意性検定には、次の t 統計量を使います。\[ t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \]

自由度は \(df = n – 2\) です。t 統計量の絶対値が大きいほど、「H₀(ρ=0)のもとではこんな値は起こりにくい」ということになり、p値が小さくなります。

例題:焼入れ温度とロックウェル硬度の相関検定

n=10の鋼材サンプルについて、焼入れ温度(℃)とロックウェル硬度(HRC)のデータを取得しました。

サンプル焼入れ温度 xᵢ(℃)ロックウェル硬度 yᵢ(HRC)
182057
283060
384059
484562
585064
685561
786065
886563
987066
1087568

STEP 1:平均を求める

\[ \bar{x} = \frac{820+830+\cdots+875}{10} = 851.0 \quad \bar{y} = \frac{57+60+\cdots+68}{10} = 62.5 \]

STEP 2:偏差の積と二乗和を計算する

xᵢyᵢxᵢ−x̄yᵢ−ȳ(xᵢ−x̄)²(yᵢ−ȳ)²
82057−31.0−5.5170.5961.030.25
83060−21.0−2.552.5441.06.25
84059−11.0−3.538.5121.012.25
84562−6.0−0.53.036.00.25
85064−1.01.5−1.51.02.25
855614.0−1.5−6.016.02.25
860659.02.522.581.06.25
8656314.00.57.0196.00.25
8706619.03.566.5361.012.25
8756824.05.5132.0576.030.25
合計485.02790.0102.50

STEP 3:相関係数 r を計算する

\[ r = \frac{\sum(x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \cdot \sum(y_i-\bar{y})^2}} = \frac{485.0}{\sqrt{2790.0 \times 102.50}} = \frac{485.0}{\sqrt{285975}} = \frac{485.0}{534.8} \approx 0.907 \]

STEP 4:t 統計量を計算する

\[ t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{0.907 \times \sqrt{8}}{\sqrt{1-0.907^2}} = \frac{0.907 \times 2.828}{\sqrt{0.178}} = \frac{2.565}{0.421} \approx 6.09 \]

STEP 5:p値と判定

自由度 df = 10 − 2 = 8 の t 分布で考えます。有意水準 α = 0.05(両側)の臨界値は t(0.05, 8) = 2.306 です。

今回の t 統計量は 6.09 なので、2.306 を大きく上回ります。p値は約 0.0003 で、有意水準 0.05 を大幅に下回りました。

→ 帰無仮説 H₀(ρ=0)を棄却。焼入れ温度とロックウェル硬度の間には、統計的に有意な正の相関があります(r = 0.907, p < 0.001)

Excelで計算する手順

相関係数 r の計算

ExcelのCORREL関数を使えば r を一発で求められます。

=CORREL(A2:A11, B2:B11)

A列に焼入れ温度、B列に硬度データが入力されている場合の例です。結果は 0.9069 になります。

t 統計量の計算

CORREL関数の結果を C1 セルに入れたとして、t 統計量は次の式で計算できます。

=C1*SQRT(10-2)/SQRT(1-C1^2)

10 の部分はサンプルサイズ n に合わせて変更してください。

p値の計算(両側)

t 統計量を D1 セルに入れたとして、p値は T.DIST.2T 関数で求めます。

=T.DIST.2T(ABS(D1), 10-2)

第2引数が自由度(n−2)です。この例では p ≈ 0.0003 が返ってきます。

なお、Excel の「データ分析ツール → 相関」を使うと相関係数は一発で出ますが、p値は出力されません。p値まで確認したい場合は上記の計算式を手動で組む必要があります。相関係数だけ見て「相関がある」と結論を出してしまうのは危険で、これが意外と見落とされがちなポイントです。

信頼区間の求め方(Fisher’s z 変換)

「r = 0.907 だった」というだけでなく、母相関係数 ρ の推定範囲を示したい場面もあります。このときは Fisher’s z 変換を使います。

r をそのまま信頼区間に使おうとすると、r が ±1 に近いほど分布が歪んで正確な区間が出ません。Fisher’s z 変換はこれを補正する手法です。

まず r を z’ に変換します。\[ z’ = \frac{1}{2}\ln\frac{1+r}{1-r} = \frac{1}{2}\ln\frac{1+0.907}{1-0.907} = \frac{1}{2}\ln(20.51) \approx 1.510 \]

z’ の標準誤差は \( SE(z’) = 1/\sqrt{n-3} = 1/\sqrt{7} \approx 0.378 \) になります。これを使って95%信頼区間を作ります。\[ 1.510 \pm 1.96 \times 0.378 \quad \Rightarrow \quad [0.769,\ 2.251] \]

最後に逆変換 \( r = (e^{2z’}-1)/(e^{2z’}+1) \) で元のスケールに戻すと、下限 z’ = 0.769 → r ≈ 0.65、上限 z’ = 2.251 → r ≈ 0.98 になります。

母相関係数 ρ の 95%信頼区間は [0.65, 0.98]。下限でも0.65あるので、かなり強い正の相関が母集団にもあると推定できます。

Excelでのz’変換式は次のとおりです(r が C1 セルの場合)。

=0.5*LN((1+C1)/(1-C1))

片側検定を使う場面

今回は「相関があるかどうか」を調べたので両側検定を使いました。「正の相関があるかどうか」だけを確認したい場合は片側検定が選択肢に入ります。「温度を上げると硬度が上がるはずだ」という事前の根拠がある場合などです。Excelでの使い方はそれぞれ以下のとおりです。

  • 両側:=T.DIST.2T(ABS(t), df) ← H₁: ρ ≠ 0
  • 正の方向の片側:=T.DIST.RT(t, df) ← H₁: ρ > 0
  • 負の方向の片側:=T.DIST(t, df, TRUE) ← H₁: ρ < 0

根拠なしに片側検定を選ぶとp値が半分になって「有意に見えやすくなる」だけなので、迷ったら両側検定を使いましょう。

有意性と相関の強さは別の話

p値が低くて「有意な相関」と判定されても、それは「ゼロではない」と言えるだけで、「強い相関がある」とは限りません。サンプル数が大きいほど弱い相関でも有意になりやすいです。

例えば n=1000 なら r = 0.07 でも p値が 0.05 を下回ることもあります。r = 0.07 は実務上ほとんど意味のない関係です。

相関係数の強さの目安はこちらを参考にしてください。

|r| の値相関の強さ
0.7 〜 1.0強い相関
0.4 〜 0.7中程度の相関
0.2 〜 0.4弱い相関
0.0 〜 0.2ほぼ相関なし

論文や社内報告で相関分析の結果を示すときは、r と p値をセットで報告するのが作法です。「r = 0.907(p < 0.001)」のように書きます。信頼区間も添えると説得力が増します。

まとめ

相関係数の有意性検定は、 \( t = r\sqrt{n-2}/\sqrt{1-r^2} \) というt統計量を使って H₀: ρ = 0 を検定する手順です。自由度は n−2、ExcelではCORREL → T.DIST.2T の流れで計算できます。

ひとつ覚えておいてほしいのは、p値が有意かどうかと「相関が強いかどうか」は別の話だという点です。n=1000あればr=0.07でも有意になります。rの値そのものを見て強さを判断し、可能なら信頼区間(Fisher’s z変換で95%CI)まで示すと報告の質が上がります。

相関係数を使うときは、まず散布図で外れ値や非線形な関係がないか目視確認してから検定に進むのがおすすめです。散布図の読み方や相関係数の計算手順は相関分析のやり方と結果の見方で詳しく説明しています。

また、有意性検定を行う前にサンプルサイズが十分かどうかも確認しておくといいでしょう。必要なn数の計算手順はサンプルサイズの決め方で解説しています。

相関があると確認できたら、次のステップは回帰分析です。回帰分析のやり方と結果の見方で具体的な手順を確認してみてください。

データに外れ値がある場合や正規性が担保されない場合は、スピアマン順位相関係数とその有意性検定を使う方法も解説しています。ピアソンとスピアマンの使い分けの参考にしてください。

タイトルとURLをコピーしました