エクセル分析ツール

偏相関係数の求め方|交絡変数を除いた相関をExcelで計算する手順

記事内に広告が含まれています。

「炭素量が多いほど引張強度が高い(r=0.84)」という相関が出たとします。しかし炭素量が多いバッチほど焼入れ温度も高く設定されていたとしたら、この相関は本当に炭素量の効果なのか、焼入れ温度の効果なのかが判断できません。

こうした第3変数(交絡変数)の影響を統計的に取り除いた相関係数を偏相関係数といいます。この記事では、偏相関係数の計算式とExcelでの求め方を製造工程の例で解説します。

この記事でわかること

  • 偏相関係数とは何か(擬似相関との関係)
  • 偏相関係数の計算式と手計算の手順
  • ExcelのCORREL関数を使った計算ステップ
  • 単純相関係数との見比べ方・解釈の注意点

偏相関係数とは

2変数間の相関係数(ピアソン相関係数)は、第3変数の影響を含んだまま計算されます。その第3変数(交絡変数・制御変数)の影響を取り除いた後の相関を偏相関係数(partial correlation coefficient)といいます。

使いどころは3つあります。

  • 2変数の相関が「共通の原因(第3変数)」で生まれている疑いがあるとき
  • 重回帰分析の前に、各変数が目的変数と独立した関係を持つか確かめたいとき
  • 多重共線性の診断(VIFと一緒に使うと変数の絡みが見えやすい)

例題データ

鉄鋼製品の品質データです。炭素量(x₁)・焼入れ温度(z)・引張強度(y)を6バッチ分測定しました。

バッチ 炭素量 x₁(%) 焼入れ温度 z(℃) 引張強度 y(MPa)
1 0.4 820 440
2 0.5 850 480
3 0.4 870 500
4 0.6 900 540
5 0.5 880 510
6 0.6 920 560

炭素量が多いバッチほど焼入れ温度も高い傾向があります。この3変数の関係を分解するのが今回の目的です。

単純相関係数を求める

まず3ペアの相関係数を相関分析で求めます。

計算結果

ペア 相関係数 r 強弱の目安
炭素量(x₁)× 引張強度(y) r = 0.836 強い正の相関
焼入れ温度(z)× 引張強度(y) r = 0.998 きわめて強い正の相関
炭素量(x₁)× 焼入れ温度(z) r = 0.817 強い正の相関

相関係数の強弱の読み方は相関係数の読み方|強弱の目安を参照してください。

手計算の確認(r(x₁,y)の例)

平均値:x̄₁ = 0.5(%)、ȳ = 505(MPa)

バッチ x₁ − x̄₁ y − ȳ (x₁−x̄₁)² (y−ȳ)²
1 −0.1 −65 6.5 0.01 4225
2 0.0 −25 0.0 0.00 625
3 −0.1 −5 0.5 0.01 25
4 0.1 35 3.5 0.01 1225
5 0.0 5 0.0 0.00 25
6 0.1 55 5.5 0.01 3025
合計 16.0 0.04 9150

\[
r(x_1, y) = \frac{16.0}{\sqrt{0.04 \times 9150}} = \frac{16.0}{\sqrt{366}} = \frac{16.0}{19.13} = 0.836
\]

偏相関係数の計算式

変数 x₁ と y の相関から、変数 z の影響を取り除いた偏相関係数 r₁₂·₃ は次の式で求めます。

\[
r_{12 \cdot 3} = \frac{r_{12} – r_{13} \cdot r_{23}}{\sqrt{(1 – r_{13}^2)(1 – r_{23}^2)}}
\]

ここで:

  • r₁₂ = x₁ と y の単純相関係数(= 0.836)
  • r₁₃ = x₁ と z(焼入れ温度)の単純相関係数(= 0.817)
  • r₂₃ = z(焼入れ温度)と y の単純相関係数(= 0.998)

計算の実行

⚠️ 計算の注意: r(z,y) は表では「0.998」と表示しましたが、Excelの CORREL 関数の正確な値は 0.9984(小数点4桁)です。偏相関係数は (1 − r²) を計算するため、r が1に近い場合は丸め誤差が大きく増幅されます。必ず4桁以上の精度で計算してください。

以下では小数点4桁の値を使います(Excelで =CORREL(…) を実行した値)。

  • r₁₂ = r(x₁, y) = 0.8358
  • r₁₃ = r(x₁, z) = 0.8167
  • r₂₃ = r(z, y) = 0.9984

分子:

\[
r_{12} – r_{13} \cdot r_{23} = 0.8358 – 0.8167 \times 0.9984 = 0.8358 – 0.8154 = 0.0204
\]

分母:

\[
\sqrt{(1 – 0.8167^2)(1 – 0.9984^2)} = \sqrt{(1 – 0.6670)(1 – 0.9968)} = \sqrt{0.3330 \times 0.0032} = \sqrt{0.001066} = 0.0327
\]

偏相関係数:

\[
r_{12 \cdot 3} = \frac{0.0204}{0.0327} \approx 0.63
\]

単純相関 r = 0.84 から偏相関 r = 0.63 に低下しました。焼入れ温度の影響を取り除くと、炭素量単独の引張強度への効果は「中程度の正の相関」であることがわかります。

Excelでの計算手順

Excelには偏相関係数を直接求める関数がありません。次の手順でCORREL関数を組み合わせて計算します。

手順1:データを入力する

A列にバッチ番号、B列に炭素量(x₁)、C列に焼入れ温度(z)、D列に引張強度(y)を入力します(行1はヘッダー、データは2〜7行)。

手順2:単純相関係数を3ペア求める

=CORREL(B2:B7, D2:D7)   ' r(x₁,y) → 0.836
=CORREL(B2:B7, C2:C7)   ' r(x₁,z) → 0.817
=CORREL(C2:C7, D2:D7)   ' r(z,y)   → 0.998

計算結果をそれぞれ E2・E3・E4 に入力しておきます。

手順3:偏相関係数の式をセルに入力する

=(E2 - E3*E4) / SQRT((1-E3^2)*(1-E4^2))

この式が前のセクションの計算式をそのままExcelで表現したものです。結果は約 0.63 になります(Excelが内部で丸め誤差なく計算するため)。

補足:残差法による確認

偏相関係数は「残差どうしの相関」とも言われます。以下の手順で同じ結果が得られます。

  1. y を z で単回帰し、残差 eᵧ を求める
  2. x₁ を z で単回帰し、残差 eₓ₁ を求める
  3. =CORREL(eᵧ 列, eₓ₁ 列) → 偏相関係数が得られる

両方の方法で同じ値が得られることを確認すると、計算ミスの検出に役立ちます。

結果の解釈

単純相関と偏相関の比較

指標 炭素量 × 引張強度 焼入れ温度 × 引張強度
単純相関係数 r = 0.836 r = 0.998
偏相関係数(相手を制御) r = 0.63 (焼入れ温度を主変数として解析する場合に算出)

解釈のポイント

  • 偏相関 < 単純相関:交絡変数(z)が x₁ と y の両方に影響していた。x₁ の「見かけの相関」の一部は z によるものだった
  • 偏相関 > 単純相関:z が x₁ と y を逆方向に引っ張っており、z を制御すると真の関係が強く現れる(抑制効果)
  • 偏相関 ≈ 0:z を取り除くと x₁ と y はほぼ無関係 → 擬似相関の可能性が高い

偏相関係数の有意性検定は相関係数の有意性検定と同じ t 検定で確認できます(自由度は n − 3 になります)。

スピアマン偏相関

順序データや外れ値が多い場合は、単純相関の部分をスピアマン順位相関係数に置き換えて偏相関を求めることもできます。計算式の構造は同じです。

まとめ

  • 偏相関係数は、第3変数(交絡変数)の影響を取り除いた2変数間の相関係数
  • 計算式:r₁₂·₃ = (r₁₂ − r₁₃·r₂₃) / √[(1−r₁₃²)(1−r₂₃²)]
  • Excelではまず3ペアの単純相関をCORREL関数で求め、式に代入する
  • 単純相関より偏相関が小さければ、交絡変数の影響が含まれていたことを示す
  • 偏相関 ≈ 0 は擬似相関の疑いがある

偏相関係数は「相関があるから使う変数に入れる」という安易な変数選択を防ぐツールでもあります。重回帰分析の前に一度計算しておくと、後から「この変数、焼入れ温度と重複していた」という失敗を減らせます。

タイトルとURLをコピーしました