「焼入温度と硬度に強い相関があった。では、温度から硬度を予測する式も作れるはず——」。こうした判断で回帰分析に進む前に、少し立ち止まる必要があります。相関分析と回帰分析はどちらも2変数の関係を扱う手法ですが、目的がまったく異なります。
この記事では、相関分析と回帰分析の違い・使い分けの基準を整理し、焼入温度と硬度を題材にした例題でExcelの操作手順まで解説します。
相関分析と回帰分析、何が違うのか
まず、2つの手法が「何を目的としているか」を確認します。
相関分析:関係の強さと方向を測る
相関分析は、2つの変数XとYの間にどれだけ強い直線的な関係があるかを、相関係数\(r\)(ピアソンの積率相関係数)という一つの数値で表します。\[r = \frac{\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i – \bar{x})^2 \cdot \sum_{i=1}^{n}(y_i – \bar{y})^2}}\]
\(r\)は-1から+1の範囲をとり、+1に近いほど強い正の相関、-1に近いほど強い負の相関、0に近いほど関係が弱いことを意味します。重要な点として、相関分析ではXとYのどちらが原因でどちらが結果かを問いません。
回帰分析:予測式を作る
回帰分析は、「Xがわかれば、Yの値を予測できる式」を作ることを目的とします。単回帰分析では次の直線を求めます。\[\hat{y} = bx + a\]
ここで\(b\)は回帰係数(傾き)、\(a\)は切片です。回帰分析にはXとYの間に「XがYに影響する」という方向性の仮定が必要です。XとYを入れ替えて分析すると、異なる式が得られます。
どちらを使うか:判断基準
2手法の使い分けは、「目的が関係の確認か、予測か」で決まります。
| やりたいこと | 使う手法 | Excelの関数・機能 |
|---|---|---|
| 2変数の関係の強さを確認したい | 相関分析 | CORREL関数 |
| XからYの値を予測する式が欲しい | 回帰分析 | 分析ツール / SLOPE・INTERCEPT関数 |
| XとYのどちらが原因かわからない | 相関分析 | CORREL関数 |
| 複数の要因からYを予測したい | 重回帰分析 | 分析ツール(回帰) |
製造業の現場での判断例を挙げると次のとおりです。
- 「温度と硬度に関係があるか確認したい」→ 相関分析
- 「温度の設定値から硬度を事前に予測したい」→ 回帰分析
- 「設備AとBで測定値に違いがあるか調べたい」→ 相関分析ではなくt検定
例題:焼入温度と硬度の分析(n=10)
熱処理工程で焼入温度(℃)と硬度(HRC)を10ロット測定したデータを使い、相関分析→回帰分析の順で進めます。
| ロット | 焼入温度 X(℃) | 硬度 Y(HRC) |
|---|---|---|
| 1 | 820 | 58 |
| 2 | 835 | 61 |
| 3 | 840 | 63 |
| 4 | 850 | 65 |
| 5 | 860 | 67 |
| 6 | 865 | 68 |
| 7 | 870 | 70 |
| 8 | 880 | 71 |
| 9 | 885 | 72 |
| 10 | 890 | 74 |
平均はX̄ = 859.5℃、Ȳ = 66.9 HRC です。
Step 1:相関分析で関係の強さを確認する
まず散布図を作成し、直線的な関係が見えることを確認します。続いて相関係数を計算します。
計算に必要な3つの値を求めます。\[\sum_{i=1}^{10}(x_i – \bar{x})(y_i – \bar{y}) = 1059.50\] \[\sum_{i=1}^{10}(x_i – \bar{x})^2 = 4772.50, \quad \sum_{i=1}^{10}(y_i – \bar{y})^2 = 236.90\]
相関係数は次のとおりです。\[r = \frac{1059.50}{\sqrt{4772.50 \times 236.90}} = \frac{1059.50}{1063.30} = 0.996\]
\(r = 0.996\)は非常に強い正の相関です。ただし、この値が偶然生じた可能性も考慮し、相関係数の有意性検定を行います。\[t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{0.996 \times \sqrt{8}}{\sqrt{1-0.993}} = \frac{2.818}{0.0837} = 33.7\]
自由度\(\nu = n-2 = 8\)、有意水準5%(両側)の棄却限界値は\(t_{0.025}(8) = 2.306\)です。\(t = 33.7 \gg 2.306\)なので、この相関係数は統計的に有意です(p < 0.001)。
相関の有意性検定の詳細な手順は相関係数の有意性検定|t検定でρ=0を確認する手順とExcel計算を参照してください。
Step 2:回帰分析で予測式を作る
強い相関が確認されたうえで、「温度から硬度を予測したい」という目的がある場合は回帰分析に進みます。
回帰係数(傾き)\(b\)を求めます。\[b = \frac{\sum(x_i – \bar{x})(y_i – \bar{y})}{\sum(x_i – \bar{x})^2} = \frac{1059.50}{4772.50} = 0.222\]
切片\(a\)は次のとおりです。\[a = \bar{y} – b\bar{x} = 66.9 – 0.222 \times 859.5 = 66.9 – 190.8 = -123.9\]
よって、回帰式は次のとおりです。\[\hat{y} = 0.222x – 123.9\]
決定係数\(R^2 = r^2 = 0.996^2 = 0.993\)は、データのばらつきの99.3%がこの回帰式で説明できることを意味します。適合度は非常に高い状態です。
例えば焼入温度\(x = 855\)℃のロットを追加した場合、予測硬度は次のとおりです。\[\hat{y} = 0.222 \times 855 – 123.9 = 189.8 – 123.9 = 65.9 \text{ HRC}\]
Excelでの操作手順
相関係数の計算(CORREL関数)
XのデータをA列、YのデータをB列に入力した場合、任意のセルに次の式を入力します。
=CORREL(A2:A11, B2:B11)
結果として0.996が返ります。
回帰分析(分析ツール)
- 「データ」タブ → 「データ分析」→「回帰分析」を選択
- 入力Y範囲:硬度データ(B列)を指定
- 入力X範囲:温度データ(A列)を指定
- 出力先を指定して「OK」
出力された「係数」の行から、切片(-123.9)と焼入温度の係数(0.222)が確認できます。
分析ツールを使わない場合は、傾きに=SLOPE(B2:B11, A2:A11)、切片に=INTERCEPT(B2:B11, A2:A11)、決定係数に=RSQ(B2:B11, A2:A11)を使います。
より詳しい回帰分析の操作手順は回帰分析のやり方と結果の見方を参照してください。
よくある間違い
「相関が高いから回帰できる」は論理の飛躍
相関係数が高いことと、回帰式の予測精度が高いことは別の話ではありません——\(R^2 = r^2\)なので数値的には連動しています。問題は「因果関係の方向性」です。温度が上がると硬度が上がる、という物理的な根拠があって初めて「温度→硬度」という向きで回帰分析に意味が生まれます。相関だけ確認して因果の方向を検討しないまま回帰式を作ると、解釈を誤ります。
相関係数だけで「関係がある」とは言えない
サンプル数が少ない場合、相関係数が0.8程度あっても統計的に有意でないことがあります。必ず有意性検定(t検定)をセットで実施してください。
非線形の関係に相関係数を使う
ピアソンの相関係数は「直線的な関係」の強さを測るものです。U字型や指数的な関係では、実際には関係があっても相関係数が低く出ることがあります。まず散布図を確認するのが基本です。
まとめ
相関分析と回帰分析の使い分けは、次の一点で決まります。
- 関係の強さを確認したい(予測は必要ない)→ 相関分析
- XからYを予測する式が欲しい(因果の方向性がある)→ 回帰分析
本記事の例題では、焼入温度と硬度の相関係数\(r = 0.996\)(有意)を確認したうえで、回帰式\(\hat{y} = 0.222x – 123.9\)(\(R^2 = 0.993\))を導出しました。実務では相関分析で関係の有無を確かめてから、予測の必要性があれば回帰分析へ進む、という順序が安全です。
複数の要因からYを予測したい場合は重回帰分析の結果の読み方と変数選択へ、変数の選択方法を自動化したい場合はステップワイズ変数選択法を参照してください。回帰・相関を含む多変量解析手法の全体像は多変量解析とは|手法の選び方と9種類を目的別に整理にまとめています。

