エクセル分析ツール

相関行列の作り方|Excelで複数変数の相関を一括分析

記事内に広告が含まれています。

この記事でわかること

  • 相関行列の作り方(分析ツールパック・CORREL関数の2方法)
  • 相関行列の読み方と多重共線性チェックへの活用
  • 4変数以上のデータを一括分析する手順
  • 散布図行列との組み合わせによる視覚的な確認方法

📌 前提知識:散布図の作り方相関分析と回帰分析の違いを先に読んでおくと理解が深まります

品質改善の会議で「加工温度・加工時間・硬度・引張強度の4つを同時に分析してほしい」と言われた。2変数ずつ散布図を描いていくと6通りもある。こういった場面で使うのが相関行列だ。

相関行列は、複数変数間のすべての組み合わせの相関係数を一覧表にまとめたものだ。4変数なら6通り、5変数なら10通りの相関を一度に把握できる。重回帰分析の前処理や多変量解析の第一歩として必ず登場する。この記事ではExcelでの作成手順を2通り解説する。

相関行列を使う場面・条件

相関行列が特に有効なのは以下の場面だ。

  • 3変数以上の品質特性・プロセス条件の関係を一度に把握したい
  • 重回帰分析の前に多重共線性(変数同士の強い相関)を確認したい
  • どの変数が結果(品質特性)と最も強く関連しているか絞り込みたい
  • 主成分分析・クラスター分析などの多変量解析の前処理として使いたい

注意点が1つある。相関係数はあくまで線形関係の強さを測る指標だ。U字型など非線形の関係がある場合、r≈0でも実際には強い関係がある可能性がある。まず散布図で全体の傾向を確認してから相関行列を作るのが正しい手順だ。

相関行列の読み方

相関行列は縦横に同じ変数を並べた正方形の表だ。以下の特徴を覚えておく。

  • 対角線(左上〜右下)は必ず 1.000(自分自身との相関)
  • 対角線を挟んで上半分と下半分は同じ値(対称行列)
  • 通常は下三角または上三角のみを使う

相関係数 r の読み方の目安は以下のとおりだ。

|r| の範囲 相関の強さの目安 判断
0.7 以上 強い相関 重回帰分析では多重共線性に注意
0.4〜0.7 中程度の相関 関係あり・追加調査を検討
0.2〜0.4 弱い相関 傾向はあるが小さい
0.2 未満 ほぼ無相関 線形関係なし

相関係数の計算式は以下だ。

\[ r = \frac{\sum(x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum(x_i – \bar{x})^2 \cdot \sum(y_i – \bar{y})^2}} \]

Excelでは1ペアの相関係数を次の関数で求められる。

=CORREL(配列1, 配列2)   ← 例: =CORREL(A2:A7, B2:B7)

Excelでの作成手順①:分析ツールパックを使う方法

4変数以上の相関行列を一括で作るなら分析ツールパック(アドイン)が最も効率的だ。

データの準備

以下は金属部品加工ラインのデータ6サンプルだ(A列〜E列に入力する)。

サンプル 加工温度(°C) 加工時間(秒) 硬度(HV) 引張強度(MPa)
1 150 28 183 415
2 160 35 191 440
3 170 33 198 450
4 180 40 208 468
5 190 38 213 475
6 200 45 224 500

操作手順

  1. 「データ」タブ → 「データ分析」をクリック(表示されない場合はアドインを有効化)
  2. 「相関」を選択して「OK」
  3. 「入力範囲」に変数名ヘッダーを含む範囲を入力(例:B1:E7)
  4. 「先頭行をラベルとして使用」にチェック
  5. 「出力先」に表を置く先頭セルを指定して「OK」

出力される相関行列

Excelが出力する相関行列(下三角形式)は以下のとおりだ。

加工温度 加工時間 硬度 引張強度
加工温度 1.000
加工時間 0.917 1.000
硬度 0.997 0.939 1.000
引張強度 0.989 0.960 0.994 1.000

読み取れる情報は2つだ。まず「加工温度↔硬度(r=0.997)」「加工温度↔引張強度(r=0.989)」の相関が非常に強く、加工温度が両方の品質特性を支配していることがわかる。次に全ペアでr>0.9と高相関なため、この4変数を重回帰分析に投入すると多重共線性が発生する可能性が高い。

Excelでの作成手順②:CORREL関数で手動作成する方法

分析ツールパックを使わずCORREL関数だけで相関行列を作ることもできる。変数が少ない場合や、出力形式を自由にカスタマイズしたい場合に有効だ。

手順

変数名を縦横に並べた空の行列をまず作り、各セルにCORREL関数を入力する。

※ データ範囲の例:
  加工温度 … B2:B7
  加工時間 … C2:C7
  硬度     … D2:D7
  引張強度 … E2:E7

加工温度×硬度のセル: =CORREL($B$2:$B$7, $D$2:$D$7)   → 0.997
加工時間×引張強度:   =CORREL($C$2:$C$7, $E$2:$E$7)   → 0.960

「$」で範囲を絶対参照にしておくと、数式のコピーで自動化できる。6変数以上になる場合はこの方法より分析ツールパックの方が効率的だ。

注意点:有意性の確認

相関係数が高くても、サンプルサイズが小さいと統計的に有意でない場合がある。今回のn=6は少ないため、実務では最低n=30以上を推奨する。有意性の確認には相関係数のt検定を用いる。

\[ t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \]

Excelでは次の数式でt値を計算できる。

t値: =r*SQRT(n-2)/SQRT(1-r^2)
p値: =T.DIST.2T(t値, n-2)   ← 両側検定

相関係数の有意性検定の詳細は相関係数の有意性検定で解説している。

まとめ

相関行列のキーポイントをまとめる。

  • 相関行列は複数変数間のすべての相関係数を一覧表示した正方行列で、対角線は常に1.000
  • Excelでの作成は「分析ツールパック→相関」が最も効率的(3変数以上ならこれ一択)
  • r=0.997など非常に高い相関が複数あれば多重共線性の可能性があり、重回帰分析の前に必ず確認する
  • 相関行列はあくまで線形関係を見るもの。散布図と組み合わせて非線形関係がないかを目視確認すること
  • サンプルサイズが小さい(n<30)場合は相関係数の有意性検定も実施する

使い分けの一言まとめ:2変数の関係を視覚確認するなら散布図、3変数以上を一括比較するなら相関行列、その後の定量分析には重回帰分析へ進む。

次のステップとして参考にしてほしい記事を紹介する。

タイトルとURLをコピーしました