エクセル分析ツール

スピアマン順位相関係数の求め方|ピアソンとの違いとExcelでの計算手順

記事内に広告が含まれています。

品質検査データに「明らかにおかしい1点」が混じっているとき、ピアソン相関係数はその1点に引きずられて大きく変わります。スピアマン順位相関係数を使えば、外れ値の影響を抑えながら2変数の関係の強さを測ることができます。

この記事では、工程温度と収率のデータ(外れ値1点あり)を例に、順位への変換方法・Σd²公式による計算手順・有意性検定まで、Excelで実践できる手順をすべて解説します。ピアソン相関と何が違うのかも数値で比較するので、どちらを使うか迷ったときの判断基準になります。

スピアマン順位相関係数とは

スピアマン順位相関係数(Spearman’s rank correlation coefficient)は、データの値をそのまま使わず、小さい順に付けた順位に変換してからピアソン相関係数と同じ計算をする手法です。1904年にチャールズ・スピアマンが提案しました。

一般に \( r_s \) と表記し、−1〜+1の値をとります。\[ r_s = 1 – \frac{6 \sum d_i^2}{n(n^2 – 1)} \]

\( d_i \) は各データ点の「x の順位 − y の順位」、\( n \) はサンプルサイズです。この式は、ピアソン相関公式を順位データに適用したものと数学的に等価です(タイ〔同順位〕がない場合)。

ピアソン相関係数との違いと使い分け

ピアソン相関係数(\( r \))は2変数の線形な関係の強さを測ります。一方スピアマンは単調な関係(必ずしも直線でなくてよい)の強さを測ります。

比較項目ピアソン相関係数(r)スピアマン順位相関係数(rₛ)
測定する関係線形関係単調な関係(非線形でもOK)
外れ値への影響大きく受ける受けにくい(順位で緩和)
データの尺度間隔尺度・比例尺度順序尺度以上すべて対応
正規性の前提必要(厳密には)不要(ノンパラメトリック)
計算の手軽さ関数一発(CORREL)順位変換が1ステップ増える

スピアマンを使うべき状況は主に次の3つです。データに外れ値が疑われる場合、感能評価や好みの順位のように元々順序尺度の場合、そして変数間の関係が直線より曲線に近い(単調増加・単調減少は成り立つ)場合です。

データが正規分布に近く外れ値もない場合はピアソンで問題ありません。判断に迷ったときは統計的検定の選び方も参考にしてください。

例題:工程温度と収率(外れ値1点あり)

鋼材熱処理工程の10バッチについて、加熱温度(℃)と収率(%)を記録したデータです。ロット4は設備トラブルで収率が大幅に低下しています。

ロット加熱温度 x(℃)収率 y(%)備考
ロット115062
ロット216065
ロット317068
ロット418020設備トラブル(外れ値)
ロット519074
ロット620077
ロット721080
ロット822083
ロット923086
ロット1024089

ロット4を除いた9点は温度が上がるにつれて収率も一定の割合で上昇する完全な直線関係です。ロット4だけが大きく外れています。

STEP 1:順位への変換

スピアマン相関係数を計算するには、まず x と y をそれぞれ小さい順に順位付けします。値が最小のものを1位とします。

ロットx(℃)y(%)x の順位 Rₓy の順位 R_yd = Rₓ − R_y
ロット11506212−11
ロット21606523−11
ロット31706834−11
ロット4180204139
ロット5190745500
ロット6200776600
ロット7210807700
ロット8220838800
ロット9230869900
ロット1024089101000
Σd²12

ポイントはロット4です。温度180℃は4番目に低いのでRₓ = 4ですが、収率20%は全10点の中で最も低いのでR_y = 1になります。その差 d = 4 − 1 = 3、d² = 9 が突出した値になっています。残りの9点は順位が1ずれるだけで d が小さく収まっています。

STEP 2:スピアマン相関係数の計算

Σd² = 12 を公式に代入します。\[ r_s = 1 – \frac{6 \sum d_i^2}{n(n^2-1)} = 1 – \frac{6 \times 12}{10 \times (100-1)} = 1 – \frac{72}{990} \approx 0.927 \]

\( r_s = 0.927 \) です。1に非常に近く、温度と収率の間には強い単調増加の関係があることが示されています。外れ値(ロット4)が d² = 9 の影響を持つものの、9点の「ぴったり対応」する強い単調性がそれを上回っています。

STEP 3:有意性検定(H₀: ρₛ = 0)

「母集団の順位相関係数はゼロ(関係なし)」という帰無仮説を検定します。検定統計量は t 分布に従います。\[ t = \frac{r_s \sqrt{n-2}}{\sqrt{1 – r_s^2}} \]

数値を代入します。\[ t = \frac{0.927 \times \sqrt{8}}{\sqrt{1 – 0.927^2}} = \frac{0.927 \times 2.828}{\sqrt{1 – 0.860}} = \frac{2.623}{\sqrt{0.140}} = \frac{2.623}{0.374} \approx 7.01 \]

自由度は \( df = n – 2 = 8 \) です。両側5%水準の棄却域は \( |t| > 2.306 \) なので、\[ |t| = 7.01 > 2.306 \quad \Rightarrow \quad p < 0.001 \text{(有意)} \]

「温度と収率の間に順位相関はない」という帰無仮説は棄却されます。有意水準0.1%を大きく上回る強い証拠です。

スピアマン相関係数の有意性検定の考え方は、相関係数の有意性検定の記事で詳しく解説しています。

ピアソン相関係数との比較

同じデータでピアソン相関係数を計算するとどうなるでしょうか。\[ \bar{x} = 195.0, \quad \bar{y} = 70.4 \] \[ r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}} = \frac{3240.0}{\sqrt{8250.0 \times 3542.4}} = \frac{3240.0}{5406.0} \approx 0.599 \]

2つの係数を並べると対比が鮮明です。

手法相関係数ロット4の扱い
ピアソン r0.599実際の値(20%)をそのまま使うため外れ値に強く引っ張られる
スピアマン rₛ0.927順位1位として扱われるため影響が限定的

ロット4を除いた9点だけで計算するとピアソン r = 1.000(完全な直線関係)になります。つまり、外れ値1点がピアソンを 1.000 → 0.599 まで引き下げていた一方、スピアマンは 0.927 を維持しています。「9点に強い正の関係がある」という本質的な情報をスピアマンのほうが正しく伝えています。

Excelでの計算手順

RANK.AVG 関数で順位を付ける

ExcelでRANK.AVG関数を使います(タイがある場合は平均順位を返すため、スピアマンの補正版として適切です)。

STEP 1:A列にロット名、B列に温度、C列に収率を入力します。

STEP 2:D2セルに温度の順位を計算します。

=RANK.AVG(B2,$B$2:$B$11,1)

第3引数「1」が昇順(小さいほど順位が高い)を意味します。D2:D11まで同じ式をコピーします。

STEP 3:E2セルに収率の順位を計算します。

=RANK.AVG(C2,$C$2:$C$11,1)

STEP 4:F列に順位差 d = D − E を計算します。

=D2-E2

STEP 5:G列に d² を計算します。

=F2^2

STEP 6:G12セルに Σd² の合計を出します。

=SUM(G2:G11)

STEP 7:H1セルにスピアマン相関係数を計算します。

=1-6*G12/(10*(10^2-1))

サンプルサイズが変わる場合は 10 の部分を COUNT 関数で置き換えます。

=1-6*G12/(COUNT(B2:B11)*(COUNT(B2:B11)^2-1))

CORREL 関数を使う方法(タイなしの場合)

順位を計算したあと、CORREL 関数に順位列を渡すだけでも同じ結果が得られます。タイがない場合に限りこの方法が使えます。

=CORREL(D2:D11,E2:E11)

D列とE列が整備できていれば、この1行で完結します。

タイ(同順位)が発生した場合

2つ以上のデータが同じ値をもつとき、RANK.AVG は平均順位を割り当てます(例:3位・4位タイなら両方3.5位)。このとき上記のΣd²公式は厳密には補正が必要になりますが、タイが少数なら誤差は小さく無視できます。タイが多い場合はCORREL関数で順位列のピアソン相関を取る方法のほうが安全です。

ノンパラメトリック検定との関係

スピアマン順位相関係数はノンパラメトリック検定の一種として位置づけられます。データの正規性を前提にしないため、品質スコアや官能評価のような順序尺度データにも使えます。

相関分析全般の手順については相関分析のやり方と結果の見方も合わせて参照してください。ピアソンとスピアマンを場面に応じて使い分けることで、データの関係をより正確に把握できます。

まとめ

スピアマン順位相関係数の要点をまとめます。

  • データを順位に変換してから相関を計算するため、外れ値の影響を受けにくい
  • 計算式: \( r_s = 1 – 6\Sigma d_i^2 / n(n^2-1) \)。タイがなければ CORREL(順位)でも同値
  • 有意性検定: \( t = r_s\sqrt{n-2}/\sqrt{1-r_s^2} \)、自由度 n−2 の t 分布で判定
  • 今回の例: ピアソン r = 0.60 に対しスピアマン rₛ = 0.927。外れ値1点がピアソンを大きく引き下げていた
  • Excel では RANK.AVG → CORREL(または Σd²公式)の2ステップで完結

「外れ値があるかもしれないが相関を見たい」「感能評価や順位データを扱う」という場面でスピアマン順位相関係数は特に力を発揮します。

相関係数を求めたあとは、その値が統計的に有意かどうかを確認することも大切です。t検定を使った検定手順は相関係数の有意性検定で解説しています。

タイトルとURLをコピーしました