エクセル分析ツール

決定係数(R²)の求め方と解釈|ExcelのRSQ関数と調整済みR²の使い分け

記事内に広告が含まれています。

この記事でわかること

  • R²(決定係数)の定義と計算式(SS_res・SS_tot の意味)
  • ExcelでR²を求める方法(RSQ関数・データ分析ツールの出力の読み方)
  • 調整済みR²との違いと、どちらを使うべきかの判断基準

📌 前提知識:回帰分析の基本的なやり方を読んでいると理解しやすくなります

Excelの回帰分析ツールを実行すると、出力の先頭に「重相関R²」という値が出てきます。0.97という数値を見て「当てはまりが良さそう」と書いたものの、上司に「それって何パーセントなら合格なの?」と聞かれて言葉に詰まった——という経験は少なくないはずです。

R²は回帰式の「当てはまりの良さ」を0〜1で表す指標です。この記事では、加工温度と引張強度のデータを例に、計算の意味から実務での解釈まで解説します。

R²が必要な場面

回帰分析を実行したら、R²の確認は欠かせません。次の3つの場面で特に使います。

① 回帰式が「どれくらい使えるか」を評価する

予測に使う回帰式を作ったとき、「この式はどれだけ信頼できるか」をひとつの数値で示します。R²が低ければ、回帰式による予測のばらつきが大きく、実用に耐えない可能性があります。

② 複数のモデルを比較する

説明変数を変えて複数の回帰モデルを試すとき、R²(または調整済みR²)でモデルの良さを比較します。ただし単純にR²が高ければ良いわけではないため、後述する注意点も合わせて確認してください。

③ 説明変数の予測力を確認する

「加工温度が引張強度をどれくらい説明できているか」を数値で把握します。R²が0.97なら、引張強度のばらつきの97%を加工温度で説明できていることを意味します。

R²の定義と計算式

R²(決定係数)は、全変動のうち回帰式が説明できた割合を表します。

\[ R^2 = 1 – \frac{SS_{res}}{SS_{tot}} = 1 – \frac{\sum(y_i – \hat{y}_i)^2}{\sum(y_i – \bar{y})^2} \]

式の各項の意味は次のとおりです。

  • \( SS_{res} \)(残差の平方和):実測値と予測値の差の二乗和。残差が小さいほど回帰式のあてはまりが良い
  • \( SS_{tot} \)(全体の平方和):実測値と平均値の差の二乗和。データ全体のばらつきを表す

R²は「全体のばらつき(\(SS_{tot}\))のうち、説明できなかった部分(\(SS_{res}\))を1から引いたもの」です。残差が小さいほどR²は1に近づき、回帰式が役に立っていないとR²は0に近づきます。

計算例:加工温度と引張強度の関係

加工温度x(℃)と引張強度y(MPa)のデータ6点で計算します。

加工温度 x(℃) 引張強度 y(MPa)
150 408
160 435
170 442
180 462
190 470
200 495

\( \bar{x} = 175 \)、\( \bar{y} = 452 \)。回帰係数は \( b_1 = 1.6 \)、\( b_0 = 172 \) と求まり、回帰式は次のようになります。

\[ \hat{y} = 172 + 1.6x \]

Excelでは、単回帰係数の計算に SLOPE 関数と INTERCEPT 関数が対応します:

=SLOPE(B2:B7, A2:A7)   → 1.6(b₁)
=INTERCEPT(B2:B7, A2:A7) → 172(b₀)

各点の予測値 \( \hat{y} \) と残差を計算した結果は次のとおりです。

x y ŷ = 172 + 1.6x 残差 y − ŷ 残差²
150 408 412 −4 16
160 435 428 7 49
170 442 444 −2 4
180 462 460 2 4
190 470 476 −6 36
200 495 492 3 9

\( SS_{res} = 16 + 49 + 4 + 4 + 36 + 9 = 118 \)

\( SS_{tot} = (408-452)^2 + (435-452)^2 + (442-452)^2 + (462-452)^2 + (470-452)^2 + (495-452)^2 \)
\( = 1936 + 289 + 100 + 100 + 324 + 1849 = 4598 \)

\[ R^2 = 1 – \frac{118}{4598} = 0.974 \]

引張強度のばらつきの97.4%を、加工温度だけで説明できています。

ExcelでR²を求める方法

手計算以外に、Excelには3つの方法があります。目的に合わせて使い分けてください。

方法① RSQ関数(最も手軽)

RSQ関数はR²を直接返します。単回帰の確認に最も手軽な方法です。

=RSQ(B2:B7, A2:A7)  → 0.974

引数の順番は「RSQ(y範囲, x範囲)」です。xとyが逆になりやすいので注意してください。x範囲を先に書くと正しくない値が返ります。

方法② CORREL関数の2乗(単回帰のみ)

単回帰では、R²は相関係数rの2乗と一致します。

=CORREL(B2:B7, A2:A7)^2  → 0.974

相関係数の計算には CORREL 関数が対応します。こちらは引数の順番(x・yどちらが先でも)を気にしなくて済む利点があります。

方法③ データ分析ツールの回帰分析

「データ」→「データ分析」→「回帰分析」を実行すると、出力の「回帰統計」テーブルに次の値が並んで表示されます。

出力項目名 内容
重相関 R 相関係数 r(R²の平方根)
重決定 R² 決定係数 R²
補正 R² 調整済みR²(後述)

重決定R²の値が R² です。複数の説明変数を使う重回帰では、補正R²(調整済みR²)の値を使うのが原則です。

調整済みR²との違いと使い分け

説明変数が複数ある重回帰分析では、R²ではなく調整済みR²を使うのが原則です。

なぜR²だけでは足りないのか

R²には一つの特性があります。説明変数を増やすと、たとえ意味のない変数であってもR²は必ず上がるか横ばいになり、下がることがありません。説明変数を増やすだけでR²を高く見せることができてしまうため、モデルの比較には使いにくいのです。

調整済みR²の計算式

\[ \bar{R}^2 = 1 – (1 – R^2) \cdot \frac{n-1}{n-p-1} \]

ここで n はサンプルサイズ、p は説明変数の数です。説明変数を増やしても予測への改善効果が薄い場合、調整済みR²は下がる仕組みになっています。

先ほどの例(n=6、p=1)で計算すると:

\[ \bar{R}^2 = 1 – (1 – 0.974) \times \frac{6-1}{6-1-1} = 1 – 0.026 \times \frac{5}{4} = 0.968 \]

ExcelのRSQ関数には調整済みR²を直接求める対応関数がありません。データ分析ツールの回帰分析で「補正R²」として出力されるか、上の式をセルに入力して計算してください。

使い分けの基準

場面 使う指標
単回帰(説明変数1つ)の確認 R²で十分(調整済みR²と近い値になる)
重回帰(説明変数2つ以上) 調整済みR²を使う
モデルを複数比較するとき 調整済みR²で比較する

R²の注意点

① 高いR²が「正しいモデル」を保証するわけではない

残差に規則的なパターン(U字や周期性)が残っていれば、直線ではなく曲線関係が存在する可能性があります。R²は「直線へのあてはまりの良さ」を測るものであり、モデルが正しいことを保証しません。残差分析でパターンがないかを必ず確認してください。

② データ範囲外の予測には使えない

回帰式の外挿(学習データの範囲を超えた予測)はR²が高くても信頼できません。加工温度150〜200℃で作った回帰式を300℃に適用するのは、原理的に根拠がない使い方です。

③ サンプルサイズが少ないとR²は過大評価になる

n=6のような少ないデータでは、偶然の一致でR²が高くなることがあります。製造データでは最低でもn=10〜20程度のサンプルを確保してから判断するのが無難です。

まとめ

  • R² = 1 − SS_res / SS_tot。全変動のうち回帰式が説明できた割合を0〜1で表す
  • ExcelではRSQ(y範囲, x範囲)で求まる。yが先になることに注意
  • 重回帰では変数を増やすだけでR²が上がるため、調整済みR²(データ分析ツールの「補正R²」)を使う
  • R²が高くても残差分析は必須。パターンが残っていれば直線モデルが適切でない可能性がある

使い分けの一言まとめ:単回帰の確認にはRSQ関数が手軽。複数モデルを比較するときはデータ分析ツールで調整済みR²を使う。

R²の確認後は回帰分析の残差分析で前提条件を検証してください。回帰式に含める変数の選び方はステップワイズ変数選択法で解説しています。予測の幅を定量的に評価したい場合は回帰分析の予測区間もあわせて確認してください。

タイトルとURLをコピーしました