エクセル分析ツール

データの標準化・正規化|Zスコア・min-max・対数変換をExcelで実践

記事内に広告が含まれています。

主成分分析・重回帰分析・クラスター分析など多変量解析を行う前に、変数ごとのスケール(単位・大きさ)を揃える前処理が必要です。引張強度(MPa)と表面粗さ(μm)のように単位が異なる変数をそのまま分析すると、スケールの大きい変数が結果を支配してしまいます。

この記事では、標準化(Zスコア)・正規化(min-max)・対数変換の3種類の手法を製造品質データの例で解説します。それぞれのExcelでの実装手順と、どの手法を選ぶかの判断基準まで整理します。

この記事でわかること

  • 「標準化」と「正規化」の違い(混同されやすい)
  • Zスコア標準化の計算式とExcelでの実装
  • min-max正規化の計算式とExcelでの実装
  • 対数変換が有効な場面
  • どの手法を選ぶかの判断基準

前処理が必要な理由

次のような状況では、変換なしに多変量解析を行うと正確な結果が得られません。

  • 単位・スケールが異なる:引張強度(150〜250 MPa)と表面粗さ(0.5〜2.0 μm)を同じ分析に使うとき
  • 分布が正規分布から大きく外れている:粒径・不良率・コストなどの右に裾が長い分布(右歪み)のとき
  • ゼロ付近に密集しているが大きな外れ値がある:工程異常のログデータなど

特に主成分分析(PCA)クラスター分析重回帰分析はスケールの影響を受けやすく、前処理は必須です。

例題データ

3種類の製品品質指標(単位が異なる)を5ロット分測定したデータです。

ロット 引張強度(MPa) 表面粗さ(μm) 加工温度(℃)
ロット1 200 0.8 160
ロット2 215 1.2 170
ロット3 210 1.0 165
ロット4 225 1.5 175
ロット5 230 1.8 180

引張強度は200〜230の範囲(差30)ですが、表面粗さは0.8〜1.8の範囲(差1.0)です。スケールをそのまま使うと引張強度の変動が分析を支配してしまいます。

Zスコア標準化

各データから平均を引いて標準偏差で割る変換です。変換後のデータは平均0・標準偏差1になります。

\[
z_i = \frac{x_i – \bar{x}}{s}
\]

引張強度のZスコア計算例

平均 = (200+215+210+225+230)/5 = 216.0 MPa、標準偏差 s = 11.40 MPa

ロット 引張強度 x Zスコア z
ロット1 200 (200−216.0)/11.40 = −1.40
ロット2 215 (215−216.0)/11.40 = −0.09
ロット3 210 (210−216.0)/11.40 = −0.53
ロット4 225 (225−216.0)/11.40 = +0.79
ロット5 230 (230−216.0)/11.40 = +1.23

ExcelでのZスコア計算

STANDARDIZE関数を使います。

=STANDARDIZE(B2, AVERAGE($B$2:$B$6), STDEV($B$2:$B$6))

または手計算式で:

=(B2-AVERAGE($B$2:$B$6))/STDEV($B$2:$B$6)

標準偏差の求め方は標準偏差・分散の求め方で解説しています。

min-max正規化

データを0〜1の範囲に収める変換です。最小値が0、最大値が1になります。

\[
x’_i = \frac{x_i – x_{\min}}{x_{\max} – x_{\min}}
\]

引張強度のmin-max計算例

最小値 = 200、最大値 = 230

ロット 引張強度 x min-max正規化後
ロット1 200 (200−200)/(230−200) = 0.00
ロット2 215 (215−200)/(230−200) = 0.50
ロット3 210 (210−200)/(230−200) = 0.33
ロット4 225 (225−200)/(230−200) = 0.83
ロット5 230 (230−200)/(230−200) = 1.00

ExcelでのMin-Max計算

=(B2-MIN($B$2:$B$6))/(MAX($B$2:$B$6)-MIN($B$2:$B$6))

対数変換

右に裾が長い分布(右歪み)のデータに対して log(x) を取ることで、正規分布に近づける変換です。

対数変換が有効な場面

  • 粒径・コスト・不良数など「0以上の正の値で、小さい値に集中しているが稀に非常に大きな値がある」データ
  • 比率・割合のデータ(ロジット変換と組み合わせることもある)
  • 回帰分析の誤差項が正規分布に近づかないとき

ExcelでのLog変換

=LN(B2)   (自然対数)
=LOG10(B2) (常用対数)

変換後にシャピロウイルク検定で正規性が改善されたか確認することをすすめます。

3つの手法の使い分け

手法 変換後の範囲 外れ値の影響 主な用途
Zスコア標準化 制限なし(平均0・SD1) 残る PCA・回帰分析・クラスター分析(最も汎用的)
min-max正規化 0〜1 大きく受ける ニューラルネットワーク・範囲を揃えたい場面
対数変換 制限なし 小さくなる 右歪みデータの正規化・比率・増加率データ

迷ったときはZスコア標準化が最も無難な選択肢です。外れ値がある場合はmin-maxの代わりにZスコアを使い、必要なら外れ値を事前に処理してください(外れ値の検出方法参照)。

まとめ

  • 単位・スケールが異なる変数を多変量解析に使う前には前処理(標準化・正規化)が必要
  • Zスコア標準化: z = (x − 平均) / SD。最も汎用的。PCA・回帰・クラスター分析に使う
  • min-max正規化: x’ = (x − min) / (max − min)。0〜1に圧縮。外れ値の影響が大きいので注意
  • 対数変換: 右歪みのデータを正規分布に近づける。粒径・コスト・不良数など
  • 迷ったらZスコア標準化を選ぶ。外れ値がある場合は先に外れ値処理を行う

標準化後のデータを使った主成分分析(PCA)クラスター分析の手順は各記事で解説しています。

タイトルとURLをコピーしました