エクセル分析ツール

平均・中央値・最頻値の求め方と使い分け|Excelで計算

記事内に広告が含まれています。

この記事でわかること

  • 平均・中央値・最頻値それぞれの定義と計算手順(Excel関数対応)
  • 外れ値がある場合にどの指標を使うべきかの判断基準
  • データの分布形状に合わせた3指標の使い分け方

📌 関連知識:標準偏差・分散の求め方と合わせて読むと、散らばりの指標と合わせた全体像が把握できます

品質管理の朝礼で「今月の加工品の平均寸法は50.6mmでした」と報告を受けたとき、その値だけで工程の状態を正確に把握できるでしょうか。実は、不良品が1点混入しているだけで、平均は正常な値から大きく外れることがあります。

平均・中央値・最頻値はいずれも「代表値」と呼ばれる統計量です。データ全体を1つの値で要約する役割を持ちますが、それぞれ異なる特性があります。データの性質に応じて適切な指標を選ぶことが、正確な現状把握につながります。

この記事では3つの代表値の計算手順とExcelでの求め方、使い分けの基準を解説します。

平均・中央値・最頻値を使う場面

3つの代表値はそれぞれ得意・不得意なデータの種類が異なります。まず使い分けの全体像を確認してから、各指標の詳細に進みます。

指標適している場面注意が必要な場面
平均外れ値がない・正規分布に近いデータ(寸法・強度・純度)外れ値が含まれる・強い偏りがある
中央値外れ値が含まれる・分布が偏っているデータ(リードタイム・コスト)カテゴリデータ(「品種A/B/C」等)
最頻値カテゴリデータ・不良モード分析・離散データ連続測定値(重複が少なく意味を持ちにくい)

製造業で最もよく使うのは平均と中央値です。寸法や強度など正規分布に近い測定データには平均、外れ値や偏りが生じやすいリードタイムやコストデータには中央値が実態を正確に反映します。最頻値は不良モード別の件数集計など、カテゴリで発生数を数えるときに使います。

平均(算術平均)とは

平均(算術平均)は、すべてのデータの合計をデータ数で割った値です。最も一般的な代表値で、日常的に「平均」といえばこの算術平均を指します。

n個のデータ \( x_1, x_2, \ldots, x_n \) の平均 \( \bar{x} \) は次の式で求めます:

\[
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}
\]

ExcelではAVERAGE関数が対応します:

=AVERAGE(B2:B11)

平均はすべてのデータを均等に反映します。そのため、外れ値(極端に大きいまたは小さい値)が1点混入するだけで、計算結果が実態から大きくずれます。データが正規分布に近い場合や、外れ値の処理が完了したデータに使うのが基本です。

中央値とは

中央値(メジアン)は、データを昇順(小さい順)に並べたときの中央に位置する値です。外れ値があっても中央の順位が変わらない限り計算結果に影響しないため、外れ値に対して頑健な指標です。

データ数 \( n \) に応じて求め方が異なります:

  • \( n \) が奇数のとき:昇順で \( \dfrac{n+1}{2} \) 番目の値
  • \( n \) が偶数のとき:昇順で \( \dfrac{n}{2} \) 番目と \( \dfrac{n}{2}+1 \) 番目の平均

ExcelではMEDIAN関数が対応します。データを事前にソートする必要はありません:

=MEDIAN(B2:B11)

MEDIAN関数は自動でデータを昇順に並べ替えて中央値を計算します。リードタイムや加工サイクルタイムなど、稀に極端に大きな値が混じるデータには中央値が実態を正確に表します。

中央値を視覚的に確認するには、Excelで箱ひげ図を作る方法が役立ちます。箱ひげ図ではボックスの中央線が中央値を示します。

最頻値とは

最頻値(モード)は、データの中で最も多く現れる値です。「どの値が一番多いか」を表す指標で、分布の山の頂点に対応します。

たとえば、不良品の発生モードを「寸法不良・表面きず・硬度不足」の3種類で集計し、10件中5件が寸法不良なら、最頻値は「寸法不良」です。カテゴリデータや離散データに特に有効な指標です。

ExcelではMODE.SNGL関数(単一最頻値)またはMODE.MULT関数(複数の最頻値)が対応します:

=MODE.SNGL(B2:B11)    ← 最も多い値を1つ返す
=MODE.MULT(B2:B11)    ← 複数の最頻値をすべて返す(配列数式)

MODE.MULT関数は複数のセルに結果を返す配列数式です。結果を表示するセル範囲を選択してからCtrl+Shift+Enterで入力します(Excel 365では通常のEnterで可)。

なお、0.001mm単位の精密寸法など連続測定データでは同じ値が複数回現れにくいため、最頻値はほとんど意味を持ちません。そのような場合は平均か中央値を選びます。

例題:加工品の寸法データで3つの代表値を比較

外れ値が代表値に与える影響を、具体的なデータで確認します。

データの設定

旋盤加工した部品の直径(mm)を10点測定しました。設計値は50.0mmです。

データA(正常データ)

No.12345678910
直径(mm)50.050.150.150.250.250.250.350.350.450.5

データB(外れ値あり):No.10の測定値が工具異常により54.5mmになったケースです。

No.12345678910
直径(mm)50.050.150.150.250.250.250.350.350.454.5

3つの代表値を計算する

データAの計算:

  • 平均:\( \bar{x} = 502.3 \div 10 = 50.23 \) mm
  • 中央値:昇順5番目と6番目がともに50.2 → \( (50.2 + 50.2) \div 2 = 50.20 \) mm
  • 最頻値:50.2が3回(最多)→ 50.2 mm

データBの計算:

  • 平均:\( \bar{x} = 506.3 \div 10 = 50.63 \) mm ← 設計値から +0.63mm ずれて見える
  • 中央値:昇順5番目と6番目がともに50.2 → \( (50.2 + 50.2) \div 2 = 50.20 \) mm ← 変化なし
  • 最頻値:50.2が3回(最多)→ 50.2 mm ← 変化なし

結果をまとめます:

指標データA(正常)データB(外れ値あり)変化
平均50.23 mm50.63 mm+0.40 mm(大きく影響)
中央値50.20 mm50.20 mm変化なし
最頻値50.20 mm50.20 mm変化なし

1点の外れ値(54.5mm)によって平均は +0.40mm 変化しました。「平均50.63mm=工程に問題あり」と誤判断するリスクがあります。中央値と最頻値はほとんど影響を受けません。

Excelで計算する手順

データをB2:B11に入力した場合、次の数式で3指標を求めます:

=AVERAGE(B2:B11)      ← 平均
=MEDIAN(B2:B11)       ← 中央値
=MODE.SNGL(B2:B11)    ← 最頻値

外れ値を事前に特定したい場合は、外れ値の検出方法(Grubbs検定・IQR法)を参照してください。外れ値の処理後に平均を使うか、外れ値のまま中央値を使うかの判断に役立ちます。

データの分布が左右対称かどうか確認するには、歪度・尖度の求め方と解釈も参照してください。歪度が大きいほど中央値の方が実態を正確に表す可能性が高まります。

まとめ

平均・中央値・最頻値のキーポイントをまとめます:

  • 平均はすべてのデータを均等に反映するが、外れ値の影響を受けやすい
  • 中央値はデータを並べたときの中央の値であり、外れ値があっても変化しにくい
  • 最頻値は最も多く現れる値で、カテゴリデータや不良モード分析に有効
  • 測定データには原則として平均を使い、外れ値や偏りが疑われる場合は中央値を選ぶ
  • Excelでは AVERAGE / MEDIAN / MODE.SNGL の3関数で計算できる

使い分けをひとことでまとめると、「外れ値なし・正規分布に近いなら平均、外れ値あり・偏りが強いなら中央値、カテゴリや不良モードの集計なら最頻値」です。

代表値で全体の中心を把握したら、次はばらつきの確認です。標準偏差・分散の求め方で、データの散らばりを定量化する方法を確認してください。

データ分布の左右対称性や尖り具合を合わせて確認したい場合は、歪度・尖度の求め方と解釈も参照してください。歪んだ分布では平均・中央値・最頻値の3つがすべて異なる値をとります。

タイトルとURLをコピーしました