中心極限定理とは｜標本平均が正規分布に近づく理由

Q: 中心極限定理と大数の法則は何が違いますか？

大数の法則は標本平均が母平均に近づく収束先の話、中心極限定理は標本平均のばらつきが正規分布の形になる話です。関心の対象が異なります。

この記事でわかること

中心極限定理が「何を保証してくれる定理か」を直感的に理解できる
標準誤差 σ/√n の意味と、標本平均のばらつきがnで縮む理由
Excelでサイコロの平均をシミュレーションして定理を体感する手順
大数の法則との違い・よくある誤解

📌 前提知識：正規分布の基礎と標準偏差・分散を読んでいると理解しやすくなります

製造ラインから部品を36個だけ抜き取り、平均重量を測ったとします。「このたった36個の平均から、ライン全体の重さをどこまで信用していいのか？」——抜き取り検査や工程管理をしていると、必ずこの疑問にぶつかります。

不思議なのは、元になる部品の重量分布が左右非対称だろうと、デコボコしていようと、抜き取った標本の「平均値」だけはきれいな正規分布に従うという点です。この一見すると都合がよすぎる現象を保証してくれるのが、統計学でもっとも重要な定理のひとつ、中心極限定理です。

この記事では、中心極限定理が実務で何を意味するのかを、Excelのシミュレーションと製造業の数値例で具体的に解説します。

中心極限定理が効いてくる場面
中心極限定理とは（3つのポイント）
標準偏差と標準誤差は違う（混同しやすい点）
Excelでサイコロの平均をシミュレーションする
1. 手順
製造業の数値例：抜き取り平均の確率を計算する
1. 例題：平均が51gを超える確率は？
2. 例題：平均が48〜52gに収まる確率は？
大数の法則との違い（よくある誤解）
QC検定での問われ方とミニ例題
よくある質問（FAQ）
まとめ

中心極限定理が効いてくる場面

中心極限定理は、表に出ないところで統計手法の土台を支えています。次のような場面では、知らないうちにこの定理の恩恵を受けています。

抜き取り検査で平均を推定するとき：少数の標本平均から母平均を区間推定する。信頼区間が正規分布で計算できるのは、標本平均が正規分布に近づくからです。
2群の平均差を検定するとき：t検定は標本平均の分布が正規であることを前提にしています。
工程の平均をX̄管理図で監視するとき：管理限界を平均±3σの正規分布で引けるのも、サブグループ平均が正規分布に近づくためです。

逆に注意したい場面もあります。

（△）中心極限定理が保証するのは「標本平均の分布」であって、個々のデータの分布ではありません。製品1個1個の重量が正規分布になるわけではない点に注意してください。
（△）標本サイズが極端に小さい（n=2〜3程度）うえ、母集団の歪みが非常に強い場合は、平均でも正規分布への近づきが甘くなります。

中心極限定理とは（3つのポイント）

中心極限定理（Central Limit Theorem, CLT）は、ざっくり言うと次のように説明できます。

母集団がどんな分布であっても、そこから大きさ n の標本を取り出して平均を計算する操作を繰り返すと、その標本平均 \( \bar{x} \) の分布は、n が大きくなるにつれて正規分布に近づく。

ポイントは3つです。

① 母集団の形を問わない

母集団が一様分布でも、指数分布のように右に裾を引いた形でも、二峰性でも構いません。元の形がなんであれ、平均をとると正規分布に化けます。ここが「魔法のようだ」と言われるゆえんです。

② 平均の中心は母平均と同じ

標本平均 \( \bar{x} \) の期待値は、母平均 \( \mu \) と一致します。つまり標本平均は、平均的には母平均を当てにいく推定量です。

\[ E[\bar{x}] = \mu \]

③ ばらつきは n で縮む

標本平均の標準偏差は、母標準偏差 \( \sigma \) を \( \sqrt{n} \) で割った値です。これを標準誤差（standard error, SE）と呼びます。

\[ SE = \frac{\sigma}{\sqrt{n}} \]

サンプルを増やすほど平均のばらつきは小さくなり、推定が安定します。ただし分母が \( \sqrt{n} \) なので、精度を2倍にするにはサンプルを4倍にする必要があります。この「効きの鈍さ」はサンプルサイズの決め方で重要になる感覚です。

標準偏差と標準誤差は違う（混同しやすい点）

実務でいちばん混同されるのが、標準偏差（SD）と標準誤差（SE）です。両者はまったく別物なので、ここで整理しておきます。

観点	標準偏差 SD	標準誤差 SE
測っているもの	データ1個1個のばらつき	標本平均のばらつき
式	\( \sigma \)（または s）	\( \sigma / \sqrt{n} \)
nを増やすと	ほぼ変わらない	小さくなる
使う場面	製品のばらつき・規格との比較	平均の信頼区間・検定

標準偏差は「製品がどれだけバラつくか」、標準誤差は「平均値の推定がどれだけ揺れるか」を表します。データを増やしても製品のばらつき（SD）は減りませんが、平均の推定精度（SE）は上がる——この区別が決定的に重要です。

Excelでサイコロの平均をシミュレーションする

中心極限定理は、手を動かすといちばん腑に落ちます。題材はサイコロです。1個のサイコロの出目は1〜6が等確率の「一様分布」で、釣鐘型とはほど遠い形です。

サイコロ1個の理論値を確認しておきます。出目の母平均は

\[ \mu = \frac{1+2+3+4+5+6}{6} = 3.5 \]

母分散は \( E[X^2] – \mu^2 \) で求まります。\( E[X^2] = (1+4+9+16+25+36)/6 = 91/6 \approx 15.1667 \) なので、

\[ \sigma^2 = 15.1667 – 3.5^2 = 2.9167, \quad \sigma \approx 1.7078 \]

手順

セルに =RANDBETWEEN(1,6) を入力し、横に n 個ぶんコピーしてサイコロ n 個を1セットにする。
その行の右端で =AVERAGE(A2:E2)（n=5なら5セル）として、1セットの平均を出す。
この行を1000行ぶんコピーすると、「サイコロn個の平均」が1000個できる。
1000個の平均値をヒストグラム化する（Excelでヒストグラムを作る手順を参照）。

n を 1 → 5 → 30 と増やしてヒストグラムを見比べると、n=1ではデコボコの平らな形だったものが、nが大きくなるほど中央が盛り上がった釣鐘型に変わっていきます。これが中心極限定理を「見た」瞬間です。

理論上、サイコロn個の平均の標準誤差は \( SE = \sqrt{2.9167 / n} \) で予測できます。シミュレーションのばらつき（標本平均たちの標準偏差を =STDEV.P で測る）が、この理論値に近づくのも確認してみてください。

サイコロの個数 n	平均の標準誤差 SE（理論値）
1	1.708
2	1.208
5	0.764
10	0.540
30	0.312

nが増えるほど、平均が3.5付近にギュッと集まっていくのが数値でもわかります。

製造業の数値例：抜き取り平均の確率を計算する

具体的な例で計算してみましょう。ある部品の重量が、母平均 \( \mu = 50 \)g、母標準偏差 \( \sigma = 6 \)g の分布に従っているとします（元の分布の形は問いません）。ここから36個を抜き取り、その平均重量を考えます。

中心極限定理より、標本平均の分布は次の正規分布に近づきます。

\[ \bar{x} \sim N\left(50,\ \left(\frac{6}{\sqrt{36}}\right)^2\right) = N(50,\ 1.0^2) \]

標準誤差は \( SE = 6/\sqrt{36} = 1.0 \)g です。個々の部品は標準偏差6gでバラつくのに、36個の平均は標準偏差1.0gにまで安定する点に注目してください。

例題：平均が51gを超える確率は？

標本平均が51gを超える確率を求めます。標準化すると、

\[ Z = \frac{51 – 50}{1.0} = 1.0 \]

標準正規分布で Z が 1.0 を超える確率なので、ExcelではNORM.S.DIST関数を使います。

=1-NORM.S.DIST(1, TRUE)
→ 0.1587

つまり「36個の平均が51gを超える」確率は約15.9%です。1個あたりの分布を直接使うよりずっと小さな確率になるのは、平均化でばらつきが縮んでいるためです。

例題：平均が48〜52gに収まる確率は？

同じ設定で、標本平均が48g〜52gに収まる確率を求めます。両端を標準化すると \( Z = \pm 2.0 \) です。

=NORM.S.DIST(2, TRUE) - NORM.S.DIST(-2, TRUE)
→ 0.9545

約95.5%の確率で、36個の平均は48〜52gに収まります。±2SE（=±2.0g）の幅に約95%が入るという、信頼区間の感覚そのものです。

大数の法則との違い（よくある誤解）

中心極限定理は「大数の法則」と混同されがちですが、語っている内容が異なります。

観点	大数の法則	中心極限定理
主張	nを増やすと標本平均が母平均に近づく	標本平均の分布の形が正規分布に近づく
関心	平均が「どこに」収束するか	平均が「どんな形で」ばらつくか
使い道	推定の一致性	区間推定・検定の理論的根拠

大数の法則は「数をこなせば平均は正しい値に近づく」という収束先の話、中心極限定理は「その平均のブレが正規分布の形になる」というばらつきの形の話です。両者は補い合う関係にあります。

もうひとつのよくある誤解が「中心極限定理があるから、どんなデータでも正規分布として扱ってよい」というものです。正規分布に近づくのは平均であって、生データそのものではありません。例えば工程能力指数のように個々のデータの正規性が前提になる手法では、中心極限定理は言い訳になりません。正規性の検定などで別途確認する必要があります。