【データの分析】2つのデータを合わせた平均と分散の求め方を徹底解説

数学ⅠA

2つのデータを合わせた平均、分散を計算する問題は、テストでは差がつく問題としてしばしば出題されます。

問題集などでもよく見かけるため解いたことがある人は多いと思いますが、「なんとなく」公式に当てはめているだけで、きちんと理解して解ける人は少ないのではないでしょうか。

今回は、そんな苦手意識を持ちやすい「データの結合(合成)」の問題を、きちんと理解できる形で解説します。

この記事でわかること

① 2つのデータを合わせた平均・分散の最適な計算方法

② 公式(導き方は置いておいて、結論の式だけ知りたい人向け)


1.2つのデータを合わせた平均・分散の計算方法

設定として、A組とB組のテストの点数を例に考えます。

  • A組($m$人):
    • 点数:$x_1, x_2, x_3, \dots, x_m$
    • 平均値:$\bar{x}$
    • 分散:$s_{x}^2$
  • B組($n$人):
    • 点数:$y_1, y_2, y_3, \dots, y_n$
    • 平均値:$\bar{y}$
    • 分散:$s_{y}^2$

1-1.平均値の復元

まず、それぞれの組の「合計点」を考えます。

A組の平均点が $\bar{x}$ であることから、以下の式が成り立ちます。

$$\frac{x_1+x_2+\dots+x_m}{m} = \bar{x}$$

よって、A組の合計点は、

$$x_1+x_2+\dots+x_m = m\bar{x} \quad \dots ①$$

となります。

同様に、B組の平均点が $\bar{y}$ であることから、

$$\frac{y_1+y_2+\dots+y_n}{n} = \bar{y}$$

よって、B組の合計点は、

$$y_1+y_2+\dots+y_n = n\bar{y} \quad \dots ②$$

となります。

この①、②の式は平均値の定義からすぐに導き出せるはずです。ここは中学生の頃から慣れ親しんだ計算ですね。

1-2. 分散の公式の選択

次に、分散です。ここが最大のポイントです。

分散を求める公式には2つのパターンがあり、適宜使い分けることが重要です。

分散の公式(その1:定義通り)

$$(\text{分散}) = \frac{(\text{偏差の2乗の和})}{(\text{データの個数})}$$

これは $(x_i – \bar{x})^2$ を計算していく方法です。

分散の公式(その2:変形版)

$$(\text{分散}) = \frac{(\text{データの2乗の和})}{(\text{データの個数})} – (\text{データの平均})^2$$

いわゆる「2乗の平均 - 平均の2乗」という公式です。

今回の問題では、(その2)の公式を使います。

なぜなら、この公式を変形することで「データの2乗の和($x_1^2 + x_2^2 + \dots$)」を逆算できるからです。

公式(その2)を用いて式を立ててみましょう。

A組の分散が $s_{x}^2$ であることから、

$$\frac{x_{1}^2+x_{2}^2+\dots+x_{m}^2}{m} – (\bar{x})^2 = s_{x}^2$$

これを「データの2乗の和」について解くと、

$$x_{1}^2+x_{2}^2+\dots+x_{m}^2 = m(s_{x}^2+\bar{x}^2) \quad \dots ③$$

という式が導かれます。

同様に、B組についても

$$\frac{y_{1}^2+y_{2}^2+\dots+y_{n}^2}{n} – (\bar{y})^2 = s_{y}^2$$

となるため、B組の「データの2乗の和」は、

$$y_{1}^2+y_{2}^2+\dots+y_{n}^2 = n(s_{y}^2+\bar{y}^2) \quad \dots ④$$

となります。


2. 全体($m+n$人)の平均と分散を求める

準備が整いました。A組とB組を合わせた全員のデータを計算していきます。

2-1. 全体の平均値 $\bar{z}$

全員の点数の合計を、全員の人数で割ります。

$$\bar{z} = \frac{(x_1+\dots+x_m) + (y_1+\dots+y_n)}{m+n}$$

分子には①と②の結果(合計点)を代入します。

$$\bar{z} = \frac{m\bar{x} + n\bar{y}}{m+n}$$

これで全体の平均が求まりました。

2-2. 全体の分散 $s_{z}^2$

全体の分散も「2乗の平均 - 平均の2乗」で求めます。

$$s_{z}^2 = \frac{(x_{1}^2+\dots+x_{m}^2) + (y_{1}^2+\dots+y_{n}^2)}{m+n} – (\bar{z})^2$$

分子にある「2乗の和」の部分に、先ほど導いた③と④を代入します。

$$s_{z}^2 = \frac{m(s_{x}^2+\bar{x}^2) + n(s_{y}^2+\bar{y}^2)}{m+n} – (\bar{z})^2$$

これが、2つのデータを合わせた分散を求める式です。


3. 公式まとめ

計算の流れを整理して公式化すると以下のようになります。

設定

  • データA($m$個):平均 $\bar{x}$,分散 $s_{x}^2$
  • データB($n$個):平均 $\bar{y}$,分散 $s_{y}^2$
公式

2つのデータを合わせた平均 ($\bar{z}$)

$$\bar{z} = \frac{m\bar{x}+n\bar{y}}{m+n}$$

2つのデータを合わせた分散 ($s_{z}^2$)

$$s_{z}^2 = \frac{m(s_{x}^2+\bar{x}^2)+n(s_{y}^2+\bar{y}^2)}{m+n} – \bar{z}^2$$


4.例題

【問題】
男子20人の平均点が60点、分散が10点。女子10人の平均点が70点、分散が16点である。
このとき、男女合わせた30人全員の分散を求めよ。

【解答・解説】

「平均値が違うグループを合わせたときの分散」は、それぞれの分散を単純に平均してはいけません。必ず「2乗の和」を経由して計算するのが鉄則です。

ここでは、データの分析における最強の公式を活用します。

分散の公式(その2:変形版)

$$(\text{分散}) = \frac{(\text{データの2乗の和})}{(\text{データの個数})} – (\text{データの平均})^2$$

いわゆる「2乗の平均 - 平均の2乗」という公式です。

これを変形した以下の式を使います。

$$(2乗の和) = \{分散 + (平均の2乗)\} \times 人数$$

【ステップ1:全員の平均点を求める】

まずは全体の合計点を出して、人数(30人)で割ります。

男子の合計点:$20 \times 60 = 1200$

女子の合計点:$10 \times 70 = 700$

全員の平均点 $\bar{x}$ は、

$$\bar{x} = \displaystyle \frac{1200 + 700}{30} = \frac{1900}{30} = \frac{190}{3}$$

【ステップ2:「2乗の和」をそれぞれ求める】

次に、男子と女子それぞれの「データの2乗の和」を求めます。

  • 男子の2乗の和$$\{10 + 60^2\} \times 20 = (10 + 3600) \times 20 = 72200$$
  • 女子の2乗の和$$\{16 + 70^2\} \times 10 = (16 + 4900) \times 10 = 49160$$

【ステップ3:全員の分散を求める】

全員の「2乗の和」は、$72200 + 49160 = 121360$ となります。

全員の「2乗の平均」はこれを30人で割ればよいので、

$$(2乗の平均) = \displaystyle \frac{121360}{30} = \frac{12136}{3}$$

最後に、必須公式 $分散 = (2乗の平均) – (平均の2乗)$ に当てはめます。

全員の分散 $s^2$ は、

$$s^2 = \displaystyle \frac{12136}{3} – \left(\frac{190}{3}\right)^2$$

$$s^2 = \displaystyle \frac{36408}{9} – \frac{36100}{9}$$

$$s^2 = \displaystyle \frac{308}{9}$$

答え:平均点 $\displaystyle \frac{190}{3}$点、分散 $\displaystyle \frac{308}{9}$

💡 【別解】分散の合成公式を知っている場合

折角覚えた公式を使いたい人向けに、一発で計算できる公式を用いたアプローチも紹介しておきます。

2つのデータ(データ数 $n_1, n_2$、平均 $\bar{x}_1, \bar{x}_2$、分散 $s_1^2, s_2^2$)を合わせた分散 $s^2$ は、以下の式で求められます。

$$s^2 = \displaystyle \frac{n_1s_1^2 + n_2s_2^2}{n_1+n_2} + \frac{n_1n_2(\bar{x}_1 – \bar{x}_2)^2}{(n_1+n_2)^2}$$

(※前半は「各分散の加重平均」、後半は「平均値のズレがもたらす分散の増加分」を表しています。)

これに数値を代入すると、

$$s^2 = \displaystyle \frac{20 \times 10 + 10 \times 16}{30} + \frac{20 \times 10 \times (60 – 70)^2}{30^2}$$

$$s^2 = \displaystyle \frac{200 + 160}{30} + \frac{200 \times 100}{900}$$

$$s^2 = \displaystyle 12 + \frac{200}{9} = \frac{108 + 200}{9} = \frac{308}{9}$$

同じ結果になりましたね。計算ミスを防ぐための検算としても非常に有効です。

5. まとめ:この問題の本質

今回、2つのデータを合わせた平均・分散の求め方を解説しましたが、重要なことはこの長い公式を丸暗記することではありません。

平均の公式は直感的で覚えやすいですが、分散の公式は複雑で、いざテスト中に思い出そうとするとミスが起きやすいものです。

では、何が重要なのか?

それは、「分散の定義式を変形して、必要なパーツ(2乗の和)を作り出す」という過程です。

  1. 平均から $\rightarrow$ 「データの総和」を作る
  2. 分散と平均から $\rightarrow$ 「データの2乗の和」を作る
  3. それらを合体させて、全体の平均・分散公式に当てはめる

「問題を解くために何の値が必要なのか?」「今の条件から何が導けるのか?」

この意識を持って解く過程こそが、数学の力を伸ばします。

ぜひ、公式の暗記に頼らず、この導出過程をご自身の手で再現してみてください。そうすれば、この手の問題は確実に得点源になるはずです。

コメント

タイトルとURLをコピーしました