【データの分析】2つのデータを合わせた平均と分散の求め方を徹底解説

データの分析

2つのデータを合わせた平均、分散を計算する問題は、テストでは差がつく問題としてしばしば出題されます。

問題集などでもよく見かけるため解いたことがある人は多いと思いますが、「なんとなく」公式に当てはめているだけで、きちんと理解して解ける人は少ないのではないでしょうか。

今回は、そんな苦手意識を持ちやすい「データの結合(合成)」の問題を、きちんと理解できる形で解説します。

この記事でわかること

① 2つのデータを合わせた平均・分散の最適な計算方法

② 公式(導き方は置いておいて、結論の式だけ知りたい人向け)


2つのデータを合わせた平均・分散の計算方法

設定として、A組とB組のテストの点数を例に考えます。

  • A組($m$人):
    • 点数:$x_1, x_2, x_3, \dots, x_m$
    • 平均値:$\bar{x}$
    • 分散:$s_{x}^2$
  • B組($n$人):
    • 点数:$y_1, y_2, y_3, \dots, y_n$
    • 平均値:$\bar{y}$
    • 分散:$s_{y}^2$

1.平均値の復元

まず、それぞれの組の「合計点」を考えます。

A組の平均点が $\bar{x}$ であることから、以下の式が成り立ちます。

$$\frac{x_1+x_2+\dots+x_m}{m} = \bar{x}$$

よって、A組の合計点は、

$$x_1+x_2+\dots+x_m = m\bar{x} \quad \dots ①$$

となります。

同様に、B組の平均点が $\bar{y}$ であることから、

$$\frac{y_1+y_2+\dots+y_n}{n} = \bar{y}$$

よって、B組の合計点は、

$$y_1+y_2+\dots+y_n = n\bar{y} \quad \dots ②$$

となります。

この①、②の式は平均値の定義からすぐに導き出せるはずです。ここは中学生の頃から慣れ親しんだ計算ですね。

2.分散の公式の選択

次に、分散です。ここが最大のポイントです。

分散を求める公式には2つのパターンがあり、適宜使い分けることが重要です。

分散の公式(その1:定義通り)

$$(\text{分散}) = \frac{(\text{偏差の2乗の和})}{(\text{データの個数})}$$

これは $(x_i – \bar{x})^2$ を計算していく方法です。

分散の公式(その2:変形版)

$$(\text{分散}) = \frac{(\text{データの2乗の和})}{(\text{データの個数})} – (\text{データの平均})^2$$

いわゆる「2乗の平均 - 平均の2乗」という公式です。

今回の問題では、(その2)の公式を使います。

なぜなら、この公式を変形することで「データの2乗の和($x_1^2 + x_2^2 + \dots$)」を逆算できるからです。

公式(その2)を用いて式を立ててみましょう。

A組の分散が $s_{x}^2$ であることから、

$$\frac{x_{1}^2+x_{2}^2+\dots+x_{m}^2}{m} – (\bar{x})^2 = s_{x}^2$$

これを「データの2乗の和」について解くと、

$$x_{1}^2+x_{2}^2+\dots+x_{m}^2 = m(s_{x}^2+\bar{x}^2) \quad \dots ③$$

という式が導かれます。

同様に、B組についても

$$\frac{y_{1}^2+y_{2}^2+\dots+y_{n}^2}{n} – (\bar{y})^2 = s_{y}^2$$

となるため、B組の「データの2乗の和」は、

$$y_{1}^2+y_{2}^2+\dots+y_{n}^2 = n(s_{y}^2+\bar{y}^2) \quad \dots ④$$

となります。


全体($m+n$人)の平均と分散を求める

準備が整いました。A組とB組を合わせた全員のデータを計算していきます。

全体の平均値 $\bar{z}$

全員の点数の合計を、全員の人数で割ります。

$$\bar{z} = \frac{(x_1+\dots+x_m) + (y_1+\dots+y_n)}{m+n}$$

分子には①と②の結果(合計点)を代入します。

$$\bar{z} = \frac{m\bar{x} + n\bar{y}}{m+n}$$

これで全体の平均が求まりました。

全体の分散 $s_{z}^2$

全体の分散も「2乗の平均 - 平均の2乗」で求めます。

$$s_{z}^2 = \frac{(x_{1}^2+\dots+x_{m}^2) + (y_{1}^2+\dots+y_{n}^2)}{m+n} – (\bar{z})^2$$

分子にある「2乗の和」の部分に、先ほど導いた③と④を代入します。

$$s_{z}^2 = \frac{m(s_{x}^2+\bar{x}^2) + n(s_{y}^2+\bar{y}^2)}{m+n} – (\bar{z})^2$$

これが、2つのデータを合わせた分散を求める式です。


公式まとめ

計算の流れを整理して公式化すると以下のようになります。

設定

  • データA($m$個):平均 $\bar{x}$,分散 $s_{x}^2$
  • データB($n$個):平均 $\bar{y}$,分散 $s_{y}^2$
公式

2つのデータを合わせた平均 ($\bar{z}$)

$$\bar{z} = \frac{m\bar{x}+n\bar{y}}{m+n}$$

2つのデータを合わせた分散 ($s_{z}^2$)

$$s_{z}^2 = \frac{m(s_{x}^2+\bar{x}^2)+n(s_{y}^2+\bar{y}^2)}{m+n} – \bar{z}^2$$


まとめ:この問題の本質

今回、2つのデータを合わせた平均・分散の求め方を解説しましたが、重要なことはこの長い公式を丸暗記することではありません。

平均の公式は直感的で覚えやすいですが、分散の公式は複雑で、いざテスト中に思い出そうとするとミスが起きやすいものです。

では、何が重要なのか?

それは、「分散の定義式を変形して、必要なパーツ(2乗の和)を作り出す」という過程です。

  1. 平均から $\rightarrow$ 「データの総和」を作る
  2. 分散と平均から $\rightarrow$ 「データの2乗の和」を作る
  3. それらを合体させて、全体の平均・分散公式に当てはめる

「問題を解くために何の値が必要なのか?」「今の条件から何が導けるのか?」

この意識を持って解く過程こそが、数学の力を伸ばします。

ぜひ、公式の暗記に頼らず、この導出過程をご自身の手で再現してみてください。そうすれば、この手の問題は確実に得点源になるはずです。

コメント

タイトルとURLをコピーしました