2つのデータを合わせた平均・分散

データの分析

2つのデータを合わせた平均、分散を計算する問題はテストでは差がつく問題
としてしばしば出題される。
問題集なんかでもあるので解いたことがある人は多いともうが、
きちんと理解して解ける人は少ないのではないか。
今回はそんな問題をきちんと理解できる形で解説します。

この記事でわかること

① 2つのデータを合わせた平均・分散の最適な計算方法

② 公式(とりあえず,導き方は置いといて答えだけでも出したい人)

2つのデータを合わせた平均・分散の計算方法

A組には$m$人いて,それぞれの点数を $x_1,x_2,x_3,・・・,x_m$ とし,

平均点は $\bar{x}$ ,分散を $s_{x}^2$ とすると.

A組の平均点が$\bar{x}$であることから
$$\frac{x_1+x_2+x_3+・・・+x_m}{m}= \bar{x} ・・・ ①$$

B組もA組と同様に考える.

B組には$n$人いて,それぞれの点数を $y_1,y_2,y_3,・・・,y_n$ とし,

平均点は $\bar{y}$ ,分散を $s_{y}^2$ とすると.

B組も同様にして,B組の平均点が$\bar{y}$であることから
$$\frac{y_1+y_2+y_3+・・・+y_n}{n}= \bar{y} ・・・ ②$$
となる.

この① , ②の式は平均値の求め方から導出される式である.
中学生の頃から慣れ親しんだ式だと思うのでそこまで、難しくないだろう.

次は,分散に関する式を導出する.分散の公式を下に載せておくので確認してほしい.

分散の計算方法は2パターンあるので,適宜使い分けが重要である。
つまり片方のみを覚えているだけではダメなのだ.
もちろん,覚えていない方の公式を導出できれば話は別だが,
この分野(特にデータの分析)では覚えてしまった方が良い.

分散の公式 (その1)

$$(分散)=\frac{(偏差の2乗の和)}{(データの個数)}$$

偏差とは,データからそのデータの平均を引いた値である.
つまり$$x_{1}-\bar{x}$$のことであり,
偏差の2乗の和とは,
$$(x_{1}-\bar{x})^2+(x_{2}-\bar{x})^2+ ・・・ +(x_{m}-\bar{x})^2$$
のことである.

分散の公式 (その2)

$$(分散)=\frac{(データの2乗の和)}{(データの個数)}-(データの平均の2乗)$$

今回の問題は分散の公式に載せた(その2)の式を用いる.すると次の式が導かれる.

A組の分散が$s_{x}^2$であることから
$$\frac{x_{1}^2+x_{2}^2+x_{3}^2+・・・+x_{m}^2}{m}-\bar{x}^2=s_{x}^2 ・・・ ③$$
B組も同様にして,B組の分散が$s_{y}^2$であることから
$$\frac{y_{1}^2+y_{2}^2+y_{3}^2+・・・+y_{n}^2}{n}-\bar{y}^2=s_{y}^2 ・・・ ④$$
となる.

A組とB組を合わせた$m+n$人の平均値と分散を求める.

平均は
$$\frac{x_1+x_2+x_3+・・・+x_m+y_1+y_2+y_3+・・・+y_n}{n+m}$$
となる.
分子の$x_1+x_2+x_3+・・・+x_m$については①により
$$x_1+x_2+x_3+・・・+x_m=m・\bar{x}$$
となり,$y_1+y_2+y_3+・・・+y_n$については②により
$$y_1+y_2+y_3+・・・+y_n=n・\bar{y}$$
となるから,平均は
$$\frac{m・\bar{x}+n・\bar{y}}{n+m}=\bar{z}$$
となる.
次は分散である.

分散は$$\frac{x_{1}^2+x_{2}^2+x_{3}^2+・・・+x_{m}^2+y_{1}^2+y_{2}^2+y_{3}^2+・・・+y_{n}^2}{m+n}-\bar{z}^2$$となる.
分子の$x_{1}^2+x_{2}^2+x_{3}^2+・・・+x_{m}^2$については③により
$$x_{1}^2+x_{2}^2+x_{3}^2+・・・+x_{m}^2=m(s_{x}^2+\bar{x}^2)$$となり,$y_{1}^2+y_{2}^2+y_{3}^2+・・・+y_{n}^2$については④により
$$y_{1}^2+y_{2}^2+y_{3}^2+・・・+y_{n}^2=n(s_{y}^2+\bar{y}^2)$$
となるから,分散は
$$\frac{m(s_{x}^2+\bar{x}^2)+n(s_{y}^2+\bar{y}^2)}{m+n}-\bar{z}^2$$
となる.

公式化

$m$個のデータがあり,それぞれを$x_1,x_2,x_3,・・・,x_m$とし,平均点は$\bar{x}$ ,分散を$s_{x}^2$とする.
$n$個のデータがあり,それぞれを$y_1,y_2,y_3,・・・,y_n$とし,平均点は$\bar{y}$ ,分散を$s_{y}^2$とする.
この時,2つのデータを合わせた平均・分散は以下の通りである.

$$2つのデータを合わせた平均=\frac{m・\bar{x}+n・\bar{y}}{n+m}=\bar{z}$$

$$2つのデータを合わせた分散=\frac{m(s_{x}^2+\bar{x}^2)+n(s_{y}^2+\bar{y}^2)}{m+n}-\bar{z}^2$$

まとめ

今回、2つデータを合わせた平均・分散を求める際に重要なことは公式を覚えることではない。
平均の公式は覚えることができても分散の方は複雑で実際に使うとなると大変である。
では、重要なことはなんなのか?
それは、分散を求める過程である。
実際に、分散を求めるためには何が必要なのか。問題文からどんな条件式がでてくるのか。
ここを意識して解くと、この問題のみならずさまざまな数学の問題を解けるようになる。
数学の問題は暗記ではなく、今ある道具を今持っている知識でどう使うかなのだ。
皆さんもぜひ、公式ではなく解く過程の奥深さに触れてみてほしい。

コメント

タイトルとURLをコピーしました