さあ、分散分析の本質に迫っていきましょう!

そもそも何の問題だったかしら?

今、何を検証しようとしていたかを確認しましょう。
「新聞紙」と「チラシ」で、すね毛回収能力に差があるのか否か、を判定するのです。

「分散分析」でこの問題に立ち向かう、おおまかな方針はこれです。

「紙の種類によるバラつき」が
「誤差によるバラつき」と比べて十分大きければ
「紙の種類は効果がある」と判断する

「t検定」における「平均値の差が誤差と比べて大きいか否か」という考えと似てるっちゃ似てます。
ここでは「平均値の差」ではなく「平均値のバラつき」なるものを考えます。

実は前回導いた

2乗和の分解

の右辺第1項が「紙の種類によるバラつき」、第2項が「誤差によるバラつき」に対応するのです!
それぞれをちゃんと見ていきましょう。


平均値どうしの差

右辺第1項は今回で言うと

「新聞紙ですくった実験データ4つの平均値」
「チラシですくった実験データ4つの平均値」
の2つと、「全体の平均値」との差を2乗して足しています。
(iについて和をとるとき、同じものが4回ずつ出てくることになります)

今回の実験結果を、一般的にこんな感じに表しておきます。
実験結果
文字にしておいたほうが、いろいろ融通がききますしね。
これをさっきの式の右辺第1項に代入すると(ヒマな方は是非やってみてください)
Aによる効果

こんな感じになります。
新聞紙の4つのデータの和と、チラシの4つのデータの和の差、を2乗したものです。
これを「因子Aの平方和」と呼び、よく「SA」なんて書いたりします。

SAの「統計的な意味」は?

統計的な検定では、いつもこんなノリで問題に立ち向かいます。

・仮に効果がないと仮定したときに、得られた結果が偶然の範疇に収まっているかを見る
・収まっていなければ、最初の仮定が間違っていた、つまり効果があると判断

今回の「分散分析」でも同じノリです。
まずは仮に「紙の種類はすね毛回収能力に影響しない」と仮定するのです。
そうすると実は、さっきの「SA」は「母分散の不偏推定量」に対応しているのです。
「不偏推定量」はちょっと難しい概念ですが、要は「それの期待値が偏りなく、母分散の値になるよ」ってことです。
回数を重ねるほど母分散の値に近づいていきますよ、とも言えます。
(厳密には、この「SA」を「自由度」で割ったものがそれです)

もし紙の種類によるすね毛回収効果に差がない、とするなら、新聞紙でやった4つのデータの平均値と、チラシでやった4つのデータの平均値の期待値は同じになります。
同じ母集団から4つの「標本」を取ったのと同じことです。

そしてその「平均値の分散」を考えます。
これまた統計の教科書にあるのですが、「母分散」と「平均値の分散」の関係は

「分散」と「平均の分散」の関係

こんな感じになります。左辺が「平均値の分散」です。
右辺は、母分散である「σ2」をサンプル数(平均値を計算するデータ数)nで割ったものになります(今回の場合はn=4です)。

要は、データそのもののバラつきよりも「平均値のバラつき」はサンプル数に反比例して小さいよ、ってこと。

そりゃそうですね。たまたま大きいデータと小さいデータが得られたとしても、平均したら帳消しされてバラつきないのと同じことになるし。

さっきの「SA」の式、iについて和を取るときに同じ物がn回ずつ出てくるので

SAの式

となります。iについての和が、jについての和に変わっているのでご注意ください。
最後のシグマの中身はまさに「平均値の差の2乗和」です。
ということでこれを「自由度」で割ったものは「分散」の「不偏推定量」になります。
(統計ビギナーを悩ませる話です。Nじゃなくて「N-1」で割る、っていうアレです)

Aの平均平方

この「nA」はAの「水準数」です。今回の実験では「2」です。
この式の右辺の分数のところ(n以外のところ)は(因子Aの効果がない、と仮定したとき)「平均値のバラつきの不偏推定量」になっています。
ということはそれをn倍したものは、「母分散の不偏推定量」というわけです。

SA」の式は、まさに「Aによる平均値のバラつき具合」なのですが、実は(因子Aの効果がない、と仮定したとき)母分散の推定値にも対応しているのです。




はっぴぃ理系らいふ、いぇい
ヽ(・ε・)人(・ε・)ノ キミモナカマニナロウゼ
   

【文責 べじぱみゅ】