比較


今回から、「実験計画法」のマジメな解説に入っていきます!

t検定はここまで

前回述べたような「2種類のデータの平均値に有意差があるかの判定」は初級レベルの?「t検定」の話です。
しかし、t検定を武器に戦えるのはここまでです。具体的には

水準または要因(因子)が3種類以上ある場合

は、基本的にt検定だとうまくいきません。

「水準が3種類以上」とはたとえば「紙の種類」として「新聞紙」「チラシ」「クッキングペーパー」を比較したいような場合です。
(仮にクッキングペーパーですね毛が取れるとしても、新聞紙ほど安くないのでおすすめできませんがね)

「要因(因子)が3種類以上」とは今回みたいな「紙の種類」「水温」「時間」など、3種類以上の「変化しているもの」がある場合のことです。

t検定は基本的に「2つの比較」用の方法なので、比べたい対象が3つ以上だと別の方法(もっと用途の広い方法)が必要になります。
それこそが今回のメインテーマである「分散分析」です!
「分散」自体は統計の初級レベルで出てくるお話なので、詳しくはそっちを読んでくだされ。

この「分散分析」、よくよく考えるとなかなか不思議な方法です。
その名のとおり「分散を分析する」方法なのですが、別に「分散そのものを知りたい」わけではなく

平均値の有意差ありなしを判定するのに分散を使う

といった発想です。


データの「構造」を考える!

能書きばっかり言っててもしょうがないので、実際にやってみましょう。
※「ふたつの平均値の比較」にわざわざ「分散分析」で立ち向かう意味はありませんが、その後のためにやってみます。


分散分析では、今回の8個のデータの「構造」をこんな感じに考えます。

<結果>=<紙の違いによる効果>+<誤差>

それぞれのすね毛除去の結果は、新聞紙/チラシの差による効果に、紙の違い以外の効果(誤差)が足されたものだ、と考えるのです。
そんなに変な話ではないと思います。

これを数学っぽくちゃんと書いてみるとこんな感じです。

構造式

左辺「各データの平均値からのズレ」です。
※文字の上にバーをつけたものは「平均値」を表します。

今回みたいな場面では各データに「差があるか」をメインに考えているので、データの「絶対値」はそんなに問題にはしません。
あくまで、それぞれのデータが「平均値からどれだけズレているか」がメインテーマになります。

右辺の一つ目はまさに「紙の違いによる効果」です。
(「A_j」は「Aがj番目の水準であるデータ」のことです)
今回のケースだと、

実験1~実験4までのデータについては「新聞紙の平均値」と「全体の平均値」の差

実験5~実験8までのデータについては「チラシの平均値」と「全体の平均値」の差

となります。

右辺の2つ目は「誤差」です。
紙の種類による差を考慮しても、まだ説明しきれない部分、のことです。


とにかく2乗すればええねん!

この式を2乗して、すべてのデータについて足します。
なんでそんなことするんだ!と言いたいかもしれませんが、これについては
「2乗して足すといろいろうまくいく、というのを発見した人がすごい」と思ってくだされ。

結果としてはこうなります。

2乗和の分解

*計算途中ではこれ以外にもう1個の項がいるのですが(a2+b2+2abの2abにあたる部分)、計算していくとその部分はゼロになっちゃいます。

この3つの項にはそれぞれ重要な意味があります。

まず左辺。これはまさに「全体のバラつき」です。
統計の教科書に書いてある「分散」の定義そのままです。
平均値との差を二乗して全部足す、というもの。

さて、あと2つはちょっと奥が深いので、次回からお話しします。



はっぴぃ理系らいふ、いぇい
ヽ(・ε・)人(・ε・)ノ キミモナカマニナロウゼ
   

【文責 べじぱみゅ】