怪しいソースに注意?

やきう漫談と見せかけた数学漫談の続きです。前回は、なぜか情報を出し惜しみするソースを用いて「村上のホームラン」について考えましたが、今度は「チームの勝敗」について考えてみます。

ヤクルトびいきの怪しいソース「べじスポ」が、毎日ヤクルトの勝敗を掲載しているとしましょう。ここの情報が信頼できればいいのですが、べじスポはおっちょこちょいなのでたま~に勝敗を間違って掲載してしまいます(そんなサイトは潰れてしまえ!)

ここではべじスポの「信頼度」をRとおきます。つまり

・ヤクルトが勝ったとき、確率Rで「勝利」と報じ確率1-Rで「負け」と報じる。
・ヤクルトが負けたとき、確率Rで「負け」と報じ確率1-Rで「勝利」と報じる。


ダメダメなソースですが、まあ大事な数学の問題として扱います。実はこれ、けっこう汎用性の広い設定です。

では、この怪しいソースを使って何をしようかと言いますと

べじスポが「ヤクルト勝利」と報じたときに、本当にヤクルトが勝っている確率

これを計算します。「え?Rじゃないの?」と思ってしまいますが、実はRとは限りません

では始めます。最初にかなり不思議な仮定をします。

ヤクルトが実際に勝つ確率をαとおきます。

なんだそりゃ?と思うでしょう。それがわかってるならべじスポいらんやん!となるところですが、
これが前回の「事前情報」に相当します。「ホームランを打ったのがスタメンの誰か」という事前情報なら村上の確率1/8、「スタメンの左打者だ」という事前情報なら村上の確率1/4、ってやつです。

この「α」は、ヤクルトが勝つ確率に関しての「事前情報」と考えましょう。何も情報がないならα=0.5です。ただ、大型連敗中だったり相手先発が菅野だったりしたらαは0.4や0.3、とすべきでしょう。一方で連勝中だったり相手先発がブロードウェイ(懐!)だったりしたらαを0.6や0.7にしてもよいでしょう。もしくは単純に今シーズンのこれまでの勝率、と設定してもよいでしょう。

さて、この仮定のもとで前回と同様に計算しましょう。前回の分子は「村上の本塁打率」、分母は「全員の本塁打率の和」(つまりホームランとして発生しうる全割合)でした。

今回の分子は「ヤクルトが勝ってかつべじスポが"勝利"と報じる確率」、分母は「べじスポが"勝利"と報じうる全ケースの確率の和」つまり

「ヤクルトが勝ってかつべじスポが"勝利"と報じる確率」と「ヤクルトが負けてかつべじスポが"勝利"と報じる確率」の和

となります。これを計算すると

ヤクルトが本当に勝っている確率(理論式)

こうなります。これをいろいろなαについて、横軸を信頼性Rとしてプロットしてみます。

ヤクルトが本当に勝っている確率

これより題意の「べじスポ"勝利"で本当に勝っている確率」がRとイコールになるのはα=0.5、つまり事前情報が何もないときに限られます。事前情報がない場合は怪しいソースの信頼度がそのまま「確率」として解釈されるわけです。

実際、いくらソースが信頼できないとしてもRが0.9以下ならさすがに見る意味ないので、R>0.9のとこだけ拡大してみます。

ヤクルトが本当に勝っている確率(拡大)

これより、ヤクルトの勝つ確率がそもそも低い場合(αが0.4や0.3のとき)、信頼できないソースが「勝利」と報じた場合に実際に勝っている確率はソース自体の信頼度よりかなり低い、といえますね。

実は現実であるある?

なお、今回は「ヤクルトの勝敗を誤って報じるソース」という少々現実離れした設定でしたが、現実には「病気の診断」「製品不良の判定」など、Rが1より小さいものに判断を仰ぐケースはいくらでもあります。

製品不良なんて、さっきの「α」("実際に"不良である確率)がヘタしたら0.001やそれ以下なんてケースもあります(むしろそのくらいじゃないと生産が成り立たない)。そしてR<0.9(不良の誤検知が多い)なんてケースもざらです。なので実際に「不良です」と判定が出ても実際に不良である確率はけっこう低かったり。さっきの議論もバカにできません。

例えばαが0.001だと、Rが0.99と結構正答率高めでも、「NG判定で本当にNGである確率」は0.09しかありません。「99%正解するはずなのに実際に正解するのは9%」という不思議な状況ですが、いくら「正答率」が高くてもそもそもNG品がめったに来ないわけで「OK品を誤ってNGにする」ケースのほうが格段に(この場合10倍ぐらい)多いってことです。

頭を整理しなければなりませんが

・NG品が来たときにそれを正しくNG判定する確率(R)
・NG判定が出たときにそれが本当にNGである確率(さっきの式)

全然意味が違うのです。

※もっとも製品検査の場合は「安全側に間違える」ようにしますのでこれでいいんですがね。

ベイズの定理

さて「村上のホームラン」「ヤクルト勝利」というネタをお話しました。これらはいずれも「事前情報に基づく確率分布」が追加の情報で更新されるという状況です。

村上のホームランのケースを読みかえると、最初は「誰が打席に立っていたか全然わからなかった」

事前確率

(全員の確率1/8)という状況から、「そいつがホームランを打った」という追加情報によって確率分布が「更新」され

HR打ったのは誰か

その打者が山田・バレンティン・村上の確率が高まった、ということです。

「ヤクルト勝利」のケースでは、最初は「勝つ確率」がαだったのを、べじスポの「勝利」報道により「勝った確率」が

ヤクルトが本当に勝っている確率(理論式)

に「更新」された、というわけです。

この「追加情報」をどう扱うか、があの「ベイズ統計」の重要ポイントになります。ベイズ統計はそれはそれは面白いので、また機会があればお話します。

今回はやきう漫談でその入口だけ見た、ということで。ではまた!


はっぴぃ理系らいふ、いぇい
ヽ(・ε・)人(・ε・)ノ キミモナカマニナロウゼ
   

【文責 べじぱみゅ】