適合率と再現率

緊急地震速報が鳴った
いつまで経っても揺れは来ず
後に誤報であったことが発表された

Twitterを中心に様々な反応が見て取れた
正月明けに緊急地震速報で騒然 「誤報」も首都圏では大混乱

流石と言わざるを得ないしみけんさんのこの一言
「久々に鳴った緊急地震速報。
 結果、大事には至らず「よかった…」の一言。
 でもTwitter上では「なんだよ!」「ビックリさせるな」などの声が。
 でもさ、緊急地震速報が鳴ってからちゃんと取るべき行動、取れましたか?平和ボケしてないですか?
 僕はふんどし締め直す事ができました。」

機械学習の分類問題には評価指標がいくつかある
その中で適合率と再現率は良く用いられる
これらはトレードオフの関係にある

適合率(Precision):Aであると予測したもののうち実際にAであったものの割合
再現率(Recall):実際にAであったもののうちAであると予測したものの割合

それを踏まえた上でそのシステムにとって重要なのはどちらの指標なのかを考える
顧客の課金/非課金予測ならば前者だし、患者の発ガン予測ならば後者であろう
緊急地震速報に必要なのはどちらだろうか、忘れてはいけないこれらはトレードオフだ

実際はもっともっと複雑な仕組みで動いているが
一般論で語っても私には今回の誤報を咎めることは出来ない
狼少年にならない努力は必要だけれど