忠実度重み付け学習

データの品質を加味して学習させるお話
Fidelity-Weighted Learning

近年のDeep Learningの成功は大量の教師データの利用可否に強く依存している
それらを入手するには大きなコストが掛かり又データの品質を揃えるのも難しい
一般的には品質の良い少量に対して品質の悪い大量のデータが集まりがちである
これらを同等に扱い学習することは重要な情報を無視するのと同じだと主張する
この問題に半監督学生教師アプローチ「忠実度重み付け学習(FWL)」を提案する

student(ニューラルネットワーク)とteacher(ベイジアン関数近似器)を用いる
studentモデルは品質の悪い大量のデータから学習して予測作業などを担当する
teacherモデルは品質の良い少量のデータから学習してデータの品質を担保する
つまりteacherモデルは品質の悪い大量のデータに対して各々忠実度を設定する
そしてstudentモデルは品質の悪い大量のデータを忠実度で重み付けし学習する

このアプローチについて情報検索と自然言語処理のタスクで評価してみたところ
学習速度と予測精度は最先端のその他の半教師あり学習よりも優れていたという
これはクラウドソーシングなどでデータの品質が揃わない際の助けになるだろう

手前で翻訳したので専門用語は異なっているかも知れないのだがそこはご愛嬌で
これらの研究を見ても機械学習にとってデータがどれだけ大切なことかが分かる
今日6ヶ月となる子を持つ親としても子が触れる情報の品質には拘りたいものだ