汎化性能をベイズ証拠から予測する研究

リンク先の論文の気になったところのみ
A Bayesian Perspective on Generalization and Stochastic Gradient Descent

↓概要は大体こんな感じ
・以下の二つの研究(今回は1の方のみ)
 1)学習の汎化をベイズ証拠から予測
  Deep Learningだけでなくより単純な線形モデルでもベイズ証拠の評価で予測が可能
 2)SGDの最適なバッチサイズを特定
  SGDの汎化はノイズによるため最適なバッチサイズは学習率と学習データサイズに比例

↓面白ポイントはどこ?
・ランダムなデータは過学習するモデルなのに実際のデータでは汎化してしまう
 今までの汎化理論ではモデルの複雑さから説明していたがこれは説明出来ない
 実際のデータにはランダムなデータには無い”自然さ”があるということなのか
 ※ これらの現象を”ベイズ証拠”を評価することで説明出来るというのが面白い

↓それの何が嬉しいの?
・今回の実験ではベイズ証拠と汎化性能が関係していることを示せた
 学習データだけでモデルの汎化性能を予測可能(テストデータ不要)
 ベイズ証拠を最大化するパラメータを探すべき(コスト最小化無用)

↓何か疑問は残ったの?
・ベイズ証拠が大きいとは事前分布に対する学習データの影響が小さいだけか?
 結局のところ学習が汎化するか否かはデータとモデルの相性の問題なのでは?