St_Hakky’s blog

プログラミング/心理学/人事/留学/データサイエンス/機械学習/Deep Learning/バイオインフォマティクス/日頃思ったこと/人事のデータサイエンスしてみたい

勾配降下法について調べてまとめてみた

こんにちは。

今までなんとなくなーなーで勉強していたGradient Descentですが、ちゃんと調べて見ました。

OverViewの論文があって(元はブログの投稿なので、これはそうというのかわからないけど)、今回それを読みつついろんな資料を漁る方式で勉強しました。

○読んだ論文とスライド

最近自分で話そうと思ってまとめるといい感じで頭に入ることを学習したので、しっかり読もうと決めたものは資料にしています。笑

■一言まとめ

めんどくさかったら、とりあえずAdam使っとけってことですね笑。ただ、Adamだと汎化性能がSGDに比べて落ちるという研究もあるので、各種ハイパーパラメーターをAdamで探索後、最終的なTuningのフェーズになったら、SGDを使うのがいいかな、と考えています。

○Gradient Descent周りの参考資料の一覧

上記の論文とスライドを読むときに参考になったのが以下の資料です。

■Nadam