異なるドメインへのfine-tuningは、Adam系+低いLR+no-freeze、がよさげ?
REVISITING FINE-TUNING FOR FEW-SHOT LEARNING
どんなもの?
few-shot learningにおけるfine-tuningについて、ネットワークの学習させかたの面から、よい方法を提案しているもの。
先行研究と比べてどこがすごい?
few-shot learningにおいて、baseclasses(imagenetみたいなもの)で学習させてpretrainedモデルを画像数が少ないnovelclassesへfine-tuningさせることは一般的であるが、単純にやると画像数が少なすぎでoverfitする。
overfittingを回避すべく、高度な手法(metric、meta、augmentation)に関して様々な研究がされているが、ナイーブなfinetuning(単純に学習させかたのようなものを指している)については調査があまりされておらず、この論文ではナイーブな方法でテスト精度を向上させる方法を提案している。
技術や手法のキモはどこ?
実験的に下記を示していること。
1. fine-tuningでは低LRで学習が安定する
2. fine-tuning時には、adaptiveな最適化の方がテスト精度が向上する
3. baseclassとnovelclassで大きなドメインシフトがある場合、ネットワーク全体を更新することでテスト精度を向上する(bn+fc以外凍結、fc以外凍結、と比較した結果。)
どうやって有効だと検証した?
- 低解像度mini-imagenetデータセットを用いた同一ドメインにおけるfew-shot learningにおいて、1-shotショットでは普通の手法よりは高い精度を達成し、5-shotではsotaとほぼ同等精度を達成
- より実用性の高い高解像度の同一ドメイン別ドメインの両方のタスクにおいて、他のfew-shotの手法よりも高い精度を達成(sota?)
議論はある?
- 低解像度と高解像度のデータセットについてresnet152がvgg16に比べ低解像度の性能劣化がひどい。低解像度のデータセットは(多分過学習であるが)ロバスト性も気にする必要があるので、実験ぐらいにはいいけどfew-shotの性能評価に用いることが妥当か検討すべきと提起。
次に読むべき論文は?
Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang Frank Wang, and Jia-Bin Huang. A closer look at few-shot classification. In International Conference on Learning Representations, 2019.
その他
- この手法はweight imprinting(normalized classifier)との併用で特に効果あり、普通のFC(simple classifier)だとそんなに、、、
- N-way K-shot learning : Nクラス、クラス当たりK枚での学習のこと
- Kが大きければfreezeはさせないほうが精度は上がる
- finetuningではLRはbaseの0.1倍している
- この手法は別ドメインにおいては結構強い