1 多任務學習?
2 attention機制
AFM、?阿里DIN、阿里DIEN、阿里DSIN、阿里DSTM、ATRank
3 強化學習
4 bert相關
??https://github.com/thunlp/PLMpapers
從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史
(1)BERT、RoBERTa、DistilBERT與XLNet,我們到底該如何選擇?
(2)Google]BERT壓縮到7MB!最新基于最優子詞和共享投影的極限語言壓縮模型
(3)BERT 的演進和應用
(5)BERT 瘦身之路:Distillation,Quantization,Pruning
(7)TinyBERT:模型小7倍,速度快8倍,華中科大、華為出品
(8)BERT系列文章匯總導讀