ALBERT The effect of cross-layer parameter-sharing strategies, ALBERT-base configuration. ALBERT的加速主要體現在減少參數量和共享參數上,加大batch處理數量影響訓練過程,預測過程沒有顯著變化 還是用不上,先不看了 ALBERT原文