我主要的疑問是,RoPE之后有不少位置編碼的論文,每個論文的實驗結論都是比RoPE強,那為什么工業界LLM沒有往新方法上去開展工作呢?
比如這些吧,究竟是這些論文作者瞎扯,還是工業界被BLOOM的 ALIBI 失敗教訓給嚇唬到了,以至于不敢再輕易去幾百萬美刀的模型訓練上嘗試其他方法了?
1、ALIBI https://arxiv.org/pdf/2108.12409,實驗效果強于RoPE
2、NoPE https://arxiv.org/pdf/2305.19466, 效果 > ALIBI > RoPE
3、KERPLE https://arxiv.org/pdf/2205.09921,效果 > NoPE > ALIBI ≥ RoPE
4、FIRE https://arxiv.org/pdf/2310.04418,效果 > KERPLE > NoPE > ALIBI ≥ RoPE
5、DAPE https://arxiv.org/pdf/2405.14722,效果 > FIRE ...