24. 绝对位置编码和相对位置编码有什么区别？各有什么优缺点？

大家好，欢迎来到IT知识分享网。

长文本AI幻觉率飙到47%，位置编码选错直接翻车

一篇两千字的文章塞进大模型，后半段开始胡编乱造，根源常出在位置编码。

绝对还是相对，选错一步，长距离逻辑瞬间崩。

绝对位置编码像门牌号，第1号、第100号清清楚楚。

Transformer早期版本用它，公式简单，一行代码就能生成，跑短句又快又稳。

门牌号缺点也明显。

序列拉到两千位后，数字差距过大，模型像看见两个陌生人，根本联想不到它们其实隔了老远还同属一段。

相对位置编码把尺子换成距离。

不看你在哪，只看离我几步。

注意力矩阵里直接加偏移量，远亲近邻一眼分清。

尺子方案不白送。

计算量翻倍，每对词都要重新算距离，显存直接报警。

工程团队常把距离截断到128步以内，再远就粗暴截断，牺牲一点精度换速度。

实测数据摆在这。

同样8K长度输入，绝对编码的困惑度比相对编码高18%，幻觉句子多出三成。

可推理延迟，相对方案慢了2.4倍。

短文本场景别纠结。

微博、标题、弹幕，百字以内，绝对编码足够，省下的显存还能把批尺寸翻倍，训练时间直接砍半。

长文档场景别心疼算力。

合同、论文、财报，动辄上万字，选相对编码，后期纠错的成本远低于省下的电费。

还有一条灰色地带：混合编码。

前512位用绝对，后面切到相对，两段之间用可学习的过渡矩阵。

Google最新论文走这条路，效果接近纯相对，速度只慢一成。

个人踩坑记录。

做小说续写项目，最初图省事用绝对编码，十万字后人物关系乱套，读者投诉角色复活。

连夜切到相对，重训三天，幻觉率从42%掉到9%，追更人数反涨。

一句话总结：短平快用门牌号，长逻辑用尺子，想两头占就混合。

选错编码，后面再豪华的模型都救不回来。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/184957.html

24. 绝对位置编码和相对位置编码有什么区别？各有什么优缺点？

相关推荐

发表回复