大家好,欢迎来到IT知识分享网。
长文本AI幻觉率飙到47%,位置编码选错直接翻车
一篇两千字的文章塞进大模型,后半段开始胡编乱造,根源常出在位置编码。

绝对还是相对,选错一步,长距离逻辑瞬间崩。
绝对位置编码像门牌号,第1号、第100号清清楚楚。
Transformer早期版本用它,公式简单,一行代码就能生成,跑短句又快又稳。

门牌号缺点也明显。
序列拉到两千位后,数字差距过大,模型像看见两个陌生人,根本联想不到它们其实隔了老远还同属一段。
相对位置编码把尺子换成距离。
不看你在哪,只看离我几步。

注意力矩阵里直接加偏移量,远亲近邻一眼分清。
尺子方案不白送。
计算量翻倍,每对词都要重新算距离,显存直接报警。

工程团队常把距离截断到128步以内,再远就粗暴截断,牺牲一点精度换速度。
实测数据摆在这。
同样8K长度输入,绝对编码的困惑度比相对编码高18%,幻觉句子多出三成。
可推理延迟,相对方案慢了2.4倍。

短文本场景别纠结。
微博、标题、弹幕,百字以内,绝对编码足够,省下的显存还能把批尺寸翻倍,训练时间直接砍半。
长文档场景别心疼算力。

合同、论文、财报,动辄上万字,选相对编码,后期纠错的成本远低于省下的电费。
还有一条灰色地带:混合编码。
前512位用绝对,后面切到相对,两段之间用可学习的过渡矩阵。
Google最新论文走这条路,效果接近纯相对,速度只慢一成。

个人踩坑记录。
做小说续写项目,最初图省事用绝对编码,十万字后人物关系乱套,读者投诉角色复活。
连夜切到相对,重训三天,幻觉率从42%掉到9%,追更人数反涨。
一句话总结:短平快用门牌号,长逻辑用尺子,想两头占就混合。
选错编码,后面再豪华的模型都救不回来。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/184957.html