大家好,欢迎来到IT知识分享网。
Suprit
退役ACMer NLP方向硕士在读
193 人赞同了该文章
本文力争通俗易懂,但由于牵扯的知识较多,我也是参考了很多文章才弄清楚 BPE、Subword(子词)、WordPiece、Tokenize、Vocabulary(词表)这些词之间的关系(吐槽一句全是英文真不友好),请耐心按顺序往下看,一定不会让你失望:
1. 从分词说起
只要您稍微学过一点 NLP,对于分词这个概念肯定不陌生。机器无法直接理解自然语言的文本,我们需要进行文本预处理 ,而最重要的一步就是分词(Tokenize) 。
一些概念
一个完整的分词流程如下:
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/118803.html