BM25算法详解_IT分享知识网

大家好，欢迎来到IT知识分享网。

BM25算法介绍

BM25（Best Matching）算法是当前信息检索领域主流的文本匹配算法，主要内容是计算query到文档集合的相似度得分。BM25可以视作Tf-IDF算法的优化。

TF-IDF算法

$tf-idf_{score}=tf×idf=\frac{ {某文档中目标词出现的数量}}{ {某文档总词数}}×log\frac{ {文档总数}}{ {包含目标词的文档数量}}$

BM25算法

BM25算法主要有下面三个部分组成：

query中每个单词的重要性（可以理解为idf部分）
query中每个单词与文档之间的相关性（对tf部分的优化，并考虑了文档的长度）
query中每个单词与query本身的相关性（该部分只有在当query很长时才会使用）

TF-IDF和BM25比较

BM25在tf-idf的基础上增加了几个可调节的参数，使其在应用中更具灵活性和实用性。
BM25对于词频、逆文档频率以及字段长度的归一化具有更合理的定义。
在词频的重要性方面，BM25有一个上限，即随着词频增长，词的重要性增长程度会被限制。

BM25的公式

${\rm{score}}(Q,d) = \sum\limits_{i = 1}^n { {w_i}R({q_i},d)}$

其中 $Q$ 表示一条query， $q_i$ 表示query中的第 $i$ 个词， $w_i$ 表示自身的重要性， $d$ 表示待匹配的文档。

自身重要性

$w_i$ 的计算方式同idf类似：

$w_i=idf_{q_i}=log\frac { {N-df_i+0.5}}{ {df_i+0.5}}$

其中 $N$ 表示待匹配的全部文档数, $df_i$ 为包含了 $q_i$ 的文档总数。对于某个 $q_i$ ，包含 $q_i$ 的文档数越多，说明该 $q_i$ 越不重要。 $w_i$ 一定程度上可以用来刻画 $q_i$ 与文档之间的相关性。

单词与文档之间的相关性

单词与文档之间相关性的刻画依赖一个重要发现：词频和相关性之间的关系是非线性的。即每个词和文档的相关性分数不会超过某个阈值，当词出现的次数达到一个阈值之后，其影响就不再线性增长，而这个阈值和文档本身相关。因此在刻画单词与文档的相关性时，BM25时这么设计的：

$S(q_i,d)=\frac { {(k_1+1)tf_{q_id}}}{K+tf_{q_id}}$

$K=k_1(1-b+b×\frac{L_d}{L_{ave}})$

其中 $tf_{q_id}$ 表示单词 $q_i$ 在文档d中的词频， $L_d$ 表示文档d的长度， $L_{ave}$ 表示所有文档的平均长度，变量 $k_1$ 表示为正的参数，用来标准化文章词频的范围。b是另一个参数且0<b<1，b表示使用文档长度来表示信息量的程度。当b=1，是完全使用文档长度来衡量词的权重，当b为0时，表示不使用文档长度来衡量词的权重。

单词与query之间的相关性

只有当query很长时，才需要刻画单词与query之间的相关性。公式为：

$S(q_i,Q)=\frac {(k_3+1)×tf_{q_iq}}{k_3×tf_{q_iq}}$

其中 $q_i$ 表示query中的单词， $tf_{q_iq}$ 表示单词 $q_i$ 在query中出现的频数。 $k_3$ 是一个可调节的正参数，用来矫正query中的词频范围.

整体公式

${\rm{score}}(Q,d) = \sum\limits_{i = 1}^n （{ {log\frac { {N-df_i+0.5}}{ {df_i+0.5}}}×\frac { {(k_1+1)tf_{q_id}}}{K+tf_{q_id}}×\frac {(k_3+1)×tf_{q_iq}}{k_3×tf_{q_iq}}}）$

参数经验值

根据实验， $k_1$ 和 $k_3$ 一般取值1.2~2。b取值0.75。

实例程序使用gensim下的bm25模块

from gensim.summarization import bm25 import jieba def test_gensim_bm25(): # 给定多个文档 corpus = ["5万元资金，该做什么行业", "美增加汽车关税，为何汽车价格不降反升", "汽车销售人员的服务水准非常烂，该怎么解决", "未来房价会跌到什么程度", "十万元能上路的汽车，买什么比较好"] # 对每个文档切词（示例作用 不进行去停用词） corpus_cut = [jieba.lcut(line) for line in corpus] # 生成模型 bm25Model = bm25.BM25(corpus_cut) test_query = "你想买汽车吗" # query test_query_cut = jieba.lcut(test_query) scores = bm25Model.get_scores(test_query_cut) # 计算相似度得分(与corpus_cut顺序对应) print("scores", scores) # 输出 for i, j in zip(scores, corpus): print('分值：{},原句：{}'.format(i, j)) print('\n') if __name__ == '__main__': test_gensim_bm25()

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/111379.html

BM25算法详解