搜索技术 下

搜索技术 下1 1 搜索引擎的种类搜索引擎按照功能通常分为垂直搜索和综合搜索

大家好,欢迎来到IT知识分享网。

1.1、搜索引擎的种类

搜索引擎按照功能通常分为垂直搜索和综合搜索。

        1、垂直搜索是指专门针对某一类信息进行搜索。例如:会搜网 主要做商务搜索的,并且提供商务信息。除此之外还有爱看图标网、职友集等。

        2、综合搜索是指对众多信息进行综合性的搜索。例如:百度、谷歌、搜狗、360搜索等。

        3、站内搜索是指对网站内的信息进行的搜索。例如:京东、招聘网站等

        4、软件内部搜索,例如word、eclipse等

51job 58同城 拉勾 boss直聘

全文检索:将非结构化的数据 转换成  结构化的数据, 在结构化数据的基础之上进行一系列处理, 建立索引,然后检索在索引库上检索。

数据的分类:

        结构化数据:格式和大小是固定的

        非结构化数据:格式和大小不是固定的

1.2、搜索引擎的原理

搜索技术 下

爬虫—》抓取网页—》临时库—》处理放到索引区—》提供搜索服务

商品表—》处理放到索引区—》提供搜索服务

1.3、倒排索引技术

倒排索引又叫反向索引(右下图)以字或词为关键字进行索引,表中关键字所对应的记录表项,记录了出现这个字或词的所有文档,每一个表项记录该文档的ID和关键字在该文档中出现的位置情况。

搜索技术 下

在实际的运用中,我们可以对数据库中原始的数据结构(临时表或者商品表),在业务空闲时事先根据左图内容,创建新的文档列表(左图)及倒排索引区域(右图)。

用户有查询需求时,先访问倒排索引数据区域(右图),得出文档编号后,通过文档文档编号即可快速,准确的通过左图找到具体的文档内容。

这一过程,可以通过我们自己写程序来实现,也可以借用已经抽象出来的通用开源技术来实现。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/106691.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信