当前位置: 主页 > 资讯 >

搜索引擎个性化模块超强升级

文章出处:未知 │ 网站编辑:admin │ 发表时间:2019-08-13 14:27

1、数据爬取模块:作用就是利用爬虫程序追踪网上的超链接找到并下载新的页面,为建立初始的数据库做好充足的资源准备;通过回访已经抓到的互联网网页看其是否发生了变化,依次保证抓取到的信息有效;并将抓取到的 HTML、XML、AdobePDF 等格式的网页转换成文本文档的格式。

2、索引模块:对网络爬虫抓取到的网页进行数据清洗、数据分类等,即对文本进行去除停用词、分词之后,从中找到索引项,并且用来表示文档以及生成文档库的索引表,并存储在索引数据库中。

3、用户兴趣建模模块:利用用户查看网页的内容以及查看信息过程中的行为特征,找到用户的兴趣爱好点,为用户建立兴趣模型并保证用户兴趣的更新,为用户进行查询优化提供基础。

4、查询日志:存放用户查看的历史网页,为查询扩展提供候选查询词文本集。

5、查询扩展模块:根据已有的用户兴趣和用户的历史查询日志,在用户查询时对用户的查询进行优化扩展。

6、信息检索模块:搜索引擎的功能模块,抓取网页、网页预处理,进行查询和网页的匹配计算,给出和用户查询词相关网页结果列表。该模块输入的是查询词和处理后的文档,输出的是按照相关度大小进行排序的相关文档和检索结果。

7、用户界面模块:与用户交互的接口,可以注册登录,输入查询词进行搜索并可以查看返回结果。

下一篇:没有了
地址/Add:
电话/Tel:
邮箱/Mail: