基于相关反馈和聚类的搜索引擎技术
本发明同时利用用户相关反馈信息和相关度排序指导检索结果的聚类,使检索结果的最终划分符合用户查询需求;在聚类过程中去除了大量与用户不相关的文档和重复网页,提高了聚类速度,同时优化了检索结果。在聚类过程中,与用户不相关的一类聚簇不修改聚类中心,确保了不会在不相关文档聚簇中因引入噪声而丢掉与用户相关的结果文档。
目前,搜索引擎大都是基于关键词来进行索引和检索的,根据用户输入的关键词列表,搜索引擎查找索引库,将匹配的文档按照与用户查询的相关度的不同排序显示。由于关键词具有一词多义现象,而且用户往往只输入很少的关键词进行检索,使得搜索引擎返回的搜索结果列表通常包含了很多主题不相关、混杂在一起的文档,用户必须逐个浏览检索结果列表以找到相关文档,其中还有许多内容重复的网页,从这样的检索结果中浏览信息会浪费用户许多时间和大量精力。为了方便用户的浏览,一些研究人员将自动聚类技术用于Web信息检索结果的类别划分,将具有相似特征(例如同属于一个主题)的文档放在同一组,以便于用户缩小查找范围,只在自己感兴趣的少数组中查找和浏览所关心的文档。但是对检索结果的自动聚类没有考虑与用户的相关性,导致检索结果不能反映用户的特定意愿及专业领域,用户也不能根据自己的需要和兴趣选择文档聚类的方式。另外,在Web搜索引擎上其检索结果数量巨大,已有的自动聚类研究是对全部检索结果包括大量与用户不相关的结果进行聚类,聚类过程需要时间长,从而影响搜索引擎的性能。
(1)确定初始聚类类别数和各类别的初始聚类中心向量,包括:将用户从检索结果中选取的相关文档划为一类,称为相关文档类,确定相关文档类的初始聚类中心;相关文档类的初始聚类中心向量通过求取各个关键词在该类各个文档中的权重平均值得到。将不相关文档划分为一个或若干个不相关文档类,确定每类的初始聚类中心,包括:选一个不相关文档作为第一个不相关文档类,该文档的特征向量即为该文档类的聚类中心向量计算其余不相关文档和上述类别的相似度,根据相似度值将其划分到最相近的某个不相关类别中或划分到新的不相关类,如果是划分到新的一类,则该文档的特征向量即为该类的聚类中心向量(2)初始划分及确定最终聚类类别数;计算检索结果列表中用户未选取的文档与相关文档类和不相关文档类的相似度,根据相似度值的大小进行以下处理:将其划分到最相近的某个文档类中或划分到新的文档类,该文档特征向量即为该类的聚类中心向量;或者判断出属于重复内容的文档并将其删除
联系方式
李新叶
19932581850
河北省保定市永华北大街619号
请填写以下信息
联系人:
手机号:
单位名称:
备注: