科创中国●保定云
首页
需求大厅
成果大厅
科技服务团
专家人才
品牌活动
技术转移
科技普及
科创视野
关于我们
数据中心

一种基于贝叶斯网络的结构化文档检索模型及其检索方法

  • 发布时间: 2023-07-06
预算 双方协商
基本信息
成果方:华北理工大学
合作方式:技术转让
成果类型:发明专利,
行业领域
电子信息技术
成果描述

本发明涉及一种基于贝叶斯网络的结构化文档检索模型及其检索方法,该模型包括:术语子网用于表示术语层之间的关系,并计算其包含的术语节点之间的相关性系数和术语节点与预检索术语节点的第一条件概率,从而检索出多个衍生术语;结构化文档子网用于表示各结构化文档层的结构层次关系,并计算其包含的结构单元节点的第二条件概率,从而检索出最相近的文档。还涉及一种检索方法。本发明通过术语子网和结构化文档子网的模型,可以提高检索术语之间的相关度,有利于后续的术语计算更加精确,通过采用不同的计算条件概率公式,提高了术语之间的匹配度,提高了检索的精度,同时子网之间的各结构层的关系,可以加快检索的速度,缩短检索时间。

应用范围

随着互联网上新的文档表示方法HTML、XML和SGML的发展,一些类似教科书、科技文献和技术手册等结构规整的文档在互联网上越来越普遍。这类可以通过文档表示方法同时表示出内容和结构的文档被称之为结构化文档,它们的大量出现就需要设计和实现新的模型和工具来根据给定的结构索引、检索和呈现文档。而传统的信息检索系统往往是把每篇文档作为一个整体来考虑,这样的检索就没有利用到结构化文档的结构信息,容易产生大量的多余信息。因此如何使用结构信息从结构化文档中有效地检索出满足用户信息需求的精确简单的内容,这一问题得到了越来越多地关注。

前景分析

在查询相关的衍生术语的情况下,对于每个直接或间接包含查询术语的文档结构单元计算得到它的相关条件概率,最终文档结构单元按照概率降序排列呈现给用户,不但提高了检索的精度,也大大提高了检索的文档的精度,更加能够满足用户的需求度。

联系方式

  • 联系人:

    赵爽

  • 联系电话:

  • 通讯地址:

    唐山市曹妃甸新城渤海大道21号

请填写以下信息

  • *

    联系人:

  • *

    手机号:

  • *

    单位名称:

  •  备注:

  • 取消 确定