科创中国●保定云
首页
需求大厅
成果大厅
科技服务团
专家人才
品牌活动
技术转移
科技普及
科创视野
关于我们
数据中心

基于BERT-A-BiLSTM的多特征专利自动分类算法

  • 发布时间: 2023-06-20
预算 双方协商
基本信息
成果方:河北经贸大学
合作方式:技术转让
成果类型:发明专利,
行业领域
电子信息技术
成果描述

本发明属于专利自动分类技术领域,具体涉及基于BERT‑A‑BiLSTM的多特征专利自动分类算法,包括BERT‑A‑BiLSTM的多特征分类算法模型构建、实验设计与对比分析,BERT‑A‑BiLSTM的多特征分类算法模型构建包括“文本向量化表示层”、“文本特征提取层”、“输出层”,“文本向量化表示层”将文本数据通过BERT模型转化为深度神经网络可识别的向量形式,“文本特征提取层”由基于BiLSTM和Attention机制的“语义特征提取模块”和基于改进型TF‑IDF算法的“统计特征提取模块”两个模块构成,其最终输出为两个模块单独的输出拼接而成,最后将文本的融合特征输入到由“全连接层加Softmax函数”组合而成“输出层”中得到分类结果。通过实验证明,该算法可以有效地提升专利的分类效果。

应用范围

现有的专利自动分类算法进行文本向量化时大都采用Word2vec、GloVe等静态词向量技术,不能根据上下文的变化动态的改变词向量解决一词多义问题,Word2vec模型训练的词向量不能跟随文本中上下文语境的变化而动态的改变,无法解决一词多义的问题,并且专利摘要文本具有专业领域相关词汇多、文本长度短的特点,仅通过语义特征难以对专利类别进行准确的划分,从而影响整体算法的分类性能。同时,处理专利文本序列数据时,双向长短时记忆神经网络进行文本特征提取,使用最后一个时序输出的结果作为最终特征提取的结果,但该特征难以包含文本的全部信息以导致丢失文本的部分信息,影响最终的分类效果的问题。

前景分析

通过BiLSTM算法和Attention机制提取专利文本语义特征,将提取的语义特征与本文改进型TF‑IDF算法提取的文本统计特征进行融合,最后将文本的融合特征输入到Softmax分类器中得到分类结果,该算法可以有效地提升专利的分类效果。

联系方式

  • 联系人:

    和志强

  • 联系电话:

  • 通讯地址:

    石家庄市学府路47号

请填写以下信息

  • *

    联系人:

  • *

    手机号:

  • *

    单位名称:

  •  备注:

  • 取消 确定