基于BERT-A-BiLSTM的多特征专利自动分类算法-科创中国●保定云

基于BERT-A-BiLSTM的多特征专利自动分类算法

成果描述

本发明属于专利自动分类技术领域，具体涉及基于BERT‑A‑BiLSTM的多特征专利自动分类算法，包括BERT‑A‑BiLSTM的多特征分类算法模型构建、实验设计与对比分析，BERT‑A‑BiLSTM的多特征分类算法模型构建包括“文本向量化表示层”、“文本特征提取层”、“输出层”，“文本向量化表示层”将文本数据通过BERT模型转化为深度神经网络可识别的向量形式，“文本特征提取层”由基于BiLSTM和Attention机制的“语义特征提取模块”和基于改进型TF‑IDF算法的“统计特征提取模块”两个模块构成，其最终输出为两个模块单独的输出拼接而成，最后将文本的融合特征输入到由“全连接层加Softmax函数”组合而成“输出层”中得到分类结果。通过实验证明，该算法可以有效地提升专利的分类效果。

应用范围

现有的专利自动分类算法进行文本向量化时大都采用Word2vec、GloVe等静态词向量技术，不能根据上下文的变化动态的改变词向量解决一词多义问题，Word2vec模型训练的词向量不能跟随文本中上下文语境的变化而动态的改变，无法解决一词多义的问题，并且专利摘要文本具有专业领域相关词汇多、文本长度短的特点，仅通过语义特征难以对专利类别进行准确的划分，从而影响整体算法的分类性能。同时，处理专利文本序列数据时，双向长短时记忆神经网络进行文本特征提取，使用最后一个时序输出的结果作为最终特征提取的结果，但该特征难以包含文本的全部信息以导致丢失文本的部分信息，影响最终的分类效果的问题。

联系方式

联系人：
和志强
联系电话：
通讯地址：
石家庄市学府路47号

请填写以下信息

联系人：

手机号：

单位名称：

备注：

取消确定