基于BERT-A-BiLSTM的多特征专利自动分类算法
本发明属于专利自动分类技术领域,具体涉及基于BERT‑A‑BiLSTM的多特征专利自动分类算法,包括BERT‑A‑BiLSTM的多特征分类算法模型构建、实验设计与对比分析,BERT‑A‑BiLSTM的多特征分类算法模型构建包括“文本向量化表示层”、“文本特征提取层”、“输出层”,“文本向量化表示层”将文本数据通过BERT模型转化为深度神经网络可识别的向量形式,“文本特征提取层”由基于BiLSTM和Attention机制的“语义特征提取模块”和基于改进型TF‑IDF算法的“统计特征提取模块”两个模块构成,其最终输出为两个模块单独的输出拼接而成,最后将文本的融合特征输入到由“全连接层加Softmax函数”组合而成“输出层”中得到分类结果。通过实验证明,该算法可以有效地提升专利的分类效果。
现有的专利自动分类算法进行文本向量化时大都采用Word2vec、GloVe等静态词向量技术,不能根据上下文的变化动态的改变词向量解决一词多义问题,Word2vec模型训练的词向量不能跟随文本中上下文语境的变化而动态的改变,无法解决一词多义的问题,并且专利摘要文本具有专业领域相关词汇多、文本长度短的特点,仅通过语义特征难以对专利类别进行准确的划分,从而影响整体算法的分类性能。同时,处理专利文本序列数据时,双向长短时记忆神经网络进行文本特征提取,使用最后一个时序输出的结果作为最终特征提取的结果,但该特征难以包含文本的全部信息以导致丢失文本的部分信息,影响最终的分类效果的问题。
通过BiLSTM算法和Attention机制提取专利文本语义特征,将提取的语义特征与本文改进型TF‑IDF算法提取的文本统计特征进行融合,最后将文本的融合特征输入到Softmax分类器中得到分类结果,该算法可以有效地提升专利的分类效果。
联系方式
和志强
石家庄市学府路47号
请填写以下信息
联系人:
手机号:
单位名称:
备注: