短文本聚类分析方法、装置和终端设备
本发明适用于文本分析技术领域,提供了一种短文本聚类分析方法、装置和终端设备。该方法包括:获取待聚类的短文本数据集,并对短文本数据集进行预处理得到包括至少三种词性的初始词集;对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;根据主题特征词集和主题关联词集的相关性确定预设个数的主题特征词和主题关联词,主题特征词与主题关联词一一对应组成知识对;将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。本发明优化了文本分析算法,能够更准确地进行短文本的情感主题聚类,提高短文本聚类的效率。
随着网络的普及,以互联网为平台的微博、论坛、博客等聊天软件产生了海量带有主观情感色彩的短文本,这些短文本携带着大量的用户信息和数据信息。由于短文本具有语义稀疏和高维性等特点,亟需有效的短文本聚类算法对这些信息进行聚类分析,来提升针对短文本的聚类、情感分析、语义分析等在网络舆情领域的应用效果。
近年来,国内外专家学者对短文本聚类算法展开了深入研究,并提出了诸多短文本聚类算法,以实现短文本的聚类及其在网络舆情领域的应用。目前,主题模型(Topic Model)成为短文本挖掘领域的热点,它能够发现文档-词语之间所蕴含的潜在语义关系(即主题),有效提高处理网络舆情中短文本语义信息的性能,其中运用较多的主题聚类模型为LDA(Lantent Dirichlet Allocation,文档主题生成模型)。
然而,传统主题聚类方法对短文本的情感极性分析和主题知识对特征提取方面的能力欠佳,短文本的情感主题聚类准确率不高。
本发明实施例与现有技术相比存在的有益效果是:首先对待聚类的短文本数据集进行预处理得到包括至少三种词性的初始词集,得到影响短文本主题的主要词性的初始词集,然后对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集,根据主题特征词集和主题关联词集的相关性确定预设个数的知识对,最后将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题,不仅考虑到词的出现频率,还结合与主题关联的词的分析,提高了短文本的情感主题聚类的准确性,进一步提高了短文本聚类的效率。
联系方式
吴迪
河北省邯郸市邯山区光明南大街199号
请填写以下信息
联系人:
手机号:
单位名称:
备注: