基于知网语义特征扩展的题名信息分类
作者:
李湘东
刘康
丁丛
廖香鹏
武汉大学信息管理学院
湖北武汉430072
武汉大学信息资源研究中心
关键词:
期刊论文题名
短文本分类
知网
LDA
摘要:
本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的待分类文本中,最后用SVM算法进行分类。实验结果表明,在训练集与测试集仅为题名的情况下,当训练集为每类200篇时,提升效果最好,达到3.1%,但提升效果随训练集文本数的增加而下降;在训练集为题名加摘要,测试集为题名时,本文提出的分类算法在复旦语料和自建的期刊语料上的MacroF1分别平均提高1.5%和3.1%,在MicroF1上分别平均提高2.3%和5.3%。本文通过对特征稀疏的题名信息进行特征扩展,以期提高期刊论文题名的分类效果。
上一篇:虚拟社区用户持续知识搜寻与持续知识贡献意愿关系研究
下一篇:创新与导向:第六次全国公共图书馆评估新指标