您的位置:首页  > 论文页面

中文文档相似度检测技术的研究及应用

发表时间:2008-06-30  浏览量:2796  下载量:1383
全部作者: 黄玲莉,吴国新
作者单位: 东南大学计算机科学与工程学院;计算机网络和信息集成教育部重点实验室(东南大学)
摘 要: 在对现有的文档相似度算法、中文分词等技术研究的基础上,本文提出一种中文文档相似度检测算法,通过利用同义词库将词进行标准化以及分层相似度比较,对文档进行相似性验证。将词进行标准化得到提交文档的标准词集,从而简化了相似度比较算法。通过分层相似度比较得到文档之间不同层次的相似程度,可以更全面地进行文档剽窃检测。本文最后给出了一个使用该算法的实例。
关 键 词: 计算机应用;文档相似度;分词;同义词;文档剽窃
Title: Research and application of Chinese document similarity detection technique
Author: HUANG Lingli, WU Guoxin
Organization: School of Computer Science and Engineering, Southeast University;Key Laboratory of Computer Network and Information Integration(Southeast University), Ministry of Education
Abstract: Based on researching algorithms of document similarity, Chinese participle and other related techniques, this paper proposes a new method for Chinese document plagiarism detection. The main idea is to introduce a thesaurus library to standardize the words of the documents, and then compare those documents in different layers. With the normal words obtained by applying thesaurus library on the original documents, the document similarity algorithm can be simplified. More detailed document plagiarism detection information can be gotten with the similarity degree of different layers. In the end, this paper gives an application of the algorithm.
Key words: computer application; document similarity; participle; thesaurus; document plagiarism
发表期数: 2008年10月第12期
引用格式: 黄玲莉,吴国新. 中文文档相似度检测技术的研究及应用[J]. 中国科技论文在线精品论文,2008,1(12):1377-1381.
 
0 评论数 0
暂无评论
友情链接