时间:2014-09-17 编辑整理:早检测网 来源:早检测网
近年来,受各种利益的驱动,抄袭、剽窃、篡改数据、一稿多投等学术不端行为屡见不鲜,并呈愈演愈烈之势。这些行为导致我国10 年来的论文发表增长速度居于世界首位,但论文的平均引用率却远在其他国家之后。学术不端行为已经对我国的学术信誉与学术发展产生了严重影响,针对这一现象,国家和各相关部门积极开展了反对学术不端的行动,并研制出了多种学术不端的检测软件,主要包括: CNKI学术不端检测系统、POST 反剽窃系统、万方论文相似性检测系统、paperpass 论文通行证等,其中,使用最广泛的当属CNKI 学术不端检测系统。
CNKI 学术不端检测系统主要由社科期刊检测系统、科技期刊检测系统、学位论文检测系统等构成,其检测范围涵盖中国学术期刊网络出版总库、中国报纸全文数据库、中国优秀硕士论文网络出版总库、中国博士论文网络出版总库等,具有如下功能和作用。
在CNKI 学术不端检测系统上传论文后,页面会出现完整检测结果、去除引用文献检测结果、去除本人文献检测结果等内容。并会在前面显示文章提前检测的情况,以提醒检测人员文章有别的期刊编辑部在之前检测过,可能存在一稿多投的情况。在检测页面的下半部分用表格形式进行文献溯源,即逐一列出与所上传的论文相似的报刊、论文或网络文献的内容,并注明它们的篇名、文献来源、作者、文字复制比、是否引用和发表时间,检测人员还可以根据自己的需要有选择地查看重复片段,进行逐一比对。
此外,在CNKI 学术不端检测系统的检测页面上清晰地以黄、橙、红、绿四种颜色表示论文的文字复制比: 没有任何抄袭现象的表示为绿色; 文字的重合数大于1000 字而文字的复制比小于整篇文章字数的40%的表示为黄色,属于轻度抄袭; 文字的重合数大于5000 字而文字的复制比在40% ~ 50% 的表示为橙色,属于中度抄袭; 文字的重合数大于10000 字而文字的复制比大于50% 的则表示为红色,属于重度抄袭。期刊编辑利用该页面可以直观地了解论文的抄袭程度,为文章的初审提供依据。
面对CNKI 学术不端检测系统中庞杂的数据,期刊编辑可从完整检测结果、去除引用文献检测结果、前部重合度、后部重合度等数据对文章学术不端的情况进行具体解析。
1. 文字复制比不等于抄袭率
在CNKI 学术不端自动生成的数据中对于文字复制比包含了三个项目: 完整检测结果、去除引用文献检测结果和去除本人文献检测结果。其中完整检测结果包含了包括引文在内的所有重合字数与总字数之间的比率,若该比率较高,则代表文章缺乏作者自己的观点与创新性,学术价值低,甚至可能存在学术不端的状况; 若该比率在合理的范围内,期刊编辑还应参考去除引用文献检测值和去除本人文献检测值,若三值相当,则表明文章虽有一定的学术价值,但在参考文献的标注上可能存在问题,需引起注意;若该比率高而文章属于时事政治、文献综述等高引用类型时,编辑需调取具体重复段落逐一比对,以得出准确的结论。
2. 文字复制位置决定抄袭程度
论文的写作多依照“引言—提出问题—分析问题—解决问题—结语”的路径进行,依照这几个部分的重合比例可以初步判定论文抄袭的严重程度。一般而言,论文的引用文献多出自文章的“引言”和“提出问题”部分,因为任何研究都是建立在前人研究的基础上,没有凭空产生的研究,每篇论文或多或少都会借鉴别人已经得出的结论或已证实的事实,只是研究角度不同而已。因此,在这部分出现没有正确标注的现象是相对较轻的,期刊编辑若发现文章的前部重合度较高而后部重合度较低,则该文章是具有一定的学术价值的。“分析问题—解决问题”是文章的关键部分,这部分体现了作者的核心观点和论文的价值,期刊编辑若发现文章的后部重合度较高而前部重合度较低,即使该文章的整体复制比很低也难以存在真正的学术价值。
CNKI 学术不端检测系统中,期刊编辑使用较多的为社科期刊检测系统和科技期刊检测系统,其检测范围涵盖中国学术期刊网络出版总库、中国报纸全文数据库、中国优秀硕士论文网络出版总库、中国
博士论文网络出版总库等,虽然涵盖面较大,但仍不可避免地存在数据的有限性,加之数据录入量大造成的时间拖延,其数据也存在滞后性。此外,由于CNKI 学术不端检测系统仍处于不断完善的阶段,该系统对外文、文档格式与公式图表的处理存在误差,使用指纹比对方法对文章文字复制比的计算也容易出现偏误。
CNKI 检测系统能对其收录入库的期刊、报纸、会议等予以检索,但检测系统数据库以外的文献或来自博客、空间和其他网络终端的文献却未能予以完整收录。作为学术期刊编辑在使用该系统时也会遇到如下情况: 检测文章在系统上并无抄袭或文字复制比很低,但经百度、google 等搜索就会出现雷同文章,有时甚至是另一作者的原文。数据的有限性大大影响了CNKI 检测系统的准确度。为了能够让自己的论文及时发表以完成科研考核目标或结题,很多作者都会出现一稿多投的情况,尽管很多编辑部在稿约中三令五申,但一稿多投的现象仍呈愈演愈烈之势。如果被抄袭的文献没有及时公开地发表却在“准出版公开”状态,刊登的论文没有及时被知网数据库收录,抄袭往往就不能被系统检测发现。由于CNKI 的数据收录期刊众多,数据收录量极大,不可避免地会存在滞后性,很多文献都是在纸质出版物出版后的一个多月甚至两个月才能在数据库查询到。数据的滞后性严重影响了检测的准确度,甚至导致论文重复发表的结果。
目前,CNKI 检测系统数据库的所有数据来源主要为中文,虽然CNKI 针对这一局限性推出了英文检测系统与中英文对照检测系统,但因其资源库仅仅包含springer 图书、springer 期刊、earthscan 期刊等题录数据库,在对翻译类文章的检测上显得力不从心。CNKI 检测系统虽然支持caj、doc、pdf 等多种格式的检测,但同一篇文章因格式不同而导致检测结果不同的情况并不鲜见: 以编辑部来稿《从法科学生就业难探析法学教育的诟弊》为例,该文第一次以word 形式的完整检测结果为21. 1%,但将该文格式改为txt 后再次进行检测却得到了7. 4% 的检测结果,这是由于机检对字符判断不一造成的。此类问题还包括上传pdf 文件显示文章过短、改动论文排版导致结果相异等。
此外,CNKI 学术不端检测系统对文字敏感,对改换数据的公式、图表等的检测还处于完善期。在检测包含公式、图表的论文时常常无法正常显示,而只是其中数据的无序罗列。因此,即使是抄袭他人实证的图表有时都无法检测出,如若作者更换图表调研的名称或某些数据就更难以检出。如此种种限制更导致了CNKI 检测系统数据的准确性难以保证。
CNKI 检测系统的比对、判断失误主要包括三方面的内容: 对意义抄袭类文字难以判断、对文字复制的刻板误断和因收录不全导致的复制误判。
1. 对意义抄袭类文字难以判断CNKI 检测系统采用的是外形比对的方法来进行检测,“即针对文字、字母与数字的各种排列组合进行外型比对,如果被比对的两段文字的句式、用词、排列顺序完全相同,则可以被轻易地检测出来。”但如果是作者将搜集到的材料改换句式,进行解释性扩充,但保持内核不变的意义抄袭就比较隐蔽,很难被检测出来。
2. 对文字复制的刻板误判CNKI 检测系统外形比对的判断方法同样也会导致对文字复制的刻板误判。假如A 作者引用了B作者的文章《xx》,但是B 作者的文章因没有正确标注出引用文献或没有标注引用文献而被检测系统认定为抄袭,那么,即便A 作者在引用B 作者的文章时正确标注了所引的文章,检测系统依然会认定A 作者为抄袭,这种情况对A 作者来说就有失公平了。这样的情况还包括对某些名人著作、重要文件、经典案例的表述上。一般来说,这些文字不能被更改,从而导致机检的文字复制可能性高。
3. 因收录不全导致的复制误判CNKI 检测系统对原创文献的默认逻辑为: “首次在《中国学术文献网络出版总库》中出现的文章作者即认定为原创者,在其以后提交检测的论文中出现的相同的文字而没有标注出系统默认出处的,即被认定为抄袭。”由于文章收录的不尽完善,这样的逻辑判断常常出现误差,假设A 作者引用了一段文字( 例如为《xx》书中的语句) ,而这段文字并未被列入比对的CNKI 数据库,如果A 作者为最早引用这段文字的人,并被收录入库,那么不管他是否标注这段文字为《xx》书的引用,系统都会默认A 作者为原创者。若这段文字再次被B 作者引用,即使他标明该段文字为《xx》书的引用,也会被系统认定为抄袭。这种情况下的文字复制比显然是系统的误判。
虽然CNKI 学术不端检测系统可能因其数据库的有限性、滞后性,语言、表格、文章格式的限制性导致检测数据的误差,但不可否认,合理使用检测系统可以预防学术不端行为,提高编辑工作效率,提升刊物质量。CNKI 检测系统的合理使用可从以下几方面着手:
CNKI 学术不端检测系统自2008 年推出以来,被越来越多的期刊编辑部使用,成为各编辑部预防学术不端行为发生的第一道防线。但作为辅助工具,该系统不可避免地存在一些缺陷,因此,期刊编辑不能完全依赖该检测系统来评判稿件: 一方面,编辑应不断提高自身的业务水平,在工作中不断开拓视野,提高审稿能力。另一方面,期刊编辑不能将旧有的查重手段完全弃之不用,在使用检测系统的同时,协同使用多样化的检索工具进行查漏补缺。例如在百度、google 等搜索引擎或者在万方、维普等其他数据库中再次检索作者、题名、关键词等信息元,进行深度排查,以保证检测结果的客观公正。
期刊编辑应明确CNKI 检测系统只是提高工作效率的辅助手段,而不是初审的唯一依据,不应偏信检测结果,仅依照文字复制比作取舍,而应根据文字复制的内容、数量、目的等进行判断,深入分析其文字复制的合理程度。具体来说,针对文字复制比较低的文章,应进一步分析文章是否具有创新性,如果是图表、推导公式占篇幅较大的文章,要特别注意公式前的引导段落、图题或表题是否检测出重合文字,如果有,就需要进一步借助其他手段加以查询,以防漏检。针对文字复制比较高的文章,也需要进一步加以判断。例如综述类文章、交叉学科类文章,或者无法避免需要大段引用原理、描述经典案例等,都不能简单地看成抄袭,一味地否定。
任何稿件的刊发都需要一定的周期,就笔者所在编辑部和其他同类编辑部而言,审稿周期一般在一个月左右,而此周期在某些核心期刊可能会长至三、四个月,甚至半年。在这段时间内,CNKI 学术不端检测系统的总库会进行多次更新,加之总库收录的论文存在一定的滞后性等客观原因。初审通过检测的稿件,在修改之后和稿件发表前再进行检测是很有必要的。此外,在如今一稿多投现象严重而编辑部之间基本没有信息共享的状况下,在稿件发表之前进行最后的检测,也能很好地避免一稿多发。
综上所述,对于当前屡屡出现的抄袭、剽窃、篡改数据、一稿多投等学术不端现象,仅依靠检测系统是远远不够的,学术期刊的编辑应从自身工作入手,严格把关、优化工作流程、提高业务素质,努力遏制工作中出现的种种学术不端现象,净化学术氛围,传播真正有价值的学术论文。