首页论文查重动态常用论文检测期刊数据库资源重复建议问题

常用论文检测期刊数据库资源重复建议问题

时间:2014-03-12 编辑整理:早检测网 来源:早检测网

论文以维普 (v iP)、中国知 网 (c N K I)和万方三大全丈期刊数据库为例,分析了数据库资源重复建设问翅,并初步提出基于学科专业分别建库的特色化发展构想。

电子期刊数据库是随着计算机技术、网络技术以及多媒体技术的发展而产生,目前已经成为重要的学术信息资源宝库。我国的电子期刊数据库建设始于20世纪80年代,一经出现便显示出旺盛的生命力,特别是在90年代借助于因特网的应用和普及,电子期刊数据库更是进人了蓬勃发展期。与国外相比,我国的电子期刊数据库起步较晚,尽管这二十多年来的建设成果令人欣慰,但其发展中也确实存在不少问题,其中资源内容重复建设就是主要问题之一。各个数据库公司各自为政,独立进行数字化生产,一味追求大而全、小而全,过分强调收录文献的数,生成的数据库资源重复、标准不一。本文就以我国三大电子期刊全文数据库为例对此问题作简要的分析说明,并提出数据库资源特色化的初步构想。

1.中文电子期刊数据库资源建设的现状及存在问题

1989年.中国科技信息研 究所重庆分所数据部成功研建《中文科技期刊数据库》,收录期刊以2000余种,以软盘形式开始向全国用户发行,开创了中国信息产业数据库建设的先河。进人叨年代以后,我国的电子期刊数据库逐渐走上了商品化、产业化之路,许多数据公司、研究机构及高等院校纷纷进行数字化生产,出现了规模不同风格各异的电子期刊数据库产品,经过20多年的发展,已经形成了vIP、CNKI、万方三足角立,其他中小型数据库百花齐放的国内市场格局。

在发展过程中,各个数据库都在不断扩大收录范围,尤其是以收录量大而著称的维普、中国知网、万方三大电子期刊数据库,但就其收录的资源 内容来看,很大一部分都是重复的。如表 1 所示,截至2(X)7年6月,维普的《中文科技期刊全文数据库》收录了近驯X刃种期刊刊载的150余万篇文献,内容分为社会科学、自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报八个专辑。中国知网的《中国期刊全文数据库(CJFD)》收录国内7以洲)多种期刊全文,萦积期刊全文文献1750万篇,内容彼盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域,其中核心期刊1735种。《万方数据—中国数字化期刊群》内容班盖哲学政法、社会科学、经济财政、教科文艺、基础科学、医药卫生、农业科学和工业技术八个大类10多个类目,收录期刊近倪以)种,总记录数7685291(更新日期2007年4月26日)。

为了对三大全文数据库内容重复程度有定化的认识,我们采用两种简单的统计方法。第一种是局部调查法,统计对象为收录期刊种类。由于三大全文数据库的收录很大,难以全部进行调查统计,所以我们选择图书悄报档案目录下收录的期刊作为统计对象,通过对图书情报档案目录下期刊重复量的统计来预见整体。在该目录下,按照收录排名分别是维普、CNKI、万方,CNKI全文数据库共计收录74种期刊,其中73种期刊同时被维普全文数据库收录,未被维普收录的期刊是《图书发行研究》。万方全文数据库共计收录39种,其中有36种同时被维普收录,36种同时被CNKI收录,未被维普收录的下种是《黑龙江档案》,《中国典籍与文化》、《中国科技期刊研究》,未被CNKI收录的三种期刊是《数字图书馆论坛》、《中国典籍与文化》、《中国科技期刊研究》。这些期刊种类和数量是分别以二大数据库的期刊导航为依据统计的,在维普全文数据库的期刊导航中,图书情报档案隶属于文化、科学、教育、体育一级类目之下,未被作为单独的类目列出,而是分散于信息与知识传播、科学、科学研究等二级类目之下,所以没有明确统计出图书情报档案类期刊的数。(统计时间:2007年6月16日)

第二种统计方法是抽样法,统计对象为收录文章数量。首先选取物理学、医学、管理学、农业、化学五个学科领域,在各个学科中用同一个检索词分别对三个全文数据库进行检索,再统计检索结果中重复的条目数。这里以作者姓名为检索词进行精确查找,为使样本具有一定的代表性,选取的五位作者都是中国科学院的院士。统计结果如表 2 所示,从表中的数据来看,三大全文数据库检索结果重复现象比较严重,尤其是CNKI和VIP的重复比例都在50%以上,甚至可以达到80%左右。万方与VIP、CNKI的重复数也占到万方总数的50%~90%。(统计时间:2007年6月18日)

2.期刊数据库资派工复化的弊端

2.1 生产者的重复劳动

由于缺乏统一的规划和指导,目前我国的各个数据公司都是各自为政、独立生产,各个数据库一味追求收录数,同一种期刊或者同一篇文章通常都是被几个数据库同时收录,再分别进行数字化加工生产,这实际上就是低水平的重复劳动。一篇论文或者一本期刊从原来的印刷状态转化为最后的数字化产品要经历编目、拆装、扫描、核对、标引等一系列加工过程,在这个数字化的过程中需要耗费大量的人力、物力、财力和存储空间,其成本主要包括人员的工资、设备的损耗、支付的版权费、广告宣传费及其他各种管理费用等等,而这些费用很多却是耗费在资源重复建设之中。上文中统计的三大期刊数据库内容严重重复,如CNKI和VIP全文数据库的重复率都在50%以上,甚至达到80%,这个重复劳动量是巨大的,浪费的人力、物力和财力也是惊人的。

2.2 购买者的经费浪费

学术性期刊数据库的购买者多为大学、研究所和图书情报所等非盈利性机构,这些单位的采购经费是非常有限的。三大全文数据库的收录内容大量重复、学科范围涵盖各个专业,但三者之间又有少量差别,购买者很难进行选择。尤其是大学图书馆面对的读者往往是各个学科专业的师生,为了使查全率达到最大化,许多大学都是同时购买三个数据库。当用户要求较高的查全率时往往是分别对三个数据库进行检索,尽管检索结果大部分都是重复的,但在一定程度上可以保证检索结果的全面性。三大数据库的价格不菲,如果同时购买无疑加重了购买者的经济负担,原本就很拮据的经费为了保证三大数据库的购买,通常会影响其他资源的购.例如图书馆在经费不足时常常会裁减外文期刊的购买量。按照现在的价格.如果剔除三大数据库中重复的内容,实际每单位文献的平均价格是原来的2~3倍。

2.3 使用者的利用负担

用户想要查找某一主题的文章时,很难确定哪个数据库更适合,为达到最大的查全率总是要分别使用三个数据库进行检索。在浏览或者下载文章时,还要进行过滤以别除重复的文章,这就造成用户时间和精力的极大浪费。另外,到目前为止,国内期刊数据库还没有一个统一的格式标准和检索规范,不同的数据库公司都是执行 自己 的文件标 准和检索方式。例如,共大期刊数据库需要下载安装三种阅读器,用户还需要掌握每个数据库的使用方法,这些都加重了使用者的负担。

2.4社会资源的巨大浪费

生产者的重复劳动可以将成本转嫁给购买者,购买者(大学,研究所等)的经费又多来自于政府拨款,国家给每个大学、研究所和图情机构的科研经费都是非常有限的。无论是生产者的重复劳动还是购买者的经济负担,归根结底都是对社会资源的浪费。另外,我国数字化生产的能力还是十分有限的,如果都把有限的人力、物力和财力耗费在重复的数字化生产上,势必会影响对其他的学术资源和研究成果的开发能力,例如对各种灰色文献的开发利用。科研领域的成果都是成指数增长的,数量非常巨大,每个数据库都追求全面,结果却是对整个社会资源收录的不全面。据国家新闻出版署副署长李东东称:截至 2007年4月,我国国内期刊种类已经达到9468种。而就三大数据库的收录量来看都没有达到十分全面。如此必然会使一部分科研成果未能进人数字化流通范围而淹没于信息洪流中,不能为大众所利用,实在是对社会资源的极大浪费。

2.期刊数据库资谏特色化的初步构想

针对目前中文期刊数据库资源的重复建设问题,我们建议各个数据库改变一味追求收录数的经营方式,而是更加突出针对性,实行差异化竞争。对于这一建议主要有以下几方面的构想。

3.1 国家统一规划和协调

我国的电子期刊生产活动源于20世纪80年代末,进人90年代以后,数字信息产品的生产实现了产业化和商业化。目前,我国的数字化信息市场已经初具规模,出现了一批自主经营的数据公司。但目前的数字化信息的生产活动和交易市场尚缺乏政府统一的领导和规范,也没有相关的行业协会监督,完全是自发的市场行为,各种不规范的问题普遏存在。除了本文所讨论的重复化生产外,还有数字化生产的知识产权问题等,都是制约数字化生产继续发展的重要问题。再加上我国人力、物力、财力有限的国情,我们应该集中力量重点扶持一 些项目,在已拥有一定信息资源积累的基础上,采取“国家立项、企业运作、中央为主、地方配合”的模式,走宏观调控联合开发之路’。国家应该设立专门的电子资源管理部门,本着资源共享的原则,对我国的电子资源尤其是学术性电子资源的生产和销售活动进行统一规划、整体协调,打破各个部门各个数据公司各自为政条块分割的局面。各部门各公司都要服从于国家的统一指导和监督,避免重复化建设。

3.2 突出收录资源 的学科专业特色

学科专业化是学术性电子期刊特色化研究的重点,特别是对于全文数据库的建设,强调对某一学科文献的收录数和质量,更加符合科学发展以及数据库建设的规律。在国家统一规划之下,各个数据公司按照学科专业进行分工,每个全文数据库只收录某一个或者几个学科的期刊,不追求综合性,但求在某一学科范围内做到梢、深、全,追本学科内收录范围最大、加工质量最高、使用效果最好。按照学科分工的优势主要体现在两个方面:对于生产者来说,标引人员豁要某一学科专业的背景知识才能保障标引的质,如果某个数据库只收录一个学科范围,该数据公司就很容易培养出该学科专业的标引专家,生成的数据库产品的标引质更高;另外,对于购买者和使用者来说,容易根据自身的悄况进行选择,例如医学院就可以只选择购买医学类数据库,农科院只需购买农业类数据库,使用者也可以根据自己的科研主题直接选择某一专业类别的数据库进行检索。

3.3 加强各个数据公司之间的交流合作

市场上的竞争和合作从来都是共存的,各个数据公司要本着共建、共享的原则进行合作。按照上文提到的根据学科进行分工,各个公司分别以自己专业特色的产品进行竟争,但在生产设备、管理方法、生产技术、营梢措施等方面都可以进行交流和共享,特别是要进行信息的广泛交流,递免资裸的重复建设。各个数据公司在生产前要进行深人的市场调查、准确地进行市场细分和定位,确定重点、突出特色。为了保证特色数据库在内容姓“特” ,在质上月“优” ,数据库开发研制单位应加强对信息市场的调查.努力做到“你无我有,你有我新,你新我奇,你奇我特”,以避免因不必要的重复建设所导致的大量人力物力和财力的浪费


作者:温芳芳 (郑州大学信息管理系)

在线咨询
在线留言
系统列表
返回顶部