来源:社会科学学术圈,原载于《编辑学报》2020年第4期。
近年来,中国学者每年发表数百万篇科学论文。如何在浩如烟海的论文中脱颖而出,吸引读者眼球,提高论文的传播性和展示性,关键词起着非常重要的作用。关键词是能清楚表达学术论文主要研究内容或中心思想的词语或短语。它们最初是为了满足计算机系统编制各种文献索引的需要而产生的。关键词作为文献检索的重要依据,应该具体、全面、规范。但实际情况是科技论文中含有大量含义宽泛、无实质性内容的无效关键词,如“应用”、“分析”、“问题”、“研究”等,大大降低了科技论文的检索效率和传播效果。此前也有学者对无效关键词进行过研究,但主要集中在高校社科学报论文和农业科技论文中,对更广泛领域的科技论文中常见无效关键词的计量研究较少。
因此,本文以中国知网为文献源数据库,结合文献[3-5]和编校实践经验,选取10篇科技论文中出现频率高、方向性弱、含义广的关键词空,分别搜索其在2015-2019年发表的科技论文中的出现频率,分析其年度分布规律和关键词共现网络。然后分别将大学学报和学院学报、博士学位论文和硕士学位论文(即博士学位论文和硕士学位论文)定义为文献来源,对比分析不同类型的学报和不同学历作者撰写的科技论文中常见无效关键词的频率分布。最后,本文分析了常见无效关键词产生的原因及对策,以提高科技论文作者和校对人员对关键词标引质量的认识。
搜索范围:文献来源仅限于期刊、会议、论文等。(即本文所指的科学论文),CNKI的基础科学、工程科学与技术I、工程科学与技术II、农业科学与技术、医药卫生科学与信息技术六大类收录的大学学报、学术期刊、博士学位论文、硕士学位论文。文学的语言仅限于汉语;关键词是应用、对策、问题、管理、设计、措施、影响、现状、研发;发布时间为2015年1月1日至2019年1月31日。
方法:以"关键词+发表时间"和"关键词+发表时间+文献来源"为组合检索条件,在中国知网的六大类科技文献目录中进行检索,得到各关键词在不同检索条件下的词频分布。为了保证检索结果的有效性,每次检索都随机抽取若干论文,并检查这些论文是否包含目标关键词。最后将结果输入Excel软件进行统计分析(检索时间为2020年3月7日至2020年3月9日)。
2.1无效关键字的定义
无效关键词是指含义宽泛、无法准确传达论文主题、不利于检索或未被认可的缩写等词或短语。它们与论文主题的相关性不大,不能反映单篇科技论文的特点,没有检索价值。
2.2无效关键字的分类
对于无效关键词的分类,目前还没有统一的标准。本文根据文献[3.6]将无效关键词分为以下三类:1)表示国家或地区的通用和非专用名词,如中国、美国、德国;2)“不能表达本题具体概念但不能反映实质的词语”,如方法、问题、实验、研究、分析等;3)带有限定词或无法识别的缩写的复杂短语,如“甘蓝型油菜新品种”、“AP”等。虽然它们能反映文章的主题,但不利于计算机检索和识别。
3.1不同年份科技论文中10个无效关键词的频率分布
结合已有的研究和编校实践经验,本文对第二类无效关键词进行了研究。分别选取应用、对策、问题、管理、设计、措施、影响、现状、研发10篇科技论文中出现频率较高的无效关键词,将文献来源限定为科技论文,在CNKI中搜索。10个无效关键词在2015-2019年发表的科技论文中出现的频率(以搜索记录表示)及其累计词频(10个无效关键词的搜索记录之和占当年发表的科技论文总数的比例)见表1。从表1可以看出,总体来看,不同年份无效关键词的频率分布比较稳定,按照检索记录数排序,从高到低依次为应用、对策、问题、管理、设计、措施、影响、现状、研发,呈现出明显的规律性。2017年发表的科技论文总数为2017727篇,这10条无效关键词搜索记录的总和达到82732条(不排除同一篇科技论文中同时出现两个或两个以上无效关键词)。大约每100篇文章中就有4篇包含这10个无效关键词中的一个,可见无效关键词的使用相当普遍。2015年至2019年,关键词“应用”出现频率最高,其检索记录在2017年和2018年分别达到20267条和20203条,明显高于其他9个无效关键词,表明科技论文作者选择“应用”作为关键词。纵向来看,2015-2019年这10个无效关键词的搜索项数没有明显的规律性,累计词频在3.7%-4.1%之间,其中2015年和2019年无效关键词累计词频约为3.7% (表1),可见科技论文作者并没有有意减少无效关键词。
▼表1 2015-2019年科技论文中10个无效关键词的出现频率和累计词频分布
3.2 10个无效关键词的共词分析
共词分析是通过分析在同一文档中共同出现的关键词或主题词来识别某一学科的知识结构和研究重点的方法。目前,基于关键词的共词分析已经广泛应用于文献计量、信息系统、人工智能等领域。
本文以10个无效关键词为研究对象,分析了2015-2019年其共现关键词(即两个关键词同时出现在同一文档中的现象)的分布情况。结果如图1所示。图1中,2015-2019年,应用、对策、问题、管理、设计、措施、影响、现状、研发10个无效关键词的总检索记录分别为94100、50287、41644、37074、349884。数据来自中国知网,本文只按频率顺序展示了第1至第15位共现关键词。
▼图1 2015-2019年10个无效关键词的共词分析
从图1可以看出,2015年到2019年,同一篇科技论文中出现两个无效关键词的情况相当普遍。例如,以“问题”为搜索关键词,共现频率最高的关键词是“对策”,共现频率为15 223(图1(c)),也就是说,在一篇以“问题”为关键词的科技论文中,有超过三分之一的概率同时出现关键词“对策”。通过分析其余9个无效关键词的共词分布,我们还可以发现,共现频率最高的关键词都是无效关键词。例如,按关键词共现频率排序,2015-2019年与关键词“应用”共现的无效关键词为“开发”、“设计”、“研究”,共现频率分别为2188、1878、1642(图1(a));“现状”、“研究”、“发展”等关键词,几乎都是“对策”、“问题”、“应用”等无效关键词(图1 (h) ~ (j))。可见无效关键词共现网络不仅不能反映学科知识结构和研究热点,还会造成信息资源的浪费。值得一提的是,在本文选取的10个无效关键词的前15个共现关键词中,“建筑”或“建筑工程”出现在7个共现关键词中,这可能与该领域发表的科技论文数量相对较多有关:以“建筑”为主题词进行搜索,2015-2019年共发表论文306196篇,约占科技类。
3.3 10个无效关键词在不同期刊科学论文中的频率分布
基于本文筛选出的10个无效关键词,并限定文献来源为《学院学报》和《大学学报》,2015-2019年发表在不同类型期刊上的科技论文中10个无效关键词的频率分布和累计词频分布见表2。从表2可以看出,2015-2019年,发表在《大学学报》上的科技论文明显多于发表在《学院学报》上的科技论文,但《学院学报》科技论文中无效关键词的出现频率明显高于《大学学报》。例如,2015年《大学学报》共检索到67598篇文章,其中以“应用”为关键词的文章有100篇;《大学学报》共检索到42 620篇文章,其中以“应用”为关键词的文章有305篇,两者差异显著。从表2中还可以看出,2015-2019年,《大学学报》科技论文中无效关键词的累计频率分别为0.73%、0.72%、0.69%、0.58%、0.54%,《大学学报》科技论文中常见无效关键词的累计频率分别为3.36%、3.34%、2.84%。同时,无效关键词在《大学学报》科技论文中的累计出现频率明显低于同期《学院学报》科技论文,表明前者的关键词标引质量高于后者。
▼表2 2015-2019年不同类型期刊科技论文中10个无效关键词的出现频率和累计词频分布
3.4不同学历作者撰写的科技论文中10个无效关键词的累计词频分布
基于本文筛选出的10个无效关键词,并限定文献来源为“硕士论文”和“博士论文”,检索2015-2019年不同学历作者撰写的科技论文中无效关键词的频率分布及其累计词频(即10个无效关键词之和占“博士论文”和“硕士论文”总数的比值),如表3所示。
▼表3 2015-2019年不同学历作者撰写的科技论文中10个无效关键词的出现频率和累计词频分布
从表3可以看出,2015年至2019年,“硕士论文”总量明显高于“博士论文”,前者是后者的8.1 ~ 10.5倍。同时,硕士论文中10个无效关键词的出现频率明显高于博士论文。比如2019年硕士论文中以“设计”为关键词的搜索记录有203条,而博士论文中只有一条。从表3中还可以看出,2015年至2019年硕士学位论文中无效关键词的累计频率明显下降,分别为10.43‰、8.84‰、8.32‰、6.93‰和5.32‰。与2015年相比,2019年硕士论文无效关键词累计频率下降了48.9%。从2015年到2019年,博士学位论文无效关键词的累计频率也整体呈下降趋势,分别为2.39‰、1.70‰、1.71‰、1.57‰和1.40‰。博士学位论文无效关键词累计频率五年下降41.4%。同时,博士学位论文中无效关键词的累计频率明显低于同期硕士学位论文。说明无效关键词的出现频率与论文作者的学历有关。
综合分析结果,虽然2015年至2019年博士、硕士学位论文作者群体中无效关键词的使用逐渐减少,但这10个无效关键词在2015年和2019年发表的科技论文中的累计频率并未发生显著变化(约3.7%),这表明无效关键词正在发生变化。在本研究中,无效关键字的主要原因包括以下几点。
我们认为降低科技论文中无效关键词出现频率的措施主要包括以下几个方面。
在科学技术飞速发展的今天,通过关键词检索相关研究领域的最新文献已经成为研究人员最常用的检索方式之一。一方面,科技论文作者要积极学习科研写作的标准和规范,参加科研写作课程的学习或培训,根据论文主题选择合适的、有方向性的关键词;另一方面,作者和校对人员要从思想上重视关键词标引,进一步加强关键词标引质量的控制,避免使用无效关键词,实现科技论文的快速、广泛传播,提高科技论文的检索利用率和学术影响力。
本文来自中国知网,发表在《编辑学报》2020年第4期,原题《科技论文中10个无效关键词的计量分析》。
引用格式:吴金华、陈灿华。科技论文中10个无效关键词的计量分析[J].编辑学报,2020,32(04):403-408。
本文节选。为了阅读和排版方便,删除了注释和参考文献。有需要的读者请参考原文。
作者:吴金华,陈灿华老师,《中南大学学报》(自然科学版)编辑部。