关键词有哪些分类(论文中普遍出现的10个无效关键词,你用过吗?)

来源:社会科学学术圈,原载于《编辑学报》2020年第4期。


近年来,中国学者每年发表数百万篇科学论文。如何在浩如烟海的论文中脱颖而出,吸引读者眼球,提高论文的传播性和展示性,关键词起着非常重要的作用。关键词是能清楚表达学术论文主要研究内容或中心思想的词语或短语。它们最初是为了满足计算机系统编制各种文献索引的需要而产生的。关键词作为文献检索的重要依据,应该具体、全面、规范。但实际情况是科技论文中含有大量含义宽泛、无实质性内容的无效关键词,如“应用”、“分析”、“问题”、“研究”等,大大降低了科技论文的检索效率和传播效果。此前也有学者对无效关键词进行过研究,但主要集中在高校社科学报论文和农业科技论文中,对更广泛领域的科技论文中常见无效关键词的计量研究较少。


因此,本文以中国知网为文献源数据库,结合文献[3-5]和编校实践经验,选取10篇科技论文中出现频率高、方向性弱、含义广的关键词空,分别搜索其在2015-2019年发表的科技论文中的出现频率,分析其年度分布规律和关键词共现网络。然后分别将大学学报和学院学报、博士学位论文和硕士学位论文(即博士学位论文和硕士学位论文)定义为文献来源,对比分析不同类型的学报和不同学历作者撰写的科技论文中常见无效关键词的频率分布。最后,本文分析了常见无效关键词产生的原因及对策,以提高科技论文作者和校对人员对关键词标引质量的认识。


检索范围和方法


搜索范围:文献来源仅限于期刊、会议、论文等。(即本文所指的科学论文),CNKI的基础科学、工程科学与技术I、工程科学与技术II、农业科学与技术、医药卫生科学与信息技术六大类收录的大学学报、学术期刊、博士学位论文、硕士学位论文。文学的语言仅限于汉语;关键词是应用、对策、问题、管理、设计、措施、影响、现状、研发;发布时间为2015年1月1日至2019年1月31日。


方法:以"关键词+发表时间"和"关键词+发表时间+文献来源"为组合检索条件,在中国知网的六大类科技文献目录中进行检索,得到各关键词在不同检索条件下的词频分布。为了保证检索结果的有效性,每次检索都随机抽取若干论文,并检查这些论文是否包含目标关键词。最后将结果输入Excel软件进行统计分析(检索时间为2020年3月7日至2020年3月9日)。


无效关键词的定义和分类


2.1无效关键字的定义

无效关键词是指含义宽泛、无法准确传达论文主题、不利于检索或未被认可的缩写等词或短语。它们与论文主题的相关性不大,不能反映单篇科技论文的特点,没有检索价值。


2.2无效关键字的分类

对于无效关键词的分类,目前还没有统一的标准。本文根据文献[3.6]将无效关键词分为以下三类:1)表示国家或地区的通用和非专用名词,如中国、美国、德国;2)“不能表达本题具体概念但不能反映实质的词语”,如方法、问题、实验、研究、分析等;3)带有限定词或无法识别的缩写的复杂短语,如“甘蓝型油菜新品种”、“AP”等。虽然它们能反映文章的主题,但不利于计算机检索和识别。


10个无效关键词计量学分析


3.1不同年份科技论文中10个无效关键词的频率分布

结合已有的研究和编校实践经验,本文对第二类无效关键词进行了研究。分别选取应用、对策、问题、管理、设计、措施、影响、现状、研发10篇科技论文中出现频率较高的无效关键词,将文献来源限定为科技论文,在CNKI中搜索。10个无效关键词在2015-2019年发表的科技论文中出现的频率(以搜索记录表示)及其累计词频(10个无效关键词的搜索记录之和占当年发表的科技论文总数的比例)见表1。从表1可以看出,总体来看,不同年份无效关键词的频率分布比较稳定,按照检索记录数排序,从高到低依次为应用、对策、问题、管理、设计、措施、影响、现状、研发,呈现出明显的规律性。2017年发表的科技论文总数为2017727篇,这10条无效关键词搜索记录的总和达到82732条(不排除同一篇科技论文中同时出现两个或两个以上无效关键词)。大约每100篇文章中就有4篇包含这10个无效关键词中的一个,可见无效关键词的使用相当普遍。2015年至2019年,关键词“应用”出现频率最高,其检索记录在2017年和2018年分别达到20267条和20203条,明显高于其他9个无效关键词,表明科技论文作者选择“应用”作为关键词。纵向来看,2015-2019年这10个无效关键词的搜索项数没有明显的规律性,累计词频在3.7%-4.1%之间,其中2015年和2019年无效关键词累计词频约为3.7% (表1),可见科技论文作者并没有有意减少无效关键词。


▼表1 2015-2019年科技论文中10个无效关键词的出现频率和累计词频分布




3.2 10个无效关键词的共词分析

共词分析是通过分析在同一文档中共同出现的关键词或主题词来识别某一学科的知识结构和研究重点的方法。目前,基于关键词的共词分析已经广泛应用于文献计量、信息系统、人工智能等领域。


本文以10个无效关键词为研究对象,分析了2015-2019年其共现关键词(即两个关键词同时出现在同一文档中的现象)的分布情况。结果如图1所示。图1中,2015-2019年,应用、对策、问题、管理、设计、措施、影响、现状、研发10个无效关键词的总检索记录分别为94100、50287、41644、37074、349884。数据来自中国知网,本文只按频率顺序展示了第1至第15位共现关键词。


▼图1 2015-2019年10个无效关键词的共词分析




从图1可以看出,2015年到2019年,同一篇科技论文中出现两个无效关键词的情况相当普遍。例如,以“问题”为搜索关键词,共现频率最高的关键词是“对策”,共现频率为15 223(图1(c)),也就是说,在一篇以“问题”为关键词的科技论文中,有超过三分之一的概率同时出现关键词“对策”。通过分析其余9个无效关键词的共词分布,我们还可以发现,共现频率最高的关键词都是无效关键词。例如,按关键词共现频率排序,2015-2019年与关键词“应用”共现的无效关键词为“开发”、“设计”、“研究”,共现频率分别为2188、1878、1642(图1(a));“现状”、“研究”、“发展”等关键词,几乎都是“对策”、“问题”、“应用”等无效关键词(图1 (h) ~ (j))。可见无效关键词共现网络不仅不能反映学科知识结构和研究热点,还会造成信息资源的浪费。值得一提的是,在本文选取的10个无效关键词的前15个共现关键词中,“建筑”或“建筑工程”出现在7个共现关键词中,这可能与该领域发表的科技论文数量相对较多有关:以“建筑”为主题词进行搜索,2015-2019年共发表论文306196篇,约占科技类。


3.3 10个无效关键词在不同期刊科学论文中的频率分布

关键词有哪些

基于本文筛选出的10个无效关键词,并限定文献来源为《学院学报》和《大学学报》,2015-2019年发表在不同类型期刊上的科技论文中10个无效关键词的频率分布和累计词频分布见表2。从表2可以看出,2015-2019年,发表在《大学学报》上的科技论文明显多于发表在《学院学报》上的科技论文,但《学院学报》科技论文中无效关键词的出现频率明显高于《大学学报》。例如,2015年《大学学报》共检索到67598篇文章,其中以“应用”为关键词的文章有100篇;《大学学报》共检索到42 620篇文章,其中以“应用”为关键词的文章有305篇,两者差异显著。从表2中还可以看出,2015-2019年,《大学学报》科技论文中无效关键词的累计频率分别为0.73%、0.72%、0.69%、0.58%、0.54%,《大学学报》科技论文中常见无效关键词的累计频率分别为3.36%、3.34%、2.84%。同时,无效关键词在《大学学报》科技论文中的累计出现频率明显低于同期《学院学报》科技论文,表明前者的关键词标引质量高于后者。


▼表2 2015-2019年不同类型期刊科技论文中10个无效关键词的出现频率和累计词频分布




3.4不同学历作者撰写的科技论文中10个无效关键词的累计词频分布

基于本文筛选出的10个无效关键词,并限定文献来源为“硕士论文”和“博士论文”,检索2015-2019年不同学历作者撰写的科技论文中无效关键词的频率分布及其累计词频(即10个无效关键词之和占“博士论文”和“硕士论文”总数的比值),如表3所示。


▼表3 2015-2019年不同学历作者撰写的科技论文中10个无效关键词的出现频率和累计词频分布




从表3可以看出,2015年至2019年,“硕士论文”总量明显高于“博士论文”,前者是后者的8.1 ~ 10.5倍。同时,硕士论文中10个无效关键词的出现频率明显高于博士论文。比如2019年硕士论文中以“设计”为关键词的搜索记录有203条,而博士论文中只有一条。从表3中还可以看出,2015年至2019年硕士学位论文中无效关键词的累计频率明显下降,分别为10.43‰、8.84‰、8.32‰、6.93‰和5.32‰。与2015年相比,2019年硕士论文无效关键词累计频率下降了48.9%。从2015年到2019年,博士学位论文无效关键词的累计频率也整体呈下降趋势,分别为2.39‰、1.70‰、1.71‰、1.57‰和1.40‰。博士学位论文无效关键词累计频率五年下降41.4%。同时,博士学位论文中无效关键词的累计频率明显低于同期硕士学位论文。说明无效关键词的出现频率与论文作者的学历有关。


10个无效关键词出现原因及应对措施


4.1 10个无效关键词的原因分析

综合分析结果,虽然2015年至2019年博士、硕士学位论文作者群体中无效关键词的使用逐渐减少,但这10个无效关键词在2015年和2019年发表的科技论文中的累计频率并未发生显著变化(约3.7%),这表明无效关键词正在发生变化。在本研究中,无效关键字的主要原因包括以下几点。


第一,大部分科技论文作者没有得到有效的指导,不知道如何写出合适的关键词。研究表明,大多数大学生承认他们没有接受过系统的研究写作训练。曲春礼等人调查了328名研究生,发现只有17.39%的人熟悉关键词选择。其实早在1987年,我国GB/T 7713—1987《科技报告、学位论文和学术论文的编写格式》就明确规定,每篇论文要选取3 ~ 8个词作为关键词,有条件的话尽量使用《中国主题词表》等词典提供的规范词。2019年,国家新闻出版总署发布行业标准CY/T 173—2019《学术出版标准中关键词的编制规则》,阐述了关键词的定义和基本要求。遗憾的是,目前高校关于科技论文写作的课程和培训还很少。许多作者甚至从来没有听说过中文词库。其他企事业单位的作者接触最新标准、规范、写作培训和指导的机会较少,导致低质量科技论文和无效关键词的稳定存在。例如,在不存在“质量”、“分析”、“技术”、“原因”等无效关键词的情况下,2015年至2019年,仅本文选取的10个无效关键词,共有381295条搜索记录;对这些无效关键词的累计词频进一步分析发现,总体趋势是先升后降,但变化幅度不大,说明科技论文作者使用无效关键词的现象依然普遍。


第二,有些作者不重视关键词在论文检索中的重要作用。部分中国科技论文作者只关心论文能否发表,能否帮助自己获得学位或晋升职称,而不关心论文的关键词标引质量和论文发表后的学术影响力,导致科技论文中存在大量没有检索价值的关键词。进一步分析图1可知,作者在选择关键词时,往往只是简单地根据出版物的要求将论文的标题分成3 ~ 8个关键词,而没有仔细鉴别这些关键词是否能准确反映论文的特点,导致无效关键词在同一篇论文中屡见不鲜。例如,2015年至2019年,标题中既有“应用”又有“研究”的科技论文搜索记录有199841条,标题中既有“影响”又有“研究”的科技论文搜索记录有128358条,这也反映了部分作者在标题中选择关键词的随意性。


第三,审稿、校对组(包括论文导师、审稿专家)把关不严。目前仍有相当多的编辑秉持着“有错不改”的理念。在审核科技论文时,只关注可变符号和单位使用不规范、图表和公式排列不合理等。,而对论文关键词等能体现文章亮点的内容却无动于衷。虽然也是“给别人做嫁衣”,但难免不够细心。例如,2015-2019年,《学院学报》的科技论文总数为180674篇,其中10个无效关键词的累计词频为14.80%。《大学学报》共有322564篇科技论文,其中10个无效关键词的累计词频为3.26%(表2),前者的累计词频约为后者的4.5倍。可见《大学学报》编校组对关键词的标引质量控制不如《大学学报》编校组严格。与此同时,高校教师忙于申请项目、开公司而疏于指导学生学术研究和写作的现象依然存在,论文作者因学术不端被撤稿或学位被撤销的现象屡见不鲜。可见,一些高校的导师和审稿人对学生学术论文的主要内容看得不够仔细,更不用说论文中的关键词了。例如,2015-2019年,“博士学位论文”总数为116093篇,其中10个无效关键词的累计词频为8.78‰。“硕士论文”总数为1016061篇,其中10个无效关键词的累计词频为39.84‰,后者约为前者的4.5倍(表3)。可见,“硕士论文”审稿人对关键词的标引质量控制不如“博士论文”审稿人严格。


4.2无效关键词的对策


我们认为降低科技论文中无效关键词出现频率的措施主要包括以下几个方面。


一是进一步加强对科技论文作者的指导和培养。这就需要高校、科技期刊编辑部等企事业单位形成合力,建立合理的培训机制,定期开设写作课程或进行写作训练,对科技论文作者进行系统全面的写作训练,加深对论文结构、论文要素、论文写作标准和规范的理解,提高综合写作能力,减少无效关键词的选取。如吉林大学《中国兽医学报》编辑部针对科技论文作者开展了“移动课堂”网络教学,取得了良好的效果。


二、科技论文作者要从思想上重视关键词在文献检索中的重要作用,同时在操作上严格执行关键词的编写规则。作者应充分认识到关键词是科技论文检索的信息点,是表达论文主要学术观点的关键因素,在论文写作中应避免使用无效关键词。CY/T 173—2019规定关键词写作一般包括论文综述、话题分析、选词和排列;关键词应准确、全面地揭示论文的主题内容,重要的可检索内容不应遗漏。按照写作规律选择合适的关键词后,科技论文作者作为读者也要反推:他们会选择这样的关键词来搜索本研究领域的科技论文吗?合理科学的关键词标引有助于提高文献利用率。


第三,审稿编辑组要严格控制无效关键词。关键词能够反映期刊的研究热点和发展方向,关系到期刊的学术质量。论文的审稿编辑组要注意关键词的标引,选择合适的关键词有利于学术文献的有效传播和充分利用,从而有助于提高论文和期刊的学术影响力。如成功入选“中国科技期刊优秀行动计划梯队期刊”的《中南大学学报(自然科学版)》,对期刊的学术质量进行严格把关。2015-2019年共发表论文2 385篇,其中10个无效关键词出现频率为0;而《湖南城市学院学报(自然科学版)》同期共发表论文933篇,其中68篇被搜索出10个无效关键词,累计词频为7.3%。可见,审校组在关键词的标引质量控制中起着重要的作用。


结束语[/s2/]


在科学技术飞速发展的今天,通过关键词检索相关研究领域的最新文献已经成为研究人员最常用的检索方式之一。一方面,科技论文作者要积极学习科研写作的标准和规范,参加科研写作课程的学习或培训,根据论文主题选择合适的、有方向性的关键词;另一方面,作者和校对人员要从思想上重视关键词标引,进一步加强关键词标引质量的控制,避免使用无效关键词,实现科技论文的快速、广泛传播,提高科技论文的检索利用率和学术影响力。


本文来自中国知网,发表在《编辑学报》2020年第4期,原题《科技论文中10个无效关键词的计量分析》。

引用格式:吴金华、陈灿华。科技论文中10个无效关键词的计量分析[J].编辑学报,2020,32(04):403-408。

本文节选。为了阅读和排版方便,删除了注释和参考文献。有需要的读者请参考原文。

作者:吴金华,陈灿华老师,《中南大学学报》(自然科学版)编辑部。

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友