计算机科学中的睡美人文献特征分析及识别方法研究.docx
《计算机科学中的睡美人文献特征分析及识别方法研究.docx》由会员分享,可在线阅读,更多相关《计算机科学中的睡美人文献特征分析及识别方法研究.docx(8页珍藏版)》请在第一文库网上搜索。
1、计算机科学中的“睡美人”文献特征分析及识别方法研究临清市新时代文明实践服务中心郭艳霞虽然绝大多数的科学出版物都是在发表后的最初几年里被引用的,但也有一些有趣的论文一被称为“睡美人”,在发表后的几年里被引用的次数并不多,但随后却突然开始被大量引用。在这项工作中,我们关注在计算机科学领域的“睡美人”。我们选出了5000多名计算机科学中的“睡美人”,并根据他们的子领域和他们的引文概况来描述他们。我们还提出了一种早期识别“睡美人”的方法,该方法试图根据出版物是否可能是“睡美人”文献对其进行分类。1引言科学文献是科技工作者交流的主要手段,科学引文的数量是衡量科学文献的重要指标。科学引文随时间变化,呈现一
2、定得特性。绝大多数论文在发表后的最初几年被引用,然后呈指数衰减,但很少有特别受欢迎的论文能随着时间稳步积累被引用。人们还观察到另一类有趣的论文一那些在发表后几年没有被大量引用,但突然开始被引用的论文,通常被称为“睡美人”文献1。对论文的“晚唤醒”或“晚识别”现象早有研究。然而,几乎所有之前的研究都集中在基础科学的论文上,但在计算机科学领域对“睡美人”文献的研究非常稀少。在这项工作中,我们使用从微软学术搜索抓取的大型论文数据集,我们识别和描述了计算机科学中超过5000个“睡美人”文献。我们发现“睡美人”文献中有各种子类,它们在各个方面的行为都不同。例如,虽然一些“睡美人”文献在唤醒后被引用的次数
3、继续增加,但许多其他“睡美人”文献在几年后被引用,然后被引用次数再次下降。研究表明,“睡美人”文献的许多特性取决于计算机科学领域的相关子领域。例如,大多数“睡美人”文献来自的子字段“算法和理论”和“科学计算”。这些“睡美人”文献中的许多在较长的时间后苏醒(与其他子领域的“睡美人”文献相比);然而,一旦他们醒来,他们经常被计算机科学的其他子领域引用。相比之下,来自子领域“自然语言和语音”和“硬件和体系结构学”通常只引用自他们自己的子领域。2相关工作理解科学论文的引文增长动态一直是文献计量学中一个有趣的问题2o在研究计算机科学论文的有效生命周期的引文动力学时,一个广义的观察结果3揭示,在发表论文之
4、后,在最初的两到三年内,引文收集的频率会有一个初始增长(增长阶段),随后是一个恒定的峰值,也就是说,进入引用的频率在接下来的一到两年里变得停滞(饱和阶段),然后,在文章的剩余生命周期中出现最终的下降(衰退阶段),然后逐渐地,在某个点上观察不到进一步的活动(废弃阶段)。然而,我们本论文的动机源于Ruiz-Casti11o4提出的一个基本问题与科学计量学相关的内容如下:“不同科学的引文分布是非常相似还是相当不同?”Chakraborty3在早期的工作中引入了计算机科学领域中科学文章的各种引用分布图的想法。他们提出了一种新的引文增长模型来模拟这些不同的引文分布。在接下来的工作中14,他们展示了如何使
5、用这些概要信息来预测一篇文章在其发表时的未来被引数。其提出了一个两阶段的分层学习框架,在第一阶段使用基于规则的方法将被试论文的引文轮廓映射到一个类别;然后在第二阶段,对只属于映射类别的论文进行训练,预测该论文未来的被引次数。他们还通过分析论文的引文分布和上下文属性(如关键词、主题等)来量化论文(相对于领域)的跨学科性。关于论文“晚醒”或“晚认”现象的研究很少。Garfie1d5是第一个提供此类论文例子的研究者。后来,G1anZeI6估计了这种延迟识别,并揭示了这种现象的有趣特征。Raan首先创造了“睡美人”这个词,指的是识别延迟的论文。李江等人7分析了分析了诺贝尔奖得主论文的引文曲线,发现了识
6、别延迟的文章。最近,杜建等人8引入了一种无参数方法来识别科学中的“睡美人”文献。1iandShi9提出了一套基于引证谱增长速度的新标准来从诺贝尔奖得主的文章中检测天才文章。然而,他们提出的标准也有一些特别的选择。例如,该标准不适用于很少被引用或从未被引用的文章。一篇文章至少被引用9次,在发表10年和50年后至少被引用90次,分别满足该准则。1i等人10研究了四个特殊的案例,“睡美人”似乎被纺线伤到,进入睡眠,然后被王子唤醒。他们还选择了一些特别的标准来鉴别“睡美人”一某段时间(至少5年)平均被引用次数少于2次,而在接下来的4年里平均被引用次数超过20次。在另一项研究中,1i和Ye11提出了三个
7、标准一基于平均水平的标准、基于四分位数的标准和无参数的标准,以此来区分“睡美人”。VanRaan12进一步研究了“睡美人”的两个重要性质:“睡美人”的时间依赖分布、作者特征、期刊和领域;“睡美人”的认知环境。他研究的是物理、化学和工程科学论文,并观察到一半的“睡美人”论文是面向应用的。从上述讨论中可以明显看出,不同的研究使用了不同的标准来识别“睡美人”文献。屈文建等人13对高被引文章引文曲线进行了分析。3 “睡美人”的数据集和识别本节描述计算机科学论文的数据集,以及我们如何从该数据集识别“睡美人”文献。3.1 计算机科学论文数据集我们使用了一个从微软学术机构抓取的计算机科学论文的大数据集搜索(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机科学 中的 睡美人 文献 特征 分析 识别 方法 研究