大数据是一个泛在的概念,各行各业都可能存在大数据。大数据存在的价值在于,科研人员通过对数据进行分析,从而能够获得有助于学科或行业发展的研究结论,为决策者提供决策支撑,或者为研究人员提供科研参考。 本书的研究过程包含了数据搜集、数据处理、指标设计、实证研究、决策建议等内容,是一整套的系统性研究。不但为主路经分析提供了方法论支持,而且能够通过实证研究为决策作数据支撑。更重要的是,通过前前后后的实践研究,我们为学科分析人员和学科服务人员提供了一整套可供参考和借鉴的研究方法。
主路径分析能够揭示一个研究主题或研究领域的主要发展过程,它能够给研究者提供这个发展过程中的关键文献或者关键事件。通常,找到的主路径可能不是唯一的,但是每条主路径都是由一系列关键文献组成的,这些关键文献体现了一个研究领域的主要发现。自从Garfield提出引文分析之后(Garfield,1955),引文分析就变得非常流行,而主路径分析实际上就是一种特殊的引文分析。因为引文分析能够明确地展示科研论文之间错综复杂的关系,而且能够体现这些关系的强弱,所以引文分析在寻找关键论文的过程中扮演着非常重要的角色。假设科学史是由一系列具有时间顺序的事件组成的,在这个过程中新的发现是在以往发现的基础上产生的,基于这些假设,Garfield指出,借助引文分析来书写科学史变得可行(Garfield,1964)。Garfield进一步发现,如果一篇论文被更加广泛地引用,那么这篇论文就很可能是一个研究主题中的“里程碑式”的研究,或者说是这个研究主题中的关键事件(Garfield,1970)。而且,引用关系已经被证明是研究技术发展变化过程的重要方法(Jaffe,2002)。引文研究因此可以被分为两类,一类是研究科研论文的重要性的,另一类是分析引文网络的结构特征的。如果要研究特定的网络关系,那么通常就要开展引文网络的结构分析。科研论文之间的关系包括引用、被引用、文献耦合(Kessler,1963)以及文献共被引(Small,1973)。传统的网络结构分析方法主要是基于以上所述的论文之间的关系对论文进行聚类,而这些方法主要关注的是网络节点,即科研论文,并非节点之间的关系。Garfield在分析有关DNA脱氧核糖核酸。理论的引文网络时,只有40篇科研论文。因此,他的分析是比较容易完成的。随着科研论文数量的快速增多,使用传统的方法直接对这些论文的引文结构进行分析变得越来越困难。因此,Hummon提出用主路径分析的方法来解决这个问题(Hummon,1989)。与关注网络节点的传统分析方法不同的是,主路径分析方法关注的是节点之间的连接关系。换句话说,传统的网络结构分析方法关注的是网络节点,而主路径分析方法关注的是节点之间的关系。主路径指的是网络中那些能够承载*多知识流的路径,它们是引文网络中*重要的网络路径。为了衡量一个连接在论文引用网络中的重要性,Hummon提出了遍历权重的概念。一个连接的遍历权重,指的是经过这条连接的路径数量,遍历权重的大小体现了连接的重要性。Hummon开发了三种计算遍历权重的方法,即搜索路径链接计数方法(Search Path Link Count,SPLC)、搜索路径节点对方法(Search Path Node Pair,SPNP),以及节点对映射计数方法(Node Pair Projection Count,NPPC)。在基于以上三种方法衡量了连接的重要性之后,Hummon提出可以使用深度优先算法(Depth First Search Method)来寻找主路径。基于DNA研究的引文网络,Hummon发现了促使DNA理论形成的关键事件和关键文献。Hummon在这里用到的引文网络和Garfield曾经用过的引文网络(Garfield,1964)是同一个。与Garfield当初的研究结果相比较,Hummon通过使用主路径分析方法得到的研究结果是非常具有说服力的。然而,他们使用的论文引用网络是非常小的,仅仅由40个网络节点组成,而这40个网络节点是从69篇科研论文中筛选出来的。后来,Hummon使用主路径分析方法分析了一个更大的引文网络,这个引文网络是由119个网络节点和632条节点之间的连接组成的。这个引文网络中的节点不只是科研论文,还有研究报告和著作等,这些网络节点是关于中心性和生产力研究(Centrality and Productivity Research)的。该网络是一个由被引关系构成的引文网络,所以这个网络体现了早期研究对晚期研究的影响。在研究中,Hummon同时使用了NPPC、SPLC和SPNP三种计算遍历权重的方法,*后得到了一个中心性和生产力研究领域的、清晰的发展主路径(Hummon,1990)。同年,Hummon引入了计算机领域提出的深度优先算法(Hummon,1990)。基于期刊Social Networks的第1~12卷发表的科研论文,Hummon使用主路径分析方法找到了Kuhn先前已经找出来的主路径。Hummon的研究也说明了使用主路径分析方法研究者能够得到非常精确的结果(Hummon,1993)。后来,Carley分析了期刊Journal of Conflict Resolution的主路径结构(Carley,1993)。然而,之前主路径分析方法一直未被用于非常大型的引文网络,直到Batagelj开发出主路径分析的高效计算机算法,并且将这些算法植入大型网络分析软件Pajek(Batagelj,2003)。在Batagelj的研究中,他针对Hummon的SPLC和SPNP方法开发了非常高效的计算机算法。因为这些算法是和网络中边的数量成线性关系的,所以算法效率高,从而可以被用来分析非常大型的引文网络。同时,和Hummon提出的、用来计算连接遍历权重的SPLC和SPNP方法相比较,Batagelj还自己开发了搜索路径数(Search Path Count,SPC)计算方法。通过对SPC、SPLC和SPNP三种计算方法进行对比研究,Batagelj指出,使用这三种方法计算遍历权重得到的结果是非常相似的,但是SPC方法具有其他两种方法没有的优点。自此,SPC方法被广泛地用来计算连接的遍历权重。Batagelj还基于Pajek软件提供了两个研究实例,一个是针对论文引用网络进行分析的,另外一个是针对专利引用网络进行分析的。如果我们把Garfield的引文分析研究(Garfield,1964)看作引文网络研究中的**个重大发现,把Hummon提出来的主路径分析(Hummon,1989)看作第二个重大发现,那么Batagelj的上述研究结果(Batagelj,2003)足以被称为引文网络研究的第三个重大发现。在前人研究的基础上,Moore研究了公共健康领域社会资本概念的谱系(Moore,2006)。Mina借用分析方法调查了一个非常重要的医学技术创新研究,即冠状动脉成形术,这是医学领域解决冠心病的重大突破,因为冠心病在那个年代的发达国家是导致死亡的*主要疾病。Mina的研究是基于两类数据集展开的,一类是科研论文,另一类是发明专利,整个分析是在Pajek软件中完成的(Mina,2007)。Verspagen随后基于专利引用网络对燃料电池技术的发展轨迹进行了分析。Carlero-Medina针对吸收能力领域的研究,分析了主要的发展路径(Carlero-Medina,2008)。Lucio-Arias使用HistCite软件分别构造了关于富勒烯的研究领域和纳米管的研究领域的论文引用网络,使用SPLC算法来计算连接的遍历权重,并借助Pajek软件找到了相应研究领域的主路径(Lucio-Arias,2008)。Harris随后分析了关于二手烟的研究主路径(Harris,2009)。Lu调查了纳米技术伦理学中的发展历史(Lu,2012)。在2012年,出现了主路径研究中的另一个“里程碑式”的研究,这个研究是由Liu等人提出来的,他们在这方面做出了重要贡献(Liu等,2012)。Liu等人的研究可以看作继Garfield、Hummon以及Batagelj等人的研究之后,在主路径研究领域做出的另一个巨大贡献。在Hummon的工作中,主路径的寻找是从当前节点出发的边中选择具有*大遍历权重的边,重复该操作直至完成整个主路径的寻找。使用这种方法,每一次选择出来的边都是从当前节点出发具有*大遍历权重的边,然而,得到的整个路径中的边的遍历权重之和,未必是所有路径中*大的。Liu等把Hummon的这种搜索主路径的方法称作本地(Local)主路径搜索,Liu等认为上述问题是本地主路径搜索的缺陷,他们因此相应地提出了全局主路径(Global)搜索。在全局主路径搜索中,从当前节点出发所找出的边未必是所有边中权重*大的那一条边,然而,*终找出来的路径上的所有边的遍历权重之和,却是所有路径中*大的。这种方法就好像是图论中*短路径搜索(Shortest Paths Searching)的一个逆版本。其实,Hummon和Liu等提出来的这两个主路径搜索方法都有自己的特点,到底使用哪一种方法来寻找主路径,主要取决于研究者想要表达一种什么样的信息。本地主路径搜索表达的是在整个知识流动过程中一种渐进式的重要性;而全局主路径搜索表达的是整个路径的重要性。Liu后来的研究发现,通过本地主路径搜索方法搜索到的主路径和通过全局主路径搜索方法搜索到的主路径是非常相似的,仅仅在主路径的起始和末尾会有不同(Liu,2013a)。在Liu发现Hummon的主路径搜索方法是本地主路径搜索的同时,他还发现Hummon的搜索方法是前向(Forward)搜索,也就是说,这样每次找出来的论文节点都是那些*能够吸引后续研究的论文节点,这就好像是在追溯那些有*重要贡献的前人的研究成果。相对而言,Liu提出了后向(Backward)搜索(Liu,2012)。相对于前向搜索,后向搜索选择的是网络路径上那些能更广泛地吸取前人研究结果的论文节点。前向搜索是基于网络节点的“出度”选择的,而后向搜索则是基于网络节点的“入度”选择的。然而,后向搜索只能用于Hummon提出来的本地主路径搜索方法。实际上,Lucio-Arias的研究已经使用到了后向搜索的方法,只不过这种方法在当时的研究中被称为“Codification”(Lucio-Arias,2008)。Liu还提出,通过放松搜索的限制条件,能够找出重要性仅次于主路径的其他路径。因此,这种方法也被称为多主路径搜索方法。多主路径搜索方法和主路径分析方法找到的路径可能有多条是不同的,前者是主动地寻找多条路径,各条路径的重要性是依次下降的;而后者是由多条路径的遍历权重相同引起的,这些路径都是主要的路径。Liu的这个工作还有另外一个重要贡献,就是关键路径(Key-Route)概念的提出。Liu提出关键路径的概念,是为了解决这样一个实际问题,即在以往的主路径搜索算法中,对于整个引文网络来讲具有*高遍历权重的那一条或那几条边未必会被选入主路径,而这对这些边是不公平的。Liu把这样的边称作Key-Route(我们称之为关键路径),而且提出可以用关键路径搜索的方法来解决这个问题。在讲述具体方法之前,我们先介绍一些基础知识,以免理解上的混淆。关键路径是一条弧,对于一条方向是从左指向右的弧来讲,左侧端点称为弧尾节点,右侧端点称为弧头节点。可以类似地借助弓箭来理解,箭射出去以后,前端为箭头,后端为箭尾。弧头和弧尾也是类似的。关键路径搜索的具体方法是,首先选中关键路径,然后顺着关键路径的头节点使用前向搜索算法进行主路径搜索,直至到达出度为零的终端节点;同时,顺着弧尾节点使用后向搜索算法进行主路径搜索,直至到达入度为零的起始节点。类似地,我们可以通过放松条件限制来获得多条关键路径。基于H指数的相关科研论文,Liu整理了多条关于H指数研究的主路径,使用的方法包括前向本地主路径搜索、前向全局主路径搜索、后向本地主路径搜索、后向本地多主路径搜索以及本地关键路径搜索和全局关键路径搜索(Liu,2012)。在Liu的后期工作中,他将本地关键路径搜索方法分别运用于5个DEA(Data Envelopment Analysis,数据包络分析应用),从而完成了一项关于DEA应用的综述研究(Liu,2013b)。Chuang应用本地关键路径搜索方法分析了医疗旅游研究,并且得到了该研究领域的两条不同的发展路径(Chuang,2014)。而且,在Liu的另外一个后期工作中,他们先用基于Edge-Betweenness的网络聚类方法对DEA的研究文献进行了分类,并得到了DEA的4个研究前沿。然后,Liu针对每一个DEA的研究前沿所呈现的文献引用网络,先使用SPLC的方法来计算连接的遍历权重,然后使用全局关键路径搜索方法分别找出了每一个研究前沿的发展路径(Liu,2016)。Kaffash使用Batagelj早期提出来的关键路径分析方法对金融服务领域的发展路径进行了研究(Kaffash,2017)。
邵志毅,计算机软件与理论博士,现为陕西师范大学教师。在陕西师范大学数学与信息科学学院从事博士后合作研究,研究方向为学科分析、图书情报、科学计量。陕西师范大学优秀博士研究生,主持中国博士后科研基金面上一等项目一项,参与国家自然科学基金项目6项。
西方文化概论 本书特色 本书既有历史的纵向推进,可窥西方评议化演变之脉络,又兼逻辑的横向论断,可究西方文化内容之真谛,全书文章畅达,叙史与评论相揉,思想火花不时...
全国第六届书学讨论会论文集 内容简介 本书收录了这次讨论会的论文精选,希望通过这种形式,推动书法理论研究乃至书法艺术事业更加健康蓬勃地向前发展。全国第六届书学讨...
中国隐士与中国文化 本书特色 有人说,戏剧的演出永远缺少一次彩排的遗憾,否则可完美一些。我每写一本书,也会想到如能以更多的精力、更多的时问进行修改、补充,会比较...
中国书评-(第四辑) 本书特色 有人说当年的《中国书评》是那一代人的“学术图腾”,九年后复后的《中国书评》显然也有同样的追求。**辑于2005年4月出版,在学人...
翻译与人生 本书特色 您是否发现英语学了这么多年,真正在泊上用场的时候却仍然哑口无言?学校里教的好像永远少了那么一句?语言的目的首重沟通,然而过去只注重语法及单...
启功韵语集:注释本 内容简介 这本小册子,是我从十几岁学作仄仄平平仄的句子开始,直到今年,许多岁月中偶然留下的部分语言的记录。何以说是「部分」.因为青年习作,幼...
《朱自清散文选集(初中部分)》内容简介:朱自清散文是中国现代散文的典范。本书精选最能代表作者艺术水平的优秀散文40余篇,有叙
问吧4-有关四大名著的101个趣味问题 本书特色 《有关四大名著的101个趣味问题:问吧(4)》各篇相对独立,信手翻来就会有所心得,是一本兼具趣味性与知识性的休...
西摩洛语研究 本书特色 《西摩洛语研究》:中央民族大学“985工程”中国少数民族语言文化教育与边疆史地研究创新基地文库,中国少数民族语言研究丛书西摩洛语研究 目...
中国式解梦 本书特色 《中国式解梦》:梦绝不纯粹是睡眠的副产品,它不完全是无稽虚妄的东西,从某种意义上说,它是现实生活的继续,是现实生活的畸形反映,是人类精神追...
汉语音韵学 本书特色 《汉语音韵学》原名《中国音韵学》,1936,1955年再版时改名为《汉语音韵学》。本书用现代语音学理论解释传统音韵学的概念,叙述了传统的今...
作者简介在日本愛知縣出生,法政大學文學部畢業,日本兒童出版美術家連盟會員,所創作的繪本頗受好評。他熱愛自然世界,因此,所
民族文化产业论纲 本书特色 本选题以文化产业经济的基点与内涵为起点,在对文化与文化产品重新审视的基础上,指出文化在总体性上是一个社会的规范性框架或制度环境,表现...
流动的权力-水如何塑文明? 本书特色21世纪比石油更珍贵的资源是水,比核泄漏更严峻的威胁是水危机,比领土争夺更可能发生的是“水之战”。 本书回顾10处古代治水文...
这个词,竟然是这个意思1-2 本书特色 连续40周高踞台湾诚品书店畅销榜的国学通俗读物!这是一本全民阅读的国学通俗读物。看了这本书,你就不回错用、误用中文了!每...
留园-中国文化知识读本 目录 一 长留天地间的留园二 东西南北各异的留园三 留园灿烂的历史四 自然美与艺术美的融合五 与众不同的留园六 留园空间造景留园-中国文...
二十四节气全书-家庭书架升级版 本书特色 家庭书架编委会编著的这本《二十四节气全书(升级版)》首先详细介绍了二十四节气的起源,以及与之相关的历法、季节、物候、节...
中国思想史论集续篇 本书特色 本书是台湾新儒家代表人物徐复观的重要著作——《中国思想史论集》的续编。它与《中国思想史论集》一起,完整地反映了徐复观一生的思想历程...
臺大學生口耳相傳「四年修不到,成終生遺憾」名師!超過43000人爭相搶修的超人氣課程,首度結集出書!歷史上成功和失敗的關鍵究竟何在?如何在巨變時代中找到一條出路...
星学宝典——《天官历书》与中国文化 内容简介 本书内容包括:司马迁——一个伟大的天文学家、从“日出而作”到“观象授时”——中国古代天文学的诞生、由“君不告朔”到...