大数据是一个泛在的概念,各行各业都可能存在大数据。大数据存在的价值在于,科研人员通过对数据进行分析,从而能够获得有助于学科或行业发展的研究结论,为决策者提供决策支撑,或者为研究人员提供科研参考。 本书的研究过程包含了数据搜集、数据处理、指标设计、实证研究、决策建议等内容,是一整套的系统性研究。不但为主路经分析提供了方法论支持,而且能够通过实证研究为决策作数据支撑。更重要的是,通过前前后后的实践研究,我们为学科分析人员和学科服务人员提供了一整套可供参考和借鉴的研究方法。
主路径分析能够揭示一个研究主题或研究领域的主要发展过程,它能够给研究者提供这个发展过程中的关键文献或者关键事件。通常,找到的主路径可能不是唯一的,但是每条主路径都是由一系列关键文献组成的,这些关键文献体现了一个研究领域的主要发现。自从Garfield提出引文分析之后(Garfield,1955),引文分析就变得非常流行,而主路径分析实际上就是一种特殊的引文分析。因为引文分析能够明确地展示科研论文之间错综复杂的关系,而且能够体现这些关系的强弱,所以引文分析在寻找关键论文的过程中扮演着非常重要的角色。假设科学史是由一系列具有时间顺序的事件组成的,在这个过程中新的发现是在以往发现的基础上产生的,基于这些假设,Garfield指出,借助引文分析来书写科学史变得可行(Garfield,1964)。Garfield进一步发现,如果一篇论文被更加广泛地引用,那么这篇论文就很可能是一个研究主题中的“里程碑式”的研究,或者说是这个研究主题中的关键事件(Garfield,1970)。而且,引用关系已经被证明是研究技术发展变化过程的重要方法(Jaffe,2002)。引文研究因此可以被分为两类,一类是研究科研论文的重要性的,另一类是分析引文网络的结构特征的。如果要研究特定的网络关系,那么通常就要开展引文网络的结构分析。科研论文之间的关系包括引用、被引用、文献耦合(Kessler,1963)以及文献共被引(Small,1973)。传统的网络结构分析方法主要是基于以上所述的论文之间的关系对论文进行聚类,而这些方法主要关注的是网络节点,即科研论文,并非节点之间的关系。Garfield在分析有关DNA脱氧核糖核酸。理论的引文网络时,只有40篇科研论文。因此,他的分析是比较容易完成的。随着科研论文数量的快速增多,使用传统的方法直接对这些论文的引文结构进行分析变得越来越困难。因此,Hummon提出用主路径分析的方法来解决这个问题(Hummon,1989)。与关注网络节点的传统分析方法不同的是,主路径分析方法关注的是节点之间的连接关系。换句话说,传统的网络结构分析方法关注的是网络节点,而主路径分析方法关注的是节点之间的关系。主路径指的是网络中那些能够承载*多知识流的路径,它们是引文网络中*重要的网络路径。为了衡量一个连接在论文引用网络中的重要性,Hummon提出了遍历权重的概念。一个连接的遍历权重,指的是经过这条连接的路径数量,遍历权重的大小体现了连接的重要性。Hummon开发了三种计算遍历权重的方法,即搜索路径链接计数方法(Search Path Link Count,SPLC)、搜索路径节点对方法(Search Path Node Pair,SPNP),以及节点对映射计数方法(Node Pair Projection Count,NPPC)。在基于以上三种方法衡量了连接的重要性之后,Hummon提出可以使用深度优先算法(Depth First Search Method)来寻找主路径。基于DNA研究的引文网络,Hummon发现了促使DNA理论形成的关键事件和关键文献。Hummon在这里用到的引文网络和Garfield曾经用过的引文网络(Garfield,1964)是同一个。与Garfield当初的研究结果相比较,Hummon通过使用主路径分析方法得到的研究结果是非常具有说服力的。然而,他们使用的论文引用网络是非常小的,仅仅由40个网络节点组成,而这40个网络节点是从69篇科研论文中筛选出来的。后来,Hummon使用主路径分析方法分析了一个更大的引文网络,这个引文网络是由119个网络节点和632条节点之间的连接组成的。这个引文网络中的节点不只是科研论文,还有研究报告和著作等,这些网络节点是关于中心性和生产力研究(Centrality and Productivity Research)的。该网络是一个由被引关系构成的引文网络,所以这个网络体现了早期研究对晚期研究的影响。在研究中,Hummon同时使用了NPPC、SPLC和SPNP三种计算遍历权重的方法,*后得到了一个中心性和生产力研究领域的、清晰的发展主路径(Hummon,1990)。同年,Hummon引入了计算机领域提出的深度优先算法(Hummon,1990)。基于期刊Social Networks的第1~12卷发表的科研论文,Hummon使用主路径分析方法找到了Kuhn先前已经找出来的主路径。Hummon的研究也说明了使用主路径分析方法研究者能够得到非常精确的结果(Hummon,1993)。后来,Carley分析了期刊Journal of Conflict Resolution的主路径结构(Carley,1993)。然而,之前主路径分析方法一直未被用于非常大型的引文网络,直到Batagelj开发出主路径分析的高效计算机算法,并且将这些算法植入大型网络分析软件Pajek(Batagelj,2003)。在Batagelj的研究中,他针对Hummon的SPLC和SPNP方法开发了非常高效的计算机算法。因为这些算法是和网络中边的数量成线性关系的,所以算法效率高,从而可以被用来分析非常大型的引文网络。同时,和Hummon提出的、用来计算连接遍历权重的SPLC和SPNP方法相比较,Batagelj还自己开发了搜索路径数(Search Path Count,SPC)计算方法。通过对SPC、SPLC和SPNP三种计算方法进行对比研究,Batagelj指出,使用这三种方法计算遍历权重得到的结果是非常相似的,但是SPC方法具有其他两种方法没有的优点。自此,SPC方法被广泛地用来计算连接的遍历权重。Batagelj还基于Pajek软件提供了两个研究实例,一个是针对论文引用网络进行分析的,另外一个是针对专利引用网络进行分析的。如果我们把Garfield的引文分析研究(Garfield,1964)看作引文网络研究中的**个重大发现,把Hummon提出来的主路径分析(Hummon,1989)看作第二个重大发现,那么Batagelj的上述研究结果(Batagelj,2003)足以被称为引文网络研究的第三个重大发现。在前人研究的基础上,Moore研究了公共健康领域社会资本概念的谱系(Moore,2006)。Mina借用分析方法调查了一个非常重要的医学技术创新研究,即冠状动脉成形术,这是医学领域解决冠心病的重大突破,因为冠心病在那个年代的发达国家是导致死亡的*主要疾病。Mina的研究是基于两类数据集展开的,一类是科研论文,另一类是发明专利,整个分析是在Pajek软件中完成的(Mina,2007)。Verspagen随后基于专利引用网络对燃料电池技术的发展轨迹进行了分析。Carlero-Medina针对吸收能力领域的研究,分析了主要的发展路径(Carlero-Medina,2008)。Lucio-Arias使用HistCite软件分别构造了关于富勒烯的研究领域和纳米管的研究领域的论文引用网络,使用SPLC算法来计算连接的遍历权重,并借助Pajek软件找到了相应研究领域的主路径(Lucio-Arias,2008)。Harris随后分析了关于二手烟的研究主路径(Harris,2009)。Lu调查了纳米技术伦理学中的发展历史(Lu,2012)。在2012年,出现了主路径研究中的另一个“里程碑式”的研究,这个研究是由Liu等人提出来的,他们在这方面做出了重要贡献(Liu等,2012)。Liu等人的研究可以看作继Garfield、Hummon以及Batagelj等人的研究之后,在主路径研究领域做出的另一个巨大贡献。在Hummon的工作中,主路径的寻找是从当前节点出发的边中选择具有*大遍历权重的边,重复该操作直至完成整个主路径的寻找。使用这种方法,每一次选择出来的边都是从当前节点出发具有*大遍历权重的边,然而,得到的整个路径中的边的遍历权重之和,未必是所有路径中*大的。Liu等把Hummon的这种搜索主路径的方法称作本地(Local)主路径搜索,Liu等认为上述问题是本地主路径搜索的缺陷,他们因此相应地提出了全局主路径(Global)搜索。在全局主路径搜索中,从当前节点出发所找出的边未必是所有边中权重*大的那一条边,然而,*终找出来的路径上的所有边的遍历权重之和,却是所有路径中*大的。这种方法就好像是图论中*短路径搜索(Shortest Paths Searching)的一个逆版本。其实,Hummon和Liu等提出来的这两个主路径搜索方法都有自己的特点,到底使用哪一种方法来寻找主路径,主要取决于研究者想要表达一种什么样的信息。本地主路径搜索表达的是在整个知识流动过程中一种渐进式的重要性;而全局主路径搜索表达的是整个路径的重要性。Liu后来的研究发现,通过本地主路径搜索方法搜索到的主路径和通过全局主路径搜索方法搜索到的主路径是非常相似的,仅仅在主路径的起始和末尾会有不同(Liu,2013a)。在Liu发现Hummon的主路径搜索方法是本地主路径搜索的同时,他还发现Hummon的搜索方法是前向(Forward)搜索,也就是说,这样每次找出来的论文节点都是那些*能够吸引后续研究的论文节点,这就好像是在追溯那些有*重要贡献的前人的研究成果。相对而言,Liu提出了后向(Backward)搜索(Liu,2012)。相对于前向搜索,后向搜索选择的是网络路径上那些能更广泛地吸取前人研究结果的论文节点。前向搜索是基于网络节点的“出度”选择的,而后向搜索则是基于网络节点的“入度”选择的。然而,后向搜索只能用于Hummon提出来的本地主路径搜索方法。实际上,Lucio-Arias的研究已经使用到了后向搜索的方法,只不过这种方法在当时的研究中被称为“Codification”(Lucio-Arias,2008)。Liu还提出,通过放松搜索的限制条件,能够找出重要性仅次于主路径的其他路径。因此,这种方法也被称为多主路径搜索方法。多主路径搜索方法和主路径分析方法找到的路径可能有多条是不同的,前者是主动地寻找多条路径,各条路径的重要性是依次下降的;而后者是由多条路径的遍历权重相同引起的,这些路径都是主要的路径。Liu的这个工作还有另外一个重要贡献,就是关键路径(Key-Route)概念的提出。Liu提出关键路径的概念,是为了解决这样一个实际问题,即在以往的主路径搜索算法中,对于整个引文网络来讲具有*高遍历权重的那一条或那几条边未必会被选入主路径,而这对这些边是不公平的。Liu把这样的边称作Key-Route(我们称之为关键路径),而且提出可以用关键路径搜索的方法来解决这个问题。在讲述具体方法之前,我们先介绍一些基础知识,以免理解上的混淆。关键路径是一条弧,对于一条方向是从左指向右的弧来讲,左侧端点称为弧尾节点,右侧端点称为弧头节点。可以类似地借助弓箭来理解,箭射出去以后,前端为箭头,后端为箭尾。弧头和弧尾也是类似的。关键路径搜索的具体方法是,首先选中关键路径,然后顺着关键路径的头节点使用前向搜索算法进行主路径搜索,直至到达出度为零的终端节点;同时,顺着弧尾节点使用后向搜索算法进行主路径搜索,直至到达入度为零的起始节点。类似地,我们可以通过放松条件限制来获得多条关键路径。基于H指数的相关科研论文,Liu整理了多条关于H指数研究的主路径,使用的方法包括前向本地主路径搜索、前向全局主路径搜索、后向本地主路径搜索、后向本地多主路径搜索以及本地关键路径搜索和全局关键路径搜索(Liu,2012)。在Liu的后期工作中,他将本地关键路径搜索方法分别运用于5个DEA(Data Envelopment Analysis,数据包络分析应用),从而完成了一项关于DEA应用的综述研究(Liu,2013b)。Chuang应用本地关键路径搜索方法分析了医疗旅游研究,并且得到了该研究领域的两条不同的发展路径(Chuang,2014)。而且,在Liu的另外一个后期工作中,他们先用基于Edge-Betweenness的网络聚类方法对DEA的研究文献进行了分类,并得到了DEA的4个研究前沿。然后,Liu针对每一个DEA的研究前沿所呈现的文献引用网络,先使用SPLC的方法来计算连接的遍历权重,然后使用全局关键路径搜索方法分别找出了每一个研究前沿的发展路径(Liu,2016)。Kaffash使用Batagelj早期提出来的关键路径分析方法对金融服务领域的发展路径进行了研究(Kaffash,2017)。
邵志毅,计算机软件与理论博士,现为陕西师范大学教师。在陕西师范大学数学与信息科学学院从事博士后合作研究,研究方向为学科分析、图书情报、科学计量。陕西师范大学优秀博士研究生,主持中国博士后科研基金面上一等项目一项,参与国家自然科学基金项目6项。
民间服饰 本书特色 一个人从在胎中孕育直到死去,甚至到死去很久很久,都始终处于民俗的环境中民俗像空气一样是人们须臾不能离开的,对于民众社会来说民俗又是沟通情感的...
外国常用典故故事 本书特色 世界文明的瑰宝——外国典故故事精选。拥有世界人文知识,培育未来的高素质人才。一册在手,提高写作水平。小学中高年级和初中学生书架上的*...
民俗文化-偶戏 内容简介 中国民间文化是世世代代锤炼和传承的文化传统,其中凝聚着民族的性格、民族的精神、民族的真、善、美,是中华民族彼此认同的标志,是祖国同胞沟...
《作家榜名著:经典常谈·文艺十六讲》内容简介:美文大师朱自清经典传世之作,被誉为“读书指南和写作指南”如何阅读国学经典?朱
中华姓氏通史·刘姓 内容简介 本书是“中华姓氏通史丛书”中的刘姓。讲述了刘姓的起源、发展、分布地区、宗族文化、著名代表人物、家谱等。全书寻根问底、认祖为宗,细说...
大家小书.中国古代衣食住行 本书特色 《中国古代衣食住行》实际上体现了老师关于语言与文化关系的两个重要思想:一是语言是文化*重要的载体,二是文化主要凝聚于词汇。...
最強烈的復仇,源自於最深沈的愛!東野圭吾最耽美、最詭異的本格推理極致之作!推理作家.第一屆推理評論金鑰獎潛力獎得主林斯諺∕專文導讀靜謐的迴廊亭裡,以血澆灌的殺意...
罗常培文集-第五卷 内容简介 俅族也叫做曲族,他们自称为独龙(trung),现在分布的区域在东经98度50分到97度50分之问,北纬27度到28度之问,就是高黎...
街角的老北京 本书特色 作为一名土生土长的北京人,阿龙伴随着这座古都一起成长,他看到处处皆文化的老北京正在渐渐只存在于人们的记忆里,灯火璀璨、人声喧嚣的现代都市...
怎样修改病句-最新版 本书特色 也许你是一名学生,也许你从事的职业与语言文字有关,或者你只是一名对语言文字感兴趣的普通读者,但是无论如何,你离不开说、读、写,你...
现代汉语反义词词典(音序本) 内容简介 本词典收入具有相反、相对意义的反义词语(含单音词、比音词和四字短语)2500余组。正文条目按汉语拼音顺序排列,内容包括词...
《萨哈林旅行记》内容简介:本书是俄苏文学的经典之作和契诃夫极为重要的作品。1890年,契诃夫从莫斯科启程来到萨哈林岛,目的是了
繼《昨夜的咖哩,明日的麵包》睽違六年,木皿泉最新小說——寫給「活著的人」的至福物語。★ 2019年本屋大賞TOP 6★ 日本書店員票選「讀了必哭的書」TOP 1...
中国神话传说-简明版 本书特色《中国神话传说》是中国神话学专家袁珂先生一生研究成果的集大成之作。其因专业系统且通俗易懂,出版三十年来,受到了国内外读者的广泛欢迎...
风雅大太行 本书特色 由山西省长治市高新区管委会主任、中共长治市郊区区委书记王辅刚主编,王怀中、沈琨编写的“地域文丛”系列书系之一的《风雅大太行》通过追古述今的...
丘庭傑香港中文大學中國語言及文學系哲學博士,現於同系擔任講師。研究興趣包括二十世紀中國文學及文化、跨文化研究、魯迅研究、香港文學等。發表多篇學術論文於《漢學研究...
伊索寓言 内容简介 无论你在午后的咖啡馆,还是在飘荡的旅途中,你都能看见——泰戈尔在风中微笑,惠特曼在云中行走,纪伯伦在雨中降临,徐志摩在寻找天空里的一片云……...
京城镖行 本书特色 由北京民俗学会、学苑出版社组织缩写的《兔儿爷老北京史地民俗丛书》,是继《北京旧闻丛书》、《北京史话》之后的又一套多角度、全方位介绍北京史地民...
魔法师大全 本书特色 巫师就像宇宙中神秘的黑洞,吸引着无数人的注意。不管是观点相同还是相反,巫师在人们心中唯一不变的就是他的神秘!现在,在大祭司雷蒙德巴克兰的带...
胡适家书-名家经典.胡适哲思录 本书特色 (胡适先生逝世50周年纪念珍藏版,一代大师思想精华,让毛泽东纠结、让蒋介石李敖推崇,还原真实的胡适。)胡适家书-名家经...