大数据是一个泛在的概念,各行各业都可能存在大数据。大数据存在的价值在于,科研人员通过对数据进行分析,从而能够获得有助于学科或行业发展的研究结论,为决策者提供决策支撑,或者为研究人员提供科研参考。 本书的研究过程包含了数据搜集、数据处理、指标设计、实证研究、决策建议等内容,是一整套的系统性研究。不但为主路经分析提供了方法论支持,而且能够通过实证研究为决策作数据支撑。更重要的是,通过前前后后的实践研究,我们为学科分析人员和学科服务人员提供了一整套可供参考和借鉴的研究方法。
主路径分析能够揭示一个研究主题或研究领域的主要发展过程,它能够给研究者提供这个发展过程中的关键文献或者关键事件。通常,找到的主路径可能不是唯一的,但是每条主路径都是由一系列关键文献组成的,这些关键文献体现了一个研究领域的主要发现。自从Garfield提出引文分析之后(Garfield,1955),引文分析就变得非常流行,而主路径分析实际上就是一种特殊的引文分析。因为引文分析能够明确地展示科研论文之间错综复杂的关系,而且能够体现这些关系的强弱,所以引文分析在寻找关键论文的过程中扮演着非常重要的角色。假设科学史是由一系列具有时间顺序的事件组成的,在这个过程中新的发现是在以往发现的基础上产生的,基于这些假设,Garfield指出,借助引文分析来书写科学史变得可行(Garfield,1964)。Garfield进一步发现,如果一篇论文被更加广泛地引用,那么这篇论文就很可能是一个研究主题中的“里程碑式”的研究,或者说是这个研究主题中的关键事件(Garfield,1970)。而且,引用关系已经被证明是研究技术发展变化过程的重要方法(Jaffe,2002)。引文研究因此可以被分为两类,一类是研究科研论文的重要性的,另一类是分析引文网络的结构特征的。如果要研究特定的网络关系,那么通常就要开展引文网络的结构分析。科研论文之间的关系包括引用、被引用、文献耦合(Kessler,1963)以及文献共被引(Small,1973)。传统的网络结构分析方法主要是基于以上所述的论文之间的关系对论文进行聚类,而这些方法主要关注的是网络节点,即科研论文,并非节点之间的关系。Garfield在分析有关DNA脱氧核糖核酸。理论的引文网络时,只有40篇科研论文。因此,他的分析是比较容易完成的。随着科研论文数量的快速增多,使用传统的方法直接对这些论文的引文结构进行分析变得越来越困难。因此,Hummon提出用主路径分析的方法来解决这个问题(Hummon,1989)。与关注网络节点的传统分析方法不同的是,主路径分析方法关注的是节点之间的连接关系。换句话说,传统的网络结构分析方法关注的是网络节点,而主路径分析方法关注的是节点之间的关系。主路径指的是网络中那些能够承载*多知识流的路径,它们是引文网络中*重要的网络路径。为了衡量一个连接在论文引用网络中的重要性,Hummon提出了遍历权重的概念。一个连接的遍历权重,指的是经过这条连接的路径数量,遍历权重的大小体现了连接的重要性。Hummon开发了三种计算遍历权重的方法,即搜索路径链接计数方法(Search Path Link Count,SPLC)、搜索路径节点对方法(Search Path Node Pair,SPNP),以及节点对映射计数方法(Node Pair Projection Count,NPPC)。在基于以上三种方法衡量了连接的重要性之后,Hummon提出可以使用深度优先算法(Depth First Search Method)来寻找主路径。基于DNA研究的引文网络,Hummon发现了促使DNA理论形成的关键事件和关键文献。Hummon在这里用到的引文网络和Garfield曾经用过的引文网络(Garfield,1964)是同一个。与Garfield当初的研究结果相比较,Hummon通过使用主路径分析方法得到的研究结果是非常具有说服力的。然而,他们使用的论文引用网络是非常小的,仅仅由40个网络节点组成,而这40个网络节点是从69篇科研论文中筛选出来的。后来,Hummon使用主路径分析方法分析了一个更大的引文网络,这个引文网络是由119个网络节点和632条节点之间的连接组成的。这个引文网络中的节点不只是科研论文,还有研究报告和著作等,这些网络节点是关于中心性和生产力研究(Centrality and Productivity Research)的。该网络是一个由被引关系构成的引文网络,所以这个网络体现了早期研究对晚期研究的影响。在研究中,Hummon同时使用了NPPC、SPLC和SPNP三种计算遍历权重的方法,*后得到了一个中心性和生产力研究领域的、清晰的发展主路径(Hummon,1990)。同年,Hummon引入了计算机领域提出的深度优先算法(Hummon,1990)。基于期刊Social Networks的第1~12卷发表的科研论文,Hummon使用主路径分析方法找到了Kuhn先前已经找出来的主路径。Hummon的研究也说明了使用主路径分析方法研究者能够得到非常精确的结果(Hummon,1993)。后来,Carley分析了期刊Journal of Conflict Resolution的主路径结构(Carley,1993)。然而,之前主路径分析方法一直未被用于非常大型的引文网络,直到Batagelj开发出主路径分析的高效计算机算法,并且将这些算法植入大型网络分析软件Pajek(Batagelj,2003)。在Batagelj的研究中,他针对Hummon的SPLC和SPNP方法开发了非常高效的计算机算法。因为这些算法是和网络中边的数量成线性关系的,所以算法效率高,从而可以被用来分析非常大型的引文网络。同时,和Hummon提出的、用来计算连接遍历权重的SPLC和SPNP方法相比较,Batagelj还自己开发了搜索路径数(Search Path Count,SPC)计算方法。通过对SPC、SPLC和SPNP三种计算方法进行对比研究,Batagelj指出,使用这三种方法计算遍历权重得到的结果是非常相似的,但是SPC方法具有其他两种方法没有的优点。自此,SPC方法被广泛地用来计算连接的遍历权重。Batagelj还基于Pajek软件提供了两个研究实例,一个是针对论文引用网络进行分析的,另外一个是针对专利引用网络进行分析的。如果我们把Garfield的引文分析研究(Garfield,1964)看作引文网络研究中的**个重大发现,把Hummon提出来的主路径分析(Hummon,1989)看作第二个重大发现,那么Batagelj的上述研究结果(Batagelj,2003)足以被称为引文网络研究的第三个重大发现。在前人研究的基础上,Moore研究了公共健康领域社会资本概念的谱系(Moore,2006)。Mina借用分析方法调查了一个非常重要的医学技术创新研究,即冠状动脉成形术,这是医学领域解决冠心病的重大突破,因为冠心病在那个年代的发达国家是导致死亡的*主要疾病。Mina的研究是基于两类数据集展开的,一类是科研论文,另一类是发明专利,整个分析是在Pajek软件中完成的(Mina,2007)。Verspagen随后基于专利引用网络对燃料电池技术的发展轨迹进行了分析。Carlero-Medina针对吸收能力领域的研究,分析了主要的发展路径(Carlero-Medina,2008)。Lucio-Arias使用HistCite软件分别构造了关于富勒烯的研究领域和纳米管的研究领域的论文引用网络,使用SPLC算法来计算连接的遍历权重,并借助Pajek软件找到了相应研究领域的主路径(Lucio-Arias,2008)。Harris随后分析了关于二手烟的研究主路径(Harris,2009)。Lu调查了纳米技术伦理学中的发展历史(Lu,2012)。在2012年,出现了主路径研究中的另一个“里程碑式”的研究,这个研究是由Liu等人提出来的,他们在这方面做出了重要贡献(Liu等,2012)。Liu等人的研究可以看作继Garfield、Hummon以及Batagelj等人的研究之后,在主路径研究领域做出的另一个巨大贡献。在Hummon的工作中,主路径的寻找是从当前节点出发的边中选择具有*大遍历权重的边,重复该操作直至完成整个主路径的寻找。使用这种方法,每一次选择出来的边都是从当前节点出发具有*大遍历权重的边,然而,得到的整个路径中的边的遍历权重之和,未必是所有路径中*大的。Liu等把Hummon的这种搜索主路径的方法称作本地(Local)主路径搜索,Liu等认为上述问题是本地主路径搜索的缺陷,他们因此相应地提出了全局主路径(Global)搜索。在全局主路径搜索中,从当前节点出发所找出的边未必是所有边中权重*大的那一条边,然而,*终找出来的路径上的所有边的遍历权重之和,却是所有路径中*大的。这种方法就好像是图论中*短路径搜索(Shortest Paths Searching)的一个逆版本。其实,Hummon和Liu等提出来的这两个主路径搜索方法都有自己的特点,到底使用哪一种方法来寻找主路径,主要取决于研究者想要表达一种什么样的信息。本地主路径搜索表达的是在整个知识流动过程中一种渐进式的重要性;而全局主路径搜索表达的是整个路径的重要性。Liu后来的研究发现,通过本地主路径搜索方法搜索到的主路径和通过全局主路径搜索方法搜索到的主路径是非常相似的,仅仅在主路径的起始和末尾会有不同(Liu,2013a)。在Liu发现Hummon的主路径搜索方法是本地主路径搜索的同时,他还发现Hummon的搜索方法是前向(Forward)搜索,也就是说,这样每次找出来的论文节点都是那些*能够吸引后续研究的论文节点,这就好像是在追溯那些有*重要贡献的前人的研究成果。相对而言,Liu提出了后向(Backward)搜索(Liu,2012)。相对于前向搜索,后向搜索选择的是网络路径上那些能更广泛地吸取前人研究结果的论文节点。前向搜索是基于网络节点的“出度”选择的,而后向搜索则是基于网络节点的“入度”选择的。然而,后向搜索只能用于Hummon提出来的本地主路径搜索方法。实际上,Lucio-Arias的研究已经使用到了后向搜索的方法,只不过这种方法在当时的研究中被称为“Codification”(Lucio-Arias,2008)。Liu还提出,通过放松搜索的限制条件,能够找出重要性仅次于主路径的其他路径。因此,这种方法也被称为多主路径搜索方法。多主路径搜索方法和主路径分析方法找到的路径可能有多条是不同的,前者是主动地寻找多条路径,各条路径的重要性是依次下降的;而后者是由多条路径的遍历权重相同引起的,这些路径都是主要的路径。Liu的这个工作还有另外一个重要贡献,就是关键路径(Key-Route)概念的提出。Liu提出关键路径的概念,是为了解决这样一个实际问题,即在以往的主路径搜索算法中,对于整个引文网络来讲具有*高遍历权重的那一条或那几条边未必会被选入主路径,而这对这些边是不公平的。Liu把这样的边称作Key-Route(我们称之为关键路径),而且提出可以用关键路径搜索的方法来解决这个问题。在讲述具体方法之前,我们先介绍一些基础知识,以免理解上的混淆。关键路径是一条弧,对于一条方向是从左指向右的弧来讲,左侧端点称为弧尾节点,右侧端点称为弧头节点。可以类似地借助弓箭来理解,箭射出去以后,前端为箭头,后端为箭尾。弧头和弧尾也是类似的。关键路径搜索的具体方法是,首先选中关键路径,然后顺着关键路径的头节点使用前向搜索算法进行主路径搜索,直至到达出度为零的终端节点;同时,顺着弧尾节点使用后向搜索算法进行主路径搜索,直至到达入度为零的起始节点。类似地,我们可以通过放松条件限制来获得多条关键路径。基于H指数的相关科研论文,Liu整理了多条关于H指数研究的主路径,使用的方法包括前向本地主路径搜索、前向全局主路径搜索、后向本地主路径搜索、后向本地多主路径搜索以及本地关键路径搜索和全局关键路径搜索(Liu,2012)。在Liu的后期工作中,他将本地关键路径搜索方法分别运用于5个DEA(Data Envelopment Analysis,数据包络分析应用),从而完成了一项关于DEA应用的综述研究(Liu,2013b)。Chuang应用本地关键路径搜索方法分析了医疗旅游研究,并且得到了该研究领域的两条不同的发展路径(Chuang,2014)。而且,在Liu的另外一个后期工作中,他们先用基于Edge-Betweenness的网络聚类方法对DEA的研究文献进行了分类,并得到了DEA的4个研究前沿。然后,Liu针对每一个DEA的研究前沿所呈现的文献引用网络,先使用SPLC的方法来计算连接的遍历权重,然后使用全局关键路径搜索方法分别找出了每一个研究前沿的发展路径(Liu,2016)。Kaffash使用Batagelj早期提出来的关键路径分析方法对金融服务领域的发展路径进行了研究(Kaffash,2017)。
邵志毅,计算机软件与理论博士,现为陕西师范大学教师。在陕西师范大学数学与信息科学学院从事博士后合作研究,研究方向为学科分析、图书情报、科学计量。陕西师范大学优秀博士研究生,主持中国博士后科研基金面上一等项目一项,参与国家自然科学基金项目6项。
大英烦事多-"每天都自我感觉那么好,你不觉得无聊吗?" 本书特色 每天都自我感觉那么好,你不觉得无聊吗?本书是“社恐星人”的雷区说明书,获得超400万英国人泪赞...
大运河城市群叙事 本书特色 ·斯宾格勒曾说:“世界历史.即是城市的历史。。j=lH二,我们也可以说,运河文明史就足运河城市发展史。 ...
反义词小词典 本书特色 辅助学习查询系统,规范、标准、实用。自学能力支持系统,高投入、低定价。反义词小词典 内容简介 辅助学习查询系统,规范、标准、实用。自学能...
齿留余香忆京城 本书特色 《齿留余香忆京城》是周绍良先生谈饮食文字的结集,本书所谈的饮食,既有《红楼梦》中“食不厌精”的贾府美馔,又有火烧、炸酱面等流行于市井人...
汉语成语辞典-(最新版) 内容简介 本书是一部中型汉语成语词典,共收列在语1.4万条。它的服务对象为具有中等文化程度的广大读者。本书入选中宣部、文化部、教育部、...
不可思议的印度 本书特色 中印是一对熟悉而又陌生的邻居,彼此都是对方挥之不去的存在,可是相互了解又极度匮乏。不了解就难免会有误解。有的中国人把印度当成一个脏兮兮...
繁简并用 相映成辉-两岸汉字使用情况学术研讨会论文集萃 本书特色 2013年11月初澳门举行两岸汉字使用情况研讨会。会后编辑学者们提交的学术论文,整理研讨会上的...
《格萨尔》史诗/新疆《玛纳斯》 本书特色 《格萨尔》是世界上迄今发现的史诗中演唱篇幅*长的草原游牧文化的结晶,它历史悠久,气势宏伟,是一部不朽的英雄史诗,以不同...
年节习俗 本书特色 本书以图配文的方式、以时间先后为顺序,对老北京的一年中的各种年节习俗进行了细腻生动地描绘与叙述。图绘生动形象,文字京味儿地道,是让老北京人找...
民间灵气:癸未甲申田野档案 内容简介 这是冯骥才关于中国民间田野考察的一部*新散文结集,为2004年他在《收获》上的专栏文章。全书配有百余幅民间民俗图片,图文并...
《刘禹锡诗选》内容简介:刘禹锡(772—842),字梦得,洛阳人,中唐著名诗人。初与柳宗元齐名,并称“刘柳”,晚年与白居易唱和,
神秘的测字 本书特色 畅销十多年,销售数百万册,多次修订,完美铸造,中国人不可不知的神秘文化。一册在手,通览神秘文化至俗雅的大智慧。关于本书系:20世纪90提代...
苍壁黄琮-中华玉文化大观 本书特色 君子如玉,温文尔雅。以玉器为载体的玉文化是中华传统文化的重要的部分,深刻地影响了中国人的思想观念和日常生活。数千年来,人们对...
西北地区卷-中国饮食文化史 本书特色 《中国饮食文化史》(十卷本)是中国饮食文化研究领域中带有统领性的课题,是填补空白之作。 由中国饮食文化研究领域...
財務自由的關鍵,不在你要存到多少錢,而在有沒有建立自動生財系統!★ 《紐約時報》、《華爾街日報》暢銷書★ 獲《財富》雜誌譽為「新一代的投資理財大師」★ 全球暢銷...
《从掷骰子到阿尔法狗:趣谈概率》内容简介:一切都在变化,一切都难以确定,世界可以说是由变量构成,人人都有必要学点概率论,把
《蕉風》可說是「非左翼」馬華文學史的一個縮影。透過它,可以看到一個和左翼觀點截然不同的馬華文學史。《蕉風》誕生於馬來西亞建國前夕,不僅是大馬最重要的華文純文學雜...
图解看手识人大全-中国古代人力资源管理-2-全新图解-经典图解畅销品牌 本书特色 推荐购买::图解太清神鉴:中国传统相术学经典大成(四库全书白话图解术数)图解国...
拉封丹寓言选-多雷插图本 本书特色 1.拉封丹被誉为法国的荷马,世界三大寓言家之一2.伟大的法国插图之神,“在壮丽美梦中漂流”的梦幻画作拉封丹寓言选-多雷插图本...
天工开物-古法今观 本书特色 《天工开物》由明代宋应星编撰,是中国科技史料中保存较为丰富的一部古籍,是一部关于农业和手工业生产的综合性*作。该书根据&ldquo...