Bibliometric Analysis for Literature Topics
Based on EXCEL and CNKI Paper IndexZou Shuyang1 Zou Yimin2
(1.Central University of Finance and Economics,Culture and Communication Institute,Beijing 102206,China;
2.Lanzhou Petrochemical College of Vocational Technology,Lanzhou 7300602,China)
〔Abstract〕A scheme is proposed to obtain basic literature quantitative information of academic paper quickly using EXCELs VBA programming language,which extracted related literature information automatically from RefWork-formatted paper index files provided by CNKI.An actual case study for proposed methods and procedures was provided.With regard to published academic papers on topics related to“Microblog”included in CNKI database from 2005 to 2010,the quantitative analysis results refer to amount,authors,subjects,main sources of these literatures were also given.Thus,the effectiveness and practicality of this scheme in bibliometric analysis and research were verified.
〔Key words〕bibliometric analysis;paper index;CNKI;RefWork;EXCEL;Pivot Table;Microblog
微博是新近鼓起的一种互联网热门处事,是一个基于用户干系的信息分享、流传以及获取平台,用户可以通过WEB、WAP以及各类客户端组建小我私家社区,以140字阁下的文字更新信息,并实现即时分享。微博的呈现使网民成为“草根”网络报道评论员。微博对网络舆论生成模式的主要影响是它强大的即时性、移动性和互动性,从而容许作者更好地即时反应产生在身边的新闻和意见,最后在用户之间的链式互动中形成舆论强势,进而影响网络舆情。
文献计量学从文献的外部特征出发,通过统计阐明可以发明科学文献的出产、畅通和应用等的内涵纪律[1],但来历数据的获取一直是文献计量的瓶颈。纵观以往以中国期刊网(CNKI)为数据源的文献计量研究,需要统计的文献根基信息多需繁琐的手工录入。笔者发明CNKI提供的RefWork题录文件中含有文献的浩瀚根基信息,于是开拓了一款基于EXCEL中VBA宏语言的小型措施,据此可利便地从RefWork题录文件中抽取所需信息,进而实现了劈头的文献计量成果。
本研究功效是笔者主持的中央财经大学2010年度本科生科研创新项目“基于微博的社会舆情研判与预警”研究内容的一部门。本文首先对CNKI收录的2005年起至今(统计日期截至至2010年7月31日)关于“微博”的种种学术论文举办题录检索,并在此基本上操作所开拓的VBA措施举办文献量、文献著者、文献所属学科、主要来历文献、要害词等方面的统计阐明,尽力梳理其成长脉络,从中发明我国相关规模研究的近况与特点,作为项目研究的参考依据。履历证,该要领不只可以快速地获取文献根基信息,并且能按照研究者的需要举办各类本性化文献计量研究,从而大大提高了文献的检索效率,具有很强的有效性和实用性。
1 根基信息的获取
1.1 CNKI、RefWork及EXCEL
CNKI(China National Knowledge Infrastructure)国度常识基本设施是成立在Web处事基本上的信息资源共享平台和常识流传与数字化进修平台,收录了1979年至今我国约7 700种综合期刊与专业特色期刊的全文[2-4]。RefWork则是CSA(剑桥科学文摘)公司推出的联机小我私家文献书目打点系统,用于辅佐用户成立和打点小我私家文献书目信息,许多著名的在线数据库都为它提供了文献题录导入接口。经研究发明,CNKI发生的题录文件提供了多种输格外式,个中RefWork名目可以或许提供浩瀚的论文根基信息,其输出是以“.net”为扩展名的编码名目为UTF-8的半布局化文件文本,包括被检索论文的作者、篇名、期刊、年份、刊期、要害词、摘要等文献根基信息。
EXCEL是一款优秀的电子表格软件,具有强大的数据处理惩罚成果,EXCEL内置的数据透视表则是一种从EXCEL等数据会合总结信息的阐明东西,它有机的综合了数据排序、筛选、分类汇总等数据阐明成果,可机动地以多种差异方法展示数据的特征,成为最常用、成果最全的EXCEL数据阐明东西之一。而EXCEL中内嵌的VBA(Visual Basic For Applications)语言则极大地富厚了EXCEL对数据的自动处理惩罚本领,可用于建设自界说的办理方案。
综上所述,CNKI的输出文件提供了根基的文献信息,假如共同EXCEL数据透视表等强大的数据阐明成果,加上VBA的任务自动化编程,即可从中自动抽取所需的文献信息,冲破文献根基信息依赖手工输入的瓶颈,并完成所需的文献计量阐明。
2012年2月第32卷第2期基于EXCEL及CNKI题录文件实现对文献主题的计量阐明Feb.,1.2 获取CNKI RefWork输出文件的步调
以检索近5年被CNKI收录的有关“微博”的专业论文信息为例,获取CNKI输出的RefWork题录文件的步调如下:
(1)首先操作CNKI的“尺度检索”成果,指定“主题”作为检索字段,以“微博”作为检索要害词,匹配模式设为“准确”;指定“颁发时间”为2005-01-01至2010-07-31;在“选库”栏目内去除“中国重要报纸全文数据库”多选框,即不将报纸列入统计范畴。最后点击“检索文献”按钮即可检索出近5年来相关主题被CNKI收录的全部论文信息,凭据以上检索计策,共掷中文献480篇;
(2)为了淘汰处理惩罚次数,可以让每页的“显示记录数"配置为最大的50笔记录(默认为20条);
(3)依次点击“全选”、“存盘”按钮,将当前页面的全部文献作为数据源,此时将弹出一个新的窗口,内含所有被选论文的题录信息,此时其默认的输格外式为“CNKI桌面版小我私家数字图书馆”,再按下左侧的“RefWork”单选按钮,以发生所需的RefWork名目文件,最后按下“输出至当地文件”并在随后的弹出窗口中给出相应的文件名,即可发生所需的扩展名为“.net”的题录文件;
(4)对付其它页面的检索功效,可点按“下一页”以选择后续的论文,雷同前述步调可获得一组以“.net”为扩展名的输出文件,这些文件即为本研究的数据来历文件。
2 基于EXCEL VBA的题录文件处理惩罚及文献计量统计得到上述全部论文的题录文件之后,即可操作自编的VBA编程软件,借助于EXCEL及数据透视表的强大成果完成对被检索论文的计量阐明。
笔者通过VBA编程实现以上成果。为利便利用,在名为“论文统计.xls”的EXCEL文件中将新增一个名为“论文统计”的菜单,下含有“导入题录”,“论文汇总”及“论文统计”3个子菜单项,如后图1所示。本成果需利用内部的“Auto-Open”及“Auto-Close”VBA宏措施,以便完成用户菜单的配置与排除,其部门代码如下所示。
Sub autoopen()
Application.CommandBars(″Worksheet menu bar″).Controls.Add(Type:=msoControlPopup, before:=1).Caption=″论文统计″‘设定主菜单
Application.CommandBars(″Worksheet menu bar″).Controls(″论文统计″).Controls.Add(Type:=msoControlButton,before:=1).Caption=″导入题录″‘设定子菜单项
Application.CommandBars(″Worksheet menu bar″).Controls(″论文统计″).Controls(″导入题录″).OnAction=″importdata″‘设定子菜单项“导入题录”对应的VBA措施
…… ‘设定其它子菜单项“论文汇总”、“论文统计”及对应的VBA措施
End Sub
Sub autoclose()
Set mymenubar=CommandBars.ActiveMenuBar‘恢复兴系统默认菜单
mymenubar.Reset
End Sub
2.1 将CNKI的RefWork输出文件导入EXCEL
本成果利用“导入题录”子菜单项,在随后呈现的尺度文件选择窗口中选取先前由CNKI生成的一组RefWork题录文件,即可将多个题录信息文件导入EXCEL之中。此时,每一条题录占10~12行,多笔记录依次以行序存放在名为“原数据”的EXCEL事情表中。
由于RefWork名目标题录文件利用UTF-8编码,若直接读入EXCEL表格将显示乱码。故本措施首先利用ADO的Stream数据流读入题录文件,经名目转换后存放至一个姑且文件,最后再读入EXCEL数据表。其相应的主要代码如下:
Set objstream=CreateObject(″adodb.stream″) ‘发生一个ADO的Stream数据流,以打开指定题录文件
filetoopen=Application.GetOpenFilename(″题录文件(*.net),*.net″,,″请选择要导入的题录文件″,,True)‘打开尺度的文件选择窗供词用户指定需导入的题录文件
If IsArray(filetoopen)Then
For Each cc In filetoopen‘逐个打开选择的题录文件
With objstream
.Type=2‘打开文本文件
.Mode=3‘打开后供“读写”
.Open
.LoadFromFile cc‘指定文件名
.Charset=″utf-8″‘指定打开UTF-8名目标.net文件
.Position=2‘读取位置
allstring=.readtext‘读至allstring变量中
.Close
End With
cc1=cc &″.tmp″‘生成一个名为*.net.tmp的姑且文件
Set fso=CreateObject(″Scripting.FileSystemObject″)
Set MyFile=fso.OpenTextFile(cc1,2,True)‘将allstring写入个中
MyFile.Write(allstring)‘并将文件名目由UTF-8转换为尺度Unicode
MyFile.Close
j=ActiveSheet.[a65536].End(xlUp).Row‘计较当前信息存放位置
With ActiveSheet.QueryTables.Add(Connection:=″TEXT;″+cc1,Destination:=Range(Cells(j+1,1),Cells(j+1,1)))‘读取指定文件,并在当前位置转存
.Name=″data″
.TextFilePlatform=936‘指定Unicode代码页为简体中文
.TextFileParseType=xlDelimited‘指定命据支解符
End With
fso.DeleteFile(cc1)‘删除名为*.net.tmp的姑且文件
Next cc
End If
2.2 论文汇总处理惩罚
本成果利用“论文汇总”子菜单项,用于从一组指定题录文件中忽略多余信息,仅提取感乐趣的作者姓名、作者单元、论文题名、期刊名称、颁发时间(年/卷/期)、要害词、期刊中图分类号、中图分类名及是否焦点期刊等信息,此时每条文献题录记录仅占一行,并存放在名为“已处理惩罚数据”的EXCEL事情表中。由于论文与其要害词的一对多干系,为利便对要害词的统计处理惩罚,另生成一个名为“已处理惩罚数据KW”的EXCEL事情表,以存放要害词信息,每一题录将发生与要害词数量对应的信息行。本措施除完成正常的信息提取之外,还对RefWork文件中部门信息缺失的题录作了容错处理惩罚,使措施具有相当的鲁棒性。
思量到焦点期刊具有对期刊质量较好的指示浸染,而由北京大学出书社编订的“中文焦点期刊要目总览”每4年修订1次,每次变革并不大,故将以最新的2008年第五版“中文焦点期刊要目总览”作为认定焦点期刊的依据,生存在“2008中文焦点”事情表中;为进一步相识差异作者的研究规模漫衍,以刊物的CN刊号中的中图分类号字段作为学科/规模的一个区分指标,分类号与分类码的干系生存在“中图分类码”事情表中,据此可确定论文所属的研究规模。因篇幅所限,此部门代码略去。
2.3 论文的计量阐明及图示
本成果利用“论文统计”子菜单项,借助VBA编程软件及数据透视表阐明东西,用于从“已处理惩罚数据”事情表中提取出论文的相关信息,并完成对文献的文献量、文献著者、文献所属学科、主要来历文献的计量统计及其图示。
从中发现我国相关论文毕业领域研究的现状与特点
毕业论文库:论文范文 时间:2016-12-04 点击:
次