美章网 精品范文 大数据分析论文范文

大数据分析论文范文

大数据分析论文

大数据分析论文范文第1篇

基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。

1.1数据采集

大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。

1.2数据处理与集成

数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。

1.3数据分析

在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。

1.4数据解释

数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。

2云计算与大数据分析的关系

云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。

3基于云计算环境的Hadoop

为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。

4实例分析

本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。

5结束语

大数据分析论文范文第2篇

煤矿安全生产和管理是一个与时间和空间相关的过程,其综合决策分析离不开时间和空间维度的参与,而现有的煤矿信息系统往往缺乏时空维度的决策分析工具,如拓扑分析、缓冲区分析、密度分析、叠置分析、时间和空间趋势探测分析、时间/空间关联分析、时间/空间自回归分析等。煤矿安全生产内涵丰富,既包含了日常性事务性的风险超前预控管理,又包含即时性的风险识别、监测、预测乃至预警,这就给安全生产管理的各类信息系统建设提出了很高的要求,需要满足监控实时化、系统集成化、数据海量化、分析决策在线化和智能化,这些都是目前信息系统建设的短板。上述问题的存在使得我国煤矿安全生产形势没有本质的好转,诸多信息化建设成果(硬件、软件)在煤矿安全生产过程中也没有起到预期的成效。

2煤矿安全生产大数据分析系统

2.1大数据分析的概念大数据分析

是指数据量急剧积累迅速超出主流软件工具和人类思维处理的极限,大数据与传统数据比较起来,有四大特征:数据体量巨大(Volume)、数据类型繁多(Variety)、数据价值密度低(Value)、更新速度快时效高(Velocity)。大数据分析需要全新的数据处理理念和分析工具,洞察发现海量高速增长信息中潜藏的价值[4]。从理念上,大数据分析与传统数据分析有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。针对大数据,既有的技术架构和分析工具已经无法满足要求,需要全新的数据分析方法和技术,这其中包括:(1)大数据分析可视化方法;(2)大数据挖掘算法;(3)预测性分析能力;(4)语义处理能力;(5)数据质量和数据管理技术。

2.2大数据分析系统的建设

根据大数据处理和分析的理念,煤矿安全大数据分析系统的建设目标包括:数据综合集成、安全知识集成、三维虚拟可视化展示、煤矿安全动态分析诊断。具体建设内容包括:(1)基于物联网/云计算技术的煤矿安全综合数据库。建设煤矿安全大数据分析诊断系统,首先要利用物联网和云计算技术实现全面综合的数据集成,将基础空间和属性数据、在线监测的实时性数据、专业业务系统的事务性数据综合集成起来,构建煤矿安全综合数据库。(2)基于专家系统的煤矿安全专家知识库。针对知识集成的目标,整理规范规程体系中的经验或者理论知识(煤矿安全规程、煤矿作业规程、三违行为知识、隐患界定知识、评估模型、设备操作规程知识、工种操作规程知识),构建煤矿安全动态分析诊断的专家知识库。(3)建设三维虚拟矿井可视化平台。针对信息和知识三维虚拟矿井可视化展示分析,主要的建设内容是基于高精度地质模型理论研究开发三维虚拟矿井平台,实现地层建模、钻孔建模、断层建模、工作面建模和巷道建模等工作。然后,基于三维虚拟矿井平台,实现数据和知识可视化、煤矿安全生产活动可视化、分析和决策过程可视化。(4)研发煤矿安全动态分析系统。针对基于专家知识库的煤矿安全生产分析决策,需要利用煤矿安全综合数据库中的基础数据、实时监测数据以及事务性数据,根据煤矿安全专家知识库进行煤矿安全生产状况评估、推理和演绎,动态分析诊断煤矿安全生产的现状与趋势、预测未来,并针对煤矿应急现象做出科学合理的响应对策。

3结语

大数据分析论文范文第3篇

[关键词]CSSCI引文分析科学计量学可视化图谱

[分类号]G306

1、导言

科学知识可视化图谱是在信息技术的推动下发展出来的一个新领域,当前已经成为科学计量学的一个新热点。陈悦和刘则渊认为科学知识图谱是显示科学知识的发展进程与结构关系的一种图形,它是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果。Katy Borner等综述了知视可视化历程,对引文分析领域进行了可视化研究。安伟峰、熊润芝、周云平等、徐佳宁等、刘艳苏等以及叶协杰众多学者也利用不同的中文数据库、不同的方法以及不同时期对我国的引文分析研究状况进行了研究。虽然中外学者都从不同角度研究了引文分析领域,但是中文引文分析领域的可视化研究几乎还没有开展。本文拟对中文引文分析这个领域运用可视化工具来做一个清晰的描绘。

2、数据及方法

本论文研究所用的数据来源于CSSCI数据库。笔者于2008年4月24日以“引文分析”为检索词在CSSCI中检索到1998-2007年间527篇文献,共得到3 328条引文。

下载这些检索记录,通过对数据进行仔细辨认和合并,利用大连理工大学刘盛博编的中文处理软件对CSSCI数据进行格式转换,变为Bibexcel、UcinetCitespace等软件可处理格式,然后利用这些软件对记录中的关键词、作者、来源期刊、被引作者、被引期刊等进行分析或绘图。

3、统计结果与分析

3.1关键词分析

527篇论文中,共有2133个关键词,对出现3次以上的97个关键词进行共现分析,利用Ucinet,计算中心性,再利用Netdrw绘制这些关键词共现网络,得到图1。通过对关键词的分析,可得出我国引文分析领域的主要研究内容。

从图1可以看出,节点越大,表示中心性越高。中心性较高的一些词有引文分析、SCI、CSSCI、文献计量学、影响因子,期刊评价等。两个节点之间的连线粗细代表关键词共同出现的次数,连线越粗,就是共同出现的次数越多。与引文分析共同出现次数较多的词有文献计量学、期刊评价、载文分析、作者分析等。

3.2作者分析

在527篇论文中,共有682名作者,表1是发表4篇以上的作者及其工作单位。

从表l可以看出,引文分析领域发文4篇以上的作者有29人,其中24人是与图书情报信息有关的,1人与医学有关。南京大学有9人,中国科学技术信息研究所4人,中国科学院文献情报中心有2人,北京大学有2人,浙江大学科技部2人,其余各1人。

3.3来源期刊分析

527篇论文分布在106种杂志中,发表在前20种杂志中的论文数为390,占总论文的74.7%,也就是说20%左右的杂志中包括了大约80%的有关引文分析的论文,基本符合“二八”律,可以认为这些杂志是发表引文分析论文的核心期刊。可以看到前20种期刊大都是图书馆学、情报学的核心期刊。表2显示出引文分析领域的文章除了多数发表在图书情报类的杂志上外,还有很多发表在与科学学、科技管理有关的核心期刊上。

3.4被引作者分析  对527篇论文的3 328条引文进行分析,发现有1280位作者被引证,平均每位作者被引频次2.6次。在这庞大的作者群中,被引频次最高的30位作者的总被引频次为731次,占总被引频次的21.97%,平均每位高被引频次作者被引频次24.37次。利用Citespaee软件绘图,得到图2,显示了我国引文分析领域的高频被引作者情况,图3显示了引文分析领域的重要文献。

从图2和图3中可以看出,较大节点的作者是在引文分析领域有突出作用的作者。影响最大的是武汉大学中国科学评价研究中心的邱均平,其主要代表作是1988年出版的《文献计量学》一书。王崇德、罗式胜、丁学东三人也出版了有关文献计量学的专著。庞景安《科学计量研究方法论》一书,详细介绍了引文分析在科学计量学中的应用。梁立明、蒋国华也出版了有关科学计量学的专著。有些集体作者,如中国科学技术信息所、中国社会科学索引课题组、中国科技论文统计与分析课题组、南京大学中国社会科学研究评价中心,这些课题组对我国的引文分析研究也有极大的影响和促进。金碧辉、武夷山、孟连生、朱献有、马费成等人也有突出的贡献,他们的单篇论文的被引频次也很高。姜春林、邹志仁、程刚、袁培国、钟旭、党亚茹、崔雷的研究也各有特色。

3.5被引期刊分析  3 328条引文分别来自918种杂志和其他类型文献,包括专著、报告、网页等。但是被引前20种杂志中的引文有1 346条,占总引文的40.4%,表3显示被引前20种期刊大多都是图书馆、情报学的核心期刊。《科学学研究》、《科学学与科技管理》等杂志的被引用说明科学学也对引文分析有较大的影响。有380条外文引文,占总引文的11.4%;有160条网页引文,占总引文的48%,其中680条引文都只被引一次,以上说明引文分析对别的学科的知识吸收还是相对较少,吸收较多的还是图书情报学、科学学、科学计量学、管理学、编辑学的知识。

4、我国引文分析存在问题及对策

4.1 中国引文分析存在问题

4.1.1 引文分析研究缺乏核心作者 引文分析在我国的研究历史只有30多年,还没有引文分析的核心作者,虽然有许多专家学者,也有很高的被引频次,但是他们都是图书情报领域的先贤,而引文分析则是依附于文献计量学存在的,大部分的著作都与文献计量学和科学计量学研究相关。因此,表现出引文分析理论研究少,应用研究多,方法简单;方法研究上简单统计多,指标模型少;应用研究用于评价的多,管理的少;研究图情、医药领域较多,其他领域少。

4.1.2数据样本的选择缺乏科学性引文分析是力图根据统计特征找出文献生产、传播等规律,从而进行更深入的研究,为决策提供量化依据。统计特征的出现要求有足够的样本量,足够明确的研究对象,足够大的时间跨度。而国内正式发表的有关引文分析的论文普遍存在着样本量小、时间跨度短、学科代表性差等问题。

4.1.3 中文引文分析可视化困难我国的引文分析可视化的进展不大,虽然近年来掀起了引文分析可视化的热潮,但是大多是对来自Web of Science数据的可视化,而以中文出现的知识图谱则不是太多。

4.1.4 中文的引文数据局限性 中文引文数据库有一定的局限性,如CSSCI中的数据从格式到录入出现了很多不统一及错误,如有的引文写错著者姓名、发表年份、出版社等等。在本研究中对这些现象作粗略的统计,其中年份写错或不写的占总引文的3.1%,不写出版社或期刊的占6.2%,不计算其他格式不统一,引文的错误总计在数据库中几乎达到10%。这样就给研究的统计工作带来很大的困难。

4.2 中国引文分析现状成因

4.2.1 理论基础薄弱首先,引文分析起初是当作文献计量学的一种方法被引入的,由于其使用起来简单易行,大多数学者只是把其当作一种工具来使用,究竟其包括什么样的原理,其使用的前提条件、使用原则、形成机制,并没有人去深入地探究;其次,引文分析理论在国外也进展不大,到目前为止,大多数的引文分析还是以传统的文献数理统计和共引理论为基础进行研究,没有更进一步突破;第三,我国的研究者重视应用研究、忽略理论研究。

4.2.2 中文引文数据库不完善为了更好地发展我国的图书馆事业和文献研究工作,我国科研人员不断努力,开发了许多相关的引文数据库,如CSCD,CST―PC,CSSCI等。这些数据库与SCI数据库相比,不论是在数据套录功能还是数据收录年代或期刊收录范围上都有所欠缺。为了进行引文分析,用户不得不把需要的文献记录和它们引用的参考文献题录一一手工摘取,再导入自建的小型引文库中通过编制计算机程序才能获得需要的统计数字。这无疑极大地阻碍了研究人员利用国内引文数据进行分析的积极性。

4.2.3 没有适合的分析软件 由于我国引文分析发展的较晚,一些引文分析的技术都是来自于国外。国外有很多专家学者利用计算机编程,开发了许多文献计量学软件,进行引文分析。例如:Bibexcel就是OllePersson为文献计量学专门编制普遍适用的、统一格式的数据处理软件,可以处理来自Web of Science等数据库的数据,不但能够进行统计处理,还可以分析数据,形成所需要的关系矩阵。而我国文献计量学、科学计量学的学者目前还没有开发出普遍适用中文数据格式的软件,对于一些不懂数学、计算机编程的学者,要靠最原始的手工来进行计数,所以他们花费在数据处理上的功夫可想而知。

4.2.4不规范的引文行为 目前我国的科技论文在引文规范上普遍存在着一些问题,主要表现在以下三方面:“用而不引”和“不用而引”;对参考文献的标注不规范;“引文复制”与“引而不注”;著录失误。此外,一些由于情报交流的障碍,如语言障碍、编译代码转换的障碍、检索工具的障碍、理解水平与能力的障碍等等,都是造成引文错误的直接客观的原因。

4.3 中国引文分析的对策建议

4.3.1 加强引文分析的理论建设首先,大力开展引文分析的理论研究,对引文分析的原理、规律、研究对象以及与引文分析相关的概念假设、环境、适用范围进行深入和系统的讨论,力图形成引文分析的研究范式;其次,加强和国外同行的合作交流,力图自主创新,发展适合我国学者的引文分析方法和理论;再次,引文分析有很强的交叉学科的特点,交叉学科的特点就是容易吸取其他学科的先进理论,要想在理论上有所突破,可以借鉴其他学科的理论方法;第四,提倡研究者进行理论研究,改变研究作风;第五,提高研究者和使用者综合素质,使他们能够敏锐地发现引文分析的问题,合理利用引文分析进行科研评价,提高科研活动的效率。

4.3.2完善发展各种引文数据库首先,优化数据库结构,加强数据规范管理工作,改善数据库检索性能;其次,借鉴美国ISI的Web of Knowledge(WoK)的经验,对我国各类引文数据库进行重组、加强和完善;可以把CSCD和CSTPC整合起来,成为中国的“SCI”,把CSSCI建成中国的“SSCI”,把各种引文数据库的资源集成为强大的引文网络平台;再次,及时和数据库用户沟通和交流,获得有益的反馈信息。

大数据分析论文范文第4篇

[摘要]以中国学术期刊网络出版总库为信息源,统计了广西各高校图书馆发表的论文3 197篇,确定≥5被引频次的高被引论文

>> 职业技术教育核心期刊高被引论文统计与分析 我国高等教育核心期刊高被引论文统计与分析 中国法学核心期刊高被引论文统计与分析 新世纪10年我国图书馆学基础理论研究高被引论文述要 2007―2016年北华大学高等教育领域发表高被引论文的统计分析 公共图书馆公益讲座研究论文统计与分析 图书馆利用统计与分析 广西高校图书馆阅读推广现状网上调查与分析 广西高校图书馆特色资源建设调查与分析 广西高校图书馆与公共图书馆资源整合研究 高校图书馆与区域经济发展研究论文计量分析 基于调查统计的广西公共图书馆从业人员现状分析与研究 图书馆信息能力研究引论 基于数据统计的高校图书馆零借阅率分析与启示 编辑学高被引论文陕西作者群载文情况分析 基于民族声乐的高被引论文学术影响力分析 基于网络计量学的《电化教育研究》高被引论文分析 档案学高被引论文引用情感类型分析 《中华急诊医学杂志》2001―2012年高被引论文分析 1993―2014年《应用生态学报》十大高被引论文分析 常见问题解答 当前所在位置:)。检索项为“作者单位”,以广西各高校图书馆名称作为检索词,包括21所本科院校、40所高职高专、8所独立院校、4所分校办学点。为了使统计数据更加准确全面,各高校图书馆的检索数据包括其更名前的数据,如:广西民族大学图书馆的数据包括广西民族学院图书馆的检索数据,玉林师院图书馆的数据包括玉林高等师范专科学校、玉林师专图书馆的统计数据等。另外,两名以上不同广西高校图书馆从业人员合作完成的论文只统计1次,算在第一作者单位。论文检索时间为2012年7月12―14日。

(2)高被引论文的确定。本文借鉴确定核心作者的方法,运用普赖斯定律(N =0.749×nmax)确定高被引论文。公式中,N为高被引论文被引频次的最小值,nmax为被引频次最高论文的被引频次[3]。被引频次最高的论文为广西民族学院图书馆(现为广西民族大学图书馆)龚月新的《论高校图书馆的和谐管理》,被引48次,即nmax=48,那么N=5.189≈5。因此,确定被引频次≥5的论文为高被引论文。

(3)统计指标选择。本文选用的统计分析指标主要包括高被引论文的期刊分布、年代分布、作者分布、机构分布和主题分布等。

(4 )统计方法。检索的论文按被引频次由高到低降序排列,每页显示50条,逐页复制到Excel工作表,用Excel 2003进行数据计算与分析。

大数据分析论文范文第5篇

一、研究的方法和数据处理

文献计量研究方法是图书情报领域的传统研究技术,近来开始被引入到我国教育研究界,并且成为比较热门的研究方法之一。这种方法主要是通过定量的数据客观地反映不同时期的研究状况。一般来说,同专著和研究报告等学术文献相比,期刊发表的论文对学术领域的热点把握相对更为连续、敏锐和直接。[1]而博士论文和硕士的文章在一定程度上可以对期刊文章进行补充,使下载的文献数据能够更加全面、丰富。因此,本文选取CNKI中期刊、博士论文和硕士论文三个领域有关高考志愿的刊载文献关键词作为数据进行分析,这三个领域的文献资料包含了一定数量和范围的热点问题,至少能够充分反映出我国高考志愿研究领域的热点主线问题。

研究分析的工具CiteSpace软件是美国费城德雷塞尔大学、大连理工大学陈超美博士开发的信息可视化应用软件,其适用于多元、分时、动态的复杂网络分析,成为近年来在全美信息分析中最具特色和影响力的信息可视化软件。[2]该软件的功能主要包括作者合作分析、关键词共词分析、机构合作分析、作者共被引分析、文献共被引分析等。

二、高考志愿填报研究的知识图谱

本研究选取CNKI中关键词为高考志愿的论文作为研究数据,运用CiteSpace软件作为研究工具,旨在揭示我国高考志愿领域的研究热点。本研究的下载资料时间从1981年开始,到2012年为止,将数据转化正确格式输入到CiteSpace软件,进行关键词共现分析,在软件分析的过程中,2000年之前的数据很少并且较为分散,对分析的整体结果影响不大。因此,在此忽略不计。本文的研究数据时间段为2000年至2012年止,最终通过软件分析得到的关键词共现网络知识图谱,如图1所示。

图1中各个节点的大小代表其频次的多少,节点越大说明该关键词出现的频次就越高,同时图中也可以清晰地表现出关键词的中心性强度,关键词在网格中的连线越多,中心性越强,就说明该关键词越具影响力。根据图1和CiteSpace软件后台运行数据,我们可以得到2000~2012年我国高考志愿领域中心性较高的关键词,即热点关键词主要有:高考志愿、高考、招生宣传、对策、影响因素、平行志愿、大学生、填报志愿、Data Mining,以上是中心性较高的九个关键词(见表1)。

根据以上资料我们可以看出,我国高考志愿领域的研究既有理论方面的研究,也有技术方面的研究。理论方面的研究相对较多,主要有高考志愿领域的对策分析、影响因素分析以及填报志愿分析;技术方面的研究主要以data mining(数据挖掘技术)分析为主。无论是理论方面的研究还是技术方面的研究,在我国高考志愿领域中的作用都是不可言喻的。

1. 高考志愿领域的理论研究。

(1)对策分析。高考志愿领域的对策分析主要分为高校招生宣传工作的对策分析和高考志愿填报的对策分析。

随着高校的不断扩招,生源竞争越来越激烈,生源问题也越来越受到各个高校的重视,有的高校或者专业出现录不满的现象,也有的专业出现招收的考生不去报到的现象。朱惠媛[3]总结出考生不报到的原因,根据形成的原因对高校提出可行性对策供高校参考。在高考志愿领域的高校生源问题对策分析中,多从高校的角度进行探析,找出问题形成的原因,针对具体问题具体分析,探讨解决方案,促进高校招生工作的顺利进行。

在高校招生宣传工作中,为了争取到高质量的生源,高校对招生宣传工作高度重视,但是在工作的开展过程中,各个高校或多或少地存在一些误区。宣传工作的对策分析主要体现在宏观指导方面,杨凤勇[4]通过调查发现,有些地方高校在招生工作中出现了宣传内容求全、宣传媒体贪大、宣传时段集中、宣传队伍单薄、宣传投入失衡等诸多误区,通过对这些问题的分析提出应该形成宣传机制、把握宣传重点、定位宣传对象、壮大宣传队伍、完善宣传方式的相关对策建议。张宏波[5]认为,高校招生宣传的对策分析重在精心策划和组织制订行之有效的招生宣传方案、加强招生宣传队伍的建设、充分发挥校友、家长的作用,提高宣传亲和力和可信度、充分发挥学校网站的功能、宣传的对象要有针对性,确保招生宣传工作的成功率等方面。

同时有关高考志愿领域的对策分析,还包括高考志愿填报中的对策分析,这部分将在填报志愿分析板块进行分析。

(2)影响因素分析。在高考志愿填报的影响因素分析中,研究人员通过运用问卷、访谈等调查研究方法对考生进行数据收集,最后通过数据处理得出影响考生志愿填报的影响因素,主要有家长建议、个人爱好、学校名气、学校地域环境、高考成绩、就业前景等,同时对于专业选择的影响因素以及专业选择的满意度研究也是通过问卷调查法进行研究,通过对考生志愿填报的影响因素和专业选择的影响因素的调查,分析我国高校招生宣传应采取的途径,提出有效的对策分析。李令青、刘彦楼、李建伟[6]运用自编问卷对大学新生进行测试,最终得出影响考生报考决策的因素主要有发展前景、兴趣特长、他人意见、录取把握。黄玮[7]运用问卷、访谈调查研究方法,对大一新生和高中教师进行访谈,得到了影响高考志愿决策的七大因素:未来发展、人际影响、大学实力、兴趣理想、高中影响、地缘家庭和高考情况。

同时,对于影响因素的分析还包括考生的学校归属感影响因素分析、职业认同感的影响因素分析等,李倩[8]运用质性研究方法,选择大一到大三的同学作为研究对象,通过分析学校归属感水平较高和学校归属感水平较低大学生的特点,归纳得出影响大学生学校归属感水平的主要因素,大学生的高考志愿、学校的知名度、生活环境这三方面因素在学校归属感形成的前期有一定的影响力,其中高考志愿的影响力最大。在此,充分证明了高考志愿在考生未来学业生活中的重要作用。

综上所述,我们可以发现考生在高考志愿填报时,所考虑的影响因素中微观因素影响比重较大,而宏观影响因素比重相对较小,很少有考生在填报高考志愿的时候会考虑所填报的专业在未来会为国家的建设做出多大的贡献。

(3)填报志愿分析。有关高考填报志愿方面的研究文献有很多,视角也非常广阔,主要有高考志愿填报模式分析、高考志愿填报的录取机制、高考志愿填报的原则、高考志愿影响因素分析、高考志愿填报对策分析等等。

学者们对于高考志愿填报模式的研究主要体现在模式的分类、对比分析、模式的研究上。模式的分类普遍有两种划分方法:一种是按时间的划分,可以分为考前志愿填报模式、考后估分填报模式和考后知分填报模式;另一种是按填报类型来划分,主要有顺序志愿填报模式、平行志愿填报模式和实时动态志愿填报模式;对比分析是对填报志愿的模式之间的比较,总结出各自的利弊,针对不同的填报模式提供最优的填报技巧。同时,值得一提的是高考志愿填报模式中平行志愿的研究,自从2008年我国全面推行平行志愿之后的几年中,有关平行志愿的研究纷至沓来,成为高考志愿领域研究的热点主题。

有关填报志愿原则的文献讲解非常细致,既包括宏观的指导建议,又包括具体的填报技巧。潘黎[9]从宏观的角度提出志愿的填报要把握以下几个原则:学校应拉开档次、保持梯度;精挑专业、辩证对待;慎重对待服从志愿;审时度势,吃透章程;在具体填报技巧方面,多数学者把信息收集工作放在首要位置,其它的填报注意事项还包括认真填报第一志愿,要注意“冲-稳-保-垫”的原则,要了解高校往年的分数线、各专业的分数线、专业和地域的热门和冷门、做好各档次志愿之间的关系、注意保持志愿之间的梯度、慎重对待服从志愿、家长和老师的指导建议等。

填报志愿的对策分析,针对高考志愿领域存在的各种问题,其研究分类多样,视角丰富。牛庆玮[10]研究学生高考志愿选择的影响研究,为高校提出提高生源质量的对策,属于对志愿填报的影响因素对策分析;李德铭[11]针对志愿填报的招生政策和录取规则提出相应的对策分析;赵小明、王晓峰[12]以平行志愿的投档模式为基础,对其影响因素进行分析,提出志愿填报分析方法及策略,作志愿填报参考之用。综上所述,志愿填报的对策分析以具体分析为主,事事巨细,研究角度多样化。

2. 高考志愿领域的技术研究。Data mining,中文意思为数据挖掘,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘技术在高考志愿领域的应用主要是通过对考生的高考志愿相关数据进行处理,建立数据库,在庞大的数据库中发现潜在的联系,找出规律,最终提出可行性的建议,供广大考生参考,在未来的考生志愿填报过程中提供决策性帮助。

在高考志愿研究领域中,学者们多数采用的数据挖掘方法有层次分析法、决策树方法、数据仓库技术、关联规则、ID3算法、商务智能技术、Spss技术。其数据挖掘方法种类繁多,研究手段多样。殷员分[13]在其硕士论文中通过建立招考数据仓库,利用OLAP技术从多角度、多侧面、多层次对考生志愿数据进行分析,最后利用数据挖掘技术对考生志愿数据进行挖掘,得到一些可资借鉴的结果;罗志磊[14]在其硕士论文中灵活运用决策树方法,根据高考志愿数据的特点,在对其进行预处理的基础上,对高考志愿数据进行知识挖掘,获取其中规律性的潜在信息,构建高考志愿录取预测模型,提供给考生进一步的决策建议;赵文波、傅志刚,[15]在对高考志愿填报的研究中采用了层次分析法(Analytic Hierarchy Process AHP),对高考考生填报大学志愿的影响因素进行了系统的分析。所得数据通过微机处理,定量地给出了各种不同影响因素的重要性排序,同时提出了相应的对策性建议;张丹丹[16]在其硕士学位论文中首先对关联规则分析算法和决策树分类算法进行改进,其次对高考志愿领域数据进行预处理,生成数据库,最后建立一个考生志愿数据智能分析系统,其目的是为了得到一个有效的关联规则和分类规则,期望能为今后高考考生的志愿填报提供决策支持。

综上所述,学者运用科学的分析方法深入分析高考志愿填报的相关数据,发现内在规律,为考生提供决策性帮助,促使我国高考志愿领域的发展更加成熟、完善。

3. 研究结论。本研究运用citespace信息可视化软件对高考志愿领域的数据分析,探测出我国高考志愿领域的研究热点主要有理论分析和技术分析两个方面。理论分析主要有对策分析、影响因素分析以及填报志愿分析;技术分析以数据挖掘技术分析为主。

在整体文献中高考志愿领域的理论分析相对较多。其中对策分析主要集中在高校招生宣传工作的对策分析和考生志愿填报的对策建议两个方面。高校招生宣传的对策分析:一方面是针对考生不报到的原因进行探究,为高校提供对策分析;另一方面是针对高校宣传工作的误区进行探究,总结出高校在宣传工作过程中存在的错误,对此提出可行性建议供高校参考;志愿填报的对策分析:以具体分析为主,事事巨细,研究角度多样化;高考志愿领域的影响因素分析研究比较广泛,有高校招生宣传工作的影响因素分析、高考志愿填报的影响因素分析、考生专业选择的影响因素、考生职业认同、考生学校归属感的影响因素分析等等,其中占整体比例最多的为高考志愿填报的影响因素分析;有关高考填报志愿方面的研究文献也有很多,视角非常广阔,主要有高考志愿填报模式分析、高考志愿填报的录取机制、高考志愿填报的原则、高考志愿影响因素分析、高考志愿填报对策分析。

在高考志愿领域的技术分析中,通过文献分析可以发现,文献大多出自于硕士学位论文库,多数是高考志愿填报建立系统模型的研究,学者运用科学的数据分析技术建立数据库,应用数据库深入研究高考志愿领域的相关数据,挖掘这些庞大数据背后的关联知识和内在规律,提供相关对策分析,期望在未来考生的志愿填报过程中为考生提供决策性帮助,为我国高考志愿领域的发展提供有力的支持,促进领域的发展。

参考文献:

[1]潘黎,王素.近十年来中国教育研究热点主线的计量研究—基于八种CSSCI教育学期刊文献关键词共现知识图谱的分析[J].教育研究与实验,2011,(6): 20-24.

[2]潘黎,王素.近十年来教育研究的热点领域和前沿主题—基于八种教育学期2000-2009年刊载文献关键词共现知识图谱的计量分析[J].教育研究,2011,(2): 47-53.

[3]朱惠媛.高校录取新生不报到的原因与对策[J].江苏高教,2008,3:90-92.

[4]杨凤勇,郭素珍,张波.地方高校招生宣传对策初探[J].石家庄学院学报,2007,9(5):111-115.

[5]张宏波.关于高校招生宣传媒介应用的调查分析与对策[J].浙江海洋学院学报(人文科学版),2004,21(3):93-96.

[6]李令青,刘彦楼,李建伟.高考专业填报决策的影响因素探析[J].中国健康心理学杂志,2008,16(8):883-884.

[7]黄玮.高考志愿决策结构模型研究[D].南京师范大学,2008年硕士学位论文.

[8]李倩.大学生学校归属感的影响因素分析[D].华东师范大学,2011年硕士学位论文.

[9]潘黎.高考志愿填报综述[J].中学课堂资源,2007(4):30-35.

[10]牛庆玮.影响高考志愿的因素分析与提高生源质量的对策研究[J].石油大学学报(社会科学版),2004,20(2):105-107.

[11]李德铭.高考志愿填报问题及其对策[J].甘肃教育,2007(5):7-8.

[12]赵小明、王晓峰.平行志愿填报因素分析与对策研究[J].沈阳工程学院学报(社会科学版),2012,8(4):478-480.

[13]殷员分.高考考生志愿数据分析与挖掘研究[D].西南大学,2010年硕士学位论文.

[14]罗志磊.决策树方法在高考志愿分析中的应用研究[D].河南大学,2007年硕士学位论文.

大数据分析论文范文第6篇

关键词: 图书馆学研究方法方法论调查分析

中图分类号: G250文献标识码: A 文章编号: 1003-6938(2010)01-0111-04

A Statistical Analysis of the Library Science Papers Research Methods

Jia ErpengYi Jinghan(Department of Information Management, Zhengzhou University, Zhengzhou,Henan, 450001)

Si Miaomiao(Library, Hubei Vocational College of Bio-Technology, Wuhan, Hubei, 430070)

Abstract: Relevant scientific research methods support the completion of the science research. So library science research methods are an important component of the library science system. Through a statistical analysis to the research methods of the academic articles published in 11 library journals, this article sums up the current condition of method application in library science in our country, and prospects for the future of library science research methods in our country.

Key words: library science; research methods; methodology; survey analysis

CLC number: G250Document code: AArticle ID: 1003-6938(2010)01-0111-04

工欲善其事,必先利其器。科学研究是富有创造性和艺术性的活动,方法是科学研究的工具和途径,图书馆学研究过程也与科学的研究方法不可分离。图书馆学研究方法是在继承一般科学研究方法的基础上,根据自身的研究对象、学科性质而进行融合与发展,形成自己学科的研究方法体系。随着图书馆学情报学研究范围的扩大、研究对象的复杂,其研究方法呈现出多样性特点。从多个角度对其进行研究,既促进了我国图书情报事业的发展,反过来又进一步刺激了研究方法的多样化。本文以11种图书馆学专业期刊2006~2008年所刊载论文为数据源,分析论文的研究方法,试图总结出图书馆学研究方法的规律及其发展趋势。

1我国图书馆学方法论的研究

图书馆学研究方法,是图书馆学学科体系的重要组成部分,一方面,它使得图书馆学研究能够准确、充分地揭示研究对象的本质与规律,是图书馆学研究的保障;另一方面,整个图书馆学的研究中对方法的研究不能偏废,方法研究是学科研究内容的一部分。[1 ]我国图书馆学方法论研究开始于20世纪80年代。1981年刘迅先生在《图书馆学通讯》上发表了《要重视图书馆学方法论的研究》一文。紧接着乔好勤先生在该刊1983年第一期上刊登了《试论图书馆学研究中的方法论问题》,[2 ]运用统计方法对《图书馆学通讯》等三种专业刊物1980~1981年发表的学术论文研究方法进行分析。并提出了图书馆学方法论的三层次说法,即图书馆学的研究方法可以分为哲学方法、一般科学方法和专门科学方法。随后出现了有关图书馆学方法的大量学术论文,还有一些著作,如王崇德的《图书情报方法论》。[3 ]

从宏观上看,图书馆学方法论的三个层次基本得到认同。对一般科学技术研究方法的探讨,也分为三个层次,最底层是具体的技术层次,中间层是一般的研究方法层次,最高层则是哲学层次。[4 ]图书馆学的一般科学方法,主要是指引进和移植相关科学的研究方法和研究成果运用于图书馆研究,可分为:信息获取方法(主要指调查法、统计法、试验法和历史法等),信息加工方法(主要指老三论、新三论等)。[5 ]对图书馆学专门方法探讨的文章很多,虽然还没有统一的认识,但是普遍认为文献计量学方法和引文分析法是典型的图书馆学专门方法。另外从研究的性质来分,图书馆学的研究方法也可以分为定性和定量方法。随着对此研究的深入,图书馆学方法论体系会不断地得到完善。

3数据来源

在数据收集中,笔者选取了11种图书馆学专业期刊:《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》、《图书馆杂志》、《图书情报知识》、《图书馆》、《图书馆论坛》、《图书与情报》、《图书馆理论与实践》、《图书馆建设》、《图书馆工作与研究》作为调查对象,具体统计了2006年~2008年间各期刊学术论文使用研究方法的情况。数据主要来源于中国知网,小部分数据来源于各期刊主页。在数据统计中,去除了一些信息资料类文章,如征文通知、会议通知等(见表1)。

4数据统计分析

本文总共统计了8159篇学术论文,通过对所选的各篇学术论文,逐篇分析其篇名,个别文章查阅了摘要、正文等详细信息,根据各科学研究方法的含义,归纳每篇论文采用的科学研究方法,并将其研究方法归纳为15小类(见表2)。由于每篇文章采用方法很难准确判断,有的文章采用了多种研究方法,所以从表2中可以看出,最后的论文合计总数(8273篇)大于调查的论文总数(8159篇)。在计算各类研究方法的论文占调查总数的百分数时,是除以调查总数(8159篇),所以百分数之和是(101.3997%)而不是100%。

(1)理论分析法

运用理论分析法的主要是一些分析归纳与概念推理类研究,以及思辨类的学术论文。从表2中可以看出,采用理论分析法的学术论文共2904篇,占调查论文总数的35.593%,理论分析法是我国图书馆学研究中最常用的方法。研究方法的运用主要受到学科性质和研究任务影响,图书馆学从目前来看应该属于社会科学,而且人文色彩比较浓厚;我国图书馆界也有重理论的现象,这与国外主要以定量方法为主、重应用有很大不同。随着其它学科背景研究者的加入,看问题的视角会有所变化,相应的研究方法也会多样化。社会科学的发展是由定性方法向定量研究过渡的过程,图书馆学科也要注重定量分析方法的应用。

(2)操作实验法、调查研究法

在调查的学术论文中,运用操作实验法的共有830篇,占到总数的10.173%。这类论文主要研究技术性的问题,比如系统开发设计、数字图书馆建设、网络信息资源开发组织等。随着图书情报工作环境、研究对象的变化,图书馆学研究关于技术的内容会越来越多。

调查研究法是社会科学常用的一种研究方法。图书馆学是一门实践性很强的学科,调查是获取原始数据的一个重要的方法。图书馆学研究中主要进行抽样调查,通过问卷、网络来收集数据资料。采用调查研究方法的学术论文一共745篇,占总数的9.131%,调查方法的运用在调查数据中占有很大一部分,说明研究更贴近实际问题。

(3)实例分析法、历史方法

实例分析法通常是以具体的实例来介绍经验或说明问题,论文中主要是以国内比较著名的大学或科研院所图书馆、国外有名的图书馆等为例子进行分析,对于其它图书馆的建设、信息资源开发服务起到了借鉴作用。

历史方法主要用于论述关于图书馆事业史、人物评价、文献学、目录学等内容的论文,是一种传统的研究方法。有的期刊专门开辟了关于图书馆事业史、文献学的专栏,历史方法的论文在调查论文中占到了7.501%。

(4)系统方法、管理学方法

系统方法主要是用系统的思想,从整体的角度来观察问题,这种方法对我们认识研究起到很大作用。虽然有的文章不能明显地看出是运用了系统方法,但是系统方法贯穿于观察问题的整个过程。管理学方法是将管理学的方法移植在图书情报学的研究中,图书馆在机构建设、运营方面都要运用到管理学的知识方法。

(5)数理方法、文献计量学方法、比较法、经济分析法

数理方法主要是数学方法在图书情报学研究中的应用,是一种定量的研究方法。采用数理方法的学术论文有304篇,占调查论文总数的3.726%。数学方法的运用,也说明图书馆学研究者正在试图定量地揭示研究对象,随着本学科逐渐走向成熟,这一方法将继续普遍化。

文献计量学方法是用数学和统计学方法,对文献量、作者数、词汇数等的定量化研究。调查的论文中运用此方法的占到3.199%,在调查论文中占到的比例比较低。文献计量学方法也应用于其它学科研究,从CNKI数据库中我们以“文献计量”为题名,可以粗略地检索到600多篇论文,内容涉及很多其它学科研究。

比较方法也是比较常用的一种研究方法,通过对多个相关事物或事物的各部分之间进行比较,揭示其共同点和差异点。

经济分析法是将经济学的方法运用到图书馆学的研究当中,研究内容包括图书馆营销、资源共享效率评价、纸质资源与电子资源的经费问题、资源服务的经营模式等等。

(6)控制论方法、引文分析法、内容分析法

明显运用控制论方法的论文很少,调查中只有79篇。占到总数的0.968%。但是控制论的思想在很多论文中都有所体现。

引文分析法是利用各种数学及统计学的方法对科学期刊、论文、著者等的引用和被引用现象进行分析,以揭示其数量特征和内在规律的方法。在所调查的论文中,明确使用引文分析法的有23篇,占总数的0.282%。引文分析法作为图书情报学科的一种专门方法,运用也很广泛。在CNKI中用“引文分析”作为题名可以检索到1200多篇论文。

内容分析法产生于传播学领域,是一种客观的量化方法,是从大量样本进行特征识别的系统方法,具有统计性,是一种从公开资料中萃取情报的重要方法。因为它是新方法,统计中只有6篇。

(7)其它

其它中包括有专利分析方法、社会网络方法、SWOT分析法、法律分析方法、心理学方法、美学方法、传播学方法、医学理论方法等等。

5我国图书馆学研究方法的发展趋势

5.1定量分析与定性分析相结合

根据表2数据,我们可将研究方法大致分为两类:第一类是定性方法,包括理论分析法、实例析法、历史方法、系统方法、管理学方法、比较法、经济分析法、控制论方法,百分比总共占到61.62%;第二类是定量方法,包括操作实验法、调查研究法、数理方法、文献计量学方法、引文分析法、内容分析法,百分比总共占到26.584%。从数量来看,定量研究方法所占比例比起定性方法还很小,这是由于理论分析法的比例太大。对于图书馆学的科学研究,目前来看定性方法用的多一些。但对于具体问题,定性方法和定量方法各有特点,用哪种方法要根据具体情况而定。

理论分析法是一种定性研究方法,在学科研究中发挥了重要的作用。由于定性方法缺乏科学的数据支撑,其理论分析就显得没有深度和广度。随着学科的发展,定性与定量研究方法相结合是发展的趋势。图书馆学情报学领域已经大量采用定量的研究方法,如调查研究法、数理方法、文献计量学方法等。定量方法的运用使研究更精细、更科学,站在定量的角度解释图书馆学情报学的内在规律,从而在广度和深度上推动学科的发展。[6 ]

5.2现代信息技术的影响越来越大

随着信息技术、网络技术的发展,图书馆学的研究内容产生了巨大变化,与网络信息、信息系统等有关的技术性研究论文数量会不断增多。在表2中,操作实验法所占比例为10.173%,我们可以清楚地看到这一点。

新技术的发展还为经典的研究方法提供了新的实现工具。[7 ]研究这可以通过互联网进行数据采集,以网页形式的网络调查、用即时通信(instant messaging)软件(如QQ)的调查、[8 ]电子邮件调查等,这些都为更好地完成调查提供了多种途径。随着搜索引擎的运用普及,搜索引擎的服务器记录和保存了用户与搜索引擎的交互过程,这种数据称为使用记录(transaction log),使用记录分析(transaction log analysis)成为一个研究热点。另外,计算机还可以辅助研究者进行定性数据分析等。在文献计量学的基础上产生了网络信息计量学方法,在引文分析方法的基础上出现了链接分析方法,这都是现代信息技术对研究方法的影响。

5.3吸收其他学科的研究方法

表2中的管理学方法、数理方法、经济学方法、内容分析法等都属于移植其它学科的方法,占10.85%。“其它”占7.185%。这些都说明了图书馆学研究中移植了许多其它学科的理论或方法。

在学科的发展中,一方面要具有从其它学科吸收养分的能力;另一方面要能为其它学科提供养分。随着图书馆学科研究队伍的壮大,研究者会大量借鉴其它学科的研究方法,会产生新的研究方法,如内容分析法、情景分析法等。当然我们不能盲目地去移植新的研究方法,而要与图书馆学情报学本学科的实际情况相结合,将其融入本学科研究之中,通过适当的研究方法来为研究服务。

5.4实证方法的应用

调查研究法、实例分析法就属于实证性研究方法,从表2中的数据中就可以看出,共占到17.061%。近些年来研究者也开始注重实证研究(evident-based studies)方法,[9]它是在获取研究对象客观数据材料的基础上,通过数据分析,考察研究对象各有关因素的相互影响及其影响方式,从个别到一般,归纳出事物的本质属性和发展规律,它是观察法、实验法、统计法等的综合运用。实证研究通过实际数据分析,连接了理论与实践,一定程度上有利于图书馆学研究水平、学术地位的提升。

总之,方法都不是万能的,各种研究方法都有自己的优点和缺点,或者是有适用的条件。定性与定量研究方法的结合将成为图书馆学方法的主流,新的方法与新的技术将得到更多的应用。利用多种先进技术手段来收集数据、分析数据,综合多种研究方法来探讨复杂的研究问题将会越来越多。所以研究方法的运用将是多元化发展,合理的研究方法体系应该是多种研究方法的有机结合与互补,从各个不同的角度对研究对象进行分析。

参考文献:

[1]邓小昭.信息管理研究方法[M].北京:科学出版社,2007:1-33.

[2]乔好勤.试论图书馆学研究中的方法论问题[J].图书馆学通讯,1983,(1):54-62.

[3]王崇德.图书情报方法论[J].北京:科学技术出版社,1988.

[4]杨建军.科学研究方法概论[M].北京:国防工业出版社,2006:1-24,395-409.

[5]罗方等.我国图书馆学方法论研究的现状及趋势[J].图书馆建设,2006,(2):19-20.

[6]邱均平.文献计量学[M].北京:中国人民大学出版社,2007:260-283.

[7]华薇娜.我国80年代图书馆学情报学研究状况的定量分析[J].情报学报,1995,14(3):218-225.

[8]金武刚等.图书馆员网络社区信息交流行为实证研究――“大旗底下”QQ群个案分析[J].大学图书馆学报,2008,(5).

大数据分析论文范文第7篇

关键词 情报学;硕士论文;关键词

中图分类号G251 文献标识码A 文章编号 1674-6708(2014)114-0013-02

当前,世界各国的许多高等院校和科学研究机构都在加强对图书情报的研究,许多世界一流院校,比如Harvard University(哈佛大学)、Princeton University(普林斯顿大学)、Yale University(耶鲁大学)、Massachusetts Inst. of Technology(麻省理工学院)等都建立了比较完善的情报学教育体系。而比较而言,在我国高等院校与科研院所对图书情报学的相关研究,明显要相对落后,近年来随着改革开放的深入推进,有关情报学的招生和课题研究有所提升,并呈现出较为快速的增长态势,然而由于研究内容相对较为高深,而且研究的靶场显得较为前沿化与多元化。基于关键词对学位论文进行统计、研究与分析是文献计量学的范畴,是图书情报学研究的重要内容。即以学位文献或学位文献的某些特点为标的,以聚集梳理一定数量文献为基础,由此展开对某一时域某一领域科学技术基本状况与基本特征的研究,并由此论述和预测该领域科学技术在今后一段时期的研究趋势与特点规律态势。基于独特关键词进行图书情报领域的硕士学位论文进行分析,是情报学研究的一项重要方法,是一种将文献资料中的众多核心要素关联起来,进行统计分析的引证分析方法,其可以较为科学地评价文献所研究与发展的现状和趋势,揭示学科当时研究的热点,较为准确地评价文献所代表的学术水平。

1 研究对象数据来源

本文研究的对象定位于对国内图书情报领域这一总体框架,并于此基础上将“靶向”集中于硕士学位论文的统计、分析与研究,将“靶标”聚集到硕士学位论文的研究热点、趋势、重点、前沿以及其变化情况,从而更加清晰地梳理出我国情报学研究的发展脉络,从而为我国情报学教育发展提供参考。研究的主要数据来源集中于国内著名的学位论文收集库――中国知网CNKI学术文献总库、维普期刊资源整合服务平台与万方数据知识服务平台“三大论文数据库”,以及国内高等院校图书馆自建特色数据库。其中,中国知网CNKI和万方数据库是国内收录学位论文最为全面的数据库,因此,为了确保分析研究的数据具有较高可信度与代表性,分析研究检索的数据源即来自该两个数据库,着重定位于“学科专业名称”、“学科专业分类”选项进行检索,而检索的时间区域定位于近10年,对于两个数据库检索出来的文献,对于相同的通过采用SQL 语句进行筛选,剔除重复的以及不符合的。

由此,以“情报学”作为检索词,从中国知网CNKI数据库获得1640篇硕士论文,从万方数据库中获致1315篇硕士论文,通过SQL筛选剔除重复的以及不符合的795篇,总共获得有效国内图书情报领域硕士论文2160篇。

2 基于高频关键词的国内图书情报领域硕士学位论文特点

通过对获取到的2160篇国内图书情报领域硕士论文进行研究,综合统计论文的关键词,累计关键词有13976个,经过分析研究,去除不能表达论文主题概念的关键词3645个,共得10331个,平均每篇硕士文献关键词数为4.78个,由此可说明该统计是科学的,与国外科文献资料对关键词的标引规则相符(国内外科技期刊要求的每篇关键词应标出 3-8 个),接着对关键词的词频进行统计分析,将关键词的频度大于60作为标准,将其定义为“高频词”,通过对“高频词”的统计分析,可以非常清晰地看出,有关“知识管理”这一主题的频次最高,多达126次。无疑,这也证实了近些年来,学术界对知识管理这个方向的研究热点。此外,“电子商务”为121次、“信息化”为118次、“信息技术”为112次、“竞争情报”为102次、“信息服务”为98次、“信息检索”为96次、“数据挖掘”为87次、“数字图书”为84次、“信息资源”为79次、“电子政务”为75次、 “知识服务”为71次、“知识共享”为68次、“数据仓库”为63次,从中也反映了我国对信息化建设、知识服务、数字化建设等关注在日益提升,也验证了我国国务院学位委员会重新颁布的《授予博士、硕士学位和培养研究生的学科、专业目录》中“图书馆、情报与档案管理”的实效,表明了情报学与管理学之间渗透和结合日益加强,也可以折射出当前研究的重点、热点仍然集中在情报学基础领域,并预示着今后情报学研究的一个重点将是对网络信息资源的开发、整合与利用。

3 基于聚类共词的国内图书情报领域硕士学位论文特点

通常来说,仅仅通过孤独地察看论文的某一关键词,通常是难以有充足的理由说明该论文所研究的主题,然而通过关注两个或者两个以上的关键词,将可以给予人们更加充分的信息去把握论文的大致内容和论文的主题脉络。通过采取计算机数字高效处理作用,充分发挥Excel的数据透视功能,再次对出现次数高于60的高频出现的关键词进行“聚类性”分析,统计在同一论文中两两同时出现的关键词,从而构建出60 × 60的“聚类共词矩阵”,通过这一矩阵的研究,非常清晰地显示出“聚类共词矩阵”是一个对称矩阵,其中位于矩阵对角线上的数据显示的是某关键词自身一同出现的频次,这个一同出现的现象就实质来说,就是论文之间的相关度,对于非对角线上的数据,则表示不同关键词之间的共现频次。通过这个矩阵可以从另一个侧反题出,关键词分布既有交叉、相互渗透又具有群组分布的独立性。通过Excel的数据透视处理得到共现频次较高的有:“知识管理”为124次,“电子商务”为106次,“竞争情报”为101次,“高校图书馆”为98次,“信息服务”为92次,“数据挖掘”为87次,“数学图书馆”为83次,“信息资源”为81次,“电子政务”为79次,“知识共享”为72次,“数据仓库”为66次。由此可以看出,在国内图书情报领域硕士学位论文的研究主题中,当前基于数字化、信息化、电子化的知识管理与数据挖掘是个热点,同时也说明我国情报学教育研究的领域在不断拓宽。

综合以上,关注独特关键词下国内图书情报领域硕士学位论文研究的学科结构特点,获得了基于高频关键词的国内图书情报领域硕士学位论文特点,以及基于聚类共词的国内图书情报领域硕士学位论文特点,通过对研究结果的比较分析,得出了一些有较为充足理由支撑的结论,那就是从中可以较为清晰地得出,当前以及今后一段时期国内图书情报领域硕士学位论文研究的侧重点在于“数字化、信息化、电子化的知识管理与数据信息挖掘”。

参考文献

[1]曾学喜.网络舆情突发事件预警指标体系构建[J].情报理论与实践,2013(11).

[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).

大数据分析论文范文第8篇

关键词:大数据分析 作战指挥 困局 对策

中图分类号:G64 文献标识码:A 文章编号:1674-098X(2015)10(c)-0029-02

目前,很多国家已把大数据上升到国家战略加以推动,夺取“数据主导权”的重要性日益突出。未来影响、决定军事行动的核心是数据。在信息化战场上,不同侦察平台搜集的情报、作战指挥中心的各条指令、作战力量的实时反馈信息等,都是以数据的形式存在并发挥作用,这些数据不仅量很大,而且类型多样,来自多源,且以实时、迭代的方式来实现[1]。正因为如此,数据的积累、数据存储能力、数据分析和处理能力无疑将成为获取战场优势的决定性因素。因此,大数据分析已成作战指挥的核心要素之一。但是,正如条形码的应用存在缺陷一样,最新的大数据分析也可能导致误入歧途[2]。

1 作战指挥中大数据分析的特点与作用

一般来说,大数据具有数据类型多样、数据处理高速、数据规模海量和数据价值密度低等特点[3]。在作战指挥中,从数据到决策的时效性要求高,要求在规定的时限内挖掘出高价值的辅助决策信息,这对其大数据分析提出了严峻挑战。

作战决策是作战指挥的核心,大数据之所以引起作战指挥领域的高度重视,其重要原因在于大数据直接瞄准作战指挥的核心。作战决策过去是科学技术较难渗透的领域,基于指挥员直觉和经验判断的决策模式一直占据主导地位,这也被一些人认为是作战指挥的“软肋”。大数据分析通过创新式挖掘海量数据,形成从数据到决策的快速反应链路,从而构建以诸军兵种、战场环境间数据共享为基础的自主式决策支持系统,化数据优势为决策优势,以技术驱动指挥决策模式的变革。目前,在作战指挥领域,针对作战数据的分析处理能力还很薄弱,加强大数据分析不仅能为作战指挥提供有价值的决策信息,而且有助于快速建立从数据到决策的指挥链路、有效解决指挥信息流通的一些“瓶颈”问题,以确保夺取作战的“数据主导权”。

2 大数据分析在作战指挥中可能存在的困局

在信息化战场上,事物之间的关联性越来越普遍;但许多关联隐藏很深,仅靠直觉和经验判断难以发现。相关关系是大数据分析的核心。一般来说,两种数据的相关关系可通过当一种数据产生变化时引起另一种数据的变化程度来衡量,变化程度越高,说明这两种数据的关联度就越高。大数据分析通过识别有用的关联物来进行分析,关联物数量越多,种类越丰富,分析的综合程度就越高,判断预测的准确性也就越高。在作战指挥领域,大数据分析主要通过对战场大量的、相互关联的终端产生的数据进行相关关系的分析,进而形成判断、得出结论,并做出预测。

然而,在作战指挥中,由于从数据到决策的高时效性和高对抗性,大数据分析可能存在以下困局:

由于全样本数据需要更多的时间去分析,采用全样本数据分析有时难以满足作战决策的高时效性要求[4];此外,作战数据难免会包含一些不良信息;因此,如何动态地组织数据样本既使其数据价值密度提升又使其分析能满足作战决策的时效性要求是一个十分棘手的问题。

大数据样本不仅耗费更多的时间去分析,它们往往还包含所含个体的许多不同信息,从统计学的角度讲,这意味着这些样本是“高维的”,而更多的维度增加了获得欺骗性关联的风险。在作战指挥中,一旦大数据分析得出的分析结论包含了欺骗性关联的信息,可能给作战决策造成严重的不利影响,而发现欺骗性关联绝非易事。因此,防范欺骗性关联是作战指挥中大数据分析面临的一个难点问题。

上述两个问题是作战指挥中大数据分析迫切需要解决的问题,否则作战指挥中大数据分析的可靠性难免将遭受质疑。

3 破解作战指挥中大数据分析困局的对策

作战指挥产生大量、异质结构的数据集,为了提高大数据分析的时效性,应在作战决策知识情景库的引导下动态地组织样本数据集。作战决策知识情景库应该包含战场态势的框架性信息。一般来说,为便于激活数据关联,作战决策知识情景库包括主题关键词表、子主题关键词表和配属关键词表。一个主题关键词代表战场情况的一个重要方面,它对应若干子主题关键词,而一个子主题关键词又对应若干配属关键词,配属关键词通常代表局部的细节。对作战决策来说,一条高价值的预测结论通常有一个主题,并且还与其它主题相关;因此,用于分析的样本数据集应包含与所涉及主题所有配属关键词相关的数据,并过滤掉失效或虚假的信息。作战决策知识情景库既是动态组织样本数据集的牵引,也为样本数据集的数据挖掘提供了导向性信息[5]。利用作战决策知识情景库动态组织样本数据集提高了数据质量和整体一致性,避免了无关数据的干扰,无疑使数据分析更有针对性,也更有效率。

在作战指挥的大数据分析中,为了避免分析结论包含欺骗性关联的情况发生,需要对分析结论进行检验,以证实结论中每一项关联的真实性。竞争假设分析法是一个有效的证伪方法,它将结论中每一项关联看作一个假设,平等地对待各个假设,通过寻找证据反驳假设的方法来识别假设,只有不能被驳倒的假设才被接受是真实的。竞争假设分析比较适合用于对分析结论进行检验[5]。客观地说,利用竞争假设分析法对大数据分析结论进行检验需要建立相应的评判标准、规则和知识库,并设计相应的数据挖掘算法;这本身就是一项具有挑战性的工作。值得强调的是,对分析结论中的关联进行识别不仅能有效防范因数据的多维度产生欺骗性关联的风险,而且能避免因过度关注某一类数据(如最新的数据)而陷入“一维”视角。对作战指挥的大数据分析而言,对分析结论进行检验无疑会提高其质量,也是其不可缺少的一部分。

4 结语

在信息化战争中,指挥人员可以有效利用大数据探寻信息化战争的内在规律,而不是“淹没”在海量数据中一筹莫展。因此,大数据分析在作战指挥中的作用越来越突出。为了快速为作战决策提供高价值的情报,大数据分析必须解决动态组织样本数据和对分析结论进行检验的难题。当前,作战指挥领域大数据分析的研究方兴未艾,有许多难题尚待解决。面对诸多困难与挑战,只有调动多方力量,充分吸收并借鉴各相关领域研究的方法或成果,勇于探索和创新,才能实现大数据分析有效服务于作战指挥的目标。

参考文献

[1] 张元涛,郭武君.大数据与作战指挥发展[J].国防大学学报.2014(8):68-70.

[2] David Meer.跳出大数据分析误区[J].董事会,2013(1):91-92.

[3] 张春磊,杨小牛.大数据分析(BDA)及其在情报领域的应用[J].中国电子科学研究院学报,2013,8(1):18-22.

大数据分析论文范文第9篇

关键词 Meta-分析 网络灰色文献 发表偏倚

分类号 G253

DOI 10.16603/j.issn1002-1027.2016.04.008

1 灰色文献的内涵

灰色文献(Grey Literature,Gray Literature,简称GL),是相对于白色文献和黑色文献而言的,它介于白、黑文献之间,是指不具有国内统一刊号(CN)或国际标准刊号(ISSN)的文献。1997年在卢森堡召开的“第三届国际灰色文献会议”,赋予灰色文献的定义是:灰色文献是指出版商不以营利为目的,由各级政府部门、学术机构、工商业界等所推出的各类电子和印刷形式的资料。目前,灰色文献的“卢森堡定义”已被广泛接受。

灰色文献主要包括政府报告与文件、技术档案(技术规范、标准和工具手册等)、科研数据、科技报告、调查报告、政策文件、内部刊物、私人信件等。有的灰色文献属于内部发行,未公开发表的研究结果和数据也被认为是灰色文献。灰色文献具有出版灵活,内容丰富,分布广泛、分散,不定期、半公开出版等特点。在当今网络时代下,互联网是推出和获取灰色文献的一个重要的、广泛利用的平台,例如博客、微博、电子出版物、开放获取和数字文档等,称为网络灰色文献(以下简称e-GL)。网络灰色文献相对印刷型灰色文献而言,具有便利、检索快捷、内容丰富、信息量大等特点。灰色文献晦涩难懂、类型繁多、涵盖面广,而且缺乏书目控制,流通面窄,发行和收集也缺乏系统化手段,质量审核和生产标准也各不相同,往往难以获取、访问和评估。

灰色文献是科学研究的重要信息源,是最原始的、第一手的信息,是信息时代推动科学研究、经济发展以及社会文明进步不可缺少的重要信息资源。其相对重要性很大程度上取决于学科的研究方式及其对资源的需求。例如,医学就需要大量灰色文献,灰色文献可为医学政策的制定和医学研究提供珍贵信息。临床实践指南、医学研究报告、医疗项目评估材料、医疗法规等,都属于灰色文献,可以为医务工作者和临床决策提供宝贵的、客观的、全面的信息资源。

2 Meta-分析的内涵

Meta-分析(Meta-analysis),又称汇总分析、荟萃分析,是以同一课题的多项独立研究的结果为研究对象,在严格设计的基础上,运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析,Meta-分析是一种定量合成的统计学方法。

Meta-分析的步骤是:提出研究问题、检索相关文献、提取数据、选择并且合并效应量、进行异质性分析、进行敏感性分析和进行发表偏倚分析等。在“检索相关文献”阶段,包括制定检索策略,全面、广泛地收集与研究对象相关的随机对照试验(Ran-domized Controlled Trial,简称RCT)的所有文献。对于研究数据的全面性和准确性要求较高。

3 常用适于Meta-分析的网络灰色文献资源分布

近年来,国外专门从事灰色文献研究与开发的机构纷纷成立,尤其是欧美国家。Meta-分析中的e-GL可以提供最原始的文献,是重要的、珍贵的信息源,可以拓宽研究的视野,为Meta-分析提供更完善、更全面、更客观的证据,为各种决策提供帮助和参考。

3.1 国内适于Meta-分析的e-GL资源分布

适于Meta-分析的e-GL可以通过综合性搜索引擎的学术搜索来进行筛选、获取,比如:必应学术搜索(http:///academic)、百度学术搜索(http:///)、谷粉搜搜(ht-tp:///)、谷歌学术搜索(http://scholar.google.corn/)等。

国内至今还没有专门检索灰色文献的数据库或网站,更没有专门检索用于Meta-分析的e-GL数据库或网站,用于Meta-分析的e-GL可以通过检索国内循证医学的相关网站来获取,比如:中国cochrane中心(http:///)、中国临床试验注册中心(http://.cn);通过天津中医药大学、北京大学、复旦大学、兰州大学等循证医学中心网站,也可以获取适于Meta-分析的e-GL。

2015年12月25日,北京大学开放研究数据平台测试版(简称北大数据平台)上线运行。提供研究数据的保存、管理与、共享、下载等服务。开创了国内获取科研数据中的灰色文献的先河。通过综合性搜索引擎的学术搜索服务,来检索适于Me-ta-分析的e-GL,不够系统、全面,检索效果也不是很理想。此外,也可以通过某些博客或微博、微信等来获取灰色文献,但是通过这些方式获取灰色文献的难度较大,可靠性也有待考证。

3.2 国外适于Meta-分析的e-GL资源分布

国外拥有比较成熟的灰色文献管理和服务体系,主要分布在欧美国家。

3.2.1 国外重要的e-GL

国外常用的灰色文献网站主要有(详见表1):

(1)国际灰色文献(GreyNet International,简称GreyNet),或灰色文献网络服务组织(Grey Litera-ture Network Service),成立于1992年,致力于网络灰色文献的研究、出版、开放获取,是国际灰色文献研究的权威机构。GreyNet网站的主页上,点击“OpenGrey Repository”链接,进入Open Grey检索界面。

(2)欧洲灰色文献信息系统(SIGLE)

目前在灰色文献的开发与利用方面,以欧洲灰色文献利用协会(European Association for GreyLiterature Exploitation,简称EAGLE)推动的合作计划“欧洲灰色文献信息系统”(OpenGrey Reposi-tory-System for Information on Grey Literaturein Europe,简称SIGLE)最为重要。SIGLE始建于1980年,由法国提议,共有17个成员国,均是重要的情报中心或文献提供中心。截至2005年2月,SIGLE的书目数据库共有85.5万条记录,年增6万条,月更新。SIGLE和GreyNet都收集自然科学、社会科学及工程技术等领域的灰色文献。

(3)欧洲灰色文献信息系统(Open Grey,简称OG),是由欧洲推出的包括70万条灰色文献的参考书目数据库,通过开放获取的形式,用户可以查找文献并导出记录。系统涵盖科技、生物医学、经济学和人文社科等学科。收录技术报告、研究报告、博士学位论文、会议论文、政府出版物和其他类型的灰色文献。该网站包括GreyNet会议文献的全文预印本,是SIGLE开放存取的窗口。

另外,还有其他常用的灰色文献网站:美国国家技术研究报告(National Technical InformationService,简称NTIS);不列颠图书馆(The British Li-brary,http://WWW.b1.uk/)等,通过上述这些灰色文献网站,可以筛选出适于Meta-分析的e-GL。还有其他一些免费提供全文的网站,如:DOAJ(ht-tps:///)和PLOS等,也可以检索到灰色文献(详见表2)。

3.2.2 国外重要的适于Meta-分析的e-GL网站

检索国外适于Meta-分析的灰色文献网络资源,可通过医学灰色文献网站和循证医学网络资源来挖掘(详见表3和表4)。

4 灰色文献对Meta-分析结果的影响及对策

决策需要考虑多种影响因素:出版语种、出版状况、出版质量和个性化研究水平等。关于出版状况方面,需要考虑的主要因素是纳入灰色文献(例如,未公开发表的研究,或发表受限、内部交流和/或不列入书目检索系统的文献)。

4.1 纳入灰色文献,减少Meta-分析的发表偏倚

Meta-分析中,阳性结果的论文(结果具有统计学意义的研究,P0.05)更容易被接受和发表,阳性结果的论文被引频次也高于阴性结果的论文。总之,阳性的Meta-分析结果比阴性的更容易发表,这种现象称为发表偏倚。发表偏倚的存在可能会影响数据的可用性和可信度,严重地威胁Me-ta-分析的有效性。发表偏倚所带来的直接后果是对现有的研究进行过度评价,使得Meta-分析的阳性研究结果过分夸大,或者夸大危险因素的强度,甚至得到相反的结论。

发表偏倚对Meta-分析结果的真实性、全面性和可靠性的影响正越来越受到关注与重视,纳入了灰色文献的Meta-分析可能有助于克服发表偏倚的一系列问题,为解决这些问题提供更全面和客观的参考。然而,Meta-分析所纳入的灰色文献,大部分都局限在正式发表的范围,许多有意义的灰色文献因未正式发表、未公开出版而被忽略,这样就存在结论偏倚的风险,甚至可能会改变整体的结论。据报道,已经发表了的采用Meta-分析的文献只有31%包括了灰色文献。69%的灰色文献被排除在Meta-分析之外。积极鼓励和指导研究者采用灰色文献,对减少Meta-分析的发表偏倚尤为重要。当具有某种学科特色的灰色文献数据库或研究数据管理系统建立之后,要利用尽可能多的途径加强宣传,积极动员相关领域的研究者试用,使用户了解、熟悉、掌握乃至喜欢并主动推广这些灰色文献数据库和研究数据管理系统。应关注用户的使用感受,根据他们反馈的意见逐步完善数据库及其检索系统,使数据库更加适合用户使用。

4.2 建立灰色文献数据库,增加Meta-分析的文献完整度

Meta-分析结果的影响因素是多元化的,其中一个重要因素是未能全面广泛地收集与课题相关的RCT。Meta-分析有个重要步骤是“提取数据”,其中包括RCT原始实验的各种数据结果、图表等。Me-ta-分析的结果高度依赖这些基础数据,这就要求Meta-分析的研究者要尽可能多地获取相关研究的RCT实验数据,以便进行准确、全面、客观的统计分析。目前一些健康研究的证据也支持这个观点,这表明如果Meta-分析忽略未公开发表的研究,可能会夸大治疗效果。但是一般情况下,研究者所获得的是已经公开发表的论文数据,还有许多实验数据处于半公开或未公开状态。最佳的检索策略是结合异构数据库检索平台,提高收集数据的完整性。与课题相关的灰色文献的缺失始终是课题研究的缺憾,这与灰色文献的流通面窄、分散,难以收集、管理、检索等因素有关。由于灰色文献的不易获得性,给图书馆提供了针对灰色文献进行研究数据管理的契机。图书馆应该发挥文献资源管理方面的优势,结合本校优势学科或本地的区域特色,收集科研人员,特别是知名专家的灰色文献。应多方面与研究专家积极沟通,采取捐赠、购买、代藏、版权合作等方式收集特色学科的研究资料,建立特色数据库或科研数据管理系统。图书馆可以从建立本校科研人员的特色研究数据管理系统入手,逐步扩展到联合其他同类高校图书馆建立联合特色研究数据管理系统,为广大研究人员服务。为研究人员做Meta-分析的时候提供这些灰色文献的研究数据,能进一步提高Meta-分析的研究质量,增加Meta-分析所需文献的完整度。

5 结论

大数据分析论文范文第10篇

关键词 情境认知 数据分析 教学探究 分析方法

中图分类号:G424 文献标识码:A

在传统的数据分析教学研究中,人们总是试图走通两条道路,一条是做好理论假设,带着理论去研究实践;另一条是从大量的实践研究中提升理论。结果往往是走第一条路的研究者将实践“形式化”、“刻板化”;而走第二条路的研究者则往往将教育研究“简约化”,从一线实践中获得的丰富经验非但没有上升到理论,反而在理论“提升”的过程中将大量的“经验”过滤掉了。数据分析课程教学是建立在数学学科基础上的,整个教学过程就是学生在一个“宏情境”中,独立地识别问题、提出问题、解决真实与复杂的数学问题的全过程。无论是教师在课堂中的角色、课堂中教学策略的运用、数学学习与其它学科的整合,还是学生所要解决问题设计的层次性,都具有较强的科学性和目的性。情境认知学习理论是20 世纪80年代中后期形成的重要的学习理论,上世纪90年代之后,情境认知理论开始渗透到教育研究的各个领域。情境认知学习理论认为,学习的实质是个体参与实践并与他人、环境等相互作用的过程,是个体形成实践活动的能力、提高社会水平的过程。①国内外学者对情境认知与学习的教学模式的研究硕果累累,可对在数据分析课程中运用的研究目前作者没有看到相关的文献。基于数据分析课堂教学的本质特点,我们的课堂教学研究如何做?如何使情境认知学习的教学模式研究真正走进数据分析课程教学?围绕这些问题,笔者从下面五个方面来探究数据分析的教学过程。

1 选取经典案例,引起学生对数据来源与背景分析的重视

数据不等于数字,数据是具有内涵的数字,它隐含着人们事先不知道但又有用的信息。作为一个数据分析学习者,解决问题的时候必须考虑数据的来源与背景,下面的故事充分说明了数据来源的重要性(读者.2005.22)。一天,乔治在删除垃圾电子邮件时发现了一个标题:惊人的足球杯预测。他好奇地打开了它:亲爱的球迷,我们的统计学家已经设计出了准确预测足球比赛的方法,今晚英国足球杯第三场比赛是考文垂队对谢菲尔队,我们以0.95的概率预测考文垂队获胜。乔治看后一笑。晚上考文垂队果然获胜。三周后乔治又收到了那人的邮件:上次我们成功地预测了考文垂队获胜,今天考文垂队要和米德尔斯堡队相遇了,我们以0.95的概率预测米德尔斯堡队获胜。考文垂队强于对手,那天晚上却发挥不好,双方打成平手,但在加时赛上米德尔斯堡队奇迹般地获胜了,乔治心中一震。一周后,那人的电子邮件预测米德尔斯堡队将败给特伦米尔队,结果果然如此。接下来的四分之一决赛前,那人的邮件预测特伦米尔队胜陶顿亨队,结果也是如此,四次预测都成功了,乔治大吃一惊。乔治再次收到电子邮件:现在你大概知道了我们的确能够预测比赛的结果,实际上我们买断了一位统计学家的研究专利,能够以0.95的概率预测足球比赛的正确结果。今晚的半决赛中,我们以0.95的概率预测阿森那队打败伊普斯维尔队。晚上阿森那队在比分落后的情况下分歧直追,最终获胜。第二天,电子邮件又来了:我们已经五次预测成功,现在希望和你做一笔交易,你支付200磅,把一个月内所关心的比赛和球队告诉我们,我们将以0.95的概率为你预测胜负。200磅不是小数目,但是如果能预知结果,就可以从商手中赚回20万。乔治心中盘算:如果发邮件的人只是猜测胜负,则5次都猜对的概率仅为2-5 = 0.0313,于是以0.9687的概率否定他是在猜测,于是支付了200磅。实际上这些骗子先发出8000封电子邮件,一半预测甲胜,一半预测乙胜,于是有4000人得到正确的预测,第二次只给上次得到成功预测的4000人的发电子邮件,依次类推,五次预测以后得到8000/25 = 32人,如果这250人中有100人付钱,就可以骗到20000磅,乔治就是其中一个。

关于美国选举的例子:谁会在1936选举中获胜,兰登还是罗斯福?《文学文摘》送出一千万份问卷(返回二百四十万份)后,预测兰登会赢;而盖洛普只问了五千人说罗斯福会赢。最后罗斯福和盖洛普赢了,《文学文摘》倒闭了。为什么出现这样的结果,究其根源在于数据的来源。通过类似这些情境的设置,使学生意识到要想准确地进行数据分析,必须重视数据的来源与背景。②

2 讲解各种数据分析方法时要提供丰富的有意义的情境

学习的情境对提高知识的迁移非常重要,研究表明:复合而丰富的学习情境更有利于学习迁移的产生。在单一情境中被传授的知识与在复合情境中被传授的知识相比不利于产生灵活迁移。在复合情境中,学生更有可能去概括方法的相关特征,形成对知识更灵活的表征。然而当一个问题是在复合的情境中讲授,并带有演示其广泛应用的例子时,人们就更有可能分离出方法的相关特征,并形成知识的灵活表征。③比如在讲解主成分分析时可以举例:如何理解不同机构得出的大学排名结果?如何对学生成绩进行综合评价?如何理解各地的经济排名等等。从而引申出主成分分析是在降维的思想下产生的处理高维数据的统计方法。通过构造原变量的适当的线性组合提取不同信息,主成分分析着眼于考虑变量的“分散性”信息。再比如,在讲解判别分析时可以举例:信用问题中,如何根据公司的财务和商业资料来判断一个公司的信用等级?工业中,如何根据产品的一些测量指标判别产品的质量等级?经济学中,如何根据人均国民收入判断一个国家的经济发展程度?医学诊断中,如何根据病人的化验结果和病情征兆判断病人患哪种疾病?气象学中,如何根据已有的气象资料判断未来的天气情况?地质勘探中,如何根据地质结构、化探和物探的各项指标来判断该地的矿物类型等等。从而引申出判别分析处理的问题往往包含较大量的数据资料,且其数量指标往往是多元的。判别分析是一种有效的多元数据分析方法,它能科学地判断样品的类型,在纷繁的数据中揭示内在的规律,使人们对所研究的问题做出正确的判断。④在生产、科研和日常生活中,我们经常会遇到各种各样的问题,这为各种数据分析方法提供了丰富的情境,在课堂教学中要加强情境的供应。

3 理论方法的讲解要与情境认知有机结合起来

理论与应用并重,既要重视理论方法,也要重视应用模型解决实际问题。如何由情境问题恰当地归纳出数据分析的理论方法,再将数据分析方法正确地应用到实际中,是我们教学中必须高度重视的问题。对于理论方法,重点是思路,同时要注意各种分析方法的相互关系及综合运用。比如相关分析和回归分析是研究现象之间相关关系的两种基本方法。所谓相关分析,就是用一个指标来表明现象间关系相互依存的密切程度,相关是解决客观事物或现象相互关系密切程度的问题,回归则是用函数的形式表示出因果关系。在医学上,许多现象之间都存在着相互联系,例如身高与体重、体温与脉搏、年龄与血压、钉螺与血吸虫感染等。而有些事物的关系是互为因果的,如上述钉螺是因,感染血吸虫是果;但有时因果不清,只是伴随关系。例如父母的兄弟,兄高,弟也可能高,但不能说兄是因、弟是果,这里不是因果关系,而可能与社会条件、家庭经济、营养、遗传等因素有关。

4 将情境认知教学模式运用到软件教学中去

数据分析这门课程除了要让学生掌握必要的理论知识外,还要培养他们运用相关软件在计算机上进行统计分析的能力。数据分析涉及大量数据的处理工作,需要借助统计软件完成,学软件的最好方式是在使用中学。2013年10月我院学生赴上海参加了“2013年中国高校SAS数据分析大赛”上海赛区的初赛,这次比赛充分带动了学生学习的积极性,比赛所起到的推动作用远远高于一般实验所起的作用,所以我们通过缩减验证性实验次数,增加综合性实验次数,给学生一些与实际生活密切相关的问题,让学生自己去面对问题,包括数据搜集、数据处理、数据分析、图表分析、问题结论分析等内容,进行实验教学改革。实验结束后通过班级比赛、院系比赛、学校比赛、全国比赛层层选拔的方式,激励学生学习及检查学生学习的效果,使学生意识到自己的不足,查漏补缺,从而带动学生学习的积极性。通过这种教与练相结合的方式,学生不仅能较好地掌握各种数据分析方法的分析过程,加深对基本理论的理解,还增强了学习的兴趣、信心和分析解决问题的能力。

5 将情境认知教学贯穿于输出结果的分析与解释中

情境认知教学模式要求学生在教师的指导下,通过自己的努力发现问题、分析问题和解决问题,这个过程不仅是知识的运用, 更主要的是能力的培养, 要学会分析问题的思路和解决问题的方法。学生在教学过程中的角色也要从听话转变为对话,这种转变对于学生探究意识和创新能力的培养是非常有利的。在数据分析课程中,理论知识的传授和实验能力的培养归根到底都是为了解决实际问题,各种软件输出的结果只能是数字或图表,要想解决实际问题,学生必须对输出结果进行分析、解释,因此必须培养学生合理解释所得到结果的能力。为了培养学生的这种能力,教学中我们经常组织学生进行讨论,比如在对主成分分析的结果进行解释时,首先从学生关心的问题开始,让他们对输出结果进行讨论,在引起学生兴趣的同时加强输出结果模式的解释,在其间采用引导、启发的教学方式让学生的思考逐步向准确答案靠近,然后逐步转向理论化的问题。通过课堂讨论不仅可以调动学生的思维,活跃课堂气氛,而且可以在潜移默化中培养学生对所得数据结果进行合理解释的能力。⑤

情境认知教学模式对培养学生的综合能力、形成理论与实践相结合的知识结构具有非常重要的作用。因此在数据分析课程的教学中要充分运用情境认知教学模式,在真实、互动的情境中学习,必定比传统的课堂教学来得生动有趣,而且能灵活应用。

注释

①③王文静.基于情境认知与学习的教学模式研究[D].华东师范大学,2002.

② 黄奇杰,蔡罕.社会调查方法概论[M].杭州:浙江大学出版社,2007.8.

大数据分析论文范文第11篇

[关键词]数字化参考咨询;引文分析;统计分析

引言

数字化参考咨询又称虚拟参考咨询或实时参考咨询。主要负责解答读者在利用图书馆过程中产生的各种问题,内容涉及馆藏资源及其利用、文献查找途径及查找中遇到的问题、图书馆的各项服务与规则等等,目的在于帮助读者更有效地利用图书馆[1]。所谓引文分析(citationanalysis),就是引用各种数学及统计学的方法以及比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用现象进行分析,以便揭示其数量特征和内在规律的一种文献计量方法[2]。通过引文分析的方法,从定量分析的角度能对我国数字化参考咨询研究中的引用或被引用现象进行分析,进而了解科研成果的交流规律与价值以及发现研究中存在的不足。

一、引文数据来源

本文以CSSCI数据库为数据源,以CSSCI收录的图书情报专业核心期刊为检索范围,以检索式“KW=数字化参考咨询”作为检索入口,对2003―2010年发表的相关论文进行检索,排除其中重复和关系不密切的论文共获得源文献126篇,引文1041条;被引篇数142篇,总被引351次。利用SPSSStatistics与Excel对引文的引文量等分析下文将对统计分析进行详细阐述。

二、统计分析

1.引文量分析

引文量分析是根据来源论文参考文献的平均数量进行文献分析,是表征学科交流与文献利用程度的重要参数,通过研究数字化参考咨询研究领域的引文量分布特征,可了解此领域著者利用文献与吸收信息能力及发展现状。引文量统计如表1所示:

根据表1和图1可以看出,2003至2004年这一时期是“数字化参考咨询”兴起初期;自2005年至2007年,“数字化参考咨询”发文量逐年增加,同时引文量及篇均引文量也是逐年增加,且呈现出周期性增长;自2004年起,英文引文量和篇均英文引文量大幅度增加,但随后却呈现出周期性波动。

除此之外,根据引文数量和发文数量的相关数据我们可以计算出“数字化参考咨询”类的文献老化系数,即普莱斯指数为0.627,篇均引文量为8.26,篇均被引次数为2.79。

根据对数据的描述,可归纳结论如下:(1)自2004年以来,对数字化参考咨询的研究越来越频繁,2005至2007年为数字参考咨询研究的热门期,07年至今研究热度有所下降。(2)对外文资料的研究仍踏步不前,篇均英文引文量相对较少,波动幅度较大,说明我国研究学者获取其他语种专业信息能力较低,同时说明我国该领域研究人员的英语水平较高,能够掌握和利用英文研究成果,及时捕获最新国际研究动态。(3)引文量呈周期性波动下降,篇均引文量8.26条这一数值低于我国科学论文8.86条的平均引文量,与国际科技论文平均引文量15条相比仍有较大差距[2],说明研究人员吸收、利用文献信息的意识和能力仍有挖掘潜力。

2.数字化参考咨询存在的问题

通过以上分析,我们大致可以了解2003―20110年我国数字化参考咨询研究的现状:我国数字化参考咨询研究经过2005年的高潮后逐渐走向稳步发展态势,但此后却逐年减缓,不排除2010年资料统计不全的状况,但同时我国数字化参考咨询研究仍存在一些问题,主要表现在:①我国数字化参考咨询研究仍处于初级阶段,对数字化参考咨询的称谓、学科范围仍存在争议,这不利于数字化参考咨询研究的稳定发展,容易造成学科建设上的混乱;②数字化参考咨询研究者获取英文之外的外文文献能力差,需要加强其他外语语种学习。

三、建议

1.加强数字化参考咨询的基础理论研究

理论研究是应用研究的基础,对应用研究具有指导作用?3?。我国数字化参考咨询理论研究尚处在初级阶段,制约着我国数字化参考咨询的理论发展和实践工作。因此,加强基础理论的研究具有至关重要的作用。

2.加强数字化参考咨询的应用技术研究

数字化参考咨询是以网络为平台的参考咨询服务模式,网络技术在数字化参考咨询中扮演着不可或缺的角色,一个好的数字化咨询平台应包括如下功能:(1)建立能解答各种问题的知识库,这是用户在求助于参考馆员之前自行查找答案和参考馆员提供参考服务的重要资源。(2)建立通畅的网上聊天和邮件传送功能,这是解决咨询问题的重要手段。(3)数据记录与统计报告。能够知道系统如何被使用,利用模式,评价整个系统的效益?4?。加强数字化参考咨询的应用技术研究有助于实现理论与实践相结合,也有助于扩展理论研究度和广度。

参考文献:

大数据分析论文范文第12篇

关键词:统计测度;统计学;大数据;数据科学;

作者简介:李金昌,男,50岁,浙江义乌人。浙江财经大学校长,统计学教授,博士生导师。研究方向为经济统计学,统计理论与方法,抽样技术,政府统计等。

最近两年,统计学界对大数据问题所进行的理论探讨逐渐增多,视角也各有千秋,引起了一些共鸣。围绕大数据问题,由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题,因此远未达到对其有一个系统完整的认识,仍然需要从不同的方面加以研究,其中有一个重要但又容易被忽视的问题,即统计测度问题,值得去探讨。

一、什么是统计测度

汉语上,测度是指猜测、揣度、估计。数学上,测度是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。通俗地说,测度把每个集合映射到非负实数来规定这个集合的大小:空集的测度是0;集合变大时测度至少不会减小(因为要加上变大的部分的测度,而它是非负的)。

除了数学角度的测度论,查阅国内文献资料,带有测度这个词汇的文献不少,但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献,例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等,所做的测度都是再测度,均不对测度本身进行讨论。查阅国外文献资料(关键词:measurement),也同样存在这样的问题,只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为,在我们对事物或现象进行描述时,测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为,如果按照极端的观点,那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出,测度在那些原来尚未得到卓有成效或广泛应用的领域,也已取得了明显的进步,社会、政治、经济和行为科学正在更大程度地利用定量技术;测度是现代思维的一种实际有效的工具,是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为,用以表示测度结果的,是数字或者数字符号。LucaMari(2013)[5]认为,测度的基础特征是被公认为世界上获取并正式表达信息的基本方法,这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出,在自然科学技术中,测度的重要性不可否认,它是科学调查和发现必不可少的工具,它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。

那么,到底什么是统计测度呢?目前没有一个统一的定义。本文认为,统计测度具有不同于测度的意义,并且大大超越数学上的界定,即它具有数学定义的一般属性,但又不受制于函数表现形式,因为统计测度所要面对的是现实世界,实际问题要比理论上可以定义的问题复杂得多。按照我们的理解,统计测度就是用一定的符号和数字,用一定的形式和载体,对所研究的现象或事物的特征进行量化反映,表现为可用于统计分析的数据的过程。它应该具有这样一些属性:以实际现象为测度对象,测度结果具有实际意义;以量化为目的,把信息转化为数量,提供人们容易理解的定量结论;个体特征的测度符合形成总体定量结论的要求,同时能够体现个体差异。可以发现,统计测度需要借用数学工具,但更重要的是对具体测度现象本质特征的认识和掌握。

统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中,从边界的角度对宏观测度进行了分类:一是因事物本身可测度性而形成的边界,即本体论意义上的测度边界;再一是由人的认知能力而形成的边界,即认识论意义上的测度边界;第三则是由统计相关性偏好和投入约束而形成的边界,即操作意义上的测度边界。这三条测度边界,应该以本体论意义的测度边界最大,认识论意义的测度边界次之,而操作意义的测度边界最小。这样的分类,对于我们正确理解统计测度的内涵很有帮助。受此启发,笔者认为统计测度还可以有如下分类:

1.从测度的实现形式看,可以分为原始测度和再测度。原始测度也可以称为直接测度,它通过对测度对象进行直接测度来获取数据,例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据,以及各种登记、记录的原始数据等等。再测度也称为间接测度,它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据,例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具,因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看,原始测度是基础,是根本,没有科学的原始测度就不会有可靠的再测度;再测度则是测度功能提升的必然要求,以解决原始测度不能解决的问题。

2.从测度的计量方式看,可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度,例如人口规模、企业数量等的测度,采用自然计量单位;物理测度是利用现象的物理属性所进行的一种统计测度,例如公路长度、作物播种面积、天然气产量等的测度,采用物理计量单位;化学测度是利用现象的化学属性所进行的一种统计测度,例如医学、生物学中化学合成物的成分结构测度,采用百分数、千分数或特定标识为计量单位;时间测度是利用现象的时间属性所进行的一种统计测度,例如劳动用工、闲暇时间等测度,采用时间计量单位;价值测度是利用现象的价值属性所进行的一种统计测度,例如劳动报酬、经济活动成果等测度,采用货币计量单位。在这些测度计量方式中,价值测度因最具有综合功能而应用最为广泛。

3.从测度的方法看,可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法,最为简单,一般用于自然测度或时间测度;测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法,一般用于物理测度或化学测度;实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法,一般与测量测度相结合,用于获取科学研究数据;定义测度也可以称之为指标测度,是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法,最常用于价值测度,也用于其他形式的测度。可以说,定义测度方法应用最为广泛,但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律,通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度,定义测度既可能是直接测度、也可能是间接测度,而模型测度都属于间接测度方法。

4.从测度的维度看,可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度,获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度,测度过程中可能需要采用多种测度方法和计量方式,例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然,单一测度是多维测度的基础。

二、统计测度是统计学的立足之本

首先,从统计学的发展历史看,是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学?正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算,得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”,这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词,但却道出了测度的本质,即让事物变得明白、变得有根据,因为“数字、重量和尺度”就是测度、就是根据,用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想,尽管测度的方式方法还很简单。相反,国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词,但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说:“在配第之前,统计学的研究对象虽然是国家的态势,但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期,人类才想到了要测度它,并发明了如何测度的基本方法。政治算术,即开创期的经济统计学,实现了从无到有的转变,大大扩展了宏观测度的认识论边界,因而才具有了统计学范式创新的革命性意义。”同样,格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作,无论是原始测度还是再测度,都给后人留下了宝贵的财富。之后,统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9],对数据的变化与统计分析方法的发展进行了粗浅的归纳,其主题实际上就是统计测度问题。

其次,从统计学的研究对象上看,统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面,或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来?从统计测度中来。数据不同于数字,数字是统计测度的符号,数据是统计测度的结果,这也正是统计学区别于数学之处。所以说,数据的本质问题就是统计测度问题,故此统计测度是统计学的基本问题。这里重点讨论两个问题:一是统计测度与统计指标的关系,二是统计测度面临的新问题。关于第一个问题,本文认为统计测度与统计指标是一个事物的两个方面,这个事物就是数据。统计指标法是统计学的基本方法之一,尽管前面对统计测度从方式方法上进行了分类,但从广义上说所有统计测度都是定义测度,都表现为指标。也就是说,任何统计测度———不论是直接测度还是间接测度,最终目的是获得能够让人明白的数据,而表现数据的最主要形式就是统计指标,其他表现数据的形式都是派生出来的。所以,统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题,与后文所要论及的大数据有关,就是定性测度问题。在统计学中,数据可以分为两类———定性数据与定量数据,其中定性数据又包括定类数据与定序数据两种,它们属于非结构化或半结构化数据。相应地,统计测度也可分为定性测度与定量测度。很显然,只有定性测度与定量测度方法得到同步发展,统计学才能更加完善。总体上看,定量数据的统计测度已经比较完善,但定性数据的统计测度还有很多问题尚待解决,难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少,但还没有从理论方法上建立起定性数据统计测度的体系,因此统计学在这方面的任务依然很重。

第三,从统计学的永恒主题看,通过科学的数据分析、得出有效的结论是其不变的追求,而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息,即发现数据背后的数据,让数据再生数据,从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外,更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现,这种数据分析的过程,就是不断进行各种统计测度的过程,所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果,或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字),只要有数据分析,都是如此。可以说,统计测度贯穿于统计数据分析的全过程。但是,为什么很多统计数据分析并没有得出有效的结论呢?本文认为原因就出在统计测度上,尤其是没有首先解决好原始统计测度问题。应该说,围绕数据分析已经建立起一整套比较完整的统计方法体系,很多方法也都身经百战、行之有效,但一旦原始统计测度有问题、数据不准确或不真实,那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献,其重点均在于构建什么样的模型或运用什么样的方法,虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题,但并不是系统地从测度的角度进行阐述,因此所用的模型越来越复杂,但所得的结论却离实际情况越来越远。学界总是有这样一种观念:变量越多、符号越新奇、模型越复杂的文章才越有水平,似乎这样分析所得的结论才越可靠。殊不知,不以科学可靠的原始统计测度为基础,任何数据分析都会成为无源之水、无本之木,所得的结论也只是更精确的错误而已。本文认为,任何脱离科学统计测度的统计分析都是毫无意义的,充其量是一种数字游戏而已。应该树立这样一种观念:科学的统计数据分析首先取决于科学的统计测度,而不是首先取决于什么样的分析模型,虽然模型也很重要。这也再一次证明,统计测度问题是统计学的根本问题。其实,归根结底看,在统计数据分析过程中,每一步分析都以前一步的测度为原始测度,每一步所用的方法都是统计测度方法,因此所有的统计分析方法都是统计测度方法。甚至可以说,统计学方法体系就是统计测度方法体系。

当然,在实际的统计分析中,统计测度往往遇到一些困难,即有些指标数据由于各种原因无法获得,这就不得不采用替代这种途径。例如,绿色GDP核算的概念已经提出很多年,但为什么还没有哪个国家真正公布绿色GDP数据,原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难,其背后存在着一系列有待进一步研究和解决的理论与实践问题,因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性,另一方面说明统计测度替代的无奈性。但是,替代测度必须遵守相应的规则与逻辑,要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得,却随意地、不符合逻辑地进行所谓的替代,结果是最后的结论不知替代成什么样了,很难理解它的意义。关于替代测度的有效性问题,邱东教授[7]已有精辟的论述,在此不再展开讨论。

三、统计测度是数据科学的基础

笼统地讲,数据科学就是以大数据为研究对象的科学,需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据,因此大数据分析仅有统计思维与统计分析方法是不够的,还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来,才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。

首先,大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展,使人类进入大数据时代,也有人说进入到数联网时代,这意味着我们一方面被各种越来越多、越来越复杂的数据所包围,另一方面又被数据中巨大的信息价值所吸引,想从中挖掘出可供决策之用的信息。如何挖掘大数据?人们已经进行了艰苦的探索,发展了很多专门的方法技术,并已尝到了不少甜头,但远未达到充分利用大数据中有效信息的目的,因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域,重点是计算能力与算法研究,而很少从统计学的角度进行有针对的探讨,还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说,计算技术的发展能够解决数据储存与计算的能力问题,算法模型的改进能够解决大数据分析的综合能力问题,那么它们仍然不能解决对谁进行计算与分析的问题,也即从何处着手的问题。无论是传统的结构型数据,还是现在的包含大量非结构型数据的大数据,要对它们进行分析都必须找到正确的切入口,即分析的基本元素是什么,或者说需要测度什么。当然,还有如何测度的问题。然后,才能进行分组、综合和构建模型,否则大数据分析不会达到人们的预期。

其次,大数据之所以催生数据科学,就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题,其中包括统计测度问题,这一点对于非结构化数据尤为突出。实际上,大数据的本质就是非结构化数据,一是体量大、比重高(超过95%),二是变化快、形式多,三是内容杂、不确定。通过各种社交网络、自媒体、富媒体,以及人机对话和机器感应记录等产生的各种非结构化数据,例如各种文字、各种表情符号、各种声音、各种图像,到底表示什么?综合在一起能体现什么规律?如何综合各种信息?存在着大量有待研究的问题。其实,文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式,等)甚至字体大小与颜色,表情类型与偏好,声音高低、频率与情绪,图像颜色等等,都是有特定意义的,即在特定环境条件下的反应。所以,一句话或一段声音的意义并非文字本身的意思,一个表情符号的意义并非符号表征的意思,一个图像的意义并非图像内容与色彩本身的意思,因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等,也是如此。更何况,同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系,既具有个性又具有共性,极其复杂。所以对这样的数据进行分析,首先绝非是计算问题,也不是用什么模型问题,而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题,一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度,这些问题不解决,分析模型也是难以构建的,或者难以得出令人信服的结论。

例如,关于《红楼梦》前80回与后40回是否同一作者的争论,韦博成[10]进行了综合性的比较研究并提出了自己的观点,他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究,但却得出了不同的结论:陈炳藻教授认为前80回与后40回均是曹雪芹所著;陈大康教授认为前80回与后40回为不同人所著;李贤平教授认为前80回是曹雪芹根据《石头记》增删而成,后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外,还有其他一些学者进行过类似的研究,也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论?原因就在于用以分析的关联词不同,即统计测度的切入点不同,当然也有统计方法上的差异,但前者是根本。至少存在几个统计测度上的问题:提取单一维度的关联词还是多维度的关联词?提取什么类型的关联词(例如:关联词是名词、形容词还是动词;是花卉、树木、饮食、医药还是诗词)?这些关联词可以综合为什么样的指标?等等。由此可见,原始统计测度代表着数据分析的方向。

相比《红楼梦》,大数据分析要复杂得多、困难得多。所以,数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外,还需要与行为科学、语言学、社会学、经济学等学科相结合,以便能很好地解决作为数据分析之前提的统计测度问题。

第三,数据科学将进一步拓展统计测度的边界,并提出更高的要求。伴随着人类认识世界的范围的不断拓展,统计测度的范围也不断扩大,从自然现象统计测度到人口现象、经济现象统计测度,再到社会现象、环境现象、政治现象等统计测度,几乎已经渗透到了所有可以想象到的领域。相应地,统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等,2013)[14],意味着统计测度的内容大大增加,原来一些不能测度的数据被纳入到了统计测度的范围,按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大,必须以统计测度能力的提升为前提,即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力,这就必须以科学准确的大数据统计测度为前提,既改变统计思维,又创新统计分析方法,其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据,如果没有更好的统计测度思路与方法,包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等,那么统计学在数据科学发展过程中就难以发挥应有的作用,数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。

综上所述,统计测度的基础性问题从统计学延伸到了数据科学,是两者的共同基础,并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增,亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素,以及这些因素之间的内在联系、外在指标和测度方法,进而研究基于先进计算技术的大数据度量模型,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,建立有效易行的数据表示方法,即科学的统计测度方法,是数据科学必须解决的基础问题之一。

四、创新与完善大数据统计测度方法

如前所述,统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据,统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话:“界限并不表示某一事物的发展到此为止,而是像希腊人所认知的那样,界限是某种事物开始展现的地方”,预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新,统计测度方法的创新促进统计测度边界的拓展,两者相辅相成,共同推动统计学与数据科学的发展。为此,我们要系统梳理统计测度方法的发展历程,面对大数据提出的新挑战,大胆探索统计测度的新思路、新理论和新方法,为数据科学奠定坚实的统计学基础。为此提出如下几点建议:

首先,要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切,既然统计测度的目的是获得客观反映现象本质的数据,那么深入到现象本质、认识和掌握现象的本质,是科学统计测度的关键,也是探求新的统计方法的出发点。换句话说,科学的统计测度方法能够体现出数据的真正意义。例如,要探求社交网络数据的统计分析和测度方法,就必须了解社交网络的产生背景、构成要素、表现形式与基本特征,既要研究它的共性问题,又要研究它的个性问题与差异性,同时还要研究它的变化趋势。只有这样,才能掌握社交网络数据的构成要件或元素,才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如,要分析研究电子商务数据,也必须先弄清楚什么是电子商务,尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等,否则统计测度无从下手或者抓不住要害。同时,作为一个新的研究领域,数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴,因此对相关领域的知识与研究方法的学习十分重要。否则,就会严重扭曲统计测度方法,胡乱设置测度标志,这需要引起高度关注。

其次,要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存,构成了多维的数据空间,里面蕴藏着丰富的信息资源,这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间?怎么进去?又怎么出来?这归根结底还是统计测度方法问题。因此,在开展大数据分析之前,首先要研究大数据的基础性问题,包括大数据的内在机理(包括大数据的演化与传播机制、生命周期),数据科学与社会学、经济学、行为科学等之间的互动机制,以及大数据的结构与效能的规律性等等,为创新统计测度方法提供导向。本文认为,再复杂的数据也有共性,再不确定的数据也有规律,再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数,是开展复杂网络数据分析的基础(李国杰、程学旗,2012)[15];大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律,是找到大数据分析切入口、进而简化大数据表征的前提;大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性),是研究更多的社会网络模型和理解网络瓦解失效原因,理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征),以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等,2013)[16]。也就是说,这些共性、规律和轨迹就是统计测度的主要依据,也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法,其实就是发展和创新大数据统计测度方法。

第三,要紧密结合现代信息技术以完善统计测度方法。复杂、多变和不断涌现的大数据,不仅需要借助现代信息技术(包括硬件与软件)来解决极其复杂的分析计算问题,也需要利用现代信息技术来解决其繁杂多样的统计测度问题。对于大数据,不论是原始统计测度还是再测度,其复杂性或难度都不是传统的结构化数据所能相提并论的,哪怕是基本的关联词计数、分类与汇总,其工作量之大也超乎想象,不借用现代信息技术几乎是不可能完成的。而事实上,有些统计测度的内容与方法本身也是以数据处理能力的提升为前提的。可以说,脱离现代信息技术,人们难以承受大数据的统计测度与分析任务;要把统计测度思想变为可实现的统计测度方法,必须借助现代信息技术。为此,要充分利用各种信息技术和手段,把统计测度与数据清洗相结合、与数据分析模型相结合、与计算方法相结合,努力建立融自动搜索统计测度、动态演化统计测度和自主优选统计测度为一体的大数据统计测度方法体系。

大数据分析论文范文第13篇

关键词 数据挖掘;数据采集;应用

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)102-0222-02

所谓数据挖掘,就是将那些隐含的在数据中的、不能先知以及包含潜在价值的大量信息,从数据中提炼出来以供技术人员参考分析。通过数据挖掘理论所得到的信息,可以为地理信息的测绘提供依据,并且还具有预测和决策的功能。为了能够得到更加精确的信息,我们建立了数据采集平台。数据采集平台侧重于数据的收集,将大量的数据进行有效的汇总,使之转化成有助于测绘地理信息管理和决策的有效信息。我们在实际工作中,常常可以看到,由于对数据没有进行系统科学的分析,使得一些潜在的威胁留在了我们要做的工程中,甚至会为此丧失掉很多利益。如果我们不能够尽力把威胁清除掉,后果可能不堪设想,数据表面,看不出东西(即其隐藏的信息量),绝对是关键所在。因此,我们不仅要做好数据采集工作,更要有效的利用好数据挖掘理论,做好数据分析工作,充分挖掘出这些数据背后所带来的意义。

1数据挖掘的功能

在测绘地理信息技术领域,数据挖掘理论能够将采集的数据转化为我们需要的知识。下面就数据挖掘的功能,并结合其在数据采集中的运用,我概括了几点,主要功能有以下几点:1)聚类功能。即按照数据内在的规则,把数据聚合分类;2)关联分析功能。关联分析是从数据库中发现知识的一类重要方法。当建立在多次检测的基础上的某两个或多个数据之间算出来的数据相似,差异极小的时候, 那么我们就说这些事件之间存在着某种关联, 能够建立起这些关联项的关联规则;3)分类功能。将不同数据按照不同的分类标准进行分类组合;4)偏差检测功能。对那些不常见,极端的特例进行归档分析, 并揭示其发生偏差的原因,以便以后好做调整;5)预测功能。通过数据信息所显示的一些潜在的知识,我们能够做好对未来测绘数据的预测。实践证明,事物的联系是普遍存在的,即数据挖掘的各项功能协调组合,以便发挥更大的作用。数据挖掘通过对数据的总结、分类、聚类和关联等分析, 对采集的数据进行深层次的剖析,把那些潜在的东西给挖掘出来,便于技术人员的管理与预测。

2 “数据挖掘”理论在数据采集平台上的应用基础

2.1数据采集平台的建立

由于科技发展的需要,数据采集平台应势而生。数据采集平台,是一个拥有大量数据的数据库。据最新的统计数据显示,整个平台采集一次便可产生多达50万以上的数据量。数据采集平台最大的作用就是能够产生巨大的数据。

我们知道数据本身就是数据而已,不能够得到对我们有帮助的东西。而数据挖掘理论,基于相应的知识,做出极具准确性的预测性,能够把单纯的数据,通过总结、分类、聚类、偏差检测和关联等功能可以把那些分散在数据库里面的各种数据,进行综合分析整合。数据挖掘理论,是以对数据的分析作为基础的,其功能与分析方法对数据采集平台管理和运用,有着不可估量的作用和意义。

2.2“数据挖掘”理论应用基础

由于科技的不断发展,数据库不断充实,数据采集平台也在不断的完善和发展中。在国家政策,和科技不断发展的趋势下,数据采集平台近几年来,其结构和采集信息量上也发生了翻天覆地的改变。主要表现在版本、汇总部分字段以及采集字段上。即:版本不断的更新,由原先的“08c版”一直发展到现在的“10a001版”; 汇总部分字段和采集字段的增加,使得数据库里的数据成海量的增长,甚至多达数十万。这样使得数据采集平台更加规模化,同时也加强了数据与数据之间的联系,这也使得采集的数据成了 “数据挖掘”的数据基础,给了“数据挖掘”一个更好的平台。也为技术人员运用数据挖掘理论提供了数据来源。

3 “数据挖掘”理论在数据采集平台上的实际应用

在上面我笼统的介绍了数据挖掘的基本功能,即分类、估计、关联、聚类、偏差检测和预测。在这里我具体的介绍一下“关联规则挖掘” 理论。通过“关联规则挖掘”理论,我们知道,如果仅仅是单独、孤立的数据,那是形成不了重要信息的,但是,如果我们将那些相互关联的数据集中起来,并从不同的角度,不同的方面去分析这些数据,那么潜伏在这些数据表面以下的部分就会浮出表面,这样我们就能看到事物的全部。这对我们做决策有着重要的意义。所以我们要可以通过“关联规则挖掘”理论辨证的去分析事物内部所蕴含的关系。相反,如果只是盲目的看到表面的数据,甚至割裂地、孤立地去看待数据,这样不仅找不到数据与数据之间关联关系,更不能通过聚合这些相互关联的数据,这不能做出科学有效的决策。在测绘地理信息的时候,“关联规则挖掘”的理论,为我们提供了更广阔的分析方法和思维模式,为我们做出正确合理的决策提供了理论依据。在实际操作中,我们感觉到任何一个重要问题的分析,我们都要依赖“关联规则挖掘”理论,对具体的数据进行科学分析,以呈现其数据和事物之间的关联性。

4 结论

结合个人的工作经验和实际操作,就数据挖掘理论在数据采集中的应用展开了探讨和研究。介绍了数据挖掘的功能;“数据挖掘”理论在数据采集平台上的应用基础:数据采集平台的建立和“数据挖掘”理论应用基础;以及“数据挖掘”理论在数据采集平台上的实际应用。但是由于自身学识和理解的局限性,说的不是很全面,只是希望大家可以关注一下数据挖掘理论在数据采集中的应用,并能在你所在的领域内有所应用。

参考文献

[1]谭广宇.数据挖掘理论在状态数据采集平台上的应用[J].广西教育,2011(6).

[2]蒋盛益,李霞,郑琪.数据挖掘原理与实践[J].图书,2011(8).

[3]曾锡山,胡俊荣.WEB文本海量数据挖掘应用中的多点数据采集及处理问题研究[J].情报杂志,2010(8).

大数据分析论文范文第14篇

关键词:数字图书馆 文献计量分析 CNKI 可视化

中图分类号: G250.76;G250.252 文献标识码: A 文章编号: 1003-6938(2013)05-0072-06

1 引言

数字图书馆是对图书馆的虚拟化,不仅可以实现纸质图书、期刊文献的电子化,而且极大地促进了文献信息的跨时间、跨区域交流。因此,数字图书馆是图书馆服务的一次革命性转变,从根本上突破了传统图书馆的时空限制[1]。自从20世纪90年代初美国科学家首次提出数字图书馆这一概念以来,数字图书馆的相关技术研究就迅速进入学术研究的视角,我国从1994年开始对该领域的相关理论和技术进行研究[2]。本文基于CNKI中国期刊全文数据库,拟从论文文献的年代分布特征、高被引论文的期刊分布、高产作者分布和高频关键词分布等角度分析国内数字图书馆领域的研究现状,强调数字图书馆相关技术的研究价值和研究方向,从而为国内的研究学者提供一定的参考,为促进数字图书馆领域的快速发展提供数据支撑和理论支持,以推进数字图书馆研究的进一步突破。

国内已经发表了一些和数字图书馆文献计量分析相关的文献,从这些文章的研究内容来看,《近十年我国数字图书馆学术论文的计量分析》对2000~2010年数字图书馆领域发表的2062篇学术论文进行了作者、主题、时空分布分析[3], 《以用户为中心的数字图书馆个性化服务研究的文献计量分析》从年代分布、主题分布以及作者分布角度分析了2002~2011年的997篇期刊文献[4],《国内近十年数字图书馆领域研究热点分析——基于共词分析》基于1999~2008年CNKI数据库收录的1356篇学术论文重点进行了关键词共词分析[5],《基于Web of Science的数字图书馆研究论文定量分析》统计了1993~2004年SCI和SSCI数据库收录的819篇文章的时间、期刊、被引频次、作者分布情况[6],《近6年我国数字图书馆研究论文定量分析》对1996~2001年间24种图书馆学情报学期刊发表的618篇文献进行较为全面的论文年代、主题、来源期刊和作者分析[7],《1999~2008年我国数字图书馆研究论文的计量分析》则选取了1999~2008年间CNKI收录的13727篇论文进行了较为系统的核心作者群、高产作者群、关键词分析[8]。

可见,这些研究主要局限在2008年以前的论文分析,缺少对我国数字图书馆近期成果的分析。另一方面,多数论文的分析主要针对某一个方面,如仅以关键词进行共词分析或仅针对国外文献的分析,为了弥补现有文献的不足,本文针对2008~2012年CNKI中发表的数字图书馆论文展开分析,以帮助学人了解我国数字图书馆领域最新研究状况,促进我国数字图书馆研究与实践更加健康快速发展。

2 数据来源和处理方法

CNKI中国期刊全文数据库是我国收录学术信息最为全面的数字资源。选择CNKI作为数据来源分析我国数字图书馆的研究可以较为全面地把握该领域的研究现状。但是由于《数字图书馆论坛》、《情报学报》等期刊并没有收录在CNKI中,一定程度上影响到研究数据的完整性。为了弥补中国期刊全文数据库期刊收录方面的不足,本文基于万方学术期刊全文数据库对《情报学报》、《数字图书馆论坛》两本期刊进行了全面的数据调研。两种期刊在2008~2012年间共收录数字图书馆方向的文章267篇,其中《数字图书馆论坛》的载文量达到245篇。

考虑到研究国内数字图书馆发展现状的时效性、精准性和全面性的要求,本文在CNKI中国期刊全文数据库和万方学术期刊全文数据库中,将主题字段“数字图书馆”和中图分类号字段G250.7进行检索或运算,发文年代限制为2008~2012年,同时选用期刊全文数据库将文献类型限定为论文类型,共检索得到有效文献数20152篇。

本文主要采用文献计量学方法以及共词分析法进行研究。文献计量学方法是基于数学、统计学等学科,对文献进行定量分析的方法。而共词分析法则是一种利用专业术语(通常选择关键词)进行共现分析,以揭示内容结构特征的文献统计学方法。

本文使用的辅助软件工具是一种基于.NET平台和c#高级程序语言的文献题录信息统计分析工具SATI。这种统计分析软件可以实现导入并处理EndNote格式、NoteExpress格式及NoteFirst格式的国内文献题录信息和HTML格式的WoS国际文献题录信息。同时还可以利用该软件进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵、词条频率逐年分布矩阵及文档词条矩阵的构建[9]。

3 定量分析

3.1 文献年代和学科分布

通过一个研究领域的文献年代分布研究,可以分析出该领域的研究走势。根据文献增长规律特征,一个领域在研究初期文献量呈指数增长,发展到鼎盛时期增长变缓,成熟后数量会逐步下降。为了考察数字图书馆研究的成长性,本文统计了2008~2012年CNKI收录的数字图书馆的期刊论文(见表1)以及其年化分布趋势图(见图1)。

由表1可以看出,2008~2012年我国数字图书馆领域每年的发文总量都在3600篇以上,2008至2009年的发文量更是突破了4000篇。但是2009年以后每年的发文量呈现出明显的下滑趋势。由图1可以发现,2009年是2008~2012年数字图书馆发文量最多的年度。自2009年之后发文量出现明显下滑。本文查阅文献[10]后发现,在2000~2008年期间,数字图书馆文献一直处于上升期,但后几年的上升出现了缓慢情形,因此2009年应该是数字图书馆发展的顶峰时期。技术的发展标志着将会有新的技术取代数字图书馆,就像10多年前图书馆自动化被数字图书馆所取代一样,所以在未来的数字图书馆发展历程中,云图书馆技术也许会取代数字图书馆技术。

数字图书馆的发文情况还可以从学科角度深入分析。每年数字图书馆领域发文的学科分布除了可以了解热点发文年限,还能够更深入地着眼于其多学科性质和重点学科的研究。基于CNKI中国期刊全文数据库的学科统计功能,图2形象直观地显示了2008~2012年图书情报与数字图书馆和计算机软件及计算机应用学科的发文情况。根据CNKI学科类别载文量的统计,这两个学科的总发文量是每年最多的,占全年数字图书馆领域发文量的90%左右,因此选择这两个学科进行分析具有一定的代表性。

从图2可以看出,2008~2012年图书情报与数字图书馆学科的发文量比较稳定,基本保持在3500篇左右。但是计算机软件及计算机应用学科的发文量变化波动比较明显。尤其是2010年以来,在数字图书馆领域发表的研究论文有所下降,2012年的发文量甚至不足500篇。从学科角度可以看出,数字图书馆的技术问题已基本解决,计算机领域在探索并考虑如何用新的技术和理念取代数字图书馆,这也和数字图书馆的成熟以及论文数量的下滑形成呼应。

3.2 代表性期刊分布

代表性期刊分布可以有效地引导研究者的阅读方向,研究者可以反复研读和参考这些业内的权威期刊,在把握现有学术成果的基础上获取学术灵感和潮流化的研究主题。表2直观地显示了CNKI中国期刊全文数据库数字图书馆领域篇均被引排在前20位的核心期刊以及通过万方数据库检索得到的《情报学报》和《数字图书馆论坛》两种期刊。这里的篇均被引频次指标,是通过期刊2008~2012年数字图书馆领域的总载文量和这些论文的总被引量相除得到的。

由表2可以看出,这22种期刊都是图书情报领域期刊,大多数是图书情报领域的核心期刊。这些期刊的数字图书馆论文的篇均被引频次基本在两次以上,最高的甚至达到10次左右。另外根据CNKI的期刊发文量统计,仅仅2008~2012年,数字图书馆领域载文量在115篇以上的期刊就有40种,其中包含了《医学信息学杂志》、《中国科技信息》、《科技咨询》、《农业图书情报学刊》等多学科方向的各种期刊。

这些数据有力地证明了数字图书馆研究是图书情报学科的一个重要领域。图书情报学期刊非常重视数字图书馆领域的。同时数字图书馆研究也受到其他学科相关领域的重视,具有实用性和多学科性的研究特征。

3.3 高产作者分析

高被引文献的作者一般都是具有一定学术影响力的学者。这些专家学者在自己的专攻领域或多或少都有一定的建树,所以他们的学术研究成果比较具有说服力和权威性。因此,了解他们的知识结构和主攻方向显得尤为重要。基于2008~2012年的统计数据,数字图书馆领域的高被引文献作者的基本情况如表3所示,其中篇均被引频次指标是通过CNKI高发文量作者的详细发文情况列表,统计出发文总量和被引总量,然后相除得到的。

根据表3,这些学者五年来的发文量基本都在10篇以上,篇均被引频次保持在4次以上。他们所从事的工作、职务基本都是大学教授或是图书馆研究员。从这些数据可以发现,这些专家学者在数字图书馆研究领域已经取得相当的成绩,已经有学者大量参考和引用他们的学术成果。另外还可看到,武汉大学、中山大学以及中国科学院国家科学图书馆是高度重视数字图书馆领域的研究机构。因此,重视这些专家学者的成果以及密切关注这些研究机构的研究动向,将有助于数字图书馆相关技术的研究突破。

3.4 国家基金项目资助情况分析

针对某一具体研究主题的基金项目资助情况分析,尤其是部级项目的支持情况分析,可以挖掘出相应主题的学术地位以及受重视程度。基于CNKI中国期刊全文数据库的基金项目统计功能,表4统计了2008~2012年国内数字图书馆领域部级基金项目数量变化情况。

从表4的统计数据来看,尽管部级基金资助项目的总量出现一定的波动:2009~2011年三年来国家基金支持的总量明显下降。但从2008~2012年的总体发展趋势来看,国家对数字图书馆研究的支持并没有大幅度削减,尤其是2012年,的总量又重新回升至120篇。这些数据表明国家并没有减少在数字图书馆研究领域的投入,数字图书馆领域仍然是国家较为关注的前沿研究方向。

国家自然科学基金和国家社会科学基金是国家支持基金中的两大具有代表性的基金项目。从表4的统计数据可以看出,国家社会科学基金支持的总量要显著高于国家自然科学基金。这一定程度上是由社会科学和自然科学的学科性质决定的。在数字图书馆领域,自然科学关注更多的是技术的实现,而社会科学则更多地从管理角度着手进行研究。因此,自然科学基金支持的量的下降并不说明数字图书馆研究重视度的下降,因为要在现有完善的技术层面上取得突破需要更多时间和精力的投入,以及更有新意的选题。

3.5 高频关键词分析

关键词往往是文章的核心切入点,对文献关键词进行分析可以全面把握文献的内容结构,同时还可以推断出某一具体学术领域的研究热点和方向,给予研究者在学术选题方面一定的参考,更好地着眼于前沿研究主题。表5统计了国内数字图书馆领域使用频次在160次以上的关键词并且进行了关键词的简单整理:将同义的关键词进行合并,同时将“管理”、“服务”等不具实际含义的关键词排除。

根据表5的统计数据,可以简单地概括出2008~2012年数字图书馆领域的研究热点。云计算、数据库构建、知识产权保护、知识服务、个性化服务、元数据、信息资源共享、数据资源管理等主题一直是2008~2012年备受欢迎的研究主题。另外高校图书馆作为数字图书馆的一种,也成为学界较有影响力的研究热点。当然,仅仅从关键词频次的角度来推断某一具体研究领域的研究热点还是远远不够的。研究关键词之间的共现关系,构建出关键词内容之间的网状关系结构对于分析相应主题领域的研究热点是个很好的补充。因此,本文使用ucinet和sati软件对五年来被引频次在10次以上的文献关键词进行两两共现关系统计,构建出使用频次在8次以上的四十个关键词共词矩阵,并通过ucinet的可视化制作软件利用有向性指针呈现出来,如表6所示,其中节点数字分别表示关键词频次降序排列的序号。

根据共现知识图谱(见图3)可以看出,数字图书馆处于网络节点的中心位置,其中介中心性最大,是网络中最重要的节点,其他节点围绕中心节点紧密联系[11]。根据图3中有向性指针的标注情况,一些重要的共现关键词显而易见。基于高频关键词统计表和知识图谱可以归纳出2008~2012年数字图书馆领域的研究热点:

(1)数字图书馆技术的发展在很大程度上推动着学术成果的交流,因此知识服务成为数字图书馆领域研究的一大热点。知识服务的研究重在服务模式的构建和个性化服务的研究。

(2)云计算、RFID、开放存取技术这些新兴技术是数字图书馆研究过程中重要的技术支撑。从知识图谱可以看出,在进行数字图书馆具体技术研究时,这些新兴技术往往被同时涉及。云计算的研究强调数字图书馆的移动性,而开放存取技术的研究注重一个重要概念——机构知识库,以便推动信息共享空间的进一步扩展,RFID技术的研究则着眼于现有的网络环境。总之,对于新兴技术的研究也是数字图书馆领域研究的热点主题。

(3)数字图书馆的研究内容涉及方方面面,高校数字图书馆、移动数字图书馆、泛在数字图书馆、手机图书馆都是较受关注的研究领域。无论是手机图书馆、移动图书馆、还是泛在图书馆都强调在3G网络环境下,跨越时间和空间的限制对图书馆信息资源的共享。而高校数字图书馆更偏向于个性化信息共享服务和图书馆联盟方式的研究。

(4)数字图书馆最重要的是数字资源管理,因此信息资源整合、信息资源的共享、特色数据库的构建成为数字图书馆领域研究的一大热点,这些数据服务研究趋向于一种趋势——网络环境下的图书馆联盟建设,尤其是高校图书馆。至于具体技术的实现,有些专家学者将其与云计算技术紧密联系在一起。

4 结语

在信息化时代,数字图书馆作为一个新兴的研究主题一直备受学界关注。本文选取了2008~2012年度CNKI中国期刊全文数据库和万方学术期刊数据库的文献数据,并对其进行年代、学科、高产作者、代表性期刊、高频关键词、项目基金支持情况以及热点研究等方面的定量分析,用数据说话,客观地揭示了五年来数字图书馆领域的发展现状和研究热点,以便给予研究专家一定的学术参考,从而取得更大的学术突破,进一步推动国内数字图书馆的研究进展。

从2008~2012年五年的文献数据来看,2009年是数字图书馆发文的峰值年,发文量是五年来最高的,此后的文献量呈现出明显的下滑趋势。因此,2009年是数字图书馆研究过程中的重要转折点。在这种文献背景下,数字图书馆的研究很有可能出现研究角度转移的趋势,就像10多年前图书馆自动化被数字图书馆所取代一样。另外,数字图书馆的研究是一种理论和实践的完美结合。图书情报学科主要着眼于理论方向的研究,许多研究成果刊载在本学科的核心期刊上,而计算机软件及计算机应用学科则更多关注数字图书馆技术层面的研究。从这两个学科每年的发文量可以看出,随着数字图书馆实现技术的逐步完善,理论方向的研究开始处于主导地位。当然,数字图书馆研究的不断突破离不开一批专业知识深厚、投入全部研究精力的专家学者的支持。更为重要的是,国家对数字图书馆研究也表现出高度重视,每年由国家基金项目支持的论文数高达百篇左右。

综上所述,专攻数字图书馆研究的专家学者如果对选择的主攻方向始终满含自信,并着眼于当前数字图书馆的研究热点,从中找出新的突破点,不仅能够实现个人研究的飞跃,还能从宏观上推动国内数字图书馆研究的发展进程。

参考文献:

[1]苏新宁,李思舒.我国数字图书馆研究十年:概况统计分析[J].数字图书馆论坛,2011,(5):2-11.

[2]苏新宁,夏立新,胡守敏等.我国数字图书馆研究十年:基于科研项目分析[J].数字图书馆论坛,2011,(5):12-19.

[3]刘成山,张秀君.近十年我国数字图书馆学术论文的计量分析[J].现代情报,2011,(3):113-116.

[4]张小平,张争,杜媛鲲.以用户为中心的数字图书馆个性化服务研究的文献计量分析(2002年~2011年)[J].农业图书情报学刊,2012,(11):47-52.

[5]董伟.国内近十年数字图书馆领域研究热点分析——基于共词分析[J].图书情报知识,2009,(5):58-63.

[6]周静怡,孙坦.基于Web of Science的数字图书馆研究论文定量分析[J].情报科学,2005,(10):1521-1525.

[7]王惠翔,高凡.近6年我国数字图书馆研究论文定量分析[J].图书情报工作,2002,(5):37-40.

[8]邱均平,王明芝.1999-2008年国内数字图书馆研究论文的计量分析[J].情报杂志,2010,(2):1-5.

大数据分析论文范文第15篇

浅谈工程管理理论研究主流可视化分析

工程管理作为工程科学和管理科学相融合的结晶是面向工程的管理学科,是为了更加有效地利用资源,实现预期的目标,而对工程进行的决策、计划、组织、协调等工作。发展工程管理学科需要深刻的认识工程管理的发展规律,借助可视化信息分析技术,可以进一步明确工程管理理论的主流研究。

一、工程管理和可视化研究的概述

工程管理发轫于上世纪50年代,将网络技术应用在工程项目的控制中,取得了很大成功。工程管理的研究领域比较广泛,具体来说包括了建设施工、工程设计、工业工程、制造和技术生产等等方面。在最初,工程管理只是一个比较狭窄的领域,随后逐渐的扩展到公共政策、组织、技术、网络等领域[1]。50多年来,工程管理的研究历经了从工程管理、研发管理再到创新管理的嬗变历程。在我国,工程管理作为一门学科也具有比较久远的历史,最初只有单纯意义上的土木工程管理,现在已经扩展到更加宽泛的意义上的工程管理。

可视化技术是随着计算机技术的发展而涌现出来的新技术,就是在计算机图形学以及计算机图像处理技术快速发展的基础上逐步发展而来的。这种技术将数据转换成为图形,并且能在计算机屏幕上表现出来,进行交互和处理。可视化技术有着广阔的应用前景,尤其是在图书情报领域应用非常广泛。引文可视化分析技术是可视化技术的重要分支,将大量的抽象数据用直观形象的方法展现出来进行引文分析,使人们直观的观察引文内容。将可视化技术和信息科学、应用数学、共现分析等理论和技术结合起来,就能够用可视化的图谱形象直观的展示学科的核心内容,发展历程、前沿理论以及学科整体的知识架构。

在工具方面,能够进行理论知识图谱可视化分析的软件和程序比较多,但是citespace软件相对来说更容易获取,使用也更加便捷。这种软件不需要把下载下来的原始性文献转换相关矩阵,而是可以对数据库保存下来的数据格式进行直接分析,这样就使数据的处理加工变得更加简单快捷[2]。一般来说,进行工程管理理论研究主流可视化分析都会采用这款软件。

二、数据来源和研究方法

在我国,目前工程管理科学已经形成了比较庞大的学科体系,知识架构也比较复杂,新的理论、新的技术和新的研究方法不断涌现出来,一方面这为我国工程管理理论研究带来重要机遇,另一方面也对工程管理学科进行清晰划分带来了一定难度的挑战。伴随着工程实践和工程管理理论的研究不断深入,工程管理的界限也变得越来越模糊[3]。正因为如此,本文用工程管理的相关期刊对工程管理本文由毕业论文网收集整理学科进行界定和相关研究。由于对数据的分析和处理时进行研究工作的前提,因此对数据来源的界定和遴选需要格外重视。本文分析所使用的是中文社会科学引文索引,也就是cssci,这个引文索引是由南京大学中国社会科学研究评价中心研制和开发的,另一个重要数据源是中国期刊网,是由清华大学中国学术期刊电子杂志社主办。这二者都是我国目前在该领域最为重要的引文信息源。对cssci来说,它遵循的是文献计量学的规律,它的信息源头是在全国2700多种中文社会科学学术期刊中,综合运用定性和定量的方法,精心挑选出那些学术性比较强、编辑规范的期刊。这些期刊中包括了25个大类的500多种学术期刊,涵盖管理学、经济学、历史学、政治学、法学、文学等领域。而中国期刊网是按学科进行划分的,收录了5300多种学术期刊的全文或者是引文,主要划分为理工类、文史哲类、农业类、政治经济和法律类等领域。

在进行工程管理理论研究的时候要综合采用定量和定性的方法,并且更加重视定量的方法,注重用绘制图谱的方式来展现。科学图谱就是包括了共被引分析和词频分析等,对于读者了解学科演进非常方便。词频分析指的是对出现的关键词进行频率上的统计和分析,以查找该领域的研究热点,通过观察关键词的演变分析学科的发展趋势。所谓共被引分析是值得两种文献之间,同时被引用的频率和次数,次数越多,说明这两种文献的关系越密切,背景也越相似。

三、可视化分析的结果

首先是对《管理工程学报》的分析。首先从cssci数据库上下载2008至今的文献数据,在同一个文件夹中用纯文本的方式进行保存,再利用数据转换器将下载下来的文件数据转换成为citespace识别并可以分析的格式。数据来源是文献标题、文献摘要和关键词、主题词类型,在主题词类型项选择名词性短语,开展聚类分析,节点类型上选择主题词和被引用文献,通过运行软件得到了该期刊的共被引和主题词网络图谱。通过这个图谱,我们可以看到,关键节点包括了博弈、物流、协调激励、供应链等词汇,这说明该领域的研究热点是这些关键词背后的课题。研究方法囊括了遗传算法、模型等。另外,委托、自主创新、知识转移等词汇出现的频率也比较高。通过对可视化图谱的分析可知,该期刊作为工程管理理论的重要期刊研究的主题主要涉及了供应链、物流、博弈理论、技术创新等。供应链研究显然是主流性研究;委托、物流等方面也在研究者的视角逐渐受到重视。

其次是对《建筑经济》等其他期刊的关键词分析。在中国知网下载《建筑经济》自2008年以来的文献数据,利用citespace软件在数据转换的基础上进行分析。通过分析可以看出,全过程造价、bt模式、信息化、全寿命周期等词汇是研究工作的关键词,说明这期间的研究热点在这些领域。

不同的期刊往往刊文重点有不同,体现了一本期刊的研究视野各有侧重,因此,工程管理理论研究领域的不同期刊进行可视化分析,能够更加客观全面的掌握工程管理理论研究的主流。对不同期刊的关键词汇内容进行分析,体现了这种相互补充性。《工程管理学报》也是工程管理领域的重要学术期刊,在中国知网上下载2008年以来的文献题录,用纯文本的方式进行保存,再通过citespace软件进行格式转换,最后用citespace进行分析,得出来的结果就是《工程管理学报》在这个期间的研究主流。建筑企业、竞争力、实证研究等词汇出现在结果统计的前列,这与该期刊侧重建筑业工程项目和政府投资项目管理的研究侧重点相吻合。此外,在方法论的层面,层次分析法、模糊性综合评价、系统动力学等成为研究方法的热点,这也体现了《工程管理学报》在研究方法上的独特性。用同样的方法对《科技进步与对策》期刊进行分析,得到的出现频率较高的词汇是自主创新、科技创新、知识产权、知识共享、低碳经济等。这体现了技术创新、知识管理等依旧是该刊关注的前沿。工程管理是一门与时俱进的学科,随着研究的深入新的研究内容会逐渐进入研究者的视野,新的研究方法也会得到更多运用。