美章网 精品范文 数据分析的方法范文

数据分析的方法范文

数据分析的方法

数据分析的方法范文第1篇

句法分析任务是对文本进行分析,将输入句子从序列形式变为树状结构,从而刻画句子内部词语之间的组合或修饰关系。这是自然语言处理领域的核心研究课题,已经广泛应用到其它自然语言处理任务中,如机器翻译、自动问答、信息抽取等。和其他句法分析形式如短语结构句法分析相比,依存句法分析具有形式简单、易于标注、便于学习、分析效率更高等优点[1,2]。另外,依存句法描述词和词之间的关系,因此更适合于表达非连续的、远距离的结构,这对于一些语序相对自由的西方语言非常重要。依存语法历史悠久,最早可能追溯到公元前几世纪Panini提出的梵文语法。依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系(Dependency Relations)。一个依存关系连接两个词,分别是核心词(Head)和修饰词(Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系(Dependency Relation Types)。目前,依存语法标注体系已经为自然语言处理领域的许多专家和学者所采用,并应用于不同语言中,且对其不断地发展和完善。研究者们提出并实现了多种不同的依存分析方法,达到了较好的准确率。近年来,依存句法分析多已广泛用于统计机器翻译[3]、自动问答[4]和信息抽取[5]等任务,并取得了良好的效果。

依存句法分析任务的输入是一个已完成分词的自然语言句子。形式化地,输入句子可以表示为:x=W0W2…Wi…Wn,其中,wi表示输入句子的第i个词;W0表示一个伪词,指向整个句子的核心词,也就是根节点(ROOT)。图1表示输入句子“刚满19岁的欧文现在效力利物浦队。”的依存树。

[JZ][HT5”H]图1 依存树示例[ST5”HZ][WT5”HZ][JZ]Fig.1[ST5”BZ] Example of a dependency parse

最一般地,一个依存句法树由多个依存弧构成,表示为:d={(h,m,l):0≤h≤n,0

依存句法分析的目标是给定输入句子x,寻找分值(或概率)最大的依存树d*,具体公式为:

因此,依存句法分析存在四个基本问题:

(1)如何定义Score(x,d),即采用哪种方式将依存树的分值分解为一些子结构的分值。这是模型定义问题;

(2)采用哪些特征来表示每一部分子结构,即特征表示问题;

(3)如何获取特征的权重,即模型训练算法问题;

(4)给定模型参数,即已知特征的权重,如何搜索到分值最大的依存树。这是解码问题。

2依存句法分析的方法

数据驱动的依存句法分析方法主要有两种主流的方法:基于图(Graph-based)的分析方法和基于转移(Transition-based)的分析方法。这两种方法从不同的角度解决这个问题。CoNLL上的评测结果表明这两种方法各有所长,并且存在一定的互补性[2,6]。下面对各类方法展开细致分析。

2.1基于图的依存句法分析方法

基于图的依存分析模型将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。模型通过基于动态规划的解码算法从所有可能的依存树中搜索出分值最高的依存树。相关的研究工作主要包括:

(1)模型定义。根据依存树分值中包含的子树的复杂度,基于图的依存分析模型可以简单区分为一阶、二阶和三阶模型。一阶模型中,依存树的分值由所有依存弧的分值累加得到,即依存弧之间相互独立,互不影响[7]。二阶模型中,依存树的分值中融入了相邻兄弟弧(Sibling)和祖孙弧(Parent-child-grandchild)的分值[8,9]。三阶模型中,进一步增加了祖孙兄弟弧(Grandparent-parent-sibling)等三条依存弧构成的子树信息[10]。

(2)特征表示。在上述模型定义的基础上,研究人员也提出了相应的一阶、二阶、三阶子树特征[7-10]。每种子树特征考虑句子中的词语和词性信息、依存弧的方向和距离信息等。随着高阶子树特征的使用,依存句法分析模型的准确率也有较大幅度的提高。

(3)训练算法。基于图的依存分析方法通常采用在线训练算法(Online Training),如平均感知器算法(Averaged Perceptron)[11]、被动进取算法(Passive-Aggressive)[12]和Margin Infused Relaxed算法(MIRA) [13]。在线学习算法以迭代的方式训练特征的权重。一次迭代中遍历整个训练数据集合,每次根据一个训练实例的分析结果对当前的权重向量进行调整。

(4)解码算法。一阶模型对应的解码算法为Eisner算法[14]。Eisner算法的本质是动态规划,不断合并相邻子串的分析结果,直到得到整个句子的结果,其时间复杂度为O(n3)。进而,McDonald和Pereira (2006)对Eisner算法进行扩展,增加了表示相邻兄弟节点的数据类型,时间复杂度仍为O(n3)。Carreras (2007)同样对Eisner算法进行扩展,得到面向二阶模型的基于动态规划的解码算法,时间复杂度为O(n4)。Koo和Collins (2010)提出了面向三阶模型的解码算法,时间复杂度为O(n4)。一些研究者提出采用基于柱搜索的解码算法,允许模型方便地融入更高阶的解码算法,同时保证较低的时间复杂度[15,16]。

2.2基于转移的依存句法分析方法

基于转移的依存分析模型将依存树的搜索过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。模型通过贪心搜索或者柱搜索的方式找到近似最优的依存树。其优点在于可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。相关的研究工作主要包括:

(1)模型定义。基于转移的依存句法分析方法提出早期,研究者们使用局部分类器(如最大熵分类器)决定下一个动作,选择概率最大的动作[17,18]。这样,一个依存树的概率由其对应的动作序列中每一个动作的概率累乘得到。近年来,研究者们采用线性全局模型来决定下一个动作,一个依存树的分值为对应动作序列中每一个动作的分值的累加[19-21]。

(2)特征表示。基于转移的依存句法分析方法的优势在于可以充分使用已构成的子树信息。Zhang和Nivre (2011)在前人工作的基础上,提出了丰富的特征集合,如三阶子树特征,词的配价信息等[21]。

(3)训练算法。早期,研究者们在训练语料上训练出一个局部分类器,在解码过程中重复使用,决定下一个动作。通常采用的分类器有基于记忆的分类器、支持向量机等。近年研究发现采用全局线性模型可以提高句法分析的准确率,通常采用平均感知器在线训练算法。

(4)解码算法。其任务是找到一个概率或分值最大的动作序列。早期采用贪心解码算法,即每一步都根据当前状态,选择并执行概率最大的动作,进入到下一个状态。如此反复直至达到接收状态,形成一棵合法的依存树[17,18]。进而,研究者们提出使用柱搜索的解码方式扩大搜索空间,即同时保留多个分值最高的状态,直到搜索结束时选择最优的动作路径[22,19]。Huang和Sagae (2010)提出在柱搜索中加入动态规划,通过合并等价状态进一步扩大搜索空间[20]。随着搜索空间的增大,依存句法分析的准确率有显著提高。

2.3模型融合的方法

基于图的方法和基于转移的方法从不同的角度解决问题,各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。McDonald和Nivre (2011)通过详细比较发现,这两种方法存在不同的错误分布。因此,研究者们使用不同的方法融合两种模型的优势,常见的方法有:stacked learning [2,23];对多个模型的结果加权后重新解码[24,25];从训练语料中多次抽样训练多个模型(Bagging)[26,27]。

2.4词性标注和依存句法分析联合模型

依存句法分析模型中,词性是非常重要且有效的特征。如果只使用词语特征,会导致严重的数据稀疏问题。自然语言处理中,词性标注和依存句法分析这两个问题通常被当成两个独立的任务,以级联的方式实现。即对于一个输入句子,假定其分词结果已知,先对句子进行词性标注,然后在词性标注结果的基础上进行依存句法分析。这种级联的方法会导致错误蔓延。也就是说,词性标注的错误会严重影响依存分析的准确率。由于汉语缺乏词形变化信息(如英语中的词后缀变化如-ing,-ed,-es,-ly等),因此汉语的词性标注比其他语言如英语更具挑战性。近年来,研究者们通过建立词性标注和依存句法分析联合模型,在同一个模型中解决这两个紧密相关的任务,允许词性信息和句法结构互相影响和帮助,取得了不错的效果。一方面,联合模型中,句法信息可以用来指导词性标注,从而帮助解决一部分需要句法结构才能够消解的词性歧义。另一方面,更准确的词性标注,也可以反过来帮助依存分析。Li等通过扩展基于图的依存句法分析模型,首次提出汉语词性标注和依存句法分析联合模型[28],并且提出了适用于联合模型的训练算法[29],显著提高了词性标注和依存句法分析的准确率。进而,一些研究者们提出基于转移的词性标注和依存句法分析联合模型[30,31]。Ma等(2012)尝试了基于Easy-first的汉语词性标注和依存句法分析联合模型[32]。

2.5基于多树库融合的方法

对于统计的数据驱动的分析模型而言,标注数据的规模很大程度上影响着分析结果的准确率。依存句法分析是一种结构化分类问题,比二元分类和序列标注问题更具挑战性,因此依存句法分析更容易受到数据稀疏问题的影响,树库规模对依存句法分析的准确率影响很大。然而,标注树库是一件艰巨的任务,通常需要耗费很大的人力和物力。目前的研究结果表明在一个树库上训练出的句法分析的模型似乎很难进一步提高句法分析的准确率。然而,汉语存在多个树库。这些树库由不同的组织或机构标注,遵循不同的标注规范,面向不同的应用。尽管各个树库遵循不同的标注规范,但却都是根据人们对汉语语法的理解而标注,因此包含很多共性的标注结构。同时,不一致的标注结果应该也是有规律可循的。所以,一些研究者们尝试同时利用多个树库,帮助句法分析的准确率。李正华等(2008)曾尝试统计和规则相结合的方法,将短语结构的源树库CTB转化为符合CDT标注规范的依存结构,然后将转化后的树库和CDT合并,提高训练数据的规模,以提高依存句法分析准确率[33]。Niu等(2009)提出一种基于统计的树库转化方法,将依存结构的CDT树库转化为满足CTB标注规范的短语结构树库,进而使用语料加权的方式增大训练树库的规模,提高了短语结构句法分析的性能[34]。Li等(2012)提出一种基于准同步文法的多树库融合方法,不是直接将转化后的树库作为额外的训练数据,而是使用准同步文法特征增强依存句法分析模型,从而柔和地学习标注规范中规律性的不一致,提高依存句法分析的准确率[35]。

3依存句法分析面临的挑战

自从2006年开始,CoNLL国际评测一直关注依存句法分析,不但提供了多语言、高质量的树库,并通过对各种方法的比较分析,让研究者们对依存分析问题的理解更加清晰,极大地促进了依存句法分析的发展。依存分析已经成为自然语言处理的一个热点问题,方法也越来越成熟,并且在许多领域得到了应用。然而,目前依存句法分析还存在很多挑战,这些挑战也可能是未来依存分析发展的趋势。具体分析如下:

(1)提高依存分析准确率。目前主流的两种依存分析方法都存在一定的缺陷。基于图的方法很难融入全局特征。而基于转移的方法虽然原理上可以利用丰富的特征,但是实际使用的特征还是属于局部特征,另外也还存在错误级联的问题(柱搜索只能缓解这个问题)。融合不同依存分析模型的方法可以提高分析性能,但是提高幅度比较有限。研究可知,只有从新的角度理解这个问题本身,提出新的建模方法,或者应用新的机器学习方法,才有望大幅度提高依存分析性能。一些学者提出的利用未标注数据帮助依存分析模型是一个很好的思路,值得深入研究。

(2)提高依存分析效率。基于图的依存分析方法融入高阶特征可以提高性能,但是效率很低,无法适应实际应用的需求。在不明显降低分析性能的前提下,如何提高依存分析效率也是一个很有实际价值的问题。

(3)领域移植问题。研究发现,当训练数据领域与测试数据领域不相同时,即使差距不大,也会导致句法分析性能下降很大。以英语为例,从华尔街日报树库移植到Brown语料时,句法分析性能下降近8%。目前依存树库所覆盖的领域、规模都很有限,而标注树库的代价很大。因此解决领域移植问题,对于依存分析的实际应用至关重要。

(4)语言相关的依存分析。目前最主流的两种依存分析方法都是语言无关的,纯粹依靠机器学习方法从数据中学习,加入人类知识只能限于特征选择。然而,每种语言都有其特点。因此语言相关的依存分析研究,如针对每种语言的特点设计更有效的模型和算法,利用一些语言特有的资源等,也是很有必要的。近年来,国内学者已经在汉语依存句法分析上做出了很多成绩,然而如何利用汉语的特点,提高汉语句法分析的准确率和效率,仍然是一个开放的问题。

数据分析的方法范文第2篇

【关键词】 数据挖掘; 财务分析; 神经网络

一、前言

数据挖掘技术是人们长期对数据库技术进行研究和开发的成果。数据挖掘(DM,DataMining)的概念产生于20世纪80年代末,在90年代获得了长足的发展。目前,数据挖掘技术已经应用到市场分析、政府管理、医疗卫生、科学探索、金融、财经领域中并取得了一定的实效。

财务数据挖掘是一种新的财务信息处理技术,其主要特点是能对会计数据库及其它业务数据库中的大量数据进行抽取、转换、分析及其他模型化处理,从中提取辅助决策的关键性数据。在企业的财务状况分析中应用数据挖掘技术,报表使用者可以节省大量的时间和精力去关注更有用的信息,帮助报表使用者找出隐藏的、未知的、但对了解企业经营状况十分有用的信息。

二、应用于财务分析的数据挖掘方法

现有研究中,应用于财务分析的数据挖掘方法主要有以下几种:

(一)神经网络

神经网络主要应用于财务危机预测和财务状况评价两方面。

1.财务危机预测

目前神经网络在财务危机预测的应用中主要集中在模型的建立和优化上。在模型建立方面,通过选取一定的样本包括ST公司和非ST公司,选取其中一部分作为训练集,其余的作为测试集。先对训练集进行归一化处理,再运用神经网络算法建立模型,为了验证模型的预测准确率,用测试集检验模型的预测结果。

在模型优化方面,一方面不断改进指标的选取,通过一定的统计方法客观选取指标,降低主观性,提高模型的预测准确性;另一方面不断改进神经网络算法,把不同的技术引用到模型中从而不断优化模型。

2.财务状况评价

神经网络运用到企业财务状况评价时,首先都是建立系统的评价指标体系,然后在神经网络结构和算法研究的基础上,通过样本对网络进行训练,最后得到稳定的结构和权值,从而建立模型。

(二)模糊集理论

目前有关模糊集理论在财务分析的应用主要集中在模糊综合评价法在企业财务状况评价的应用。在运用模糊综合评价法建立评价模型时,首先要确定因素集,因素集为各种指标体系的集合;其次要确定权重集,权重的确定主要有市场调查法和德尔菲法;再次要建立等级评价标准,评价等级集是评价者对评价对象可能做出的各种评价结果所组成的集合;最后建立模糊评价矩阵,经过运算得到评价结果。

在运用模糊集理论建立评价模型时,一方面需要根据企业的具体情况建立因素集和权重系数矩阵,具有一定的客观性;另一方面评价集以隶属度的方式表示,使其评价结果留有余地。

(三)决策树

决策树在财务方面主要应用于财务预警方面。利用决策树进行数据挖掘建模,首先需要进行变量的指定,一般把上市公司是否“特别处理”为目标变量,已选定的财务指标为输入变量;然后运用软件建立模型;最后要根据检验样本进行检验。

决策树作为一种数据挖掘技术运用到财务预警中具有较好的预测效果。目前,利用决策树进行财务预警处于起步阶段,如何更好的应用决策树有很大的研究空间。但是决策树的输出变量只能有两个,只能简单的预测评价企业财务状况好或者不好。

(四)遗传算法

现有的研究一般把遗传算法和神经网络结合在一起,通过遗传算法的全局寻优能力,建立财务困境预测的遗传神经网络模型,该模型利用遗传算法对输入变量进行了优化,比单纯的神经网络模型具有更好的预测能力。

遗传算法主要适用于数值优化问题,在财务分析中主要运用于具体的问题中,例如内涵报酬率的分析和证券组合选择分析,它作为一种解决数值优化问题的算法,在数值优化问题中有广阔的应用前景。

(五)粗糙集

粗糙集理论目前主要运用在财务危机预测中。首先是财务指标的筛选过程,通过计算条件属性和决策属性的依赖度,进而确定各条件属性相对于决策属性的重要程度,并根据重要程度对其进行条件属性约简;之后,确定筛选后进入预测模型的财务指标的权重,对财务指标重要程度做归一化处理后得到权重;最后,得到基于粗糙集理论的综合预测模型,应用预测模型计算对象的综合预测值。通过实证分析可以看出与传统判别模型进行比较,基于粗糙集理论的模型预测效果更好。

(六)聚类分析

聚类分析主要是对事先不知道类别的数据进行分类,目前对于聚类分析的研究集中到模糊聚类分析。

在对企业财务状况进行评价时,大多是运用模糊聚类分析方法,选取一定的财务状况评价指标,建立模糊聚类分析模型,进行实证分析,形成模糊聚类图,再将具有财务状况相似性的行业进行归类。

三、数据挖掘方法评析

从现有基于数据挖掘的财务分析方法可以看出,它们都是以财务报表为基础,因而存在以下问题:

(一)数据采集欠缺真实和滞后

企业为标榜业绩,常常粉饰财务报告、虚增利润,使财务报告中的数据丧失了真实性,在此基础上进行的财务分析是不可靠的。此外,财务报告一般是半年报和年报,半年报在半年度结束之后两个月内报出,年报在年度结束后四个月内报出,缺乏及时的信息跟踪和反馈控制,存在明显的滞后性,在这个基础上进行财务状况分析具有一定的局限性,从而影响分析的结果。

(二)数据挖掘范围广泛性不足且分析方法片面

现有的财务状况分析在根据财务信息对企业财务状况进行定量的分析预测时缺乏非财务信息的辅助分析,使信息涵盖范围不够广泛。而且,现有的财务状况分析方法都不能很好的把定性分析与定量分析相结合。

四、数据挖掘在财务分析应用的改进

(一)在数据采集方面

不再是以财务报表的资料为数据源,而是从企业中采集原始数据,提高数据的可信度。当然,会计信息数据也可以有多种表现形式,可以是传统的关系数据库、文本形式的数据,也可以是面向对象的数据库以及Web数据库等。另外,利用XBRL和WEB挖掘等技术加入了非财务信息和外部信息。这样,财务分析所需要的财务信息、非财务信息和外部信息可以分别从会计信息系统、管理信息系统和Internet采集。

实时数据库的建立使实时数据挖掘成为可能,为企业财务状况分析的准确性提供了技术支持。实时数据库是数据库系统发展的一个分支,它适用于处理不断更新的快速变化的数据及具有时间限制的事务。XBRL开始广泛的应用,将会促进实时数据采集问题的实现。

(二)在数据挖掘过程中

应综合运用数据挖掘的各种技术,对净化和转换过后的数据集进行挖掘。将非财务信息纳入考察范围,以扩充信息的涵盖范围。

实际运用中,定性分析和定量分析方法并不能截然分开。量的差异在一定程度上反映了质的不同,由于量的分析结果比较简洁、抽象,通常还要借助于定性的描述,说明其具体的含义;定性分析又是定量分析的基础,定量分析的量必须是同质的。在需要时,有些定性信息也要进行二次量化,作为定量信息来处理,以提高其精确性。

【参考文献】

[1] 康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社,2004:131-148.

[2] 李建锋.数据挖掘在公司财务分析中的应用[J].计算机工程与应用,2005(2).

[3] 姚靠华,蒋艳辉.基于决策树的财务预警[J].系统工程,2005(10):102-106.

[4] 林伟林,林有.数据挖掘在上市公司财务状况分析中的应用[J].市场周刊,2004(10).

数据分析的方法范文第3篇

【关键词】环境监测数据;分析;重要性

1.环境监测数据的特征及重要性

1.1环境监测数据的特征

环境监测数据规定了每一次监测获得的数据的可使用范围,超出该范围得出的数据就被视为是不合格的。这是因为监测数据是具有局限性的,这种局限性是为了保证监测数据的准确性与可靠性。同时,对于监测获得的数据要求具有完整性,不应该有缺失或是遗漏的现象。对于在规定范围内的监测数据,如果这些数据不仅具有代表性,还具备完整性,那么就达到监测的目的了[1]。

1.2环境监测数据的重要性

环境监测的重要性在于它能为环境的管理、规划、评价等提供科学、有力的依据。出于对我国正处于经济高速发展阶段的考虑,我们对环境监测应给予更高的重视。一般来说,环境监测数据的质量以及分析能力的高低可以反映出一个监测站工作能力,也体现了该监测站在环境保护工作所处地位的高低。

2.对环境监测数据的填制及整理要求

对于监测获取的相关图标和原始数据,要进行适当的整理和归类,以便后面的工作可以更加有利地开展与进行。在填制监测数据时就应该选取标准的记录表格,在填写时要尽量的专业化、规范化,并且要保证书写清晰、准确。对于原始数据的检查,要逐个地进行、确认,将那些不能真实地反映监测情况的数据去掉。这样做的目的是为了将数据整理得更有条理,更有实用性,减免不必要的反复检查,影响工作效率的提高。同时,还有一个问题需要注意,那就是作为监测数据确认的负责人不可以直接参与监测数据的采集工作[2]。

3.对环境监测数据的分析

环境监测是一种以环境作为对象,运用物理、化学和生物等技术手段,对污染物进行定性、定量和系统的综合分析,它是环境评价中的重要环节,贯穿环境影响评价的整个过程。

3.1利用统计规律进行分析

环境监测是以统计学为基础的,因此,这种分析方法经常被监测人员采用。这种分析方法包含了对环境要素的质量进行各种数学模式评价方法对监测数据进行解剖,利用它的内在规律性进行分析和利用,进而得出相关的论断。这种方法在环境规划、环境调查和环境评价的工作中使用较多[3]。

3.2通过对污染源的监测值来分析

监测人员可以通过对污染源的监测数据进行分析。其实,对污染物的监测对象不仅仅限于空气、地下水、土壤等,还有一个人们经常说的工业污染源。工业污染是有多种的,不同行业的工业就会有其不同的污染物产生。比如,对于化工行业来讲,它排出的有机物含量种类就较多多,而金属物质相对就较少一些;金属行业排出的污染物是有机物含量较少而金属物质含量较多等。如果在一个金属行业排除的废弃物中监测得出的结果显示是具有较多有机物的,那么对于这组监测数据应该重新考虑和分析,并从中找出原因。这也说明了一个问题,那就是监测人员在日常的工作当中要对管辖区内的生产企业相关情况进行了解,要根据不同的行业有针对性地选择相应的监测项目来监测这些污染企业,实行对他们的有效监督[4]。

3.3根据事物之间的相关性原理进行分析

这种分析法主要是基于事物本身具有的相互关系的原理来来进行的。一般来说,两个或者两个以上的监测数据之间往往会存在某一种的固定联系,监测人员可以根据这种固定的联系去分析数据之间的相关联系,也可以对单个已经实行控制质量措施的监测数据进行检测,验证是否正确。而对于一些例行的监测数据,则可以得出较为直观的判断。比如,氟含量跟硬度之间的关系。由于F与Ca、Mg形成沉淀物得容积度比较小,所以,在中性和弱碱性的水溶液当中,如果氟含量是在(mg/ L )级的,那么它的氟含量与Ca、Mg的含量就是呈显负相关的现象,也就是说跟硬度值是负相关的。因此,在高氟区内得出的水质监测结果显示的硬度监测值一般会比较低。如果获得的氟含量较高,得出的硬度监测值也很高,那么这类监测数据就需要进行重新分析[5]。

4.结语

随着我国环境保护的不断深入,监测人员要在使用各种分析方法的同时不断地去提尝试新的分析方法,要在原来的基础水平上更进一步地提高自己的综合分析能力,对提供的监测数据要有一种精益求精的精神,争取提供的数据更可靠更合理,业务技能不断地有新的进步。由于获取的环境监测数据与区域的过去和现在都有密切的联系,因此,监测人员要对监测区域的过去和现在的环境状况都要进行深入的了解和分析,在了解的基础上展开全面的探讨,这样才可以保证获取的监测数据更全面,更有说服力,质量更有保证。

参考文献

[1]叶萍.浅论环境监测数据的综合分析方法[J]中国环境管理干部学院学报, 2009, (01) .

[2]郭琦.环境监测在环境影响评价中的意义与建议[J].科技风, 2010, (15)

[3]孙晓雷.我国环境监测质量管理体系研究[J].科技传播, 2010, (15)

数据分析的方法范文第4篇

[关键词]大数据;市场分析;方法

doi:10.3969/j.issn.1673 - 0194.2017.02.056

[中图分类号]F270 [文献标识码]A [文章编号]1673-0194(2017)02-00-01

0 引 言

随着移动互联网技术的发展,人们越来越习惯于网络购物。在网上购物或刷微博时,常常会看到“猜你喜欢”“可能感兴趣的商品”等广告栏目。而这些内容都是大数据产业的成果,是面向大数据视野得到市场分析的结果。掌握这种市场分析方法,能帮助企业更好地了解消费者的需求,进而更好地开展营销活动。

1 大数据视野下市场分析的问题

在互联网得到普及应用的情况下,大数据时代已经正式到来。目前,互联网上的数据每年都会增长50%。而随着运动、湿度和温度等各类传感器的出现,企业接触到的数据信息也越来越多,而这些数据在给企业带来挑战的同时,也为企业提供了新的市场增长空间。加强数据挖掘和分析,能帮助企业精准地找到用户,从而通过降低营销成本、提高销售率实现利益最大化。因此,企业应面向大数据进行市场分析研究,以便通过统计和分析超大量的样本数据,获得更接近市场真实状态的市场研究成果。

2 大数据视野下的市场分析方法

2.1 基于大数据的市场调研方法

在过去较长的时间里,市场分析是以实地调查为前提,或是通过问卷调查和提供抽样技术,其目的均是为了获得消费者的答案。进入大数据时代后,企业开始通过网络调研进行市场调查。这种方法,能够方便、快捷且经济地完成市场调查。具体来讲,就是企业通过门户网站完成市场调研模块的建立,然后将新产品邮寄给消费者,并要求消费者在试用后进行网上调查问卷的填写,这样就能够投入较少的人力和物力来完成市场调研。由于这种市场分析方法具有一定的互动性,能够在概念阶段利用虚拟仿真技术完成产品测试,从而使消费者参与到产品的开发,进而使市场需求得到更好的满足。

2.2 基于大数据的市场信息挖掘

面向大数据视野研究市场分析的问题,企业可以发现有效的市场分析需要大量的数据信息提供支撑。所以,企业还要使用基于大数据的市场信息挖掘技术,以便对市场需求进行更好的分析。首先,在智能手机逐步得到普及应用的情况下,企业还应在移动终端开展市场研究,借助移动APP完成消费信息的采集。企业对这些数据进行深入分析,能够完成产品回购率、产品促销奖励评估和购买时点等内容的分析。其次,在零售终端,POS机得到较好的建设和应用下,企业可以通过扫描商品条形码完成购买地点、名称和零售价等信息的采集,进而使其更好地掌握商业渠道的动态信息。此外,消费者往往具有从众性,企业加强对社交平台的信息挖掘能更好的掌握消费潮流。比如,利用微博评论可以完成消费者对某种产品偏好的了解,从而完成消费者真实消费心理及态度的分析,进而更好地掌握市场信息。

2.3 多学科分析方法的引入

以往的市场分析通常需要采取社会学调查方法完成资料搜集,再利用数据分析软件完成数据分析,并获得描述性或预测性的分析报告。在大数据时代,由于要完成海量数据的分析,因此,可以引入相对论、整体论和跨文化比较研究等多个学科的分析方法,以满足大数据时代数据分析的需要。就目前来看,大数据来自各种移动终端和网络,其是能反映消费者行动过程和轨迹的数据记录,采用传统的市场分析方法难以对这种过程性数据进行分析,而引入以分析过程见长的人类学的分析方法,则能对市场消费者的行动过程进行描述,从而使消费者的行动趋向得到揭示。

2.4 定量与定性分析方法的结合

采取定性或定量这两种分析方法中的一种,可以完成片段式或截面式数据内容的分析。但在大数据时代,数据变得更加复杂,因此可以使用定量和定性相结合的分析方法进行市场分析。一方面,企业通过网络调研完成大量数据信息的搜集,从而采取定量分析法进行市场分析研究。这种方法,能够使市场研究人员成为“隐形人”,从而更加客观地观察消费者,并通过对超大样本量进行统计分析,完成市场状态的分析。另一方面,针对文本、视频和图形等非量化数据,可以通过智能化检索和分析来完成定性分析,以便在保护消费者隐私的基础上,更好地分析市场需求。

2.5 数据复杂属性的还原

在传统的市场分析工作中,可以将数据看成是一些片段而进行分析。而这样的分析,实际上是脱离具体情境和社会关系的分析过程,虽然可以根据自身经验和想象来进行情境原,但得到的研究结果却不够客观和科学。在大数据背景下,企业可以使用能够还原数据复杂属性的市场分析方法,以便更好地完成、嵌入某些社会关系的消费者的购买行动和轨迹的分析,进而获得更加有效及真实的分析结果。因此,使用的市场分析方法应更关注数据的社会背景,从而更好地完成大数据的整合与分析。

3 结 语

在大数据时代,企业要选择适当的市场分析方法,以便使自身的数据处理能力得到提高,从而通过获取的高质量的数据信息来提高自身竞争力,进而更好地适应社会发展的要求。因此,希望本文对大数据视野下的市场分析方法展开的研究,可以为相关工作的开展带来启示。

主要参考文献

[1]王云蔚.大数据背景下的消费市场研究[J].北京印刷学院学报,2014(1).

数据分析的方法范文第5篇

企业数据分析的编写,核心在于对数据的科学分析。数据分析除了要以档案为基础,遵循“全面、真实、客观、有效”的原则外,关键是要掌握和应用科学的分析方法,使数据分析应尽可能做到深入、准确,从而使我们对数据背后所隐含的问题、原因、趋势和规律的认识能更接近于真理。

企业数据分析编写过程中,常用的分析方法有对比分析法、趋势分析法、结构分析法和综合分析法等。本文结合工作实际,对如何运用这四种基本分析方法谈点想法。

对比分析法

所谓对比分析法,是指将两个或两组以上的数据进行比较,分析它们的差异性,从而揭示这些数据所代表的事物的发展变化情况和规律性。对比分析法是比较研究的一种方法,在企业数据分析中的应用十分普遍。它的特点是,通过比较分析,可以非常直观地看出企业某方面工作的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。

在实际应用中,企业数据的对比分析,一般有以下几种具体情况:

一是将企业当年的数据与历年(去年或前几年)的数据进行对比分析,目的是为了搞清楚与去年或前几年相比,企业某一方面或某些方面的发展变化情况。比如,某公司2006年利润100万元,2007年利润115万元,年增长率为15%。通过这种对比,我们就可以公司利润的变化情况有一个更直观、更清楚的认识。当然,在许多时候,这种对比分析不会局限在某一个数据,而是一组数据。比如,在对企业当年的利润与去年利润进行对比分析的同时,还可以将产量、销售量、销售额、成本、税金、市场占有量、占有率等指标进行对比分析,从而更全面了解掌握企业的发展现状。

二是将本单位数据与同行业(外单位、同行业平均水平)的数据进行对比分析,目的是为了搞清楚与外单位、同行业平均水平,本单位某一方面或各方面的发展水平处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。比如,2005年,某发电厂供电煤耗为340克/千瓦时,当年全国火电行业平均煤耗指标为310克/千瓦时,该发电厂的实际煤耗指标比全国火电行业平均煤耗多了30克/千瓦时。通过这样的对比分析,我们可以看出,该发电厂在能耗方面存在着比较突出问题,如何节能降耗应该成为企业下一步重点关注的一个工作内容,也是提高企业经济效益的一条重要途径。

为了一目了然地看出数据对比的直观效果,对比分析一般可用柱式图表表示。

趋势分析法

所谓趋势分析法,是指通过对某一个或几个数据在一定阶段的变化情况进行分析,从而发现该数据所代表事物的发展趋势和规律,并可进一步分析形成这种趋势的原因,为企业领导决策提供依据和参考。趋势分析法实际上是一种历史研究的方法,在企业数据分析的编写中,主要用来表示企业某一方面或某些方面的工作在一定时期内的发展趋势和规律。其特点是对某一时期的某一数据进行持续性考察,进而得出趋势性的结论。

一般说来,对数据进行趋势分析的结果不外乎以下四种情况:

一是某项数据的变化呈逐年加大的趋势,称为上升趋势。比如某企业利润额:2001年为150万元、2002年173万元、2003年220万元、2004年360万元、2005年500万元。从对这组数据的分析中可以得出结论:该企业的利润呈逐年上升的趋势。

二是某项数据的变化呈逐年减小的趋势,称为下降趋势。例某企业产品的市场占有率:2001年为30%、2002年24%、2003年15%、2004年9%、2005年6%。从对这组数据的分析中可以得出结论:该企业产品的市场占有率呈逐年下降的趋势,说明该产品的市场竞争力正在下降,企业应该对该产品进行升级换代,或者开发生产新的产品。

三是某项数据或上升或下降,每年都有较大变化,称为震荡趋势。比如某企业的经营成本:2001年为50万元、2002年83万元、2003年61万元、2004年46万元、2005年103万元。从对这组数据的分析中可以得出结论:该企业每年的经营成本变化较大,呈震荡趋势,说明企业在控制经营成本方面还要进一步采取措施。

四是某项数据几年来基本不变,或变化很小,称为稳定趋势。例如某企业的人均产值:2001年为60万元、2002年63万元、2003年61万元、2004年62万元、2005年63万元。从对这组数据的分析中可以得出结论:该企业的人均产值每年变化不大,呈稳定趋势。

为了更形象地看出数据在一定时期内的变化轨迹,对数据的趋势分析一般可以用曲线图表表示。

结构分析法

所谓结构分析法,就是通过分析数据的构成情况,即分析构成某一数据的各子数据的情况和权重,从而揭示构成某一事物的各方面因素在其中的作用大小和变化情况。结构分析法也是常用的企业数据分析方法,通过这一分析方法,有利于我们发现和把握事物的主要矛盾和矛盾的主要方面,对企业而言,可以据此确定工作重点或经营的主攻方向。

在实际工作中,当我们需要对企业的某一数据作深入分析时,常常需要用到结构分析法。例如我们分析某供电局利润的结构情况:2007年,企业利润为1000万元,其中主业占80%、三产占20%。这就是结构分析的方法,从中我们就可以清楚地知道,主业和三产对企业利润的贡献比例。在这个基础上,我们还可以作进一步的分析,在200万元的三产利润中:火电建设公司占35%、电力设计院占30%、电缆厂占15%、电表厂占10%、电杆厂占5%、宾馆占5%。从而我们可以看出火电建设公司和电力设计院两家对三产利润的贡献率达到了65%,是发展三产的主力军。从供电局的角度而言,抓好三产工作,重点是要抓好火电建设公司和电力设计院的工作。

为了直观地反映某一数据的构成情况,结构分析法一般采用圆饼图表来表示分析的结果。

综合分析法

在编写企业数据分析时,往往不是单一地使用一种数据分析方法,为了使数据分析更透彻、更深入,更多时候我们都需要采用综合分析的方法。所谓综合分析法,就是将以上两种或两种以上的分析方法结合起来使用,从而多角度、多层次地分析揭示数据的变化、趋势和结构情况,以增加数据分析的深度。

综合分析法在具体应用中,有以下几种情况:

一是对比分析与趋势分析相结合的方法。就是通过对两个或两组以上的数据在一定阶段的变化情况进行比较分析,从而发现数据所代表事物的发展趋势、差别和关系,并可进一步分析原因,为企业领导决策提供依据和参考。比如,我们可以使用这一方法来分析一定阶段企业利润和成本的变化和相互关系。再如,我们将“十五”期间本企业的利润指标与其他企业的利润指标进行比较分析,所应用的也就是对比分析与趋势分析相结合的方法。

二是对比分析与结构分析相结合的方法。就是对两个或两组以上的数据的构成情况进行分析比较,从而可以看出构成这两个或两组以上的数据的各种因素的差异性,以此剖析产生这种差异的原因,并提出相应的对策措施。比如,2006年,A供电局利润500万元,B供电局利润700万元。如果只采取对比分析的方法,我们获得的结论就是:“B供电局利润比A供电局多200万元”。结合结构分析:A供电局利润500万元中,主业为450万元,三产为50万元;B供电局利润700万元中,主业为560万元,三产为140万元。由此看出,A、B供电局在主业利润差距并不大,差距主要在三产上。因此,发展三产应成为A供电局利润增长的主要着力点。

三是趋势分析与结构分析相结合的方法。就是通过对构成某一数据的子数据在一定阶段的变化情况进行分析,从而揭示构成某一事物的各方面因素在其中的作用大小和变化趋势。比如,我们分析某企业一定阶段销售额及各种产品销售额的构成和变化情况,就可以使用这一方法。这样的分析既可以了解销售额的变化趋势,也可以全面掌握各种产品在销售额中的权重比例和变化趋势,从而知道哪些产品需要扩大生产,哪些产品需要减产或停产,什么时候需要开发新的产品。

数据分析的方法范文第6篇

关键词:大数据统计分析;经济管理领域;运用

统计应用作为数学的重要领域,在大多数情况下,数据被收集并且通过一定方法在系统中存储,重要策略被记录,并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成,大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争,使用财务管理的统计整合是提高有效管理效率,优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高,数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长政策时,技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加,其在管理中的用途正在进一步扩大。显然,加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。

一、大数据统计分析方法在经济管理领域运用的意义

为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面:

(一)宏观经济方面发展有若干规律。为了寻找有关经济发展的规律,强大的数据分析技术在宏观经济学中的应用非常重要。一方面,大数据分析统计数据用于从宏观经济发展行业收集数据,对相关行业信息进行实证分析,并调查行业发展和行业问题。使用SPS,Stata和其他数据分析软件,中国拥有最重要的发展法;同时,发现工业发展规律,规范工业发展,开辟新的经济发展方式也很重要[1]。

(二)企业经营管理方面1.提升企业竞争力的必然要求当前,业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略,并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面,诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总,为业务管理决策提供有效的信息。同时,企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作,例如运营财务管理、规避财务风险,因此需要建立相关部门的统计数据,以提高决策效率[2]。

二、大数据统计分析方法在经济管理领域的运用

利用大数据的统计数据分析技术研究宏观经济发展政策,对促进行业发展至关重要。另一方面,如何获取有关复杂数据管理的重要信息,在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法,并使用大数据统计分析技术来分类和提供业务流程管理,隐藏的规则以及来自异常数据点的大量信息。为了应对突发情况,管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法,以及业务管理、财务管理、风险管理和管理的六个方面。如:

(一)宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法,统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前,不仅学者,业务经理也开始了解计算机技术的使用,并开始通过统计分析来发现工业发展中的若干问题,学习工业发展的原理。为了找出答案,我们选择了相关的影响因素并采取了相应的行动,采取措施提高工业发展效率。

(二)企业运营管理方面通常,在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面,通过将统计信息应用于业务的运营和管理,公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源,避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的,则情况与正常情况不同的企业高管应仔细考虑潜在的风险。

(三)企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此,消费者的热点必须与受管理的信息系统对齐,以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作,可以满足消费者的需求,替代市场上的非反应性产品和服务。同时,开发新产品和服务企业领导者可以提供有效的决策信息,并为消费者创建新的热点[3]。

(四)企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据(尤其是财务数据),进行定性和定量分析,帮助评估相关活动,例如商业投资。财务管理是开展业务必不可少的部分,这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析,可以为高管、投资者和其他相关利益相关者提供有效的决策信息。

(五)企业人力资源管理方面将统计应用于公司的人力资源管理,并使用统计分析技术结合公司业务管理部门的特征,选择适当的方法来提高效率。人力资源管理很重要,人才基本上是企业的无形资产,在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求,动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。

(六)企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析,发现隐藏的规则和数据差异。重要的是,业务主管需要进行预测,做出正确的决定,解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪,则需要找出业务流程中具有的某些规则,因此业务主管需要寻找更多异常条件,尤其是财务管理,要注意关注状态的变化。另一方面,对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。

三、完善大数据统计分析方法在经济

管理领域运用的措施在本文中,我们将了解如何从六个方面分析大数据的统计数据:宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用:

(一)社会宏观经济层面尽管存在宏观经济法则,但根据过去的经验,由于缺乏安全可靠的数据和分析方法,宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会,大数据技术使用数据创建系统,而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是,某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战,可以提高宏观经济发展效率。

(二)企业经营管理层面在公司上载和数据受限的情况下,企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制,因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾,该公司可以调整其总体战略并进行业务变更以优化管理理念。

(三)行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司,其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质,分析社会经济状况,能够了解共同的业务条件和业务发展情况,并优化或区分劣质产品。在某些情况下,此更改是提高产品价格的高级更改,如果消耗量和消耗品减少,则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构,还在进行公司管理。但是,各个行业的业务方向取决于消费者的需求。换句话说,公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言,通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。

(四)企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效,但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出,并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据,公司可以预测潜在的市场和行业风险,以提供最佳解决方案,还可以提供分析大数据的方法,可以跟踪异常并快速发现异常。

四、结语

本文首先从宏观经济方面、企业经营管理方面等两个方面对大数据统计分析方法在经济管理领域运用的意义进行了分析,然后从宏观经济方面、企业运营管理方面、企业营销管理方面、企业财务管理方面、企业人力资源管理方面以及企业风险管理方面等方面对大数据统计分析方法在经济管理领域的运用进行了分析,最后从社会宏观经济层面、企业经营管理层面、行业与行业之间存在着一定的鸿沟以及企业财务管理层面等方面提出了完善大数据统计分析方法在经济管理领域运用的措施。大数据分析技术被广泛用于宏观经济预测、业务管理和公司风险管理,它在优化公司治理和运营结构,有效改善公司治理以及提高公司统一性和核心竞争力等方面发挥着重要作用,可以使公司在激烈的市场竞争中有一席之地。

【参考文献】

[1]张琳.大数据统计分析方法在经济管理领域中的运用浅析[J].营销界,2019(38):291-292.

[2]杜珉.大数据统计分析方法在经济管理领域中的运用探析[J].山西农经,2019(12):27.

[3]陈雪琴.大数据统计分析方法在经济管理领域中的应用[J].山西农经,2019(5):37.

[4]陈文怡.大数据挖掘电力系统项目管理中理论的应用[C]//2018年6月建筑科技与管理学术交流会.

数据分析的方法范文第7篇

关键词:数据分析应用率;分析应用点;四个层次;数据中心;仪表盘

中图分类号:N37 文献标识码:B 文章编号:1009-9166(2009)02(c)-0063-02

现代企业的决策往往是在整合大量信息资料的基础上制定出来的,对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比,数据利用的应用建设难度更大,它是随着管理水平而发展,同时又取决于业务人员的主观意识,这就决定了以数据利用为核心的应用建设不可能一蹴而就,而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作,经历过曲折,同时也有收获。经过多年的努力,工厂的数据分析应用工作开始进入良性发展阶段,笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。

一、工厂数据分析应用工作开展现状

工厂数据分析应用工作推进至今已有四五年的时间,从最初全面调研工厂数据量和数据分析应用状况,将数据分析应用率指标作为方针目标定量指标来考核,到后来将数据分析应用工作的推进重心从量向质转移,采用以项目为载体进行管理,着重体现数据分析应用的实效性,再到目前以分析应用的需求为导向,以分析应用点为载体,分层次进行策划。经过上述三个阶段,工厂数据分析应用工作推进机制得到了逐步的完善,形成了广度深度协同发展的信息资源利用管理框架。截止到目前,工厂数据分析应用率达到96%,四个层次的分析应用点共计100多个,数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展,有效推动了工厂管理数字化和精细化。2007年,工厂开始探索细化四个应用层次的推进脉络,进一步丰富工厂信息资源利用框架,形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。

1、第一层次现场监控层。第一层次现场监控层,应用主体是一线工人和三班管理干部,应用对象是生产过程实时数据,应用目标是通过加强生产过程控制,辅助一线及时发现生产过程中的异常情况,提高生产稳定性。例如制丝车间掺配工段的生产报警,通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作,对异常情况通过语音报警方式提醒挡车工进行异常处理;例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控,提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主,制丝车间每个工序、卷包车间每种机型的应用点都有所不同,为此我们建立了制丝车间以工序为脉络,卷包车间以机种为脉络的应用点列表,围绕脉络对第一层次应用点进行梳理,形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分,纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分,通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善,一线职工的知识、经验不断充实其中,第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准,同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层,应用主体是一般管理干部,应用对象是产质损、设备、动能等指标,应用目标是通过加强对各类考核指标的监控和分析,提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析,通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析,寻找其中规律及薄弱环节,并寻根溯源,采取措施,降低劣质成本。例如卷包车间的产量分析,通过对产量数据、工作日安排、计划产量进行统计和汇总,结合车间定额计划、作业计划和实际产量进行分析,寻找实际生产情况与计划间的差异,并分析原因。第二层次应用以管理人员个性化的分析为主,呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的,至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表,围绕脉络对第二层次应用点进行梳理,形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板,明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入,模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层,应用主体是项目实施者,应用对象是各类项目的实施过程,例如QC项目、六西格玛项目、质量改进项目,或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作,提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例,我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来,在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法,提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”,其五个阶段[2]D(定义)、M(测量)、A(分析)、I(改善)、C(控制),每个阶段都要求结合如FMEA(失效模式后果分析),SPC(统计流程控制),MSA(测量系统分析),ANOVE(方差分析),DOE(实验设计)等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层,应用主体是中层管理者,应用对象是专业性或综合性的分析主题,应用目标是通过专业科室设计的专题性分析模型或综合性分析模型,为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后,产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层,以此来正确地判断工厂的生产经营状况,是摆在我们眼前的一个突出问题。大家都有开车的经验,司机在驾驶车辆的时候,他所掌握的车况基本上是来自汽车的仪表盘,在车辆行使的过程中,仪表盘指针的变化,告知汽车的车速、油料、水温等的状况,驾驶员只要有效地控制这些指标在安全范围之内,车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂,建立工厂关键指标及运行管理仪表盘,将工厂的关键信息直观地列在上面,及时提醒各级管理人员工厂生产运营是否正常。

⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示,以工厂关键绩效指标为中心,支持统计分析和挖掘,可为中层管理者提供工厂关键绩效指标一门式的查询服务,使各业务部门寻找、阐释问题产生的原因,以有效监控各类关键绩效指标,及时采取改进措施,提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态,及时掌握故障情况,采取措施加以闭环,将因系统故障造成对用户的影响减至最小,确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统,中层管理人员上班一打开电脑进入系统,就能了解到当天及上一天各类系统的运转情况,发生了什么异常,哪些故障已经得到解决,哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上,由各专业科室思考专业条线上的分析主题,采用先进科学的理念和方法对数据进行分析和挖掘。近两年来,工厂充分发挥专业科室的优势和力量,相继设计和开发了工艺质量条线的六西格玛测评系统,设备条线的设备效能分析系统,还有质量成本核算与分析系统。通过这些分析主题的支持,工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息,及时采取相应措施,从而提升管理效率。

二、数据分析应用工作存在的不足及思考

工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进,每个层次的推进脉络已经逐步清晰和明朗,但事物发展到一定的阶段总会达到一个瓶颈口,目前工厂数据分析应用工作存在的问题及措施思考如下:

1、从推进手段上要突破信息条线,充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线,其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划,但是无论从工厂层面还是从车间层面来讲,单纯依靠信息条线从侧面加以引导和推进,使得数据分析应用工作始终在业务条线的边缘徘徊,与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作,调动起业务人员的积极性和主动性,突破现有的瓶颈,应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导,引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考;二是建立平台加强各车间同性质岗位之间的沟通与交流,均衡各个车间的数据分析应用水平和能力;三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来,专注于事务处理,将数据应用方面的功能完全交给数据中心来解决。目前,数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型,并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看,还比较局限于个别管理人员,追寻原因如下:一是业务系统开发根据用户需求定制开发报表,业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板,甚至可能需要将其导出再作二次处理,那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多,新进管理人员不熟悉数据中心应用,导致数据中心应用面受到限制。随着今后MES的建设,业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此,要尽快培养工厂业务人员数据中心的应用能力,包括数据获取以及报表定制方面的技能。笔者认为应对方法如下:一是对于岗位人员变更做好新老人员之间一传一的交接和培训;二是适时针对新进管理人员开展集中培训;三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表,围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的,以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用,工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作,工厂每年都会组织部门进行应用点的申报,并按项目管理的思想和方法实施,事先确立各个应用点的应用层次、数据获取方式、实现平台,并对其实施计划进行事先的思考和分解,确定每一个阶段的活动目标、时间节点以及负责人员,每个季度对实施情况予以总结,并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年,部门可供挖掘的应用点越来越少,如何调动部门的积极性,保持并提高应用点的实效性,我们有必要对新增分析应用点的质量和实施情况进行考评,考评标准为:一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性;二是新增分析应用点是否能切实提高管理的精细化和科学化水平;三是新增分析应用点是否能采用项目管理的思想和方法实施,按时间节点完成各项预定计划。

三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进,工厂业务人员用数据说话的意识已经越来越强,但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平,还有很长的路要走,这既需要我们的业务人员从自身出发提高应用数据的水平和能力,同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段,真正实现数据分析应用成为工厂管理的重要支撑手段。

作者单位:上海卷烟厂

参考文献:

数据分析的方法范文第8篇

关键词社会网络分析; 缺失数据; 缺失数据处理方法

分类号B841.2

DOI:10.16842/ki.issn2095-5588.2016.08.0021引言

“社会网络分析” (Social Network Analysis, SNA)是在人类学、社会学、心理学等众多领域中发展起来的研究个体之间关系结构的分析方法,是对社会关系进行量化分析的一门艺术和技术。SNA主要用于描述和测量个体之间的关系以及这些关系中所包含的资源、信息等,并根据这些关系建立模型,进而研究关系与行为之间的相互影响(刘军, 2004)。SNA从“关系”角度来揭示社会情境与嵌套于其中的个体的心理和行为的互动影响,即个体可以能动地构造他们的关系网络(选择效应,selection effect),同时这些关系又反过来影响个体的心理与行为(影响效应,influence effect)。因此,个体既形塑社会网络,也被社会网络形塑(刘军, 2006; 马绍奇, 2012; 马绍奇, 焦璨, 张敏强, 2011 )。在SNA中,反映个体之间关系的数据称为关系数据(relational data),通常的数据类型是0、1二分变量数据,即1表示两个行动者之间存在关系,0表示不存在关系(马绍奇, 2012)。

SNA从嵌入社会情境的个体之间的关系出发,分析群体结构及其与心理行为的相互作用,更能反映人际交往的社会性特点。如,运用SNA方法系统研究中学生班级的学习关系、友谊关系、咨询关系、信息交流关系等,运用SNA方法研究中学生的支持网络对中学生学业和心理健康等方面的影响。这不仅有利于从社会关系的视角理解学生人际关系的形成、特征和影响因素,还能及时掌握学生的心理动态,维护学生的心理健康(唐文清等, 2014)。但是,由于SNA的应用涉及到更多的人事物,数据的缺失是必然现象。研究者在SNA中常常会遇到数据应答率在65%至90%的情况(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于数据结构的依赖性,如果网络中的行动者或者关系存在缺失,就难以全面地描述缺失行动者及其邻近行动者的网络环境(Robins, Pattison, & Woolcock, 2004)。已有研究发现,缺失数据不仅对网络结构描述产生消极影响,还会低估关系强弱和聚类系数,并使得中心性和度数的测量出现不稳定的情况(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。这说明,网络结构描述和网络数据分析的结果会因为缺失数据而产生偏差。

心理技术与应用4卷

8期黄菲菲张敏强: 社会网络分析中缺失数据的处理方法

要使SNA方法得到更好的应用及认可,既要介绍理论及应用方法,同时还要解决方法使用中可能出现的各种问题。例如,在数据收集和研究结论的推广方面,如何在实际的应用分析中,完善相关的统计模型和参数估计方法的发展,如何提高数据收集的信效度,如何处理缺失值等问题(马绍奇, 焦璨, 张敏强, 2011; 焦璨, 吴换杰, 黄h娜, 黄菲菲, 张敏强, 2014)。由于社会网络数据的相互依赖性,对缺失数据的处理不能采用常规的缺失处理方法。本文就SNA中缺失数据的原因及缺失机制,比较分析了常用的四种缺失数据处理方法在实际应用中的优缺点,并就SNA中如何处理缺失数据提出建议。

2缺失数据的原因

21边界规范问题

边界规范问题指的是在网络研究中指定行动者或者关系之间包含的规则(Laumann, Marsden, & Prensky, 1983)。例如,学者在研究青少年的冒险行为过程中,想了解他们在学校里的人际关系情况。图1中的A、B、C、D是四位青少年在学校里的人际关系网络,E、F、G三位青少年虽然和A、B、C、D四位青少年的交往密切,但是学校外的人际关系与研究目的无关,因此,E、F、G三者和研究中的青少年的人际关系就容易被忽视(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。总体而言,边界规范是由研究者自行决定的。在实际包含网络的例子中,组织成员或者由位置界定的正式定义大部分取决于一个正式组织团队中成员占据的排列位置,例如一个学校最受欢迎的前10名老师或者一个班级成绩最好的前五名同学(Kossinets, 2006)。

社会网络是由行动者及行动者之间的关系组成的,因此研究者在规范网络边界时,除了需要考虑通过一组行动者来界定网络边界外,还要决定哪些关系应该纳入研究范围里。对于如何有效地规范网络边界,学者们提出了一个准则,即根据可测量行动者的交互作用确定。因此,研究中的网络边界被定义为该边界记录了在特定情境中行动者间的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,无论是情景还是交互作用的设置,研究者首先需要根据研究目的给出操作性定义,然后再确定在这个情境中包含哪些存在交互作用的行动者。随着电子科技时代的发展与进步,这个准则不再仅限于小网络,因为大规模的社会网络交互作用数据可以通过邮件传递或者虚拟社区的记录得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。

22固定选择的研究设计

固定选择的研究设计指的是网络中行动者和关系的缺失依赖于研究设计中提名选择的限定(Holland & Leinhard, 1973),即网络数据的偏差是由于研究设计造成的。假设图2中的行动者A属于Z团体,在这个团体中,他和其他5个行动者有关系,现研究者要求行动者A提名y个和他关系最好的行动者。如果y≤5,则行动者A和其他5个行动者之间的所有关系都包含在数据集中;如果y>5,则行动者会失去5-y个关系。例如,学者想研究班级的学业咨询网络对学生学业拖延的影响,要求学生提名2个在学习上遇到困难或疑问时会请教的同学。如果学生平时向同学请教问题的人数普遍都是3个,那么学者得到的学业咨询网络数据是有偏差的。因为在该网络中,大部分行动者(学生)都失去了1个关系。

在固定选择的研究设计中,会出现互惠提名(有关系的双方相互提名),非互惠提名(有关系的双方只有一方提名)和无提名(有关系的双方均不提名)三种情况。从本质上而言,非互惠提名和其他两种提名的情况不一样(例如:好朋友和普通朋友的区别),因此,研究者需要考虑是否将其纳入到研究范围内。固定选择的研究设计还容易使数据呈现非随机缺失的模式,如受欢迎的个体更有可能被其他行动者提名(Feld, 1991)。但是,在不同结构的网络中,这种影响会不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相称混合性(即受欢迎的行动者倾向于和不受欢迎的行动者相联系)的网络中,互惠提名将会导致更多关系缺失的情况出现。

23网络调查中的无应答

网络调查中的无应答包括应答者完全缺失和特定项目的数据缺失(Stork & Richands, 1992; Rumsey, 1993)。应答者完全缺失指的是行动者没有参与到调查研究中,因此行动者的发出关系对于分析而言是无效的(如图3所示,N表示缺失数据)。特殊项目的数据缺失指的是行动者参与了调查研究,但是在特定项目上的数据缺失,因此只有行动者的部分关系对于分析而言是无效的(如图4所示,N表示缺失数据)。例如,在一个关于学生情感咨询网络对学业成绩影响的调查中,要求学生提名3个班上的好朋友。图3中的A和D两位学生因事由请假没有参与此次研究,但图3应答者完全缺失是其余的学生在提名中提及到了A和D,所以A和D的无应答属于应答者完全缺失。如果A和D参与了调查研究(如图4),但是在提名中他们忽略了被提及的学生,即B提名了A,A没有提名B,则A和D的无应答属于特殊项目的数据缺失。对于1-模网络而言,即由一个行动者集合内部各个行动者之间的关系构成的网络(刘军, 2009),无应答对网络结构及统计指标的影响不大,但是对于存在多元交互作用情景的网络(例如,二元网络)而言,无应答可能会造成特定的影响(Robins, Pattison, & Woolcock, 2004)。例如,在一个隶属网络的调查研究中,假设研究者没有其他途径可以了解团队的任何信息,只能要求行动者报告他们隶属于哪个团队。如果任何一个行动者出现无应答的情况,那么可能会出现这个无应答行动者所隶属的团队缺失的情况。Huisman(2009)通过模拟研究发现,忽视网络调查中的无应答数据对社会网络的描述分析会造成消极的影响。进一步比较分析行动者无应答和特殊项目无应答的结果发现,特殊项目的无应答可能会造成更大的统计偏差。

网络调查中的无应答易导致行动者或者关系的缺失,但是网络环境中除无应答行动者以外的不完整观察行动者的部分信息仍然是有用的,如可利用这个信息来估计缺失状态的效果和分析不完整网络(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整观察行动者的部分信息还可用来估计行动者和网络的结构性能,并能给缺失数据机制提供参考。

和前两种缺失数据原因相比,无应答是社会网络调查中最经常出现的缺失情况。因此,有不少学者开始关注社会网络调查中无应答的缺失问题(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。

3缺失机制

不同的缺失数据来源,还涉及一个重要的问题,数据是否系统缺失。如果数据是系统缺失,那么缺失概率是否和观察变量(性质或属性)有关。已有研究表明,在社会网络中处理不同来源的缺失数据时,应考虑缺失机制以提高处理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。

缺失机制指的是数据的缺失概率和研究变量之间的关系(Schafer & Graham, 2002)。Rubin在1976年根据缺失引起的偏差程度定义了三种类型的缺失数据:完全随机缺失(Missing Complete At Random, MCAR),随机缺失(Missing At Random, MAR)和非随机缺失(Missing Not At Random, MNAR)。假设所有变量观测值Y中,完整的变量记为Yobs,缺失的变量记为Ymis。如果缺失概率和Yobs及Ymis相互独立无关,此类缺失称为MCAR。如果缺失概率和Yobs相关,和Ymis独立无关,则为MAR。MNAR是指缺失概率依赖于Yobs和Ymis。因为Ymis的未知性,研究者常常难以判断缺失数据属于哪种类型的缺失机制。叶素静,唐文清,张敏强和曹魏聪(2014)在对追踪研究中缺失数据处理方法及应用现状的分析中综述了三种类型缺失机制的粗略判断方法。

对于社会网络数据而言,完全随机缺失是指缺失概率和缺失关系的数值及观察数据(例如,行动者的属性)无关。在这种情况下,观察数据是原始观察值的一个随机样本,因此不存在系统偏差。随机缺失是指缺失概率和观察数据有关,但是和缺失关系的数值无关。尽管在这种情况下缺失数据会呈现出系统模式,但是这些模式是可控的,因为它们和样本中的观察数据有关。非随机缺失是指缺失概率不仅和观察数据有关,还和缺失关系的数值有关,这种类型的缺失数据会对统计分析的偏差程度造成很大的影响。因为在非随机缺失的情况下,应答者和无应答者之间的差异是由系统误差造成的,关于网络结构性质的统计指标将会受到影响(Costenbader & Valente, 2003)。

4缺失数据处理方法

41完整个案法

完整个案法,即删除部分已有的数据以保证所研究对象信息的完整性。完整个案法相当于行动者的列删除法,它不仅移除不完整观察行动者的列数据且一并移除该行动者的行数据,而移除行意味着在分析中移除不完整观察行动者和完整观察行动者之间的所有关系(Huisman & Steglich, 2008)。因此,使用完整个案法后用于分析的数据集是完整的,即每一个行动者既有接收的关系也有发出的关系。例如,图5(a)是一个班级情感关系网络的例子,其中有A、D、F三个无应答行动者,每一个无应答者都没有指向外部的情感关系,在观察网络的矩阵表达式中就会有几行缺失关系数据N,对数据进行完整个案法处理后,结果就会出现如图5(b)呈现的小网络。因此,完整个案法是在可完全观察行动者的小网络基础上进行分析处理的。nidaricˇ, Ferligoj和Doreian(2012)用完整个案法等多种缺失数据处理方法对社会网络区组模型中的无应答情况进行分析,结果发现,在小规模网络中,完整个案法对区组模型结构的稳定性影响最小。Robins, Pattison和Woolcock(2004)的研究结果则表明,完整个案法重新定义了网络边界:移除无应答行动者之后相当于生成了一个更小的网络。

完整个案法是一种加权方法,它丢弃了不完整个案的数据,对完整个案和缺失个案赋予了同样的权重。在分析的统计软件包里,完整个案法通常是默认处理缺失数据的方法。它最大的一个优点就是简便,缺点则是因为忽视不完整个案而丢失了大部分信息,很可能出现模型和数据无法拟合的情况。因此,只能在缺失概率较小的网络中使用完整个案法。Schafer和Graham(2002)认为,当无应答者是完全随机缺失时,完整个案法可能是有效的。然而,如果这个前提假设不成立,统计分析结果就会有偏差,因为剩余的行动者样本可能是不具有代表性的。也有学者认为,完全个案法从系统水平而言,严重损害了所有分析(Stork & Richards, 1992),且可能会暗中破坏社会网络模型的假设(Snijders, Bunt, & Steglich, 2010)。

42有效个案法

有效个案法是指忽略缺失的数据,只使用观测到的关系变量。有效个案法是直接对不完整数据进行分析,即根据SNA需要计算的统计值选择行动者的有效数据。例如,在一元统计分析中,在计算网络的平均数和标准差时,可以选择所有变量都完整观察的个体行动者的有效数据,而在计算网络的协方差或者相关系数时,则需要选择所有变量都完整观察的配对行动者的有效数据。

Littile和Rubin(1989)在探讨社会科学领域关于缺失数据处理的分析方法时,比较了完整个案法和有效个案法对网络的均值、方差、协方差及相关系数四个统计量的参数估计影响及二者的差异。研究结果表明,和完整个案法相比,使用有效个案法后,网络的均值参数估计值是无偏的。但是,其余三个统计量的参数估计值的偏差较大。随后,Little和Su(1989)进一步对两种方法的差异进行了详细的讨论,也得出了相同的结果。

有效个案法简单易行,和完整个案法相比,它的参数估计值较为精准。但是有效个案法具有较低的统计功效,且和没有缺失数据的网络参数估计值相比,存在很大的偏差。因此,研究者较少使用有效个案法对社会网络中的缺失数据进行处理。

43重建法

重建法指的是通过互惠关系来推断缺失连接的存在与否。重建法和插补法不一样,重建法在分析的过程中没有增加新的关系,它只是通过观察到的应答者的入度关系(即行动者接收的关系)来重建网络中无应答者的出度关系(即行动者发出的关系)。从本质上而言,即用已经报告的一个关系进行测量,且重建法仅允许两个人之间的关系。重建之后的网络中应答者和无应答者之间的关系是对称的。使用重建法对SNA中的缺失数据进行处理时,必须满足两个原则: (1)相似性,即应答行动者与无应答行动者之间的作答模式应具有相似性。因为重建法是通过应答行动者所描述的关系去构建无应答行动者的关系,所以两个行动者之间的应答模式不能存在系统的偏差;(2)可靠性,即应答行动者所描述的和无应答行动者之间的关系要确认是有效、可靠的(Stork & Richards, 1992)。自重建法提出以来,不少学者将其作为社会网络缺失数据常用的处理方法。Gabbay和Zuckerman(1998)在有向网络中,通过应答行动者报告的和无应答行动者之间的关系重建了网络中行动者之间的关系。Huisman和Steglich(2008)则用重建法研究了网络面板数据中的无应答缺失数据情况,结果表明重建法在构建完整的网络数据时几乎不会出现不收敛的问题。

一般而言,针对不同类型的网络,重建法的程序如下所示:

(1)在无向网络中,通过观察到的应答者之间的关系以及部分应答者和无应答者之间的关系对网络进行重构(Stork & Richards, 1992)。

(2)在有向网络中,通过对立关系来推断缺失关系。例如,对于应答行动者i和无应答行动者j,重建法假设行动者i描述的和行动者j之间的所有关系和行动者j所描述的关系是完全一致的,即研究者可以通过应答行动者i来插补对立关系的观察值,即ximpij=xji(Huisman, 2009)。

重建法最大的优点就是允许研究者最大化地利用有效信息去构建社会网络。有研究表明,当社会网络中存在缺失数据时,仅有437%的关系能够被解释,而使用重建法后,则能够解释缺失数据网络中897%的关系数据(Neal, 2008)。但是,重建法无法构建两个无应答行动者之间的关系。如果两个无应答行动者之间存在重要关系,研究者就无法使用重建法去正确地定义网络的结构。因此,需要用其它的插补方法来重建整个网络。例如,对于无应答行动者之间的所有关系,随机插补一个和观察密度成比例的关系,使重建网络中缺失关系的比例等于网络的观察密度。

44基于指数随机图模型的多重插补法

指数随机图模型(Exponential Random Graph Model, ERGM)又称为p

瘙 模型,是用来描述x分布情况的概率质量函数,其表达式为:

其中,q是网络的实值函数,常以θTz(x)的形式出现,z是网络的向量值函数,其取值为网络统计值。这些统计值也被称为结构统计值,用来描述网络中的结构,如连接、三方关系等的数量。θ是一个维度为p×1的向量参数(θ∈),ψ(θ)是一个常数,用于将函数值标准化(Koskinen, Robins, Wang, & Pattison, 2013)。

ERGM的原理是在综合了实测网络中的多种局部结构特征情况下来计算这些网络出现的可能性。具体过程为,首先使用马尔科夫链蒙特卡洛最大似然估计法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模拟出一个随机网络,然后将这个随机网络的参数与实测网络的参数进行对比,最后通过对比指标判断是否采纳结果。Robins(2009)用ERGM方法对有向社会网络数据进行分析时指出,如果模拟的随机网络不能很好地代表实测网络,那么参数将被调整并运用到下一次模拟中,且这样的循环可能至少要进行8000次,直到模拟网络能够很好地代表实测网络为止。

基于ERGM的多重插补法,指的是通过ERGM产生的多个插补值的向量代替每一个缺失数据的过程。例如,当网络数据中存在无应答的缺失数据时,基于ERGM的多重插补法则会将应答行动者和无应答行动者看作是两种不同类型的节点,然后区分应答者之间的关系以及应答者和无应答者之间的关系。最后,根据研究者的调查目的,对缺失数据进行相应的处理。如果无应答者是随机缺失,则在网络特定结构间同质性的前提下利用ERGM对缺失数据进行多重插补。如果无应答者是非随机缺失,且研究重点关注应答者的网络结构,则可以将包含无应答者相关关系的信息看作是外源变量,并使用标准的马尔科夫图模型进行分析(Koskinen, Robins, Wang, & Pattison, 2013)。

基于ERGM的多重插补法最大的优点是,不仅能有效地辨别应答者和无应答者之间的差异是由系统误差还是随机误差造成的,还可以在缺失数据是随机缺失的情况下,最大化地利用观察到的数据信息。基于ERGM的多重插补法从本质上而言是通过网络的局部结构去推断整体结构。因此,即使数据有较大的缺失概率,只要网络有足够数量的局部网络子结构,就能够通过观察到的数据进行有理的推断。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插补法对一个合作关系社会网络中的缺失数据进行处理,实证及模拟研究结果表明,这种基于模型的多重插补法能够正确地解释网络中80%的关系数据及允许有三分之一数据缺失的情况。但是,这种方法最大的缺点是运算过程较复杂,耗时较长。

5问题与展望

缺失数据对社会网络数据分析造成的消极影响主要体现在以下两个方面:(1)减少的样本量大小、行动者及关系的信息易导致模型和数据出现不拟合的情况;(2)缺失数据容易造成参数估计的偏差。例如,Kossinet(2006)和Huisman(2009)的研究发现,缺失数据会使社会网络数据分析的结果产生偏差,因为缺失数据不仅对网络结构描述产生消极影响,还会低估行动者之间的关系强弱和网络的聚类系数,容易造成中心性和度数测量不稳定的情况。因此,缺失数据是SNA广泛应用面临的严峻问题。

从表1的四种缺失处理方法的适用条件比较中可看到,缺失数据处理方法的选择和缺失概率、缺失机制存在较大的关联。进一步比较四种方法的优缺点可以发现,当缺失数据是完全随机缺失时,四种方法的参数估计是无偏的。当缺失数据是非随机缺失时,完整个案法和有效个案法虽简单易行,但容易导致信息的大量流失及具有较低的统计功效和较大的参数估计偏差。其中,和完整个案法相比,有效个案法在参数分布估计方面的偏差要略小,因为有效个案法分析的是全体有效样本的数据。但在其它参数估计方面,两种方法都出现了较大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插补法在非随机缺失的情况下,可以忽略缺失机制的影响而直接在缺失概率较小(20~30%)的网络中应用,两种方法在参数估计方面没有表现出太大的偏差,但是如果网络中的缺失概率较大时,两种方法会受到缺失机制的影响。

当数据是随机缺失时,重建法具有较好的统计功效,对社会网络进行描述性分析时,如计算网络的平均度数、互惠性和传递性等网络统计特征值,即使缺失概率达到50%,重建法仍然能够表现良好(Huisman, 2009)。但重建法只能用于特定网络的数据缺失处理,且在某些情况下会高估连接的数量。虽然,在社会网络中的数据缺失概率不大时,重建法和基于ERGM的多重插补法均没有太大的差异,但是后者能够利用插补值间的差异来衡量估计结果中不确定性的大量信息。和重建法一样,当社会网络中的缺失数据样本量在中等范围以下时,基于ERGM的多重插补法具有较小的参数估计偏差且不会低估标准误,但这种方法唯一的缺点就是运算过程复杂,需要做大量的工作来构建插补集以便于进行结果分析,且当缺失数据样本量大时,模拟网络和实测网络可能会出现不拟合的情况。

就应用现状而言,国内目前还没有关于SNA中缺失数据的处理方法这方面的研究,而国外的应用从2003年至今稳定增长(Butts, 2003; Robins et al., 2004; Kossinets, 2006; Gile & Handcock, 2006; Handcock & Gile, 2007; Koskinen, 2007; Smith & Moody, 2013)。

根据缺失数据处理方法的优缺点比较和应用现状的分析,对其在心理学研究中的应用提出以下建议:

(1)在数据收集期间,应报告缺失数据的原因及缺失概率(同时报告网络样本的大小)的情况,以便于为后期缺失数据处理方法的选择提供参考;

(2)在数据分析期间,缺失数据处理方法的选择应该建立在缺失机制这一前提假设基础上。当数据是完全随机缺失时,如果网络数据样本大,建议选择较为简单易行的完整个案法和有效个案法。反之,则建议选择重建法或者基于ERGM的多重插补法;当数据是非随机缺失时,如果数据的缺失概率较小,建议选择重建法或者基于ERGM的多重插补法,如果数据的缺失概率较为严重,则无论选择任何方法,参数估计都会出现较大的偏差;当数据是随机缺失时,建议选择基于ERGM的多重插补法。

参考文献

蔡亚华, 贾良定, 尤树洋, 张t, 陈艳露(2013). 差异化变革型领导对知识分享与团队创造力的影响: 社会网络机制的解释. 心理学报, 45(5): 585-598.

侯珂, 邹泓, 刘艳, 金灿灿, 蒋索(2014). 同伴团体对青少年问题行为的影响: 一项基于社会网络分析的研究. 心理发展与教育,30 (3): 259-267.

焦璨, 吴换杰, 黄h娜, 黄菲菲, 张敏强(2014). 网络自相关模型在心理学研究中的作用――以同群效应、学习动机对青少年学业表现的影响. 心理学报, 46(12), 1933-1945.

刘军(2004). 社会网络分析导论. 北京: 社会科学文献出版社.

刘军(2006).法村社会支持网――一个整体研究视角. 北京: 社会科学文献出版社.

刘军(2009). 整体网分析讲义――UCINET软件使用指南. 上海: 格致出版社.

李永强, 黄姚(2014). 个性特征与社会网络特征的关系及其本土化发展. 心理科学进展, 22(11): 1801-1813.

马绍奇, 焦璨, 张敏强(2011). 社会网络分析在心理研究中的应用. 心理科学进展, 19(5): 755-764.

马绍奇(2012). 班级社会网络分析及其与人格特质、心理健康的关系. 广州: 华南师范大学教育科学学院.

唐文清, 钟阳, 张敏强, 叶素静, 刘晶, 黄兆峰(2014). 社会网络分析法在中学生班级友谊关系研究中的应用. 心理研究, 7(5): 42-50.

徐伟, 陈光辉, 曾玉, 张文新(2011). 关系研究的新取向: 社会网络分析. 心理科学, 34(2): 499-504.

叶素静, 唐文清, 张敏强(2014). 追踪研究中缺失数据处理方法及应用现状分析.心理科学进展, 22(12): 1985-1994.

张辉华(2014). 个体情绪智力与任务绩效: 社会网路的视角. 心理学报, 46(11): 1691-1703.

Albrecht, T. L. (1984). Managerial communication and work perception. In R. Bostrom(Ed.), Communication yearbook8(pp. 538-552). Beverly Hills: Sage.

Borgatti, S.P., & Molina, J.L.(2003). Ethical and strategic issues in organizational social network analysis. Journal of Applied Behavioral Science, 39(3), 337-349.

Burt, R.S.(1987). A note on missing network data in the general social survey. Social Networks, 9(1), 63-73.

Butts, C.(2003). Network inference, error, and informant(in) accuracy: a Bayesian approach. Social Networks, 25(2), 103-140.

Costenbader, E., & Valente, T.W.(2003). The stability of centrality measures when networks are sampled. Social Networks, 25(4), 283-307.

Daniel, W.W. (1975). Nonresponse in sociological surveys: a review of some methods for handling the Problem. Sociological Methods & Research, 3(3), 291-307

Dean, J.J.W., & Brass, D. J.(1985). Social interaction and the perception of job characteristics in an organization. Human Relations, 38(6), 571-582.

Ebel, H., Mielsch, L.I., & Bornholdt, S.(2002). Scalefree topology of email networks.Physical Review E 66, 035103, 1-4.

Feld, S.L.(1991). Why your friends have more friends than you do. American Journal of Sociology, 96(6), 1464-1477.

Gabby, S.S., & Zuckerman, E.W. (1998). Social capital and opportunity in corporate R&D: The contingent effect of contact density on mobility expectations. Social Science Research, 27(2), 189-197.

Gile, K., & Handcock, M.S.(2006). Modelbased assessment of the impact of missing data on inference for networks. Unpublished manuscript, University of Washington, Seattle.

Guimera, R., Danon, L., DiazGuilera, A., Giralt, F., & Arenas, A.(2003). Selfsimilar community structure in organisations. Physical Review E, 68: 065103.

Handcock, M.S., & Gile, K.(2007). Modeling social networks with sampled or missing data. Unpublished manuscript, University of Washington, Seattle.

Holland, P.W., & Leinhard, S.(1973). Structural implications of measurement error in sociometry. Journal of Mathematical Sociology, 3(1), 85-111.

Holme, P., Edling, C.R., & Liljeros, F.(2004). Structure and timeevolution of an Internet dating community. Social Networks, 26(2), 155-174.

Huisman, M., & Steglich, C.(2008). Treatment of nonresponse in longitudinal network studies. Social Networks, 30(4), 297-308.

Huisman, M.(2009). Imputation of Missing Network Data Some Simple Procedures Journal of Social Structure, 10(1), 1-29.

Koskinen, J., Snijders, T.A.B.(2007). Bayesian inference for dynamic network data.Journal of Statistical Planning and Inference, 137(12), 3930-3938.

Koskinen, J. H., Robins, G. L., & Pattison, P.E.(2010). Analysing exponential random graph(pstar) models with missing data using Bayesian data augmentation. Statistical Methodology, 7(3), 366-384.

Koskinen, J. H., Robins, G. L., Wang, P., & Pattison, P.E.(2013). Bayesian analysis for partially observed network data, missing ties, attributes and actors. Social Networks, 35(4), 514-527.

Kossinets, G.(2006). Effects of missing data in social networks. Social Networks, 28(3), 247-268.

Laumann, E.O., Marsden, P.V., & Prensky, D.(1983). The boundary specification problem in network analysis. In Burt, R.S., Minor, M.J(Eds.) (pp. 18-34). London: Applied Network Analysis Sage Publications.

Little, R.J.A., & Rubin, D.B.(1989). The analysis of social science data with missing values. Sociological Methods & Research, 18(2-3), 292-326.

Little, R.J.A., & Su, H. L.(1989). Item nonresponse in panel surveys. In D. Kasprzyk, G. Duncan, and M. P. Singh(Eds.)(pp.400-425).New York: John Wiley & Sons.

Moch, M. K. (1980). Job involvement, internal motivation, and employees integration into networks of work relationships. Organizational Behavior and Human Performance, 25(1), 15-31.

Monge, P. R., Edwards, J. A., & Kirste, K. K.(1983). Determinants of communication network involvement: Connectedness and integration.Group & Organization Management, 8(1), 83-111.

Newman, M.E.J.(2002). Assortative mixing in networks. Physical Review Letters, 89(20), 1-4.

Neal, J. W.(2008). “Kracking” the missing data problem: applying krackhardts cognitive social structures to schoolbased social networks. Sociology of Education, 81(2), 140-162.

Robins, G., Pattison, P., & Woolcock, J.(2004). Missing data in networks: exponential random graph(p*) models for networks with nonrespondents. Social Networks, 26(3), 257-283.

Robins, G.L., Pattison, P.E., & Wang, P.(2009). Closure, connectivity and degrees: new specifications for exponential random graph(p*) models for directed social networks. Social Networks, 31(2), 105-117.

Roberts, K. H., & OReilly, C. A.(1978). Organizations as communication structures: an empirical approach. Human Communication Research, 4(4), 283-293.

Roberts, K. H., & OReilly, C. A.(1979). Some correlations of communication roles in organizations. Academy of Management Journal, 22(1), 42-57.

Rubin, D.B.(1976). Inference and missing data. Biometrika, 63(3), 581-592.

Rumsey, D.J.(1993). Nonresponse models for social network stochastic processes. Unpublished doctorial dissertation. The Ohio State University.

Schafer, J.L., & Graham, J.W.(2002). Missing data: our view of the state of the art.Psychological Methods, 7(2), 147-177.

Snijders, T.A.B., Bunt, G.G., & Steglich, C.E.G.(2010). Introduction to stochastic actorbased models for network dynamics. Social Networks, 32(1), 44-60.

Snith, J.A., & Moddy, J. (2013). Structural effects of network sampling coverageⅠ: nodes missing at random. Social Networks, 35(4), 652-668.

Stork, D., & Richards, W. D.(1992). Nonrespondents in communication. Network Studies: Problems and Possibilities. Group & Organization Management, 17(2), 193-209.

Valente, T.W., Fujimoto, K., Unger, J.B., Soto, D.W., & Meeker, D.(2013). Variations in network boundary and type: a study of adolescent peer influences. Social Networks, 35(3), 309-316.

数据分析的方法范文第9篇

关键词:数据质量;可用性;评估方法

中图分类号:TP315 文献标识码:A 文章编号:1006-8937(2015)15-0062-02

随着大数据时代的来临,数据集合中劣质数据也随之大量产生,导致信息数据整体质量下降,数据的有效使用受到了极大限制。为了更加有效发挥各行各业大数据的作用,开展数据可用性研究具有较大的战略意义。

1 数据可用性定义

研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下:

①数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。

②数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。人们对数据进行操作的各个环节都可能影响数据准确性。

③数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。

④数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。

⑤实体的同一性:指同一实体在各种数据源中的描述统一。

一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。

2 评估方法分析

对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。

2.1 基于一致性的方法

文献[1]针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。

文献[2]从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。

文献[3]针对P2P分布存储系统中大型数据对象面临的数据一致性问题,提出了数据一致性维护方法PLCP。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法DACP和KACP。

文献[5]从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。

基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。

2.2 基于精确性的方法

数据精确性方面的研究结果比较少见,文献[6]从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。

2.3 基于完整性的方法

针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在DBLP数据上的实验验证了算法的有效性和高效性。

在具体应用领域,张少敏等利用IEC61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。

Barcelo P等将传统的完整性理论扩展到XML数据上,讨论了不完整XML数据的表示问题。

另外,针对云存储服务中数据的完整性问题,一些研究者提出了PDP 和POR。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。

基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。

2.4 基于时效性的方法

文献[7]针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。

文献[8]研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.

在建筑能耗领域,文献[9]通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。

基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。

2.5 基于实体同一性的方法

实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。

针对实体同一性方面的相关技术,包括实体识别的效率问题、识别的增量计算、半结构化数据上的实体识别等,文献[4] 展开了相对完整的讨论。

对于实体统一性的评估方法大多针对关系数据,针对复杂结构数据、半结构化数据、非机构化数据方面的研究还很少。

3 结 语

在大数据时代,数据量急剧增长,数据的可用性问题将严重影响基于数据的知识和决策。确保大数据的可用性是进行大数据分析、处理的关键基础,将直接关系到大数据价值的体现。本文针对数据质量问题,从数据可用性的角度,介绍并分析了目前国内外基于单个属性的数据质量评估方法,将有助于促进大数据可用性的研究。

参考文献:

[1] 刘仕一,李涛,刘哲哿,等.异地备份系统数据一致性检测方法[J].计算机工程与设,2010,(17).

[2] 周婧,王意洁,阮炜,等.面向海量数据的数据一致性研究[J].计算机科学,2006,(4).

[3] 周婧.P2P分布存储系统中海量数据的数据一致性维护技术研究[D].长沙:国防科学技术大学,2007.

[4] 刘显敏,李建.中实体识别问题的相关研究[J].智能计算机与应用,2013,(2).

[5] Mattia Monga,Sabrina Sicari.Assessing Data Quality by a Cross-Layer

Approach[D].Ultra Modern Telecommunications & Workshops,2009.

[6] Cheng R,Chen J,xie X.Cleaning uncertain data with quality guarant-

ees[J].Proceedings of the VLDB Endowment,2008,(1).

[7] 杨超,吴爱荣.基于衰减因子的评价数据时效性处理方法[J].计算机工程与设计,2010,(3).

数据分析的方法范文第10篇

【关键词】交通事故 预测方法 回归分析预测法

所谓的交通事故预测是根据已发生交通事故的数据进行统计,在对事故原因进行分析的基础上,探寻事故规律,以针对交通事故做出更为合理的推测和判断。当前,交通事故预测方法相对较为多样,如回归分析、时间序列等,虽然都能对交通事故做出科学合理的决策性指导,但各具优缺点和适用条件,因而有关人员应在遵循交通事故预测思想的基础上,对几种主要预测方法进行分析,确保交通部门人员能够根据实际情况而合理选择交通事故预测方法。

1 交通事故预测思想

交通事故对人类造成的危害相对较大,对人类产生严重的威胁。从我国发展实践中可知,交通事故在一定程度上制约我国经济的发展进程,尤其对人类社会福利、医疗保险等方面的影响较大。据不完全统计,2015年全年间,我国交通事故约为10597358起,死亡人数约为68432人,财产损失高达10亿元以上。可见,交通事故威胁隐患相对较大。交通事故预测能够根据已发生交通事故进行统计、分析、处理,在遵循规律的基础上,对未来可能发生的交通事故作出科学合理的预测,该预测结果以科学逻辑推断为基础。就交通事故原因而言,道路环境、交通条件、车辆、驾驶员等都是影响因素。通过交通事故预测,我国交通部门人员能够对交通事故作出科学合理的判断和制定有效的预防策略,以最大限度降低和消除交通事故隐患。

2 交通事故主要预测方法

2.1 回归分析预测法

回归分析预测法在交通事故预测中的有效应用,主要分为线性回归和非线性回归两种方法。首先,背景交通工程研究所人员提出线性回归分析预测法,通过对自变量和因变量之间关系问题的探讨,对因变量趋势加以预测,其模型为:

Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。

其中X1-X11分别表示临时人口、常住人口、机动车辆、自行车、道路长度、道路面积、灯控路口、交通标志、交通标线、失控部位、交警人数。

其次,英国伦敦大学SemeedR.J教授对欧洲国家十余载的交通事故资料进行研究,提出非线性回归分析预测法。对此,他建立幂函数曲线事故模型,

即:D=0.0003。其中D为交通事故死亡人数;N是机动车保有量;P为人口数量。

回归分析预测法能够对交通事故影响因素间的因果关系加以反应,以达到预测结果的目的,但对变化趋势的反应可能较为迟钝。该预测方法适用于样本量较大、数据波动小和极具规律性的预测实践中。

2.2 时间序列预测法

时间序列预测法主要有两种类型,分别为移动平均预测法和指数平滑预测法。首先,移动平均预测法是比较简单的平滑预测技术,通过计算项数时序平均值,对长期发展趋势变化做出科学合理的预测。内蒙古科技大学韦丽琴、徐勇勇利用时间序列ARIMA模型做出科学合理的预测分析,对交通事故加以预测。其次,指数平滑预测法的通式为:

Ft+1=αxt+(1-α)Ft

时间序列预测法属于定量预测方法,拟合效果良好,但在短期预测中,受诸多因素干扰影响较大,使预测结果具有不确定性。该方法适用于国内县区等区域范围较小的预测实践中。

2.3 灰色马尔科夫链预测法

道路交通系统属于动态时变系统,但影响交通安全的因素多且复杂。在灰色马尔科夫链预测法的指导下,相关人员能够通过灰色预测模型,做出短期预测,以缩小预测区间,提高预测效率。云南交通职业技术学院王刚对灰色马尔科夫链预测法而建立模型,对交通事故进行预测,根据实践可知,基于该模型的预测精确度十分高,取得良好的预测成效。

灰色预测以短期预测为主,马尔科夫链预测以长期预测为主,通过二者结合,可提高预测精度,但如若数据变化大,则灰色模型的吻合度和精度下降。借助该预测方法,能够对状态下的转移规律加以预测,并揭示交通事故时序变化总趋势。

2.4 贝叶斯预测法

贝叶斯预测法主要相对于交通事故中的车速问题而言。在交通事故中,车速是重要影响因素,如若车辆速度过快,则驾驶员反应的时间较少,其应急策略不足,造成重大交通安全隐患。贝叶斯预测法能够对未来交通事故发生的可能性进行预测。该预测方法应用中,必须建立在交通事故和车速有关联的基础之上,有助于交通部门人员更好开展数据统计和交通流进行观测。

2.5 灰关联分析及神经网络预测法

就灰关联分析及神经网络预测法而言,哈尔滨工业大学交通研究所和中国城市规划设计研究院的裴玉龙与张宇提出该方法,旨在通过交通事故影响因素分析,对事故进行进一步解析,并建立合理的模型理论和确定预测指标,对未来交通事故发展趋势加以预测。该预测方法的适应性较强,在我国交通事故预测工作实践中有着较为有效的运用,可解决传统预测方法难以解决的问题,建立在BP网络基础之上,并利用计算机开展辅计算活动。

2.6 多层递阶预测方法

多层递阶预测方法能够规避传统统计预测方法的缺陷,以现代控制理论“系统辨识”为重要基础,对对象的未来状态做科学的预测。动态系统数学模型为:y(k)=。在交通事故预测中,多层递阶预测方法是大数据时代背景下的重要处理方式,有利于增强预测效果。

3 结论

交通部门对交通事故进行合理的预测,有利于提高道路交通系统的安全系数。所以,相关人员合理选择交通事故预测方法具有必要性,为规避交通事故而做出科学合理的决策。目前,使用较多的交通事故预测方法主要有:回归分析预测法、时间序列预测法、灰色马尔科夫链预测法、贝叶斯预测法、灰关联分析及神经网络预测法等,因其各具优缺点和适用条件,因而要求相关人员必须对系列问题进行深入探究,确保公路交通事故预测的有效性。

参考文献

[1]李景文,高桂清.交通事故预测分析[J].中国安全科学学报,2015,6(01):20-23.

[2]刘志强.道路交通事故预测方法比较研究[J].交通与计算机,2013,19(05):7-10.

[3]韦丽琴,徐勇勇.ARIMA模型在交通事故预测中的应用[J].包头医学院学报,2014,4(20):287-288.

数据分析的方法范文第11篇

关键词:大数据;数据分析;数据挖掘

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02

1 综述

1.1 简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。

但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

参考文献

数据分析的方法范文第12篇

关键词:数据质量;可用性;评估方法

随着大数据时代的来临,数据集合中劣质数据也随之大量产生,导致信息数据整体质量下降,数据的有效使用受到了极大限制。为了更加有效发挥各行各业大数据的作用,开展数据可用性研究具有较大的战略意义。

1 数据可用性定义

研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下:

①数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。

②数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。人们对数据进行操作的各个环节都可能影响数据准确性。

③数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。

④数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。

⑤实体的同一性:指同一实体在各种数据源中的描述统一。

一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。

2 评估方法分析

对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。

2.1 基于一致性的方法

文献[1]针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。

文献[2]从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。

文献[3]针对p2p分布存储系统中大型数据对象面临的数据一致性问题,提出了数据一致性维护方法plcp。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法dacp和kacp。

文献[5]从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。

基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。

2.2 基于精确性的方法

数据精确性方面的研究结果比较少见,文献[6]从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。

2.3 基于完整性的方法

针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在dblp数据上的实验验证了算法的有效性和高效性。

在具体应用领域,张少敏等利用iec61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。

barcelo p等将传统的完整性理论扩展到xml数据上,讨论了不完整xml数据的表示问题。

另外,针对云存储服务中数据的完整性问题,一些研究者提出了pdp 和por。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。

基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。

2.4 基于时效性的方法

文献[7]针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。

文献[8]研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.

在建筑能耗领域,文献[9]通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。

基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。

2.5 基于实体同一性的方法

实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。

数据分析的方法范文第13篇

关键词:数据库 查询优化 查询 优化

0 引言

随着计算机应用的深入,计算机技术的成熟,各种应用软件的普及,应用数据也随着日常工作而迅速增长,作为数据仓库的数据库的重要性也日益显著。

数据库系统作为管理信息系统的核心,各种基于数据库的联机事务处理以及联机分析处理正慢慢的转变成为计算机应用的最为重要的部分,根据以往大量的应用实例来看,在数据库的各种操作中,查询操作所占的比重最大,而在查询操作中基于SELECT语句在SQL语句中又是代价最大的语句。如果在使用中采用了优秀的查询策略,往往可以降低查询的时间,提高查询的效率,由此可见查询优化在数据库中的重要性。本文就数据库查询优化中的策略进行介绍及探索。

1 基于索引的优化

数据库的优化方法多种多样,不同的方法对提高数据库查询效率也不相同。

索引作为数据库中的重要数据结构,它的根本目的就是为了提高查询的效率。而优化查询的重要方法就是建立索引,建立适合关系数据库系统的索引,这样就可以避免表扫描,并减少了因为查询而造成的输入输出开销,有效提高数据库数据的查询速度,优化了数据库性能。然而在创建索引时也增加了系统时间和空间的开销。所以创建索引时应该与实际查询需求相结合,这样才能实现真正的优化查询。

1.1 判断并建立必要的索引 对所要创建的索引进行正确的判断,使所创建的索引对数据库的工作效率提高有所帮助。为了实现这一点,我们应做到以下要求:在熟记数据库程序中的相关SQL语句的前提下,统计出常用且对性能有影响的语句;判断数据库系统中哪些表的哪些字段要建立索引。其次,对数据库中操作频繁的表,数据流量较大的表,经常需要与其他表进行连接的表等,要进行重

点关注。这些表上的索引将对SQL语句的性能产生重要的影响。

1.2 对索引使用的一些规则 索引的使用在一些大型数据库系统中会经常使用到,这样可以有效的提高数据库性能,使数据库的访问速度得到提高。但索引的使用要恰倒好处,所以我们在使用索引时应遵守使用原则:建立索引可以提高数据库的查询速度,但索引过多,不但不能实现优化查询,反而会影响到数据库的整体性能。索引作为数据库中实际存在的对象,每个索引都要占用一定的物理空间。所以对于索引的建立要考虑到物理空间容量,以及所建立索引的必要性和实用性。

1.3 合理的索引对SQL语句的意义 索引建立之后,还要确保其得到了真正的使用,发挥了其应有的作用。首先,可以通过SQL语句查询来确定所建立的索引是否得到了使用,找出没有使用到的索引。分析索引建立但没有使用的原因,使其真正发挥作用。其次,索引得到使用以后,是否得到了预期的效果,对数据库的性能是否实现了真正意义上的提高,只有合理的索引才能真正提高数据库的性能。

2 优化SQL语句

在使用索引时可以有效的提高查询速度,但如果SQL语句使用不恰当的话,所建立的索引就不能发挥其作用。所以我们应该做到不但会写SQL,还要写出性能优良的SQL语句。下面,就如何优化引用例子进行说明。

首先,在进行查询时,返回的值应该是查询所需要的。在查询中应该尽量减少对数据库中的表的访问行数,使查询的结果范围最小,这就意味着在查询时,不能过多的使用通配符,如:select*from table1语句,而应该做到最小化查询范围,要查询几行几列就选择几行几列,如:select col1 from table1;多数情况下,用户并不需要查询到的所有数据,而只是部分或靠前的数据时,我们也可以通过SQL语句来进行限制查询的结果,如:select top 50 col1 from table1。

其次,对于一些特殊的SQL语句,在使用时应正确选择。我们用一组例子来说明,如:EXISTS,NOT EXISTS。

语句一:select sum(t1.c1) from t1 where((select count(*)from t2 where t2.c2=t1.c2)>0)

语句二:select sum(t1.c1) from t1 where exists(select*from t2 where t2.c2=t1.c1)

两个语句所得到的结果相同,但,语句二的效率要远高于语句一,因为语句一在查询中产生了大量的索引扫描。

在对数据库查询时,所使用的语句多种多样,但选择恰当的的字句能够有效的提高查询效率。

最后,WHERE子句在使用时应该注意的问题。

在WHERE子句中可以使用exist 和not exist代替in和not in。应该尽量避免使用in,not in,or 或者having。可以使用表链接代替 exist。Having可以用where代替,如果无法代替可以分两步处理。

3 其他优化方法

数据库的查询优化方法不仅仅是索引和SQL语句的优化,其他方法的合理使用同样也能很好的对数据库查询功能起到优化作用。我们就来列举几种简单实用的方法。

3.1 避免或简化排序 应当简化或避免对大型表进行重复的排序。当能够利用索引自动以适当的次序产生输出时,优化器就避免了排序的步骤。

3.2 避免相关子查询 如果在主查询和WHERE子句中的查询中同时出现了一个列的标签,这样就会使主查询的列值改变后,子查询也必须重新进行一次查询。因为查询的嵌套层次越多,查询的效率就会降低,所以我们应当避免子查询。如果无法避免,就要在查询的过程中过滤掉尽可能多的。

3.3 创建使用临时表 在表的一个子集进行排序并创建临时表,也能实现加速查询。在一些情况下这样可以避免多重排序操作。但所创建的临时表的行要比主表的行少,其物理顺序就是所要求的顺序,这样就减少了输入和输出,降低了查询的工作量,提高了效率,而且临时表的创建并不会反映主表的修改。

3.4 用排序来取代非顺序存取 磁盘存取臂的来回移动使得非顺序磁盘存取变成了最慢的操作。但是在SQL语句中这个现象被隐藏了,这样就使得查询中进行了大量的非顺序页查询,降低了查询速度,对于这个现象还没有很好的解决方法,只能依赖于数据库的排序能力来替代非顺序的存取。

4 结论

对于数据库的优化,我们要抓住关键问题,提出改善查询效率,这样才能真正使数据库服务得到根本提高。本文在对数据库查询优化的方法上,进行了分析,提出了部分见解,有效的提高数据库查询效率。

参考文献

[1]王珊,孟小峰 《数据库系统导论(第七版)》 机械工业出版社.2000年10月

数据分析的方法范文第14篇

【关键词】电力企业 CIM模型 数据集成 问题 方法

国际电工委员会对CIM模型,即公共信息模型,做出了详细的定义,指出了CIM模型是对电力系统各实体做出详细定义的可拓展、剪裁的数据模型,并在多次的试验中证明了CIM模型有利于实现数据的交换与集成。只要实现各数据源实体数据模型向CIM模型的有效映射,便能对异构数据的共享、集成问题做出合理的处理,并且可促使数据交换接口开发成本的最小化。然而目前我国在以CIM模型给新老系统提供数据服务方面的研究还比较少见,因此,对于CIM下电力企业数据集成方法的研究与创新具有十分重要的现实意义。

1 电力企业数据集成的现状与问题

生产管理系统、客户信息系统、客户关系系统等为电力企业提供了主要的数据源。随着电力企业管理模式向资产管理的转变,给数据系统对地理信息、设备台账等的统一整合提出了更高的要求。GIS信息系统实现了电力系统资源空间、电气等属性与图数模的有机融合,涉及了电力企业中的各个业务部门,为电力企业的地理空间数据、电网运行数据以及电网拓扑等的联系创造了良好的桥梁,成为了电力企业当下主要应用到的系统模式,也是电力企业中最为重要的信息源。

目前电力企业中信息技术的官方应用促进企业中运行着不同类型的软件系统,并且不同的职能部门也在独立完成业务的过程中逐渐形成了各自的业务系统,这一现象造成了:

(1)数据的异构性不利于数据的集成。电力企业中由不同系统所储存与管理的电网结构、电力系统资源、电网运行等数据呈碎片化形式存在于不同的异构数据仓库当中,在结构、质量、格式等方面都存在着差异,其物理分布的相互孤立导致电力企业的数据很难实现关联与集成,在难以确定新增业务数据有无完整定义的情况下导致了电力企业对新增业务数据的重复建设。(2)数据实体实际存储的困难。由于同一类型的数据实体往往存储在不同数据源当中,具有各异的设计模式与标识符,并且各数据源中的数据实体无有效关联,在独立建设下对相互关联缺乏必要的存储、维护。在这种情况下电力企业的工作流被划分为与多个数据库关联的工作步,给企业的数据交换与集成带来了不便。

2 CIM下的电力企业数据集成方法

2.1 数据集成系统的构建

作为数据集成中的中间件,数据集成系统给异构数据源的数据集成提供了必要条件。该系统在分析整理电力系统数据实体的基础上利用CIM模型建立起各实体的关联,而后通过服务接口实现数据用户获取数据的一致性。数据集成系统利用数据服务接口在充分考虑用户需求的情况下向其提供以XML格式进行RDF编码的特定CIM剖面实例对象集,各个系统、技术的数据用户都可以对该CIM对象进行解析,同时数据集成系统还可以通过二进制格式CIM对象集的提供来促进数据交换效率的提升。

数据集成难以直接访问非结构化数据源、纯文本文件等,必须在对私有文件结构做出充分了解的基础上来进行数据的解析,这就要求软件提供商根据私有文件结构来对提供者的程序进行创建,对数据仓库采用非结构化的数据文件,同时为了方便数据源服务的顺利提供,应当在数据集成系统上接入标准服务的接口。

2.2 元数据库的设计

元数据是用来对数据进行描述的数据。元数据库的设计是对异构数据源进行描述以及对数据实体进行关联的必要手段。可以对异构数据源的来源、状态等信息进行记录。

(1)实体数据类型记录模式的设计。在元数据库当中需要设计一个可对实体数据类型进行记录的模式P={ETi},ETi表示电力系统的实体数据类型,其表达式为 。(ename指的是实体数据类型名称,esrc指的是对存储数据实体数据源信息的描述,eqi指的是实体数据查询访问的接口,estate指的是对应数据源针对实体数据类型所提供服务的正常、停止与暂停等不同状态,eversion指的是数据实体类型版本)。(2)资源标识符对照表的设计。资源标识符对照表I的设计主要是为了对不同数据源的同一资源实体所具有的资源标识符存在差异的现象进行处理,其表达式为:I={ename,rid,bid,esrc}(其中rid表示特定数据源中电力系统资源实体的标识符,bid是某资源实体基准标识符)。(3)数据实体关联表的设计。数据实体关联表的设计是实现资源实体间关联的建立的必要手段。其表达式为: (其中sbid、tbid分别代表两个有关联的资源实体基准标识符)。

3 结语

伴随着科技的发展和先进信息技术在电力企业日常经营、管理工作当中的普及,电力企业开发出了一系列将问题或者专业作为导向的应用系统,然而受到技术方法、IT基础架构规划不统一等多方面因素的影响,给信息应用系统之间的数据集成带来了很大的难度。通过实践应用证明,以CIM模型为基础的数据集成系统的建立实现了异构数据源向通用数据的映射,并利用服务接口给用户提供了规范化的数据服务,同时元数据库的设计实现了资源实体管理、编码映射等问题的合理解决,在电力企业的数据基础中的应用具有很高的可行性。

参考文献:

[1]陆一鸣,刘东,黄玉辉,于文鹏,顾建炜.基于CIM的馈线建模和应用[J].中国电机工程学报,2012,28:157-163+5.

[2]辛耀中,米为民,蒋国栋,徐丹丹,叶飞,杜鹏. 基于CIM/E的电网调度中心应用模型信息共享方案[J]. 电力系统自动化,2013,08:1-5.

数据分析的方法范文第15篇

【关键词】企业并购;目标企业;数据包络分析方法

【Abstract】With the vigorous development of China’s economy, the development of modern enterprises in mergers and acquisitions played a pivotal role, and also an important way to the development of enterprises mergers and acquisitions. M & A target company’s choice is a key part of mergers and acquisitions, Acquirer when choosing target enterprise for its particular advantage the target enterprise, to eliminate or control to improve the competitive power of itself. Companies usually choose the target company in the implementation of M & A process methods are: corporate indicators and data envelopment analysis (DEA) methods. Through a comprehensive analysis and comparison, the data envelopment analysis (DEA) method is a more efficient method of choosing the target company.

【Key words】Mergers and acquisitions; Target company; Data Envelopment Analysis

0 引言

目前企业产业化加剧集中,为使企业能够更快地发展,企业并购已成为一种必然趋势。企业并购的实质是企业控制权的一种权利变迁。并购过程需要在特定约束条件下才能够进行,在并购中一部分权利所有者通过让出所拥有的控制权,而另一部分权利所有者则付出某些代价来分别换取相应的利益。实际上,企业并购的过程是权利主体不断变换的过程。

目标企业的选择是一项复杂的工作,通过多角度全方位衡量一个企业的运营管理、财务管理、人力资源管理、企业文化管理等不同方面, 才能判断是否该企业能够实施企业并购。当前企业并购过程中,目标企业的选择方法层出不穷,有的甚至是面向企业并购后的一些活动研究,但其大多数都是运作性和实践性较差。以往企业实施并购过程选择目标企业一般会运用指标评价法,而指标评价方法的核心是根据理论研究和实践经验,制定出的一系列指标, 依据这些指标对企业进行评估,但在这种评价方法的指导下, 并购之后企业的运营绩效可能并不理想, 甚至许多企业会发现这样的是错误的。因此为解决上述问题,一种新的企业并购方法即数据包络分析(DEA)方法被提出。稻莅络分析(DEA)方法是同时考虑多个输人指标和多个输出指标, 判定哪些企业符合并购的条件和标准,对于那些不符合并购标准的企业给出改进的意见。

1 数据包络分析(DEA)评价方法

1.1 DEA评价方法的概述

数据包络分析(Data Envelopment Analysis,简称DEA)由查恩斯等学者提出,通过不断地运算研究,把单输入单输出的理论演变到多输入多输出,尤其是多输出的同类型决策单元(DMU)的有效性评价中。DEA 是运用数学模型来评价具有多个输入和多个输出的“部门”或“单元”的相对有效性。依据DMU的每个观测数据判别其是否有效,实际上是判别各DMU 是否位于生产可能集的“前沿面”上。DEA方法的基本思想是,一个决策单元的输出矢量是由其他DMU输出向量从“顶”包络,输入向量是从“底”的其他输入向量包络,如果某个DMU 的输人和输出向量不能同时被包络时, 认为决策单元DEA为有效决策单元,否则是无效决策单元。

1.2 DEA基本模型

在实际市场运营中,企业常会遇到多输入多输出情形,尤其是针对多输出的生产过程,方法解决很难找到。在1978年,运筹学家查恩斯等运用数学模型得出最基本的C2R模型。C2R 模型有两种形式,一种是分式规划,另一种是线性规划,这两种形式是等价的。考虑到计算方便本文将采用线性规划形式。

依据凸性、锥性、无效性和最小性的定理假设,可以得出以下带有非阿基米德无穷小量ε的C2R模型:

1.3 输入、输出指标的选择

DEA方法的输人、输出指标的选择必须遵循以下的原则:(1)指标是可获取的;(2)该指标是可测量的;(3)该指标能够反映企业的实际情况。根据以上标准, 综合考虑企业在实施并购过程中的特点和要求, 制定出以下DEA评价方法的输入、输出指标,如表1所示。

表1 DEA方法的输入、输出指标

1.4 DEA模型在企业并购中的应用及其结构分析

假设有n 个待评价的决策单元(DMU),有n个输入指标,有s个输出指标。如果这是用来评估的输入输出线性组合之比决策,其输出的决策单元的线性组合的比值小于或等于1,从而构成一个相对有效评价的DEA计算模型, 即CCR模型:

从以上结果, 可以看出: 企业1 和企业2 对应的有效值分别为0.946 和0.9 52, 均属于非DEA有效。企业3 的有效值为1 , 属于DEA 有效。表中松弛变量反映了各企业的输人变量和输出变量的调整程度。举例来说, 企业2 需要增加42 名员工, 增加63万元的财政拨款, 并降低39%的资产负债率, 才能够达到DEA有效。因此,企业3是理想的并购对象。

2 结论

根据上述的分析,在企业的并购过程中采用数据包络分析(DEA)方法能够有效的解决目标企业的评估和选择的问题,通过DEA方法的指导,并购的企业可以在众多的目标企业中选择出较为理想的并购企业。与企业的指标评价法相比较,数据包络分析(DEA)方法的优点:

(1)多个输入和多个输出可以同时考虑,而不用确定单个输入和输出的权重;

(2)DEA方法不但能够处理组内信息,还能够处理组间信息,在给出评价结果的同时,还可以给出具体的改进意见;

(3)“局部优化的思想”―求现实中的最优解,而非理想中的最优解。

【参考文献】

[1]马占新.数据包络分析方法的研究进展[J].系统工程与电子技术,2002,3(24):42-46.

[2]李亮,崔晋川.DEA方法中输入输出项目的选择和数据处理[J].系统工程学报,2003,6(18):487-490.

[3]张俊荣,郭耀煌.评价指标与DEA有效性的关系,系统工程理论与方法应用,2004.12.

[4]李美娟,陈国宏.数据包络分析法的研究和应用,中国工程科学,2003.6.

[5]魏权龄.数据包络分析,科学出版社,2004.8(1).

[6]张雯,孙茂竹.企业并购及其绩效.经济与管理研究,2012(8):5-13.

[7]姜付秀,张敏.并购还是自行投资:中国上市公司扩张方式选择研究.世界经济,2008(8):78-84.

[8]吴文江.只改变输出使决策单元变为DEA有效.系统工程,1995,13(2):17-20.