美章网 精品范文 大数据时代含义范文

大数据时代含义范文

大数据时代含义

大数据时代含义范文第1篇

[关键词] 点击流 数据仓库 ETL 多维分析

1引言

随着互联网的飞速发展,采用网站的形式进行宣传和交流的企业越来越普遍,网站每天都产生大量的数据,访客点击网站产生这些数据被称作点击流数据。其中包含很多对企业非常有用的信息,例如,访客的来源、访客的行为、访客的兴趣等。对这些数据进行有效的分析,不但能够对网站的建设起到指导作用,增强网站的粘着度,而且也能够反映出企业各方面的状况。

随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合的面向分析的环境,以更好地支撑决策分析。在此过程的发展和完善中形成了支持决策的、特殊的数据存储,即数据仓库。数据仓库概念首次出现是由被称为“数据仓库之父”的W.H.Inmon提出的,即数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程[1]。

为点击流分析而建立起的数据仓库称为点击流数据仓库。点击流分析技术的初衷是通过对客户点击行为的分析,抽取出对企业非常有用的信息,如访客的来源、行为、兴趣等,然后对这些数据进行有效的分析,为网站企业提供服务,改善客户关系,提高网站企业服务质量。

本文采用“平和网”新闻媒体网站的日志记录数据,基于SQL Server 2008 构建点击流数据仓库,并进行多维数据分析,目的在于对新闻媒体网站的建设起到一定的辅助作用。

2点击流数据仓库的需要分析

网站每天产生大量的数据,对于一个门户网站,其日浏览量甚至可能达到上亿次,其中伴随着海量的点击流和大量的浏览信息,这些数据中包含了很多有价值的信息。用户与Web进行会话时留下来的行为记录,经过分析后可获取信息之间的关联度,从而指导网络的布局和内容,得出潜在的有价值的信息。

点击流数据仓库的数据源更丰富,它除了包含传统数据仓库的数据源外,还包含网站的日志文件;它包含的一些新的维,如页面(Page)、会话(Session)、参考(Referrer)是传统数据仓库所不具有的[2]。

“没有点击流数据仓库,就像乘坐的飞机没有窗户或驾驶舱内没有仪器工具一样,你会毫无方向地乱飞,最终是会坠机的”[2]。

对点击流数据仓库中的数据的有效分析,可以得出:访客来自哪些区域,停留多长时间;哪些页面是访客不感兴趣的,哪些形式的网页更加吸引访客;访客使用什么类型浏览器或操作系统等等。

综上所述,建立一个结构合理的点击流数据仓库是很有实际意义的。

3点击流数据仓库的多维建模

3.1 确立数据分析主题

数据仓库是面向主题的,首先要确定数据分析或前端展现的主题。不同的主题来源于数据仓库中的不同子集,称之为数据集市。数据集市体现了数据仓库某一方面的信息,数据仓库由多个数据集市构成。

根据既定的数据仓库建设目标和网站管理者、网站商务运营者对网站运行的了解需求,本文以“平和网”新闻媒体网站的“网站信息分析”为主题,内容包括:网站总页面流量,访问最集中时段,访问量最高月份,访问量最少的页面,页面平均驻留时间等。

3.2 确定度量值

通过SQL Server 2008来构建数据仓库时,度量值是数值型的,度量值是所分析的多维数据集的中心值,基于不同的度量值可以进行复杂关键性能指标等的设计和计算。例如,当度量值组中包括时间维度并且时间维度的默认粒度为每天,则度量值组中该维度的默认粒度也为每天。

3.3 确定维度和数据粒度

维度是指OLAP 中分析的不同角度。用户可能需要针对不同目的来定义不同粒度或专一性的事实数据表维度,在 SQL Server Analysis Services中,基于不同的维度,可以看到各度量值的汇总情况,也可以多个维度进行交叉分析。

在 SQL Server Analysis Services中,维度还要确定维度的层次和级别。例如:在时间维度上,可以按照“年―月―日”形成一个层次,其中“年”、“月”、“日”成为了这个层次的3 个级别。数据粒度则代表了数据汇总的层次或深度,在确定了度量值之后,要考虑到该度量值的汇总情况。

3.4 创建事实表

事实表是维度模型的基本表,存在大量的业务性能度量值或KPI指标。一个事实表代表一个业务度量,度量值的列表确定了事实表的粒度和度量值的取值范围。事实表中最有用的事实是数字类型和可加型事实。

日志数据仓库系统中存在特殊的维度表和事实表,来支持流量统计功能和将来的Web使用挖掘,获得更多支持个性化网站的信息[2]。

4点击流数据仓库的ETL设计

ETL 是数据仓库实施过程中的一个重要处理环节,E(Extract)是从源数据库(OLTP 系统)中抽取数据;T(Transform)则是对数据进行加工的过程,也就是将不同数据源的数据进行转换和整合,得出一致性的数据;L(Load)则是把转换过程得出的一致性数据加载到数据仓库的过程。

在数据仓库的构建中,ETL 贯穿于项目始终,包括了数据清洗、整合、转换、加载等各个环节。所以ETL 在整个数据仓库项目中起着十分关键的作用。

4.1 数据预处理

采用SQL Server 2008 里面的SQL Server Integration Services集成服务进行预处理。

4.1.1数据采集

采用SQL Server 2008 里面的SQL Server Integration Services集成服务将2009年10月16日“平和网”的Web日志文件(文本文件)导入SQL Server 2008数据库。

4.1.2数据清洗

数据清洗的任务就是删除那些和挖掘目的无关的数据, 避免无关数据对后续步骤的影响。①对于大多数挖掘任务来说, 网页上面的图形文件和页面样式文件, 比如扩展名为GIF、JPEG,JPG、gif、jpg、swf、css、js、cgi和map等文件, 在日志文件中是可以忽略的。②用户请求访问失败的记录, 比如返回代码为404、500 等, 也可以删除。③用户请求方法中不是GET的记录也可以删除。④清除网络机器人(robots)的浏览日志记录。删除这些记录可以减少后续步骤所要处理的数据量, 提高处理速度, 同时还可以减少无效数据对挖掘过程的影响。

4.1.3用户识别

用户识别方法主要有三种,第一,基于Cookie 技术[3]:在Web 日志文件中添加更多的附加信息,如用户机器名、内部IP 名来标识用户,从而能识别通过同一服务器上网的不同用户;第二,基于IP 地址的用户识别[4]:是指不同的IP 地址代表不同的用户;第三,基于网络拓扑结构的路径分析[5]:根据网络拓朴结构分析Web 日志文件中的用户请求,构造用户浏览网页的路径,通过一些启发式规则来识别用户。

采用IP+Agent机制,也就是基于IP地址和浏览器的方法进行用户识别,即不同的IP地址和浏览器类型代表不同的用户,并在数据仓库LogsDW的表LogClear中添加UserID列,用于存储进行识别后的用户标识。

4.1.4会话识别

用户会话是指在某用户访问一个站点时,一次访问行为中所访问的全部页面的序列集。对于服务器日志中一个较长时间的跨度,可以认为用户很有可能访问了Web站点一次以上。如果页面两次访问的时间间隔超过了一个限度,就认为用户又开始了一个新的会话,许多的实验使用30分钟为缺省的“超时”时间,即阈值。

在数据仓库LogsDW的表LogClear中添加SessionID列和SequenceID列,SessionID用于存储进行识别后的会话标识,SequenceID用于存储会话序列标识。

4.2 维度处理

维度表既为事实表提供了结构和上下文,也为数据仓库系统提供了度量标准。维度表要小于事实表的规模[6]。

根据需要,分为如下维度:DimDate日期维度、DimTime时间维度、DimRegion地区维度、DimPage页面维度、DimUrl来源维度、DimForm格式维度、DimChannel频道维度、DimClass栏目维度、DimArticle文章维度、DimSession会话维度等。以下为各维度表的基本信息:

表1日期维度表

字段 含义 字段 含义

Date_Key 日期编号 Date 日期

表2时间维度表

字段 含义 字段 含义

Time_Key 时间编号 Time_AP 是否工作时间

Time_Name 时间名称 Time_WN 午别

表3地区维度表

字段 含义 字段 含义

Region_Key 地区编号 S_Name 省份名称

AreaInfo 地区信息 C_Code 市区代码

AreaCode 地区代码 C_Name 市区名称

Gj_Code 国家代码 X_Code 县份代码

Gj_Name 国家名称 X_Name 县份名称

S_Code 省份代码

表4页面维度表

字段 含义 字段 含义

Page_Key 页面编号 Page_Name 页面

表5来源维度表

字段 含义 字段 含义

Url_key 来源编号 Url 来源

表6格式维度表

字段 含义 字段 含义

Form_Key 格式编号 Form 格式

表7频道维度表

字段 含义 字段 含义

Channel_Key 频道编号 ChannelName 频道

表8栏目维度表

字段 含义 字段 含义

Class_Key 栏目编号 ClassName 栏目

Channel_Key 频道编号

表9文章维度表

字段 含义 字段 含义

Info_Key 文章编号 Class_Key 栏目编号

Channel_Key 频道编号 Title 文章标题

表10会话维度表

字段 含义 字段 含义

SessionID 会话编号 IP IP地址

4.3事实处理

提取、合并事实数据,以及将事实数据加载到数据仓库中,大多数事实表都是事务粒度的表。事实表的处理过程建立Integration Services程序包。表11是点击流事实表。

表11点击流事实表

字段 含义 字段 含义

Key 点击记录编号 Date 日期

Date_Key 日期编号 Time 时间

Time_Key 时间编号 IP IP地址

Channel_Key 频道编号 UserID 用户编号

Class_Key 栏目编号 SessionID 会话编号

Info_Key 文章编号 SequenceID 序列编号

Region_Key 地区编号 Page 访问地址

Page_Key 页面编号 Url 来源地址

Url_Key 来源编号 Form 格式

Form_Key 格式编号 Channel 频道

5点击流数据仓库的多维分析

数据仓库架构就绪后,使用SQL Sever 2008 提供的功能强大的SSAS进行多维分析,利用前端分析工具来对建立的数据仓库做查询,除了用Excel,Performance Point Server 等工具做查询外,还可以用MDX函数直接对OLAP做查询。

下面通过以Excel作为查询工具查询各维度的分析结果:

按“日期”维度分析:以Date属性可得到某年某月某日访问“平和网”的点击数。

按“时间”维度分析:以Time_Name属性可得到各个时段访问“平和网”的点击数,以Time_AP属性可得到各午别访问“平和网”的点击数,以Time_WN属性可得到工作时间与非工作时间访问“平和网”的点击数。

按“地区”维度分析:以“Gj_Name”属性可得到各个国家访问“平和网”的点击数,以“S_Name”属性可得到各省访问“平和网”的点击数,以“C_Name”属性可得到各市访问“平和网”的点击数,以“X_Name”属性可得到各县访问“平和网”的点击数。

按“页面”维度分析:以Page_Name属性可得到各页面访问“平和网”的点击数。

按“来源”维度分析:以Url属性可得到不同来源访问“平和网”的情况。

按“格式”维度分析:以Form属性可得到不同浏览器访问“平和网”的情况。

按“频道”维度分析:以Page_Name属性可得到各频道的点击数。

按“栏目”维度分析:以ClassName属性可得到各栏目的点击数。

按“文章”维度分析:以Title属性可得到各文章的点击数。

按“会话”维度分析:以IP属性可得到不同IP地址访问“平和网”的情况。

此外,还可以多个维度进行交叉分析,在多维数据集中进行切块和切片,可得到各页面的访问量,平均加载时间,通过钻取分析得到按月统计访问量和按时间段统计访问量等等。

如图1可以看出2009年10月16日“平和网”的“新闻频道”的访问量最多,其次是综合频道等。

图1 2009年10月16日浏览“平和网”各频道基本情况

6结束语

以上介绍了利用Microsoft SQL Server 2008构建点击流数据仓库的基本流程,并在此基础上进行多维数据分析。在具体做项目的过程中,每一个细节都要综合考虑,才能够构建出满足多维分析需求的点击流数据仓库,为企业管理决策服务。

参考文献:

[1] Inmon W H.王志海,等译.数据仓库[M].北京:机械工业出版社,2003.

[2] Sweiger M, Madsen M R, Langston J et al.陆昌辉,等译.点击流数据仓库[M].北京:电子工业出版社,2004.

[3] Pitkow J. In Search of Reliable Usage Data on the WWW[A]. In: sixth International World Wide Web Conference[C].Santa Clara,CA:[s.n.],1997.451-463.

[4] Cooley R,Mobasher B,Srivasta J. Data Prepatation for mining world wide web browsing patterns[J]. Journal of Knowledge an Information System,1999,1(1):5-32.

大数据时代含义范文第2篇

[关键词]高等理工教学名词训诂学数据拟合

[中图分类号]G420[文献标识码]A[文章编号]2095-3437(2014)16-0071-02

一、训诂学与高等理工教学的联系

高等理工教育中的文化教育的重要性已得到了社会的普遍认同和接受,我国著名教育学家杨叔子先生[1-2]多次提出“教育的宗旨是素质教育,教育的方式是文化教育”的观点,尤其强调了民族文化的重要性,提出了“民族文化就是民族的基因”的真知灼见,对于“大学有无民族文化,有无民族精神,即有无真正的中国特色”进行了深入的剖析。

如今,深入挖掘中国传统文化,将中国特色的文化底蕴与现工高等教育教学过程相结合是一项具有深远意义的工作。高等理工教学中,包括大量的名词概念,很多概念艰涩而抽象,名词的定义往往占据较大篇幅,并辅以大量的练习加深对概念的理解和记忆。而训诂学是我国传统文化的瑰宝,是文字学的重要研究内容,将古代的话加以解释,使之明白可晓,谓之训诂[3],即指疏通解释古代典籍文献和研究古代语言文字的意义。严格的说,只有训释古语古字的用义才能称为“训诂”,而随着时代的发展,训诂学应不断更新观念,运用科学方法,走多向的现代化发展之路[4],训诂学要从“经学附庸”的旧框子里解放出来,密切联系今天大、中学校的教学[5],使这一古奥艰深的学问成为服务于现代教学的利器。

基于此,本文引入训诂学的方法论,提出在高等理工教学过程中对名词概念——以数据拟合为例——的思想渊源及与之密切联系的概念进行分析,使之达到望文生义的效果,易于理解和记忆,为相关的研究和教学提供参考。

二、训诂学释义示例

(一)数据“拟合”的训诂学释义

数据拟合是数值分析教学中的重要概念,也是教学难点。为了绕开复杂的理论推证过程,形象、直观的对这一概念的含义进行理解,从概念的字面含义入手,探求其字面背后蕴含的意义。

从训诂学的角度讲,“拟”(繁体为“擬”),为形声字,从手,以声,本义为揣度,猜测,后又有类比,效仿,打算,起草、初步确定等意。其中,拟人是一种文学作品中常见的修辞手法。“合”,会意字,从亼,三面合闭,从口,本义:闭合,合拢。

基于上述,“数值拟合”可以解释为:初步确定或草拟(拟)某一函数,调整此函数的参数,使得该函数与已知数据(实验数据)的分布趋势最大限度的重合(合)。如此,通过对“拟合”这一名词概念的训诂学解释,建立名词概念的内涵与字面含义的联系,达到望文生义的效果,将较大程度的有助于对概念内涵的理解和记忆。

(二)“拟合”训诂释义的联系与拓展

训诂学释义可以简单直观的解释名词概念的内涵,还可以根据释义的表述,推断和界定概念的特征与概念之间的联系,从而进一步有助于对概念的理解和记忆。在本文所给的示例中,通过对“拟合”的训诂学解释的表述,可以归纳和引申出如下两点数据拟合计算的基本特征:

1.拟合函数需根据数据的分布趋势“拟”定,并非完全精确的函数或真实函数本身;

2.所求拟合函数与已知数据最大限度的“合”拢,但不会完全重合。

通过对上述“拟合”概念的训诂学解释,并结合数据拟合计算的基本过程,可知对初步拟定的函数,需要代入已知点,形成方程组,将本属于方程变量的参数替换成已知量,求解各个参数,从而确定出拟合函数的具体形式。求解方程系数的过程,其实质是待定系数法。

利用已知点形成含待定系数的方程或方程组,通过解方程或方程组求出待定的系数,或找出某些系数所满足的关系式,这种解决问题的方法叫做待定系数法。[6]一般用法是,设某一多项式的全部或部分系数为未知数,利用两个多项式恒等时同类项系数相等的原理或其他已知条件确定这些系数,从而得到待求的值。[7]可见,待定系数法的基本思想是将本属于方程变量的参数替换成已知量,从而建立成只包含未知系数的方程组,使得未知系数成为方程组的未知数,从而求解方程组得出未知系数。

虽然拟合函数中多项式系数的确定需通过待定系数法,但与传统意义的待定系数法也存在着差别。首先,根据上述拟合的训诂学解释可知拟合需要假定函数形式,与已事先给定函数形式的待定系数法不同。

拟合算法通常设拟合函数由一些简单的“基函数”(例如幂函数,三角函数等等)φ0(x),φ1(x),…,φm(x)的线性组合来表示[8]:

f(x)=c0φ0(x)+c1φ1(x)+…+cmφm(x)

通常取基函数为1,x,x2,x3,…,xm,要确定出系数c0,c1,…,cm,从而确定函数的具体形式,其方法是代入m组实验数据,(x1,y1),(x2,y2),…(xm,ym)组成m个方程的方程组:

求解上述m个方程中的个未知数c1、c2、…、cm即可确定函数形式。

其次,由于函数的基本形式并不是理论上精确的,而是通过c1、c2、…、cm系数值的调整从而尽可能的逼近真实函数(与真实函数“合”拢),加之拟合函数多为非线性多项式,所以方程组的系数c1、c2、…、cm理论上很难求取精确解,其求解精度一般在最小二乘的约束下取得,即使得min[f(xi-yi)]2达到最小。

(三)相关概念的比较

通过上述基于训诂学示例的释义及由其释义引申出的概念特征与联系,可见训诂学能够更加深入的揭示概念的内涵与外延,更容易甄别概念内涵的共性与差别。本文给出的示例中,待定系数法与数据拟合的最基本思想都是利用已知点确定函数中的系数,从而实现函数形式的精确确定,因此存在基本思想的共性。但二者之间也存在差异,为了简明,将上述对二者的特性讨论总结成表1的形式如下:

三、结语

大数据时代含义范文第3篇

[关键词]高等理工 教学名词 训诂学 数据拟合

[中图分类号] G420 [文献标识码] A [文章编号] 2095-3437(2014)16-0071-02

一、训诂学与高等理工教学的联系

高等理工教育中的文化教育的重要性已得到了社会的普遍认同和接受,我国著名教育学家杨叔子先生[1-2]多次提出“教育的宗旨是素质教育,教育的方式是文化教育”的观点,尤其强调了民族文化的重要性,提出了“民族文化就是民族的基因”的真知灼见,对于“大学有无民族文化,有无民族精神,即有无真正的中国特色”进行了深入的剖析。

如今,深入挖掘中国传统文化,将中国特色的文化底蕴与现工高等教育教学过程相结合是一项具有深远意义的工作。高等理工教学中,包括大量的名词概念,很多概念艰涩而抽象,名词的定义往往占据较大篇幅,并辅以大量的练习加深对概念的理解和记忆。而训诂学是我国传统文化的瑰宝,是文字学的重要研究内容,将古代的话加以解释,使之明白可晓,谓之训诂[3],即指疏通解释古代典籍文献和研究古代语言文字的意义。严格的说,只有训释古语古字的用义才能称为“训诂”,而随着时代的发展,训诂学应不断更新观念,运用科学方法,走多向的现代化发展之路[4],训诂学要从“经学附庸”的旧框子里解放出来,密切联系今天大、中学校的教学[5],使这一古奥艰深的学问成为服务于现代教学的利器。

基于此,本文引入训诂学的方法论,提出在高等理工教学过程中对名词概念――以数据拟合为例――的思想渊源及与之密切联系的概念进行分析,使之达到望文生义的效果,易于理解和记忆,为相关的研究和教学提供参考。

二、训诂学释义示例

(一)数据“拟合”的训诂学释义

数据拟合是数值分析教学中的重要概念,也是教学难点。为了绕开复杂的理论推证过程,形象、直观的对这一概念的含义进行理解,从概念的字面含义入手,探求其字面背后蕴含的意义。

从训诂学的角度讲, “拟”(繁体为“”),为形声字,从手,以声,本义为揣度,猜测,后又有类比,效仿,打算,起草、初步确定等意。其中,拟人是一种文学作品中常见的修辞手法。“合”,会意字,从,三面合闭,从口,本义:闭合,合拢。

基于上述,“数值拟合”可以解释为:初步确定或草拟(拟)某一函数,调整此函数的参数,使得该函数与已知数据(实验数据)的分布趋势最大限度的重合(合)。如此,通过对“拟合”这一名词概念的训诂学解释,建立名词概念的内涵与字面含义的联系,达到望文生义的效果,将较大程度的有助于对概念内涵的理解和记忆。

(二)“拟合”训诂释义的联系与拓展

训诂学释义可以简单直观的解释名词概念的内涵,还可以根据释义的表述,推断和界定概念的特征与概念之间的联系,从而进一步有助于对概念的理解和记忆。在本文所给的示例中,通过对“拟合”的训诂学解释的表述,可以归纳和引申出如下两点数据拟合计算的基本特征:

1.拟合函数需根据数据的分布趋势“拟”定,并非完全精确的函数或真实函数本身;

2.所求拟合函数与已知数据最大限度的“合”拢,但不会完全重合。

通过对上述“拟合”概念的训诂学解释,并结合数据拟合计算的基本过程,可知对初步拟定的函数,需要代入已知点,形成方程组,将本属于方程变量的参数替换成已知量,求解各个参数,从而确定出拟合函数的具体形式。求解方程系数的过程,其实质是待定系数法。

利用已知点形成含待定系数的方程或方程组,通过解方程或方程组求出待定的系数,或找出某些系数所满足的关系式,这种解决问题的方法叫做待定系数法。[6]一般用法是,设某一多项式的全部或部分系数为未知数,利用两个多项式恒等时同类项系数相等的原理或其他已知条件确定这些系数,从而得到待求的值。[7]可见,待定系数法的基本思想是将本属于方程变量的参数替换成已知量,从而建立成只包含未知系数的方程组,使得未知系数成为方程组的未知数,从而求解方程组得出未知系数。

虽然拟合函数中多项式系数的确定需通过待定系数法,但与传统意义的待定系数法也存在着差别。首先,根据上述拟合的训诂学解释可知拟合需要假定函数形式,与已事先给定函数形式的待定系数法不同。

拟合算法通常设拟合函数由一些简单的“基函数”(例如幂函数,三角函数等等)φ0(x),φ1(x),…,φm(x)的线性组合来表示[8]:

f(x)=c0φ0(x)+c1φ1(x)+…+cmφm(x)

通常取基函数为1,x,x2,x3,…,xm,要确定出系数c0,c1,…,cm,从而确定函数的具体形式,其方法是代入m组实验数据,(x1,y1),(x2,y2),…(xm,ym)组成m个方程的方程组:

求解上述m个方程中的个未知数c1、c2、…、cm即可确定函数形式。

其次,由于函数的基本形式并不是理论上精确的,而是通过c1、c2、…、cm系数值的调整从而尽可能的逼近真实函数(与真实函数 “合”拢),加之拟合函数多为非线性多项式,所以方程组的系数c1、c2、…、cm理论上很难求取精确解,其求解精度一般在最小二乘的约束下取得,即使得min■[f(xi-yi)]2达到最小。

(三)相关概念的比较

通过上述基于训诂学示例的释义及由其释义引申出的概念特征与联系,可见训诂学能够更加深入的揭示概念的内涵与外延,更容易甄别概念内涵的共性与差别。本文给出的示例中,待定系数法与数据拟合的最基本思想都是利用已知点确定函数中的系数,从而实现函数形式的精确确定,因此存在基本思想的共性。但二者之间也存在差异,为了简明,将上述对二者的特性讨论总结成表1的形式如下:

表1 两种方法的比较

三、结语

训诂学是古代典籍整理和讯释的学问,是中国传统文化的精髓,其与现工教学的结合具有一定的创新意义,并为教学方法的研究提供新的手段和课题。本文利用训诂学的方法,解释了数据“拟合”概念的字面含义,达到望文生义的效果,并由拟合的训诂学解释界定了数据拟合的特征。本文的研究方法对于传统训诂学与现工类教学的有机结合方面的研究,对相关的教学方法设计具有一定的参考价值。

[ 参 考 文 献 ]

[1] 杨叔子.顺天致性,让学生成为他自己――《种树郭橐驼传》对教育的启示[J].江苏教育,2014(4):27-29.

[2] 杨叔子.实施素质教育,让学生成为他自己[J].高等教育研究,2013(4).

[3] 郭在贻.训诂学[M].北京:中华书局,2005.

[4] 杜敏.训诂学与解释学之比较――兼及训诂学当展的途径[J].陕西师范大学学报(哲学社会科学版),2003(6):38-44.

[5] 齐佩.训诂学概论[M].北京:中华书局,2004.

[6] 段桂花.待定系数法在高等代数中的应用[J].科技信息,2010(16).

大数据时代含义范文第4篇

HuCY,HuLP.JChinIntegrMed.2009;7(1):7478.

ReceivedOctober9,2008;accptedDecember1,2008;publishedonlineJanuary15,2009.

Indexed/abstractedinandfulltextlinkoutatPubMed.JournaltitleinPubMed:ZhongXiYiJieHeXueBao.

Freefulltext(HTMLandPDF).

ForwardlinkingandreferencelinkingviaCrossRef.

DOI:10.3736/jcim20090112OpenAccess

Howtoidentifystatisticaldata

ChunyanHU,LiangpingHU

ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China

Keywords:statistics;medicine;dataanalysis,statistical

统计资料是统计分析的对象,正确识别统计资料是合理运用统计分析方法处理统计资料的首要前提;而科学完善的实验设计又是获得准确而又可靠统计资料的基本保证。

1何为统计资料

1.1数据不等于统计资料某研究者提交了如下内容。请问:它们是否叫统计资料?

6.55.16.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5

它们不叫统计资料,因为这些数据代表什么含义并不清楚,数据的单位是什么不清楚,能派什么用场也不清楚,它们只能叫68个数据而已。

1.2仅有度量衡单位的数据仍不能称为统计资料假定前面给出的68个数据的单位是ng/ml,是否可称其为统计资料呢?仍然不可以!因为还缺少数据的名称,即数据的专业含义是什么,必须交代清楚,对其进行分析和讨论才能有的放矢,否则,只能是玩弄数字游戏。

1.3仅有变量名及其取值的数据仍不能称为统计资料表1中有很多数据,其中的每一列都能被称为统计资料吗?

有些似乎可以,有些则不可以。因为有些列仅有变量名,其专业含义并不清楚,如“G”代表什么,其下方的“1”与“2”又分别代表什么,“X1”的含义可通过其下方的“男”、“女”得知其代表“性别”,但“X3~X13”的含义都不清楚,“X14”代表联合用药情况。

1.4有指标名称又有度量衡单位的数据是否一定就可称为统计资料假定前面给出的68个数据所代表的指标为神经元特异性烯醇化酶(neuronspecificenolase,NSE)的含量,其单位是ng/ml,此时,它们是否就能叫统计资料?若要求不高,基本上可以称其为统计资料;若要求严格,还不能这样称呼。因为它们测自什么样的受试者并不清楚!比如有的测自正常人,有的测自不同疾病患者,甚至有的测自动物。表1冠心病人与正常人多项指标的观测结果

1.5统计资料应具备4个基本要素应当说,指标(或变量)名称、度量衡单位和具体取值是统计资料的3个基本要素。仅有这些基本要素可能还达不到特定的研究目的,也就是说,统计资料还应包括实现特定研究目的所对应的特定条件。比如说,前面给出的68个数据是某年从某地区18~60岁全部正常成年人中随机抽取的68人血液NSE酶的具体数值,而且,在获得这些数据时,测定的时间、地点、方法、仪器设备和测定者等都相同。这样条件下测得的NSE酶含量(ng/ml)所得的统计资料,运用适当的统计分析方法,才可以推测该年该地区18~60岁全部正常成年人血中NSE酶含量的(1-α)100%容许区间(医学上习惯称为正常值范围)和NSE酶含量总体平均值的(1-α)100%置信区间(也有人称为可信区间)。概括起来说,统计资料应具备4个要素:影响因素(测定条件)、有明确专业含义的指标名称、度量衡单位和具体取值。由此可见,统计资料通常是复合型,一般至少含有2个变量,一个称为影响因素,另一个称为观测指标及其取值。前面举的例子中,影响因素是受试者类型,仅测定了正常人,隐含的另一个水平是除这里定义的正常人以外的其他人,要使两组人具有较好的可比性,与其可形成对照的是某年从某地区18~60岁全部非正常成年人中随机抽取的68人。下面的表2中,若给X5~X11加上相应的度量衡单位,就是一个比较正规且可达到一定研究目的的复合型统计资料。表2103例冠心病人与100例正常人多项指标的观测结果

2统计资料的分类

2.1定性与定量资料任何一个有一定实用价值的统计资料通常都是复合型统计资料,即至少有两类性质的资料,一类叫定性资料,另一类叫定量资料。通常影响因素是定性资料,而观测结果是定量资料,但有时影响因素和观测结果都可包含定性与定量两类资料。

2.2资料类型的两种划分方法资料类型的划分方法有传统与现代两种。现将这两种划分方法作一扼要介绍,并对其加以比较。

2.2.1资料类型的传统划分方法资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。其定义如下。

计量资料:测定每个观察单位某项指标量的大小,所得的资料称为计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料。

计数资料:将观测单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。例如某单位全体员工按ABO血型系统划分所得A型、B型、AB型、O型血的人数分别为1598、2032、641、1823人;又例如某小学1年级至6年级的学生人数分别为90、100、86、95、112、96人。

等级资料:将观测单位按某种属性的不同程度分组计数,得到各组观察单位数称为等级资料或半定量资料或有序资料。例如用某种治疗方法医治100名某病患者,最后清点治愈、显效、好转、无效和死亡的人数分别为10、30、40、15和5人;又例如某医院检测1029例患者,其中眼晶状体混浊程度为+、++、+++的分别有494、296、239人。

2.2.2资料类型的现代划分方法资料类型的现代划分方法是将资料先粗分为定量资料和定性资料两大类,然后,再将定量资料划分为计量资料和计数资料两小类;将定性资料划分为名义资料和有序资料两小类。其定义如下。

定量资料:测定每个观察单位某项指标量的大小,所得的资料称为定量资料。

计量资料:指标的取值可以带度量衡单位,甚至可以带小数(标志测量的精度)的定量资料,就叫计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料,它们首先是定量资料,进一步细分,它们还是计量资料。

计数资料:在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数(只能取整数,通常为正整数)的定量资料,就叫计数资料。例如测得正常成年男子脉搏数(次/min)和引体向上的次数(次/min)。

定性资料:观测每个观察单位某项指标质的状况,所得的资料称为定性资料。

名义资料:在定性资料中,若指标质的不同状况之间在本质上无数量大小或质量好坏之分或先后顺序之分的定性资料,就叫名义资料。例如某单位全体员工按ABO血型系统(A型、B型、AB型、O型)来记录每个人的情况所得的资料;又例如某市全体员工按职业(工人、农民、知识分子、军人……)来记录每个人的情况所得的资料。

有序资料:指标质的不同状况(状态个数≥3)之间在本质上有数量大小或质量好坏或有先后顺序之分的定性资料,就叫有序资料。例如某病患者按治疗后的疗效(治愈、显效、好转、无效、死亡)来划分所得的资料;又例如矽肺病患者按肺门密度级别(+、++、++

+)来划分所得的资料。

若用一张表将资料类型的现代划分方法表示出来,则一目了然。见表3。表3统计资料类型的现代划分方法

2.2.3资料类型两种划分方法的比较资料类型的传统划分方法是从资料的收集方式角度来定义,也可以说是就“形式”而言;而资料类型的现代划分方法是从资料的性质角度来定义,也可以说是就“本质”而言。

事实上,当人们看到一个记号“1”时,人们无法知道这个“1”究竟代表的是什么含义。因为它可以代表1个人的年龄为1天或1个月或1岁,可以代表某定量指标的一个具体取值,也可以代表某组个体中具有某种阳性反应的人数是1人(频数为1),还可以代表受试者的一个特定性别(如用“1”代表男性,用“0”代表女性)。这说明仅从事物的表面看问题,很难准确地获知事物的本质特征。要想准确地揭示统计资料的性质,只需给出资料所对应的指标名称(变量名,通常隐含专业意义,若含义不明,应明确给出)和具体取值,而不必将调查对象分组后数出各组的调查单位数。例如在表3的前4行中,任何一行的任何一个数据或符号都应叫做其表头上相应指标的具体取值,“25”是“年龄X1”的一个具体取值,“农民”是“职业X4”的一个具体取值,同理,“+”是“尿糖X7”的一个具体取值。对于资料类型的现代划分方法而言,可以说出表3中任何一列的资料类型;而对于资料类型的传统划分方法而言,就不便说出表3中后4列的资料类型,它需要先分组,然后,用每个指标的所有不同标志及其对应组内的个体数两部分结合在一起,才叫计数资料或等级资料。而在多变量回归分析中,需要直接利用后4列资料,此时,资料类型的传统划分方法就显得“心有余而力不足”了。

3误判资料类型的案例

例1原文题目:美泰宁对睡眠作用的影响。原作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体质量相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,根据0、12.5、25.0和75.0mg/kg体质量,用蒸馏水配成所需浓度,每天灌胃。第7天灌胃15min后,各组动物按28mg/kg体质量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1min以上作为入睡判断标准,观察腹腔注射戊巴比妥钠25min内各组动物发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比较,差异有统计学意义(P<0.01)。见表4。表4美泰宁对阈下剂量戊巴比妥钠诱导雄性小鼠睡眠发生率的影响

对差错的辨析与释疑统计资料常常分为定量资料和定性资料两大类,所谓定量资料是指每个观察单位用计量方法测量某项指标数值大小;而定性资料是指记录每个观察单位的某一方面的特征和性质。本资料观察的是动物的入睡情况,原作者把每组入睡的每只动物记为1,不睡的动物记为0,这样第一组有2个1,8个0,第2组有5个1,5个0,第1组和第2组各10个数据进行t检验,得t=1.406,P<0.05(经验算,就计算本身而言,原作者的计算结果是正确的)。但实际上这里的1并不代表真正的数值,它只是代表一种状态,即入睡,而0则代表没有入睡,因而本资料从性质上说应属于定性资料。但原作者却错误地将其判断为定量资料,表的标题后括号内写了x±s的形式,但实际上表中并没有表示平均数和标准差的数据,反而误导读者该资料为定量资料。一般来说,t检验仅适于分析定量资料,用分析定量资料的方法去分析定性资料显然是错误的。

正确判定统计资料属于定量资料还是定性资料是选用统计分析方法的首要前提。本资料属于定性资料,应根据分析目的,合理选用适合此类资料的分析方法如Fisher精确检验进行统计分析。

例2原文题目:小儿皮肤血管瘤雌、孕激素受体的研究。原作者意在探讨雌激素受体(estrogenreceptor,ER)和孕激素受体(progesteronereceptor,PR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的ER和PR进行检测。全部标本经10%福尔马林固定,常规石蜡包埋。每例选一典型蜡块,4~6μm切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER和PR阳性细胞百分率,统计方法用χ2检验。结果见表5。表5血管瘤和淋巴管瘤中ER和PR检测结果

对差错的辨析与释疑正确判别统计资料的设计类型是合理选择统计分析方法的重要前提。根据统计指标的性质,统计资料一般分为定量资料和定性资料两大类。所谓定量资料,是指每个观察单位(针对此资料,其观察单位是病例标本)测得的指标是用具体的数值表示,其又细分为计量资料和计数资料;所谓定性资料,是指每个观察单位测得的指标仅反映某一方面的性质,并不能用具体的数值表示,其又细分为名义资料和有序资料。对于本资料来说,测量细胞的结果是“阳性”或“阴性”,且一般认为带有“率”的资料就是定性资料,似应判为定性资料。然而问题的关键在于,原作者的观察单位并不是细胞本身,而是每一个病例标本。原作者关心的是4种疾病病例标本和一组正常人标本的ER和PR阳性细胞率之均值是否相同,从每一个病例标本中得到的是ER和PR阳性细胞率,是一具体的数值,因而应属于定量资料。如果仅从资料的表面现象(有“率”)进行判断,而不考虑每一个数值的实际含义,没有从资料的本质上进行判断,很容易判断错误。

本资料的受试对象为病例标本,测量指标为“阳性细胞百分率”,因而应为定量资料,其涉及一个实验因素,即样品类别,有5个水平,即毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤和正常皮肤。对于百分率的定量指标,一般根据经验,宜做平方根反正弦变换,使资料检验满足正态性和方差齐性的前提条件后,按单因素五水平设计资料进行方差分析,如变量变换后仍不满足前提条件,则用非参数检验。

例3有人对103例冠心病患者(G=1)和100例正常对照者(G=2)进行了多项指标的观测,资料见表2。若以X5~X11为定量的结果变量,分别以“组别、性别、年龄、高血压史、吸烟史、基因型”为影响因素,有人说此表中的资料类型为定性资料,也有人认为是定量资料。请问:此表中的统计资料究竟是什么资料[1]。

对差错的辨析与释疑将此表中的资料说成是定性资料或定量资料都不对,因为此表中有很多列,各列资料的性质不尽相同。若笼统地说,此表中的资料为混合型统计资料;具体地说,应根据各列变量、取值及其专业含义,区别对待。

第1列“编号”不属于统计资料,仅起一个标识作用,若一定要问该变量的性质是什么,可叫它为“多值有序变量”。

第2列“组别(区分正常人和冠心病病人)”、第3列“性别”、第5列“是否有高血压史”和第6列“是否抽烟”都是定性资料,其变量性质应叫做“二值名义变量”。

第7列~第13列都是“血脂指标”,它们都是定量资料,具体应叫做计量资料。

第14列和第15列分别是两种“基因型”(通常有3种表现:-/-、-/+、+/+),它们都是定性资料,其变量性质应叫做“三值名义变量”。

第16列是“服药情况”,其变量性质应叫做“多值名义变量”。

4小结

本文从正反两个方面介绍了什么是统计资料、统计资料的分类以及统计资料识别中常犯的错误。按现代划分方法来命名统计资料,有利于抓住问题的实质。科研设计的质量好坏和实施过程中的质量控制水平

的高低决定了所收集的统计资料是否准确、可靠;而正确识别各种研究问题中的统计资料类型,则是合理选用统计分析方法处理统计资料的关键环节。这是所有希望靠数据来说话的科研工作者不可小视的一个大问题!

大数据时代含义范文第5篇

关键词:AutoCAD DXF格式 组码 组值 DXF文件读写

中图分类号:TP31 文献标识码:A 文章编号:1672-3791(2017)04(a)-0015-03

DXF(Drawing Exchange Format绘图交换文件)是Autodesk公司开发的用于AutoCAD与其它软件之间进行CAD数据交换的文件格式,是AutoCAD图形文件中所包含的全部信息的标记数据的一种表示方法。DXF是一种开放的矢量数据格式,可以分为两类:ASCII格式和二进制格式;ASCII具有可读性好,但占有空间较大;二进制格式占有空间小、读取速度快。由于Autocad现在是最流行的cad系统,DXF也被广泛使用,成为事实上的标准。绝大多数CAD系统都能读入或输出DXF文件。

1 DXF文件结构

通过DxfOut命令输出DXF文件时,使用“DXF选项”可控制DXF文件的格式是ASCII格式还是BINARY格式,ASCII格式DXF文件是最常用的,具有可读性好,易于编程开发的特点,文中“DXF文件”表示ASCII DXF文件。

DXF文件的结构虽看来繁杂,本质上是有配对的组码(group code)和组值(group vaule)依次排列组织成段。在DXF文件中,每个组码和值都各占一行。

完整的DXF文件由七个段(SECTION)组成。每个段由一行组码0及一行字符串SECTION开始,紧接着是组码2及一行表示段名称的字符串(例如HADER)。段的结束由一行组码0及一行表示该段结束的字符串ENDSEC。这些段中的内容由对象或图元组成,而这些对象或图元由标志它们属性的组码和组值组成。整个文件以一行组码0及一行EOF结束。DXF文件完整的结构如下:

(1)标题段(HEADER):记录AutoCAD系统的所有标题变量的当前值或当前状态。每个参数都包含一个变量名称及其关联的值。

(2)类段(CLASSES):包括应用程序定义的类的信息,这些实例将显示在BLOCKS、ENTITIES以及OBJECTS段的数据中,类定义在类的层次结构中是固定不变的。

(3)表段(TABLES):包含以下符号表的定义,每个表又包含可变数目的表项。

APPID(应用程序标识表)

BLOCK_RECORD(块参照表)

DIMSTYLE(标注样式表)

LAYER(图层表)

LTYPE(线型表)

STYLE(文字样式表)

UCS(用户坐标系表)

VIEW(视图表)

VPORT(视口配置表)

(4)块段(BLOCK):记录了所用块的块名,当前图层层名、块的种类、K的插入基点及组成该块的所有成员。块的种类分为图形块、带有属性的块和无名块3种。

(5)实体段(ENTITIES):记录了每个实体的名称、坐标、所在图层及其名字、线型、颜色等。

(6)物体段(OBJECTS):记录非图形对象的数据,供 AutoLISP 以及ObjectARX应用程序所使用。

(7)文件结束段(EOF of FILE)DXF文件的结束标志。

2 DXF文件组码与组值

一个DXF文件由若干个组构成,每个组占两行:第一行为组的代码;第二行为组值。组代码相当于数据类型的代码,它由CAD图形系统所规定,而组值为具体的数值,二者结合起来表示一个数据的含义和值。例如:代码10代表一个点的X坐标,占一行;而紧随的第二行3456234.23则表示该点X坐标的具体数值。

(1)组代码和组值的类型组代码为一个非负的不超过三位的整数,而组值由组代码的类型决定。例如:

代码0~9组值类型为字符型。

代码10~59组值类型为实型。

代码60~79组值类型为整型。

(2)组代码的含义每个组代码均有规定的含义,有些代码含义是固定的,而有些组代码则因应用场合不同而有多个含义,应具体分析。现将他们的含义举例介绍如下。

0:表示一个事物的开始,如一个块、表、图层、实体等。

1:字符型数据的值,如TEXT的字符串、文件名、属性值等。

2:一个事物的名字,如段、表、块、线型、视图等的名字。

3~5:字符型数据的值,如文件名、线型说明等。

6:线型名(固定类型)。

8:图层名(固定类型)。

实体的坐标与相应的组代码10~18、20~28、30~38的用法应根据实体所用到点的数量,按组代码个位的0、1、2、……的顺序使用。例如:LINE的起点组代码为10、20、30,而11、21、31为其终点。其他类似。

3 用VB6.0读写DXF

DXF文件的结构相当复杂,完整读取DXF文件也是一项异常繁琐的工程。在实际应用中,为了提取图形的实体信息(如点的坐标、高程),可以省略DXF文件中的许多段,只要获取ENTITIES段中对应的图元信息,进行点、线、文字等实体坐标的提取。

4 DXF TO DAT程序实例

下面是以VB6.0为开发平台,编写的读DXF文件输出DAT文件的程序实例。

Dim A As String, B As String, i As Double, kff As Boolean '定义变量

DatName = Text2 'DAT文件

DxfName = Text1 'DXF文件

Szfw = Val(Text4.Text) '取值范围

If Val(Text5.Text) = 0 Then

Xsw = "0"

Else

For J = 1 To Val(Text5.Text)

Xsw = Xsw & "0"

Next J

End If '小数位

If InStr(Text3.Text, "默认") Then LLay = "" Else LLay = UCase(Trim(Text3.Text))

'图层控制

If DatName = "" Or DxfName = "" Then

MsgBox "对不起,你必须要先选择文件后才能运行" & Chr(13) & Chr(10) & "请重新选择文件"

Else

On Error Resume Next

Open Text1.Text For Input As #1

Open Text2.Text For Output As #2

If Err.Number = 53 Then GoTo R053

If Err.Number = 76 Then GoTo R076

FLG1 = 0: FLG2 = 0: FLG3 = 0

Do While Not (EOF(1))

If FLG1 = 0 And FLG2 = 0 And FLG3 = 0 Then

Line Input #1, A

Line Input #1, B

If Val(A) = 2 And UCase(B) = LBolck Then

FLG1 = 1: FLG2 = 0: FLG3 = 0

Else

FLG1 = 0: FLG2 = 0: FLG3 = 0

End If

End If

'-----------------------------------BLOCK

If FLG1 = 1 And FLG2 = 1 And FLG3 = 0 Then

Line Input #1, A

Line Input #1, B

If LLay = "" Then KKM = InStr(UCase(B), LLay) Else KKM = (UCase(B) = LLay)

If Val(A) = 8 And KKM And InStr(UCase(B), "ENDSEC") = 0 Then

FF = FF + 1: LA(FF) = B: FLG1 = 1: FLG2 = 1: FLG3 = 1

ElseIf Val(A) = 8 And KKM = 0 And InStr(UCase(B), "ENDSEC") = 0 Then

FLG1 = 1: FLG2 = 0: FLG3 = 0

Else

FLG1 = 1: FLG2 = 1: FLG3 = 0

End If

End If

'------------------------------------Layer

If FLG1 = 1 And FLG2 = 1 And FLG3 = 1 Then

Line Input #1, A

Line Input #1, B

If Val(A) = 10 And Val(B) > Szfw Or Val(A) = 11 And Val(B) > Szfw Or Val(A) = 12 And Val(B) > Szfw Or Val(A) = 13 And Val(B) > Szfw Then

i = i + 1: Y(i) = Val(B): PPK(i) = PD(LIN) & LIN & "."

ElseIf Val(A) = 20 And Val(B) > Szfw Or Val(A) = 21 And Val(B) > Szfw Or Val(A) = 22 And Val(B) > Szfw Or Val(A) = 23 And Val(B) > Szfw Then

X(i) = Val(B)

ElseIf A = GcDm Or Val(A) = 30 Or Val(A) = 31 Or Val(A) = 32 Or Val(A) = 33 Then

HH(i) = Val(B)

ElseIf Val(A) = 0 And InStr(UCase(B), LFlg) And InStr(UCase(B), "ENDSEC") = 0 Then

LIN = LIN + 1: PD(LIN) = B: FLG1 = 1: FLG2 = 1: FLG3 = 0

ElseIf Val(A) = 0 And InStr(UCase(B), LFlg) = 0 And InStr(UCase(B), "ENDSEC") = 0 Then

FLG1 = 1: FLG2 = 0: FLG3 = 0

ElseIf Val(A) = 0 And InStr(UCase(B), "ENDSEC") Then

Exit Do

Else

FLG1 = 1: FLG2 = 1: FLG3 = 1

End If

End If

Loop

Close #1

'------------------------------------xXYH

5 运行

输出dxf文件后,运行程序界面如下:

输入图层名称:控制是读出单一图层(如HI)的实体对象还是全部图层的实体对象(默认值ALL)。

读取实体类型:控制是读出单一的点(POINT)对象、线(LINE)对象……还是全部(ALL)对象的坐标。

6 结语

在现实测量中,从图上取点、线的坐标是内业成图中经常遇到的事情。目前的成图软件大多是基于AutoCAD为平台开发的,而AutoDXF文件作为通用的数据交换格式,编程可以大大提高数据转换的效率,希望该例对工作中遇到的类似事情有所借鉴作用。

参考文献

[1] 罗卓书.AutoCAD2000中文版基础培训教程[M].北京:电子工业出版社,2000.

大数据时代含义范文第6篇

关键词:核电国产化;程序理解;核电程序理解技术;模型

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)04-0893-04

Based on the Integrated Model of the Nuclear Power Program Un-Derstanding

FU Shi-min

( School of Computer Science and Technology, University of South China, Hengyang 421001, China)

Abstract: With China's economic and social development, China's nuclear power industry has entered the prosperity and development period, but the existing nuclear power software already can’t satisfy our country present stage of nuclear power development needs. In order to China's current nuclear power software upgrading, in the original nuclear power for software reuse based on software engineering or to become a urgent demand, this will be involved in nuclear power software program understanding. Because in the field of nuclear power professional and complexity, in nuclear power software analysis based on practice, by introducing the general procedure to understand the technology, model, leads to a nuclear power software understand need technology, model, steps. To Copernic program as an example, this paper introduces the process of nuclear power software understanding and physical model of the process, summed up a set of software for nuclear power program understanding feasible scheme, this to our country the development of nuclear power has very realistic significance.

Key words: nuclear power localization; program understanding; nuclear power program understanding technology; model

1 概述

由于核电软件常常涉及到知识产权、商业机密,甚至是国家秘密。出于对自我知识产权的保护,在被引进的核电软件中,能给出核电软件自身的完整设计文档的例子是少之又少。然而,随着时间的推移,我国核电已进入繁荣发展的时期。过去那种出于安全性和经济性考虑而引进的国外核电软件已不能满足现时代我国核电发展的需求。因此,为了对我国现有核电软件进行升级,满足现阶段的核电发展需求,在原有核电软件基础之上进行软件重用或再工程成为一个迫切的需求,这就会涉及到核电程序理解的问题。因此,对核电程序理解的研究对我国核电产业发展具有十分重要的现实意义。

2 一般性程序理解的模型、技术

2.1程序理解的定义

程序理解是一个从计算机程序中获得该程序知识信息的过程,它是软件工程学中日益引起人们兴趣的一个领域,是指分析目标系统,标识目标系统组件及其相互关系,创建不同形式或更高抽象层次的系统表示的过程。其目标是理解软件系统以促进性能提高、纠错、建档、再设计或使用另外一种语言重新编程。

2.2程序理解模型

程序理解中,采用一种有效的理解模型是非常重要的,因为程序理解过程中信息前后数据不一致或信息丢失这些情况经常发生,这些都给程序理解带来了很大的困难。因此,为了程序理解的完整性和正确性,采用一定的程序理解模型是很有必要的。常用的程序理解模型有:

1) 基于自顶向下的模型:该模型应用于代码或代码类型已知的情况,采用拥有知识公式化假设,把系统分解成各个能在代码中实现子系统,再分解每一子系统直到取得实现既定功能的代码块。

2) 基于自底向上的模型:该模型理解每行程序代码,发现相似的模式及其集合,则抽象出能用于识别更高抽象层的新模式。

3)基于知识库模型

此模型由三个部分组成:①知识库:包含了程序员经验、问题域知识、论述规则、计划和目的。②思维模型:分为三层:由规格说明层、实现层和注解层组成。规格说明层是程序抽象的最高层次,完整地描述了程序的意图;实现层包括了数据结构和功能在内的最低级抽象;注解层连接规格说明层中的每个目标到它在实现层里的具体实现。这些连接可以是不完全的。③消化吸收过程:描述思维模型如何根据程序员的经验和程序信息进行理解。吸收过程既有自底向上又有自顶向下方式。具体按照哪种方式进行完全依赖程序员。其过程中关键部分是查询阶段。在这个阶段,程序员针对目标进行询问,猜测结果,最后经过搜查代码和文档来证实或已有的假设。

4) 综合模型

包括三个主要部分:自顶向下模型、自底向上模型和知识库模型。该模型是将自顶向下模型、自底向上模型和知识库模型三个方法集成为一个思维模型。

2.3程序理解技术

从大的方面来说,程序分析可以分为静态程序分析和动态程序分析。静态程序分析是在不执行程序的前提下,根据程序的模型推断出程序本质结果的过程,而动态程序分析是一个分析程序运行时的依赖关系的过程。常用的静态分析技术包括:有词法分析、语法分析、控制和数据流分析、类型检查和推理、交叉引用、复杂度度量和结构化分析等,而动态分析技术包括对象实例依赖、方法调用图、动态链接和多态性、路径覆盖测试、登记和回调函数、内存管理、分支、并发、功能瓶颈等。不同的程序理解技术之间考虑的侧重点不同,将各种程序理解技术适当搭配,势必可以提高程序理解的效率。

3 核电程序理解的模型、技术及过程

由于核电软件涉及的专业知识性强,代码数量庞大,功能比较复杂,因此,针对这个特殊的软件应用领域,采用何种有效的程序分析模型、在众多的程序分析技术中选取何种对核电程序理解有效的分析技术,这些将关系到核电程序理解的效率,甚至是核电程序理解成功与否的关键。

3.1核电程序理解模型

由于核电领域是个专业性很强的领域,其中可能会涉及到复杂的公式以及计算不同的参数可能会采用不同的计算模型。这就要求核电理解人员不仅具备相应的计算机专业知识,而且要求理解人员对核电领域的基础知识、物理变量、物理模型等熟悉理解,这就需要程序理解人员有相应的知识库。同时,当对代码熟悉时,理解人员通常采用自顶向下模型进行理解;而当对代码完全不熟悉时,采用自底向上模型进行理解。一般来说,最初通过自顶向下的方式推进理解过程,这期间应该会遇到不熟悉的代码部分,于是需要转回去进行自底向上的理解。基于此,对核电软件程序理解过程中采用综合模型是比较恰当的。

3.2核电程序理解技术

核电领域是典型的安全关键领域,它的安全性事关重大。应用在该领域的软件系统一旦发生故障,将来会产生巨大的经济损失、危及人的生命甚至会造成生态灾难,因此这就对核电站生产用软件的质量提出了很高的要求。而这些被分析、理解的核电软件一般是在经过了严格的测试并被核电站实际安全运行了很多年的软件,可以被认为是安全的。基于安全性的考虑,即使对于核电软件在某些突况下也很少执行的情况我们也要进行分析,而不能仅仅分析核电软件中的关键信息。这就要求我们在对核电软件分析理解的过程中,要全面地展示出核电软件的具体内部信息。为了能够更全面地反应核电软件的信息,保证核电软件运行过程中所有可能的执行路径得到挖掘,在核电软件的理解分析中用到更多的是静态分析技术。根据实战经验,核电软件分析常用的静态分析技术有:词法分析、语法分析、结构分析、控制流分析、符号执行等。

3.3核电程序理解过程

在核电软件理解采用的模型、技术都确定之后,接下来我们就要考虑采用何种步骤实现对核电软件的逐步理解。根据项目实战经验,现总结出核电程序理解采用的以下几个步骤:

1)从应用领域的角度整体把握该核电软件在其领域中的作用;

由于核电软件的保密性和特殊性,被分析的核电软件一般都严重缺乏软件说明、注释等对软件理解至关重要的信息,如果此时对其直接分析源代码或是逆向工程,此时无疑像大海捞针,没有方向。但如果此时能确定该软件的应用领域,(如:我们要分析的Copernic程序是反应堆控制程序的子程序,因此,我们可以明白我们要处理的程序是用来的反应堆进行控制的),然后再从实际的应用领域中去考察该应用领域大体上应该包含有哪些功能实体,这显然有助于程序的理解。此时我们可以利用知识库模型,用语义网络将该实体的具体知识信息和知识点描述出来,并加入知识库中以备后续的使用,如下图1所示:

图1

该图粗略描述了堆芯的组成,这对我们发现堆芯的各功能实体更为有助,而软件是对现实世界的模拟,这对我们推测要分析的软件大体上应分为那些功能模块是有帮助的,如:根据上图的语义网络,我们可以大胆猜测,反应堆控制程序可能包含燃料棒的受力、中子通量计算等模块,这样就使我们在分析反应堆控制程序之前做到大体上心中有数。当然我们可以将语义网络进一步细化,如:燃料棒涉及哪些物理变量、物理过程,这些物理变量、物理过程之间的关系又是如何的等等,这些都加入知识库中以有助于核电程序的理解。

2)利用程序理解工具将核电软件分割成各功能模块并与上步分析出的实际功能尝试匹配;

面对核电软件,如果仅从代码本身去发现问题领域是怎么被模拟的,势必是困难的,也会显得很盲从。而软件是对现实世界的模拟,很多具体应用领域的实际功能会在软件的模块功能中有所体现。根据自顶向下模型,利用程序理解工具将待分析的核电软件分割成相对独立的模块(由于保密的要求,该文的图形均以非具体核电软件为例) 如图2所示:

图2

这就将一个待解决的大问题划分为具体小问题。此时,根据自顶向下模型的创建假设、证实假设、改善假设的思维将各软件模块与上一步分析出的实体功能进行尝试匹配。结合反应堆中含有的功能实体,确定各模块的“宏观”功能。在确定各子模块的“宏观”功能时我们可以同过看参考文档、看命名模块的英文的汉语语义、看软件的注释、通过模块内部变量的物理意义推测模块的功能、运用排除法等手段来证实。剩余一些确实难以匹配的模块,让其处于待定状态,等待以后分析。如:通过阅读源代码中的部分注释(如:注释中含有“rod”,“cladding”,“ posson ratior”,“elastic constants”等)并结合有限的文档参考资料,我们可以确定Copernic子程序的“宏观”功能是对燃料棒的受力进行分析。

3)针对被为分割好的核电软件各功能模块进行数学建模;

经过模块匹配之后,尽管有的核电软件模块宏观功能明确,但是其中可能会涉及复杂的物理过程。对宏观功能明确但物理过程又比较复杂的模块进行直接分析有时会显得难以下手,此时,若对有物理过程的模块进行数学建模,将其物理过程以公式的形势表现出来,并在物理模型的“宏观指导下”,理解人员再去理解程序,这无疑有利于程序的理解。同时在建模过程中,会驱动理解人员去思考,该物理模块包含哪些物理变量、其某个物理过程是如何的等,这无形中也会加深理解人员对程序的认识。由匹配结果可知,Copernic模块是处理燃料棒受力的。由于Copernic模块物理过程较为直观,我们以它为例来说明建模过程。既然要建模就要在建模前要做好充足的准备工作:

一是:对物理过程涉及的领域知识进行补充,并加入知识库中。由于涉及到力学分析,在建模之前我们要先了解基本的力学基础知识(如:弹性力学,塑性力学等),对一些物理变量等做好充分的理解(如:弹性模量,泊松比,应力,应变,屈服条件等)。

二是:了解物理过程。燃料棒处于包壳中,在反应堆运行过程中会发热、肿胀、伸长、产生气体,因此,它会受到径向、切向、轴向的应力。因此,只要我们求出这三个应力并以此为突破口,就能弄清楚软件模块时怎么对燃料棒受力进行处理的。

建模:结合燃料棒的具体实际,并运用数学知识进行建模。由于燃料棒是圆柱形的,它关于轴向对称,因此采用极坐标进行建模比较方便、简洁。根据弹性力学知识,与圆柱体密切相关的方程有:几何方程,本构方程,平衡方程。将几何方程代入本构方程就得出了三个应力的关于位移的微分形势,再将三个应力代入平衡方程,得到一个控制方程,控制方程是一个关于位移的偏微分方程,对偏微分方程求解,就得到了关于位移的的解。将所得的位移的解代入几何方程,便得到了三个方向形变的解,将形变的解代入本构方程便得到了三个方向力的解。此时,粗略模型就建立起来了,为了保证模型的基本正确性,要进行多次验证计算,为以后分析程序做好指导和铺垫。

4)选取一个软件功能模块进行分析;

在有物理过程的核电软件模块被建立数学模型以后,接下来就考虑选取一个合适的模块进行分析。可以依据如下选取策略来选取模块:一是:选取代码规模尽量小的模块;二是:选取物理模型尽量简单的模块;三是:选取程序注释尽量多的模块;四是:选取提供了较多参考文档的模块。

由于Copernic模块受力过程较为直观且我们已为其建立了数学模型,其代码规模也较为合适,我们决定首先选取该模块来分析。而对于物理过程不明确或者看不出有什么物理过程的模块的选择,可以依据如下选取策略来选取模块:一是:选取提供较多参考文档的模块;二是:选取程序注释尽量多的模块;三是:选取代码规模尽量少的模块。

经过以上几个步骤,我们就能选取出一个较为合适的软件模块了。

5)分析选取的软件模块;

对选取的Copernic模块进行分析时,根据自顶向上模型,利用程序理解工具将该模块划分为若干子模块。由于核电环境的复杂性,有的大的软件模块除了含有一个物理模型之外,大模块包含的子模块有时也会含有各自的物理模型。对于含有物理模型的子模块要为其建立相应的数学模型。如:在第三步求解径向、切向、轴向三个应力时,出现了常数C,只有将C值求出来,我们所求出的力的表达式才有意义,因此,我们就要怀疑在Copernic模块的子模块中可能会含有对常数C计算的模块。 根据分析,我们得知:在将燃料棒划分为很多小环的过程中,每一环都有各自的常数C,因此我们必须求出常数每一环的常数C,这时就要根据各小环受力平衡为其建模。将各环的受力方程组成一个方程组,并对其求解,便得出了每一环的常数C的表达式。

由于核电程序的复杂性,有时在大模块的物理模型中涉及的变量并不能通过数值直接量化,而是需要在其包含的小模块中采用拟合、迭代等方式得出,实现对该变量的计算。这就会使我们求出的大的模块的物理模型的数学表达式的变量会被散落在不同的子模块中进行计算。因此,此时我们可以利用知识库模型,将各子模块的可能的功能尝试与我们从物理模型导出的数学表达式的变量进行模式匹配,在匹配过程中,可以采用诸如:查看子模块的参考文档、子模块源代码的注释、子模块含有的变量的意义等手段来确定子模块可能的功能。

对于其余的小模块,经过参考有限的文档及观察上一步的建模得出的表达式,暂时看不出涉及物理模型的,可暂时不用考虑建模。对于确实含有物理模型但暂时还看不出含有物理模型的模块,可在稍后分析过程中去逐渐建立(如:有的模块的逻辑很难理解,此时就要考虑它可能会涉及到物理模型)。

在大模块的各小子模块的数学模型或者子模块的宏观功能被大体确立之后,接下来应考虑选择一个子模块分析。在选取哪个子模块先入手分析时,可以按照有数学模型的优先、“宏观”功能相对明确的其次、功能模型都不清楚的最后的原则进行选择分析。由于计算常数C的模块含有物理模型且其“宏观”功能相对明确,我们首先选择计算常数C的这个子模块来分析。

6)分析选取的子模块的子程序;

首先,根据自顶向下模型,将待分析的子模块的包含的所有子程序分割出来。同样,在我们选取子模块的哪个子程序分析时,最好先考虑子程序可能的“宏观”功能。此时,我们可以查看已数学形式化的计算常数C的物理模型中含有哪些物理变量,然后再去考虑子程序的“宏观”功能。根据知识库模型,将公式中含有的变量与子程序的“宏观”功能进行模式匹配,使公式的变量的物理含义与子程序的“宏观”功能对应。既然要选取子模块的子程序进行分析,我们要选取一个子程序,选取子程序的策略依次如下:

一是:该子程序有参考文档;二是:子程序的的宏观功能尽可能明确;三是:子程序中含有的注释尽量多;四是:子程序的规模尽量小。

组成一个程序的元素有:常量、变量、函数、表达式、类等诸多要素,其中以变量的物理含义、函数的功能最为重要。程序的功能是由变量组成的若干表达式及函数实现的,因此先弄清楚程序中变量的物理含义是十分必要的。

依据知识库模型,根据命名恢复规则将程序变量与知识库中的知识点进行模式匹配来确定程序变量的物理意义,对于不能匹配的程序变量,可以通过查看参考文档、程序代码注释、参阅推导出的数学表达式等方式来确定程序变量可能的物理意义,如果这样还不能确定变量的物理意义,甚至还可以大胆推测其可能的物理意义,在稍后的分析中通过搜索代码或文档等方式逐渐对其修正。然后,根据关系恢复规则将程序块中的顺序过程调用、单过程调用和构造定义等与知识库中的知识关系进行模式匹配。由于此时有些变量的物理意义我们已匹配出来,因此,对于不能匹配的顺序过程调用、单过程调用等可以参照控制流图来读取其源代码以推测出其可能的功能,其实这是一个逐渐聚合的过程,这也是自底向上模型所强调的,如:对于代码pcboards=pcboards-sold,自底向上模型的状况模型将其描述为“通过出售PC主板减少库存量”,这样经过若干步,低级的涉及知识可以组织成更高级的涉及知识。

据此,结合该模块的数学模型推导出的公式或表达式,我们就可以推出表达式的物理意义、函数的功能等子程序隐含的信息,进而推出该子程序的功能。

7)将理解出的程序信息加入知识库,并在后续理解过程中对知识库逐渐更新、修正;

对一个子程序完成理解之后,将其变量的物理意义、其含有的函数的功能、整个子程序的功能、子程序的控制流图、理解过程中对子程序语句添加的注释等信息整理成文档保存,并将诸如变量的物理意义、其含有的函数的功能等加入知识库,为后续其它子程序或子模块的理解做好铺垫和准备。经过以上步骤的多次执行以后,该子模块包含的所有子程序都会被逐个分析出来。

由于在起初程序理解过程中,我们对很多变量的物理意义、函数功能等信息库信息在认识上难免会存在不足,有时甚至是错误的认识,这就需要我们在后续的理解过程中对知识库不断进行修正和更新,最终形成一个准确的信息库。因此,待子模块的所有子程序都理解出了以后,将各子程序的信息加入知识库的同时,我们还要采用自底向上的模型,统筹各个子程序的功能来考虑整个子模块的功能。对于含有物理模型的子模块,在结合各子程序的功能时,还要对照推导出的该模块物理模型的数学形式对子模块进行理解,这样既便于子模块的快速理解,也有利于对该模块物理模型的数学形式的修正,因为我们开始建立的该物理模型的数学形式是粗略的、不准确的,程序才是精确的,我们要以程序推出的公式为准。这样经过若干步,整个程序都会被渐渐理解出来,也就实现了程序理解的目的。

4 总结

本文通过对一般性程序理解涉及的技术、模型的介绍,引出了对核电软件这个特殊的软件应用领域程序的理解。由于核电软件的复杂性,其可能会涉及到很多复杂的物理公式、甚至是物理模型,该文根据本人对核电软件的实战经验,总结出了核电软件理解过程中需要用到的技术、模型,并以Copernic子程序为例,介绍了核电程序的理解过程。由于物理模型事关程序理解的效率及准确性,在介绍核电程序理解过程的同时,Copernic子程序为例,重点介绍了在核电程序的分析过程中数学模型的建立过程,这些理论和实践经验,对今后核电软件的理解具有十分重要的现实意义。

参考文献:

[1] 李莹,张琴燕.程序理解[J].计算机应用研究,2001(6).

[2] 郭颖,钱渊.逆向工程的应用研究和发展[J].信息与电子工程,2004(2).

[3] 谢仲生,尹邦华.核反应堆物理分析[M].北京:原子能出版社,1996.

大数据时代含义范文第7篇

摘 要 apriori算法是发现频繁项目集的经典算法,但是该算法需反复扫描数据库,因此效率较低。本文介绍了apriori算法的思想,并分析了该算法的性能瓶颈。在此基础上,针对apriori算法提出了一种改进方法,该方法采用转置矩阵的策略,只扫描一次数据库即可完成所有频繁项目集的发现。与其他经典的算法相比,本文提出的算法在项目集长度较大时,性能明显提高。 关键字 关联规则,支持度,置信度,apriori 1 引言 关联规则挖掘就是在海量的数据中发现数据项之间的关系,是数据挖掘领域中研究的热点问题。1993年agrawal等人[1]首先提出了交易数据库中不同商品之间的关联规则挖掘,并逐渐引起了专家、学者的重视。关联规则挖掘问题可以分为:发现频繁项目集和生成关联规则两个子问题,其中发现所有的频繁项目集是生成关联规则的基础。近年来,发现频繁项目集成为了关联规则挖掘算法研究的重点,在经典的apriori算法的基础上提出里大量的改进算法。savasere等[2]设计了基于划分(partition)的算法,该算法可以高度并行计算,但是进程之间的通信是算法执行时间的主要瓶颈;park等[3]通过实验发现寻找频集主要的计算是在生成频繁2-项集上,利用这个性质park等引入杂凑(hash)技术来改进产生频繁2-项集的方法,该算法显著的提高了频繁2-项集的发现效率;mannila等[4]提出:基于前一遍扫描得到的信息,对此仔细地作组合分析,可以得到一个改进的算法了。针对mannila的思想toivonen[5]进一步提出:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。toivonen的算法相当简单并显著地减少了i/o代价,但是一个很大的缺点就是产生的结果不精确,存在数据扭曲(data skew)。 上述针对经典apriori算法的改进算法在生成频繁项目集时都需要多次扫描数据库,没有显著的减少i/o的代价。本文在分析了经典的apriori算法的基础上,给出了一种改进的方法,该方法采用转置矩阵的策略,只扫描一次数据库即完成频繁项目集的发现,在项目集长度较大时,性能明显提高。 2 apriori算法 2.1 基本概念 设i={i1, i2,…, im}是二进制文字的集合,其中的元素称为项(item)。定义交易(transaction)t为项的集合,并且tíi,定义d为交易t的集合。设x是i中若干项的集合,如果xít,那么称交易t包含x。项目集中包含项的个数成为项目集长度。 关联规则是形如xþy的蕴涵式,这里xìi, yìi,并且xçy=f。 规则xþy在交易数据库d中的支持度(support)是交易集合中包含x和y的交易数与所有交易数之比,记为support(xþy),即support(xþy)=|{t:xèyít,tîd}|/|d|。 规则xþy在交易集中的置信度(confidence)是指包含x和y的交易数与包含x的交易数之比,记为confidence(xþy),即confidence(xþy)=|{t: xèyít,tîd}|/|{t:xít,tîd}|。给定一个交易集d,挖掘关联规则就是找出支持度和置信度分别大于用户给定的最小支持度(minsup)和最小置信度(minconf)的关联规则。 2.2 基本思想 1994年agrawal等人在项目集格空间理论的基础上提出了用于发现频繁项目集的apriori算法。该算法采用“逐层搜索”的迭代方法,用k-项集生成(k+1)-项集。首先,扫描数据库计算出频繁1-项集的集合(记为:l1);然后,执行下面的迭代过程计算频繁k-项集,直到生成频繁k-项集的集合(记为:lk)为空: ①连接:lk-1进行自连接运算,生成候选k-项集的集合(记为:c k)。所有的频繁k-项集都包含在c k集合中。 ②剪枝:①生成的c k是lk的超集,扫描数据库计算c k中每个候选项目集的支持度,支持度大于用户给定最小支持度的候选k-项目集就是频繁k-项目集。 通过上述的迭代过程,可以发现项目集i在给定数据库d中满足最小支持度的所有频繁项目集。 2.3 算法分析 apriori算法在执行“连接-剪枝”的迭代过程中,需要多次扫描数据库,如果生成的频繁项目集中含有10-项集,则需要扫描10遍数据库,增大了i/o负载。并且在迭代过程中,候选项目集合ck是以指数速度增长的,lk-1自连接会产生大量的候选k-项目集,例如有104个1-项集,自连接后就可以产生大约107个候选2-项集。这些都严重影响了apriori算法的效率。 3 改进的apriori算法 3.1 改进思想 apriori算法在迭代过程中多次扫描数据库和产生大量的候选项目集形成了算法的性能瓶颈。为了提高算法的效率本文进行如下改进: 数据库d中每个交易t都有一个唯一的编号tid。定义k-项集rk=<xk,tids(xk)>,其中xk=(ij1, ij2, …, ijk),ij1, ij2, …, ijk îi,j1<j2< …<jk,tids(xk)是数据库中所有包含xk的交易t的编号tid的集合,即为:tids(xk)={tid : xkít,<tid,t> îd}。根据上面的定义k-项目集rk的支持度可以表示为:support(rk)=|tids(xk)|/|d|=|{tid : xkít,<tid,t> îd}| / |d|。rk的支持数supnum(rk)=support(rk)*|d|=|tids(xk)|。l’k表示k-项集的集合。 改进的apriori算法依然采用“逐层搜索”的迭代方法,迭代过程的“连接-剪枝”运算定义如下: ①连接:设两个(k-1)-项集:l’ k-1 (i)=< xk-1,tids(xk-1) >î l’k-1,l’ k-1 (j)=< yk-1,tids(yk-1) >î l’k-1,i<j。如果xk-1和yk-1的前k-2项相等,即:xk-1[k-2] yk-1[k-2],则(k-1)-项集连接:l’ k-1 (i)∞l’ k-1 (j)= < xk-1

∪yk-1, tids(xk-1) ∩tids(yk-1)>= <xk,tids(xk)>=rkî l’k;否则,不进行连接运算,因为产生的结果不是重复,就是非频繁项目集,这样可减少计算量。 ②剪枝:计算k-项集的支持数,根据上面的定义supnum(rk)=|tids(xk)|,该计算过程不需要再扫描数据库,避免了i/o操作,提高了算法的效率。如果supnum(rk)≥minsupnum,则< xk , |tids(xk)|> î l;否则,从集合l’k中删除rk。 3.2 改进的算法描述 输入:数据库d,最小支持数minsupnum 输出:d中的频繁项目集l 算法描述: ① l’1 = findfrequentoneitemsets(d); //扫描数据库d生成1-项集的集合l’1。 ② for each oneitemset <x1, tids(x1)>îl’1 //生成频繁1-项集的集合 if (|tids(x1)| ≥ minsupnum) l = l ∪ {<x1, |tids(x1)|>}; else l’1 = l’1 - {<x1, tids(x1)>}; ③ for (k=2; l’k-1≠ф; k++) l’k = l’k-1∞l’k-1; for each k_itemset <xk, tids(xk)> îl’k if (|tids(xk)| ≥ minsupnum) l = l ∪ {<xk, |tids(xk)|>}; else l’k = l’k - {<xk, tids(xk)>}; ④ return l; 3.3 例举 设数据库d表1所示,最小支持数minsupnum=4,运行改进的算法的过程如图所示:

4 总结 改进的apriori算法,只是在生成l’1时进行了一次数据库扫描,在之后的迭代过程中不需要扫描数据库。与文献2,3,4,5中提出的改进算法相比,使用本文提出的算法大大降低了i/o负载,使得频繁项目集的发现速度大大提高,尤其是在项目集长度较大的情况下。算法的迭代过程不需要复杂的计算,项目集连接仅仅使用集合的并、交运算即可完成,使得该算法易于实现,相信该算法具有一定的理论与实用价值。 但是该算法也有不足:为了减少i/o负载,要求在第一次扫描时把所有的信息装入内存,虽然本算法对数据库进行编码,以二元组的形式存储项集,但是数据挖掘都是基于海量数据的,因此,算法运行时需要大量内存,对此将在今后的研究中进行改进。 参考文献 [1] r. agrawal, t. imielinski, and a. swami. mining association rules between sets of items in large databases. proceedings of the acm sigmod conference on management of data, pp. 207-216, 1993 [2] a. savasere, e. omiecinski, and s. navathe. an efficient algorithm for mining association rules in large databases. proceedings of the 21st international conference on very large database, 1995 [3] j. s. park, m. s. chen, and p. s. yu. an effective hash-based algorithm for mining association rules. proceedings of acm sigmod international conference on management of data, pages 175-186, san jose, ca, may 1995 [4] h. mannila, h. toivonen, and a. verkamo. efficient algorithm for discovering association rules. aaai workshop on knowledge discovery in databases, 1994, pp. 181-192 [5] h. toivonen. sampling large databases for association rules. proceedings of the 22nd international conference on very large database, bombay, india, september 1996 [6] 罗可, 贺才望. 基于apriori算法改进的关联规则提取算法. 计算机与数字工程. 2006, 34(4):48-51,55 [7] 蔡伟杰,杨晓辉等.关联规则综述.计算机工程.2001, 27(5):31-33,49

大数据时代含义范文第8篇

关键词:村镇基层档案 数据元 编制规范 数据元,是对信息资源的结构化和规范化的描述,是一种结构化的数据;是按照一定标准,从各领域的信息资源中抽取响应的特征,组成的一个特征元素集合。其标准是如何描述某些特定类型资料的规则集合,是从数据集抽取数据元时为正确使用这些数据集而应遵循的标准,是数据共享的前提和提高数据共享应用系统综合效益的基础。

村镇基层档案信息相关数据元是指建设村镇基层档案的业务活动中设计的所有数据单元,它的概念和结构遵循一般数据元的概念和结构,是通用数据元的一个子集并具有自身的特点。村镇基层档案信息数据元的要求首先应是描述村镇基层档案数据集必须的数据元元素,同时又是村镇基层档案数据集编目的主要内容,其次,数据元可以应用于独立的数据集、数据集聚合、单个村镇基层档案要素和组成要素的对象中。村镇基层档案信息数据元为村镇基层档案信息数据提供数据元,也可可选地为数据集聚合、要素和要素属性提供数据元,除此之外,村镇基层档案领域各学科、专题专用数据元标准须包含核心数据元,并可依据应用范围自身特点在村镇基层档案信息数据元内容的基础上进行扩展和裁减。

村镇基层档案数据元标准体系结构由村镇基层档案数据元规范和村镇基层档案数据元字典两部分组成,其中村镇基层档案数据元规范由村镇基层档案数据元设计方案、村镇基层档案数据元实现规范以及村镇基层档案数据元管理与注册等三部分组成,如图1所示。

村镇基层档案数据元设计方案根据数据源内容的属性或特征,将数据元以数据元元素的形式描述,并将信息以一定的原则和方法进行区分和归类,建立起系统的分类规则、编码方式、文档规范,以便管理和使用。村镇基层档案数据元实现规范规定了数据元的数据类型、命名规则、标识符的分配规则以及值域代码表元、数据元映射表的实现规范。村镇基层档案数据元管理与注册用于管理档案数据元登记、注册以及管理。

根据需求分析结果和相关标准,对村镇村镇基层档案数据元进行整体分类并编码,如图2、表1所示。

村镇基层档案数据元规范在参照GB/Tl.1 - 2000《标准化工作导则第1部分:标准的结构和编写规则》的基础上,确定了标准文档书写规范用于指导、规范化村镇基层档案数据元文档的工作,并最终以文档的形式呈现给用户。其中,正文部分包含的要素包括范围、规范性引用文件、术语和定义、符号和缩略语、要求、数据元模式、数据标准以及数据元数据字典等。

村镇基层档案数据源实现规范包括:数据元的数据类型、村镇基层档案数据元命名规则、数据元标识符的分配规则、数据元值域代码表以及数据源映射表等。

(一)数据元的数据类型

村镇基层档案数据元的数据类型参照基本数据类型标准,其基本规则包括S(字符型)、L(布尔型)、N(数值型)、D(日期型)、DT(日期时间型)、BY(二进制型)等,村镇基层档案数据元的表示格式中字符代表了一定语义,其含义包括A(表示字母字符)、N(表示数字字符)、AN(表示字母或数字字符)。

(二)村镇基层档案数据元命名规则

数据元中文命名需遵循文本规定的唯一性规则、语义规则、语法规则。数据元英文命名需遵循词法规则和格式规则。

(三)数据元标识符的分配规则

村镇基层档案数据元的标识符由注册机构标识符+内部标识符+版本标识符组合而成,这三部分放在一起构成了完整的村镇基层档案数据元标识符,实现了在任何环境下对该数据元的唯一标识。

(四)数据元值域代码表

村镇基层档案数据元值域代码表用于表明村镇基层档案数据元值域的代码值和表示含义。代码表由值、值含义、说明三个属性列组成。

(五)数据源映射表

大数据时代含义范文第9篇

关键字关联规则,支持度,置信度,Apriori

1引言

关联规则挖掘就是在海量的数据中发现数据项之间的关系,是数据挖掘领域中研究的热点问题。1993年Agrawal等人[1]首先提出了交易数据库中不同商品之间的关联规则挖掘,并逐渐引起了专家、学者的重视。关联规则挖掘问题可以分为:发现频繁项目集和生成关联规则两个子问题,其中发现所有的频繁项目集是生成关联规则的基础。近年来,发现频繁项目集成为了关联规则挖掘算法研究的重点,在经典的Apriori算法的基础上提出里大量的改进算法。Savasere等[2]设计了基于划分(partition)的算法,该算法可以高度并行计算,但是进程之间的通信是算法执行时间的主要瓶颈;Park等[3]通过实验发现寻找频集主要的计算是在生成频繁2-项集上,利用这个性质Park等引入杂凑(Hash)技术来改进产生频繁2-项集的方法,该算法显著的提高了频繁2-项集的发现效率;Mannila等[4]提出:基于前一遍扫描得到的信息,对此仔细地作组合分析,可以得到一个改进的算法了。针对Mannila的思想Toivonen[5]进一步提出:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。Toivonen的算法相当简单并显著地减少了I/O代价,但是一个很大的缺点就是产生的结果不精确,存在数据扭曲(dataskew)。

上述针对经典Apriori算法的改进算法在生成频繁项目集时都需要多次扫描数据库,没有显著的减少I/O的代价。本文在分析了经典的Apriori算法的基础上,给出了一种改进的方法,该方法采用转置矩阵的策略,只扫描一次数据库即完成频繁项目集的发现,在项目集长度较大时,性能明显提高。

2Apriori算法

2.1基本概念

设I={i1,i2,…,im}是二进制文字的集合,其中的元素称为项(item)。定义交易(transaction)T为项的集合,并且TÍI,定义D为交易T的集合。设X是I中若干项的集合,如果XÍT,那么称交易T包含X。项目集中包含项的个数成为项目集长度。

关联规则是形如XÞY的蕴涵式,这里XÌI,YÌI,并且XÇY=F。

规则XÞY在交易数据库D中的支持度(support)是交易集合中包含X和Y的交易数与所有交易数之比,记为support(XÞY),即support(XÞY)=|{T:XÈYÍT,TÎD}|/|D|。

规则XÞY在交易集中的置信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(XÞY),即confidence(XÞY)=|{T:XÈYÍT,TÎD}|/|{T:XÍT,TÎD}|。给定一个交易集D,挖掘关联规则就是找出支持度和置信度分别大于用户给定的最小支持度(minsup)和最小置信度(minconf)的关联规则。

2.2基本思想

1994年Agrawal等人在项目集格空间理论的基础上提出了用于发现频繁项目集的Apriori算法。该算法采用“逐层搜索”的迭代方法,用k-项集生成(k+1)-项集。首先,扫描数据库计算出频繁1-项集的集合(记为:L1);然后,执行下面的迭代过程计算频繁k-项集,直到生成频繁k-项集的集合(记为:Lk)为空:

①连接:Lk-1进行自连接运算,生成候选k-项集的集合(记为:Ck)。所有的频繁k-项集都包含在Ck集合中。

②剪枝:①生成的Ck是Lk的超集,扫描数据库计算Ck中每个候选项目集的支持度,支持度大于用户给定最小支持度的候选k-项目集就是频繁k-项目集。

通过上述的迭代过程,可以发现项目集I在给定数据库D中满足最小支持度的所有频繁项目集。

2.3算法分析

Apriori算法在执行“连接-剪枝”的迭代过程中,需要多次扫描数据库,如果生成的频繁项目集中含有10-项集,则需要扫描10遍数据库,增大了I/O负载。并且在迭代过程中,候选项目集合Ck是以指数速度增长的,Lk-1自连接会产生大量的候选k-项目集,例如有104个1-项集,自连接后就可以产生大约107个候选2-项集。这些都严重影响了Apriori算法的效率。

3改进的Apriori算法

3.1改进思想

Apriori算法在迭代过程中多次扫描数据库和产生大量的候选项目集形成了算法的性能瓶颈。为了提高算法的效率本文进行如下改进:

数据库D中每个交易T都有一个唯一的编号TID。定义K-项集Rk=<Xk,TIDS(Xk)>,其中Xk=(ij1,ij2,…,ijk),ij1,ij2,…,ijkÎI,j1<j2<…<jk,TIDS(Xk)是数据库中所有包含Xk的交易T的编号TID的集合,即为:TIDS(Xk)={TID:XkÍT,<TID,T>ÎD}。根据上面的定义k-项目集Rk的支持度可以表示为:support(Rk)=|TIDS(Xk)|/|D|=|{TID:XkÍT,<TID,T>ÎD}|/|D|。Rk的支持数supNum(Rk)=support(Rk)*|D|=|TIDS(Xk)|。L’k表示k-项集的集合。

改进的Apriori算法依然采用“逐层搜索”的迭代方法,迭代过程的“连接-剪枝”运算定义如下:

①连接:设两个(k-1)-项集:L’k-1(i)=<Xk-1,TIDS(Xk-1)>ÎL’k-1,L’k-1(j)=<Yk-1,TIDS(Yk-1)>ÎL’k-1,i<j。如果Xk-1和Yk-1的前k-2项相等,即:Xk-1[k-2]Yk-1[k-2],则(k-1)-项集连接:L’k-1(i)∞L’k-1(j)=<Xk-1

∪Yk-1,TIDS(Xk-1)∩TIDS(Yk-1)>=<Xk,TIDS(Xk)>=RkÎL’k;否则,不进行连接运算,因为产生的结果不是重复,就是非频繁项目集,这样可减少计算量。

②剪枝:计算k-项集的支持数,根据上面的定义supNum(Rk)=|TIDS(Xk)|,该计算过程不需要再扫描数据库,避免了I/O操作,提高了算法的效率。如果supNum(Rk)≥minSupNum,则<Xk,|TIDS(Xk)|>ÎL;否则,从集合L’k中删除Rk。

3.2改进的算法描述

输入:数据库D,最小支持数minSupNum

输出:D中的频繁项目集L

算法描述:

①L’1=findFrequentOneItemSets(D);//扫描数据库D生成1-项集的集合L’1。

②foreachOneItemSet<X1,TIDS(X1)>ÎL’1//生成频繁1-项集的集合

if(|TIDS(X1)|≥minSupNum)

L=L∪{<X1,|TIDS(X1)|>};

else

L’1=L’1-{<X1,TIDS(X1)>};

③for(k=2;L’k-1≠Ф;k++)

L’k=L’k-1∞L’k-1;

Foreachk_ItemSet<Xk,TIDS(Xk)>ÎL’k

if(|TIDS(Xk)|≥minSupNum)

L=L∪{<Xk,|TIDS(Xk)|>};

else

L’k=L’k-{<Xk,TIDS(Xk)>};

④returnL;

3.3例举

设数据库D表1所示,最小支持数minSupNum=4,运行改进的算法的过程如图所示:

4总结

改进的Apriori算法,只是在生成L’1时进行了一次数据库扫描,在之后的迭代过程中不需要扫描数据库。与文献2,3,4,5中提出的改进算法相比,使用本文提出的算法大大降低了I/O负载,使得频繁项目集的发现速度大大提高,尤其是在项目集长度较大的情况下。算法的迭代过程不需要复杂的计算,项目集连接仅仅使用集合的并、交运算即可完成,使得该算法易于实现,相信该算法具有一定的理论与实用价值。

但是该算法也有不足:为了减少I/O负载,要求在第一次扫描时把所有的信息装入内存,虽然本算法对数据库进行编码,以二元组的形式存储项集,但是数据挖掘都是基于海量数据的,因此,算法运行时需要大量内存,对此将在今后的研究中进行改进。

参考文献

[1]R.Agrawal,T.Imielinski,andA.Swami.Miningassociationrulesbetweensetsofitemsinlargedatabases.ProceedingsoftheACMSIGMODConferenceonManagementofdata,pp.207-216,1993

[2]A.Savasere,E.Omiecinski,andS.Navathe.Anefficientalgorithmforminingassociationrulesinlargedatabases.Proceedingsofthe21stInternationalConferenceonVerylargeDatabase,1995

[3]J.S.Park,M.S.Chen,andP.S.Yu.Aneffectivehash-basedalgorithmforminingassociationrules.ProceedingsofACMSIGMODInternationalConferenceonManagementofData,pages175-186,SanJose,CA,May1995

[4]H.Mannila,H.Toivonen,andA.Verkamo.Efficientalgorithmfordiscoveringassociationrules.AAAIWorkshoponKnowledgeDiscoveryinDatabases,1994,pp.181-192

[5]H.Toivonen.Samplinglargedatabasesforassociationrules.Proceedingsofthe22ndInternationalConferenceonVeryLargeDatabase,Bombay,India,September1996

大数据时代含义范文第10篇

对表1的具体分析如下。

1)“方剂”和“中药”类数量多的主要原因在于具体的方剂名称、中成药以及具体的单味药数量很多;

2)“中医文献”位居第二,是由于系统收录了大量的古代和现代医书、医案等名称,如“《经方要义》《南阳类案》”等,均属于中医文献类;

3)“医学人物”类,系统收录了古、近、现代中医医家,如“朱丹溪”“葛洪”等,这部分内容也很庞大;

4)“动植物”类实际指“药用动植物”,即单味中药的原植物和原动物,如“白斑角鲨”“黄凤仙花”等,有些概念词的中药名称与原植物、动物相同,既属于“中药”也属于“动植物”,如“黄柏”“蜈蚣”等;

5)“诊断的过程”这一语义类型是原来系统加工西医诊断学时设立的,目前暂时保留了这一部分数据,该部分的概念基本为西医诊断学术语;

6)“疾病或证候群”这一语义类型也是系统设立初期建立的一个语义类型,其内容包括了疾病、证候和症状,系统旧数据有大量的概念标为这一语义类型,还未修改;

7)“中药化学成分”类包含具体的化学成分名称,系统收集了中药涉及的化学成分名称;

8)“食疗-药膳”类包含可以用作食疗和药膳的具体名称,如“安神茶”“八宝粥”等;

9)“中医机构”类包含了全国所有中医药研究机构、行政机构、医院、制药企业等,如“安徽省卫生厅中医管理局”“安庆市中医医院”“安顺制药厂”等。综上所述,使用最多的10个的语义类型都属于实体类型,均有较多实例,故包含的概念较多,在语义类型的使用上属于正常现象。

2使用数量少于10个的语义类型的情况分析

具体分析语义类型使用数量少于10个的有30个,它们的使用情况分析如下。

1)语义类型本身为大类,按照“能用具体类型的就不用上位类型”的语义类型归类原则,这类语义类型本身在分类中只起到分类节点的作用,而具体归类则归为其下的具体类型,如“事件”“物理实体”“中医基础理论”“中医信息文献学”“中药性能与功能”“有机体”等;

2)语义类型本身定义范畴过窄,不能包含更多的概念,如“血”“血的功能”“津液功能”“精的功能”“腧穴功能”“五色”“五化”等;

3)在中医药学系统里不能或者不需要作为语义类型存在的,如“归经”“针灸处方”“中药功能”“方剂功用”等;

4)由于与其他语义类型定义分辨不清而归类错误或不完全的,如“针灸研究”“辅料”“中医预防”等;

5)由于中医药学语义类型也是在不断修改完善过程中,有部分数据还未完全修改为目前的语义类型,如“中药药理作用”“矿物”等;

6)语义类型分类过细,如“心理功能-中医心理”“神”“情志”“七情”。

3未用到的语义类型分析

中医药学语言系统现有语义类型128个,使用率为86.72%,未使用到的17个是:人工物质;中西医结合;医古文;自然物理学科;颜色;中医学与古代哲学;中西医结合疗法;制药工艺、农业;脏象学说;药用设备;思想或概念;研究设备;升降沉浮;研究活动;中药研究;师承关系;症状或体征。该17个语义类型的情况分析如下。

1)语义类型本身为上位概念,其下还有更具体的语义分类,如“思想与概念”“人工物质”“中医学与古代哲学”“制药工艺、农业”“研究活动”“中药研究”等;

2)语义类型本身表示的是一种组合关系,而不是单一概念所能表达的,如“师承关系”“中西医结合”“中西医结合疗法”等;

3)语义类型设置过大,过于空泛,目前中医药学语言系统未涉及其内容,如“自然物理学科”;

4)语义类型设置问题,不表示一种语义分类。如“医古文”表示的是一种语言形式,每个医古文形式的字、词、句都会表示具体的语义含义;

5)语义类型设置太过于狭小,仅表示特别具体的意思,如“升降沉浮”是具体指中药药性的一个方面,不应作为一个语义类型存在;

6)语言系统目前收词范围的局限导致未使用到该语义类型,如“研究设备”“药用设备”等;

7)语言系统数据问题,“症状或体征”是最近修改的语义类型,原有这部分数据均标为“疾病或症状群”,数据还未修改。

4小结

大数据时代含义范文第11篇

1)“方剂”和“中药”类数量多的主要原因在于具体的方剂名称、中成药以及具体的单味药数量很多;2)“中医文献”位居第二,是由于系统收录了大量的古代和现代医书、医案等名称,如“《经方要义》《南阳类案》”等,均属于中医文献类;3)“医学人物”类,系统收录了古、近、现代中医医家,如“朱丹溪”“葛洪”等,这部分内容也很庞大;4)“动植物”类实际指“药用动植物”,即单味中药的原植物和原动物,如“白斑角鲨”“黄凤仙花”等,有些概念词的中药名称与原植物、动物相同,既属于“中药”也属于“动植物”,如“黄柏”“蜈蚣”等;5)“诊断的过程”这一语义类型是原来系统加工西医诊断学时设立的,目前暂时保留了这一部分数据,该部分的概念基本为西医诊断学术语;6)“疾病或证候群”这一语义类型也是系统设立初期建立的一个语义类型,其内容包括了疾病、证候和症状,系统旧数据有大量的概念标为这一语义类型,还未修改;7)“中药化学成分”类包含具体的化学成分名称,系统收集了中药涉及的化学成分名称;8)“食疗-药膳”类包含可以用作食疗和药膳的具体名称,如“安神茶”“八宝粥”等;9)“中医机构”类包含了全国所有中医药研究机构、行政机构、医院、制药企业等,如“安徽省卫生厅中医管理局”“安庆市中医医院”“安顺制药厂”等。综上所述,使用最多的10个的语义类型都属于实体类型,均有较多实例,故包含的概念较多,在语义类型的使用上属于正常现象。

2使用数量少于10个的语义类型的情况分析

具体分析语义类型使用数量少于10个的有30个,它们的使用情况分析如下。1)语义类型本身为大类,按照“能用具体类型的就不用上位类型”的语义类型归类原则,这类语义类型本身在分类中只起到分类节点的作用,而具体归类则归为其下的具体类型,如“事件”“物理实体”“中医基础理论”“中医信息文献学”“中药性能与功能”“有机体”等;2)语义类型本身定义范畴过窄,不能包含更多的概念,如“血”“血的功能”“津液功能”“精的功能”“腧穴功能”“五色”“五化”等;3)在中医药学系统里不能或者不需要作为语义类型存在的,如“归经”“针灸处方”“中药功能”“方剂功用”等;4)由于与其他语义类型定义分辨不清而归类错误或不完全的,如“针灸研究”“辅料”“中医预防”等;5)由于中医药学语义类型也是在不断修改完善过程中,有部分数据还未完全修改为目前的语义类型,如“中药药理作用”“矿物”等;6)语义类型分类过细,如“心理功能-中医心理”“神”“情志”“七情”。

3未用到的语义类型分析

中医药学语言系统现有语义类型128个,使用率为86.72%,未使用到的17个是:人工物质;中西医结合;医古文;自然物理学科;颜色;中医学与古代哲学;中西医结合疗法;制药工艺、农业;脏象学说;药用设备;思想或概念;研究设备;升降沉浮;研究活动;中药研究;师承关系;症状或体征。1)语义类型本身为上位概念,其下还有更具体的语义分类,如“思想与概念”“人工物质”“中医学与古代哲学”“制药工艺、农业”“研究活动”“中药研究”等;2)语义类型本身表示的是一种组合关系,而不是单一概念所能表达的,如“师承关系”“中西医结合”“中西医结合疗法”等;3)语义类型设置过大,过于空泛,目前中医药学语言系统未涉及其内容,如“自然物理学科”;4)语义类型设置问题,不表示一种语义分类。如“医古文”表示的是一种语言形式,每个医古文形式的字、词、句都会表示具体的语义含义;5)语义类型设置太过于狭小,仅表示特别具体的意思,如“升降沉浮”是具体指中药药性的一个方面,不应作为一个语义类型存在;6)语言系统目前收词范围的局限导致未使用到该语义类型,如“研究设备”“药用设备”等;7)语言系统数据问题,“症状或体征”是最近修改的语义类型,原有这部分数据均标为“疾病或症状群”,数据还未修改。

4小结

大数据时代含义范文第12篇

行业领域的应用软件其核心价值往往首先体现在行业数据模型的设计之上,数据模型的准确描述首先要保证每个数据元素命名的规范和准确,对词根的规范和整理成为基础工作。词根与行业领域紧密相关,源于行业中的术语,同时必须符合一定的约束规则,并且表达准确的含义,保证词根易于理解、易于应用。数据库的设计中,字段名、表名以及其他相关元素的名称都需要以词根为基础,结合业务内容,按一定的规则进行命名。

数据模型的建立、字段的设计以基于表单的理论依据进行设计和描述,数据表通过横向、纵向的表单类型划分为事实表、约束表、维度表和代码表,结合表单文档和数据库说明清晰准确地对数据模型的含义和思想进行有效的表达,以达到设计思路的体现和传承,保证数据结构的扩展性和适应性,为行业应用的建立打下坚实的基础。

寿险应用命名规范

数据模型除了要有良好的设计,其组成元素的命名同样要遵循严格的规范。正如前文对词根的说明,通过一定的约定规则建立的词根,能够清晰准确地反映出领域中的信息。数据库中的表名、字段名等信息的命名规则同样是为了保证数据模型表述的信、雅、达,所描述的业务概念的准确和清晰。

首先,数据库中各数据元素的命名必须源于词根,必须遵循词根的约束规则。其次,数据库中各元素需要在词根的基础上进行扩展和重新组合。词根作为一套行业标准是面向具体的行业领域的,而命名规范在面向行业领域的同时,还要面向应用系统,服务于具体的业务系统,反映与系统相关的信息代码、业务类别、数据类型等,在某些方面还需要与软件代码的命名规范相结合,带有明显的技术特征,这也是词根与命名规范的主要区别。

以寿险核心业务系统的数据库表的命名规则为例,数据库表分为两大部分,一部分是寿险业务的应用表,另一部分是数值表或数据表。

应用表反映数据模型的主体,这些表采用“领域类别+业务类别+业务内容词根+应用类别”的命名规范,其中应用类别是可选的。寿险数据模型的领域代码为“L”,表示寿险领域(Life Insurance)。业务类别中,对于保单明细信息和承保业务,以字母“C”为标志,本文列举的事实表就是承保业务表的示例。此外,对于保全业务,以字母“P”为标志,对于产品描述相关的数据模型,以及业务规则定义的约束表,字母“M”为标志,等等。业务内容词根表示了数据表的具体业务内容或对象。

部分数据库表附加应用类别,表示数据库表的用途,例如用于描述定义的表,需要以Def为后缀。以险种定义表LMInsuProductDef为例,L表示寿险业务应用表,M表示产品描述体系中的表,InsuProduct来源于“保险产品”词根的缩写形式,Def表名这是一个用于定义的表。

数值表或数据表包括费率表、现金价值表等,包含着险种精算要素等与计算相关的纯数据信息,含义明确且单一,因此这类表均以所代表的数据内容的词根缩写为起始,如费率表以rate的缩写RT起始,现金价值表以cash value的缩写CV为起始。之后加上险种的代码和数据表的版本号,作为命名规则。由于险种代码可能是数字代码,也可能是字母代码,为了区分方便,数值表的命名规范中使用下划线“_”作为分隔符。例如险种628的费率表为RT_628_1,险种WHI的现金价值表为CV_WHI_1。

挖掘寿险行业软件价值

寿险数据模型设计

基于业务表单进行数据模型的分析和设计是重要的数据库设计思想,其核心是从横向和纵向两个角度对数据对象和数据项进行划分和设计。其中横向分析面向领域的通用性和一般性,形成数据结构中的维度表(通用关系型库结构类)和代码表(代码/单元素库结构类),是对领域的概括和抽象; 纵向分析则针对具体的业务内容,形成事实表(记录事实型库结构类)和约束表(约束型库结构类),反映了领域中的具体和依赖。

横向分析

横向分析针对行业领域内的共性的、通用的信息数据,进行提炼和组织,概括了行业内的对象、实体、概念等的属性和对象的取值关系,既反映了取值的事实内容,也反映了约束和边界。

维度表与相关的行业领域是有一定的关联性的,在取值范围和约束规则上具有较强的行业特性,但在行业内是通用的,与具体的业务活动无关,可以跨越不同细分领域,强调在记录事实型和约束型结构中主要元素之间的一些通用的、固有关系的结构,所建立的是领域的概念数据模型。

维度表的建立是概念筛选和细化的过程,首先对领域中的核心对象进行提炼和抽取,筛选出能够代表领域特征的业务对象和业务概念,例如险种、账户等。然后需要进行对象的通用化设计,设计原则有两点: 求同去异、兼容并包,二者相辅相成、又相互制约。求同去异就是保留共性的、一般化的信息,放弃专有的、不确定的信息,然而并非所有不确定的信息都必须抛弃,这样无法涵盖领域的全貌,无法保证模型的完整性,因此需要以兼容并包的思想建立扩展性机制,通过可定制、可描述的方式建立概念模型。由于概念模型对业务模型起到约束作用,因此最后还需要建立取值关系、约束条件和边界信息等。

代码表是对维度表的进一步提炼,抽取出可以用简单的形式如数字、字符表示的单一信息,进行归类汇总后形成的。代码表明确反映的是取值的内容,取值关系是单一的信息内容,而维度表则可能是一组取值信息或只是取值的范围规则,而非明确数值。同时,相对于维度表,代码表与具体行业领域的相关性较弱,很多信息代码是跨行业、跨领域的。

纵向分析

纵向分析是行业应用数据库设计的重点,也是设计思路得以体现的部分。数据模型需要体现领域中的业务活动的相关信息,反映业务事实、业务过程和业务规则,因此纵向表主要包含事实表和约束表。事实表反映了领域中的业务数据模型。事实表的纵向分析的主要内容就是对象的建立、属性的划分和关系的形成,在整理记录事实表单中的所有相关信息的基础上,对信息进行分类,确定信息归属的对象和层次。

事实表单是一个包含了大量实体对象的聚合体,因此需要对这些对象进行分解和精化,进行维度展开。按维度的展开有两种不用的方法: 面分解和线分解。面分解是针对领域中的组合对象进行分解的方法,将对象分解为不同种类的各子对象,分别分析子对象的属性和信息。线分解则是针对领域中的聚合对象进行精化的方法,将对象分解成类别相同,但具备各自特点的不同的子对象。

属性划分的方法参考了领域知识表述的方式,领域知识通常从两个主线进行表述,分别是结构主线和流程主线,分别强调了成果管理和行为管理。因此,属性的划分需要从“空间”和“时间”两个主线逐层展开。空间主线反映的是在某一特定时期或特定状态下,各实体、对象的属性和取值的状况,可以理解为领域信息的静态展现。而时间主线则反映各业务活动的进展过程,主要体现时间信息和变化信息,可以理解为领域内容的动态展现。

以人寿保险行业领域为例,保单明细信息和承保业务过程是最为典型的业务事实,相关数据模型的建立过程充分体现了基于表单的建模方法。图1显示承保事实中保单明细信息的部分数据模型。

约束表反映的是业务对象和业务过程必须遵循的业务规范,以及为满足业务规范所需的活动,是领域中的业务控制模型。约束表包含两类,一是对事实表单之间或表单中元素之间关系的描述,这些关系往往不是简单的静态数据的类型约束或取值范围(这是维度表的职能),而是一组较为复杂的业务规则,反映了在业务过程中的行为准则,是对动态过程中各数据进行演化的约束和控制,例如承保事实中的投保规则。另外,约束表还包含对于业务控制过程的描述,在业务内容中,本身包含对业务事实进行控制和约束的过程,例如承保事实中的核保过程,这些起控制作用的业务过程在数据模型中的体现属于约束表的范畴。

承保过程是保单生命周期的一个组成部分,保单信息模型需要对承保过程中相关环节的信息进行记录,同时根据承保过程中的业务规范和约束型表单建立承保事实的约束表。图2显示了承保业务事实中的部分约束表模型。

寿险数据模型实例

图3显示了人寿保险行业领域保单明细信息部分的数据模型,和相关的约束表、维度表和代码表的实例。保单表作为保单组合体的对应表,包含了保单自身具备的属性和各组合对象的共通的属性,投保人表、被保人表和险种表是组合保单信息的主要对象对应的表,包含了对应在投保人、被保人和险种层面的相关属性信息。

其中投保人、被保人是以客户信息表的数据为基础的,反映了在具体的保单层面,不同身份的相同客户所具有的不同的信息,如地址、客户账户等,客户信息表作为代码表,从个人基本资料层面约束了客户信息的取值关系。险种既是保单的组合元素,同时也是一个聚合体,在数据模型设计时需要从线分类的角度进行细化,险种是责任对象的聚合,责任又是保费对象和保障对象的组合体。

从时间主线看,保单信息模型中的各对象中都包含与生命周期相关的演化信息,例如保单的核保结论、签发时间(承保时间)、险种的有效期、缴费的起止日期和缴至日期、给付保障的领取期间、领取间隔等。

在保单承保业务过程中,必须遵循投保规则和核保规则,相对应地存在这两种约束型表单,因此投保规则表和核保规则表是根据这两个表单建立的约束表,其中通过算法定义和参数化体系,建立可扩展的约束规则描述体系。此外,对于核保业务过程和核保信息,如特约、免责、问题件等,这些都是对保单事实的约束,也是承保业务事实过程中的约束表。

值得一提的是,我们在设计寿险领域的数据模型时,同时参考了其他一些标准化的模型规范,例如ACORD标准的对象模型和IBM的IAA模型等参考模型,而我们的模型是对这些标准化模型的重要补充、完善和发展。

以ACORD模型为例,它以XML方式完整描述了保单对象,将保单作为一个组合对象进行了定义,这与我们的事实表的描述方式异曲同工,但由于ACORD模型是一个通用应用的标准,是一个指导模型,而非一个应用模型。因此从纵向来看,只是定义了领域中的主体对象,或者说描述了领域中的事实的概要,但并没有针对业务实务形成事实的明细和与事实紧密相关的约束。从横向来看,ACORD模型只包含了部分代码的取值范围或取值依据,但没有复杂的领域概念的模型。这些约束关系是具体业务内容中的重点,应在数据模型中得到完善,使得模型能够描述领域中的业务实务,具备实用的价值。

可见,最后形成的模型,可以理解为“蓝图数据库结构”,类似于建筑行业中的设计蓝图,是在参考模型的指导下形成的,是参考模型的下位概念,一方面必须具体、全面地涵盖领域对象和过程的整体,同时能够作为系统设计、构建和实施过程中可操作的依据。

链接

从字典到词根

字典

汇集单字,并按某种查字方法编排,为字词提供音韵、意思解释、例句、用法的工具书,字典以单个的字为收录对象,也兼收少量复词。其功能主要体现在: 以沟通为主,帮助对文字的理解及翻译; 以知识为主,针对某事物来寻获知识; 含义需要根据上下文来确定。

术语

术语来源于字典,是各门学科中的专门用语。术语可以是词,也可以是词组,用来正确标记生产技术、科学、艺术、社会生活等各个专门领域中的事物、现象、特性、关系和过程,含义基本明确。比如在寿险行业中: 终身寿险(Whole life insurance)、定期寿险(Term life insurance)、生命表(Mortality table)等。

大数据时代含义范文第13篇

许多先进的可视化方式(如:网络图、3D建模、堆叠地图)被用于特定用途,例如3D医疗影像、模拟城市交通、救灾监督。但无论一个可视化项目有多复杂,可视化的目的是帮助读者识别所分析的数据中的一种模式或趋势,而不是仅仅给他们提供冗长的描述,诸如:“2000年A的利润比B高出2.9 %,尽管2001年A的利润增长了25 %,但2001年利润比B低3.5 %”。出色的可视化项目应该总结信息,并把信息组织起来,让读者的注意力集中于关键点。

对于Elsevier’s Analytical Services的项目而言,我们一直在寻找提升数据分析和可视化的方式。例如,在我们对于研究表现的分析中有大量关于研究合作的数据;我们为Science Europe提供的报告(Comparative Benchmarking of European and US Research Collaboration and Researcher Mobility)包含跨州合作以及国际合作的数据,这些数据不适合直接用二维表和X-Y图展示。

为了探索数据背后的故事,我们使用了网络关系图来识别国家间的合作,并了解每个合作关系的影响。

本文提供一份包含五个步骤的数据可视化指南,为想用表格、图形来传播观察结果、解读分析结果的人士提供帮助。要记住,建立好的可视化项目是一个反复迭代的过程。第1步-明确问题

开始创建一个可视化项目时,第一步是明确要回答的问题,又或者试着回答下面的问题“这个可视化项目会怎样帮助读者?”

3条数据记录

表1–数据集中的三条记录

图1-槽糕的可视化项目并不澄清事实,而是引人困惑。此图中包含太多变量

清晰的问题可以有助于避免数据可视化的一个常见毛病:把不相干的事物放在一起比较。假设我们有这样一个数据集(见表1 ),其中包含一个机构的作者总数、出版物总数、引用总数和它们特定一年的增长率。

图1是一个糟糕的可视化案例,所有的变量都被包含在一张表格中。在同一张图中绘制出不同类型的多个变量,通常不是个好主意。

注意力分散的读者会被诱导着去比较不相干的变量。

比如,观察出所有机构的作者总数都少于出版物总数,这没有任何意义,又或者发现Athena University、Bravo University、Delta Institution三个研究机构的出版物总数依次增长,也没有意义。拥挤的图表难以阅读、难以处理。在有多个Y轴时就是如此,哪个变量对应哪个轴通常不清晰。简而言之,槽糕的可视化项目并不澄清事实而是引人困惑。

第2步-从基本的可视化着手

确定可视化项目的目标后,下一步是建立一个基本的图形。它可能是饼图、线图、流程图、散点图、表面图、地图、网络图等等,取决于手头的数据是什么样子。在明确图表该传达的核心信息时,需要明确以下几件事:

我们试图绘制什么变量?X轴和轴代表什么?数据点的大小有什么含义吗?颜色有什么含义吗?我们试图确定与时间有关趋势,还是变量之间的关系?

有些人使用不同类型的图表实现相同目标,但并不推荐这样做。不同类型的数据各自有其最适合的图表类型。

比如,线形图最适合表现与时间有关的趋势,亦或是两个变量的潜在关系。当数据集中的数据点过多时,使用散点图进行可视化会比较容易。

此外,直方图展示数据的分布。直方图的形状可能会根据不同组距改变,见图2。(在绘制直方图时,本质是在绘制柱状图来展示特定范围内有多少数据点。这个范围叫做组距。)

图2-当组距变化,直方图的形状也发生变化。

组距太窄会导致起伏过多,让读者只盯着树木却看不到整个森林。此外,你会发现,在完成下一个步骤以后,你可能会想要修改或更换图表类型。

第3步-确定最能提供信息指标

假设我们有另一个关于某研究机构出版物数量的数据库(见表2 )。可视化过程中最关键的步骤是充分了解数据库以及每个变量的含义。从表格中可以看出,在A领域(Subject A),此机构出版了633篇文章,占此机构全部文章的39% ;相同时间内全球此领域共出版了27738篇文章,占全球总量的44%。注意,B列中的百分比累计超过100%,因为有些文章被标记为属于多个领域。

在这个例子中,我们想了解此机构在各个领域发表了多少文章。出版数量是一个有用的指标,不仅如此,与下面这些指标对照会呈现出更多信息:

此领域的研究成果总量( B列)此领域的全球活跃程度

由此,我们可以确定一个相对活跃指标,1.0代表全球平均活跃程度。高于1.0代表高于全球水平,低于1.0代表低于全球水平。用B列的数据除以D列,得到这个新的指标,见表2。

表2-用B列的数据除以D列,得到新的指标:相对活跃程度(E栏)。

第4步-选择正确的图表类型

现在我们可以用雷达图来比较相对活跃指数,并着重观察指数最高/最低的研究领域。例如,此机构在G领域的相对活跃指数最高( 1.8 ),但是,此领域的全球总量远远小于其他领域(见图3 )。雷达图的另一个局限是,它暗示各轴之间存在关系,而在本案例中这关系并不存在(各领域并不相互关联)。

图3-相对活跃指数雷达图

数据的规范化(如本例中的相对活跃指数)是一个很常见也很有效的数据转换方法,但需要基于帮助读者得出正确结论的目的使用。如在此例中,仅仅发现目标机构对某个小领域非常重视没太大意义。

我们可以把出版量和活跃程度在同一个图表中展示,以理解各领域的活跃程度。使用图4的玫瑰图,各块的面积表示文章数量,半径长短表示相对活跃指数。注意在此例中,半径轴是二次的(而图3中是典型线性的)。图中可以看出,B领域十分突出,拥有最大的数量(由面积表示)和最高的相对活跃程度(由半径长度表示)。

图4-玫瑰图。此图中各块面积表示文章数量,半径长短表示相对活跃指数(E列)。

第5步-将注意力引向关键信息

用肉眼衡量半径长度可能并不容易。由于在本例中,相对活跃指数的1.0代表此领域的全球活跃程度,我们可以通过给出1.0的参照值来引导读者,见图5。这样很容易看出哪些领域的半径超出参考线。

图5-带有相对活跃指数参考线的玫瑰图

我们还可以使用颜色帮助读者识别出版物最多的领域。如图例所示,一块的颜色深浅由出版物数量决定。为了便于识别,我们还可以把各领域名称作为标签(见图6 )。

图6-玫瑰图中的颜色深浅代表出版物数量(颜色越亮,出版物越多)

大数据时代含义范文第14篇

[关键词] 大数据时代;会计工作;挑战;思考和应对

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2015 . 17. 017

[中图分类号] F232 [文献标识码] A [文章编号] 1673 - 0194(2015)17- 0036- 02

1 大数据的含义及其特征

随着信息时代的到来,“大数据”这个概念也被广为传播。美国奥巴马政府也高调制定了其大数据研究和开发计划,大数据已经开始进入到人们的生活中。对于大数据这一概念,目前暂无确切的定义,通常是通过数据产生的过程和数据形成的两个过程进行描述,本文从大数据产生和大数据的特征两个维度进行定义。大数据具有规模大、类型多、处理速度快、价值密度低4个基本特征。

(1)大数据的基本特征是数据规模大,大不仅体现在数量上,还体现在范围上。随着数理统计技术的发展以及数据处理能力的提高,用传统的少量的样本特征来推断整体的习惯已经被摒弃,人们通过搜集和整理更大量、更大范围的数据,进行更精准的决策。

(2)大数据所包含的数据类型繁多、复杂多变。大数据时代数据来源范围更广阔,比如电子商务、手机信息、行车信息、购物会员信息等多渠道,同时数据的格式也不尽相同。因此,数据的多样性具有来源多样性以及格式多样性等特点。

(3)大数据的另一个显著特征就是处理速度快。面对巨大数量的数据,同时数据形式多样化,只有加快数据处理的速度才能让数据的时效性和有效性得到充分发挥。在巨量数据的情况下,数据还具有流动性,随着时间的推移其价值也会降低甚至失去其自身的意义,因此,在大数据时代下,数据处理越来越强调其时效性,对其处理速度也提出了更高的要求。

(4)大数据下大量数据的聚集导致数据的价值密度低。大数据所包含的巨量数据信息中包含了所有数据和全部字段细节,对于要解决一些特定的问题和决策来说,有大量不相关信息包含其中,造成了相对有效数据的密度低。面对这个特征,为了提升决策的效率以及效益,需要提炼有效数据。大数据为了保证信息的完整性以及能够满足所有应用,这就要求数据数量的激增,而有效信息的比例相对减少,也就是我们所说的价值密度低的特征。

2 大数据时代管理会计面临的挑战

2.1 会计工作者对大数据的应用认识不足

大数据时代的到来对很多行业来说既是机遇也是挑战,会计从业者对大数据的正确认识是迎接机遇和挑战的必要条件。目前很多企业并没用充分认识到这一点,对大数据的认识不足,主要表现为:首先,认为大数据技术比较遥远,而且仅仅是存在于如谷歌、微软等高精尖技术公司,不愿意为大数据技术投入人力、物力、财力,甚至有意避开大数据这一领域的有效应用;其次,对于大数据的认知度不足,调查显示,在中小企业中,对大数据有过关注和了解的人不足50%,另一半则仅仅听过这个名词而已,并没有真正关注和了解。再这样的情况下,大数据在会计工作者中的应用与推广必将受到影响。

2.2 会计的信息存储空间不足

我们强调了大数据时代其特征中数据量的巨大,并且要求所存储数据的全面性以及持续性,这些都需要巨大的存储空间,而目前对于处理这些TB级别的数据有很大困难。

2.3 会计信息的安全无保障

大数据时代基础数据搜集中,包含着大量的私密信息,这些信息的安全关系到员工及客户的自身安全;同时大数据也涉及到企业核心信息。这些数据一旦泄露,都将对客户或者企业造成威胁,给企业带来不可弥补的损失。因此,面对大数据的应用,对于信息安全的要求是一个不可回避的重要课题。

2.4 针对大数据的会计分析技术不足

大数据的特点之一就是数据价值密度低,也就是说面对众多数据,对其有效的分析和充分的利用是实现大数据有效应用的途径之一。目前,对于大数据的有效应用少之又少,一方面是因为数据量过大,另一面则是因为传统的分析方法不能很好地适用于非结构化数据的分析。

2.5 大数据时代下会计人才缺失

目前,全世界都面临着大数据专业人才的缺口,面对大数据的特点,必须有专业数据分析技能的会计工作者才能胜任,才能将众多数据转化为有效的深度挖掘和分析决策报告。专业知识的短缺必将阻碍会计工作者在大数据时代下的发展,因此,对于数据处理及数据挖掘等相关方面的培训是会计工作者提升自身技能的必备条件。

3 如何应对大数据给会计工作带来的挑战

大数据时代的到来是一个渐进的过程,在这个过程中,对会计工作的能力要求也是一个渐变和逐步提升的过程,会计人员必须积极应对这些变革,迎接大数据带来的挑战。

3.1 提升自身对数据挖掘的应用能力

大数据的有效应用就是考验会计工作从海量信息中找到有价值信息的过程,只有找到了有价值的信息才能为生产经营提供正确的发展方向。这些都需要依赖于数据仓库以及数据挖掘技术。

3.2 提升会计信息化的安全性

前面提到了目前会计信息安全性的问题,如何防止他人恶意非法访问以及窃取相关数据是目前急需解决的问题。目前比较有效的防护办法为:企业启用用户身份安全认证以及访问控制机制,同时增加会计信息安全评估机制,在企业内部建立和健全一个会计信息管理系统。

3.3 加大对大数据知识的会计人才的培养

随着大数据的逐步应用,为应对大数据知识及技能人才缺失的现状,企业一方面可以加大招聘力度,另一方面可以通过对现有会计人员进行培训或者交流学习等方式,提升会计工作人员的大数据挖掘分析的能力。

4 结 语

随着大数据时代的到来,对会计工作的需求也上升到了一个新的高度,在技术上说,要求会计人员了解大数据的特点,并且能从中挖掘和整理出有效的信息,能为公司解读有效数据并提供决策依据;从职业操守上来看,需要会计工作者严保数据库中的敏感信息,不可泄露客户及公司的信息。因此,需要不断提升会计工作的技能和职业操守来应对大数据时代的到来,更好地利用大数据来更加出色地完成会计工作。

主要参考文献

[1]袁振兴,张青娜,张晓琳,等.大数据对会计的挑战及其应对[J].会计之友,2014(32).

[2]许金玲,赵爽.大数据时代管理会计工作变革研究[J].现代经济信息,2014(23).

[3]孙雨萌,田雨晴.大数据时代下我国会计行业[J].商,2014(6).

大数据时代含义范文第15篇

关键词:制造业企业信息化;信息编码;物资材料信息编码技术

1 引言

现代社会是信息社会,我国企业尤其制造业企业都在以信息化促进工业化,掀起了信息化浪潮,通过信息化来提升企业竞争能力参与国际竞争。这是件好事,但同时我们也发现在实际的企业信息化过程中存在着诸多的失败案例,企业花了人力、物力、财力,却没有达到预期的效果,有的企业信息化不仅没促进企业的工业化,而且阻碍了企业的发展,一个最突出的原因是信息化的数据不准确、不及时。信息化的基础是数据的准确性、及时性,数据出了问题信息化的决策必出错,基础数据的不完整性导致了我国信息化的悲剧发生。企业信息化中信息编码是个普遍存在的问题。

一个成功的信息化系统,三分技术,七分管理,十二分是基础数据。计算机只有在数据准确、完整、及时的情况下,才能发挥作用,否则可能带来致命的错误的结果。可以说基础数据是信息化系统运行的依据,而基础数据建立的前提则是一定要有信息编码技术的支持,随着信息化在制造业企业的应用,关系到企业成本的物资材料信息编码技术在制造业企业信息化技术中占有越来越重要的地位。

2 信息编码

(1)信息编码的定义

信息编码就是给事物或概念赋予一定规律性的易于人或计算机识别与处理的符号。前提是要进行信息分类。信息分类就是根据信息的属性、特征,将信息按照一定的方法区分和归类,建立相应的分类、排列顺序来管理和使用。

(2)信息编码的重要性

信息编码是企业标准化工作的重要内容之一,是企业信息化的基础;信息编码可以实现有效地管理原材料,从而降低产品制造成本,提高企业经济效益;信息编码为企业决策支持系统(DSS)提供了科学的数据依据;信息编码是企业信息化中克服出现“信息孤岛”的关键。

(3)信息编码的基本原则

唯一性:一个代码只能唯一地标识一个分类对象,不因时间、地点等因素发生变化。

不变性:指在整个信息系统周期内编码不能发生变化。

扩展性:应有备用代码,可以产生新数据。

简短性:代码结构应尽量简短明确,能减少差错。在实际中尽可能用最简单的结构、最少的码位标识编码对象。

含义性:代码应有助记符的特点,便于记忆和填写。

(4)信息编码的种类

无含义代码:有顺序码和随机码两种,这种代码的编码长度短、存储量少、不影响发展扩充、方便录入,提高录入速度;同时不便于记忆。

有含义代码:信息代码代表编码对象,其本身还具有一定的含义,如体现事务对象特点的特征码、由多个代码段组合在一起的复合码等都是有含义的编码。

(5)信息编码的分类方法

线分类法是将初始的分类对象按所选定的若干个属性或特征作为分类的划分基础,逐次地分成相应的若干个层级的类目,并排成一个有层次的,逐级展开的分类体系。

面分类法是将所选定的分类对象的若干个属性或特征视为若干个“面”,每个“面”中又可以分成许多彼此独立的若干个项目。

3 物资材料信息编码技术在制造业中的应用

(1)物资材料信息编码的分类方法

根据物资材料信息的特点,应采用线分类法,这种分类方法可使物资材料信息编码直观、形象、节省长度,易于使用人员掌握,在企业信息化各系统运行的过程中很容易被使用者尤其是物资管理部门接受。

(2)物资材料信息编码结构形式

物资材料信息按类别分为六大类:金属材料、非金属材料、机电配套件、铸锻毛坯件、配套标准件、国外购买件,并按所属仓库类别、大类、中类、小类四级组成物资材料信息查询结构树。这样形成的物资材料信息编码就比较科学。

物资材料信息编码前两位(仓库类别)为:

10:金属材料

20:非金属材料

30:机电配套件

40:铸锻毛坯件

50:配套标准件

90:国外购买件

物资材料信息编码共15位。如图示:

A、B、C、D:表示类别表区域,E:表示数据表区域。

A(2位编码):表示仓库类别。如:“10”为金属材料,“20”为非金属材料等。

B(4位编码):大类:按材料属性分类,如:金属中1070表示钢铁。

C(6位编码):中类:同一属性不同材料种类,如:107001表示重轨、107002表示轻轨、107003表示大型型钢等。

D(8位编码):小类:指出各种材料的规格范围,如:10700340表示普通圆钢的规格范围等。

E(11位或15位):(数据表区域)按牌号、规格大小进行排列。