美章网 精品范文 数据通信基本概念范文

数据通信基本概念范文

数据通信基本概念

数据通信基本概念范文第1篇

中图分类号:TN919-34文献标识码:A

文章编号:1004-373X(2010)18-0114-04

Ontology Metadata Mode of Business Credit Based on Descriptive Logic

LI Guang-ming, ZHOU Huan

(School of Information Management, Shanghai Finance University,Shanghai 201209,China)

Abstract: To solve the problem that members from commercial credit business can not effectively share information, aiming at the deficiency of existed method in solving concept expression and semantic extension, the information flow structure and content between participants to commercial credit business based on the detailed analysis of commercial credit is described. The descriptive logic original language is used to abstract concept and relation from some problem field to build ontology model, and integrated ontology representation is combined with metadata to build expanded and inferable ontology metadata model according to business requirement. This method is used to describe heterogeneous information, and is expected to provide effective solution to share heterogeneous information from heterogeneous sources.Keywords: business credit; descriptive logic; ontology; metadata

0 引 言

商业信贷管理信息系统是连接征信系统,贷款提供者,贷款需求者,第三方工具提供者等商业信贷参与方的信息链条。建立无歧义的,能够让系统成员都能够理解的数据是十分重要的。为了加强信息的表示,建立┮恢知能够映射系统参与方所使用的数据,并根据业务变化可扩展和推理的标准化的数据组织方式是十分必要的。本体是应用于信息管理领域中的重要方法,它将问题领域中的对象抽象成概念和概念间的关系,使用形式化的方法表示这些概念,使得计算机能够接收并处理,加强异构系统用户对数据的共享[1]。描述逻辑利用概念和规则符号将问题领域中的原子概念和规则表示出来,定义良好的语义和表示能力,并具有基于逻辑的推理能力,是目前应用比较广泛的本体描述原语,成为OWL-S等标准本体描述语言的语义基础。本文将引入可以跨平台,并且可根据用户需求,扩展语义的基于本体的元数据表示模型,表示贷款业务参与方之间交互的异构信息。

1 商业信贷管理系统结构

商业信贷系统包括核心业务功能和辅助业务。核心业务包括接收贷款申请,抵质押品管理,贷款合同的签订,贷款档案的管理,归还贷款本息等内容。辅助业务为核心业务提供支持,以规避贷款拖欠风险,提高贷款效率为目的。辅助业务包括信用审核,还款能力的审核,用款活动开展情况的检测,抵质押品价值的评估,还贷催收,还贷风险评估,行业分析等内容。辅助业务的执行需要同信贷机构以外的相关单位发生数据的交换。比如,评估还贷意愿,需要查看银行等征信机构的信用信息,还需要从工商,税务,电信,等部门获取贷款者的信用经历信息。为了最大限度的发挥核心业务,信贷机构从第三方服务提供者处获取服务,如信用等级评价,不同行业的贷款风险评估,抵质押品管理等。

2 基于描述逻辑的本体表示

2.1 本体的表述

基于面向对象的思想,本文将本体表述为:

Ontology=Q{C,CP},{CE,CEP},{R,RP},{RE,REP},H,XR,

式中:C表示由问题领域中的名词概念抽象出来,具有相同属性和行为结构的概念类的集合;CP表示类的属性声明,属性为类的静态特征;CE是问题领域中概念类的实例的声明,实例的属性用CEP表示;R表示问题领域中的关系,类与类之间可以具有某种关系,关系也可以成为新的类,即关系类,关系是由问题领域中与名词概念在同一层次的动作概念抽象而来,关系也具有相应的属性,用于描述关系的特征;RP表示描述关系的属性;RE表示关系的实例;REP表示关系实例的属性;H表示问题领域中所使用的计算工具,公里,定理等内容;X表示属性的约束和限制。

2.2 基于描述逻辑的本体元数据表示

(1) 基本的逻辑符号。

在描述逻辑中提供了基本的逻辑原语用于表示复杂的概念和关系。如:“∧”逻辑与、“∨”逻辑或等为基本的逻辑关系符号;“”逻辑蕴涵、“”逻辑等价、“≤”上限基数、“≥”下限基数、“M”包含于等扩展的逻辑关系符号;PartOf,InstanceOf,SubclassOf等表示组合等逻辑关系。

(2) 原子类和复合类。

问题领域中,类可以分为原子类和复合类。原子类是指不可以再分的类,用符号{C}表示,复合类由原子通过逻辑连接符号连接而成。如,C,D表示原子类,复合类MC∧D,表示原子式C和D通过“∧”操作形成复合类M。

(3) 类的属性。

在问题领域中,类的特征是通过属性表述出来的,一个类可能具有多个属性。类的属性之间通过“逻辑与”符号链接,表示属于同一个类。Q{C},{C.p1∧C.p2}R,式中C表示概念类,p1,p2表示类具有的属性。如果C是由多个原子类复合而成,则原子类的属性自动变成C的属性。

(4) 类的实例及其属性。

为了更清楚的表示概念类的实例,可以使用C(E)表示概念类C的E实例,可将类的实例形式化为:Q{C},{C.p1∧C.p2},{C(E1),C(E2)},{C(E1).p1∧C(E1).p2 ,C(E1). p1∧C(E1). p2}R,其中,C(E1), C(E2)表示对象类C的E1,E2实例。实例同对象类一样,也可以通过逻辑联结符合进行扩展或组合。如C(E)=(M∧N)(E),其中,概念类C是由M和N复合而来。

(5) 定义关系及其属性。

在问题领域中,类与类之间的使动行为用关系来表示。对象类之间的关系用小写的字符表示,如:Q{P M Q∧r1,Q M Z∧r2.a}R,表示概念类P与Q之间的关系为r1,Q与Z之间的关系为r2,r2具有属性a。关系实例为对象类之间联系的具体实现。其定义方法同对象类实例的定义方法相同。关系的实例表示具体的关系。比如张强是张红的父亲。

(6) 定义属性约束和限制。约束主要包括域约束和范围约束,域约束是指该属性仅对什么类有效,而范围约束则是指该属性的取值属于哪个类的实例、或哪种类型的数值等。

3 本体元数据在商业信贷系统中的应用

3.1 建立商业信贷系统数据模型

商业信贷系统数据模型的分析是建立本体元数据的第一步,可以明确指示出参与商业信贷活动的各个行为主体,以及主体间交换的数据。通过对数据模型的完全解析,对于问题领域中相关概念的提取和概念类的抽象,有着重要的作用。商业信贷系统的数据模型可描述如图1所示。

图1 商业贷款一级数据模型

由于篇幅限制,本文所只列出的商业信贷系统一级数据模型。商业信贷管理可以分为贷款申请提交和审核,签订贷款合同,贷款档案管理,业务检查,还款等父霆阶段。在贷款申请审核中,需要审核贷款者基本信息,信用信息,还款能力评价,贷款申请提交和审核阶段,需要审核贷款者家庭信息,财务信息,工作信息,信用信息等内容;款审核通过后,将签订贷款合同,建立贷款档案;签订贷款后,将根据行业信息观察用款情况,催收余款。

3.2 从问题领域的抽象出相关概念类

经过对商业信贷管理系统问题领域的分析,按照其所承担的业务角色,可以将其分为参与人,关系,信贷机构,规则,单据,抵质押品,信用,报表,工具,贷款产品等概念类,以及提供,处理等关系类。参与人是指除信贷机构以外的信贷活动参与者,如贷款个人,贷款企业等;关系是指贷款人之间,参与贷款活动的成员之间,或贷款人与贷款机构之间的关系;信贷机构是指贷款的提供方,信贷机构需要对参与人提供的信用信息,抵押制品,身份材料,报表等进行审核。规则是由信贷机构所制定的规范贷款人行为的各项规章制度,如拖欠还款的惩罚措施等。表单是指贷款人为取得贷款和保证按期返款所提供的各种材料,如贷款申请等。抵质押品是由贷款人或担保人所提供的房屋等有价担保品。信用是来源于银行,税务,信贷机构等单位的能够证明贷款人信用履历的材料。报表包括行业分析,业务分析,财务报表等用于预警贷款风险的数据分析材料。工具包括用于信用评价,抵质押品价值评估,风险控制,行业与业务分析等活动所使用的方法与工具。贷款产品是信贷机构根据贷款人特点所设计的各种贷款策略。处理关系类是参与人与信贷机构等概念类之间所发生的各种关系,包括贷款申请的审核,抵质押品评估,贷款能力评价,业务状况评价,贷款者分类等各项活动。提供关系类是参与人所提供的各种申请,材料,报表所进行的操作。商业信贷管理问题领域的概念抽象如图2所示。

图2 商业信贷管理问题领域的概念抽象

3.3 基于描述逻辑的信贷本体构建

根据问题领域中抽象出来的概念,结合描述逻辑的逻辑原语,将商业信贷领域中的概念类和关系类,及其属性和关系分配集声明如下:

(1) 概念类和关系类的声明。

参与人概念类可以声明为:Q参与人{(贷款人) ,(担保人)}R,贷款人,担保人为参与人的子类。贷款人和担保人还可以派生出贷款个人和贷款企业,担保个人和担保企业。如果A企业是贷款人,则可将其声明为概念类贷款企业的实例Q贷款企业(A)R。

关系概念类可声明为: Q关系{(担保),(家庭成员),(机构成员)}R。担保类可派生出担保人,担保机构;家庭成员可派生出妻子,父母,子女等亲属;机构成员可派生出股东,总经理,法人代表等机构职位。

信贷机构可声明为:Q信贷机构{(银行),(贷款公司)}R,因为在商业信贷系统中,信贷机构主要指提供贷款的银行,贷款公司等机构。

表单概念类是商业信贷管理系统中重要的本体元素之一。表单类可声明为:Q表单{(申请),(合同),(档案),(单据)}R,申请类可派生出Q{(贷款申请),(还款申请)Q{(全额还款申请,提前还款申请,部分还款申请)}RR等子类,合同类可派生出贷款合同子类,档案类可派生出贷款档案等子类,单据类可派生出Q{(抵质押品单据),(业务调查单据),(还款记录)}R等子类。

规则概念类声明为:Q规则{(信用等级评价规则),(贷款分类评价规则),(担保方式),(还款方式),(贷款检查规则),(档案管理规则)}R等。

报表概念类可声明为:Q报表{(行业分析报表),(业务分析报表),(还款能力分析报表)}R

工具概念类可声明为:Q{(信用评估工具),(风险控制工具),(行业分析工具),(业务分析工具)}R。

抵质押品类的声明,将最常见的抵质押品单独声明,而其他形式的抵质押品归为其他类。如:Q抵质押品{(房屋),(汽车),(其他)}R。

处理关系类是发生与概念类之间的关系。主要发生于信贷机构类和参与人类之间,处理关系类可声明为:Q处理{(审核),(评估),(检查),(预警)}R等处理。审核类可派生出贷款申请审核,信用审核,业务审核的子类;评估类可派生出抵质押品评估,还款能力评估,业务绩效评估等子类;检查类可派生出业务检查,还贷检查等子类,评估可派生出信用评估,还款能力评估,风险评估等子类,预警类可派生出拖欠还贷预警,风险预警等子类。

(2) 属性的声明。

属性是描述对象特征的重要元素。每个概念类和关系类都具有相应的属性。子类除了继承了基类的属性之外,还会派生出新的属性。统计属性的工作量比较大,本文不可能一一举例,现仅以贷款个人为例说明,其属性可声明如下:

Q{贷款个人.个人信息∧贷款个人.家庭信息∧贷款个人.教育信息∧贷款个人.健康信息∧贷款个人点居住信息∧贷款个人.联系方式.贷款个人.经济信息}R

其中个人信息,家庭信息,健康信息等是描述贷款个人特征的属性集合。根据需要,也可声明为概念类。因此可知,类的某种概念类可声明为另一种概念的属性。

(3) 公理与工具。

公理与工具的声明同概念类声明集中的工具概念类不同。工具概念了是商业信贷系统,根据自身特点和业务属性所定义的工具。而公理与工具声明是信贷系统所使用的,已经被广泛采纳的,具有一定标准的通用的公里和计算工具。

(4) 概念类间的逻辑表示。

通过对信贷问题领域的分析,可以抽象出原子概念类,在实际应用中,原子类不可能表示出所有问题,有时需要与其他原子类逻辑连接,来表示更复杂的概念。我们以贷款流程的本体描述为例来说明概念类间的逻辑表示。已知原子概念类和关系类声明为:人员(Person)、表单(form)、报表(paper)、机构(unit),规则(rule),提供与审核(offerandaudit),处理(Handle)等关系类。其业务关系为:贷款人(persion(loanperson))向信贷机构(creditunit)提供(applyto)贷款申请(Form(apply)),被信贷机构(creditunit)使用面向相关业务的工具或方法(Method)审核(Handle(audit))申请,签订贷款合同(Form(Contract)),贷款人按照合同规定,向信贷机构(creditunit)支付(pay)利息(interest),在规定的期限内归还(repay)贷款,信贷机构(creditunit)对业务进行审核(Handle(audit)),控制风险。

源元数据中的原子类总结为术语和关系的集合。{(Loanperson,Creditunit,Form(Contract),Method,Mortage),(Handle( applyto,credit),pay}

则术语之间的关系可表示为:

{(Person (Loanperson)M .applyto Form(apply),Person M .apply mortage,Creditunit .audit Form(apply) ∧Method,Person(loanpersion)M.pay interest∧.repay Mortage}}};

(5) 本体间推理的描述。

本体的一个最重要特征就是推理。通过逻辑符号,可以表示本体元素间的推理。在信贷本体中,概念类间可以通过关系类结合,形成新的类,来表示业务逻辑。如上文所述,商业信贷问题领域中包含关系类处理中包含有审核关系类。具有审核贷款申请,评价信用和还款能力等逻辑功能。将贷款申请审核关系声明为Doapply,信用评价关系声明为Docredit,评价还款能力声明为Dorepayability。贷款申请Doapply具有布尔类型的属性“是否通过”,声明为Ispass,如果没有通过则为SIspass;信用评价关系需要借助规则类中的信用评价等级规则,即ruleauditclass,信用评价关系可声明为Docredit∧RuleAuditClass.value(n),value表示信用评价等级的值,括号中的数值表示等级数。还款能力评价表示为Dorepayabilit∧RuleRepayAbityClass.value(n),RuleRepayAbilityClass表示还款能力评价等级。因此,对于某贷款人贷款申请的批复可声明为Loanpersion∧Doapply.IsPass{Docredit∧RuleAuditClass.value(≥3)∧Dorepayabilit∧RuleRepayAbityClass.value(≥2)},表示贷款人如果获得贷款申请通过,必须信用等级评价超过3级,还款能力评价在2级以上。

通过上式可以把概念类之间的逻辑关系转化成逻辑推理公式,可以通过逻辑推理运算,完成商业信贷问题领域中的逻辑推理。

4 结 语

通过以上的形式化描述,即将商业信贷系统资源元数据的概念术语,术语的属性,术语类间的关系描述出来,通过形式化元数据的交互,实现资源数据信息的共享。同理,可将其他数据资源形式化描述出来,在商业信贷成员间无歧义的共享供业务信息。

参考文献

[1]COYL Karen. Unerdstand metadata and its purpose[J].ManagementTechnology, 2005.4:160-163.

[2]张宇,蒋东兴,刘启新.基于元数据的异构数据集整合方案[J].清华大学学报,2009(7):1037-1041.

[3]林小晶,杨立,左春.支持动态标准的政务元数据管理的研究与应用[J].计算机工程与设计,2008,29(3):109-112.

[4]Giunipero Larry C. Purchasing supply chain management flexibility: moving to an entrepreneurial skill set [J]. Industrial Marketing Management, 2005(3): 602-613.

[5]MOVVA Sunil, RAMACHANDRAN Rahul. Syntactic and semantic metadata integration for science data use [J].Computers & Geosciences, 2005(5):1126-1134.

[6]HUA Zhong-sheng. Impact of demand uncertainty on supply chain cooperation of single-period products [J]. International Journal of Production Economics, 2006(10):268-284 .

[7]WY Yan-ni. Extending metadata with scenarios in adaptive distributed system [J].Journal of Network and Computer Application, 2007(5):1283-1294.

[8]史春景.基于本体的车间业务流程知识分析及表达[J].东北大学学报:自然科学版,2010(3):422-427.

[9]温立.基于辅助决策的应急事件本体模型研究[J].情报杂志,2010(2):132-136.

数据通信基本概念范文第2篇

随着物联网、云计算等技术的发展,软件的规模和开发人数也以前所未有的速度增长。如何利用强大的群体开发力量,采用群体智能技术,快速构造与演化规模庞大、功能复杂、技术创新、更新频繁、高扩展性的软件?以此为目标的群体软件工程论文已经成为云时代软件工程发展方向[1]。然而群体协同开发面临大规模数据的挑战:几十万名开发人员,千万行代码,上千版本版次,大量的需求、设计模型、测试用例、缺陷、变更、任务、讨论记录和邮件等,如何从这些分布异构的大规模数据中高效地知晓信息和发现知识成为难题。例如:当修改一个模块时,会影响软件系统哪些部分?对给定的一个特性、构件或API,谁是最合适的工程师?如何进行准确的缺陷预测和工作量估算?如何找到高质量的可复用代码?等。 

“软件即数据”[2],这些软件工程数据对于开发是至关重要的,但是,目前工业界对这些数据的处理与利用存在两大问题:1)信息知晓大都采用人工阅读、浏览和理解的方式,这样的方式对小规模的传统软件工程尚且适用,但当面对规模巨大的群体软件工程时,效率就显得极为低下。2)数据挖掘约80%研究集中在源代码版本库和缺陷跟踪库,其价值主要限于编程阶段,原因是这两类数据相对容易获得,结构较好,易自动分析。而软件工程的数据极其多样,除了版本库和缺陷库,还有构件、文档、测试用例、项目管理数据、讨论和邮件列表等;除了软件仓库中的结构化数据,还有非结构化的文本描述;它们具有极度异构性,又常常分布在不同的地方,同时由于程序员的遗漏或疏忽,数据之间往往缺乏细粒度语义关联,甚至关联丢失。 

因此,为支持群体软件开发中的信息知晓和数据挖掘,本文研究提出了一套基于本体的软件工程关联数据自动构建的方法,将包括源代码、模型、文档、开发人员信息、邮件列表等群体软件工程开发数据关联起来,并进行语义标注,构造大规模的关联数据(Linked Data),为后续的语义检索和数据挖掘奠定基础。 

本文的主要工作包括: 

1)首次提出了从软件仓库自动构建和融合生成软件工程领域本体的方法。 

2)提出了一种基于关系映射从关系型数据库中自动抽取关联数据的方法,与其他方法相比,本方法通过对抽取出的实例数据进行实例消解和属性消歧减少了数据冗余。 

3)提出了一种基于特征从软件仓库中发现潜在或遗漏的关联数据的方法,实验表明,本关联数据发现方法在精准率和召回率上都明显优于现有的其他方法。 

1相关工作 

本文研究涉及软件工程关联数据、关联数据抽取、关联数据发现三方面的相关技术。 

1.1软件工程关联数据 

关联数据通过资源描述框架(Resource Description Framework, RDF)、网络本体语言(Web Ontology Language, OWL)等形式将大规模异构、无序数据构建成一个计算机能够理解的具有结构化和富含语义的数据网络,相较于传统的数据存放形式具有扩展性强、富含语义信息等优点。因此,关联数据在近年来开始被运用到软件工程领域,用以应对当前越来越多、越来越复杂的软件工程开发数据。 

软件开发团队之间的协作是软件工程中一个长期存在的问题。一个开发团队的开发需要依赖于另一个团队的代码、应用程序编程接口(Application Programming Interface, API)、进度表、文档等项目开发构件[3],同时团队之间还需要经常有效地沟通与合作以保证项目的完成[4]。在这一需求的推动下,微软构建了基于社交网络的跨团队软件开发协作平台Codebook[5],通过建立连接图的方式,Codebook将软件库中的软件元件和相关人员信息都进行了连接。Kiefer等[6]构建了一个基于OWL的软件库数据交换模式EvoOnt,将源代码、知识库、Bug信息等关联起来,通过iSPARQL引擎来查询有关软件开发元件。而后Iqbal等[7]在此基础上提出了基于关联数据的软件开发方法,通过统一资源标识符(Uniform Resource Identifier, URI)从版本控制系统、缺陷跟踪工具和源代码中抽取数据,转化为RDF格式构建出关联数据,再采用SPARQL引擎进行查询。关联数据的引入给软件工程复杂的数据处理提供了一种新的解决方案,但国内外现有的研究大都只包括了源代码、版本信息、缺陷跟踪等,而对于模型、文档、项目计划、开发人员信息、邮件信息等数据还没有涉及。为了建立一个完整的软件工程语义信息网,发掘更多有用的信息,本文将基于本体提出一种更为通用的软件工程关联数据自动构建方法,一方面从已有的关系型数据库中抽取关联数据,另一方面从软件仓库中自动发现关联数据。 

1.2关联数据抽取 

国内外基于领域本体从数据库中抽取关联数据的研究开始较早,目前已有一些成果,其中大部分研究都是针对关系型

数据库到本体概念和关联数据的直接或间接映射。例如,Shen等[8]提出了根据关系模式概念、属性、约束和实例的规则,余霞等[9]提出了通过对关系型数据库分析来进行关系映射和属性映射的基于规则的映射方法。现有的方法大都从关系型数据库出发构建本体概念及关联数据,这类方法尽管在关联数据生成的自动化程度上存在优势,但抽取出的关联数据却存在很多的冗余数据,并且相应生成的本体会因为关系型数据库的不同而出现差异,造成其扩展性大大降低。而本文从软件工程领域本体出发,采用定制映射的方式,从关系型数据库抽取并融合生成具有统一本体概念的软件工程关联数据。 

1.3关联数据发现 

由于软件工程开发过程中的数据源信息存在多样性的特点,目前国内外在软件工程数据的关联发现方面的研究主要针对某些特定关联,通过分析已有关联数据获取特征,从而发现更多关联数据。张洪宇Wu等[10]提出的ReLink利用时间间隔、人员身份匹配和文本相似度三个特征来发现软件缺陷和软件变更之间的关联;Qusef等[11]提出的SCOTCH+通过程序切片和文本分析的方法发现测试用例与源代码之间的关联;McMillan等[12]则利用追踪链图(Traceability Link Graph, TLG)通过文本分析和结构分析的方法来发现需求文档与源代码之间的关联。这些基于信息检索技术的方法由于缺乏对信息语义的分析,仍然会漏掉许多重要的关联数据,同时这些方法用到的特征各不相同,因而难以应用在广泛的关联数据发现上。针对以上不足,本文提出了一种基于自然语言处理(Natural Language Processing, NLP)技术与信息检索(Information Retrieval, IR)技术将文本分析和结构分析相结合的通用方法来实现软件工程关联数据的发现。 

2方法框架 

针对目前群体软件工程开发中协同开发和信息知晓困难的挑战,本文提出了软件工程关联数据自动构建的方法,其框架如图1所示。 

该方法由4个步骤组成: 

步骤1根据软件仓库中的结构化元数据构建初始本体概念,并将来自不同数据源的初始本体概念进行融合产生领域本体概念。例如将软件缺陷跟踪库中的Bug表映射为软件工程领域本体中的一个概念,其字段作为概念的属性。 

步骤2通过构建出的本体概念从软件仓库结构化数据中抽取关联数据。例如Bug表中存放了许多Bug数据,通过映射规则每一条Bug数据都将映射为本体的实例,并与PERSON本体的实例相关联。 

步骤3利用NLP和IR等技术从软件仓库发现潜在的和遗漏的关联数据。通过同义词、动宾短语和结构信息三个特征对软件仓库不同类型数据集进行相似度比较,从而获取关联信息。 

步骤4抽取和发现得到的关联数据将作为实例扩充软件工程本体,同时更新的本体也将参与到本体融合的过程中,不断形成更为完善的软件工程领域本体。 

本文以下三章将着重阐述前3个关键步骤。 

3软件工程本体概念的构建 

软件工程本体概念包括软件工程领域中的核心概念、属性以及概念间的关系,它是构建软件工程关联数据的基础。本文根据软件仓库中的结构化元数据生成本体概念,并将来自不同数据源的初始本体概念融合生成目标领域本体概念。 

3.1初始本体概念构建 

本文首先采用基于规则的映射方法[9]针对软件仓库中的关系型数据库元数据构建相应的初始本体概念,构建过程主要包含以下两个步骤: 

1)抽取关系型数据库中的元数据信息,包括表名、列名、主键、外键和完整性约束等。

2)分析主键、外键等信息,利用关系映射规则创建新概念、概念层次、概念属性和概念关系等。 

利用上述方法构建出的软件工程初始本体概念片段如图2所示。 

3.2本体融合 

为了得到一个统一完整的软件工程领域本体,将来自多个数据源中自动构建的初始本体概念进行融合,首先需要识别出不同初始本体概念中的相似或相同概念进行合并。 

例如,在跨团队软件工程开发过程中,不同小组的软件缺陷数据可能存放在不同的缺陷跟踪工具中。在构建初始本体时,从Bugzilla抽取生成的初始本体中Bug这个概念是以“SoftwareEngineering#Viewbug”的形式存在,这个概念在从Bugfree得到的本体中以“SoftwareEngineering#Bug”表示。 

对于如何自动识别出相同概念,本文借鉴已有的本体融合方法[13-14,18],从概念的命名、属性和关系三个指标分别计算概念之间的相似度,进而对相同的概念进行合并。 

3.2.1相似度计算 

为了计算概念之间的相似度,本文主要考虑3个指标: 

1)命名相似。从关系型数据库中抽取的概念大都以表名作为名称,而在规范软件开发中名称反映了概念的含义,因此相似的名称往往对应着相似的概念。本文通过对字符串的编辑距离以及字符串长度的综合分析,得到概念名称间的相似度: 

Simname(G1,G2)=min(|c1|,|c2|)-edit(c1,c2)min(|c1|,|c2|)(1) 

其中:c1和c2分别表示概念G1和G2的名称字符串,函数edit(c1, c2)表示两个字符串的编辑距离。 

2)属性相似。初始本体的属性来自关系型数据库的列,两个概念包含的属性集越接近说明两个概念越相似。本文通过比较两个概念的属性集来判断其属性相似度: 

Simproperty(G1,G2)=R1∩R2R1∪R2(2) 

其中:R1和R2分别表示概念G1和G2的属性集。 

3)关系相似。在关系相似中,本文主要考虑继承和对象属性关联。即有着相似的父概念或子概念的两个概念越可能相似;和其他概念之间的关联关系越一致的两个概念越可能相似。本文通过考量两个概念的父子概念相似度来确定其关系相似度:

Simstruct(G1,G2)=Simfset(G1,G2)+Simsset(G1,G2)(3) 

其中:Simfset(G1, G2)和Simsset(G1, G2)分别表示概念G1和G2的父概念相似度和子概念相似度,其计算方法借鉴式(1)和式(2)。 

综合考量三个指标,通过比较概念之间的相似度结果和阈值便能识别出相同的概念将其合并。 

3.2.2本体概念合并 

在判断出相同概念后,需要将概念及其属性和关系进行合并以实现本体概念的合并。 

进行概念合并时,为了保持概念的明确性,本文将两个概念合并为一个,将其中一个概念(A概念)的属性和关系都集成到另一个概念(B概念)上,然后删除A概念。 

在进行属性或关系的合并时,将相似度高于阈值的属性或关系合并为同一个属性或关系。特别地,在关系合并时,需要同时合并关系所对应的定义域(domain)和值域(range)。 

4关联数据的抽取 

本文通过关联数据的抽取,将软件仓库中以关系型数据库形式存放的已经存在关联的数据及其属性和关系映射成为本体的实例。 

4.1关联数据映射 

在基于规则的映射方法生成初始本体概念时,本体概念及其属性和关系与软件仓库中关系型数据库的表、列和键等元数据已经建立了对应关系,因此在映射关联数据时,借助这些对应关系能直接创建映射文件,再通过映射文件的映射规则完成从结构化数据到软件工程领域本体的映射。 

领域本体与关系型数据库之间主要的映射关系如表1所示。 

例如,在针对软件工程领域本体与eclipse项目bugs数据集之间建立的映射文件中,视图viewbug与本体概念Bug对应,并以主键bugID作为本体实例标识;description作为视图中的列,与本体概念Bug的属性Bug_Description对应;reporter作为视图列,与本体概念Bug的关系Bug_ReportedBy对应 

(reporter列外键关联到的表Person对应于软件工程领域本体中的另一概念Person)。

通过上面的映射文件例子,viewbug中每一条数据将映射产生一个Bug概念的实例,并以bugID作为该实例的唯一标识符。在一条数据中,列对应的值数据项将作为当前实例的一个属性丰富实例;列对应的外键数据项将作为当前实例与外键对应另一概念的实例之间的关系添加到领域本体中。 

4.2实例消解 

为了将从不同关系型数据库抽取出的关联数据融合到一起,一方面需要将从各个结构化元数据中生成的本体概念进行合并,另一方面需要将本体实例进行对齐。 

例如, Bugzilla中有一个标识为“Katharina@gmail.com”的人,而在Bugfree中有一个标识为“katrin@hotmail.com”的人,而事实上这两个实例都指的是真实世界中的同一个人。因此,需要自动识别出这些相同的实例,并将它们对齐合并为同一个实例。 

本体实例消解时实例相似度计算及合并方法与本体融合时概念相似度计算及合并方法类似。 

4.3实例属性消歧 

本体实例消解是为了合并相同本体实例,消除实例之间的歧义;实例属性消歧则是为了处理在实例消解过程中被合并实例的属性值出现不一致的情况。 

对于多值属性,如Bug概念下实例的属性“Lable”,由于一个Bug可以有多个标签(Lable)描述,因此在出现多值属性不一致的情况时,本方法将保留所有属性值。 

对于单值属性,如SourceCode概念下实例的属性“CreatedTime”,由于一个代码文件的创建时间只能有一个,因此当出现不一致的情况时,需要进行判断选择。本方法采用基于属性所在实例的度(degree)及属性出现次数的“投票”方式决定属性的值。然而,为了不丢失信息,也为了适应本体的动态变化,本方法并不会直接丢弃在“投票”中失败的值,而通过另外创建一个多值属性,如针对“CreatedTime”创建“CreatedTime_Option”来保存这些值,以便在有新的实例合并进来时进行新一轮“投票”,同时当开发者对信息正确性存疑时,也能查到这些“可能正确”的信息。 

利用以上方法从关系型数据库中抽取的关联数据片段如图3所示。 

5关联数据的发现 

与关联数据的抽取不同,关联数据的发现是指针对存在潜在关联但尚未建立连接的数据,通过提取特征并进行分析重新建立连接的过程。 

在众多关联之中,本体不同概念所含实例间的关联一直是研究的重点和难点,如需求与代码间的关联、缺陷与变更间的关联等。本文从数据出发,针对软件工程非结构化关联数据间的三个特征进行建模,发现并重建数据间潜在的或遗漏的连接。 

5.1关联数据特征 

通过分析大量软件仓库数据集,发现存在关联的数据之间往往具有以下3个特征。 

同义词在软件开发过程中,不同的参与者对同一事物的描述并不完全相同。然而尽管各人都有自己的用词用语,但这些词语往往存在同义或近义的关系。 

数据通信基本概念范文第3篇

[关键词]知识检索 检索模型 呈现技术 本体

[分类号]G250.73

知识检索的产生与发展一方面来源于用户对知识检索的需求;另一方面来源于信息检索理论与实践的发展与完善。知识检索模型和知识检索呈现方法是知识检索的重要研究方面,以本体作为知识组织的方法,能实现基于语义的知识检索。

1 知识检索技术的研究与发展

在讨论区中呈现了如下的关于知识检索的介绍:①知识检索的基本思想就是模拟扩展人类关于知识处理与利用的智能行为和认识思维方法;②知识检索通过挖掘其深层含义,充分精确地表达知识资源和用户需求,进而在各类异构的数据库、数据仓库、知识库中进行检索,返回最相关的结果的检索机制;③基于Ontology的知识检索可以阐述为:在领域专家帮助下建立领域Ontology,把收集来的数据按规定格式存储在关系数据库、知识库等的元数据库中;④查询转换器按照Ontology把查询请求转换成规定的格式,从元数据库中匹配出符合条件的数据集合,检索的结果经过定制处理后返回给用户;⑤知识检索的基本特征有:支持自然语言检索;支持语词、语义内容的处理,实现同义词扩展检索和关联检索;具有概念推理和学习功能;具有强大人机交互接口。

知识检索是一种全新的信息检索方式,是在现有的信息检索技术以及模型上发展而来的。搜索引擎是当前检索信息的主要方式,它们能在短时间内反馈给用户大量的信息,但反馈信息中的信息噪音过大,其中包含了太多的无用信息;目录分类的数据库规模较小,以致某些主题下收录的范围不够全面,检索到的信息数量有限。可以看出,传统的信息检索缺点在于没有从语义层次上对信息进行标引,不能够满足用户在语义和知识上的需求。而知识检索是综合运用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理与多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取文本、图像、视频、声音等媒体类型的知识源,并能准确精选用户需要的结果。知识检索是将信息或知识按照一定的方式组织、存储,并根据用户的需求找出相关信息和知识的过程。在这个过程中,被检索的对象是知识资源、知识库。知识检索就是采用一种从语义上标引文章的技术,形成知识库,再从知识库中查询用户所需的信息。

知识检索和信息检索的不同,在于知识检索强调了语义,它从文章的语义、概念出发,能够揭示文章的内在含义,而不像信息检索只是基于字面的机械匹配。知识检索提高了查全率和查准率,减轻了用户的负担。表1从检索语言、检索模型、组织方式、搜索方式和检索效率方面进行了归纳。

与主题词表或分类表不同的是,本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联;形式化能力最强,同时具有高度的知识推理能力,能通过逻辑推理获取概念之间的蕴涵关系。因此,本体是一种知识组织体系。以本体作为知识组织的技术和方法,能实现基于语义的知识检索。知识检索是传统信息检索的发展,随着人工智能、系统信息管理等相关高新技术的运用,提供个性化、智能化的主动信息服务也将是知识检索的发展方向。当前,图书情报档案的知识检索系统更加注重文本挖掘的功能,如大规模实例描述的汉语分词排歧知识库,具有主题词典和内容相似性检索功能,自动分类、聚类和自动摘要功能,文本数字理解和新词学习功能等。

2 基于本体的知识检索模型

2.1 信息检索模型的发展

经典的信息检索模型包括布尔检索模型、向量空间模型和概率检索模型,目前大多数检索系统往往综合上述各种模型,以达到认为最佳的检索效果。这些检索模型的不足是:在文献的组织与描述上,采用词切分和单汉字或两者结合标引文献,将关键词作为描述文献的基本元素,文献之间是相互独立的;在检索操作上,是基于关键词的无结构查询,难以反映词语问各种语义联系,查询能力有限,误检率和漏检率很高;在模型约束方面,索引项之间独立性的要求不符合实际情况,计算查询和文档之间的相似度的方法也有局限;虽经不断完善,也难以从根本上适应网络巨量信息的检索。

由此,一些学者从不同角度提出了基于知识的检索模型,如分类检索模型、多维认知检索模型、分布式检索模型、概念检索模型等。特别是概念检索模型克服了以往检索模型中以词及其权值为中心建立相关性而忽略了语义关联的缺点,以概念词典为辅助,采用人工智能技术,增强搜索引擎概念分析理解能力,从概念层面上来处理用户的查询请求,从而实现特定领域的概念检索。上述检索模型由于没有知识组织体系的支撑,没有实现对检索对象的语义标注,也没有对其语义进行解析,因此被解释为基于知识的信息检索模型。

2.2 基于本体的知识检索

基于本体的知识检索模型在资源对象的组织、描述、表示、检索和模型约束等方面都具有自己的特征,主要表现为:

在检索对象的组织上,知识检索模型利用领域本体作为组织资源的基础。首先构建一个涵盖相关领域概念及概念间关联的领域本体库作为资源描述和知识表示的工具与模型,如各学科领域的主题词表、分类表,在此基础上确定领域知识本体的主要概念和概念间的各种关系,构筑领域本体的概念模型。

在检索对象的描述上,知识检索模型借助语义标引工具,按照领域本体的概念及关联,对资源对象进行概念分析、分类、标引、描述和处理,形成机器可以理解的带有语义信息的元数据。

本体概念的优化检索依赖于本体检索语言的功能。在支持本体检索的诸如RQL,DQL,0WL-QL,SquishQL,RDFQL,RDFPath和Versa等知识语言中,以RQL作为知识检索模型的检索语言可以满足知识检索的需要。

知识检索模型提供了特定领域可控的概念语义体系,并建立与概念体系相对应的具有层次结构的自然语言术语体系,能对自然语言提问和本体概念库的术语进行语义的理解、分析和匹配,依据本体概念问的语义关系,实现知识检索。

在模型约束上,知识检索模型的约束比较少,但要求概念和关系构成一个有向图,关系必须是有方向的;另外,要求每一个概念/实例都需要有一个唯一的标识。

2.3 Ont-KRM:基于本体的知识检索模型

基于上述约束和所建立的本体原型,笔者设计了的基于本体的知识检索模型Ont-KRM(Knowledge Retrieval

Model 0n Ontology)。Ont-KRM分为人机交互部分、知识源部分、检索匹配和本体库等部分,如图1所示:

人机交互部分主要是分析用户提交的检索请求,返回整理检索结果。检索请求的分析主要是依据本体知识,分析用户的真实检索意图,形成规范、准确的检索请求,提交给检索匹配模块。检索请求的分析主要分为以下步骤:①对检索请求进行预处理,提取需要检索关键字(词);②借助本体并在必要时通过和用户再次交互,判断检索请求中关键字(词)的领域、相关概念等等,确定用户的真实意图;③将用户的真实意图形成统一、规范的检索请求提交给检索匹配部分;④在对用户意图进行分析和交互的基础上补充和完善本体库中的相关知识;⑤对检索匹配部分返回的检索结果进行处理、合并后返回给用户。

知识源部分主要对知识源进行收集、并对收集的知识源根据本体库中的知识进行标注和分析,对从知识源中抽取的知识进行转换,对本体库中的相关部分进行补充和完善,建立对应的索引信息,放入索引库。

检索匹配部分主要是从人机交互部分收集统一的检索请求,并依据本体库中的相关知识对检索请求和索引库进行语义与语法层面的匹配,并将检索结果返回给人机交互部分。

本体库部分应该说是整个模型的核心部分,从对检索请求和检索结果的处理,到对检索请求和索引的匹配,再到对知识源的标注、索引的建立都基于本体库中的相关知识。同时,上述各个过程又可以对本体库中的知识进行补充和完善。当然,对本体库中知识的任何修改都要经过领域专家和系统的双重认定。

3 基于本体的知识检索呈现

3.1 知识组织体系及本体的语义标注

所谓知识组织体系,是对资源内容概念及其相互关系进行描述与组织的机制。目前图书情报界公认的知识组织体系是主题词表和分类表,但本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联。本体是一种知识组织体系,以本体作为知识组织的方法,才能实现基于语义的知识检索。因此,本文的知识检索模型和方法都建立在本体基础之上的。

目前信息机构中采用的元数据方案大多源自于对馆藏进行长期保存的目的,并不能够完全满足知识组织的要求。通过元数据的描述,可以充分揭示元数据的元素及元素揭示内容的语义含义,达到进行元数据互操作和对内容进行知识组织的目的,笔者重点研究以下问题:

标注元数据元素的语义。元数据互操作常见的困难是元素问同名异义和异名同义,RDF的思路是如果不同元数据中的元素指向同一个资源,那么这些元素具有同一语义。根据信息机构数字资源的特点,选用DC元数据作为元素语义的最终解释。也即如果说不同元数据中的元素都可以使用DC元数据中的同一个字段进行解释,那么这两个元素就认为在语义上相等。操作时将元数据与DC元数据元素之间的映射关系放在数据提供者方,当数据提供者在进行注册或者使用的元数据发生变化时,由其管理人员对映射进行定义。

标注元数据元素内容的语义。在解决了元数据元素的语义以后,采集回来的元数据应该用什么方法进行组织,与元数据元素内容的语义相关,因此还需要揭示元数据元素内容的语义。笔者通过RDF的描述方式来对元数据元素内容的语义进行揭示,框架中定义了一个关于元数据元素内容的ontology,并通过URI建立元素与ontology中的条目之间的关系,以此来标注元素的语义。

标注知识组织的内容。在对数据源的元数据进行描述时,数据源的管理人员可以根据元数据元素的功能对其进行区分,只提供标注内容的元素。这样,既减少了进行元数据描述的工作量,也为知识组织能够更有效的进行提供了方便。另外,对知识的组织还需要根据系统的实际需要有所选择,在进行元数据采集时,可以通过定义对DC元数据的哪些元素内容进行组织,然后再反向定位到与其相关的元数据元素来确定知识组织的内容。

3.2 知识检索呈现

知识检索呈现要解决的问题就是知识提供的形式和检索结果显示的形式。常见的知识呈现方式主要有概念图(concept map)、思维导图(mind map)、认知地图(cognitivemap)、语义网络(semantic network)、思维地图(thinking map)等。信息检索和知识检索呈现之间虽在呈现方式上存在着相互借鉴,但它们之间的区别还是很大。表2从呈现对象、呈现目的、呈现方式和交互类型等方面加以区别:

从呈现对象看,信息检索呈现的对象是信息,而知识检索呈现的对象是知识,包括知识本身和检索结果中的知识;从呈现目的看,信息检索呈现一是从大量信息中发现新的信息;二是将检索结果直观的呈现给用户以提高检索效率。而知识检索呈现则在于促进知识的传播和创新,方便用户更好的认识和获取知识;从呈现方式看,信息检索呈现的方式通常是图形、图像,而知识检索呈现的方式包括知识图表、视觉隐喻等;从交互类型看,信息检索呈现的交互是人机交互,而知识检索呈现的交互是人人交互。

资源的显示方式取决于资源的组织方式。信息组织线性的、无结构的方式,决定了信息的提供与获取是以关键词和分类目录及索引等途径来实现的,检索结果显示的是一组基于关键词层面上的没有语义的文献集合。而知识组织基于领域本体,是对概念关联的组织,所以知识检索显示的应是反映知识内容和概念关联的知识网络(或称知识地图)。简单地说,知识网络是对领域知识结构的展示,是对已获取的知识以及知识之间的关系的可视化描述。

3.3 基于本体的知识检索呈现技术

基于本体的知识检索呈现,是指通过一定的知识表示技术,将领域知识按照一定方式,清晰有序地在一个统一的界面上展示出来,以供检索者方便地查询与获取知识。基于领域本体的知识网络具有三个特征:①定位知识,给出任何一个概念,都可以显示该概念在知识体系中的位置;②揭示知识关联,知识网络不仅要确定概念的位置,还要揭示此概念和其他概念间的语义联系,描述知识网络中各种关联;③可视化展示,通过直观、形象的模式、模型、图形、图像等方式,展现知识地图。

下面以笔者开发的知识集成原型系统中的“知识检索系统”为例,来说明知识检索的呈现方式。

该系统是一个基于与鲁迅相关资源知识的领域本体原型的知识检索系统。这个领域本体原型的构建以分类/主题一体化词表为基础。由于分类和主题表达的对象都是主题概念,两者之间存在着隐含的概念对应关系。与鲁迅相关资源知识的领域本体概念网络的显示以及对知识的获取,是通过概念浏览和概念检索实现的。

页面布局。用户界面分为概念导航区和概念检索区两个部分,概念导航区是领域本体中各类概念的分类导航,点击具体的分类之后就可以在右侧的知

识导航区,显示概念的网络关系图。概念检索区在输入需要检索的概念,并进行进一步细化之后,就可以看到以相关的网络概念图和相关的概念实例。

概念浏览。概念浏览主要实现经济本体概念的分类导航和主题导航,可循着学科等级和概念间的语义关系进行浏览,起到知识导航作用。分类导航可对领域本体的分类知识树进行逐次浏览,选择一个分类概念,即可同时显示与该分类概念对应的主题概念关系,包括等同关系、等级关系和相关关系。反之亦然,可通过音序对领域本体的主题概念树进行层层浏览,选择一个主题概念,即可同时显示与之对应的学科类目(可以是一个类目或多个类目)。例如,在“分类导航”目录树中选择“阿Q正传”,主题概念浏览区便显示“阿Q正传”概念关系,点击概念关系就可以显示属于“阿Q正传”概念的文献实例,如图2所示:

概念检索。概念检索可以通过自然语言检索本体概念及关联。如果检索词是本体概念,即显示该概念及其概念间关系,同时显示与之相关的学科分类类目,以实现语义的扩展检索和关联检索。对于本体库中没有的检索词,由于系统建立了与本体概念对应的自然语言术语库,在主题概念显示区即显示与该检索词对应的主题概念及关系,分类概念显示区显示与之对应的分类目录。例如,在检索框输入“阿Q正传”,主题概念显示区显示“阿Q正传”的概念关系,“分类导航”目录树中显示与之对应的类目(图书资源中的《阿Q正传》出版物,档案资源中的《阿Q正传》手稿,其他资源则是显示讨论阿Q精神的各类网络文章和站点等);关键词浏览区显示与之对应的关键词(阿Q正传手稿、阿Q精神、阿Q话剧等);文献概览区显示与“阿Q正传”相关的资源(题名或关键词含有“阿Q正传”的资源)。

数据通信基本概念范文第4篇

关键词:领域本体;语义检索;查询扩展;相似度

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2014)003-0018-03

作者简介:张胜(1979-),男,博士,中国人民国防信息学院讲师,研究方向为数据工程。

0 引言

传统的信息检索大部分是基于语法的检索,即通过语法层面上的文本字符串匹配来实现,缺乏在语义层面上对信息的表示、理解和处理,致使其无法处理一词多义问题以及词语的异形同义问题,进而导致检索质量不尽如人意。而语义检索则是关注信息资源的语义信息,而不只停留在文本的形式上,因而可以克服传统信息检索的弊端,从而提高检索的查全率和查准率[1]。本文提出了一种基于领域本体的语义检索模型,同时给出了该模型中的查询语义扩展算法和相似度计算算法。

1 基于领域本体的语义检索思想

语义检索是对检索条件、信息组织以及检索结果赋予一定语义成分的检索方式[2],其不同于传统检索基于关键词匹配机制,是基于概念的检索匹配机制。语义检索从语义理解的角度分析信息对象与检索者的检索请求,是一种建立在概念及其相关关系基础上的检索技术,其将传统方法中从用户查询和文档抽取出来的关键词替换成含有语义的概念,以此把关键词级的检索提升到概念级的检索。

领域本体用于描述某个特定专业领域的本体,其通过定义概念与概念之间的关系来描述概念的语义信息,描述领域内部知识共享和知识重用的公共理解基础。因此,领域本体在信息检索领域,特别是在基于知识的检索中得到了广泛应用,其能有效提高检索精度。基于领域本体的语义检索,其基本思想即依据领域本体知识库对信息资源或文档进行语义标注,使信息资源或文档的描述信息具有语义,揭示信息资源或文档的语义,同时也对用户的检索词进行语义揭示,并依据领域本体,对检索词进行语义扩展,进而检索得到结果。基于领域本体的语义检索大致可通过以下四步实现[3-4]:

(1)领域本体构建。在领域专家的帮助下,由知识工程师为主体构建领域本体知识库。

(2)特征提取。获取信息资源或文档,并依据构建和管理的领域本体对其进行语义标注,揭示信息资源或文档语义内涵。

(3)查询语义扩展。依据领域本体对用户提出的查询请求进行语义揭示,并依据一定规则或算法扩展用户检索词,将生成的备选检索词集提交给检索系统进行检索。

(4)结果排序。检索系统返回检索结果,并依据一定规则或算法比对检索结果与用户原始检索词的相似度,按照相似度排序后将检索结果提交给用户。

2 基于领域本体的语义检索模型

根据语义检索思路,本文提出了如图1所示的基于领域本体的语义检索模型。

该模型共分为4个模块:领域知识管理模块、语义标注模块、索引和检索模块、用户查询扩展和结果排序模块。

2.1 领域知识管理模块

领域知识用于指导数据资源或文档描述,尤其是领域知识中的本体和分类体系,其是语义表征数据资源的核心。同时,中文分词、查询扩展和查询结果排序都需要以领域知识为基本依据。领域知识管理模块主要完成领域知识的构建和维护,如领域本体、推理规则的构建和维护。

2.2 语义标注模块

语义标注实现文档或数据资源的语义揭示,其通过文档特征提取技术(如分词技术),从领域本体所确定的本体词汇中取出对应的概念,构建文档的语义特征域,自动标注资源库中的文档。同时,也应对文档或信息资源的非语义特征进行标注和索引,并提供给索引和检索模块生成文档索引库和元数据库。

2.3 索引和检索模块

对海量文档或数据资源而言,如果检索时通过求解每个文档与用户查询请求的相似度来获取检索结果,势必耗时,不能满足用户体验。因此,必须根据文档或数据资源的标注信息构建索引库,并依据索引库,检索满足用户需求的文档或数据资源。为实现索引和检索模块,可使用Lucene信息检索工具库。基于Lucene的检索引擎提供了如下功能:为数据资源库建立索引、生成索引库、根据用户的检索要求对索引库进行查询,并将查询结果进行排序后返回给用户。

2.4 用户查询扩展和结果排序模块

查询扩展和结果排序模块首先依据领域本体生成的本体词汇库对用户查询输入文字分词(可使用中科院计算所的中文分词系统ICTCLAS),分成本体概念集合和非本体概念集合(即关键词集合);其次,分别对这两个集合按相似度扩展,得到两个查询候选集合:候选本体集的集合和候选关键词集的集合;再次,依据这两个集合,并按相似度排序得到排序后的查询集;最后,将查询请求提交给索引与检索模块,由于索引与检索模块事先已实现了倒排索引[5],故能快速响应用户查询,其将查询结果按查询请求的相似度排序后,将结果推送给用户。

3 查询扩展和相似度计算算法

在实现语义检索时,需要对用户输入的检索词进行语义扩展,以期获得更好的检索效果,因此必须设计合理、科学的语义扩展算法。同时,也需要对检索结果按相似度从大到小排序,这必然涉及到相似度计算算法。因此,本节主要探讨了查询语义扩展算法和相似度计算算法。

3.1 查询扩展算法[6]

用户输入查询经过分词后可形成两个集合:WordSet={OS,KS},即本体概念集合OS={O1,O2,…,On}和关键词集合KS={K1,K2,…,Kn}。本体概念集合中记录了用户在查询界面中输入本体概念,关键词集合为用户输入查询词中的非本体概念词。查询扩展算法将分别对这两个集合进行扩展,并计算扩展的集合与原集合之间的相似度。下面从本体概念扩展和关键词扩展介绍扩展算法。

3.1.1 本体概念集合扩展策略

Step1:对每个本体概念进行扩展。

对单个本体概念o按相似度进行扩展,选择与该本体概念相似度大于某一阈值γ的概念,且该被选择的本体概念与其他所有用户输入的本体概念的相似度小于该被选择本体概念与当前单个本体概念的相似度。

E(o)={x|(sim(x,o)>γ)∩x∈Dontology∩(y(y∈OS∩y≠x(sim(y,o)

Step2:分别从每个本体概念扩展集E中选择一个概念形成一个本体概念查询集。用户提供的本体概念集中每个概念均可扩展生成一个扩展集,从每个本体概念扩展集中选择一个概念形成查询本体概念集fo={f1,f2,…,fn},其中f1在E(O1)中选取,f2在E(O2)中选取。所有本体概念查询集可描述为FO(OS)={(F1,F2,…,Fn)|F1∈E(O1),F2∈E(O2),…,},每个本体概念集fo={f1,f2,…,fn}与用户输入的未扩展的本体概念集OS={O1,O2,…,On}相似度可由公式(1)计算。

3.2 相似度计算算法

3.2.1 领域本体概念相似度计算算法

领域本体描述的是特定领域中的概念及概念之间的关系,其构成的本体图可认为是一个带有根节点的有向无环图,图中节点表示概念,边表示概念之间的关系,并且该本体图具有类似于树的层次结构、有向边和多重继承的特点。基于领域本体概念结构图的概念语义相似度计算主要受以下因素影响[7-9]:

(1)语义距离。语义距离指在本体图中连接两个概念节点有向边的数量,可用dist(Oa,Ob)来描述两概念之间的距离。语义距离与语义相似度成反比关系,两概念语义距离越大,则相似度越小;反之,两概念语义距离越小,则相似度越大。

(2)两概念的最近共同父节点深度。其可用depth(father(Oa,Ob))描述,father(Oa,Ob)表示两概念最近共同父节点。本体概念结构图具有类似于树的层次结构,概念的组织自顶向下,分类由大到小、由粗到细,最近共同父节点的深度越深,它的分类就越细,继承的语义信息就越多,则本体概念Oa、Ob的共同语义信息就越大,即两概念间的相似度越大。

(3)语义重合度[10]。即通过两概念间所包含的相同父节点个数,计算概念间的重合度。但是,语义重合度信息隐含在语义距离中,将语义距离和语义重合度同时考虑有重复计算嫌疑。

基于以上分析,考虑语义距离和公共父节点在本体概念结构图中的深度来计算概念相似度。即两领域本体概念a、b的语义相似度为语义综合距离和共同父节点综合深度对相似度影响的加权归一化,即:

3.2.2 综合相似度计算算法

通过对用户输入的检索词集中的本体概念进行语义扩展可得到查询语义扩展集FO(OS),对用户输入的检索词集中的非本体概念的关键词集进行扩展,可得到关键词集的幂集P(KS),从FO(OS)中取一元素fo(该元素为一个扩展概念集),再从关键词集的幂集P(KS)中取一元素p(该元素为一个扩展关键词集),即可组成一个提交给检索模块的检索请求(fo,p),通过计算用户输入的检索词集(OS,KS)与每一个扩展的检索请求(fo,p)的相似度,即可得到相应检索结果与用户输入的检索词集的相似度。综合考虑扩展本体概念集相似度、分类概念集相似度和扩展关键词集相似度,可得到综合相似度的计算算法:

sim_integrate(fo_p,OS_KS)=λ1×sim_sematic(fo,OS)+λ2×sim_key(p,KS)

式中,λ1、λ2为调节因子,分别表示本体概念集相似度在综合相似度中所占比重和关键词集相似度在综合相似度中所占比重,且λ1+λ2=1。

4 结语

本文提出的基于领域本体的语义检索模型能够依据领域本体知识库对信息资源或文档进行语义标注,使信息资源或文档的描述信息具有语义,揭示信息资源或文档的语义,同时也对用户的检索词进行语义揭示,其把传统方法中从用户查询和文档抽取出来的关键词替换含有语义的概念,以此把关键词级的语法检索提升到概念级的语义检索。同时,本文给出了查询语义扩展算法和相似度计算算法,能将结果按相似度从大到小排序,并能有效提高查全率和查准率。

参考文献:

[1] 王珊,张俊.基于本体的关系数据库语义检索[J].计算机科学与探索,2007(1).

[2] 余传明.基于本体的语义信息系统研究-理论分析与系统实现[D].武汉:武汉大学,2005.

[3] 邹国兵,向阳.基于领域本体的信息搜索模型[J].同济大学学报:自然科学版,2009(4).

[4] 段寿建.基于本体和Lucene的语义检索模型设计与实现[J].现代电子技术,2009(12).

[5] 潘雪峰,花贵春,梁斌.走进搜索引擎[M].北京:电子工业出版社,2011.

[6] 魏桂英,高学东,武森.基于领域本体的个性化文本信息检索[J].辽宁工程技术大学学报,2011(4).

[7] SUSHAMA PRASAD.A tool for mapping between two ontologies using explicit information[C].Proceedings of AAMAS 2002 workshop on ontologies and agent system,2002.

[8] FRANCISCO M C,MARIO J S,PEDRO M C.Measuring semantic similarity between gene ontology terms[J].Data & Knowledge Engineering,2007,61(1).

数据通信基本概念范文第5篇

[关键词]数字图书馆 领域本体 用户兴趣模型

[分类号]G253

目前,数字图书馆正在向为用户提供个性化服务发展。通过研究,我们发现个性化服务的质量往往取决于图书推荐技术、检索技术。因此建立用户兴趣模型,是整个个性化服务系统建设的关键。建立用户兴趣模型的实质是将潜在的用户需求用显性的方式表达出来,并借用计算机技术和信息处理技术,由系统对用户服务进行维护、管理。

基于本体的用户个性化服务是一种借助领域本体,通过自动保存用户查询历史记录文件,运用所构建的用户兴趣模型对本体构建用户需求和服务资源内容进行匹配的机制。

1 本体及其构建的相关理论基础

本体概念来源自哲学学科,主要用来揭示事物的本质,是“共享概念模型的明确的形式化规范说明”。本体不仅能够准确描述某一概念的内涵、外延及其内在联系,还可以通过逻辑推理进行语义表达。作为能在语义和知识层面上进行概念描述的工具,本体在知识工程以及图书情报等领域得到了较多的实践和应用。

本体作为知识的一种组织方式,既定义了组成该领域词汇表的基本概念和相互关系,又定义了这些关系外延的规则,能够真实地反映事物本质。具体而言,本体就是由一个词汇术语和推理规则所组成的规范组合。

1.1 本体的定义

本体从形式上定义了领域内相关概念间的关系,通过对概念、术语及其相互关系的描述,显现某一领域的知识体系,将概念层次结构和逻辑推理融为一体。

本体是由六元组集合0{C,Ac,R,AR,H,X}组成,其中c是概念集合,Ac是属性集,R是关系集,AR是关系属性集,H是概念层次,x是公理集。其中,cj表示某一领域内相同类型对象的集合,可以由A。(ci)的属性集来进行描述;r;(cp,cq)则表达概念cp和cq之间的相互关系,rj的属性由A“(ri)来表达;H是从集合c中抽取的概念结构,属于c中概念的超类/子类关系集合。

1.2 确定本体的领域与范围

构建领域本体,首先要明确其覆盖的领域和范围,并且,本体的目标、作用和其系统开发、维护以及应用的对象,这些元素对领域本体的建立有很大的关联性,所以应当在构建领域本体前引起注意。此外,能力问题是由基于该本体的知识系统可以回答的一系列问题所组成,通常被用来检验该本体是否满足领域需求,包括:该本体能否拥有足够的信息来回答这些能力问题?而这些问题的答案是否需要特定的领域表示?在领域本体创建的开始阶段,需要我们尽可能列举出该系统的所有概念。

1.3 建立领域本体库

领域本体库是用于描述指定领域知识体系的一种专业性本体,它包括:该领域本体概念及各概念间的相互关系、领域行为以及所属特性和发生规律的一种显性化描述。领域本体确定了该领域内普遍认同的确切概念,通过对概念之间的关系进行语义描述,使用户与机器之间的交流既可以通过语法层次,又可以使用语义层次进行。因此,将领域本体应用到信息过滤的程序中,可以弥补传统信息过滤技术的缺陷。

领域本体库是一个在某领域内的概念层次结构集合,这些概念既可以自己创新,也可以借用已有的主题或词义库。就数字图书馆领域来讲,目前的一些图书馆网站提供了自助创建的在线层次主题,每个主题对应着一系列相关的页面供个性化用户浏览,这种形式为本文构建数字图书馆动态用户兴趣模型提供了借鉴。

2 构建数字图书馆领域本体个性化服务

2.1 建立本体框架

基于领域本体所产生的概念集,需要按照特定的逻辑规则对这些词汇进行重新组合,形成各自不同的领域,而对于同一领域的词汇概念而言,其相互之间的关联性应该较大。

另外,还需要对各个领域中每一个概念的重要性进行科学评估,遴选出关键术语,剔除掉那些不必要的或相关性较低的概念,用准确而精简的概念词汇来表达该领域的知识体系结构。至此,则形成了该领域知识的概念框架体系,也就是领域本体的框架结构。

根据这一原理和要求,数字图书馆领域本体框架包括:用户、资源库、查询处理、检索等。

2.2 设计元本体

为了描述领域本体的框架结构中的各个概念,需要运用术语对各个概念进行一一标识,并对各个概念的内涵和外延进行确切定义。因此,本文设计元本体来定义概念。对于某个概念,我们既可以选择使用元本体中定义的元概念来定义,也可以选择在本体中已经有定义的概念进行再定义,还可以重新使用已有的本体。

元本体是本体的本体,是用于定义本体的概念,例如:实物、关系、角色、行为等。元本体可以理解为更高层次的本体,是领域本体内概念的抽象表达。

目前,网络上有许多可以使用的本体词汇资源库。使用已有的本体,既可以减少开发的成本,又能增强与其他系统的交互能力。目前来讲,对于数字图书馆,有许多本体都可以通过网络获得。除了定义概念,还要定义概念之间的逻辑关系。而这些逻辑关系不仅要涉及同一工作领域的概念,还可以表达相关工作领域的概念,而所有这些关系都隶属于同一个工作领域。

而在自行创建的概念中,很大一部分属于类,目前来讲,对于类层次的定义主要有以下3种方法:①自上向下法:即先定义领域中那些综合的、概括性强的概念,然后再逐步分解细化说明;②自下向上法:先定义具体的、例外的概念,从定义最底层、最细微类的定义开始,然后再利用这些定义对综合性的概念进行解释;③混合法:即自上向下法与自下向上法混合使用,先建立那些常见的、普遍的概念,然后分别向上泛化与向下细化。

以下,本文将综合运用这三种方法,建立数字图书馆领域本体的动态服务模型。

2.3 动态用户兴趣模型的个性化服务框架

对于数字图书馆这个本体领域来讲,提供基于动态用户兴趣模型的个性化检索服务,需要综合利用搜索技术、查询技术以及用户兴趣调查,寻求满足用户动态需求的最佳结果。建立动态用户兴趣模型在个性化检索中的作用是:在用户发出检索要求时,这些信息被采集用来创建动态用户兴趣模型的基础数据,当动态用户兴趣模型和查询要求一起传输到服务器的时候,向搜索引擎提交查询请求,搜索引擎经过对本体集合的匹配,返回相应的检索结果。检索结果是依据用户的搜索要求内容与动态用户兴趣模型的相似度进行匹配,匹配处理的结果就是返回给用户的选项。基于数字图书馆领域本体的个性化检索服务模型如图1所示:

在基于数字图书馆领域本体的个性化检索服务框架中,个性化搜索推荐的原理是利用用户兴趣模型寻找与之匹配的资源,或寻找具有相近要求的用户群,互相推荐浏览信息。服务器通过动态收集用户的信息要

求和兴趣,自动应用用户兴趣模型,向用户推荐合适的信息资源,并能根据用户的反馈进一步改进推荐。基于领域本体的数字图书馆个性化服务正是依据本体表达的用户兴趣概念,发现与用户要求相关的资源信息,作为结果推荐给用户以及具有相似要求的用户。基于领域本体的个性化服务的推荐框架如图2所示:

其中,信息发现是通过运用元搜索引擎技术,根据用户兴趣模型本体库所表达的用户要求信息,从资源信息库中检索出与用户要求相匹配的资料;信息过滤则是通过用户兴趣模型,在领域本体库的范围内,对检索结果进行过滤处理;处理后的结果就可以通过智能推送给用户,同时通过发现相似用户,把这一检索结果推送给具有相似兴趣的用户,实现协同推荐;最后,根据用户的评价和反馈修正用户模型本体库。

3 基于领域本体的动态用户兴趣模型构建

完整构建一个动态用户兴趣模型的过程主要包括以下内容和环节:获取用户兴趣和检索要求信息、分类用户兴趣和检索要求信息、匹配用户兴趣模型、发送检索结果和动态更新用户兴趣模型等任务。其中,获取用户兴趣和检索要求信息的过程为动态用户兴趣模型的建立提供必要的数据信息资源;用户兴趣信息分类则是将用户兴趣信息按照不同的维度进行分类,得出用户的主题兴趣;匹配用户兴趣模型是将用户兴趣信息与已有的领域本体库进行匹配,以获得动态用户兴趣模型;用户兴趣模型的动态修正就是根据用户不断变化的需求更新用户的兴趣数据库。

3.1 用户兴趣信息的获取与分类

在数字图书馆的服务中提供个性化信息服务,首先要解决的问题是如何从用户浏览网页的数据信息中提取出用户的主题兴趣信息,即通过收集查看用户的浏览行为来确定用户的兴趣主题。常见的用户兴趣主题的收集方法主要有显式方法和隐式方法。显示方法是用户在数字图书馆的网页上选择符合自己兴趣的信息,可以确切地反映用户需求所在。隐式方法是指整个用户兴趣发现的过程都不直接由用户提供,而是通过数字图书馆管理系统自动获取用户的兴趣信息资料,经过专业工具分析处理后,输出到用户的动态兴趣模型。由于用户兴趣具有很强的时间性和动态性,本文采用隐式方法来获取用户兴趣信息资料。

通过隐性方法获取用户兴趣信息数据的途径很多,包括计算机日志信息、用户访问行为数据、访问页面的链接信息、访问内容、访问时间、下载行为、书签标记情况等。这些用户活动信息资料存储在用户缓存文件夹中,包括用户在检索查阅时间内的所有兴趣数据。然后将这些内容通过归一化、特征向量提取和特征权值计算等过程,用内容向量空间表示其内容分类。

3.2 基于领域本体的用户兴趣信息匹配

用户兴趣信息匹配过程就是通过计算信息内容的向量,计算该结果与领域本体库中概念向量之间的相似度。向量间的相似度计算公式常用内积运算,但是由于领域本体的用户信息兴趣内容文档的长度不一,尤其是长文档具有高词频特点,所以在进行匹配的过程中,需要对长文档进行规范化处理,排除长文档比短文档具有的优势。余弦规范化是同时针对长文档的两个特点进行归一化处理,这也是向量空间模型中最为常用的一种处理方法。

同时,还需要考虑的是访问时间和页面长度。如果用户在一个页面上停留了较长时间,则对这个页面的兴趣值应增加。然而,如果页面长度很长,则时间因素的影响效果应降低。

3.3 用户兴趣模型的构建

根据计算出来的文档向量与领域本体库概念向量的相似度大小,页面被分类到相似度最大的概念下。初始状态下,领域本体库下的所有概念的权重都是0,随着访问的页面不断被分类到领域本体库中相应的概念下,概念权重得以标注和不断累积,产生一个最初的用户兴趣模型。概念的权重代表用户的兴趣分数,权重越高表明用户对该概念的兴趣越大。

3.4 用户兴趣模型的动态更新

为了更好地满足数字图书馆用户的动态、个性化服务需求,需要对用户兴趣模型进行及时更新修正。一般来讲,最初的用户兴趣模型需要根据用户行为的变化而进行更新和维护。随着用户与数字图书馆管理信息系统的不断匹配,用户不断选择新的文档,新的文档又不断被分到相应的类概念下,这时就可以通过扩展激活模块来更新动态用户兴趣模型中的概念兴趣分值。兴趣分值根据激活值进行更新。同时根据实际需要踢掉兴趣分值低的概念,添加用户兴趣分值高的概念。由此,基于领域本体的数字图书馆动态用户兴趣模型框架如图3所示:

由图3可见,本文所提出的动态用户兴趣模型实质上是一个带有概念权重的领域本体实例,是领域本体库的子部分,其构建综合运用了本体和向量空间模型的原理。因此动态用户兴趣模型的描述是基于本体的表示方法和基于向量空间模型表示方法的综合应用。利用本体概念表示用户的兴趣节点,利用概念分数表示用户对此概念的兴趣度。由此动态用户兴趣模型可以由一个三元组来表示:{c,,c:,…,c,}={(c1,w1,T1),(c2,w2,T2),…,(ci,wi,Li)}。

其中,c;为用户的第i个情景概念,(Ci,wi,Ti)为第一个概念的描述,w;为第i个概念的兴趣权重,Ti为第i个概念权重最近一次更新时间。动态用户兴趣模型构建完成之后,其所蕴含的用户兴趣信息就可以用于一系列的信息检索活动中,包括个性化的搜索、浏览、过滤等。

数据通信基本概念范文第6篇

关键词:数据元素;数据;数据标准化;元数据;信息分类与编码

1 数据元素基本理论

1.1 数据元素及相关定义

在数据元素理论研究中,下面的术语是很重要的,理解好这些术语是理解数据元素的基础。

①数据元素(Data Element):用一组属性描述定义、标识、表示和允许值的一个数据单元。

②数据元值(Data Element Value):数据元能许值集合中的一个值。

③数据项:数据元的一个具体值。

④同义名称: 与给定名称有区别但表示相同的数据元概念。

⑤限定词:帮助定度和呈递唯一性概念的术语。

⑥域:一种属性的可能数据值的集合。

⑦值域:允许值的集合。

⑧域名:将数据元的值域及度量单位利用一个统一的名称来表示。

⑨对象类:对象集,现实世界中的想法、抽象概念或事物集合,有清楚边界和含义,并且特性和其行为遵循同样的规则面能够加以标识。

⑩对象:可要想象或感觉的世界的任一部分。

(11)特性:对象类的所有个体所共有的某种性质。

(12)表示:值域、数据类型的组合,必要时也包括度量单位或字符集。

(13)对象类词:数据元名称的成分,用于表示其所属的对象类。

(14)特性类词:数据元名称的一个成分,用于表述对象类的特性,(数据元名称的一个成分,表述数据元所属类别)。

(15)表示类词:数据元名称的成分,用于描述数据元的表示形式。

(16)数据模型:以反信息结构的某种方式对数据组织的某种描述。

1.2 数据元素规范与标准化框架

1.2.1 数据元素的组成

数据元由对象类、特性和表示三部分组成,其中对象类用于收集和存储数据的事物,例如,人、井、岩芯、管线、储罐都是对象类等;特性是用来区别和描述对象的,例如,颜色、性别、年龄、收入、地址、价格等均为特性;数据的表示部分中最为重要的方面是值域,值域是数据元允许(或有效)值的集合。对于值域,数据元中存在两种类型的值域,一种是所谓取值是固定的,即取值是可枚举的,例如,人眼睛颜色这个数据元,其取值可能包括:Brown、Gray、Green、Hazel、Blue,另一种是概括的,即数据元取值是有定义域约束的,其取值可能是有限的,但是无法列出全部值,例如人的年龄,其取值范围可能是1-200,并且每位要求是十进制表示。

1.2.2 数据元结构模型

(1)数据元概念(DEC):对象类与特性联合在一起形成数据元概念,数据元概念在数据分类中是非常有用的,一般来讲,数据元概念是一个抽象意义上的数据元,但这类数据元的对象类已经限定,只有经过对数据元概念中的各个要素再进一步的限定,才使数据元概念变成真成有意义的应用数据元素。所以,数据元概念本身具有抽象性与分类性。

(2)通配数据元:特性与表示联合在一起形成通配数据元,通配数据元素也具有抽象意义,对于这类数据元来讲,它的特性与表示已经确定,所以它具有通配性,如果将这类数据元与具体的对象类联系在一起,那么该类数据元就可以具体化为有意义的应用数据元。

(3)数据元类型:数据元概念与通配数据元形成数据元类型。

数据元是由数据元概念和表示两部分组成。当一个表示被联合到一个数据元概念上时,就能够产生数据元。数据元和数据元概念间存在多对1的关系,也就是一个数据元必须对应一个数据元概念,而一个数据元概念可以有多个数据元,换句话说,多个数据元可以共享一个数据元概念。

数据元与表示之间的关系是一对一的关系,也就是一个数据元需要一个表示。当数据元的概念模型相同而表示不同时就是两个不同的数据元,数据元中的表示是描述数据元中的数据元概念中的特性,即数据元中的特性有且仅有一个表示。

在数据元概念中对象类和特性之间是一对一的关系,一个对象类需要只需要一个特性(或者特性类),一个特性(特性类)只描述一个对象类,当一个特性和一个对象类建立关联时就产生了一个数据元概念。

同实体关系类的数据模型相比,模型中的实体相当于数据元中的对象类,而实体的属性本当于数据元中的特性和表示。

1.2.3 数据元素的属性

数据元素本身也是一个事物,既然是事物那么就需要属性来描述这一事物,通常我们也将描述属性称为描述数据元素的元数据。

1.2.4 数据元结构模型

经过对数据元理论的深入研究,我们抽象出图2的模型,该模型反映出了数据元概念、表示、基本数据元以及应用数据元间的关系。

1.2.5 值域基本模型

按照数据元素理论,给出了数据元的值域模型。该模型将数据元素的值域抽象为概念域,即所谓的“域名”,一个概念域可能会与多个值域有关系;概念域可能是枚举类型的,也可以是非枚举类型;同样,值域可能是枚举值域,也可能是非枚举值域。

2 数据元的元模型

经过对数据元理论与实际数据规范化应用的研究,我们提出了数据元的元模型。

该框架模型是将对象类、特性类、分类模式由此演生的基本数据元和应用数据元、值域以及数据标准值、实例标准值以及标准实体有机的关联在一起。揭示了数据元与应用的紧密关系。整个模型高度概括了数据标准化的核心工作。

3 数据元素与信息编码间的关系

有些学者讲过,信息标准化实质是信息代码化的过程,周知,信息分类与编码在整个企业信息标准化中占有基础的不可替代的地位。因此如何对企业的各种信息进行有效的分类,并对其进行编码这是信息化过程中一个非常重要的过程。其实数据元素与信息分类及编码有着密不可分的关系,在表1中给出了数据元素分析方法与信息分类与编码的对应关系。

4 数据元应用的领域

数据元素理论属于信息标准化的基础理论,即是数据规范化理论基础。数据元分析在信息分类、数据的集成参考模型、数据模型优化设计、数据元字典以及制订数据交换标准等方面得到应用。

数据元的研究,目前在国际上相当流行,而在国内的研究还处于起步阶段。通过几年的研究,目前,我们已经将这一方法论用于石油上游的数据规范化中,并取得了良好的效果,目前,正在将这一方法论用于中石油的ERP数据平台中的数据规范化中。相信,随着这一方法论的在石油石化领域的不断应用,必将为石油石化信息化建设起到科学的指导与推动作用。

数据通信基本概念范文第7篇

[关键词]概念模型 信息系统 用户 理解 沟通 实验室研究

[分类号]N945.12

概念模型通过一套正规化的符号语言描述现实世界,是信息系统开发中记录系统需求的重要工具,如E-R图、数据流程图、UML等。记录的系统需求成为项目中各方沟通的媒介:系统分析员与用户沟通以确认系统需求;系统开发人员间沟通开发细节。显然,两方面沟通均有效才能保证开发出符合用户需求的应用系统。而以往研究多关注系统开发人员间的沟通,忽视了与用户的沟通。

当前,用户参与需求分析愈加被重视,有效的用户参与被认为是系统成功和用户满意的有力保障。Davies等人的调查表明,与用户的沟通有效性超出其他技术和管理因素,成为概念模型使用中最重要的问题。然而还缺乏直接的研究和证据解释概念模型在与用户沟通中的作用机理。

鉴于此,本文将以概念模型与用户沟通过程中的认知特点为基础,分析和解释概念模型影响沟通效果的作用机理,并通过实验室研究方法获得数据支持。

1 文献回顾

1.1 概念模型的沟通有效性

基于概念模型的沟通效果本质是阅读者正确理解模型中信息的程度,可以定义为阅读者正确掌握的信息量与模型全部信息量的比率。但信息本身具有不同的类别,近年来研究中多依信息类别将理解效果划分为不同的维度,以深入分析模型对沟通有效性的影响。如Agarwal等根据信息组成分为简单信息(仅包含基于结构的或基于过程的信息)与复杂信息(包含两类型信息),研究发现开发人员使用面向过程的概念模型理解复杂信息显著优于面向对象的概念模型。而在简单信息理解方面无显著差异。

理解效果的维度,即信息类别的划分不存在统一的标准,主要依研究目的而定,如上述研究中的信息分类是为了寻求信息结构与模型结构的匹配。

1.2 概念模型理解效果研究

阅读者理解模型中信息的过程是概念模型与阅读者个人交互的过程,因此分别受到模型特点及个人特点两方面因素的影响,如图1所示:

对于模型因素,以往研究发现了一些好的品质,如信息完整性、清晰性等。满足好品质的模型能够提升理解效果,如Gemino等通过实证研究验证了本体论语义更清晰的模型更利于理解。

个人特点中的因素关注较多的如个人经验、知识。经验越丰富,知识储备越充足,个人理解效果必然越好。如Khatri等的实验室研究验证了开发人员所具有的模型技术知识以及应用领域知识对阅读效果的影响作用。

然而,这些研究能够回答的现实问题很有限。首先,用户具有高的应用领域知识水平及低专业技术知识和实践经验,现有研究对这样的复合因素组合的情况难以解释。此外,除了模型特点中的“好品质”,不同的模型仍然存在其他差异影响阅读者理解过程,但作用效果可能因人而异。如有研究发现相对于面向对象的建模方法,面向过程的模型更利于开发专家全面识别信息,而对开发新手不存在这样的差异。因此,本文将根据用户整体的认知特点分析其与概念模型特征的交互关系。

2 理论与假设

2.1 用户阅读的认知过程

概念模型主要的呈现形式是图形,为了更深入认识用户阅读概念模型时的认知特点,可以借鉴图形理解的相关理论:感知理论与认知理论。

感知理论解释了阅读者将所看到的图形信息放入短期记忆的感知过程,包括三步:辨识图形中各符号对象;根据模型中符号的空间布局对符号进行分组及确定层次关系;对符号初步组织并放入短期记忆。专业的训练和实践能够使开发人员具备组织图形信息的技巧;而用户未接受过培训,只是按照阅读文本时的习惯策略从左向右、自上而下地组织模型信息,因此放入短期记忆中的信息基本是按照模型的信息组织方式。

认知理论解释了信息放入短期记忆后的认知过程,包括两个活动:搜索长期记忆中的相关知识;对图形信息进行解释并与长期记忆整合。影响认知效果的根本因素是认知计算量。对用户来说,主要依靠搜索长期记忆中关于业务环境等的知识来解释图形所传达的含义。根据认知匹配理论,当放人短期记忆的信息结构与用户长期记忆中的知识组织方式一致时。搜索相关知识的效率将提高,整合新知识时也减少了结构关系的转换计算,使得总的计算量降低,因此认知正确性将提高。

综上所述,概念模型的信息组织方式与用户长期记忆中知识结构的匹配程度是影响认知过程正确性的重要因素。

本文将以面向对象与面向过程的概念模型为例,验证上述分析。两类模型对信息的组织方式显著不同:面向对象的模型将信息分类、抽象为对象,以对象为中心组织与对象相关的属性、行为、通讯等信息,如用例图中围绕各角色的行为活动(即用例);而面向过程的模型将信息抽象为信息流,通过信息处理流程中的前后衔接组织信息,如数据流程图中“处理模块”的输入和输出“信息流”。

认知心理学中众多研究结论显示出人们的自然思考方式首先是分类,这正是面向对象思想的基础。因此可以说,面向对象模型的信息组织方式与未接受过专业学习的用户脑中的知识组织更加匹配。由此判断,与面向过程的概念模型相比,采用面向对象的概念模型更利于用户理解。

假设1:描述同一系统信息时,用户使用面向对象模型的理解效果显著高于面向过程模型。

2.2 基于语义网络理论的理解效果

语义网络理论对人脑中的知识组织方式作了很好的解释:人的长期记忆中,知识是通过节点互联的网络来组织的。节点代表任何实体、抽象类、属性等概念;节点间的连接表示概念间的某种关系。一条信息可能包含一个、两个或多个节点,而多个节点之间的关系可能是直接关联,或是通过某些节点间接关联。

显然,当信息包含的节点数较少、节点间的连接较少时,认知过程的搜索和整合计算量都更小。因此,为了进一步分析用户认知特点与概念模型的交互作用,本文根据信息中所包含的节点数及连接关系的复杂程度,将理解效果分为简单理解与复杂理解。

有研究曾发现,不熟悉概念模型的阅读者在使用用例图和使用数据流程图识别单个信息点的完整性上没有差别。这是因为,理解简单信息时的认知计算量很少,面向对象模型信息组织的优势不显著;但随着信息复杂度增加,两类模型认知计算量的差异将显现出来。

假设2:描述同一系统的简单信息时,面向对象与面向过程概念模型的用户沟通效果无显著差异;

假设3:描述同一系统的复杂信息时,面向对象概念模型的用户沟通效果显著高于面向过程模型。

3 研究方法

3.1 实验对象及实验过程

本文采用实验室研究方法收取数据。实验在大学课堂道行,选修同一课程的管理学院各专业学生自愿参加,最终参加学生41人。实验中学生被随机分为两组,依次完成三项任务:阅读描述同一系统的系统需求说明,两组的阅读材料不同;回答关于系统理解效果的测试问题,包括简单信息及复杂信息;填写个人经历以及实验感受的问卷。

3.2 实验设计

3.2.1 实验情境 待开发的系统是一个校友录系统。大学生对这样的系统较为熟悉,符合学生作为系统用户的角色。实验人员在实验开始时将以系统开发者的角色进入,并说明实验参与者将作为该系统的用户,实验目的是使用户理解系统的构建内容。

3.2.2 需求说明 两组阅读的需求说明分另0由用例图(Use Case Diagram)与数据流程图(Data Flow Dia-gram)来描述,两者是当前使用最广泛的概念模型,分别代表面向对象与面向过程的概念模型。两组模型描述了相同的系统内容,所传达的信息量一致,只是表达形式不同。由于实验时间的限制,所描述的系统只具备简单的功能。

3.2.3 理解效果 用户的理解效果通过回答问题的正确率来反映。所有问题均为判断题,共14题:关于简单理解的问题共7题,只涉及需求中两个概念及直接连接关系;关于复杂理解的问题共7题,涉及三个以上概念及其关系。所有14道问题的正确率反映用户的整体理解。

3.2.4 实验后调查问卷 问卷主要通过五点量表测量实验中的假定条件以及控制变量。包括三个问题:阅读者对概念模型的学习程度、阅读者对校友录系统背景的熟悉程度(这两者用来保证学生作为用户角色的有效性)以及阅读者感知的模型阅读难度。感知的阅读难度也是影响模型使用的重要因素,因此在本研究中作为控制变量。

4 实验结果与讨论

4.1 实验数据剔除

实验收集到数据41份,首先剔除回答不完整的数据1份,然后对实验的前提假定进行检验。统计阅读者的模型知识表明所有参与者都没有学习过概念模型知识,同时95%的参与者较熟悉或非常熟悉校友录系统。为进一步保证实验的有效性,根据参与者对系统背景的熟悉情况剔除了解很少或完全不了解的参与者数据3份。最终获得有效数据37份,其中用例图组19份,数据流程图组18份。接下来将使用SPSS统计软件对数据进行分析、验证假设。

4.2 模型对用户理解的影响

采用多元方差分析方法验证两概念模型组阅读效果的差异,并将用户感知的模型阅读难度作为协变量以控制其对因变量的影响。两组用户的简单理解效果没有显著影响(显著性=0.617),支持了似设2;复杂理解效果方面,用例组(均值=0.722)显著高于数据流程图组(均值=0.579),显著性=0.007,支持了假设3;总体理解效果方面,用例图组(均值=0.726)也显著(显著性=0.043)高于数据流程图组(均值=0.643),支持了假设1。如表1所示:

4.3 用户不同层次的理解效果

通过对同一用户简单理解效果与复杂理解效果的配对均值检验来反映前文中关于理解划分的认知基础。用户对简单问题的理解效果显著高于对复杂问题的理解(显著性=0.045),如表2所示:

4.4 讨论

4.4.1 用例图组用户的总体理解效果显著高于数据流程图组(假设1) 基于前面的分析,该结论在理论上验证了影响用户理解效果的一个重要的概念模型因素――模型信息组织结构特征,该因素与用户知识组织结构交互影响用户理解效果,即使用与用户知识组织结构更相近的概念模型得到的用户理解效果更好。这为概念棋型的选择和评价提供了一个较可靠的一般性的依据。该结论为实践中而向对象的概念模型在用户沟通方面的意义提供了证据支持,为开发项目选择概念模型提供了直接的参考。

本文基于认知特点的分析认为用户与开发人员在理解概念模型时(无论是感知过程还是认知过程)具有显著差异,对比以往研究中面向过程的慨念模型更有利于开发人员理解的结论,本实验室研究的结论间接证明了用户与开发人员认知特点上的差异。

4.4.2 用户对不同复杂度信息的理解效果差异显著

用户对简单问题的理解效果显著高于复杂问题;且用例图/数据流程图在简单和复杂信息理解效果方面的表现显著不同(假设2,假设3)。这些结论验证了认知复杂度是用户理解效果的本质影响因素,进一步解释了具有不同信息组织特征的概念模型是通过影响用户认知计算量影响用户理解效果的。

同时,该结论具有更高的可靠性。可以对以往一些研究结论进行解释:即由于所设置的信息过于简单或没有选择对用户认知计算量有影响差别的概念模型,以往研究可能获得概念模型对用户沟通效果无影响作用的结论。这再次肯定了该领域研究中以用户认知特点为基础的重要意义。

5 结语

数据通信基本概念范文第8篇

关键词:本体;数据整合;共享

中图分类号:TP392 文献标识码:A 文章编号:1006-4311(2012)18-0196-02

0 引言

正如钱老曾经指出的那样,“作战实验是军事科学研究方法划时代的革新。”在我军军事理论研究和信息化建设的过程中一直都十分重视关于作战实验理论、作战实验方法及作战实验技术的研究和作战实验系统的建设,在利用作战实验研究军事问题方面也取得了丰硕的成果。作战实验为军事科学理论创新、战法检验、战果预测、效能评估等诸多研究工作提供了重要的环境和手段,而且随着技术的进步,环境越来越逼真,手段越来越丰富。多年来,各种类型、各种规模、各种层次的作战实验在达成既定实验目的的同时,也积累了丰富的、以不同形式保存在不同位置的不同类型实验数据。因此,我们现在开展军事研究工作所面临的问题不再是像过去那样缺乏数据资料,而是如何从海量的无序数据中提取到有用的信息资源。所以,研究行之有效的方法和技术手段实现作战实验数据资源整合,进而实现数据共享提高资源的传播和利用效率,是军事信息系统工作者亟待解决的任务。基于本体的数字资源整合方法是目前信息资源管理学科的研究热点之一,本文以作战实验为背景,研究本体法的具体应用。

1 本体的含义

本体(Ontology)一词来源于哲学范畴,在西方哲学史中,本体一般指一切属性的基础和本原的东西。人工智能领域首先把本体的概念引入用于知识表示和知识组织,使本体的内涵发生了改变,之后又有多个领域借用这一概念,但关于本体的明确含义尚无统一定义。美国学者Guber认为本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明,这一说法目前所赢得的认可程度比较高。明确、共享、形式化和概念化是德国学者Studer等总结的本体的四大特征。根据应用范围的不同,徐振宁等学者把本体分为三类,如图1所示。

还有很多国内外学者提出了本体分类的学术观点。本着本体是面向特定应用领域应用的本体的观点,马文峰、杜小勇等学者认为本体应分为领域本体和通用本体两类。本文认为这种分类观点更贴近工程应用。其中,领域本体的描述对象主要是特定学科领域或社会活动领域中的概念、概念的属性、概念间的关系以及某些需要遵从的规则。通用本体是具有普适性的概念集合,也是若干不同领域的共享本体。通用本体和和每个下属领域本体之间存在一定的映射关系,通过这种映射,通用本体把不同领域的概念整合成有机整体,再通过领域本体面向具体的应用。它们之间的关系如图2所示。

2 基于本体的数据资源整合方法

数据资源整合不是简单的把数据集中和合并,更主要的是要将数据进行梳理、融合、类聚,以形成有机的数据资源集合。每一个作战实验或作战实验系统都相当于是一个特定的应用领域,这些应用领域又同属于军事作战这个大领域。每个应用领域中既包含本领域特有的概念和数据,又包含领域间共有的大量通用概念。由此可见,作战实验数据资源的组成结构与图2所示的本体机构关系比较相似。本体是很好的知识组织和知识表示的工具,通过通用本体和领域本体中概念间的映射、概念属性的延拓和交织,形成了领域或者学科清晰、完善的概念网络,按照这一网络进行知识组织,也就是把相应概念下的数据充实或注解到网络节点上,该领域或学科的知识网络就形成了。显然,我们可以按照这样的模式来对作战实验数据进行知识组织,从而使现有的数据资源形成一个有机的整体集合,资源得到有效管理。

数据资源整合的最终目的是为了资源的共享和再利用,共享和再利用的基础是实现数据便捷、高效的检索。我们不难发现,基于本体的数据资源整合方式对数据检索是非常有利的。这是因为,按照本体方法组织的资源结构呈树状网络,展示了知识的关联性,概念映射从通用本体到各具体应用领域呈层级辐射状。检索时,首先在通用本体词表中检索到与检索对象相同或相似系数最高的概念,然后映射到相应的领域本体词表,此过程将循环向下层延伸,直至链接到底层数据源,所以,检索的效率较高。当然,这只是笼统地对基于本体的数据资源整合原理和过程进行了描述,具体实施过程还需要多种技术的支撑,比如联邦数据库技术、数据仓库集成技术、OLAP联机分析技术、CORBA/DCOM分布式对象技术以及中间件技术等。另外,为兼顾效率、成本和准确性,还有许多看似是具体细节问题但实际上影响全局的问题需要研究针对性的解决方案,比如各领域本体概念词表中近义词、关联词以及同词不同义等问题,这些问题的有效解决需要对本体具有语义集中的特性加以充分利用。因此,除了需要能够灵活运用相关先进技术外,构建科学、合理的本体结构体系对作战实验数据资源整合具有至关重要的影响。

3 本体的构建

目前,关于本体原型的构建研究已经受到不同应用领域的关注,许多学者投入到了此项工作中,提出了多种极具参考价值的构建方法,其中最具代表性的有七步法、骨架法、IDEF-5法、循环获取法以及企业建模法等。无论采用何种方法,完善、准确的本体体系构建都不可能一蹴而就,首先建立一个初始本体,然后在此基础上根据应用的需求进行动态的关联、扩充和修改。在作战实验数据资源本体的初步构建过程中我们主要从以下两个方面开展工作构建初始本体。

3.1 本体信息的获取 确定本体的信息源是本体建设的基础。我们要整合的数据资源全部是以军事领域的作战实验为背景的,所以,获取军事作战的领域信息是本体建设的首要任务。获取领域信息的现有途径主要有两条,一是在现有类似本体的基础上改造;二是利用相关方法新建。在此环节我们采用了两种途径相结合的策略。

我国军事科学的学科体系建设和分类已经比较完善,2010版《辞海》中将军事科学的知识体系划分为13个学科门类,如图3所示。每个学科都有各自成熟的体系。我军的各项条令、条例、《中国人民军语》以及《军用主题词表》对军事领域的主要用语、概念作出了明确、严格、规范的规定和阐述。上述这些资源虽不是真正意义上的本体,但是其基本功能与本体有很强的一致性,它们都是概念和概念间关系的集合。虽然随着军事学科理论和实践的不断创新和发展,上述的分类或概念属性很有可能会有变化和调整,但并不会影响对现有知识、资源的组织。对这些资源的充分利用,可以使我们在本体建立中达到事半功倍的效果,建立的本体体系也更符合作战实验数据资源生产者和使用者的思维习惯。我们的顶层共用本体和领域本体的概念体系主要是在上述资源的基础上改造而成,并且根据需要还将领域本体继续向下细分了层级,比如作战领域下建立的二级领域又分为:联合作战、合同作战、空军作战、海军作战及第二炮兵作战等。

另外还有一些概念及其属性只在特定的作战实验或作战实验系统中使用,或者是同一个概念在不同的领域被关注的属性不同,军语及主题词表等资料又没有准确说明。在获取领域本体信息时,对这些概念和关系我们采取的办法是:首先利用技术手段从数据源文档的题名或关键词、数据库中的数据字典、E-R图中抽取概念和术语集合,然后再由军事专家组筛选、补充,并梳理它们的逻辑层级和语义关系。通过这两种途径的结合,从而得到完整和精确的领域本体信息。

3.2 本体的描述 本体用来组织和表示知识,需要明确、准确、逻辑性强的语言来描述,这种语言还必须是机器可读的。现在用来具体描述本体的语言种类已经很多了,每种语言各有所长。OWL语言在语义表达方面的功能更为丰富,能更好地支持推理,有助于表达和解释知识的内在联系。我们采用的就是OWL语言族谱中最小的语言子集OWL Lite。OWL中的类(Class)、子类(Rdfs:Sub Class Of)、属性(Rdfs:Property)、子属性(Rdfs:Sub Property Of)、个体(Individual)等语言成分用来描述本体模型中的实例、实例间关系、个体到概念的映射以及概念间的关系等。例如,我们从“54式手枪”、“81式自动步枪”等一系列实例中可以抽象出“枪”这一概念,那么“54式手枪”、“81式自动步枪”都是“枪”类的成员,“枪”又是“武器”的子类。定义“口径”为“枪”的属性,通过属性“口径”,可以把类“枪”和另一个类“弹药”建立关联,更复杂的描述和推理依赖于OWL Lite语言的定义约束。

4 结论

数据资源整合是一个复杂的系统工程,本文仅在基于本体的整合研究领域进行了初步的尝试,在作战实验应用领域背景下分析比较了本体构建的基本方法和技术途径,并实践了部分环节,但距离系统化和实用化还有很长的路要走。后续研究准备围绕本体评价与进化、本体的展现来开展,通过动态循环来完善本体模型,从而实现定义明确、描述规范、共享便捷的作战实验数据资源整合目的。

参考文献:

[1]徐振宁,张维明,陈文伟.基于Ontology的智能信息检索[J].计算机科学,2001,(6).

数据通信基本概念范文第9篇

关键词:概念模型 系统仿真 管理系统

1 引言

系统仿真是建立系统模型,并在模型上进行试验的技术、方法和过程。

随着仿真技术的不断发展,诞生了许多仿真实验室,许多机构也参与到了仿真技术的研发和应用中,积累了大量的仿真资源。另一方面,用户对仿真系统的要求越来越高,仿真系统越来越复杂,开发既费时又费力,如何为用户“快、好、省”的开发出权威的仿真系统成为困扰仿真系统开发人员的一个难题。如果能够利用大量现有的各种权威仿真资源,那么开发新仿真系统的工作量就会大大减轻,开发周期会大大缩短,开发成本也将会进一步降低。因此,用于实现各种仿真资源的共享与管理,特别是跨组织机构实现仿真资源的共享与管理的仿真概念模型管理系统成为重要的研究课题。

2 概念模型管理系统简介

2.1 概念模型管理系统定义

由于概念模型的种类较为繁杂,可以对其从多个角度进行不同的形式划分。在本文中,将概念模型管理系统定义为:对现有的概念模型进行抽象分类存储,并建立基于Web技术的网络交流、修改、更新的软件系统。

2.2 概念模型管理系统功能描述

通常情况下一个成熟的概念模型管理系统应该具备以下几个功能模块:

用户管理模块:对用户进行有效的管理是确保系统实现概念模型资源安全共享的必要条件,用户管理的根本任务就是将用户的操作控制在特定的权限范围内,防止越权操作、非法攻击可能导致的资源失窃以及泄密等事件。在本文设计的系统中定义了两类角色,即普通用户和系统管理员。

数据管理模块:仿真概念模型通常都要以某种数据形式存在,系统需要提供相应的数据管理功能,以实现概念模型数据的有效管理。在系统运行过程中,概念模型的数据是核心内容,数据的上传、下载、更新以及删除等必须进行严格的管理控制。

元数据描述与管理模块:数据是概念模型的核心,而仅仅有数据是不够的,还需要有用以对概念模型数据进行描述的元数据信息。概念模型的元数据包括:模型者的相关信息、模型的功能信息、模型的版本信息、模型的日期、模型的VV&A以及相关状态信息。

搜索机制模块:资源管理的最终目的是共享和重用,系统必须提供良好性能的资源搜索机制,使得概念模型的潜在用户能够切实的发现自己最需要的概念模型资源。

VV&A支持模块:为概念模型的VV&A提供支持,概念模型提供者将概念模型提交给系统后,系统可以对模型的VV&A状态进行跟踪,以指示概念模型所处的验证阶段。

用户反馈模块:概念模型的使用者可以通过系统将概念模型中存在的不足、问题和修改意见等反馈给概念模型的提供者,之后概念模型的提供者也可以借助系统做出回复。

日志管理模块:概念模型是宝贵的智力资源,通常也可能涉及到秘密,因此需要对概念模型的使用情况进行跟踪管理。

3 概念模型管理系统设计

3.1 管理系统中概念模型分类

概念模型是一个较为繁杂的体系,各种具体模型的应用背景不同,功能各异,其表现形式和描述方法也多种多样,这样就导致了对其进行分类的方法也没有一个统一的规范,本文对管理系统的分类是依据概念模型的UML描述方法进行的,即将概念模型具体分为:实体模型、过程模型和交互模型。

3.2 管理系统的数据库设计

系统在数据库设计上大体分为四大块:

用户表:主要用来存储系统注册用户的相关信息,数据库中用户的信息既有普通用户信息也有管理员信息,两者信息结构相同,但分开存储。数据的结构较为简单,只包含相关的用户名和密码。

概念模型表:用来存储概念模型的相关信息,大体包括模型的ID、名称、和属性等相关信息。

概念模型元数据表:用来存储概念模型的元数据信息,主要包括模型者的相关信息、模型的功能信息、模型的版本信息、模型的日期、模型的VV&A以及相关状态信息。

用户反馈表:用来存储使用过本系统的用户对系统的反馈意见信息。

3.3 管理系统的静态网页设计

静态网页作为整个系统的最上层设计,是系统与用户进行交流的窗口,在设计过程中着重要注意设计的交互性,涉及的界面用交互性强,便于用户使用操作,另外要注意界面的简洁美观增强系统的可视性。总体来讲系统主要设计以下几个界面:

登录界面:包括普通用户登录界面和管理员用户登录界面,用于用户登录系统。

注册界面:即普通用户注册界面,用于新用户注册用户名和密码。

系统主界面:即用户成功登录系统后所直接展示给用户的页面,主要介绍管理系统的基本内容,页面内嵌套相应功能模块链接按钮。

模型实例管理界面:根据对概念模型的划分,应对实体模型、过程模型、交互模型各设立一个模型实例管理界面,界面中应能显示系统中现有的各个概念模型实例,并提供相应的下载上传链接,使得系统中的模型库得以共享和扩充。

用户反馈界面:用于上传和显示用户对本系统的使用评价和建议。

3.4 管理系统的业务逻辑设计

管理系统在设计过程中主要分为五大模块进行设计:

用户登录模块:管理系统首先应该解决的问题,其主要功能是提供用户登录的口令密码验证,并可以进行新用户的系统注册。

模型管理模块:用于实现系统的主要功能,其中包括了下载、上传、删除、修改四个子模块。

元数据管理模块:主要内容是在系统中嵌入元数据的查询和注册功能。

搜索功能模块:用于实现对模型数据的快速检索功能,本模块中的实现主要是通过SQL语句中的查询语句来实现对数据库的检索,并将检索的结果以HTML页面的形式反馈给使用者。

用户反馈模块:将用户提交的表单写入反馈信息数据库,并将数据库的内容显示在HTML页面上,可以通过JSP和MySql的基本操作来实现。

4 结语

随着仿真技术的不断发展,概念模型的构建作为仿真活动的第一步,其作用的重要性将进一步突出,而且随着更多概念模型的开发,为了方便仿真人员对已有成果的共享和交流,缩短仿真周期,对概念模型管理系统的研究将有越来越大的发展空间。

参考文献

[1]谢卫平..概念模型工程研究[J].计算机仿真.2003,20(2):120-122.

[2]赵龙文.Agent的概念模型及其应用技术[J].计算机工程与科学.2000,22(6):75-79.

数据通信基本概念范文第10篇

关键词:本体学习;自动化;本体构建

一、本体的定义

本体一词来源于哲学,它指的是一种存在的系统解释。近年来,在计算机科学中关于本体的研究越来越多。在人工智能界,Ontology被定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。在信息系统、知识系统等领域,最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”。W.N.Borst对该定义进行了引申“本体是共享的概念模型的形式化的规范说明”。Fensel对这个定义进行分析后认为Ontology的概念包括4个主要方面:

概念化(conceptualization):客观世界的现象的抽象模型。

明确(explicit):概念及它们之间联系都被精确定义。

形式化(formal):精确的数学描述。

共享(share):本体中反映的知识是其使用者共同认可的。

目前,关于本体的公认的定义是Gruber在1994年提出的:“本体是关于领域共享概念的一致的形式化说明”。这个定义包含3层含义:

共享概念包括用来对领域知识进行建模的概念框架、需要互操作的主体之间用于交互的与内容相关的协议以及用于表示特定领域的理论的共同约定等。

本体必须是一致的,即本体概念和关系不能出现逻辑上矛盾的陈述或推理上的逻辑矛盾。

本体的描述是形式化的,支持对领域概念和关系的推理。

二、基于本体学习的自动或半自动本体构建方法

由于人工的方法费时费力,使得本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向。

国外在该方向的研究很活跃,把相关的技术称为本体学习技术(Ontology Learning),其目标是利用机器学习和统计等技术自动或半自动的从已有数据资源中获取渴望的本体。根据源数据结构化程度,可以将本体学习技术分为以下类别:

(一)基于结构化数据的本体学习

结构化数据主要是包括关系数据库或面向对象数据库中的数据。现在的应用大多采用关系数据库来组织和存储数据。但是关系模型有一个致命弱点,即它不能用一张表模型表示出复杂对象的语义。

基于结构化数据的本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将其映像到本体中的相应部分。

从数据库中抽取本体,一般的做法是:利用数据库的逆向工程或映射技术将关系模型转换为一种中间模型,然后将该中间模型转换成本体。

例如,Johannesson提出了将关系模型转换成一个概念模型,该概念模型实际上是扩展的实体――关系模型的形式化表示,然后由用户对该概念模型进行修订生成最终的本体。

Rubin等人提出了一种使用关系数据库中的数据来丰富指定本体中的实例,并自动获取这些实例在相应属性上值的方法。Stojanovic等人使用映射技术将关系数据库模式映射为本体。通过考察数据库中的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映像规则,在根据这些规则的基础上能够直接获取候选本体。由于关系模式中蕴涵的语义十分有限,所以只适合构建轻量级的本体。Kashyap提出首先根据关系模式得到一个初步的本体,然后基于用户查询进一步丰富该本体中的概念和关系。由于用户查询具有很大的随机性,所以很难保证结果的质量。Astrova通过对数据库中的元组的分析,得到了概念间的继承关系。

(二)基于非结构化数据的本体学习

非结构化数据是指没有固定结构的数据,例如纯文本、Web网页、Word文件和PDF文件等。目前,基于非结构化数据的本体学习技术的研究主要集中在从纯文本中获取本体。由于缺乏一定的结构,要使机器能够自动地理解纯文本并从中抽取出需要的知识,必须利用自然语言处理(Natural Language Process,NLP)技术对其预处理,然后利用统计、机器学习等手段从中获取知识,重点是从文本抽取领域概念、实例,并发现概念之间的关系。

对于概念的获取,常用统计方法是计算概念在文本集中出现的频率,如果该频率大于指定的阀值,则将其作为领域本体中的概念。对于概念间关系的获取有基于模式,概念聚类,关联规则挖掘的方法。基于模式的方法需要判断文本中词的序列是否匹配某个模式,如果匹配,则可以识别出相应的关系。概念聚类的方法是利用概念之间的语义距离,对概念进行层次聚类,聚类的结果就是概念间的分类关系。关联规则挖掘的方法常用来获取概念间的非分类关系,其基本思想是,如果两个概念经常出现在同一文档(或段落,句子)中,则这两个概念之间必定存在关系。

目前,从纯文本中获取概念和概念间分类关系的研究比较多,但对概念间非分类关系的获取,大部分方法都停留在判断两个概念之间是否存在关系的层次。该方法需要人工预先制定模板。

(三)基于半结构化数据的本体学习

大量的XML格式和HTML格式的网页,以及它们遵循的文档类型定义(XML Schema或DTD)等具有隐含结构的数据都是半结构数据。本体学习的方法是利用一些映射规则从中获取本体。

另外,机器可读的词典也是一种特殊的半结构化数据,通常使用语言学分析,语义分析和模式匹配等方法来获取特定领域的概念及概念之间的关系。鉴于传统字典对于每个字词所定义的同义词、字根、原形等关系,该建构方法就是利用这种词汇与词汇之间的关系――上位词、下位词来确定概念的阶层关系。基于字典的建构方法是其他建构方法的基础,然而以此方法建构的本体通常为一般性的描述,并不是与特定领域相关的本体,因此必须结合其他方法以及由领域专家的参与才能形成有意义的本体架构,故此方法无法独立使用。该建构方法不仅受限于字典本身的范围大小,而形成不同范围的子领域,还存在无法适应环境变化的要求而造成遗漏信息。

Papatheodorou等人提出了一种从XML或RDF格式的文档中获取概念间分类关系的方法;Modica等开发的OntoBuilder工具能够用户浏览行为从XML和HTML标记的半结构化数据源中生成本体的功能。2003年,Volz等人提出了一种基于XML Schema和DTD的本体学习方法。该方法依赖于一组从源数据到本体的映射规则或模式匹配规则,如何获取这些规则就成为关键。

总之,采用本体学习技术,虽然可以简化人工构建本体的工作量。但在实际的知识获取过程中,有些知识虽然人能理解,但很难确切地表达出来,比如很多隐含的概念和概念间的关系,这些关系都是隐含在人的头脑中或者是文档中的。另外这些隐含的概念及概念间的关系要用形式化的方式确切地表示出来更加困难。

参考文献:

1、邓志鸿,唐世渭,张铭等.Ontology研究综述[J].北京大学学报(自然科学版),2002(5).

2、Thomas R,Gruber.Toward Principles for the Design of Ontologies Used for Knowledge Sharing[J].Revision,1993(23).

3、Fensel D,Harmelen F Vl.OIL:An Ontology Infrastructure for the Semantic Web.IEEE Intelligent Systems,2001(2).

数据通信基本概念范文第11篇

关键词:单片机;通信;数据传输;数据的帧格式

Abstract: based on the mechanic colleges and universities and related course curriculum present situation, from the basic knowledge system, solve the students in this course, the difficulties encountered in the actual learning process of perspective, discussed the mechanic colleges and universities related in the process of single-chip computer courses teaching as communication way of basic knowledge in this paper, the defects, leading to some of the problems, and according to the characteristics of the mechanic colleges and universities student put forward a solution.

Key words: single chip microcomputer; Communication; Data transmission; The data frame format

中图分类号:C41文献标识码:A文章编号:2095-2104(2013)

正文:

1 概述

单片机课程中涉及到部分通信基础知识,对于这部分知识的阐述在各类单片机教材中都各不相同。笔者结合自身的教学经验,对各类教材在关于这部分知识的阐述特点深入研究,发现大部分教材在阐述通信基础知识时并没有足够地考虑到当前技工院校学生在学习单片机课程之前普遍没有系统全面地学习过通信专业相关知识的特点。同时,由于当前技工院校学生在学习过程中普遍比开设类似课程的本、专科院校的学生在学习上困难更多,更需要循序渐进地引导,在教学过程中对抽象专业知识的学习需要更多时间的特点。笔者认为,在讲解单片机课程中涉及到的通信基础知识的过程中,应该充分考虑到这些特点,在教学方法上作出改进。有些内容的阐述方式也许对于本、专科院校或基础较好,学习能力强的学生来说显得有些累赘,但根据笔者自身的教学经验,这些略显累赘的阐述方法能在教学过程中解决很多在后续学习中才能显现的问题,并在学习过程中能起到增加学生信心的作用。本文主要针对单片机课程中涉及到的数据传输方式和数据帧格式这两个问题的阐述方法作出分析并提出新的阐述方案。

2 相关专业开设课程现状及学生相关知识体系现状

有些专业开设了通信方面的专业课,但往往晚于单片机课程,有些则根本没有相关的专业课程。现行的技工院校单片机教材,无论是采用传统教学方法还是模块式的教学方法,虽然在相应章节对这部分内容也有简单概念的说明,但有相对比较零散或是深度不够的问题,而单片机原理及接口技术课程中不可避免地要用到这些知识,尤其在接口技术这部分还需要学生对相关通信方面的知识有较为深入的理解。所以应该在单片机课程的教学中对这部分通信知识做系统地、有足够深度的讲解,以避免将问题积累在后续教学过程中,给教师和学生都造成不必要的困难,使得单片机这门本身比较难学的课程显得更加晦涩难懂,相当一部分学生正是由于本文提到的问题在学习单片机课程的中途选择放弃,给后续其他相关专业课的教学也带来了很大的困难。

3 分析由于基础知识不完善导致的问题

对于数据的传输方式,部分教材只有简单地分类说明,没有深入阐述,如果能有直观地图形辅助说明学生理解起来会更加容易。同时也缺乏相应的练习题,使得学生在读了一遍概念之后用起来仍然不太理解。

对于数据的帧格式,部分教材讲解过于简单,缺乏例子,学生理解起来普遍感到困难。后续的学习中,学生容易把单片机的串行口工作模式与数据帧格式混淆,以至于在学习串行口工作模式时用到帧格式的情况下甚至无法分清到底在学什么,这种情况下往往要回过头来对帧格式的概念重新进行讲解,再加以区分。这就给学生的学习造成了很大困扰,同时教师在反复强调二者区别时也浪费了很多教学时间,并且效果不佳。

所以,如果能在第一次接触到这些概念时就针对以后可能会出现的问题做一些有针对性的讲解和练习,就能在很大程度上避免这类问题的出现。

4 解决方案

基于以上分析,如果能在第一次接触到这些概念时就针对以后可能会出现的问题做一些有针对性的讲解和练习,就能在很大程度上避免这类问题的出现。所以,笔者对提到的两部分内容提出以下阐述方案。

4.1通信的概念及通信方式的分类

计算机与外界的信息交换称为通信。

通信按照通信方式分为并行通信和串行通信。并行通信是指数据的几个位同时发送或接收。串行通信是指数据的位按顺序逐位依次发送或接收。单片机与上位机或设备的通信方式普遍采用串行通信的方式。

例1:数据10110101B从A端发送到B端,若采用并行通信的方式,发送过程示意图如图1所示,八位数据同时从A端发往B端,B端同时接收这八位数据;若采用串行通信的方式,发送过程示意图如图2所示,八位数据按从低位到高位的顺序逐位依次从A端发往B端,B端也按从低到高的顺序逐位依次接收。

图1

图2

引导学生思考以下问题:

1)上例中完成数据传输,用并行通信方式与用串行通信相比哪种方式所用的时间多?

2)图1中要实现数据同时传送,需要几条线?图2中数据逐位传送,需要几条线?

基于技工院校学生的学习特点,对于基础概念的解释应尽可能地详细并浅显易懂,同时要有一定的深度。把并行通信和串行通信的概念用示意图表示,使得学生在学习的过程中对这两个概念有更形象、具体的理解,避免由于没有明确理解两个概念而无法理解单片机的通信方式。

在以上联系的基础上再对并行通信与串行通信进行比较,阐述方式如下:

1)并行通信的速度比串行通信的速度快;

2)并行通信的线路铺设费用高,需要铺设与同时传输的数据位的位数相等的连接线,适用于近距离数据传输。串行通信的线路铺设费用相对较低,只需一条发送数据的线和一条接受数据的线,也可以发送和接收共用一条连接线,适用于远距离数据传输;

3)并行通信线路的铺设相对复杂,系统可靠性相对较差,适合于近距离数据通信;串行通信线路的铺设相对简单,系统可靠性相对较高,适合于远距离数据通信;

串行通信又可分为同步通信和异步通信。异步通信从传输方式的角度又分为单工、半双工及双工。MCS—51系列单片机采用的是串行异步双工的通信方式。

4.2 数据的帧格式

对于单片机通信中的四种帧格式,大部分教材都有详细的描述,但普遍缺乏图示和例题。在此仅以其中的模式1为例提出新的阐述方案。

模式1

在串行通信模式1中,一帧数据共有10位,其中包括1位起始位(低电平信号),8位数据位和1位停止位(高电平信号),结构如图3所示:

图3

例2:假设有一组数据:10010011B要从A发往B,帧格式采用模式1,请将数据发送时一帧数据的具体内容填入下面的表格中:

对于模式0、模式2及模式3也采用相同的方法阐述。

5 新方案解决问题的效果

通信概念及分类方式的阐述方案中,针对技工院校学生的学习特点,对通信的概念和分类通过循序渐进、辅以图示的方式做了阐述。这话阐述方式的特点是针对技工院校部分专业学生在学习单片机课程之前并没有接触过通信相关课程的情况,在阐述通信的概念和分类时能辅以浅显易懂的例题,在实际教学过程中使得学生在学习这些概念时能及时清晰地理解概念的含义,避免了在后续的诸如单片机串口读写操作等涉及到其它较复杂概念的问题中还要一并解决阐述通信基本概念时遗留的问题,在一定程度上可以避免学生在学习串口操作时的才意识到之前的通信基本概念还没搞清,胡子眉毛一把抓,增加学习难度,给后续概念的学习造成困难。

数据帧格式的阐述方案中,由于引入示意图,使得学生对于单片机串行通信采用的帧格式中四种模式的理解更加直观。及时补充的相应例题也起到了引导学生在接受概念的同时主动思考的作用,加深学生的理解。另外,笔者在实际教学过程中发现,由于单片机的串行口工作模式也有四种,分别是模式0、模式1、模式2和模式3,四种模式的命名方式与数据帧格式的四种模式一模一样,使得部分学生在学习时对两组概念发生混淆。而对数据帧格式的阐述采用新方案后,也能在很大程度上起到避免两组概念混淆的作用。

参考文献:

[1]劳动和社会保障部教材办公室.单片机原理及接口技术[M].北京:中国劳动社会保障出版社,2004年

数据通信基本概念范文第12篇

Abstract: In order to enhance the rate of accuracy and coverage fraction in the information extraction process,it has introduced the domain main body in the information extraction retrieval system. This paper introduced some basic concepts about main body,domain main body and discussed some mapping relations between the domain main body and the information extraction and has realized the handset domain main body in this information extraction prototype system and has applied this domain main body in the information extraction.

关键词: 概念;本体;信息抽取;领域本体

Key words: concept;main body;information extraction;domain main body

中图分类号:TP391 文献标识码:A文章编号:1006-4311(2010)14-0158-02

0引言

最近几年来,为了使人们能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的内容,把本体广泛应用于各个信息领域中,同时已经成为目前信息科学研究的一个热点和难点,备受世界很多国家的重视。在信息检索和抽取[1]等领域中,本体发挥着越来越不可缺少的作用。信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。基于领域本体的信息抽取系统,可以实现让用户得到具有个性化的信息服务,同时通过领域本体为信息源提供相应的语义标注,这样可使系统对本领域内的概念以及概念之间的联系有统一高度的认识,从而在一定程度上提高信息服务的查准率和召回率,实现为用户更有针对的信息服务。

1领域本体与信息抽取

1.1 本体的基本概念本体论(ontology)是一个哲学上的概念,是指哲学中研究世界的本原或本性的部分。不少哲学家把本体论看作是西方传统哲学思想(从柏拉图到黑格尔)的主干或”第一哲学”。从本体论的基本概念出发,哲学上把本体论定义为”对世界上客观事物所进行的系统描述”。

1.2 领域本体的概念领域本体(Domain ontology)是用于描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述[2]。

1.3 领域本体[3]在信息抽取中的应用基于领域本体信息抽取是新型的信息抽取方式,它利用领域本体而不是扁平结构的辞典与词表来识别抽取信息,领域本体信息抽取可以在语义层而理解抽取信息,同时可以通过领域本体实例对抽取信息内容进行语义标注,从而提高了信息抽取的查准率和召回率。

1.4 信息抽取检索系统中领域本体的构建知识工程中的本体是人为设计的关于某个领域的概念模型的一种表示。目前己有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过程也是各不相同的。由于没有一个标准的本体构造方法,不少研究人员出于指导人们构造本体的目的,从实践出发,提出了不少有益于构造本体的标准。

2领域本体的构建

2.1 领域本体的设计原则通过分析总结,本体的设计原则可以概括如下[4]:①明确性和客观性:即本体应该用自然语言对所定义术语给出明确的、客观的语义定义。②完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。③一致性:即由术语得出的推论与术语本身含义是相容的,不会产生矛盾。④最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其己有的内容。⑤最小承诺:即对待建模对象给出尽可能少的约束。⑥最小编码偏差:本体的建立应尽可能独立于具体的编码语言。⑦使用多样的概念层次结构实现多继承机制。⑧尽可能使用标准化的术语名称。

2.2 领域本体的构建步骤在实际的构建过程中,根据问题领域和具体工程的不同,形成多种构建本体的方法。目前,知识工程界比较成型的建模方法主要有:如骨架法[5]、企业建模法[6]等。参照这些构建领域本体的方法,结合信息抽取中的具体情况,并参考软件工程中的某些思想,领域本体的构建步骤如下所示。

具体如下:①确定领域本体的范围:明确构建的本体将覆盖的专业领域、应将本体的目的、作用以及本体的用户范围。②列出领域中的重要术语:列举出本系统想要陈述的或要向用户解释的所有概念。③建立本体框架:这时需要按照一定的逻辑规则把它们进行分组,形成不同的工作领域,在同一工作领域的概念,其相关性应该比较强。④设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。⑤对领域本体编码、形式化。⑥领域本体的检验评价。

3信息抽取在手机领域本体的实现

根据以上关于领域本体的设计原则和实施步骤,本文在开发领域信息抽取原型系统时,主要使用手工和半手工的方式实现了手机领域本体,在系统的销售领域中起了很大作用。

3.1 手机领域本体的框架设计基于领域本体的web页面信息抽取主要是利用本身的描述信息进行抽取,因此对网页结构的依赖较少。采用这种方法进行信息抽取,预先需要领域专家采用手工方式书写某一应用领域的本体(其中包括对象的常值、关键字的描述信息)。根据领域本体的概念、概念属性以及属性之间的关系需要建立相应的关系数据库。然后根据本体中常值和关键字的描述信息产生抽取规则。对每个无结构的文本块进行抽取获得各语义项的值,最后将抽取出的目标信息放入根据领域本体的描述信息生成的数据库中。那么,下面对比较重要的数据表及其作用进行各个说明如下。

①实体概念数据表用于保存手机领域中可能相关的实体概念。刚刚建成时,可以通过人工查找、识别出领域实体的一些概念,并保存到数据库中。在此以后,可通过计算机辩别出领域实体概念,并把它追加到数据库中手工进行检验。②实体概念特征词数据表,该表存储每个实体概念在文本中又可能出现的近义形式或术语。例如实体概念“手机”而言,在文档中有可能变成为“大哥大”、“手提”、“mobile”、“mobilephone”。③属性概念数据表用于存储手机领域中可能存在的属性概念。该表主要用于保存属性概念中在真实文本中有可能出现的近义术语或形式。④属性值概念数据表用于保存领域中可能的属性值概念。该表主要用于保存每个属性值概念在文本中出现的术语或形式。⑤概念关系表主要描述手机领域的实体概念之间存在的种种关系。

3.2 领域本体中概念间关系的实现手机领域本体中概念间的关系的表示通过几个概念关系表和各数据表之间的关系来实现。该领域本体由多个数据表组成,它们不仅描述该领域的实体概念、属性概念、属性值和相对应的特征词,而且对实体概念之间的关系、实体概念、属性、属性值之间的关系进行描述。而实体概念关系表描述的是实体概念表中的两个实体概念之间的关系。实体概念、属性、属性值关系表描述的是实体概念、属性、属性值之间的相互关系,如表1所示。

3.3 手机领域本体的具体应用本文的信息抽取原型系统的命名实体识别、实体关系抽取和任务抽取3个抽取任务,对显示器领域本体都有大量的应用,主要集中在如下几方面。

①命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。在命名实体识别阶段,领域本体可以提供许多语义信息。利用这些语义信息对本体中的实例进行实体和关系的抽取有非常重要的意义。基于领域本体的抽取检索系统可以利用本体中的实例进行实体和关系的抽取,并不试图运用规则来发现新实例,不对知识库进行丰富,其目标是抽取的精准率和效率。②信息抽取系统基本上主要采用机器学习算法来实现抽取任务,其目标是最大程度地实现关系的抽取。它实现的关键是算法在关系识别任务中的正确率和效果,适合应用于精粒度的信息抽取。③信息抽取系统基本上都是基于模式匹配的,即首先从文本中学习出事件抽取模式,然后再用抽取模式去发现新的事件。而领域本体的语义信息能够用于抽取模式的获取过程事件抽取模式的自扩展过程,能够对已有的抽取模式进行语义扩展。④此外,在进行文本或某些网页的段落中的一些重要概念提取时,领域本体起了非常重要的作用。

参考文献:

[1]万捷,滕至阳.本体在基于内容信息检索中的应用[J].计算机工程,2003,29(4):122-123.

[2]张志刚.领域本体构建方法的研究与应用[D].大连:大连海事大学,2008.

[3]肖敏.领域本体的构建方法研究[J].情报杂志,2006(2):70-72.

[4]郭嘉琦.领域本体的构建及其在信息检索中的应用研究[D].北京:北京邮电大学,2007.

数据通信基本概念范文第13篇

〔关键词〕领域本体;知识整合;知识组织体系

DOI:10.3969/j.issn.1008-0821.2011.12.007

〔中图分类号〕G250.73 〔文献标识码〕A 〔文章编号〕1008-0821(2011)12-0027-03

Research on Knowledge Integration Based Domain OntologyXu Debin

(College of Science,Changchun University,Changchun 130022,China)

〔Abstract〕This article conducted the analytical study to the related theory and practical application of domain ontology and knowledge,and analysed the necessity and feasibility of ontology being introduced to knowledge integration.Simultaneously the author also constructed the model of knowledge integration based domain ontology,with having contribution by the time to the related domains fundamental research.

〔Key words〕domain ontology;knowledge integration;knowledge organization systems

信息时代正面临着一场资源环境的大变革:信息资源局部有序,整体无序的状况日趋严重,单一、孤立的微观信息组织呈现指数幂增加,这不仅没有解决用户准确获取所需信息的难题,反而使得信息整合的难度加大;同时,知识环境下用户对信息形式的获取正向着知识组织的方向发展,不再局限于一次或是二次信息资源,而是经过智能化处理的由知识元及知识元间相互的联系组成的信息知识体系。

在信息环境的大变革时期,微观有序而宏观庞杂的资源如何有效的整合,各异构系统中不同形式的信息如何合理转化、建立联系,如何提高用户获取信息体系的准确程度等都是知识整合研究所面临的紧迫课题。

1 知识整合概述

知识整合是整合实践发展的需要,从数据整合、信息整合到如今的知识整合这一渐进的发展脉络是基于整个社会信息需求的基调而展开的。在整个资源整合体系中,知识整合位于最高层,它在数据整合、信息整合的基础上,揭示资源知识结构中概念及概念间的关系。通过知识整合,可把信息社会中众多孤立的概念建立起有机的联系,形成便于大众获取、理解的知识网格,提高整个信息传输流的速率和效率[1]。

1.1 知识整合的组成

知识整合是一整套基于知识的组织,笔者从操作者得角度将其分为知识组织和知识检索两个方面。

所谓知识组织是对知识元及知识元间的有机联系进行组织与展示的机制;而知识检索系统则是按照一定方式将知识的整合结果清晰有序的在统一的界面展示,在知识组织的基础上,以技术合理呈现知识。知识整合的两个方面是相互联系的统一体,如图1。

1.2 知识整合的特点

通过对知识整合的研究与分析,笔者总结出知识的几个显著特点:

1.2.1 以知识组织体系为基础

知识组织体系是用以定义并组织知识的一套概念和符号的空间有序集合,它通常包括概念类聚体系和概念关联体系两个不可或缺的组织方式,而概念关联体系是其中最

图1 知识整合的两个组分

优的知识组织体系,是知识整合的精华之所在。只有通过该体系建立信息集合中的概念关系,才能实现真正意义上的知识整合[2]。

1.2.2 以知识展示为手段

知识网络是用以展示知识的最主要手段,网格可以将知识元组成的多维空间进行可视化描述,定位单独的知识元,揭示知识元间联系,可以说知识整合的一切成果都可以以知识网格的形式展示,这是知识整合的显著特征。

1.2.3 以知识检索为目的

在知识整合、知识关联的基础上构筑的概念语义智能化获取是知识检索实现的途径,它逆化了知识整合的流程,是知识整合所要达到的实用目标[3]。

基于领域本体的知识整合浅析2 领域本体的研究现状

“本体”一词来源于西方哲学理论体系,本体论是用来体现概念及概念间关系的系统,它是通过逻辑抽象而逐步建立起来的。哲学框架下本体的思想方法正符合信息时代下大众对知识的需求。于此,本体一词很快的被应用到信息科学与图书情报领域,并快速成为知识整合的基础理论及技术方法。

2.1 领域本体的特点及意义

国内外对于本体的概念、分类等基础理论的研究存在很多不同的观点,在总结、分析国内外众多理论的基础上,笔者认为领域本体在知识整合中将发挥着越来越重要的作用。

领域本体是对特定领域知识的抽象概括与规范描述。领域本体的两个基本特征是:①领域本体是描述某一特定学科或社会活动领域的概念、概念的属性和概念间关系及某些需要遵从规则的知识元;②领域本体具有较强的实际应用性[4]。

领域本体反应特定领域的知识结构,通过对领域概念精确的规划,不仅使信息系统的高度智能化变为可能,同时也不断疏正大众的本意;而领域本体中概念关系的形式化表述更利于web环境下本体的交换、共享和高效检索。从宏观上讲,领域本体概念体系的构建更符合信息大众准确、便捷的知识需求。

2.2 领域本体的研究领域

领域本体作为一种微观知识组织体系,其重要性日益被人们所重视。学者从不同角度出发,来研究领域本体在知识组织、知识检索中的作用、地位以及其构建方式。目前的研究主要集中在以下几个领域:领域本体与知识门户、本体与语义网、领域本体与异构数据库集成、领域本体与知识检索、领域本体与知识库。

领域本体是对具体学科领域知识的规范性描述,目前本体实践应用的焦点就集中在学科领域本体的构建上,而具体构建的基本流程与方法是该领域研究的热点。笔者相信,在各具体领域本体基础上构建的各项知识应用定会发挥更加关键的作用。

3 领域本体引入知识整合的必要性及可行性分析

知识整合是一项理论及技术要求都极高的知识体系构建手段,它的层次逻辑性很严密,如图2,是知识整合体系的基础框架,在多种数据源的基础上,抽取出元数据,对抽取、集成的数据源进行本体加工,利用科学分析等相关方法获取领域本体概念,依据描述领域知识的相关规范,构建领域本体概念模型,通过模型对信息集合进行语义分析与标注,形成语义关联的元数据集合,存入本体知识库中。

图2 知识整合体系的基础架构

可见,随着社会大众对信息获取程度的不断加深,简单的、大量的信息推送已不能满足其需求了,信息机构的工作应走在需求的前头,主动的将用户的信息需求凝练成知识,并将相关概念的关系直观的展现给用户。基于此,本体尤其是领域本体的构建就显得尤为重要,它是知识整合的坚实基础,也可以说知识整合建立在众多领域本体的基础上,没有领域本体,知识整合就只是泛泛的空谈。

目前,部分学科的领域本体已逐步构建起来,而且在此领域本体基础上的知识组织及检索系统也相应的建立起来,如“经济学科领域本体”及“经济学学科知识检索系统”等,该系统是以经济学领域本体资源整合思路为基础,实现经济学领域学科知识组织和知识检索方面的一次积极尝试。

综上,将领域本体引入知识整合的流程中不仅是必要的,而且是可行的。

4 基于领域本体的知识整合模型构建

将领域本体引入知识整合中,作为一个坚实的根基并在此基础上进行知识组织、知识检索活动。领域本体的建设已经初步开展起来,在现阶段应考虑的是如何合理有效的将各个学科领域的本体引入知识整合的活动中来,笔者认为模式的构建和规划是非常重要的,它既是对以往实际操作经验的总结,又是对未来知识活动的理性设计。

笔者在分析、研究相关理论成果及实践应用的基础上,将以领域本体为基础的活动分为理论整合层、应用拓展层和知识检索层,如图3。图3 基于领域本体的知识整合模型

4.1 理论整合层面的构建

理论整合层面主要涉及以领域本体为基础构建坚实的知识组织体系,并以此来描述特定领域的知识结构。在此层中,领域本体起着关键性的作用:

(1)以领域本体为描述工具来展现知识结构,知识是有结构的,知识是结构化的信息。结构化的信息是知识组织所要揭示与描述的对象。知识资源的结构化不是简单的线性或是等级式的,而是表面复杂实则清晰的空间网状式的。知识结构的网状表现形式就是要客观的体现各种关系的概念群,而知识组织就是在概念的基础上,将资料或文献中的这种概念群间的结构关系揭示出来。

(2)知识组织体系是知识整合的基础。所谓知识组织体系,是对内容概念及概念间的相互关系进行描述与组织的机制。这里的资源内容概念及其相互关系即是知识结构,而领域本体是先关知识结构性的基本描述,只有以领域本体作为知识组织的技术和方法,最终实现基于语义的知识检索。

(3)以领域本体构建的知识网络为表现形式,有什么样的组织方式就有什么样的显示方式,知识组织基于领域知识本体,通过对学科知识结构和概念关联的组织,形成客观有序的知识网格,以反映知识内容和概念的关联。

4.2 应用拓展层的构建

随着信息技术发展及专业知识的不断充实与更新,领域本体应在实践的发展中不断拓展自身的应用范围,同时自身内容的更新也是不可或缺的:

(1)领域本体的更新与概念群关联的建立,现代信息社会,知识的更新速度不断加快,知识库更应跟上不断发展的信息知识化进程,对于本体而言,它自然也要不断的更新来适应实际需要的发展,特别是对于应用性很强的领域本体,可以说,本体的进化就是该领域知识生命的延续,这就要求我们在领域本体的构建过程中,要不断的对概念、概念群关联及本体结构进行丰富与完善。

(2)本体与异构数据库集成,异构数据库集成是对异构数据源系统中的数据在物理上或是逻辑上有机地集中,提供统一的表示和查询的一种资源整合方式。但目前的异构数据库集成多表现为集成数据在数量上的变化,基本没有反映数据之间的有机关联。要想解决数据源的语义异构问题只能是引入领域本体[5]。

(3)本体与知识库,领域知识库是面向特定领域的知识集合,随着知识整合不断的深入,对知识的互操作性、共享性及可维护性等方面的要求越来越高,传统的数据库构建方法与人工智能技术已不能满足需要[6]。

(4)本体与知识门户,信息门户是集成与揭示某一领域的重要信息及其信息间有机关联的整合方式。由于信息门户采用的是以分类法、主题词表等信息组织体系组织资源对象,仅对细心实体间的关联进行整合,而并没有揭示信息实体内部的概念和语义,所以目前信息门户的发展趋势是在资源集成的上层构建一个本体层,以领域本体代替传统的组织方式,对资源集合进行知识整合,由信息门户向知识门户演化[7]。

(5)本体与语义网,语义网是信息时代技术发展的产物,它以一种机器可以理解的方式来传递人类知识,把人与人的信息交流模式转化成人与机器之间的传递方式,这样异构、分布网络信息的检索、访问问题就借助语义网解决了。语义网的构建需要将万维网中孤立的信息元发展成巨大的信息网络,这就需要领域本体的全方位构建与互联[8]。

4.3 基于领域本体的知识检索层面的构建

目前大多数检索工具是基于关键词的机械匹配进行的,这种检索方式割裂了字、词间的语义关联,难以满足知识准确获取的需求。于此,领域本体的引入不仅是必要的而且是迫切的,在领域本体语义互联的基础上根据查询请求和信息源进行语义分析,实现基于语义理解的知识检索正在成为学界的研究热点。

5 展 望

随着知识信息时代的逐步发展,各种知识整合的支撑技术日益成熟,以领域本体为基础,对微观有序而宏观庞杂的信息资源进行整合,对异构系统中的数字资源进行融合、重组,最终形成体系化的知识组织,以此来提高数字资源传播与利用的效率,这是知识整合发展的基本脉络;同时,随着对领域本体的展现与服务的研究,构建本体的可视化手段不断完善,笔者相信在不久的未来,领域本体定能以更加直观、形象的方式实现知识导航、知识构建和知识服务,从而推动整合知识社会的发展。

参考文献

[1]李广建.整合研究的几个理论问题[J].图书情报工作,2005,(10):6-10.

[2]李宁,送文.对于知识组织体系概念以及构建模式的一些思考[J].图书情报工作,2005,(10):37-40.

[3]马文峰.人文社会科学信息检索[M].北京:北京图书馆出版社,2004:160.

[4]杜小勇,马文峰.学科领域知识本体构建方法研究[J].图书情报工作,2003,(8):74-78.

[5]雷琼.基于本体的异构数据库集成研究[J].东北大学学报,2005,(6):13-15.

[6]王晓东.基于Ontology知识库系统建模与应用研究[J].华东师范大学学报,2003:1-2.

[7]祝忠明,吴新年,孙成权.资源环境学科信息门户的研究与建设[J].图书情报工作,2005,(7):65-68.

数据通信基本概念范文第14篇

关键字:大数据;数据挖掘;分类算法;概念漂移

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)09-0011-03

Design and Implementation of Flow Mining Algorithm and Resistance Concept Drift System Based on Storm Platform

LU Yuan-fu, PENG Tian-ci, Ji Kai-yang, TAN Hai-yu

(College of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210046, China)

Abstract:With the rise of cloud computing and Internet of things(LOT) technology,stream data widely exist in all fields as a new mega data form.This article propose a stream-classifying algorithm and system oriented to big data,which is based on DCP (Distributed Computing Platform).Parallelize windows and CVFDT algorithm are both adopted.We use a DCP to test whether the mutation concept drift happened in data stream,so as to change the inflow of modeling sample data adaptively.The accuracy and efficiency of stream data model will be improved at last.

Key words: big data; data mining; classifying algorithm; concept drift

1 背景

随着云计算、互联网+等技术的快速发展,生产制造控制、无线通信网络、电子商务交易、金融信息监控等领域形成了高速、海量、动态的数据流,而有效的对数据流进行处理并从中挖掘有价值的信息就显得尤为重要。

在流数据分类挖掘中,概念漂移是指流数据特性的改变使得目标分类模型随着时间的变化而变化。针对流数据挖掘过程中的概念漂移问题,Hulten等人提出了概念自适应快速决策(Concept-adaptingVeryFastDecisionTree,CVFDT)算法[1]。CVFDT 算法是一种扩展了VFDT算法用以解决概念漂移问题的高效算法,通过在原有的算法基础上改进添加滑动窗口使得建立决策树模型的数据流能够不断实现更新,从而保证在概念漂移的数据流中模型建立的准确率。

本文主要讨论研究了基于分布式实时计算系统STORM平台的去概念漂移算法及系统的设计与实现,在流挖掘过程中,利用分布式平台的特点采用并行化窗口方案来检测数据流中是否发生概念漂移,并行化窗口bin-win根据数据流中的概念漂移自适应调整窗口大小,从而自适应的改变建模样本数据的流入,提高了流数据的准确性和高效性。

2 算法分析与实现

2.1 CVFDT算法

2.1.1 CVFDT算法的原理

概念自适应快速决策树(CVFDT)[2]是一种扩展了VFDT算法用以解决概念漂移问题的高效算法,具有类似VFDT的HT树生成过程,在保持了VFD的速度和精度的前提下,能够处理样本产生过程中所出现的概念漂移问题[3]。CVFDT对样本维持一个滑动窗口,并能够动态改变窗口的大小。CVFDT算法过程包括CVFDTGrow过程、ForgetExample过程、RemoveExample过程和CheckSplitValidity过程。算法主要思想是先根据当前的数据构建临时决策树,然后并不断地获取新的数据去优化已建立的决策树。若在某个时候出现了概念漂移,则算法会在出现漂移的节点上建立一个新的替代子树。当替代子树的分类效果优于当前的决策子树时,就直接取而代之。

2.1.2 CVFDT算法抵抗概念漂移问题

概念漂移表示目标变量的统计特性随着时间的推移以不可预见的方式变化的现象[4]。在流数据分类挖掘中,也指流数据特性的改变使得目标分类模型随着时间的变化而变化。CVFDT周期性的扫描HT生成树的内部节点来检验原先的分裂节点是否依然是最优的分裂属性节点。当该节点发生了概念漂移,最优分裂属性节点已不再是原先的Xa。CVFDT算法会重新寻找最佳测试属性,新的属性不直接取代原有的测试属性,而是成为一个替代子树的根节点,并且依据该根节点建立替代子树。如果后继滑动窗口的样本在替代子树上有较高的分类精度,则替代子树便取代原先的决策树,以维持滑动窗口的样本和更新后的决策树的一致性。

2.2 基于STORM平台的CVFDT算法实现

2.2.1 CVFDT并行化窗口抵抗概念漂移算法设计

本小节讨论以STORM作为分布式实时计算平台,结合CVFDT流挖掘算法,解决数据流的概念漂移问题,从而提高模型建立的准确性。基于storm分布式平台的并行化窗口抵抗概念漂移方案,通过并行化窗口bin-win对数据流实时检测实现概念漂移抵抗[5-6],窗口调整流程图如图1所示。

从流程图中,可以看到并行化窗口根据数据流中的概念漂移自适应调整窗口大小,当窗口检测数据流未发生概念漂移时,则增大窗口中的样本量,反之,则减小并行化窗口的大小,有利于较快的适应概念漂移。

其中,检测是否发生概念漂移模块,通过对HT树中的非叶子节点的替代子树调用CheckSplitValidity函数,计算属性增益,从而判断是否发生概念漂移,流程图如图2 所示。

2.2.2 CVFDT算法实现与分析

在现实生活中,大部分数据都是非平稳分布的,数据流根据时间的推移不断发生变化,即发生了概念漂移[7]。CVFDT算法通过并行化窗口检测数据流是否发生概念漂移,窗口太大不能快速有效的抵抗数据流中的概念漂移,窗口太小影响模型建立的时间和模型一段时间内的稳定性,如图3所示在建立决策树模型时检测到概念漂移,则减小窗口的大小。当数据流稳定时,则增大窗口的大小,从而有效建立准确的决策树模型。

3 系统实现

3.1 系统总体架构

CVFDT算法在STORM平台上的实现方式有两种,一种是垂直并行化实现,一种是结合随机森林的实现,该抵抗概念漂移系统的设计主要基于垂直并行化的实现方式。系统包括三大模块:并行化窗口模块、抵抗概念漂移模块、决策树建立更新模块。系统整体框架如图4所示。

3.2 系统界面

抵抗概念漂移流分类挖掘系统参数设置界面如图5所示,用户输入训练样本、更新样本、测试样本以及样本所在文件的具体地址。点击确定之后传输相应参数,CVFDT算法执行结束之后,弹出该算法挖掘结果显示窗口,姐main如图6所示,结果展示界面输出当前决策树以及其评价结果,以及未分类样本的标记结果[8]。

4结束语

本文以分布式实时计算STORM平台,设计并实现CVFDT算法,解决在流数据挖掘过程中出现的概念漂移现象,保证了流数据分类挖掘模型的准确性和高效性。CVFDT算法对样本数据维持一个滑动窗口,在新样本到达的时候更新节点上的统计信息,并在样本滑出窗口的时候肩上其对应的统计信息。STORM平台保证算法能够提前预测数据流中的概念漂移,并实时更改窗口的大小,提高决策模型的准确性。

本文设计实现的算法与系统仅仅只是数据挖掘的一个方面,随着大数据时代的到来,数据流会越来越大,并且会不断变化,这就影响到了决策模型的建立与改善,因此,如何设计准确的算法和平台来彻底解决流数据的概念漂移仍然需要进一步的研究。

参考文献:

[1] Hulten G, Spencer L, and Domingos P. Mining time-changing data streams[C]//Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2001: 97-106.

[2] Ganti V, Johannes Gehrke, Raghu Ramakrishnan. Mining Data Streams under Block Evolution. [J].SIGKDD Explorations, 2002, 3(2).

[3]Street W N, Kim Y S. A streaming ensemble algorithm (SEA) for large-scale classification[C]//Proceedings of the seventh International Conference on Knowledge Discovery and Data Mining. San Francisco, USA, 2001: 377-382.

[4] Mitchell T M. Machine learning[M]. New York City: McGraw-Hill, 1997.

[5] 杨雅双. 关联规则的并行挖掘算法研究[D]. 西安:西安科技大学,2010.

[6] 唐耀红. 数据流环境中关联规则挖掘技术的研究[D]. 北京:北京交通大学,2012.

数据通信基本概念范文第15篇

关键词:物联网;多传感器;语义融合;本体

中图分类号:TP202

物联网是计算机科学发展的产物,渗透到各个领域,工业、医疗、军事、家庭等多领域,对各领域的各环节进行信息数据的自动化采集、处理、决策分析、预警等控制活动。负责信息数据采集的设备主要是传感器。传感器节点是信息采集、处理和传输的基础。每个传感器都是一个信息源,对于信息系统来说,数据是海量的,并呈指数级别增长,产生和存储这些数据的软硬件环境有很大的差别,因此采集到的数据内容和格式都不相同,使得数据的利用和共享成为难题,而处理这些数据需要面临的主要技术问题就是异构的数据源问题[1]。因此,设计高质量的传感器数据融合[2-4]方法,是多传感器数据的核心问题。

异构的数据源问题[5]包含四个级别:系统、结构、语法和语义。对于系统和结构上的异构问题,解决方案是使用XML语言消除异构,但是语义上的异构问题,使用本体是最有效的。本文的研究思路是:针对物联网中多传感器采集数据的格式不同问题,提出基于本体进行语义融合的方法,以达到多传感器数据有效利用、决策控制等目的。

1 本体(Ontology)

1.1 本体知识简介

在人工智能界,Neches等人将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。文献[6]指出:“本体包含有明确定义的词汇表,定义概念间关系,同一个本体的所有使用者都遵循这些定义规则。”因此本体能够在领域内部描述概念和概念间关系,而且具有确定的属性,促进人机交流。

1.2 混合本体

由于本体是可以共享的,首先查找现有本体资源,是否有可直接使用的本体。如果不能直接使用,那么利用混合本体方法[7],为每个传感器创建本体。常见的基于本体集成模型有单一本体法、多本体法、混合本体法。基于混合本体的信息集成方法,是消除数据结构上异构的有效方法。

1.3 本体开发工具

本文在选择本体创建和实例化的工具是protégé,版本4.1。Protégé也是目前开发人员在创建本体模型与本体化应用程序时使用的一款开源软件。

这款软件主要优点有:

(1)采用图形化界面,对类、属性、类间关系等的编辑非常容易。

(2)protégé软件结构有很好的扩展性。因此,其功能很强大,能够编辑本体,也能将本体信息存入数据库,并能够实现查询推理功能。

2 基于融合规则的语义数据融合方法

2.1 传统的数据融合算法

多传感器数据融合的过程是综合处理信息的过程,提取出多个传感器的数据信息,根据一定的规则重新组合,得到对被测对象的一致性测量结果,融合后的数据更加可靠、准确,是决策分析和预警的重要依据。多传感器数据融合,关键是信息形式更加复杂的异构数据源问题。数据融合的主要算法有:基于权系数的融合方法,基于参数估计的信息融合方法,基于D-S证据理论的融合方法,基于Kalman滤波的融合方法,基于模糊神经网络的融合方法,基于粗糙集理论的融合方法,聚类分析法等多种方法。每种融合算法的依据理论不同,其优劣势也不同,D.S证据推理和表决法的理论还不够成熟,神经网络和模糊逻辑应用难度较高。

2.2 语义数据融合的核心问题描述

语义数据融合方法[8-10],利用本体在领域内进行概念级建模,促进资源描述、信息共享和整合,有效消除海量异构设备产生的异构数据源问题。本体是针对语义内容,实现语义标注、语义检索等概念匹配的统一数据集。本文使用本体描述领域内多传感器资源,确定资源中概念的定义,消除二义性,便于计算机理解。

语义数据融合的核心问题有:

2.2.1 异构数据间语义冲突。语义冲突的结构包含模式层和数据层的冲突。模式层冲突是不同数据源中对相同概念采用不同逻辑结构造成的冲突。数据层冲突是对相同概念的表示不同造成的冲突。每种型号的传感器产生的数据内容和格式都有区别,数据的精度也不同,这对数据融合造成一定的难度。事实证明,传统的数据融合方法并没有很好地解决这个问题。

2.2.2 融合后的数据可靠性差。融合后的数据依然存在语义冲突和冗余。不能有效地用于决策分析、决策处理等。

2.3 基于混合本体的语义数据融合方法

本文中混合本体的作用主要表现在两方面:

2.3.1 从全局角度规范化领域内多传感器资源的概念和术语,各传感器本体中的概念参照全局本体,从而使概念具有一致性,有效解决语义冲突问题,为领域内和领域间的实际应用起到共享本体作用。

2.3.2 通过混合本体的分析、处理,既理清了多传感器领域知识的结构,又提高数据的可靠性,分析并提取出不安全数据,从而为后续决策分析、处理和事故预警等问题打好基础。而且多传感器本体可以重用,从而避免重复的多传感器领域知识分析。

本文利用混合本体为每个传感器创建本体,结合一定的算法,将提出一种基于异构多传感器数据的语义数据融合的方法。基于混合本体的数据融合方法不仅从数据的整体层面,也从局部角度处理数据,使处理后的数据更加可靠。具体步骤如下:

(1)收集多传感器数据到网关。收集多传感器数据到网关,本质上是从串口读取、收集、发送数据到网关的过程。通过各传感器收集环境感知的数据,将数据精度处理并保持一致。这部分知识是数据融合过程中已经具备的前提,不多做阐述。

(2)描述异构多传感器数据资源。分析多传感器数据,结合本体知识,描述多传感器资源的本体概念,描述概念属性,和概念间关系。本文涉及的传感器有Arduino传感器和物联网实验室的传感器试验箱,这两种传感器采集到的数据内容和格式都不相同。以温度传感器为例,Arduino传感器采集到的数据是数值,而教学用的传感器试验箱中温度传感器采集到的数据有时间和温度值。传感器资源的描述如下,以温度传感器为例,有传感器数据,温度传感器,采集时间(包含月、日、时、分、秒),采集区域,传感器数值属性。

(3)创建多传感器的混合本体数据模型及其实例化。以混合本体为基础与传感器本体模型相结合,构建基于混合本体的多传感器数据模型。全局本体描述的是传感器的概念集合,局部本体描述的是各传感器数据库中的概念及其具体内容,局部本体中的概念与全局本体中相应的概念之间存在映射关系。传感器本体创建的步骤是:

1)抽取领域词汇。研究领域知识、学习领域资料,定义领域本体的关键概念词汇,以及概念间关系。定义类之间的继承关系,以及概念的属性关系。抽取领域内的核心词汇,需要结合领域和应用实际反复推敲,确定概念间的层次关系,以备用。

2)确定类属性及其属性值的取值范围和类型。根据领域本体词汇,定义本体概念的属性,确定属性取值类型和取值范围。

3)创建类的实例。定义本体资源属性取值后,需要创建本体实例。分析并选择一个类,确定属性的取值。最后确定本体概念、类以及类间关系的一致性,重复检测正确性。

(4)基于混合本体的数据融合算法。传感器类型、采集时间和采集区域属性能够唯一标识传感器,称为传感器的关键属性。基于混合本体的数据融合算法:首先比较传感器的类型属性。如果相等,则继续比较传感器的区域属性。如果不等,则直接向网关输出。再比较传感器区域属性,如果不相同,则根据传感器类型属性进行数据合并后,直接输出,如果相同,则说明是等价实例。继续比较采集时间,采集时间若相同,则需要根据融合规则,进行数据融合。如果采集时间不同,说明采集时间稍早的数据是过时冗余的数据,做删除处理。

(5)基于融合规则输出结果到网关。融合规则包含:

1)平均原则:将多个相同类型传感器的数据进行取均值运算,最终返回均值。

2)加权平均原则:将多个相同类型传感器的数据进行加权均值运算,并返回结果。

3)统计原则:统计数据,将出现频率高的值作为返回结果。

4)最值原则:取数据中的最大值或是最小值作为返回结果。

5)随机原则:在多个相同类型传感器的数据中随机取一个数值作为结果返回。

本文建议:如果有敏感数据产生,即不安全数据,那么基于统计原则必须输出不安全的数据信息,如果采集到的数据在安全范围内,那么以上融合规则都可以使用。

3 结束语

本文基于混合本体提出的语义数据融合方法,基本达到研究的预期目标。基于本体的语义数据融合方法,解决了语义冲突问题,使融合的数据更加可靠。语义数据融合,为自动化分析、处理多传感器数据打下基础,后续研究可以结合jena推理机,书写推理规则,对融合后的传感器数据进行推理,特别是对环境安全的决策分析、控制和预警活动有重要意义。

语义技术应用于物联网领域的数据融合研究,已经具备一定的理论基础。本文提出基于语义的数据融合方法,促进语义在物联网中的应用。

参考文献:

[1]朱敏.基于物联网的异构数据融合算法的研究[J].计算机光盘软件与应用,2014(08).

[2]严凤斌,高起蛟,杨彭远.基于混合本体的异构数据集成方法研究[J].信息技术,2010(12).

[3]姜延吉.多传感器数据融合关键技术研究[D].哈尔滨工程大学,2010(04).

[4]王欣.多传感器数据融合问题的研究[D].吉林大学,2006(04).

[5]张军艳,罗军,赵应秋.基于本体的语义异构数据集成方法研究[J].信息技术,2012(08).

[6]赵健.基于领域本体的RDF检索模型研究[D].吉林大学,2009(04).

[7]严凤斌,高起蛟,杨彭远.基于混合本体的异构数据集成方法研究[J].计算机应用,2010(12).

[8]房立芳.基于本体的异构数据集成与融合方法研究[D].中国科学技术大学,2010(05).

[9]李程贵.一种基于语义融合的智能家居系统的研究与实现[D].吉林大学,2012(06).

[10]刘波,齐德昱,林伟伟.基于本体的语义数据融合方法[J].华南理工大学学报(自然科学版),2009(01).

[11]黄漫国,樊尚春,郑德智.多传感器数据融合技术研究进展[J].传感器与微系统,2010(03).

作者简介:孙丽丽(1981-),女,吉林德惠人,物联网与网络工程教研室,研究方向:物联网。