美章网 精品范文 量子计算概念范文

量子计算概念范文

量子计算概念

量子计算概念范文第1篇

1.深化和活化化学知识

化学是一门以实验为基础的在原子、分子水平上研究物质的组成、结构、性质及其应用的自然学科,化学学科的发展离不开实验数据的支持,定量研究的方法是化学发展为独立学科的重要标志,同样化学学科的学习离不开化学计算。在课程改革以提高学生的科学素养为宗旨的背景下,培养学生能力颇受人们关注,其中化学计算能力的培养也成为热点话题。

2.有利于化学思想和方法的培养

化学计算是从量的角度使学生加深对化学概念和原理的理解,进一步掌握物质的性质及其变化规律,培养学生分析问题及运用化学知识进行有关量的计算的能力。

二、高中生化学计算能力现状分析

根据我校情况,经过高中学习,他们已经掌握高中阶段与化学计算相关的相应知识,并且经过一定练习具备了解决化学计算类问题的策略和方法。本次发出问卷50份,剔除无效问卷7份,因此有效被试人数为43人。问卷以“化学计算专项练习”的形式发放给学生,对研究对象强调测试要求,开始测验,时间约为30分钟。问卷回收后,剔除无效问卷,对问卷逐一进行评析,对问卷数据进行系统分析。统计结果分析完后,选取部分典型个案进行访谈。

结果与分析:当前高中化学教学所达到的能力目标离要求相差甚远,主要有以下问题:

1.意志力和品质

学生缺少刻苦钻研的精神,表现为学生依赖老师解决问题的思想太重,遇到困难不能独立思考。

2.自学阅读能力

学生对化学问题呈现的化学情景分析不清,不能通过审题抓住隐含条件,特别是信息量较多、文字较多的题目,经常需要老师提示性地读完题目后,才能找到解题思路。

3.思想方法

不能灵活应用各种科学的化学思想和化学方法解决化学实际问题,如,守恒法、控制变量法、量差法等,这样很难做到真正理解和掌握化学知识,达到理解和应用的目的。

当然还有知识结构缺乏、提问交流不主动、情感态度不端正、参与意识薄弱等因素都制约着学生的计算能力。

三、研究的意义和价值

化学计算能考查化学知识的掌握程度和应用情况,它能把化学基本概念、原理,物质的性质及变化规律有机地结合起来,解决化学计算类问题体现出学生是否真正地理解相应的化学知识。计算的过程中能够加深对化学核心概念和基本原理的理解,有利于学生概括形成化学基本观念。其次,化学计算传递的是一种定量研究的思想,体现知识循序渐进的习得过程,定量研究是化学学科发展的必然趋势。定性研究是定量研究的前提基础,定量研究是定性研究的进一步深化。通过具体的数据来揭示抽象物质变化的规律,才能从根本上理解化学变化,促进化学学科的形成和发展。学生的化学学习同样经历了从定性地认识化学概念到定量地理解化学原理的过程。最后,化学计算能力是集知识、技能、素质于一体的综合能力,化学计算能力的发展同样有利于提高学生的思维能力、自学能力、推理能力及观察能力。

四、化学计算能力培养的教学建议

量子计算概念范文第2篇

一、注重化学概念的教学,加强化学用语的训练,为化学计算夯实基础。

涉及初中化学计算的一些重要化学概念,首先在形成它们时尽可能通过实验或其它具体事物分析、概括导出,其次注重概念同化,进行新旧概念对比,弄清相近概念间的本质区别与内存联系,然后加强运用概念的训练,加深对基本概念的理解,提高运用基本概念的能力,最后还要加强与基本概念相关的化学用语的训练,掌握化学学科独特的学习语言。

实践证明,当学生理解了化学式、相对原子质量、相对分子质量等基本概念,化学式含义及化学式前系数的含义等内容后,有关化学式的基本计算就可以说是“轻而易举”了;当学生理解了质量守恒定律、化学方程式能够表示反应物及生成物各物质间质量比的含义等内容后,学生基本都能够进行化学方程式的简单计算了;当学生理解了溶液、溶液的组成(溶质、溶剂)、溶质的质量分数等基本概念后,溶质质量分数的计算也就不再难倒学生了。

二、初中化学计算是化学“量”的思想与数学计算方法的结合,化学计算的关键是化学“量”的思想。

各种计算类型在教材上都出示了相应的例题,它们以清晰解题步骤阐述了运用化学概念进行化学计算的思想,以简明的解题格式规范正确运用化学概念进行化学计算,表述逻辑思维过程的方式。故而要特别注重发挥教材上例题的作用。如何发挥例题的作用呢?从接受式和探究式两种学习方法来讲形成两种策略,即传授性和探究性两种教学策略。

量子计算概念范文第3篇

一、注重化学概念的教学,加强化学用语的训练,为化学计算夯实基础。

涉及初中化学计算的一些重要化学概念,首先在形成它们时尽可能通过实验或其它具体事物分析、概括导出,其次注重概念同化,进行新旧概念对比,弄清相近概念间的本质区别与内存联系,然后加强运用概念的训练,加深对基本概念的理解,提高运用基本概念的能力,最后还要加强与基本概念相关的化学用语的训练,掌握化学学科独特的学习语言。

实践证明,当学生理解了化学式、相对原子质量、相对分子质量等基本概念,化学式含义及化学式前系数的含义等内容后,有关化学式的基本计算就可以说是“轻而易举”了;当学生理解了质量守恒定律、化学方程式能够表示反应物及生成物各物质间质量比的含义等内容后,学生基本都能够进行化学方程式的简单计算了;当学生理解了溶液、溶液的组成(溶质、溶剂)、溶质的质量分数等基本概念后,溶质质量分数的计算也就不再难倒学生了。

二、初中化学计算是化学“量”的思想与数学计算方法的结合,化学计算的关键是化学“量”的思想。

各种计算类型在教材上都出示了相应的例题,它们以清晰解题步骤阐述了运用化学概念进行化学计算的思想,以简明的解题格式规范正确运用化学概念进行化学计算,表述逻辑思维过程的方式。故而要特别注重发挥教材上例题的作用。如何发挥例题的作用呢?从接受式和探究式两种学习方法来讲形成两种策略,即传授性和探究性两种教学策略。

量子计算概念范文第4篇

关键词:本体;本体检索;语义相似度计算

1 引言

随着internet的日益发展和普及,本体在信息采集、信息检索及本体集成等方面的应用越来越广泛。2002年12月18日berners-lee在国际xml2000的会议提出semantic web(语义网)的构想[1]。在semantic web中,语义相似度算法是实现基于本体的检索、采集等的关键问题。因此语义相似度算法的好坏成为信息检索效率高低的重点,于是改良语义相似度算法是一个迫切的问题。

关于语义的相关性,国内外专家已经做了大量的工作:resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度。agirre等在利用wordnet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到概念层次树的深度、概念层次树的区域密度。鲁松研究了如何利用词语的相关性来计算词语的相似度。li sujian等提出了一种词语语义相似度的计算方法,计算过程综合利用了《知网》和《同义词词林》。朱礼军等引入了计算语言学中的语义距离思想来计算领域本体中概念间的相似度。

本文总结前人的经验,并将概念的数据类型考虑其中,这样概念的语义相似度就更加精确。

2 本体与领域本体

本体(ontology)作为一种能在语义和知识层次上描述信息的概念模型,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和web上异构信息的处理、语义web等。

2.1 本体的概念

目前对本体的定义有很多,专家们认为由studer等人在1998年提出的“本体是共享概念模型的明确的形式化规范说明。[3]”最为精确。它包含4层含义:概念化(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。

(1)概念化:指通过抽象得出客观世界中一些现象(phenomenon)的概念模型。

(2)明确:指所使用的概念及使用这些概念的约束都有明确的定义。

(3)形式化:指本体是计算机可读的(即能被计算机处理)。

(4)共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。

2.2 本体的分类

guarino[5]在1997年对本体依照领域依赖程度,分为顶级(top-level)、领域(domain)、任务(task)和应用(application) ontologies共4类。其中:

(1)顶级ontologies描述的是最普通的概念及概念之间的关系,与具体的应用无关,其他种类的ontologies都是该类ontologies的特例。

(2)领域ontologies描述的是特定领域中的概念及概念之间的关系。

(3)任务ontologies描述的是特定任务或行为中的概念及概念之间的关系。

(4)应用ontologies描述的是依赖于特定领域和任务概念及概念之间的关系。

本文主要就是基于领域ontology来设计与研究语义相似度计算方法。

3 语义相似度计算

语义相似度是判断几个概念之间的语义的相似程度。在信息检索中,它反映的是用户查询关键词的意义上的符合程度。

3.1 语义相似度计算原则

语义相似度的计算原则是为了本体内部概念间相似度计算更加准确而提出的[2],其内容如下:

(1)量化原则:相似度是一个数值,取值范围应该在[0,1]之间[3],如果两个概念完全相同,那么他们的相似度为1,完全不同,相似度为0。

(2)简单性原则:计算相似度的同时应该考虑计算复杂度[4],复杂度应该尽量降低。

(3)充分利用本体的特性。

(4)可调节性:可调节性是指相似度的计算结果可通过某些参数来调节,词语相似度是一个主观性比较强的概念,可调节性可以满足不同的需求,适应不同的情况[2]。

(5)类型性:在计算概念相似度的时候,也应该将概念的数据类型考虑其中,这样能提高概念相似度的精度。

(6)对称性:sim(c1,c2)= sim(c2,c1),对称性有利于概念相似度之间的对比与换算。

3.2 相似度计算方法

本文建立了一个简单的医疗系统的本体,如图1所示。class:表示的是类,subclassof:表示的是本体中最主要的关系,即概念之间子类的关系,也就是继承关系。例如:c0是c1,c2的父类,而c1与c2则是c0的子类。

利于owl语言构建此本体的代码片段,如下:

xmlns:rdf="/1999/02/22-rdf-syntax-ns#"

xmlns:xsd="/2001/xmlschema#"

xmlns:rdfs="/2000/01/rdf-schema#"

xmlns:owl="/2002/07/owl#"

xmlns="/ontology1243997987.owl#"

xml:base="/ontology1243997987.owl">

……

……

(1)语义距离:是两个概念在本体树中的最短距离,记作distant(a,b)。①语义距离越大,其语义相似度越低。反之越大。②两个概念的父节点是同一个,那么distance=1/n(n表示与该节点有共同父节点的子节点的个数)③同一概念的语义距离为0。例如:图1中所示的distance(c5,c5)=0,distance(c7,c8)=0.5。

(2)datatype(数据类型属性)的相似度:是两个概念的数据类型的比较得出来的一个参数值,记作simdt(a,b)。如果两个概念的数据类型相同,则simdt(a,b)=1。如果不同,则simdt(a,b)=0。

(3)objectproperty(对象类型属性)的相似度[5]:是类与类之间的关系,记做simobject(a,b)。和分别表示概念和的对象类型属性的个数。 的对象类型属性所对应的概念为,的对象类型属性所对应的概念为,则概念的对象属性的语义相似度为:

(4)本体概念的深度:是概念在本体树中的层数,记作depth(a)。

(5)调节因子:是为了满足系统的特定需要而设定的特定参数。由于词语相似度是一个主观性比较强的概念,所以必须使用调节因数来具体情况具体分析。它通过对本体树的广度与深度的控制来调节特定的语义的相似度。本文用k来表示调节因数。

综合得出语义相似度算法的公式:

式中sim(c1,c2)表示概念c1、c2的语义相似度,distance(c1,c2)表示概念c1、c2的语义距离,simdt(c1,c2)表示概念c1、c2的数据类型的相似度,simobject(c1,c2)表示概念c1、c2的对象类型的相似度,k表示调节因子,depth(c1)表示c1的的深度(即本体树中的层数),分别是数据类型属性和对象类型属性在属性相似度中的权值,,且。

3.3实验结果

根据本文得出的语义相似度算法,即上述公式计算出表1所示的本体树的语义相似度。

3.4 基于本体语义相似度的应用

begin;

input:查询表达式 q={w1,w 2,……,wn} and 语义相似度的临界值k;

result = null,i=0;

while(q[i]的语义相似度>=k){

result[i]=q[i]+相关概念集;

i++;

}

return result;

end;

4 结束语

人与机器之间的有语义的交流近年来成为了人们研究的焦点与瓶颈。本体由于其共享性和明确性以人与机器的语义交流的基础进入了人们的视野。本文通过建立本体树,利用其层次之间的关系来设计概念的语义相似度算法。同时将概念的数据类型与对象类型也考虑其中,这大大提高了概念的语义相似度算法的精度。但是由于本文只考虑了基于单个本体的相似度算法,不能满足多个领域本体间概念的相似度算法。在以后的研究中,会将此算法扩展到多个领域来设计,以便大幅度提高概念的语义相似度的精度,进而优化基于本体的信息检索及信息采集。

参考文献

[1]berners-lee t,hendler j,lassila o.the semantic web[j].scientific american, 2001,284(5):34-43.

[2]李鹏,陶兰.一个改进的本体语义相似度计算及其应用[j].计算机工程与设计,2007,28(1):226-228.

[3] 刘建,李素建.基于《知网》的词汇语义似度计算[j].中文计算机语言学, 2002,7(2):59-76.

[4] andreasen

量子计算概念范文第5篇

关键词:本体;本体检索;语义相似度计算

1 引言

随着internet的日益发展和普及,本体在信息采集、信息检索及本体集成等方面的应用越来越广泛。2002年12月18日berners-lee在国际xml2000的会议提出semantic web(语义网)的构想[1]。在semantic web中,语义相似度算法是实现基于本体的检索、采集等的关键问题。因此语义相似度算法的好坏成为信息检索效率高低的重点,于是改良语义相似度算法是一个迫切的问题。

关于语义的相关性,国内外专家已经做了大量的工作:resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度。agirre等在利用wordnet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到概念层次树的深度、概念层次树的区域密度。鲁松研究了如何利用词语的相关性来计算词语的相似度。li sujian等提出了一种词语语义相似度的计算方法,计算过程综合利用了《知网》和《同义词词林》。朱礼军等引入了计算语言学中的语义距离思想来计算领域本体中概念间的相似度。

本文总结前人的经验,并将概念的数据类型考虑其中,这样概念的语义相似度就更加精确。

2 本体与领域本体

本体(ontology)作为一种能在语义和知识层次上描述信息的概念模型,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和web上异构信息的处理、语义web等。

2.1 本体的概念

目前对本体的定义有很多,专家们认为由studer等人在1998年提出的“本体是共享概念模型的明确的形式化规范说明。[3]”最为精确。它包含4层含义:概念化(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。

(1)概念化:指通过抽象得出客观世界中一些现象(phenomenon)的概念模型。

(2)明确:指所使用的概念及使用这些概念的约束都有明确的定义。

(3)形式化:指本体是计算机可读的(即能被计算机处理)。

(4)共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。

2.2 本体的分类

guarino[5]在1997年对本体依照领域依赖程度,分为顶级(top-level)、领域(domain)、任务(task)和应用(application) ontologies共4类。其中:

(1)顶级ontologies描述的是最普通的概念及概念之间的关系,与具体的应用无关,其他种类的ontologies都是该类ontologies的特例。

(2)领域ontologies描述的是特定领域中的概念及概念之间的关系。

(3)任务ontologies描述的是特定任务或行为中的概念及概念之间的关系。

(4)应用ontologies描述的是依赖于特定领域和任务概念及概念之间的关系。

本文主要就是基于领域ontology来设计与研究语义相似度计算方法。

3 语义相似度计算

语义相似度是判断几个概念之间的语义的相似程度。在信息检索中,它反映的是用户查询关键词的意义上的符合程度。

3.1 语义相似度计算原则

语义相似度的计算原则是为了本体内部概念间相似度计算更加准确而提出的[2],其内容如下:

(1)量化原则:相似度是一个数值,取值范围应该在[0,1]之间[3],如果两个概念完全相同,那么他们的相似度为1,完全不同,相似度为0。

(2)简单性原则:计算相似度的同时应该考虑计算复杂度[4],复杂度应该尽量降低。

(3)充分利用本体的特性。

(4)可调节性:可调节性是指相似度的计算结果可通过某些参数来调节,词语相似度是一个主观性比较强的概念,可调节性可以满足不同的需求,适应不同的情况[2]。

(5)类型性:在计算概念相似度的时候,也应该将概念的数据类型考虑其中,这样能提高概念相似度的精度。

(6)对称性:sim(c1,c2)= sim(c2,c1),对称性有利于概念相似度之间的对比与换算。

3.2 相似度计算方法

本文建立了一个简单的医疗系统的本体,如图1所示。class:表示的是类,subclassof:表示的是本体中最主要的关系,即概念之间子类的关系,也就是继承关系。例如:c0是c1,c2的父类,而c1与c2则是c0的子类。

利于owl语言构建此本体的代码片段,如下:

xmlns:rdf="/1999/02/22-rdf-syntax-ns#"

xmlns:xsd="/2001/xmlschema#"

xmlns:rdfs="/2000/01/rdf-schema#"

xmlns:owl="/2002/07/owl#"

xmlns="/ontology1243997987.owl#"

xml:base="/ontology1243997987.owl">

……

……

(1)语义距离:是两个概念在本体树中的最短距离,记作distant(a,b)。①语义距离越大,其语义相似度越低。反之越大。②两个概念的父节点是同一个,那么distance=1/n(n表示与该节点有共同父节点的子节点的个数)③同一概念的语义距离为0。例如:图1中所示的distance(c5,c5)=0,distance(c7,c8)=0.5。

(2)datatype(数据类型属性)的相似度:是两个概念的数据类型的比较得出来的一个参数值,记作simdt(a,b)。如果两个概念的数据类型相同,则simdt(a,b)=1。如果不同,则simdt(a,b)=0。

(3)objectproperty(对象类型属性)的相似度[5]:是类与类之间的关系,记做simobject(a,b)。和分别表示概念和的对象类型属性的个数。 的对象类型属性所对应的概念为,的对象类型属性所对应的概念为,则概念的对象属性的语义相似度为:

(4)本体概念的深度:是概念在本体树中的层数,记作depth(a)。

(5)调节因子:是为了满足系统的特定需要而设定的特定参数。由于词语相似度是一个主观性比较强的概念,所以必须使用调节因数来具体情况具体分析。它通过对本体树的广度与深度的控制来调节特定的语义的相似度。本文用k来表示调节因数。

综合得出语义相似度算法的公式:

式中sim(c1,c2)表示概念c1、c2的语义相似度,distance(c1,c2)表示概念c1、c2的语义距离,simdt(c1,c2)表示概念c1、c2的数据类型的相似度,simobject(c1,c2)表示概念c1、c2的对象类型的相似度,k表示调节因子,depth(c1)表示c1的的深度(即本体树中的层数),分别是数据类型属性和对象类型属性在属性相似度中的权值,,且。

3.3实验结果

根据本文得出的语义相似度算法,即上述公式计算出表1所示的本体树的语义相似度。

3.4 基于本体语义相似度的应用

begin;

input:查询表达式 q={w1,w 2,……,wn} and 语义相似度的临界值k;

result = null,i=0;

while(q[i]的语义相似度>=k){

result[i]=q[i]+相关概念集;

i++;

}

return result;

end;

4 结束语

人与机器之间的有语义的交流近年来成为了人们研究的焦点与瓶颈。本体由于其共享性和明确性以人与机器的语义交流的基础进入了人们的视野。本文通过建立本体树,利用其层次之间的关系来设计概念的语义相似度算法。同时将概念的数据类型与对象类型也考虑其中,这大大提高了概念的语义相似度算法的精度。但是由于本文只考虑了基于单个本体的相似度算法,不能满足多个领域本体间概念的相似度算法。在以后的研究中,会将此算法扩展到多个领域来设计,以便大幅度提高概念的语义相似度的精度,进而优化基于本体的信息检索及信息采集。

参考文献

[1]berners-lee t,hendler j,lassila o.the semantic web[j].scientific american, 2001,284(5):34-43.

[2],陶兰.一个改进的本体语义相似度计算及其应用[j].计算机工程与设计,2007,28(1):226-228.

[3] 刘建,李素建.基于《知网》的词汇语义似度计算[j].中文计算机语言学, 2002,7(2):59-76.

[4] andreasen

量子计算概念范文第6篇

[关键词]学案导学;概念教学

化学概念原理是高中化学新课程的重要组成部分。要从教材、教学大纲、新课标等多个角度深入思考,教师才能对高中化学概念原理教学有着更深的认识。本文以人民教育出版社出版的实验教科书化学必修1第一章第二节《化学计量在实验中的应用》为例谈谈我的认识。

首先,新教材更注重概念的形成过程。

新课程中是让老师给学生一些素材、实验或是经验,让学生根据这些来归纳、综合、抽象,然后总结出概念,注重概念的形成过程,让学生慢慢体会着学习。要在概念原理的形成过程中培养学生的认知发展,教给学生学习方法。例如在摩尔质量的教学中我设计的导学案如下:

导学案 第2课时 物质的量的单位――摩尔(二)

[学习目标]

1.掌握摩尔质量的概念,了解摩尔质量与相对原子质量的区别和联系

2.能熟练运用摩尔质量的概念,并能进行有关摩尔质量的计算

3.掌握物质的量、物质的微粒数、物质的质量、摩尔质量的关系

[学习重点]物质的量、物质的微粒数、物质的质量、摩尔质量的关系

[学习・探究区]

填写下面的表格,看是否可以从这些数据中得出有用的结论。

高中化学必修课程概念原理教学具有主题覆盖面较广、教学要求较浅、与选修模块构成螺旋上升的特点。化学1与化学2强调全面性和基础性,所以它在这里面安排较多的内容目的是为学生学习后面的内容奠定一个比较坚实、全面的基础。对于高一学生而言,通过复习加深初中化学的基本概念和基本理论,使学生的初高中知识实现平稳的过渡,也让学生的知识发展有了一个连续性。

物质的量、摩尔质量、阿伏伽德罗常数均是中学化学中十分重要的基本概念,在生产和科学研究中有重要的应用。物质的量是中学化学计算的中心,本节对于培养学生的化学计算技能和构成中学化学计算体系,有着不可忽视的启蒙作用。所以,关于物质的量的教学,不仅是本章的重点,也是整个高中化学教学的重点之一。摩尔质量与相对原子(或分子)质量的联系可以借助初中学习的相对原子质量的概念推理出来,只有做好初高中知识的衔接,才能适应学生认知发展规律。这部分内容概念多且较抽象,理论性强,教学难度较大,计算多,实用性强,能力要求高。限于高一学生的接受能力,很难对这部分内容理解透彻。因此在教学中,我采取以下教学策略:

1、学案导学、 引入概念

2、小组研讨、分析概念

3、讲练结合、完善概念

4、迁移应用、 提升概念

量子计算概念范文第7篇

关键词:美国教材;核心概念;物质的量;建构

文章编号:1008-0546(2014)01-0015-02 中图分类号:G633.8 文献标识码:B

doi:10.3969/j.issn.1008-0546.2014.01.005

《普通高中化学课程标准(实验)》对“物质的量”的教学要求是:从引入物质的量的必要性入手,认识摩尔是物质的量的基本单位,能用于进行简单的化学计算,体会定量研究的方法对研究和学习的重要作用。

由于摩尔、物质的量、微粒、阿伏加德罗常数等名词的同时出现,且彼此间联系紧密,造成了学生的认知困难。帮助学生建构完整的物质的量概念系统,有利于学生运用宏观和微观相结合的思维方法思考问题,使化学更贴近生活实际,对整个中学阶段的化学学习都将起着非常重要的作用。

如何帮助学生有效建构“物质的量”的概念,美国高中主流理科教材《化学:概念与应用》,或许能给我们带来一点启示。

一、故事开篇,引入概念

教材以俄亥俄州丹佛市的路易斯·史丹佛将收藏了65年的40桶硬币存到银行,银行工作人员清点硬币的方法导入。文字旁的一幅铺满硬币的图片,更是以强烈的视觉冲击唤起学生的学习热情。由此提出问题,正如银行工作人员清点硬币一样,化学家也要计算原子、分子或其他微粒的个数。但是和银行工作人员不同的是化学家不会一个一个地数,因为物质的微粒是如此之小而数量又是如此巨大 。那么,不用数数的方法,又如何确定一份样品中物质的微粒是多少呢? 该教材创设的情境以生活经验为起点,具有真实性、针对性、情感性,能有效调动学生的有意义学习,为主动建构奠定基础。

《普通高中化学课程标准(实验)》在课程的基本理念中也提出:“从学生已有的经验和将要经历的社会生活实际出发,帮助学生认识化学与人类生活的密切关系,关注人类面临的与化学相关的社会问题……”。

二、迷你实验,认识概念

为了帮助学生进一步认识“物质的量”,该教材设计了一个与日常生活紧密联系的简单实验——计数一袋纽扣的数量。实验步骤:①数10枚纽扣并称其质量,记录结果。②称量并记录空塑料袋的质量。③将袋子装满纽扣,并封好口袋。④称量并记录其质量。分析与讨论:①袋子中有多少纽扣?②说明你是如何确定这个数量的?

该教材中的“迷你实验”短小精悍,能让学生切身体会化学的朴素与激情。正如“读书破万卷,不如行万里路”一样,每个“迷你实验”都将胜过学生数小时的苦读。

三、类比教学,理解概念

该教材用日常生活中计数鸡蛋、发卡、夹子、打印纸等来类比科学家计算原子、分子等微观粒子的方法(见图1)。

学生所拥有的有些日常概念可以促成科学概念的学习,因此我们必须将日常概念看成是逐步形成科学概念的一个必要前提和准备阶段。如果能将学生的日常概念利用起来,不仅能激发学生的学习兴趣,还能有效达成对新概念的理解。

四、样例展示,应用概念

为了帮助学生理解、应用“物质的量”,该教材从四个不同的角度设计了4个样例,每个样例均提供了规范的、详细的解答过程。

样例1:计算样品中元素原子的数目

一根铁棒的质量是16.8g,那么这根铁棒中含有多少个铁原子?

样例2:计算化合物中所含粒子的个数

一份氧化铁粉末的质量是16.8g,那么其中含有的氧化铁粒子数是多少?

样例3:计算不同物质的量的化合物的质量

含有7.50 mol H2O分子的水的质量是多少?

样例4:推测产物的物质的量

3.75g氮气与氢气完全反应时,生成氨气的物质的量是多少?

样例学习对学生认知技能的获得有巨大促进作用,能极大调动学生学习的主动性和积极性,更易为广大学生所接受。

五、适量习题,巩固概念

该教材在本节复习题中从三个角度(理解概念、理性思维、化学应用)设计了5道习题来巩固“物质的量”这一概念。其中包含以日常生活和工业生产为背景的题目,它们在巩固、反馈学生所学知识的同时,还能让学生体会到化学知识的实用性,从而激发学生更强的学习动力,适量的训练还有助于提高学生应用所学知识解决实际问题的能力。

建构主义启示我们,在教学过程中要注重学生的主体地位,发挥学生在建构过程中的积极作用,充分借助他们已有的知识经验和学习过程,主动建构概念系统。美国教材《化学:概念与应用》为我们提供了一个典型的范例。

参考文献

[1] 中华人民共和国教育部. 普通高中化学课程标准 (实验)[S]. 北京:人民教育出版社,2003:20-22

[2] 王祖浩等. 化学概念与应用[M]. 杭州:浙江教育出版社,2008

量子计算概念范文第8篇

一、以实验为基础,让学生形成概念

初中化学“物质的变化”一节的演示实验,既能激发学生学习化学兴趣,又是使学生形成“物理变化”、“化学变化”概念的好例子。如水的沸腾,引导学生观察水由静态转化为水蒸汽再冷凝成液态水,师生总结出变化特点:仅仅是物质状态上变化,无其他物质生成。演示“镁带燃烧”实验,引导学生观察发出耀眼白光及生成白色固体。这个变化特点是镁带转变为不同于镁的白色物质——氧化镁。最后师生共同总结:“没有生成其它物质的变化叫物理变化”,如水的沸腾,石蜡熔化等。“生成了其它物质的变化叫化学变化”,如镁带燃烧,碱式碳酸铜受热分解,二氧化碳使澄清石灰水变浑浊等。再如“催化剂”、“饱和溶液”、“不饱和溶液”等概念的形成,都可以由实验现象分析、引导、归纳得出其概念。

二、以计算为基础,使学生理解概念

如在“相对原子质量”概念的教学中,教师首先讲述原子是化学变化中的最小微粒,其质量极小,运用起来很不方便,指出“相对原子质量”使用的重要性。指导学生阅读“相对原子质量”概念,然后提出问题,依据课本中定义进行推算。

(1)“相对原子质量”的标准是什么?(学生计算):一种碳原子质量的1/12 1.993X10-26千克X1/12≈ 1.661X10-27千克

(2)氧的“相对原子质量”是如何求得的?

(学生计算):2.657 X10-26

氧原子绝对量(千克):2.657 X10-26 千克

氧的“相对原子质量”:2.657 X10-26千克÷1.661X10-27千克=16.00

如果学生只注意背“相对原子质量”概念,尽管多次记忆仍一知半解。但通过这样计算,学生便能直观、准确地理解“相对原子质量”的概念,而且还较容易地把握“相对原子质量”只是一个比值,一个没有单位的相对量。

三、通过反例,加深学生对概念的理解

为了使学生更好地理解和掌握概念,教学中指导学生在正面认识概念的基础上,引导学生从反面或侧面去剖析,使学生从不同层次去加深对概念的理解。

例如对酸的认识:由H+和酸根离子组成的化合物叫酸。然后提问,硫酸氢钠中含有H+,它也是一种酸吗?学生容易看出其阳离子除H+外,还有Na+,所以它不是酸。这样,从侧面理解定义的准确含义,更能准确地掌握酸的概念。

四、寻找概念之间的联系和区别

对有关概念进行有目的地比较,让学生辨别其区别与联系很有必要。例如分子和原子,元素与原子,还有物理变化与化学变化,化合反应和分解反应,溶解度与溶质质量分数等。通过对比,既有益于学生准确、深刻地理解基本概念,又能启发学生积极地抽象思维活动。

五、多角度地对概念进行练习、巩固

“溶质的质量分数”这一概念为:溶质的质量与溶液质量之比叫做“溶质质量分数”。计算式:溶质的质量分数 = 溶质质量/溶液质量 X100%=溶质质量/(溶质质量+溶剂质量)X100%,这个概念的引入和建立并不难,难的是它的具体运用。所以在建立这一概念之后,有针对性的进行下列练习,并组织学生讨论:

(1)10克食盐溶解于90克水中,溶质的质量分数是多少?

(2)20克食盐溶解于80克水中,溶质的质量分数是多少?

(3)100克水溶解20克食盐,溶质的质量分数为20%,对不对,为什么?

(4)10%的食盐溶液100克,倒去50克食盐水后,剩下溶液的溶质的质量分数变成5%,对不对,为什么?

(5)KNO3在20℃时溶解度为31.6克,则20℃KNO3的饱和溶液的溶质的质量分数为31.6%,对不对,为什么?

量子计算概念范文第9篇

关键字:大数据;数据挖掘;分类算法;概念漂移

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)09-0011-03

Design and Implementation of Flow Mining Algorithm and Resistance Concept Drift System Based on Storm Platform

LU Yuan-fu, PENG Tian-ci, Ji Kai-yang, TAN Hai-yu

(College of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210046, China)

Abstract:With the rise of cloud computing and Internet of things(LOT) technology,stream data widely exist in all fields as a new mega data form.This article propose a stream-classifying algorithm and system oriented to big data,which is based on DCP (Distributed Computing Platform).Parallelize windows and CVFDT algorithm are both adopted.We use a DCP to test whether the mutation concept drift happened in data stream,so as to change the inflow of modeling sample data adaptively.The accuracy and efficiency of stream data model will be improved at last.

Key words: big data; data mining; classifying algorithm; concept drift

1 背景

随着云计算、互联网+等技术的快速发展,生产制造控制、无线通信网络、电子商务交易、金融信息监控等领域形成了高速、海量、动态的数据流,而有效的对数据流进行处理并从中挖掘有价值的信息就显得尤为重要。

在流数据分类挖掘中,概念漂移是指流数据特性的改变使得目标分类模型随着时间的变化而变化。针对流数据挖掘过程中的概念漂移问题,Hulten等人提出了概念自适应快速决策(Concept-adaptingVeryFastDecisionTree,CVFDT)算法[1]。CVFDT 算法是一种扩展了VFDT算法用以解决概念漂移问题的高效算法,通过在原有的算法基础上改进添加滑动窗口使得建立决策树模型的数据流能够不断实现更新,从而保证在概念漂移的数据流中模型建立的准确率。

本文主要讨论研究了基于分布式实时计算系统STORM平台的去概念漂移算法及系统的设计与实现,在流挖掘过程中,利用分布式平台的特点采用并行化窗口方案来检测数据流中是否发生概念漂移,并行化窗口bin-win根据数据流中的概念漂移自适应调整窗口大小,从而自适应的改变建模样本数据的流入,提高了流数据的准确性和高效性。

2 算法分析与实现

2.1 CVFDT算法

2.1.1 CVFDT算法的原理

概念自适应快速决策树(CVFDT)[2]是一种扩展了VFDT算法用以解决概念漂移问题的高效算法,具有类似VFDT的HT树生成过程,在保持了VFD的速度和精度的前提下,能够处理样本产生过程中所出现的概念漂移问题[3]。CVFDT对样本维持一个滑动窗口,并能够动态改变窗口的大小。CVFDT算法过程包括CVFDTGrow过程、ForgetExample过程、RemoveExample过程和CheckSplitValidity过程。算法主要思想是先根据当前的数据构建临时决策树,然后并不断地获取新的数据去优化已建立的决策树。若在某个时候出现了概念漂移,则算法会在出现漂移的节点上建立一个新的替代子树。当替代子树的分类效果优于当前的决策子树时,就直接取而代之。

2.1.2 CVFDT算法抵抗概念漂移问题

概念漂移表示目标变量的统计特性随着时间的推移以不可预见的方式变化的现象[4]。在流数据分类挖掘中,也指流数据特性的改变使得目标分类模型随着时间的变化而变化。CVFDT周期性的扫描HT生成树的内部节点来检验原先的分裂节点是否依然是最优的分裂属性节点。当该节点发生了概念漂移,最优分裂属性节点已不再是原先的Xa。CVFDT算法会重新寻找最佳测试属性,新的属性不直接取代原有的测试属性,而是成为一个替代子树的根节点,并且依据该根节点建立替代子树。如果后继滑动窗口的样本在替代子树上有较高的分类精度,则替代子树便取代原先的决策树,以维持滑动窗口的样本和更新后的决策树的一致性。

2.2 基于STORM平台的CVFDT算法实现

2.2.1 CVFDT并行化窗口抵抗概念漂移算法设计

本小节讨论以STORM作为分布式实时计算平台,结合CVFDT流挖掘算法,解决数据流的概念漂移问题,从而提高模型建立的准确性。基于storm分布式平台的并行化窗口抵抗概念漂移方案,通过并行化窗口bin-win对数据流实时检测实现概念漂移抵抗[5-6],窗口调整流程图如图1所示。

从流程图中,可以看到并行化窗口根据数据流中的概念漂移自适应调整窗口大小,当窗口检测数据流未发生概念漂移时,则增大窗口中的样本量,反之,则减小并行化窗口的大小,有利于较快的适应概念漂移。

其中,检测是否发生概念漂移模块,通过对HT树中的非叶子节点的替代子树调用CheckSplitValidity函数,计算属性增益,从而判断是否发生概念漂移,流程图如图2 所示。

2.2.2 CVFDT算法实现与分析

在现实生活中,大部分数据都是非平稳分布的,数据流根据时间的推移不断发生变化,即发生了概念漂移[7]。CVFDT算法通过并行化窗口检测数据流是否发生概念漂移,窗口太大不能快速有效的抵抗数据流中的概念漂移,窗口太小影响模型建立的时间和模型一段时间内的稳定性,如图3所示在建立决策树模型时检测到概念漂移,则减小窗口的大小。当数据流稳定时,则增大窗口的大小,从而有效建立准确的决策树模型。

3 系统实现

3.1 系统总体架构

CVFDT算法在STORM平台上的实现方式有两种,一种是垂直并行化实现,一种是结合随机森林的实现,该抵抗概念漂移系统的设计主要基于垂直并行化的实现方式。系统包括三大模块:并行化窗口模块、抵抗概念漂移模块、决策树建立更新模块。系统整体框架如图4所示。

3.2 系统界面

抵抗概念漂移流分类挖掘系统参数设置界面如图5所示,用户输入训练样本、更新样本、测试样本以及样本所在文件的具体地址。点击确定之后传输相应参数,CVFDT算法执行结束之后,弹出该算法挖掘结果显示窗口,姐main如图6所示,结果展示界面输出当前决策树以及其评价结果,以及未分类样本的标记结果[8]。

4结束语

本文以分布式实时计算STORM平台,设计并实现CVFDT算法,解决在流数据挖掘过程中出现的概念漂移现象,保证了流数据分类挖掘模型的准确性和高效性。CVFDT算法对样本数据维持一个滑动窗口,在新样本到达的时候更新节点上的统计信息,并在样本滑出窗口的时候肩上其对应的统计信息。STORM平台保证算法能够提前预测数据流中的概念漂移,并实时更改窗口的大小,提高决策模型的准确性。

本文设计实现的算法与系统仅仅只是数据挖掘的一个方面,随着大数据时代的到来,数据流会越来越大,并且会不断变化,这就影响到了决策模型的建立与改善,因此,如何设计准确的算法和平台来彻底解决流数据的概念漂移仍然需要进一步的研究。

参考文献:

[1] Hulten G, Spencer L, and Domingos P. Mining time-changing data streams[C]//Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2001: 97-106.

[2] Ganti V, Johannes Gehrke, Raghu Ramakrishnan. Mining Data Streams under Block Evolution. [J].SIGKDD Explorations, 2002, 3(2).

[3]Street W N, Kim Y S. A streaming ensemble algorithm (SEA) for large-scale classification[C]//Proceedings of the seventh International Conference on Knowledge Discovery and Data Mining. San Francisco, USA, 2001: 377-382.

[4] Mitchell T M. Machine learning[M]. New York City: McGraw-Hill, 1997.

[5] 杨雅双. 关联规则的并行挖掘算法研究[D]. 西安:西安科技大学,2010.

[6] 唐耀红. 数据流环境中关联规则挖掘技术的研究[D]. 北京:北京交通大学,2012.

量子计算概念范文第10篇

关键词:义原信息量;义原及其角色关系;词语相似度;知网

中图分类号: TP391 文献标志码: A 文章编号:2095-2163(2015)03-

Chinese Words Similarity Computation based on HowNet

LI Guojia

(Department of Software,North China University of Water Resources and Electric Power,Zhengzhou 450045,China)

Abstract:In view of the problems of Chinese words similarity computation, according to the ideology of information theory on the similarity of two objects, this paper presents a new computing Chinese words similarity method based on information content of HowNet sememe and sememe and event role. The method uses HowNet lexical taxonomy to calculate the sememe information content, and uses the similarity of main sememe, the similarity of sememe and event role, similarity of the sememe node to compute Chinese word similarity. The experimental results that have been compared with Liu-qun and HowNet’s conclusion demonstrate that the method is similar to human judgment.

Keywords: Sememe Information Content; Sememe and Event Role; Word Similarity; HowNet

0 引 言

词语相似度计算在信息检索、文本分类、信息抽取、机器翻译等领域有广泛的应用[1]。词语相似度的计算主要有两类方法:一类是世界知识(Ontology)或者分类体系(Taxonomy)的方法,如基于WordNet中词语结点的距离来计算英语词语的语义相似度[2],基于知网(HowNet)义原间的距离或者深度等信息来计算中文词语的语义相似度[3-4]。另一类是基于语料统计的方法[5-8],这类方法假设凡是语义相近的词,其上下文也应该相似,利用上下文中词语概率的分布来计算词语相似度。

知网(HowNet)是国内外自然语言处理中使用较为广泛的中文语义资源平台,自1999年以来受到越来越多研究人员的关注[9]。基于知网计算中文词语的相似度研究也陆续推出了很多方法。王小林等采用变系数对各类义原加权计算,并认为不同词性对词语相似度的贡献度不同,引入词性相似度来综合计算词语相似度[10-11];林丽等将部分义原划为弱义原,这类义原在参与相似度计算时赋予较低权重值[12];张敏等考虑词性的作用,并减少了抽象义原在词语相似度计算中贡献[13],范弘屹等在相似度计算中综合考虑义原的距离、深度、密度等信息[14];张亮等利用知网构建语义树,将词语相似分析计算转化为语义树的相似分析[15]。这些方法通常根据意义分解的思想,将词语分解为更小单位(义原)参与相似度计算,再按照权重比例综合计算词语整体相似度,计算结果依赖于公式的设计和参数的选取,不能充分反应出词语语义的相似性。刘青磊等通过词语义原集合的共有信息和差异信息来综合计算词语相似度[16];游彬等将知网作为统计语料库计算词语所包含的义原信息量,然后来估计两个词语的语义相似度[17],基于语料统计的方法比较依赖于统计所用的语料库,计算过程复杂,语料库建设存在较多的困难。

本文给出一种基于知网义原特征的中文词语相似度的计算方法,利用知网的分类体系(Taxonomy),将义原及其角色关系作为词语相似度计算的基本单位,保留描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想,从概念的主类义原相似度、义原及其角色关系的相似度以及义原结点相似度来综合计算词语的相似度。

1 义原信息量

1.1义原信息量

Philip Resnik在文献[5]中提出基于信息量来计算词语语义相似度,在WordNet中,对于概念c,其信息量(Information Content)表示为在某给定语料库中c出现的概率p(c)的负对数函数[5]。根据Resnik的思想,对知网中的一个义原A,其信息量大小 为:

(1)

其中, 表示义原A在某个语料库样本空间中出现的概率。

计算语料库样本空间中某个义原出现的概率是很困难的。知网作为一个以各类概念及关系为描述对象的知识系统,其分类体系本身可以看作是各个义原出现的一个样本空间,仅依赖知网分类体系本身而不需其他语料库,作为计算义原出现概率的样本空间也是合理的。研究认为,分支结点义原包含的子孙结点越多,其信息量越小。叶子结点是最小的分类,所有叶子结点的信息量是相同的。

设 是某类义原树上的一个义原结点,将义原 及其包含的子孙义原的数量作为该义原在样本空间中出现的次数,根据知网的分类体系,义原 的信息量 计算方法为:

(2)

其中, 是义原 包含的子孙义原的数量, 是样本空间中所有义原的数量,研究取知网中实体类、事件类、属性类、属性值类、次要特征所包含的2 216个义原作为计算某颗义原树上义原出现概率的样本空间。

1.2义原相似度

Dekang Lin 在文献[6]中提出,任何两个事物的相似度取决于其共性(Commonality)和个性(Differences),从信息论的角度给出任意两个事物间相似度计算的通用公式[6]:

(3)

其中,分子表示描述事物A和B的共性所需要的信息量,分母表示完整描述出事物A和B所需要的信息量。

在一棵义原树上,假设义原 是义原 和义原 最近的祖先结点,那么义原 就是包含义原 和义原 的最小分类,该最小分类 就是义原 和 的最具体的通用抽象(the Most Specific Common Abstraction)[6],也就是义原 和 的共性,设义原 的信息量为 ,根据公式(3),给出义原 和 的相似度计算公式:

(4)

以“entity|实体”为根结点的义原树上的叶子义原“牲畜|livestock”和“走兽|beast”间的相似度计算为例,两者最近的祖先结点义原是“兽|animal”,其子孙结点个数为5,根据公式(2)和公式(4)计算得到二者的相似度为0.384。研究规定,不在同一棵义原树上的两个义原间相似度为0,两个相同义原的相似度为1。

2义原及其角色关系

2.1 概念描述

在知网的知识词典中,每个词语由DEF来描述其概念,在此将DEF分为两部分:主类义原和特性描述部分。

定义1:主类义原

把描述词语概念的DEF中的最左边的第一个义原称为主类义原。

定义2:义原及其角色关系

在词语DEF的特性描述部分中,把义原及动态角色与特征(Event Role and Features)[18]的层次结构的组合称为义原及其角色关系。

定义3:义原及其角色关系的层次

DEF中为了进一步解释或说明词语概念采用了“{}”这种形式的结构,研究将这种结构按照包含关系分为不同的层次,义原及其角色关系的层次即为这种包含关系在“{}”结构中所处层次。

定义4:最小不可分割的义原及其角色关系

本层义原及其动态角色称为最小不可分割的义原及其角色关系。

例如:例如词语“病菌”的一个概念:DEF={bacteria|微生物:domain={medical|医},modifier={able|能:scope={ResultIn|导致:result={disease|疾病}}}}。“bacteria|微生物”是主类义原,其它部分是特性描述部分。把“domain={medical|医}”、“modifier={able|能:scope={ResultIn|导致:result={disease|疾病}}}”称为DEF的第一层义原及其角色关系,包含两个本层义原“medical|医”和“able|能”,把“scope={ResultIn|导致:result={disease|疾病}}”称为第二层义原及其角色关系,包含一个本层义原“ResultIn|导致”。“domain={medical|医}”、“scope={ResultIn|导致}”、“result={disease|疾病}”都是最小不可分割的义原及其角色关系,在DEF中所处层次分别定义为1、2、3。

2.2 义原及其角色关系的信息量

在计算义原及其角色关系的信息量时,用本层义原的信息量与下一层义原及其角色关系的信息量来加权计算。研究规定,最小不可分割的义原及其角色关系的信息量就等于其所包含的义原信息量,设定第一层义原及其角色关系中本层义原的权重为 ,第二层义原及其角色关系中本层义原的权重为 ,依次类推,第 层义原及其角色关系中本层义原的权重为 。用 表示DEF性描述部分的义原及其角色关系, 表示 的信息量,其计算公式为:

(5)

其中, 表示 包含的最大层次, 表示 中第 层义原及其角色关中本层义原的信息量, 表示 中第 层义原及其角色关系中本层义原的总个数, 表示第i个义原, 表示义原 的信息量。研究规定,一个没有概念描述的具体词,设定信息量为一个常数,大小等于叶子结点义原的信息量3.346。

3 词语相似度

3.1 概念相似度

词语概念间相似度基于概念的DEF来进行计算,每个概念的DEF是由主类义原及若干个义原及其角色关系组成,文中通过概念的主类义原间相似度 、义原及其角色关系相似度 以及义原结点相似度 来综合计算两个概念的相似度,两个概念 和 的相似度计算公式为:

(6)

其中, , , 分别为 , , 的权重系数,有 。

两个概念的主类义原 和 的相似度 计算与公式(4)计算义原相似度方法相同,这里不再赘述。

3.2义原及其角色关系相似度

基于Dekang Lin计算两个事物相似度的思想,研究把两个概念的义原及其角色关系的相似度 表示为:两个概念共有的义原及其角色关系的信息量与两个概念所有的义原及其角色关系的信息量的比值。共有义原及其角色关系为两个概念中完全相同的义原及其角色关系,在此用 表示两个概念 和 共有的义原及其角色关系集合, 表示该集合的信息量, 计算公式为:

(7)

其中, 为概念 特性描述部分的义原及其角色关系信息量, 为概念 特性描述部分的义原及其角色关系信息量。如果共有义原及其角色关系在两个DEF中的层次不同,以其所处的最深层次的信息量作为共有的信息量。

3.3 结点相似度

研究通过两个概念中共有义原结点数和总的义原结点数的比值来综合计算义原结点相似度 ,计算公式为:

(8)

其中, 表示两个概念中共有义原结点数 , 表示两个概念总的结点数, 和 分别表示概念 和 各自的义原结点数。

3.4 词语相似度

在知网中,有的词语有多个概念,每一个概念表示一种语义,如果两个词语各自只有一个概念,那么词语语义的相似度计算实质上就是两个概念间的相似度计算,对于具有多个概念的词语,通常根据词语出现的语境进行词义消歧后再计算概念间的相似度,效果更好。刘群在文献 [1]提出的词语相似度计算中,认为两个孤立词语(不在一定的上下文背景中)的语义相似度是其所有概念之间相似度的最大值,本文采用刘群的做法,将两个词语概念间的最大相似度值作为词语的整体相似度。两个词语 和 的相似度计算公式为:

(9)

其中, 表示词语 的一个概念, 表示词语 的一个概念, 表示概念 和 的相似度。研究规定,如果两个词语为同义词,相似度为1。如果两个词语为同类词,相似度为0.95,如果两个词语为反义或对义词,相似度为0。

4 实验结果及分析

目前还没有专门的评估中文词语语义相似度算法质量的专用数据集,本文随机选取一些常用词语和汉语词典中以“病”开头的一些相关词语作为实验对象,与刘群方法[1]、知网在线[19]的词语相似度计算方法及人工判断的相似度值进行比较。

知网在线算法将主类义原相似度分为 和 两部分,权重都是0.1,本文主类义原相似度 的权重取知网在线算法中 和 的和,即 的权重为0.2。本文认为词语概念特性描述部分是对词语间相似性及差异性更详细的描述,因此 的权重应该等于反映词语相似性的主类义原间相似度 与义原结点相似度 之和,所以 的权重为0.5,则 的权重为0.3。本文 , , 含义与刘群和知网在线方法是不同的。刘群方法、知网在线和本文方法的实验参数如表1所示。

表1 实验参数列表

Tab.1 Experimental parameter lists

刘群方法 1.6 0.5 0.2 0.17 0.13 0.20 0.20

知网在线 1.6 0.1 0.1 0.7 0.1 ― ―

本文方法 ― 0.2 0.5 0.3 ― ― ―

本文选取50位汉语文学类专业的老师和学生作为人工判断词语相似度的专家,每位专家给出表2和表3中两组词语的人工相似度值,每组分别去掉五个最高和最低的相似度值,而后将剩余的40组有效数据通过加权计算得到人工判断的相似度值。常用词语相似度实验结果如表2所示。

表2 词语相似度实验结果

Tab.2 The experimental results of word similarity

编号 词语1 词语2 刘群

方法 知网

在线 人工相似度值 本文

方法

1 得病 得救 0.211 0.021 0.079 0.062

2 道路 道上 0.100 0.115 0.186 0.235

3 病人 医生 0.665 0.303 0.403 0.649

4 电话 电视 0.896 0.340 0.201 0.32

5 北京 城市 0.641 0.433 0.192 0.300

城市 地区 0.600 0.7670 0.418 0.400

地区 北京 0.600 0.580 0.214 0.32

6 出兵 出征 0.105 0.014 0.343 0.383

7 搬家 拆迁 0.872 0.700 0.311 0.645

8 陈设 摆设 0.579 0.720 0.546 0.636

9 盗贼 盗墓 0.044 0.001 0.094 0.046

10 病故 病危 0.160 0.021 0.174 0.339

从表2中本文方法与刘群方法、知网在线及人工判断相似度值相比较,可以看到:刘群方法是基于义原距离来计算词语相似度,当义原处在同一类义原树中,词语的相似度偏大,例如第1、4、7组词语相似度结果比本文及知网在线方法的结果都偏大,与人的判断差异也很大。知网在线方法在计算计算词语的相似性时,更加细化,将词语的义原结构分解为多个部分,赋予各部分不同的权重然后加权计算得到整体间的相似度,实际上进一步割裂了描述词语的各个义原之间的关系,例如第5、6、7组词语,词语相似度计算的结果不够合理。另外,知网在线方法对词语特性描述部分计算比较复杂,计算量也较大。

再有,选取了汉语词典中以“病”开头的一类词语作为实验对象,把同义词作为一个集合,且以每个集合的第一个词语参与计算,将词性相同词语(词语1和词语2)进行比较,计算词性相同的相关词语间的相似度,相关词语相似度计算结果如表3所示。

表3相关词语相似度计算

Tab.3 Computation of related word similarity

编号 词语1 词语2 刘群

方法 知网

在线 人工相似度值 本文

方法

1 病人(病员,病号,病躯,病夫,病体) 病友 0.669 0.327 0.359 0.309

病魔 0.448 0.062 0.126 0.104

病菌(病毒) 0.209 0.035 0.144 0.279

病例 0.124 0.019 0.218 0.285

2 病倒 病故(病逝,病死,病殁) 0.242 0.124 0.385 0.262

病危 0.186 0.119 0.414 0.174

病愈 0.145 0.124 0.062 0.132

3 病因(病原,病源) 病史 0.444 0.078 0.225 0.418

病状 0.347 0.078 0.317 0.355

病害 0.257 0.035 0.218 0.134

病理 0.200 0.024 0.307 0.335

病案(病历) 0.167 0.019 0.265 0.325

4 病房(病室) 病床(病榻) 0.242 0.029 0.385 0.306

病院 0.167 0.017 0.363 0.532

5 病变 病残 0.209 0.101 0.22 0.201

在表3中,第1组中的3对词语,第2组中的1对词语,第3组中3对词语,第4组中的1对词语及第5组词语、总计9对词语的相似度,本文方法计算结果都更接近于人的判断。

将表2和表3中27组词语相似度按照人工判断的相似度值升序排列,刘群方法、知网在线和本文方法的三种相似度计算结果与人工判断值进行相似度比较的折线图如图1所示。

图1 四种方法的词语相似度比较

Fig.1 Comparison of word similarity with four methods

从图1中可以看出,与刘群方法和知网在线相比,在所有27组词语比较中,本文方法计算的17组词语相似度值更接近于人工判断值(三角标识),整体上也更趋近于人工判断值的折线。综合来看,本文方法的结果更加合理,与人的判断也比较一致。

5 结束语

根据信息论中两个事物相似度计算的思想,本文提出基于知网义原信息量和义原及其角色关系计算中文词语相似度,从保留义原间关系的角度出发,结合主类义原相似度、义原及其角色关系相似度以及结点相似度来综合计算词语的相似度,更能全面地反应出词语语义的相似性和差异,计算量也较少,计算结果合理可行。

参考文献:

[1] 刘群,李素建.基于《知网》的词汇语义相似度的计算[C] //台北: 第三届汉语词汇语义学研讨会,2002,7(2):59-76.

[2] AGIRRE E, RIGAU G. A proposal for Word Sense Disambiguation using conceptual distance[C]// Proceedings of the First International Conference on Recent Advanced in NLP. Bulgaria:ACL,1995:258-264.

[3] 夏天.汉语词语语义相似度计算研究[J].计算机工程,2007, 33(6):191-194.

[4] 江敏,肖诗斌,王弘蔚等.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89.

[5] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy[C]// Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, Canada:ACM, 1995:448-453.

[6] LIN Dekang. An information-theoretic definition of similarity [C]// Proceedings of the Fifteenth International Conference on Machine Learning. Wisconsin(USA):ACM,1998:296-304.

[7] RESNIK P. Semantic similarity in a taxonomy: An information-based Measure and its application to problems of ambiguity in natural language[J].Journal of Artificial Intelligence Research,1999,11:95-130.

[8] 李峰,李芳.中文词语语义相似度计算―基于《知网》2000 [J]. 中文信息学报, 2007, 21(3):99-105.

[9] 董振东,董强,郝长伶.《知网》的理论发现[J].中文信息学报,2007,21(4):3-9.

[10] 王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11): 75-90.

[11] 王小林,杨林,王东.基于知网的新词语相似度算法研究[J].情报科学,2015,33(2):67-71.

[12] 林丽,薛方,任仲晟.一种改进的基于《知网》的词语相似度计算方法[J].计算机应用,2009,29(11):217-230.

[13] 张敏,王振辉,王艳丽.一种基于《知网》知识描述语言结构的词语相似度计算方法[J].计算机应用与软件,2013,30(7):265-267.

[14] 范弘屹,张仰森.一种基于HowNet的词语语义相似度计算方法[J].北京信息科技大学学报.2014,29(4):42-45.

[15] 张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):23-30.

[16] 刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(6):31-36.

量子计算概念范文第11篇

一、通过实验让学生形成概念

初三化学绪言部分的演示实验,既是激发学生学习化学兴趣,又是使学生形成“物理变化”、“化学变化”概念的好例子。如水的沸腾,引导学生观察水由静态转化为水蒸汽再冷凝成液态水,师生总结出变化特点,仅仅是物质状态上变化,无其他物质生成。演示“镁带燃烧”实验,引导学生观察发出耀眼白光及生成白色固体。这个变化特点是镁带转变为不同于镁的白色物质——氧化镁。最后师生共同总结:“没有生成其它物质的变化叫物理变化”,如水的沸腾,硫酸铜晶体的研磨等。“生成了其它物质的变化叫化学变化”,如镁带燃烧,碱式碳酸铜受热分解,二氧化碳使澄清石灰水变浑浊等。再如“催化剂”、“饱和溶液”、“不饱和溶液”等概念的形成,都可以由实验现象分析、引导、归纳得出其概念。

二、通过计算推理,帮助学生理解概念

如在“原子量”概念的教学中,教师首先讲述原子是化学变化中的最小微粒,其质量极小,运用起来很不方便,指出“原子量”使用的重要性。指导学生阅读原子量概念,然后提出问题,依据课本中定义进行推算。

(1)原子量的标准是什么?(学生计算):一种碳原子质量的1/121.993X10-26千克X1/12≈ 1.66X10-27千克(2)氧的原子量是如何求得的?

(学生计算):

氧原子绝对量(千克)

氧的原子量:-------------------

原子量标准

如果学生只注意背原子量概念,尽管多次记忆仍一知半解。通过这样计算,学生便能直观地准确地理解“原子量”的概念,而且还较容易地把握原子量只是一个比值,一个没有单位的相对量。

三、通过反例,加深学生对概念的理解

为了使学生更好地理解和掌握概念,教学中指导学生在正面认识概念的基础上,引导学生从反面或侧面去剖析,使学生从不同层次去加深对概念的理解。

例如酸的定义:“电离时生成的阳离子全部是氢离子的化合物叫酸”。然后提问,硫酸氢钠电离生成H十,它也是一种酸吗?学生容易看出其阳离子除H十外,还有Na十,所以它不是酸。这样,从侧面理解定义中“全部”的含义,更能准确地掌握酸的概念。

四、找概念之间的联系和区别

对概念进行对比在新课教学或阶段性复习的过程中,对有关概念进行有目的地比较,让学生辨别其区别与联系很有必要。例如分子和原子,元素与原子,还有物理变化与化学变化,化合反应和分解反应,溶解度与百分比浓度等。通过对比,既有益于学生准确、深刻地理解基本概念,又能启发学生积极地抽象思维活动。

五、多角度地对概念进行练习巩固

例如:质量百分比浓度的概念“用溶质的质量占全部溶液质量的百分比表示的溶液的浓度叫做质量百分比浓度。”数量表达式为:质量百分比浓度溶质浓度 = ------------------------------ X100%溶液质量(或溶剂质量+溶质质量)这个概念的引入和建立并不难,难的是质量百分比浓度的具体运用。所以在建立这个概念之后,通过下列练习,讨论:

(1)10克食盐溶解于90克水中,它的百分比浓度是多少?

(2)20克食盐溶解于80克水中,它的百分比浓度是多少?

(3)100克水溶解20克食盐,它的百分比浓度为20%,对不对,为什么?

(4)20%的食盐溶液100克,倒去50克食盐水后,剩下溶液的浓度变成10%,对不对,为什么?

(5)KNO3在20℃时溶解度为31.6克,则20℃KNO3的饱和溶液的百分比浓度为31.6%,对不对,为什么?

量子计算概念范文第12篇

二、通过计算推理,帮助学生理解概念 如在“原子量”概念的教学中,教师首先讲述原子是化学变化中的最小微粒,其质量极小,运用起来很不方便,指出“原子量”使用的重要性。指导学生阅读原子量概念,然后提出问题,依据课本中定义进行推算。

(1)原子量的标准是什么?(学生计算):一种碳原子质量的1/121.993x10-26千克x1/12≈ 1.66x10-27千克(2)氧的原子量是如何求得的?

(学生计算):

氧原子绝对量(千克)

氧的原子量:-------------------

原子量标准

如果学生只注意背原子量概念,尽管多次记忆仍一知半解。通过这样计算,学生便能直观地准确地理解“原子量”的概念,而且还较容易地把握原子量只是一个比值,一个没有单位的相对量。

三、通过反例,加深学生对概念的理解 为了使学生更好地理解和掌握概念,教学中指导学生在正面认识概念的基础上,引导学生从反面或侧面去剖析,使学生从不同层次去加深对概念的理解。

例如酸的定义:“电离时生成的阳离子全部是氢离子的化合物叫酸”。然后提问,硫酸氢钠电离生成h十,它也是一种酸吗?学生容易看出其阳离子除h十外,还有na十,所以它不是酸。这样,从侧面理解定义中“全部”的含义,更能准确地掌握酸的概念。

四、找概念之间的联系和区别 对概念进行对比在新课教学或阶段性复习的过程中,对有关概念进行有目的地比较,让学生辨别其区别与联系很有必要。例如分子和原子,元素与原子,还有物理变化与化学变化,化合反应和分解反应,溶解度与百分比浓度等。通过对比,既有益于学生准确、深刻地理解基本概念,又能启发学生积极地抽象思维活动。

五、多角度地对概念进行练习巩固 例如:质量百分比浓度的概念“用溶质的质量占全部溶液质量的百分比表示的溶液的浓度叫做质量百分比浓度。”数量表达式为:质量百分比浓度溶质浓度 = ------------------------------ x100%溶液质量(或溶剂质量+溶质质量)这个概念的引入和建立并不难,难的是质量百分比浓度的具体运用。所以在建立这个概念之后,通过下列练习,讨论:

(1)10克食盐溶解于90克水中,它的百分比浓度是多少?

(2)20克食盐溶解于80克水中,它的百分比浓度是多少?

(3)100克水溶解20克食盐,它的百分比浓度为20%,对不对,为什么?

(4)20%的食盐溶液100克,倒去50克食盐水后,剩下溶液的浓度变成10%,对不对,为什么?

(5)kno3在20℃时溶解度为31.6克,则20℃kno3的饱和溶液的百分比浓度为31.6%,对不对,为什么?

量子计算概念范文第13篇

一、通过实验让学生形成概念

初三化学绪言部分的演示实验,既能激发学生学习化学的兴趣,又是使学生形成“物理变化”、“化学变化”概念的好例子。如水的沸腾,引导学生观察水由静态转化为水蒸汽再冷凝成液态水,师生总结出变化特点:仅仅是物质状态上变化,无其他物质生成。演示“镁带燃烧”实验,引导学生观察发出耀眼白光及生成了白色固体。这个变化特点是镁带转变为不同于镁的白色物质――氧化镁。最后师生共同总结:“没有生成其它物质的变化叫物理变化”,如水的沸腾、硫酸铜晶体的研磨等;“生成了其它物质的变化叫化学变化”,如镁带燃烧、碱式碳酸铜受热分解、二氧化碳使澄清石灰水变浑浊等。再如“催化剂”、“饱和溶液”、“不饱和溶液”等概念的形成,都可以由实验现象分析、引导、归纳得出其概念。

二、通过计算推理,帮助学生理解概念

如在“原子量”概念的教学中,教师首先讲述原子是化学变化中的最小微粒,其质量极小,运用起来很不方便,指出“原子量”使用的重要性,指导学生阅读原子量概念,然后提出问题,依据课本中的定义进行推算。

(1)原子量的标准是什么?

学生计算:

一种碳原子质量的∶1.993×10-26千克×≈1.66×10-27千克。

(2)氧的原子量是如何求得的?

学生计算:

氧原子绝对量(千克)。

氧的原子量:______。

原子量标准。

如果学生只注意背原子量概念,尽管多次记忆仍一知半解。通过这样计算,学生便能直观、准确地理解“原子量”的概念,而且还较容易把握原子量只是一个比值,一个没有单位的相对量。

三、通过反例,加深学生对概念的理解

为了使学生更好地理解和掌握概念,教学中可指导学生在正面认识概念的基础上,从反面或侧面去剖析,使学生从不同层次去加深对概念的理解。

例如酸的定义:“电离时生成的阳离子全部是氢离子的化合物叫酸。”然后提问:硫酸氢钠电离生成H十,它也是一种酸吗?学生容易看出其阳离子除H十外,还有Na十,所以它不是酸。这样,从侧面理解定义中“全部”的含义,更能准确地掌握酸的概念。

四、找概念之间的联系和区别

在新课教学或阶段性复习的过程中,对有关概念进行有目的的比较,让学生辨别其区别与联系,很有必要,例如分子和原子、元素与原子,还有物理变化与化学变化、化合反应和分解反应、溶解度与百分比浓度等。通过对比,既有益于学生准确、深刻地理解基本概念,又能启发学生积极的抽象思维。

五、多角度地对概念进行练习巩固

例如质量百分比浓度的概念:“用溶质的质量占全部溶液质量的百分比表示的溶液的浓度叫做质量百分比浓度。”这个概念的引入和建立并不难,难的是质量百分比浓度的具体运用,所以在建立这个概念之后,可通过下列练习讨论:

(1)10克食盐溶解于90克水中,它的百分比浓度是多少?

(2)20克食盐溶解于80克水中,它的百分比浓度是多少?

(3)100克水溶解20克食盐,它的百分比浓度为20%,对不对?为什么?

(4)20%的食盐溶液100克,倒去50克食盐水后,剩下溶液的浓度变成了10%,对不对?为什么?

(5)KNO3在20℃时溶解度为31.6克,则20℃时KNO3饱和溶液的百分比浓度为31.6%,对不对?为什么?

以上思考与练习从溶质、溶剂量变化对溶液百分比浓度的影响,使学生较准确地掌握了质量百分比浓度的概念,

这对后面运用百分比浓度进行有关计算也有很大帮助。

总之,在化学教学过程中要依据初三学生的认知特点和思维能力,尽可能做到通俗易懂,通过对实验和事实进行

量子计算概念范文第14篇

摘要:为了从语义层次上解决P2P资源匹配问题,本体论被引入,试图通过采用可扩展的信息建模工具使得网络资源发现系统能够高效、精确地发现P2P网络资源,同时获得良好的灵活性。然而当前采用的技术要求网络节点共享一个集中的网络资源本体,这种技术不适合高度动态性和分散性的P2P网络。提出一种基于局部本体的P2P网络全局知识视图构建方法,提供了网络资源的全局描述,同时保持了对资源语义的揭示,这种方法不需要网络节点维护一个共享的集中的本体,可扩展性强,对资源的描述更灵活,更适合用于P2P网络资源匹配。

关键词:本体;P2P, 本体映射;知识视图

中图分类号:TP301 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-03

1 介绍

随着P2P(对等网络)技术的飞速发展,对网络节点的信息存储、传输和处理能力的要求迅速增长,对海量信息的搜索与利用成为当前P2P网络资源搜索技术的一个重要研究和应用领域。目前实用化的P2P资源搜索技术主要是基于关键字的匹配,其对资源信息的语义的揭示上有局限性。本体论[5]作为一种能够在语义和知识层次上描述资源信息系统概念模型的建模工具,自提出以来就引起国内外众多科研工作者的广泛关注。本文提出一种基于P2P网络局部本体概念聚类,构建网络全局知识视图的方法,全局知识视图为分散在网络中的节点提供了网络资源全局视图的结构化描述,为在P2P网络中进行基于局部本体的分布式资源匹配提供了有效途径。

2 相关技术

2.1 本体

本体[5] (ontology)是用于描述或表达某一领域知识的一组概念或术语,既可用于组织知识库较高层次的知识抽象,也可用来描述特定领域的知识。本体通过知识来表示元语,从而捕获某个领域的语义,使得机器能够(部分)理解该领域中概念间的关系,通过公理或规则,还可以捕获其他知识,如领域背景知识等。本文中将本体定义为 ,其中C表示概念集合;P表示属性集合;R表示关系集合;A表示公理集合。概念表示特定领域中的一组或一类实体或者事物,每个概念可以由属性分别描述其不同方面的特点;关系描述了概念与概念之间或者属性与属性之间的关系。关系主要可以分为两类:分类关系(taxonomic relationship)和关联关系(associative relationship)。分类关系表示概念与概念之间的父类,子类等上下位的层次关系;关联关系表示除了上下位层次关系以外的其它关系。属性是从不同方面,不同角度对概念的描述。公理用来表示概念或者实例的约束。

3 全局知识视图的构造

在P2P网络中,每个节点的资源由它自己的本体来描述语义,即局部本体。通过对底层局部本体的分析后建立一个共享的全局知识视图。局部本体的每一个概念和属性都将映射到全局视图对应的视图元素上。当增加新的资源时,只需要增加新的映射关系,而不需要对原有的映射和全局知识视图进行过多的更改。

全局知识视图从宏观上对P2P网络中的数据源的信息进行了统一的描述;相对于全局知识视图而言,微观上,局部本体除了定义概念、属性等基本部分之外,还可以定义局部数据源的位置,类型等信息,供下一步查询调用时使用。本文构建全局知识视图的步骤如下:

(1)分析P2P网络各局部资源本体中的概念间的相似关系;

(2)基于局部本体之间概念的相似关系生成知识视图元素;

(3)建立局部本体中概念、属性与全局知识视图元素的映射关系。

3.1 局部本体间的概念聚类

构建全局知识视图的一个重要内容是发现不同局部本体中存在的语义级的概念关联,通过语义的联系将不同本体内的概念映射到全局知识视图元素上,其中最基本的步骤是分析概念之间的相似关系,随后提取出概念间的共性的部分将其映射到全局知识视图中。假设在一个P2P网络中存在n个节点分别提供自身资源的局部本体描述: ,对应第i个局部本体的概念集 中所包含的概念数为 ,那么理想情况下,全局知识视图中对应于概念的视图元素的数量是 ;实际情况中,由于局部本体间的异构性造成具有等价或者相似的概念在全局视图中有多个知识视图与之对应,这种冗余造成知识视图的体积过于庞大,最差情况下,如果概念集中的每个概念都对应于一个全局视图元素,那么全局概念视图元素的数量将达到 ,假定相似度计算为基本运算,整个网络中本体的概念相似度计算的复杂度将达到 。因此,本文考虑将局部本体中的概念进行聚类,从而降低概念间关系分析的复杂性。

3.2 全局视图元素的构造

知识视图元素是对本体中实体的抽象,视图元素的构造过程正是对本体中实体的抽象过程,3.1节中描述的概念聚类算法是进行这一抽象过程的基础。

在本体中,概念间主要包括四类主要关系:等价关系(equivalentClass),继承关系(subClassof),关联关系(associateWith),不相交关系(disjointWith)。在构造视图时,视图元素之间的关系也应当体现概念间的这些主要关系,并且由于不相交关系的普遍性,在知识视图中不考虑元素的不相交关系,在构造视图元素之前,基于由概念聚类算法所得到的类簇,通过本体推理机(如RacerPro)和领域本体得到类簇内各概念之间的等价关系。对于相互等价的概念,在知识视图中用一个视图元素表示,因此,类簇 中的每个等价类对应于知识视图中的一个视图元素。基于此,将概念间等价关系简记作 ,概念 所属等价类记作 ,即若概念 满足 ,记作 ,对类簇 进行等价划分并且对应每个等价类创建相应的视图元素。

3.3 全局视图元素间关系构造

视图元素间的关系反映了本体中实体之间的关系,例如,概念间的等价关系使得概念由同一个视图元素表示,概念间的继承关系也应该在相应视图元素之间体现。简记概念 对应的视图元素为 ,构建全局视图元素间的关系规则如下:

(1)对于概念 ,若其满足 ,则 ,即概念 在视图中对应的视图元素相同:3.2节中,视图元素的构造已经保证了这一点,概念 若满足 ,则它们属于相同的等价类,因此可以保证 。

(2)对于概念 ,若其满足 即若概念 是概念 的子概念,则构建关系 ,其中 是对应于 的二元关系:该规则保证,若概念 是概念 的子概念,那么它们在知识视图中对应的视图元素也具有联系。

(3)对于概念 ,若它们的类层次体系中有公共的祖先概念,即若 使得 ,那么 有关联关系。

3.4 全局知识视图的维护

对于P2P节点资源的更新(包括添加,删除)如果引起了局部本体变化,全局知识视图要做相应的变化如下:

添加规则:如果被添加概念 , 使得 ,其中 是类簇 的等价类,那么知识视图不作变化,否则新增视图元素 ,根据 与其他概念的关系,调整 在视图中的位置。

删除规则:如果对于被删除概念 , 使得 ,其中 是类簇 的等价类,仅删除视图元素 及其联系,否则将等价类 一并删除。

4 分析及实验

4.1 概念聚类效果分析

如果直接在P2P网络局部本体的概念之间进行相似度计算,假定局部本体中概念总数是N,那么计算相似度的复杂性是 。本文采取先对概念进行聚类再进行相似度计算,假定每个类簇概念树相当,那么存在k个类簇的情况下,相似度计算的总次数是: 次,平均复杂度是: ,但是在实际情况中,局部本体中的概念所属于的领域本体数量并不多,通常只有少数几个,所以实际上并不能达到 的复杂度。但是对先对概念进行聚类可以有效的减少相似度的计算次数。

4.1.1 相似度计算次数比例随类簇数变化分析

图4.1.1中,横坐标为类簇数量 ,纵坐标为相似度计算次数比例 ,其中, 表示对概念进行聚类后所进行的相似度计算次数, 表示对概念进行聚类后所进行的相似度计算次数。假设,概念数为1000,初始类簇数量 少于20个,并且每个类簇中的概念数量服从随机分布,图5.1.1显示了随类簇数量变化,聚类前后实际计算次数的比例变化。随着类簇数量的增多,相似度计算次数有效得到减少,当 增加到一定程度之后,r减少的速度减缓。说明 增大到一定数量后继续在增大并不能有效使r减小,应当把 控制在合理范围内,在实际聚类过程中, 的大小取决于网络中的概念所涉及的领域本体数量的大小。

图4.1.1聚类后相似度计算次数比例随类簇数量变化图

4.1.2 相似度计算次数比例随类簇数量变化分析

图4.1.2中,横坐标为概念数量 ,纵坐标为相似度计算次数比例 ,其中, 表示对概念进行聚类后所进行的相似度计算次数, 表示对概念进行聚类后所进行的相似度计算次数,图线L1、L2、L3分别对应类簇数为4、8、12。途中显示,当类簇数一定时,相似度计算次数比例r随概念数量 没有明显变化,即相似度计算次数比例r与概念数量 ,无关。同时,相似度计算次数比例r随类簇数量 的增大而减少,和图4.1.1的结果相符。

4.1.3 视图构造效果分析

构造全局知识视图的作用是代替全局本体对网络中的资源语义进行描述,而构造全局知识视图的目标是:收集从不同节点得到的局部本体后,尽量减少对资源语义的重复描述。具体而言,是尽量减少局部本体之间的等价概念在全局知识视图中所对应的视图元素的冗余。因此,本实验分析文本所提出的全局知识视图构造算法减少视图元素冗余的效果。实验参数如表4.1所示:

表4.1 实验参数

由图4.1.3可知,当概念数增多时,视图元素和概念书的比例也相应的增多了。但是这种增多的趋势同时也随概念数的增多而相对变得平缓。并且视图元素和概念数的比例保持在一个比较低的比例,相当于1个视图元素对应3.3个概念。因此,本算法对减少视图元素的冗余是有效的。

5 总结与展望

本文提出了一种基于概念相似度聚类的P2P网络资源语义全局知识视图构造的方法。试图通过按照所属领域不同对概念进行划分,降低在全局知识视图元素构造过程中的概念相似度计算量。基于此的全局知识视图元素构造的规则和方法能够有效地用于全局知识视图的构造。并且实验证明,本视图构造算法有效的减少了视图中视图元素的冗余。

在本文的方法中,相似度的计算与概念聚类、视图元素的构造具有一定相对独立性。相似度计算方法也是当前研究的一个重要内容。相似度计算的准确性间接影响到了视图构造的效果,而相似度计算的速度直接影响到了视图构造的速度。因此,适合于P2P网络资源局部本体间的概念相似度计算方法也非常值得进一步的研究。

参考文献:

[1]Pantel, P.,& Lin, D. K. Discovering Word Senses from Text. Proceeding of ACM SIGKDD Conf. on Knowledge Discovery and Data Mining, Edmonton, Canada, 2002, 613-619.

[2]Do H H, Rahm E. COMA - A system for flexible combination of schema matching approaches[C]. Porceedings of Very Large Data Bases Conference. Roma, Italy. 2001:610-621.

[3]Maedche A, Staab S. Measuring Similarity between Ontologies [C]. Proceedings of the European Conference on Knowledge Acquisition and Management EKAW-2002. 2002:251-263.

[4]C. Felbaum. (1998) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, Massachusetts, 1998.

量子计算概念范文第15篇

关键词:语义检索;概念语义树;语义相似度

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2011)16-3809-02

Research on Method of Semantic Similarity Based on Concept Semantic Tree

HAN Xin, QIN Fan

(School of Electronics and Computer Science and Technology, North University of China, Taiyuan 030051, China)

Abstract: At present, the application of information retrieval has been widely used, but it is still a difficult thing to be accurate in the specific field of searching. This paper provides a semantic similarity calculation method based on the concept semantic tree, considering the concept of the semantic relations, hierarchies, and inheritance and other factors, as much as possible to improve retrieval efficiency in specific areas of information, and at final, demonstrate the feasibility of the method by experiment.

Key words: semantic retrieval; concept semantic tree; semantic similarity

传统的信息检索都是基于关键词查询的,因此在检索时可能会出现一堆用户并不真正需要的信息,导致查询结果的准确率很低,查全率也不令人满意,会出现“表达差异”,“词汇孤岛”等问题。语义检索就是把信息检索从传统的基于关键词层面提高到基于语义的层面,从语义方面着手,分析概念之间的内在联系,利用语义来组织、存储和获取信息,信息和语义的结合,使信息变成计算机可识别的知识,从而系统能识别出用户所需要的信息,提高检索的查准率和查全率。

1 语义相似度

语义相似度是对语义相似性的定量表示,语义相似度计算是信息检索、数据挖掘、知识管理等领域的基本问题。在信息检索中,语义相似度能够更多的反映文本概念是否符合用户的查询要求,相似度越高,说明文本内容与用户的查询请求越接近。

刘群、李素建[1]基于实例的机器翻译,提出语义相似度就是两个不同上下文本中的本体概念,在不改变文本的句法及语义结构的情况下可以互相替换的程度。如果位于不同上下文本中的两个概念词语在不改变文本的句法及语义结构的情况下可以互相替换的可能性越大,则说明二者的相似度就越高,否则相似度就越低。

当两个语义概念元素x,y相似时,用sim(x, y)表示两者之间的相似度,形式上,相似度计算满足[2]:

1)相似度的值为[0,1]区间中的一个实数,即sim(x, y)∈[0,1];

2)如果两个对象是完全相似的,则相似度为1,即sim(x, y) = 1 当且仅当x = y;

3)如果两个对象没有任何共同特征,那么相似度为0 ,即sim(x, y) = 0;

4)相似关系是对称的,即sim(x, y) = sim(y, x)。

2 概念语义树

使用层次化的树状结构来描述概念之间的逻辑关系,这种语义化的概念树为检索算法提供语义基础,在检索过程中不同的概念之间也有一定的相似性和相关性,因此需要处理概念树中祖孙节点、兄弟节点等不同类型的关系,我们考虑用概念间的相似度对其进行描述和量化,以提高检索的准确率为了计算概念相似度,作如下定义[3-4]:

定义1:在本体概念的树状层次结构中,如果概念A和概念B之间存在这样的关系:A是B的祖先,则称A和B为同支概念。概念A称为A和B的最近根概念,记为R(A,B),而A、B之间的距离dist(A,B)=dep(B)-dep(A),其中depth(C)为概念C在层次结构中的深度。如图1(a)所示。

定义2:在本体概念的树状层次结构中,如果概念A和概念B之间存在如下这样的关系:A不是B的祖先并且B也不是A的祖先,则称A和B为异支概念。如果概念R是A和B最近的共同祖先,并且是符合此条件的所有节点中距离概念树的根节点最远的一个,则称R为A和B的最近根概念,记为R(A,B),且A、B之间的距离为dist(A,B)=dist(B,R)+dist(A,R),如图1(b)所示。

定义3:概念C 称为概念A 和B 的语义相关概念,当且仅当概念C 满足如下的条件:当A, B 为同支概念时,C 在以A 为根的子树中且不在以B 为根的子树中;当A,B 为异支概念时,C 在以R 为根的子树中且不在以A 或B 为根的子树中。

在计算语义相似度时,A和B各自的子概念数以及它们的语义相关概念数对相似度计算结果也有影响, 当A,B为同支概念时,A的子概念由B的子概念和A,B的语义相关概念组成,前者所占的比重越大,则概念A,B的语义相似度越大;当A,B为异支概念时,R的子概念由A 的子概念、B 的子概念以及A,B 的语义相关概念三部分组成,前两部分的比重越大,则A,B 的语义相似度越大。

1)当A,B为同支概念时,A与B之间的语义关系为:

式中,m表示概念B的子概念数,n表示概念A的子概念数。

2)当A,B为异支概念时,A与B之间的语义关系为:

式中,m表示概念B的子概念数,n表示概念A的子概念数,X表示A与B最近根概念的子概念数。

定义4:两个概念之间的语义距离,是指在语义树中连接这两个概念的最短路径的长度。语言学研究认为,两个概念的语义距离越大,其相似度越低;反之,两个概念的语义距离越小,其相似度越大,两者之间可以建立一种简单的对应关系。特别地当两个概念之间语义距离为0 时,其相似度为1;当两个概念之间的语义距离为无穷大时,其相似度为0。两个概念之间的语义距离表达式为:

式中,distant(A,B)表示概念A与B之间的语义距离,weighti表示连接A,B的最短路径上第i 条边的权值。

定义5:概念的深度是指该概念与语义树根的最短路径中所包括的边数。因为在语义树中,每一层的概念都是对上一层概念的细化,由此可见,在语义距离相同的前提下,两个概念的深度和越大,概念之间的相似度越大;两个节概念的深度差越小;概念之间的相似度越大。概念深度的表达式为:

式中,depth(A)表示概念A的深度,n表示概念A与语义树根之间的最短路径中所包括的边数。

3 语义相似度计算方法

考虑概念语义树中概念之间的层次关系、继承关系及语义关系,我们提出下面这个关于语义相似度的就算方法:

其中:Level(A,B)表示概念之间的语义关系对相似度的影响;

Distant(A,B)表示概念之间的语义距离对相似度的影响;

Depth(A,B)表示概念之间的深度对相似度的影响。

但对概念语义树中层次结构分以下这两种情况考虑:

1)当A,B为同支概念时,A与B的语义相似度为:

2)当A,B为异支概念时,A与B的语义相似度为:

α,β,γ为调节因子,且α+β+γ=1.

4 实验结果

选取如图2一个简单的实例来计算语义相似度。

选参数α=0.6,β=0.3,γ=0.1,可得到“计算机”与其余各节点之间的语义相似度为:

参考文献:

[1] 刘群,李素建.基于《知网》的词汇语义相似度计算[J].Computational Linguistics Chinese Language Processing,2002,7(2):59-76.

[2] 李玲.面向流程诊断的企业知识相似度匹配工具研究与开发[D].哈尔滨:哈尔滨工业大学,2006.

[3] 王进,陈恩红,施德明,等.一种基于语义相似度的信息检索方法[J].模式识别与人工智能,2006(6):2-6.