美章网 精品范文 测度论在统计学中的应用范文

测度论在统计学中的应用范文

测度论在统计学中的应用

测度论在统计学中的应用范文第1篇

关键词:“建模式”教学;温故知新;热电式传感器

作者简介:卢森幸(1977-),男,壮族,广西宜州人,河池学院物理与机电工程学院,讲师,桂林电子科技大学电子工程与自动化学院硕士研究生。(广西 宜州 546300)

中图分类号:G642.0     文献标识码:A     文章编号:1007-0079(2014)14-0136-02

21世纪是信息化时代,传感器是信息采集系统的首要部件,它既是现代信息技术系统的“感官”,又是信息社会赖以存在和发展的物质与技术基础。[1]因此,培养具有传感器技术的学生将会是培养应用型人才的有效途径。

一、“传感器与检测技术”教学现状

1.学科知识多元化,学生方向难定

“传感器与检测技术”是一门交叉学科,知识多元化,并且实践性强,相关知识更新快。多元化使得学生摸不到头绪,不知道从何下手;由于时间、实践设备、精力等因素限制,实践无法做到面面兼顾;面对学科知识更新无法迎头赶上。这样,学生往往“在努力中失败”,学习倍感压抑,学习兴趣自然会逐渐被磨灭。

2.教材编写知识点分立化,关联性差

在教材编写上,为了能够明确阐析,节省版面,教材编写一般分为传感器原理、结构、性能(参数)、测量电路、补偿电路和应用模块,但分模块单独列举和说明,它们的关联性没有很好地得到针对性说明。学生在学习过程中,由于知识面不够,大局观受到限制,自然把这些知识都分立开来,导致感觉所学的知识杂,难以掌握。

3.传统教学模式缺乏综合性和和实践性

在传统的教学模式中,教师往往依照教材内容、应用教材课件完成教授任务,享受教材知识分立说明便捷,忽略教材知识模块之间的关联性的重组。同时,教师过于注重独立知识点的解释、公式的推导、原理的分析等内容,缺乏对传感器技术的分析和应用具体问题的教授,无法很好涉及综合应用,更多采用口号式说明“综合性和实践性强”。

二、以应用为导向开展“建模式“教学模式

“建模式”教学模式以应用为导向,把各个知识点关联;以培养工程师高度出发,给学生贯彻研发设计理念;以系统研发设计为目标,注重培养学生模块到系统思维。

1.“建模式”是“温故知新”学习模式

“传感器与检测技术”几乎涉及现代文明的所有学科,并且传感器又有自己的工作原理和性能特性。学生如果什么都当成新知识,那么脑子的“内存空间”就会不够用了,学习就会走上迷途,当然难以产生学习兴趣。“建模式”是“温故知新”教学模式,教学过程中要鼓励学生自信已学知识够用,树立学习信心。具体做法是:在教学过程中,给学生灌输“吃老本”的思想,即应用已学的知识、技能去“感知”待测量的学习过程。其实,所涉及的学科学生大部分已经学习,但学生迷茫的是:不懂得如何去应用,特别是综合应用。在教学过程中,教师实施“建模式”教学,帮助学生弄清楚学习方法、线索,引导学生进行检测系统“入门学习”,指导学生应用已学知识去解析新知识,找到各个知识点之间联系;以应用为导向和开发思维式进行教学。这样,学生综合能力、实践能力自然得到提高,学习兴趣当然浓厚。

2.“建模式”教学模式的建立与实施方法

“建模式”模型建立过程有4个步骤,即原始模型(建立)、模型分析、模型假设和模型应用,如图1所示。该教学模式把学科内容中传感器原理、结构、性能(参数)、测量电路、补偿电路和应用有机结合起来。

“建模式”模型各个步骤的具体内容如表1所示,在实施过程中,按照各个步骤内容进行,注意各个步骤具有独立性,同时,注重关联性引导教学。

表1 “建模式”模型各个步骤的具体内容[2]

步骤 具体内容

原始建模 系统设计需要有核心理论来支撑的。传感器检测系统是物理、化学、生物效应的应用,这些就是检测系统的支撑理论。根据待测量特点、系统结构和性能要求、系统设计目标进行某个效应、公式或理论选用过程,也就是原始模型建立过程

模型分析 根据待测量特点、系统结构和性能要求、设计目标进行模型分析。本科阶段,传感器检测系统一般为线性系统,以应用为导向进行分析,创建线性传感器检测系统;建立过程中得出传感器检测系统的结构

模型假设 为了达到待测量特点,结合系统结构、系统性能要求和系统设计目标而构建的线性传感器检测系统必须做出诸多假设,从中将引出传感器检测系统的性能参数。同时,检测系统产生诸多误差,因此,在进行检测系统分析、设计的时候,需要构建相应的补偿电路

模型应用 传感器检测系统将待测量转化为已知量输出,构建相应的测量电路,应用电路,形成待测量检测系统

在“建模式”教学的过程中,课堂课后都注重发挥学生的主导作用。具体操作方式是:利用课堂教学平台、网络教学平台、第二课堂平台,对学生进行分组,并分配任务:收集补偿电路、设计补偿电路;收集并讲解经典电路、设计功能电路;收集并讲解检测系统电路、设计检测系统。

整个施行过程,以小组为单位,针对“建模式”教学模型各个模块开展教学:学习他人设计模仿他人设计自行设计;最小模块设计模块关联设计检测系统设计。

这些教学最大的特点是,由于网络和第二课堂平台应用,使得这些教学不用拘泥传统教学中的时间、空间、人等因素。

3.“建模式”教学模式实施实例

现以热电式传感器为例简单讲解“建模式”的教学模式实施。篇章限制,授课内容点到为止,重点讲解课程知识点的引导、授课方式/手段和相关学科知识在授课过程中的引入、关联、应用。

(1)原始模型。热电式传感器终极设计目标是制成热电式传感器检测系统,用来检测测量量是温度。它支撑理论是热电效应,这是物理学知识应用。教学时,用动画、实验演示热电效应。在进行操作的时候,强调两电极材料不同,两接触点温度不同;应用高等数学知识解析理论中的接触电势和温差电势。其中的具体内容就是热电式传感器工作原理,即原始模型。通过直观操作可以加深学生对原理理论理解,让学生相信实践可行性。学生能够应用所学物理知识去完成温度测量,这是一个巨大的成就感,学习兴趣自然浓厚。

(2)模型分析。线性系统要求:被测量温度变化转化为电动势变化。而热电动势公式参量中,有玻尔兹曼常数、电子电荷量、材料自由电子密度、汤姆逊系数、两触点温度。这就涉及两个问题:一是在构建线性系统时,如何弱化无关参量从而实现系统线性化。二是如何进行系统结构设计?针对问题,应用高等数学理论进行分析,引出温度检测系统结构并建构。在建立结构的过程中,选取材料要注重几何形状、工艺、环境因素等影响。同时,材料涉及很多参数,其实是材料物性、电气特性应用,引导学生具体应用,使学生懂得材料选择相关因素,从而更为直观理解电气知识应用、电气知识与材料乃至系统结构构建的协调关系。这是在一般教学中无法做到的。讲解完该线性化例子后,以组为单位,完成电阻公式的线性化。在学院网络教学平台进行,各组讨论完成。

(3)模型假设。为了做成线性系统、达到温度检测系统设计要求,构建模型的时候,需要做出诸多假设。这样,就会引入一定误差。然而,学生出于多种原因,对于误差补偿存在以下局限性:1)不补偿。设计时找一个电路,调试出结果是运气,调试不出就放弃。2)补偿手段单一。学生见识面少,导致补偿手段单一。3)补偿不周全。学生缺乏大局观,补偿不周全。

要想对构建系统时的假设引起的误差进行补偿,首先,需要从构建结构所用的材料出发。构建结构所用的材料有许多性能参数,参数涉及物理特性、电气特性。授课时点到相关知识点应用,只要知识点联系上,学生自然能够“顿悟”。其次,引导学生从结构设计上进行补偿,如:热传导处理、隔热处理、触点焊接处理。授课过程中重点讲解冷端补偿:延长导线法;0℃恒温法;热电势修正法;温度修正法;冷端温度自动补偿法。其中,延长导线法、0℃恒温法都是结构设计上补偿;操作时,热电偶冷端远离测量场,温差明显;在讲解过程中,强调引入第三方导体及其影响处理,即物理特性――中间导体定律应用,引导学生如何完成理论到结构设计具体实施。热电势修正法、温度修正法从理论公式上的补偿,其实就是电气公式的数学处理,电子技术知识和高等数学应用。冷端温度自动补偿法是电子法,即电子技术知识应用,讲解时,指出中间温度到0度间产生一电动势,这使得输出初始时不为0,而检测系统需要初始输出为0;利用电子法产生一电动势,大小相等,方向相反即可。最后,对输出热电势及其误差分析并补偿:输出热电动势微小,注意负载的影响,这其实是电子技术知识应用;从结构设计、物理特性、电气特性等方面进行分析,即材料学、物理学、电气知识的应用;研究系统的动态响应,做到系统补偿,即自动控制原理知识应用。

为了巩固学习,布置任务:分析某一温度补偿电路图;以组为单位,收集或设计一温度补偿电路。任务在第二课堂或学院网络教学平台上进行且讨论完成,课堂抽查,讲解讨论。

(4)模型应用。讲授经典电路,从温度检测系统组成、构造、调理等方面入手,培养学生系统设计思维。检测系统各组成模块电路――学生大多已经学习、接触、应用。但是,学生少用,综合应用更少,应引导学生收集、理解、应用、设计各个模块电路――即电子技术知识积累、应用。同时,引导学生收集经典电路、构建虚拟检测系统和实物检测系统。教学过程中,课堂引导、利用学院网络平台、第二课堂开展以学生为主的检测系统讨论、设计,培养学生检测系统设计思维,提高学生实践能力。

4.实施“建模式”教学显著效果

在施行以应用为导向“建模式”教学的过程中,课堂、课后都注重发挥学生的主导作用,发挥课堂平台、网络教学平台和第二课堂作用,让学生有时间、有空间、有动力进行学习,具体效果如下:第一,通过多组收集同一功能不同设计电路,这可以成为学生课程设计、毕业设计乃至成为工程师的电路素材。第二,通过多组讲解同一功能不同设计电路,让学生主动理解更多功能电路,电路知识认知、应用得到飞速提高。第三,通过设计功能电路、检测系统,可以提升学生电路、检测系统设计能力。第四,“建模式”教学以应用为导向,把各个知识点关联;以培养工程师高度出发,给学生贯彻研发设计理念;以系统研发设计为目标,培养学生模块到系统思维。

三、结束语

近年来教学实践证实,在“传感器与检测技术”教学过程中,以应用为导向开展“建模式”教学,学生对传感器与检测技术知识能够找到学习规律,并且能够系统掌握相关知识;对传感器检测系统认知、构建、设计都能够比较从容进行;综合能力、系统意识和设计思维得到明显提高。

参考文献:

测度论在统计学中的应用范文第2篇

【关键词】自适应测试;计算机化自适应测试(CAT);项目反应原理(IRT)

【Abstract】As an important method of judging peoples’ abilities , the kind of examinations is becoming more and more. As the science and technology is developing continuously, computerized Adaptive Testing (CAT) is used more and more widely. This article introduces the conception of CAT. It also presents the basics in theory of it------Item Response Theory (IRT), The author designed a Computer Adaptive Testing (CAT) blue print and developed a system based on this print. The CAT Theory and Method are introduced in this article.

【Key words】Adaptive Testing; Computerized Adaptive Testing (CAT); Item Response Theory (IRT)

自m应测验是一种新型的测试手段,操作起来各个阶段都比较复杂,涉及到试题选择与考生能力的估计,如果不适用计算机,会较难实施。与传统的纸笔测试相比,其速度更快,效率更高,也更准确。可以有效避免了传统测验中能力低者做难度高的试题,能力高者做难度低的试题这类情况。

基于自适应测试理论来建立基于计算机的自适应测试系统,还可以充分的进行试题分析,试卷分析等教学信息方面的工作。可以更真实地反应学习者的学习水平和特点,有利于教师对学生因材施教。

1 测试理论

计算机自适应测验建立在项目反应理论的基础上,从建设题库到选择试题,全部以项目反应理论为指导。“IRT称为项目特征曲线或潜在特质理论,它是根据某一数学模型,用项目特征曲线参数估计潜在特质的一种测量理论。”其中,最重要的两个概念是”潜在特质”和”项目特征曲线”。“潜在特质是指人具有相对稳定,支配其对相反的测验做出反应,并使反应表现出一致性的内在特征,一般用θ表示。决定某一行为的潜在特质往往不是一种,潜在特质的集合称为潜在特质空间。”

1.1 经典测试理论(CTT)和项目反应理论(IRT)的比较

在现代教育测量当中主要有两种指导理论:经典测试理论和项目反应理论。它们都有各自完整的试题分析的指标体系和评价标准,例如:难度,区分度、标准误差以及信度等。

一般情况下,绝大多数纸笔考试是基于经典测试理论的,它以信度,效度,区分度等为主要测量特征。但是经典测试理论有一个显著的缺点,被测试者的分数与题目的难易程度相关,即题目难度不会因为被测试者能力的高低而改变。项目反应理论正好可以克服这样的缺点,它依据被测试者的能力,根据不同的被测试者具体情况来出题,可以很好的克服传统测试理论的缺点。

1.2 项目分析参数

好设置合理的测试题目,需要对每一个题目进行分析,这包括难度,区分度,效度以及信度等。“难度就是试题的难易程度,是衡量一道题目质量的一个重要指标,难度和区分度共同影响并决定测试的鉴别性。”难度一般用可以用以下公式计算:P=R÷N(其中P代表试题的难度指数,R代表试题的答对人数,N代表考生人数)。“区分度是测评试题区分应试者能力水平高低的指标。”试题区分度高,则能够拉开不同水平应试者分数的距离,使水平高者得高分,反之得低分。区分度可用以下公式计算:D=(H-L)÷N(其中D代表区分度指数,H代表高分组答对题的人数,L代表低分组答对题的人数,N代表高分组与低分组人数之和)。信度是指人测试结果的一致性或稳定性,稳定性越大,一致的程度越高,就意味着测试结果越可靠。一般来说,测试的信度要控制在0.7以上。效度是指测试的有效性和正确性,即测试是否有效测量了它要测定的东西,是否达到它所预定的测评目标。效度是一个相对概念,而不是一个绝对概念,即效度只有高低之分,而没有全部有效和全部无效之分。

1.3 项目反应模型

项目反应理论(IRT)一种先进的测验理论。基于这一理论的测验模型称为IRT模型。IRT模型是一种数学模型,他定义了被测试者对试题的反应和潜在能力特质之间的关系。项目反应理论(IRT)建立了被测试者反应与试题参数和能力水平之间的非线性模型,具有参数不变性,估计出的能力值不依赖于测试题目样本的特性,同时可以根据题目信息量,选择与被测试者能力相匹配的题目,直到达到预定的测试精度要求。

2 自适应在线测试系统设计

2.1 自适应考试模型流程

此次考试模型设计通过测验算法来实现的。首先为被试者确定一个初始的特质水平估计值θ,根据这个值,给出第一个测验项目,答题之后,系统自动估计其能力值θ,再根据这个值来选择下一道题,并以此类推,直到测验条件满足,结束答题。

2.2 自适应考试系统模型设计

测试考试系统采用三参数模型,难度、区分度和猜测指标。在建立题库时,题目的难度、区分度指标都是由有经验的教师或者是该领域的专家进行初始设定,有一定的权威性。在以后考试的过程中可以根据实际情况进行修改。初始测试项目的选择:在初始项目中假设在测试开始前已经知道了所测试对象的相关情况,我们就以以往参加过测试的被测试者特质水平的平均值为初始估计值。应试者能力水平的估计:通过最大似然法通过被测试者的似然函数区最大值来求测试者的能力参数θ。测试项目的选择:在考生答题完毕,系统对次此考试进行测试项目分析,算出考生的能力参数θ,采用项目反应的Logistic模型中的三参数模式。

3 在线考试系统的设计

3.1 系统总体设计

系统包括了用户注册、登录、参加在线考试以及管理员进行试题录入、修改、删除、成绩查询、管理等功能,具有开放性、方便性和灵活性。可以实现向题库添加、修改和删除试题。对考生进行有效的身份验证登录后,选择进入考试系统,并要求在规定的时间内进行答题,当达到规定的时间后,系统将自动予以提示。一旦考生做完交卷后便能立即看到自己的考试成绩,并且其分数将被记入库中以供审核和查阅;另外,还可完全由计算机自动灵活、随机的抽取试题库中的各类试题组成各种形式的试卷,其内容会随着库中试题的改变而改变,而且,不同的考生生成的试题是不同的。在线考试系统的结构图1所示:

3.2 题型、数据库设计

考试系统的核心部分是稻菘獾纳杓疲系统能够快速合理的从后台的数据库中检索出相关的数据。数据库中表的设计通常,每一类型的试题都应有一个表结构。但考虑到目前系统存贮空间可以很大。我们采用把全部试题集中在一起的方案来建立数据(下转第277页)(上接第283页)表,每道客观题均有四个备选答案项,每个试题均具有题型,分值等数据段表示其属性。字段名一般是相应的英文单词。这样,查询起来较方便,会节约时间,也不致于造成数据十分杂乱等。

4 功能模块详细设计

考试系统主要包括以下模块

4.1 系统管理模块

管理员可以向题库中添加各种类型且符合要求的试题,也可以对它们进行修改和删除。同时,管理员也能对用户、考试题目、考试记录等数据进行管理。

4.2 成绩管理

考生每次考试的成绩都会被录入数据库,系统对这些数据进行加工统计分析。提供学生在线查看学生的成绩。

4.3 考试试卷管理系统

包括试卷的考试时间,单选多选的题量以及单选多选的分值(设定试卷的各项数值)。考试监控在线查看学生的到场及交卷情况。在线阅卷是针对主观试题的测试者在提交后,通过网络把答题的内容传到管理员(这里一般的教师就是管理员)的在线阅卷的浏览器上进行阅卷。

4.4 用户管理

进行用户的添加,删除,查询和登陆权限的设定。

4.5 在线考试模块

考生登录后,只要选择考试以后,就可以调出试卷进行在线考试。为了实现动态随机不重复的抽取试题,需要在选题过程中每选出一题,就要在试题库中作相应的标志,以便下次不会重复取出此题。试卷出来后要对试题库中的标志位复原。这样就会使每个考生的试卷都不同。考生的其答题信息通过单、复选按钮选择答案来反应。考试结束采取自主交卷和到了规定的时间自动题示有机结合的方式办法予以实现。

用户注册模块

该模块的功能是实现用户远程注册。用户输入想要注册的用户名、密码、重复密码、真实姓名和学号,提交之后由系统判断该用户是否已经存在,如果存在,就给出相应信息,如果不存在,就把用户输入的用户名和密码写到数据库中,完成注册。当然,在进入系统后,无论是系统管理员还是普通用户都可以修改更新自己的个人信息资料。

5 小结

本文通过对项目反应理论的研究给出了一个计算机网络在线考试系统的设计模型,可以提高测试的效率,才外还克服了传统组卷方法的随机性和偶然性,提高了随机组卷的合理性,实现透明管理,增强了测试的安全性,教师可以轻松的对题库进行操作和管理,能够方便的查询试题信息、考生信息和考试成绩,并在此基础上对成绩进行分析,极大的提高了效率。

【参考文献】

[1]李克东.教育技术学研究方法[M].北京师法大学出版社.

[2]傅德荣.教育信息处理[M].北京师范大学出版社.

[3]向广莉.CAT在远程教育中的应用[J].湖北教育学院学报2002,19(2).

[4]何利平.C程序设计非标准化试题CAT模型的建立[J].衡阳师范学院学报2003,24(3).

测度论在统计学中的应用范文第3篇

关键词:经典测验理论 项目反应理论

自比纳编制测量理论以来,经典测验理论历经百年发展,围绕着实得分数与真分数和误差分数的关系已经建立起一套完整的测量理论与统计分析方法,是当前占据统治地位的测量理论。项目反应理论作为一种重要的现代测量理论,提出项目特征曲线,反映每道题目上被试某种反应的概率与被试的心理特质水平的关系,突破了若干经典测验理论一直以来无法解决的问题,具有广阔的发展前景。本文拟主要从理论基础、题目分析和误差估计三个方面对这两大测量理论的异同作一比较。

1 理论基础的异同

1.1理论基础的相同点

人的心理特质具有内在且无法直接测量的特点,所以在心理与教育测量中只能使用间接测量的方法。经典测验理论与项目反应理论使用的都是间接测量方法,透过被试外在可观察的行为反应估计被试内在的心理特质水平。

1.2理论基础的不同点

经典测验理论以真分数理论为基础,建立在实得分数X与真分数T和误差分数E的关系上。真分数理论的数学模型为:X=T+E。在此基础上推导出来的一系列假设都容易得到满足,所以属于弱假设。项目反应理论的理论基础为潜在特质理论,并需要满足一维性假设、局部独立性假设,实际上,这些假设都很难实现,因此是强假设。

由于经典测验理论的弱假设能被大多数测验满足,所以应用广泛,但同时存在的问题是,经典测验理论认为实得分数X与真分数T存在线性关系且真分数T与误差分数E不相关,这两个假设都不符合事实,必然导致经典测验理论测量误差增大。而项目反应理论的一维性假设对测验要求较严格,一方面限制了项目反应理论的应用范围,另一方面也提高了测量的准确程度。

此外,经典测验理论采用的是线性确定性模型,忽略了在某次测验中可能存在的猜测和遗忘等其它因素的影响。项目反应理论使用的是非线性概率模型,只是对被试在某次测验中作出某种反应的概率作出估计,与实际更为接近。

虽然理论模型不同,但经典测验理论与项目反应理论都能有效测量到被试的心理特质。相对来说,经典测验理论是用被试测验的实得分数X直接估计被试的特质水平,项目反应理论则是用项目特征曲线为中介对潜在特质θ作间接估计。

2 题目分析的异同

2.1题目分析的相同点

经典测验理论与项目反应理论各有一套对题目进行分析和筛选的方法。两者大相径庭,但都采用了难度和区分度作为题目分析的指标,并且都能有效地对客观题作题目分析。

2.2题目分析的不同点

经典测验理论与项目反应理论作题目分析时,两者各有所长,主要有以下几点不同:

(1)项目反应理论的题目参数具有样本独立性,经典测验理论的题目分析对样本依赖性大。

因为经典测验理论属于随机抽样理论,所以在其基础上编制的测验强调所抽取样本的代表性。题目统计量难度以通过率P来表示。如果抽取的被试的水平高,则通过率高,题目难度低;反之题目难度则高。另一题目统计量区分度通常以鉴别力指数D作为指标。当样本同质性高时,高分组和低分组的得分差异不大,D较小,则区分度低;当样本异质性高时,高分组和低分组得分差异较大,D也会较大,此时区分度则高。可见,经典测量理论下进行题目分析,题目统计量的估计随样本变化而变化。

除了难度与区分度,项目反应理论还加入了猜测度这一新概念作为题目参数。另外,项目反应理论采用项目特征曲线作为刻画题目特征的核心。只要样本容量足够大和选用了适当的数学模型,并通过了拟合度检验,项目特征曲线就能与所得数据很好地拟合,这时,题目参数固定不变,不受取样变化的影响。题目参数的这一性质为实现测验等值与建立大规模的题库提供了条件。

(2)项目反应理论将难度参数与能力参数置于同一度量系统,而经典测验理论的难度统计量与被试特质水平的估计脱节。

经典测验理论的统计量难度的指标为通过率,以全体被试作为参照系;而对被试特质水平则以实得分数来评价,参照系是测验的所有题目。由于对难度和特质水平的估计采用了不同的参照系,所以即使计算出题目的难度,对评价特定被试的特质水平指导意义不大,也无法针对特定被试的水平选择最适当的测验题目来施测。项目反应理论把难度参数与能力参数置于同一量纲,一方面使在不同测验或不同样本条件下对被试潜在特质水平的估计不变和可进行比较,另一方面还为自适应测验的实施奠定了基础,大大有利于提高测量的精度,减少测量误差。

(3)与经典测验理论相比,项目反应理论对样本容量要求高得多。

项目反应理论作为一种具有蓬勃生命力的现代测验理论,毫无疑问拥有一些经典测验理论无法比拟的优越性,但这些优点都必须在样本容量足够大的条件下才能够体现出来。一般来说,项目反应理论要求样本容量在1000人以上,项目特征曲线都能较好地拟合。相对而言,经典测验理论对样本大小的要求就低得多。

(4)经典测验理论能有效分析主观题,项目反应理论只限用于二级计分模型。

对主观题作题目分析时,项目反应理论束手无策,而经典测验理论仍可以提供难度、区分度等统计量。尽管经典测验理论对主观题分析的精确度不太高,但仍不失为一种有效的分析方法。目前,项目反应理论还只适用于二级计分模型,对多级计分模型,也都是将其转化为二级计分模型才能处理。这使项目反应理论的应用囿于客观题的范畴,极大地限制了项目反应理论应用的空间。

(5)项目反应理论对运算的要求远远高于经典测验理论。

因为项目反应理论需要对题目参数与被试能力参数不断地进行拟合,其中包含了大量繁杂的运算,所以项目反应理论必须借助于计算机软件才能应用于实际。而经典测验理论将心理特质看成一个连续变量,通常使用的统计量是平均数与方差,相比之下,运算简单得多,即使在过去完全依靠手工计算的时期,也没有妨碍经典测验理论得到广泛应用。

3误差估计的异同

3.1误差估计的相同点

所有的测验都希望能尽可能准确地测量所测特质,减少测量的误差。经典测验理论与项目反应理论都能对全体被试的测量误差作出估计。

3.2误差估计的不同点

经典测验理论与项目反应理论采用不同的指标来衡量测量误差的大小。经典测验理论通过信度的概念来评价测验误差。平行测验理论是测验信度建立的基石,但严格的平行测验并不存在,实际计算得到的信度其实是低限估计,因此作为评价测量误差指标的信度其本身的准确性就受到质疑。此外,经典测验理论假设测验对所有被试的测量误差相同,只能计算出被试的平均测量误差,忽视了同一测验对不同水平被试测量误差不同的客观事实,导致信度代表的测量误差意义不明确。

项目反应理论提出了题目信息函数和测验信息函数两个新概念,两者反映的分别是特定题目与整个测验所提供的信息量。这两个信息函数与被试潜在特质的水平直接有关,所以不但能求出全体被试的测量误差,更有意义的是,还可以对不同水平的被试也求出测量误差,大大提高了测量的精度。因此,项目反应理论以题目信息函数与测验信息函数替代了经典测验理论中反映测验误差的信度。此外,这两个函数还可用于筛选题目,选用信息量大的题目构成测验,缩短测验长度,提高效率。

此外,经典测验理论使用效度对测量的系统误差也作出了估计,而在项目反应理论中没有提出相应的概念。

小结

诚然,经典测验理论发展至今,其自身无法克服的缺陷日益突出,而项目反应理论在题目参数稳定性、对测量误差的评估等多个方面都弥补了经典测验理论的不足。但是,项目反应理论对一维性假设的条件实际应用时常常不能得到满足,要求采用很大的样本和适当的模型,不能用于分析主观题和多级计分模型,没有论及测验的系统误差,这些缺点也大大地限制了项目反应理论的应用。

现阶段,经典测验理论与项目反应理论这两大理论仍将互补长短,共同发展。只有在项目反应理论的研究取得以上不足的突破性进展后,项目反应理论才有可能取代经典测验理论一直以来在测量领域的统治地位。

参考文献:

[1]张敏强.教育测量学.北京:人民教育出版社,1998:135-143.

[2]戴海崎,张锋,陈雪枫主编.心理与教育测量学.广州:暨南大学出版社,1999:423-441.

[3]唐玉宁.三种心理测量理论的信度观.心理学报,1994,17(1):33-38.

[4]赫云鹏,王俊秀.关于心理测验理论模式的比较.内蒙古师大学报(哲学社会科学版),1997,(4):32-36.

[5]郭庆科,房洁.经典测验理论与项目反应理论的对比研究.山东师大学报(自然科学版),2000,15(3):264-266.

测度论在统计学中的应用范文第4篇

【关键词】词汇测试;广度测试;深度测试;IRT;单词库

【中图分类号】G434 【文献标识码】B 【论文编号】1009―8097 (2008) 12―0087―04

一 引言

语音、词汇和语法是语言的三大要素。学习语言的最终目的是为了交际,词汇是语言交际的核心。对于ESL(English As A Second Language)学习者,词汇是外语学习的主要瓶颈与最大障碍。在国内,大学英语考试(College English Test)是教育部主管的一项全国性的教学考试,其中四级考试(CET-4)自从1987年,六级(CET-6)自从1989年在我国实行以来,其目的是在于准确地衡量我国在校大学生的英语综合应用能力,为实现大学英语课程教学目标发挥积极作用。其对学习者词汇量的要求又是针对大学英语教学大纲而制定,大致为4500个单词700个词组(CET-4)和5500个单词与1200个词组(CET-6),词汇量水平以及掌握程度在很大程度是直接影响四、六级成绩的首要因素。因此,如何科学有效的测量学习者的词汇量,以及对词汇的掌握程度的研究成为语言研究者在教学研究活动中十分关注的问题。

为了帮助学习者进行词汇的记忆与学习,以便有效地进行词汇测试,作者构建了基于IRT的大学英语词汇在线自适应测试系统,其中的自适应算法设计是该系统的核心问题。本文首先论述词汇广度和深度的内涵及其测试;其次引入项目反应理论(Item Response Theory,简称为IRT)以及词汇知识衡量等级(Vocabulary Knowledge Scale,简称为VKS)来进行单词的广度与深度测试;再次详细介绍了词汇测试系统的设计实现;最后提出了本系统的一些不足以及今后的研究方向。

二 词汇广度与深度及其测试

词汇测试分为广度测试(Vocabulary Breadth Measures)和深度测试(Assessment of The Depth of Vocabulary Knowledge)。广度测试是估计语言使用者的词汇总量,深度测试是了解语言使用者对词汇知识掌握的程度。词汇量以及词汇深度知识均可有效预测语言综合能力(包含听力、阅读、完型、写作,下同),其中词汇深度知识对语言综合能力的预测能力强于词汇广度知识,特别体现在四、六级的完型填空与写作的预测中,而总体来说词汇广度与深度呈高度正相关[1]。

词汇量测试,一般称为广度测试,其重要性以及与语言综合能力关系的研究成果颇多,国外具有代表性的是词汇量与阅读(Koda 1989;Laufer 1989,1992;Laufer & Nation 1996;Qian 1999,2002)[2-7]及语言综合能力(Meara & Jones 1988)[8]呈显著正相关关系。国内具有代表性的有词汇量与语言综合能力成高度正相关关系(桂诗春 1983,1985)[9-10]。当前常用单词量测试的方法有以下几种:一是概率统计法。即一定样本中随机抽取单词,选择其正确的意思,根据其抽样单词答对百分比来做样本总量的推断;二是词表是否测试法。即认识为是,不认识为否;三是Nation(1983,1990)[11-12]的分级词汇测试法等。

学习者对词汇知识(深度)的习得,是一个由不同层面和水平组成的连续体,而不是一个“习得”或“未习得”、“知道”或“不知道”的简单二分的过程。词汇深度有以下的分类方法:从多个维度(Dimensional Approach)界定,主要代表人物有Cronbach, Richards, Nation, Qian[13-15][6];从发展的角度(Developmental Approach)出发,主要代表人物有Dale,PARIBAKHT & Wesche[16-17];主要的测试工具有新西兰维多利亚大学瑞德John Read设计的词汇联想测试(Word Associate Test)和PARIBAKHT & Wesche的词汇知识衡量等级(VKS)等。

三 项目反应理论(IRT)与词汇知识衡量等级(VKS)

一直以来, 学生为了备考大学英语四、六级考试所做的第一件事往往是背单词。大多数学生仅是单纯的背诵单词的拼写,对词组的记忆,而忽略了如何将单词与语法、句法联系起来运用。综合作者所做的文献调研得知,如何有效科学地进行单词量评估与施测,以及对一定单词量(广度)的基础上再进行“质”(深度)的测试目前还没有一个行之有效的方法。

上文提及的几种词汇量测试方法,即词汇广度测试,均不能体现学习者的能力特征,从而很难保证学习者的测试效度。其次测试中的施行效率也不高,即抽取的样本量以及如何抽取等。因此本系统采用当前测试中普遍使用的项目反应理论(IRT)[18]来进行单词量自适应测试。由于国内外单词量测试题型主要有选择题与翻译,而前者应用更广,且具有较高的信度、效度(娄喜祥2005:2)[19],故而本文的单词量测试也采用选择题。然后在此基础上运用PARIBAKHT & Wesche的VKS工具再进行深度测试。

项目反应理论(IRT)最大优越性在于测试系统可以主动适应受测者状况的“因人施测”问题。试题参数的估计独立于被试样本,而能力参数的估计又独立于试题样本。也就是说,项目反应理论中的这些参数具有不变性,它们不随被试的样本而变化,从而提高了测试效率和测试效度,以及避免了测试过程中被测能力与题目难度的密切关系。理论中最常用的是拉希模型、双参数和三参数逻辑斯蒂(Logistics)模型,运用极大似然法或贝叶斯方法来估计项目的参数难度―区分度和伪随机参数。本文系统采用了三参数逻辑斯蒂模型以及极大似然法,其中三参数逻辑斯蒂模型的函数表达式如下:

上式中, 表示能力水平为 的人答对题目i的概率;

:表示受测者的能力水平;

D:表示量表因子,D=1.702

e:表示自然对数的底,e=2.71828

ai:表示题目i的区分度;

bi:表示题目i的难度;

ci:表示题目i的猜测度;

计算机化自适应测试(Computerized Adaptive Testing,简称为CAT)是建构在项目反应理论(IRT)基础上的,从题库的建设、参数的估计到试题的选择再到最后评分,都是以此为指导进行的。由于理论分析和实践经验都证明,只有当题目难度跟受测者水平相适应时,题目所提供的信息量才最大,受测者的积极性最高,误差最小,测试效度才会最高。CAT的核心思想是:系统会根据答题情况不断计算受测者的能力值及信息量,并实时地根据这些参数调整出题策略,选取与受测者能力相对应的试题,最终给受测者的能力与特质一个恰当的评价。

下面介绍下本文采用的单词深度测试算法,即广泛应用的PARIBAKHT & Wesche的VKS工具,该工具使用五个等级将自述与所表现的语言能力结合起来以得出研究对象对各个词的掌握程度,该表包括五项,每项意义如下表1:

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

四 词汇测试系统的设计

本系统是在大学英语四、六级单词库的基础上,首先应用IRT理论进行大学英语词汇的广度测试,然后使用IRT工具来进行词汇深度测试,并最终反馈给受测者关于词汇量与词汇掌握程度的度量结果。

其中单词量测试的具体流程如下,先根据受测者的能力初值从单词库中选取一个单词实施测试,如果受测者答对了就选取一个较难的单词再施测;如果受测者答错了就选取一个相对简单的单词再施测;不断重复测验过程,一直到受测者的能力值被精确估计出来为止。

本系统对于受测者有三种方式确定能力初始值。其一,选择历史记录,系统会自动选取该受测者最近的一次测试记录最终能力值作为初始值施测;其二,选择自定义初始值,系统将根据受测者自定义的初始能力值选取单词;其三,选择随机单词测试,这样系统会随机抽取一组单词,根据受测者的答题结果利用极大似然法初步估计其特质水平,然后继续施测。这里要注意的是,如果抽取的一组单词全对或者全错,会再次抽取一组施测,如果仍然是全对或全错,则说明题库中的试题对于受测者而言太难或太易,无法测出其真实水平,此时则终止施测,并向受测者反馈预测结果。在施测过程中,系统会根据受测者的答题结果动态评测其能力值,然后动态调整与之对应的单词难易程度。对于如何终止施测,也有几种方法,如题目数控制、测验估计精度、或者强制退出等。考虑到测量的精度需求以及效率、避免随机猜测等方面,本系统采用了受测者最后3次的估算能力值误差,如果此3次误差值皆小于指定误差范围内,则可以终止施测。其中选择随机单词测试的具体流程图和使用本系统单词量测试生成的能力值曲线图分别参见图1和图2所示:

然后,对于能力值的解释,本系统采用了极大似然法估算能力值,其近似正态分布的,从而对能力终值通过一个线性转换,其分布仍是正态,并得到其置信区间值,对应于本系统即是单词量的范围。最后按照单词的频率高低内选取前1%的单词再进行VHS深度测试,可进一步测试受测者单词的掌握程度,并反馈给受测者。整个测试流程如图3所示:

本系统的单词库建立是一个关键,要确定每个单词的难度、区分度、猜测度等参数,而其中难度又尤为重要。通常做法可以根据大纲要求的单词,然后按历年四、六级考试的词频划分,再与专家审核相结合后确定难度值等,或者由样本测试后统计分析确认参数值,本系统综合此两种方法,实现参数动态维护,更好的实现单词库的本身自适应,有效改进结果精度与测试效度。

五 结束语

本文就当前词汇测试提出了一个新的思路与尝试,即在自适应测试单词量的基础上再进行单词的深度测试,让学习者更方便有效地进行自身单词量的评估,进行下一阶段的复习。不仅可以做到“因人施测”,大幅提高测试效率,还可以反馈给受测者对于不同单词的掌握程度,更好的应用于大学英语教学改革。目前系统尚有许多不足,比如没有引入多值法自适应测试、受测者答题时间对于能力值的影响、以及与常用的概率统计等单词量测试方法的比较分析,此外,单词广度与深度对于低级、中级、高级词汇量的学习者所体现的不同相关度的介入等等,这些都值得我们的进一步深入研究与探讨。

参考文献

[1] 李晓.词汇量、词汇深度知识与语言综合能力关系研究[J].外语教学与研究,2007,39(5):424-450.

[2] Koda, K.The effects of transferring vocabulary knowledge on the development of L2 reading proficiency [J].Foreign Language Annals,1989,22(4):529-540.

[3] Laufer, B. A factor of difficulty in vocabulary learning:Deceptive transparency [J].AILA Review,1989,6(1):10-20.

[4] Laufer, B.How much is necessary for reading comprehension? [A] In H. Bejoint & P.Arnaud(eds.).Vocabulary and Applied Linguistics [C].London:MacMillan,1992:126-132.

[5] Laufer, B.& P.Nation.Vocabulary size and use:Lexical richness in L2 written production [J].Applied Linguistics,1996,16(3):307-322.

[6] Qian D D.Assessing the Roles of Depth and Breadth of Vocabulary Knowledge in Reading Comprehension [J].The Canadian Modern Language Review,1999,56(2):282-307.

[7] Qian D D.Investigating the Relationship between Vocabulary Knowledge and Academic Reading Performance:An Assessment Perspective[J].Language Learning,2002,(52):513-536.

[8] Meara,P.& G.Jones.Vocabulary size as a placement indicator [A].In P.Grunwell (ed.).Applied Linguistics in Society [C].London:Center for Information on Language Teaching and Research,1998:80-87.

[9] 桂诗春(编).中国学生英语词汇量调查,公共外语教学研究文集 [C].上海:上海外语教育出版社,1983.

[10] 桂诗春.我国英语专业学生词汇量的调查与分析[J].现代外语,1985,(1):1-6.

[11] Nation I S P.Testing and teaching vocabulary [J].Guideline,1983,5(1):12-25.

[12] Nation I S P.Teaching and Learning Vocabulary [M]. Victoria University of Wellington:English Language Institute,1990.

[13] Cronbach L J.An Analysis of Techniques for Diagnostic Vocabulary Testing [J].Journal of Educational Research,1942,(36):206-217.

[14] Richards J.The role of vocabulary [J].TESOL Quarterly,1976,(10):77-89.

[15] Nation I S P.Learning Vocabulary in another language [M]. Cambridge,England:Cambridge University Press,2001.

[16] Dale E.Vocabulary Measurement:Techniques and Major Findings [J] .Elementary English,1965,(42):895-907.

[17] PARIBAKHT T S,W ESCHE M B.The relationship between reading comprehension and second language development in a comprehension-based ESL program [J].TESL Canada Journal,1993,(11):9-29.

[18] Howard Wainer & Robert J. Mislevy.Item Response Theory Item Calibration, and Proficiency puterized Adaptive Testing:A Primer Second Edition,2000,4.

[19] 娄喜祥.两种常用的外语词汇量测试方式的信度及效度对比[J].外语与翻译,2005,(2):220-241.

[20] 刘绍龙.论二语词汇深度习得及发展特征[J].外语教学与研究,2001,(6):436-441.

测度论在统计学中的应用范文第5篇

关键词:运行参数;中国制造;测试技术;机械制造

1 运行参数测量的内涵及研究范围

1.1 内涵

机械的制造与运行参数测量涉及面广,无论是在机械加工、装配过程中还是加工产品的检验都离不开测量。本文中所指的机械制造参数主要是加工过程中或加工完成后产品的各种静态参数,而机械运行参数主要是加工过程中或系统运行中的动态参数,但多数情况下,动、静态参数是同时存在的。为丁使测量问题更加明确,本文将重点讨论获取被测参量的新型传感器与仪器、保证传感器与仪器量值准确统一的计量新方法,以及新型测试与传感器技术在机械制造参量和机械运行参量测量中的应用。具体包括以下四方面:新型传感器原理与仪器;计量与测试新原理、新方法;系统运行参数检测与表征;制造参数高精度测量与误差理论。第一、第二方面是测量技术基础,目标是提升传感器及仪器装备自身水平;第三、第四方面是新测量技术在国家重大工程中的应用,目标是针对具体问题研究新的测量方法与系统,并从中提取一些典型和共性的测量问题进行深入研究,以牵引更多学科的发展。

1.2 研究范围

(1)新型传感器原理与仪器

该方向的研究目标是研究用于机械制造和运行参数检测的传感器原理与仪器,提升我国机械制造水平和系统运行检测水平。

(2)计量与测试原理和新方法

该方向的任务是探讨计量与测试领域存在的共性问题,研究给予新物理效应的测量原理、方法及其应用。为了突出共性的计量测试问题及测量方法本身的新颖性,研究内容按测量尺度分为这么几类:微尺度范围的计量测试原理与方法;跨尺度范围的计量测试原理与方法;超大尺度范围的计量测试原理与方法。

(3)系统运行参数检测与表征

系y运行参数包括机械加工制造过程和机械装备运行过程中的参数。前者的有效检测是控制制造过程,确保制造精度和质量的关键;后者的有效检测则为监控重大机械设备系统状态,为其安全高效运行提供关键数据。在运行参数测量中,新型传感器和新测量技术的应用十分重要。这部分的研究包括了测量系统的误差分析,特别需要注意的是多因素的相互作用问题。

(4)制造参数高精度测量与误差理论

这部分将共性测量方法有机结合,针对具体问题研究合理的测量系统与误差理论,为重大工程中装配测试和运行检测提供测量技术基础。主要研究内容按测量尺度分为这样几类:微尺度范围内的高精度测量;跨尺度范围内的高精度测量;超大尺度范围内的高精度测量;误差理论与精度技术。

2 研究现状与发展趋势的分析

2.1 系统运行参数检测与表征的发展现状

系统运行参数检测包括加工运行系统检测,如对机床的加工过程进行检测,当然也包括装备运行系统检测,如对高速火车的检测。本文仅以加工系统为例,讨论系统运行参数检测与表征问题。运行参数包括加工设备自身的运行参数和加工设备与被加工零件相互作用时的参数。

对不同的加工设备,其运行参数检测方法是不同的。目前,激光干涉测量仪是机床平动轴几何误差检测众多手段之中同时具有检测精度高、检测功能完善以及检测技术成熟等优点的手段之一,可以测量偏移直线度以及偏摆、俯仰等误差项,且可进行长度溯源。

2.2 复杂机电系统的技术发展趋势

在超精度加工的监测方面,迄今为止尚未有一种规范性、系统性、通用性和完整性的机床精度建模理论和严格统一数学公差表述方法和模型。随着机械零件的加工精度要求越来越高、复杂程度越来越大,对加工过程中的监测和反馈补偿也提出了越来越高的精度要求。未来5~10年。随着加工用微型传感器质量的不断提高,对测量过程中多参数的同步检测将逐渐成为可能。同时,动态误差理论和加工过程中的反馈补偿技术,也有助于提高复杂形面的加工精度。刀具、工件的在线监测都将逐步实现,减少刀具磨损的各种技术将在较大程度上扩大加工范围和提高加工精度。

3 结语

本学科的主要目标在于近期为国家重大工程项目提供必要的测量技术基础:争取利用10~20年的时间实现面向重要工程应用的国产仪器性能指标达到以及赶超国外仪器。在家来的科学研究中,我们应围绕国家重大工程项目的一些典型测量问题,研究针对性的测量方法,通过多方位测量和误差理论,进行误差分离和补偿,提高测量精度。在误差理论的方面,需重点关注动态测量系统的基础理论及其应用技术研究,以满足现代化高精度生产的需求。尤其是在测量系统的模型建立、传递函数的参数选择、系统的稳定性检验和测量实践等方面开展深入细致的研究工作,着力探索出一些新的误差理论与精度技术,实现动态测量系统的科学分析与优化设计。

参考文献

[1]国家自然科学基金委员会工程与材料科学部・学科发展战略研究报告(2011~2020):机械工程学科・北京:科学出版社,2010

测度论在统计学中的应用范文第6篇

关键词:试题库;教育测量理论;试题;试卷

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)30-0196-02

随着信息技术的快速发展和广泛应用,试题库系统逐渐成为高校计算机辅助教学的一种有效方式。受考试制度及传统题库建设经验的限制,现有试题库系统往往不能深度挖掘试卷、试题,也不能发挥试卷和试题的诊断及评价功效[1]。怎样在现代试题库系统建设中引入先进的教育测量理论,兼有二者的优势[2],用先进理论引导先进技术,保证试题库建设充分适应现代教学理念的发展趋势,切实促进教学,已成为现代试题库建设发展过程中必须重视的问题。

一、教育统计与教育测量理论

有效地进行教育测量是我们建设试题库的目的所在[3]。教育测量要遵循教育规律,它的理论基础就是教育统计与教育测量理论[4]。教育测量的最主要的任务准确测量测试者的水平,尽量降低测量误差。为保证考试更加科学化,就要利用教育测量,而教育测量的研究对象正是命题、阅卷、分析、评价等考试工作的全过程。

考试是目前测量教育水平的最直接方式,期间涉及到教育统计的概念及理论。教育统计的目的主要用来检测教育的科学性,从而探索教学现象的各种规律及特征,其主要通过统计学的方法和理论研究教育现象及本质[5]。

试卷是目前考试执行的主要形式,其测量结果决定考试的质量[6]。试卷设计的科学与否,成为教学工作中不可忽视的重要一步,其最能客观反映教师的教学水平及学生的学习效果,也正是本文所要研究的重中之重。

二、教育测量理论在试卷质量评价中的应用

组卷,即在设定的组卷策略下,借助已经存在的试题库随机或人为选取合适的测试题形成一份或多份(有的学校要求A/B卷)符合测试要求的试卷。从教育理论角度考虑,衡量试卷质量的基本要素主要包括以下两个方面,即信度和效度。

1.信度。信度指的是测量结果是不是满足稳定性要求。随着测量类型的不同,不论是物理测量还是教育测量,即使面对同样的测量对象,其所得的测量结果几乎不会全部相同[7]。因为每次的测量结果总会受两大因素的影响,即被测对象的实际发挥水平及测量过程中难以避免的误差。

通过以上定义,不难发现信度包含实际考试过程中随机误差对其影响作用,两者成反比关系。影响信度的主要因素包括四个方面:(1)接受测试者个体难免有不同程度的差异,这是导致信度真分数参差不齐的主要原因所在。(2)试卷本身题目的多少,试卷的长短,会导致考试得分受试题抽样偶然性影响,相对地,适当提高试卷的中题目的数量对信度有正比例的影响。(3)试卷内容性质的相同与否,对信度成正比例影响关系,即内容性质不同或相差较远的试卷信度一般偏低,反之则信度较高。(4)试卷的难度,在考试的难度过高或过低时,分数分布呈偏态分布。

2.效度。效度,即测量是否有效及其有效程度,也就是此次考试实际测出的与其要测量的特性的接近程度[8]。如果所要测的特性被准确地测量,就认定此次测量的效度是高的。主要从以下几个重要因素分析对效度有重要的影响:(1)类似于信度,考试内容性质的共同与否,对效度成反比例影响规律,即试题间的内容一致性越高,效度就会越低。(2)应考者之间的差异性,期间的差异性会导致真分数差异性的对应变大。(3)试卷的长度,同样类似于对信度的影响,即适当提高试卷的中题目的数量对效度有正比例的影响。

三、教育测量理论在试题质量评价中的应用

试题是组成试卷的基本元素,试题的质量对试卷质量的影响较大。如何根据教育测量理论探索影响试题质量的主要因素是本部分的主要研究内容。

1.难度。难度一词的含义众所周知,具体到本文就是指应考者解答题目或完成要求时的困难程度,主要分为相对值及绝对值。相对难度也称为统计难度,是统计应考者测试后的试卷通过统计分析方法计算出的难度。绝对难度也叫认知难度,与被测试者的实际水平没有关系。

难度共有三个特点,即相对性、计量性和区间性。相对性是建立在不同的考试及不同应试对象的基础上统计的[9,10]。具体来说,若应试者的水平不同,即使相同的试卷,测试统计后的难度值也不会相同。计量性是指难度是一个可以具体量化的指标。在分析、计算考试的难度时,往往只是基于感性的、模糊的、没有准确理论依据的判断,但在经典测量理论中,难度被定义为具体的指标,具体数值的计算是通过数学统计方法计算而得的。区间性即难度永远介于0至1之间的闭区间内,其是连续变化的,在难度值为0时,说明试题越容易;反之亦然。

在统计考试结果中,往往同数学统计图来表示。若统计图显示考试结果呈正态分布,则说明试卷的难度趋于中间。当统计结果显示为负偏态分布规律时,说明试卷偏难,且测试分数偏低。当统计结果显示为正偏态分布规律时,说明试卷偏简单,且测试分数偏高[11]。

2.区分度。试题的区分度主要为了鉴别应试者的实际学习能力,主要为了区别被测试者。为了有效区分不同学习水平的学生的学习能力,往往要求区分度越高越好。测量专家把区分度这一指标作为考试是否有效的重要量度,并作为评价项目质量、筛选项目的主要指标与依据[12]。试题的区分度越好,说明试题对应考者有较强的考察及测试能力。

区分度计算往往采用分组法,主要分为以下三步完成:

Step1:分组。将所有被试分为三组,分组顺序参考总分顺序排列。从最高分开始的前25%定义为第一组;相对地,从最低分开始后25%定义为第二组;余下的50%为第三组。

Step2:统计。采用数学统计方法计算每个试题的具体得分率,其中第一组、第二组得分率用符号PH、PL表示。

Step3:计算。计算公式为:D=PH-PL。

例如,表1为计算上海电力学院2013―2014学年第一学期《工程力学》期末试卷中的试题区分度计算。

从表1的统计结果不难看出,第2题和第4题的区分性能较好,第1题和第3题分别偏向极值。由计算公式可知:从理论上说区分度同难度一样,也是介于0到1之间的一个数,难度越低或难度越高的试题区分度都低。

四、小结

本文通过对教育测量基本原理和方法的运用,将影响试卷的因素加以分析研究,分别从信度、效度探讨了影响试卷的影响因素,试题作为试卷的基本组成元素,主要从难度和区分度两个重要影响因素进行阐述,探讨了两者对试卷的影响作用,为试题库结构设计和算法的实现提供理论依据和重要支持。

参考文献:

[1]冯雪花,王慧玲.教考分离管理模式的思考[J].中国教育技术装备,2014,(2):96-98.

[2]辛涛.新课程背景下的学业评价:测量理论的价值[J].北京师范大学学报:社会科学版,2006,(1):56-59.

[3]吴承祯,何丽华,林立群,等.试卷质量分析方法及其应用[J].中国林业教育,2008,(3):26-30.

[4]李・斯・舒尔曼,黄甫全,王娜智者.教学活动中的知识生长[J].教师教育学报,2014,(4):44-58.

[5]范明虎,孙斌.通用试题库管理系统的设计与实现[J].计算机工程与设计,2007,(9):2185-2188.

[6]赵德成.减负背景下的评价与考试改革[J].北京师范大学学报:社会科学版,2014,(4):23-29.

[7]李业刚,高成琳,李红玲,等.高校试卷质量分析系统的研究[J].山东理工大学学报:自然科学版,2008,(04):57-60.

[8]袁东华.高校试题库、试卷库建设问题的思考[J].黑龙江教育(高教研究与评估),2013,(4):77-78.

[9]杨永,梁金钤.基于B/S模式的通用试题库系统的设计与实现[J].计算机工程与科学,2009,(04):143-146.

[10]曾一,冉忠,郭永林.试题库中自动组卷的算法及试卷测评策略[J].计算机工程与设计,2006,(16):3024-3028.

测度论在统计学中的应用范文第7篇

作者:李智炯 单位:中国神华神东煤炭集团地测公司

矿山测量理论发展

随着电子计算机的软硬件发展,以及各种测量计算分析软件的推出,计算机已成为测量控制网优化设计、测量数据处理、自动化成图最有效和必不可少的工具。相对于以前测量工作人员在小型计算器上编程进行简单的数据处理或者进行简单的平差数据处理,现在的测量数据处理则体现出智能化、自动化和可视化,且数据处理理论得到了更深入的发展。灰色理论、小波分析、人工神经网络模型等新的理论大量应用于矿山工程测量数据处理中,单一模型的变形预测与组合模型的变形预测均得到了发展。以公路勘测数据处理系统为例,这个数据处理系统主要包括3部分:1)数据获取和处理模块;2)数字地面模型模块;3)绘图与设计应用模块。矿山测量控制网优化设计测量方案的设计以前都是凭经验进行的。随着计算机技术的应用,设计正在向着更科学的方向发展。优化设计是在现有人力、物力和财力条件下,使矿山工程控制网具有较高的精度。而在满足控制网的精度和可靠性的前提下,使成本最低。网的优化设计是一个迭代求解过程,它包括以下内容:1)提出设计任务。由测量人员与应用单位共同拟定,通常是后者提出要求,前者对其具体化,每一个优化任务都必须表示为数值上的要求。2)制定设计方案。包括网的图形和观测方案,观测方案指每个点上所有可能的观测,通过室内设计和野外踏勘来制定。3)进行方案评价。按精度和可靠性准则进行,同时考虑费用和灵敏度。4)进行方案优化。对网的设计进行修改,以期得到一个接近理想的优化设计方案。矿山测量信息管理随着矿山测量数据采集和数据处理的逐步自动化、数字化,测量工作者更好地使用和管理海量矿山测量信息的最有效途径是建立矿山测量数据库或与GIS技术结合建立各种矿山信息系统。目前,矿山测量部门已经建立了各种用途的数据库和信息系统,为矿山管理部门进行信息、数据检索与使用管理的科学化、实时化和现代化创造了条件。目前,矿山测量人员对这个问题都很重视,并且正在参与和从事各种信息的收集、传递和管理工作,建立矿山信息系统、矿山生活区信息系统、矿区信息系统以及土地信息系统等。煤矿开采沉陷预计理论开采沉陷预计理论按采用方法的基础可分为:经验方法、分布函数、理论模型法三大类。而常用的预计方法主要有:概率积分法、负指数函数法、典型曲线法、威布尔分布法、样条函数法、皮尔森函数法、山区地表移动变形预计法、基于托板理论的条带开采的预计法、力学预计法和有限元法。近年来,随着变形理论的深入发展,灰色系统理论预计法和神将网络预计法被应用到了沉陷预计领域,并有了一定的实践进展。同时,基于地质观点的沉陷预计方法也有相应报道。

3S技术在采煤地质灾害监测中的应用

以计算机技术为核心,结合数据库技术、地图可视化技术和空间分析技术,建立对包含空间定位和属性关联的问题进行计算机化处理,进而提供辅助决策的功能系统。目前,GIS已经广泛应用于地质灾害数据管理、地质灾害风险性分析和地质灾害预警等防灾减灾工作当中。由于GIS系统具有强大的空间分析能力,因此,其不再局限于某种地质灾害的分布显示,而可提供综合多种地质灾害,并能进行区域划分的功能。RS技术的应用RS(遥感技术)作为一门新兴的高新技术手段,近几年迅速在众多领域得到了广泛的使用,而应用遥感技术进行地质灾害监测的文章也多不胜数。总结归纳,遥感技术用于地质灾害监测是可行的,也是必要、可推广的。从地质灾害监测与防治的角度来看,遥感技术贯穿地质灾害调查、监测、预警、评估的全过程,为地质灾害防治提供了很好的决策参考。随着遥感技术在理论上、技术上和实际应用上的逐步发展,遥感数据源向着高分辨率遥感影像过渡,其不仅具有精确的空间分辨率,更重要的是拥有丰富的光谱信息,使具有特殊光谱特征的地物探测成为可能。这也必将使得遥感技术在地质灾害宏观调查、灾体动态监测和灾情评估中大显身手,成为地质灾害监测与防治的重要手段之一。GPS技术的应用煤炭开采中,大量的采空区随之出现,给采煤区居民的生活带来了很大的影响,而因此诱发的大量的地面塌陷灾害更给采煤区的经济带来了巨大损失。以采空区为变形体所进行的沉陷观测,受采空区自身沉陷影响,很难找到稳定的地点埋设监测基点。同时,在对沉陷引起的地裂缝进行监测时,需掌握其空间位置,针对上述工作,如果采用传统测量方法,必将面临诸多不便与不利因素。作为新一代空间定位技术的代表—GPS技术,经众多技术人员从实践角度和众多学者从理论角度的验证,其不仅可以满足沉陷观测的精度要求,而且可以实现监测工作的自动化与实时化。目前,GPS技术已广泛应用于各类变形监测项目中。而动态差分GPS技术的出现,更为地质调查、灾害地点确定等实时、高精度定位工作提供了有力支持。

测度论在统计学中的应用范文第8篇

算法改进数学建模改进意见一、数学建模发展现状分析

1.数学建模概述

数学模型是反应客观世界的一个假设对象,通过系统分析客观事物的发生规律、变化规律,测算出客观事物的变化范围和发展方向,找出客观事物发生演变的内在规律。因为任何事物都可以通过数学建模进行研究,所以数学建模在人们生产和生活的各个领域应用非常广泛。通常情况下,在对事物进行数学建模之前,应提出一个建模假设,这个假设构想是建立数学模型的重要依据,研究人员应深入研究建模对象的分析、测算、控制、选择的各参数变量,将参数变量引入数学模型中,可以通过测算精准的计算出客观事物发展的规律性参数,翻译这些参数,可以让研究者知道客观事物发生变化的具体规律。

2.在教学中应用数学建模的重要性

随着计算机网络技术的发展和改革,数学建模技术的发展速度飞快,在教学中引入数学建模思想,不仅可以提升学生的解题思维能力,还能有效地增加学生的辩证思维能力。据相关数据统计,2012年我国各高校开展的数学建模研讨会多达135场,学生通过数学建模思想的学习,将数学建模思想和所学的专业知识有机的结合在一起,深化数学建模理论在实际应用中的能力。由此可见,数学建模理论不仅对教学具有重要发展意义,还能够提升我国各领域产业的发展效果。因为数学建模理论涉及到辩证思维和数学计算,所以要想让数学建模理论在实际应用中更好的实施,必须完善其数学建模理论,制定合理的数学建模步骤,改善数学建模算法,这种才能充分体现出数学建模理论的综合应用性能。

二、数学建模方法

通过对数学建模理论进行系统分析可知,常用的数学建模种类有很多,其应用性能也存在很大的差异性,具体分类情况如下。

1.初等教学法

初等教学法是最基础的数学建模方法,这种建模方法构建出的数学模型的等级结构很简单,一般为静态、线性、确定性的数学模型结构,这种数学模型的测算方法相对简单,其测量值的范围也很小,一般应用在学生成绩比较、材料质量对比等单一比较的模型中。

2.数据分析法

对数据信息庞大的数据进行测算时,经常会应用到数据分析法,这种数学模型建立在统计学的基础上,通过对数据进行测算分析和对比,可以精准地计算出数据的变化规律和变化特征,常用的测算方法有时序和回归分析法。

3.仿真模拟法

在数学建模中引用计算机网络技术,不仅可以提高数学模型的准确度和合理性,还能通过计算机模拟技术更直观、更客观地体现出数学模型的实验方法。统计估计法和等效抽样法是仿真模拟数学模型最常应用的测算方法,通过连续和离散系统的虚拟模型,制定出合理的试验步骤,并测算出试验结果。

4.层次分析法

层次分析法可以对整体事物进行层级分离,并逐一层级的对数学模型结构进行测算,这种分析方法可以体现数学模型的公平性、理论性和分级性,所以被广泛地应用在经济计划和企业管理、能源分配领域。

三、数学建模算法的改进意见

1.数学建模算法

目前常用的数学建模算法主要有6类,其具体算法如下:①模拟算法,通过计算机仿真模拟技术,将数据引入模型构架,并通过虚拟模型的测算结果来验证数学模型的准确性和合理性;②数据处理算法,数据是数学建模算法的重要测算依据,通过数据拟合、参数变量测算、参数插值计算等,可以增强数据的规律性和规范性,Matlab工具是进行数据处理的主要应用软件;③规划算法,规划不仅可以优化数学模型结构,还能增加数学建模结构的规范性,常用的规划方法有线性、整数、多元、二次规划,通过数学规划测算方法可以精准的描述出数学模型的结构变化特征;⑤图论算法,图论可以直观的反映出数学模型的结构构架,包括短路算法、网络工程算法、二分图算法;⑥分治算法,分治算法应用在层级分析数学模型中,通过数据分析对模型的动态变化进行系统的规划,对模型的原始状态进行还原处理,对模型各层级数据进行分治处理。

2.数学建模算法的改进意见

通过上文对数学模型算法进行系统分析可知,数学建模算法的计算准确度虽然很高,但其算法对工作人员的专业计算要求很高,同时由于不同类型的模型算法不同,在对数学模型进行测算时经常会出现“混合测算”现象,这种测算方法在一定程度上会大大降低数学模型测算结果的准确度,本文针对数学建模算法出现的问题,提出以下几点合理性改进意见:①建立“共通性”的测算方法,使不同类型的数学模型的测算方法大同小异;②深化数学建模的系统化、规范化、统一化,在数学建模之初,严格按照建模规范设计数学模型,这样不仅可以提高数学模型的规范性,还能提高数学模型的测算效率;③大力推进计算机网络工程技术在数学建模中的应用,因为计算机网络应用程度具有很好的测算性能,计算机软件工程人员可以针对固定数学模型,建立测算系统,通过计算机应用软件,就可以精准的计算出数学模型的测算值。

四、结论

通过上文对数学模型的算法改进和分类进行深入研究分析可知,数学建模理论虽然可以在一定程度上优化客观事物的模型系统,但是其测算理论依据和测算方法仍存在很多问题没有解决,要想实现数学模型的综合应用性能,提高测算效率,必须建立完善的数学建模算法理论,合理应用相关测算方法。

参考文献:

\[1\]韦程东,钟兴智,陈志强.改进数学建模教学方法促进大学生创新能力形成\[J\].教育与职业,2010,14(12):101-113.

\[2\]袁媛.独立学院数学建模类课程教学的探索与研究\[J\].中国现代药物应用,2013,15(04):101-142.

\[3\]王春.专家呼吁:将数学建模思想融入数学类主干课程\[R\].科技日报,2011,15(09):108-113.

测度论在统计学中的应用范文第9篇

统计学就是收集数据、整理数据以及分析数据的方法论学科,在一定程度上,能够支持经济学的实证研究,保证其能够对所需要应用的数据进行有效整理与收集,进而形成统计思想,达到预期的研究目的。

关键词:

经济学;研究;统计学思想

在对经济学进行研究的过程中,统计学思想是至关重要的部分,其中包含着估计思想、拟合思想、均值思想等,有利于提高经济学研究效率,凸显出经济学的研究价值,为其后续的发展奠定良好基础。

1经济学中统计思想分类

1.1统计思想之估计思想

统计思想是一门具有综合性特点的学科,其涉及的内容较广,研究重点有所不同,使得主要的思想部分受到广泛关注。然而,在统计思想中估计思想是最为主要的组成部分,主要因为估计思想是一种认识方式,能够将利用样本对统计的总体进行预测,在一定程度上,能够有效提高预测准确度。与此同时,样本是统计中最为重要的部分,在显示总体属性的基础上,可以利用样本的研究结果预测总体概况,但是,统计样本很容易受到各类因素的影响,导致统计数据与总体数据出现偏差。

1.2统计思想之拟合思想

拟合思想就是在统计期间,能够对不同类型的事物的表象关系进行分析,保证能够拟合出事物的前后顺序,使得错综复杂、难以分辨的信息规律凸显出来,进而形成良好的发展趋势。

1.3统计思想之均值思想

对于统计思想而言,均值思想就是根据统计学的基本特征凸显出事物的一般性规律,使得经济学研究人员可以全面了解事物发展规律,避免出现各类干扰因素影响其统计准确性,进而提高经济学研究质量。

1.4统计思想之联系思想

经济学研究中各类事物都存在着密切的联系,只有应用统计联系思想,才能保证人们在处理问题的时候,可以注意事物之间的联系,提高变量考察效率[1]。

1.5统计思想之差异思想

统计学最为显著的特点就是概括性,与差异思想存在密切的联系,主要因为差异思想可以引导经济学研究人员能够根据事物之间的差异,对事物进行统计与概括,进而形成良好的数据研究体系。

2经济学研究中统计思想的应用路径

2.1经济学研究风险决策时应用统计思想

在经济研究决策期间,经常会存在不确定的因素,使得经济活动承担一定风险。由此可见,在经济研究决策之前,必须要利用科学的方式制定工作制度,保证能够向着正确的方向前进。首先,在日常经济活动中,企业要利用正确的决策规避盈利亏损。其次,企业要正确估量经营中可能出现的经济损失,保证能够制定完善的措施规避企业的损失。最后,企业可以利用统计学的概率论原理,形成竖形图像实施分析工作,进而提高企业的发展效益[2]。

2.2经济学研究市场调查中应用统计思想

经济学研究人员在市场调查过程中,必须要全面分析统计学的应用特点,保证能够有目的性的对市场调查内容进行分类,并且提高数据记录效率,使其达到系统性目的。同时,经济学研究人员还要正确分析所搜集的市场信息,及时发现企业的缺点,并采取有效措施弥补,为企业在市场中的发展提供正确方向。另外,经济学研究人员还要利用统计学思想全面判断市场需求,提出更多的可行性战略条目,例如:取样调查、抽样调查等,使得统计思想能够更好的应用在经济学研究领域中,为其发展奠定坚实基础[3]。

2.3经济学研究经济预测时应用统计思想

在统计学理论中,经济预测与风险预测是有所不同的,经济预测就是对未来各类不确定的经济因素进行分析,保证能够利用科学的手段实施经济预测工作,避免对经济进行臆想与胡乱猜测[4]。同时,在经济预测期间,不可以出现利用直觉与经验预测的问题,必须要根据经济预测要求,科学、精确的实施计算工作,在搜索各类相关资料的同时,不断分析与判断未来的经济发展趋势。企业决策者可以利用统计思想中经济预测手段加深对企业未来经济的了解,以便于做出更加完善的决策。经济预测指标包括以下三种:一是经济预测范围。二是经济预测时效。三是经济预测性质。每个标准都有自身存在的意义,可以促进经济学研究效率的提高。

3结束语

在经济学研究期间,相关研究人员必须要全面分析统计思想,确保能够将其有效应用在研究工作中,在提高研究质量的基础上,凸显经济学研究价值,为其发展奠定良好基础。

作者:许欢 单位:唐山人民医院

参考文献:

[1]陈小琴,潘东明.基于微观经济学视角下的中国鲜切花产业统计数据分析[J].中国农学通报,2013,28(32):128-137.

[2]毓欣.本世纪公共经济学研究重点的统计揭示--基于《公共经济学杂志》2003-13年间的分析[C].中国财政学会2013年年会暨第十八次全国财政理论讨论会论文集.2013:704-709.

测度论在统计学中的应用范文第10篇

[关键词]负荷预测 预测模型 灰色理论

一、概述

电力系统负荷预测是实现电力系统安全、经济运行的基础,对一个电力系统而言,提高电网运行的安全性和经济性,改善电能质量,都依赖于准确的负荷预测。因此,负荷预测的关键是提高准确度。此外,从发展来看,负荷预测也是我国实现电力市场的必备条件,具有重要的理论意义和实用价值。

负荷预测是从已知的用电需求出发,考虑政治、经济、气候等相关因素,对未来的用电需求做出的预测。负荷预测包括两方面的含义:对未来需求量(功率)的预测和未来用电量(能量)的预测。电力需求量的预测决定发电、输电、配电系统新增容量的大小;电能预测决定发电设备的类型(如调峰机组、基荷机组等)。

根据不同的预测目的,负荷预测可分为超短期、短期和中长期的预报。一般说来,一小时以内的负荷预测为超短期负荷预测,用于安全监视、预防性控制和紧急状态处理;日负荷和周负荷预测为短期负荷预测,分别用于安排日调度计划和周调度计划;月至年的负荷预测为中期负荷预测,主要确定电网的运行方式和设备大修计划等。

二、负荷预测模型的基本要求

电力负荷预测是依据负荷历史资料及相关影响因素建立一个模型,然后对该模型进行评价后用来预报,无论采用什么计算方法,都离不开建立在历史数据及相关因素上的预测模型,模型精度决定了预测的准确性。

(一)负荷预测模型应能满足下述要求

1.提供包含有长期预测、中期预测、短期预测、超短期预测等各种方式的预报手段,而且预测的时间间隔可由用户自定义。

2.预测模型应能反映负荷随季节、星期及一天内24小时等周期性波动的特点,又能反映负荷自然增长的内在规律,同时能反映负荷受气温、日照等气象条件的影响。

3.对于包括节假日在内的广义特殊事件的负荷预测应建立专用预测模型,且能提前预测。

4.提供各种类型的预测方法与模型,并且能对历史数据的合理性进行检查、修正,具备误差分析和自动不良数据检测、辨识功能。

5.预测系统应当既可进行整个区域或电网系统的负荷预测,又能进行分地区电网系统的负荷预测;既可以进行离线负荷预测,也可以进行实时在线负荷预测;

(二)提高负荷预测准确性的难度

1.气象因素一直是影响负荷的主要因素,特别是对短期负荷预测的影响尤为重要,不同的气象因素影响程度又随用户类别而异,作为可估计的随机事件,气象预报的不准确会造成预测结果的双重误差。

2.特殊事件的不确定性将造成负荷预测的较大误差,当今特殊事件的出现趋于频繁,给预测带来了难度。

3.反映负荷周期性、趋势性及与影响因素之间关系的样本数目难以确定。

4.随机负荷部分并非平稳的随机序列。

5.网省级大电网负荷变化有较强的统计规律性,预测结果较准确。而地区级电网的统计规律不甚明显,不能稳定地指导负荷预测。

任何一种算法都不能保证在所有情况下精度很高,要想提高负荷预测的精度,我们还需要做大量的工作。

三、提高负荷预测精度的措施

(一)原始数据的预处理

我们都知道,任何负荷预测都是基于原始数据的,因此,原始数据的正确与否决定预测结果的精度。而原始数据往往都是从ems系统实时采集的,由于动态的数据采集有时会出现通道故障、拥堵等现象,相应的数据采集程序就会中断,造成了原始数据的错误与不真实。所以,在程序设计中,首先应针对原始的各种不真实现象进行预处理,力求将设备造成的随机的影响据之于预测过程之外。

(二)随机因素(冲击负荷)捕捉

大家都知道,在负荷的构成中有许多类似于电炉、轧钢等冲击性的负荷,这种负荷的特点是起停快、持续时间短、随机性强、数值较大,而负荷预测的精度要求在2%以内。因此处理好冲击负荷的影响对于提高精度有很大的影响。所以在原始数据的处理中必须考虑到冲击负荷。我们使用的方法是有效值法,通过对冲击负荷的分析和处理,得到其有效值,然后叠加到平滑后的负荷曲线上,这样的处理结果便可以应用于负荷预测中了。

(三)提高影响因素的预测精度以及影响因素的量化处理

负荷预测不仅仅要使用历史数据,还要考虑各种对负荷有较大影响的因素,如气象因素、政治因素、重大活动等。这些因素都会与历史数据一样作为预测程序的输入值。因此,这些因素的准确度直接会对负荷预测结果造成影响。因此,必须对这一类数据必须进行适当的量化处理:一是依靠经验值,并且调试后不断改进,力求准确,二是由程序识别,通过回归等方法动态赋值。前一种方法比较简单,但很难准确,后一种方法虽然理论上比较成熟,但由于模型不确定,实现起来很困难,具体应用哪一种方法,要视实际情况而定。

(四)比较预测模式,寻求最优方案

对于中国目前的电力结构,在一个网省调下面有许多供电区域,往往是以地域划分的。而实际需要的结果却是一个整体的负荷。因此便产生了单独预测和整体预测两种模式,究竟哪一种模式比较好,则需要从实践中去试验。

从电网的负荷预测实践来看,单独预测后叠加与整体预测各有优缺点。由于各类影响因素的分布区域不同,单独预测时可以通过细化考虑的因素比较真实,以气象因素为例,电网的地区气象条件不同,可以各自考虑,应该说更准确些,但这样做也有缺陷,一方面是一般都采用一种方法进行预测,其误差方向比较一致,这样叠加后产生更大的误差,另一方面各供电区域的预测叠加后并非是我们所需求的用于发电安排的负荷,还要通过换算,考虑到厂用电情况,而厂用电率一般并不是一个精确的数值,如此势必带来误差。若采用整体预测,原始数据便是我们用于安排发电计划的数据,各种因素虽然不能直接使用,但可以通过负荷比例进行等值拟合后作为整体预测的输入量,这样只会有一次误差。从实践中看,后一种方式虽比较模糊,但由于大电网效应,精度较前一种方式高。

当然,具体采用哪一种方式要根据实践的检验而定,前一种模式在理论上比较成熟,但在算法的选择上不能单一。我们都知道,任何一种算法都无法在所有情况下达到较高的精度,这与负荷结构以及负荷特性有直接的关系。

(五)做好负荷日的类型分析

在做负荷预测的时候,对于历史数据的选择很有学问,力求使用与预测日同类型的历史负荷数据。这样不但可以去除好多非同类型日数据的干扰,而且可以提高迭代收敛速度,简单计算。但是,对负荷日进行精确分类是相当困难的,需要大量的经验和比较。目前最简单的分类是休息日和工作日,这样的划分太粗糙,不能满足实际的需要,真正实用化的分类还需要大量的判据。负荷日类型一般可以根据以下几个方面科学分类:负荷特性,一般指负荷曲线轮廓;负荷值大小;气象等有关因素;工作日、休息日、节假日。在这几个方面中最重要的是负荷特性和负荷值,但这个判据比较难于归纳分析,而后两种判据易于判别。因此,实际中主要根据后两种判据进行分类。

(六)利用约束条件进行预测结果修正

负荷预测应包括电力预测和电量预测,我们常使用的是电力预测,因为这也是需要的最终结果。但电量预测也是相当有用的,它不会像电力预测的随机性那么大,可以作为电力预测的修正约束条件。

以最大、最小值配合分配系数法的电力预测为例,这种方法只需要预测出预测日的最大、最小值,用同类型日的历史数据计算出分配系数,即曲线趋势,经分配计算后便可以得到预测日的预测曲线。这种方法比较简单、实用、计算量小,但随机性较大,若最大、最小值由于受历史坏数据或冲击负荷的影响偏差过大,就会使整个曲线抬高或降低,而电量受冲击负荷的影响较小,利用电量预测进行约束,便可以得到较好的修正曲线。

四、灰色理论在负荷预测中的实际应用

(一)灰色理论概念

灰色系统理论是由邓聚龙教授于1982年在国际上首先提出的,长期以来普遍应用于国民经济的工业控制、经济预测、产量预测等硬科学领域和软科学领域,成为这些领域预测、决策、分析、控制的有利工具。

灰色系统理论认为客观世界是物质的世界,也是信息的世界。根据对客观系统所了解的信息量的多少,灰色系统理论把客观系统分为:信息完全已知的系统白色系统、信息完全未知的系统黑色系统,以及信息部分已知、部分未知的系统灰色系统。对灰色系统的研究的主要目的在于对灰色系统建模,也就是根据已知信息建立灰色系统的数学模型,从而预测灰色系统的未知信息。灰色系统理论把任何随机过程都看作在一定时空区域中变化的灰色过程,而随机变量则被看作为灰色量。灰色量所表现的无规律的离散时空数列是潜在的规律性的表现。灰色系统理论首先通过数据灰色生成把原始数据数列处理成适合于灰色建模的有规律的数列。在得到预测值数列以后,同样还要进行数据还原得到实际系统的预测数据,所以可以说灰色过程实质上是对生成数列建模。在处理技术上,灰色过程是通过对原始数据的整理来找数的规律的,而其他的一些处理方法则是按统计规律和先验规律来处理数据的。按统计规律和先验规律处理数据的方法是建立在大样本量的基础上,而且要求数据规律是典型的规律,而对于非典型的规律(如非平稳、非高斯分布、非白噪声),则是难以处理的。而灰色过程却没有这样限制,灰色模型通常只需4个以上的数据就可以建模,而且不必知道原始数据具有的先验特征。

(二)灰色系统预测方法基本原理

灰色系统是指部分信息已知,部分信息未知的系统。灰色系统理论的实质是将无规律的原始数据进行累加生成,得到规律性较强的生成数列后再重新建模。由生成模型得到的数据再通过累加生成的逆运算累减生成得到还原模型,由还原模型作为预测模型。灰色模型是预测工作的基础模型。以灰色系统理论的gm(1,1)模型为基础的预测,叫灰色预测。它可以分为以下7类:

1.数列预测:对某一事物发展变化趋势的预测。2.灾变预测:即灾变出现时间的预测,灾变有多种,如洪水、干旱、涝等灾害。3.季节灾变预测:指对灾害出现在一年内的某个特定时区的预测。4.拓朴预测:也叫波形预测、整体预测,是用gm(1,1)模型来预测未来发展变化的整个波形。5.系统预测:指对系统的综合研究所进行的综合预测。6.包络gm(1,1)灰色区间预测:参考数列分布趋势构造一个上、下包络线为边界的灰色预测带,建立上、下2个包络模型。7.激励阻尼预测:将激励、阻尼因数以量化形式反映在gm(1,1)模型中的预测,叫激励阻尼预测。

(三)《基于灰色理论的电力负荷预测系统》

《基于灰色理论的电力负荷预测系统》目前以汉化visual basic 6.0开发图形显示部分,以汉化的access2000数据库支持数据管理部分。程序代码在win98以上操作系统均通过调试,运行环境为:中文 window98

以上操作系统。

《基于灰色理论的电力负荷预测系统》是一个以中长期负荷预测为目标的预测系统,具备5年之内年度预测的基本功能。该软件设计思路如下:采用灰色理论为设计的基本理论,采用原始数据的一次累加生成序列(1-ago)和gm(1,1)模型为建模基础!在实际设计中通过对命令按钮的click事件触发原始数据,按照指定的模型进行计算。在最后预测的显示过程中,通过建立的控件数组text10(0-4)与最终计算结果相匹配,显示在文本框中。其主要特点为:

1.强大的数据库功能:本系统采用data控件与access2000关系型数据库相连。关系型数据库是目前最流行的数据库,可以采用现代数学理论和方法对数据进行处理,它提供了结构化的查询语言sql.各项操作都是通过记录集完成的。记录集是一个对象,一个记录集是数据库中的一组记录,可以是整个数据表或表的一部分。在原始数据的输入方面,操作人员可直接通过表输入并修改数据,也可在系统上直接操作。

2.欲改进及增加的功能:①将预测结果数据与数据库相结合,能够将预测数据保存到数据库中。②进一步改进预测精度,如从在原始数据上采用更精确的插值算法;在预测模型上增加一个系数,将天气及节假日影响加入到最终预测结果中。

五、结束语

负荷预测是电力系统调度、实时控制、运行计划和发展规划的前提,是一个电网调度部门和规划部门所必须具有的基本信息。提高负荷预测技术水平,有利于计划用电管理,有利于合理安排电网运行方式和机组检修计划,有利于节煤、节油和降低发电成本,有利于制定合理的电源建设规划,有利于提高电力系统的经济效益和社会效益。因此,负荷预测已成为实现电力系统管理现代化的重要内容。

几十年来各种可能的算法均在负荷预测课题上试验过了,目前实用的算法主要有:线性外推法、线性回归法、人工神经网络法、灰色系统法和专家系统方法等。各种算法均有一定的适用场合,可以说没有一个算法适用于各种负荷预测模型而精度比其它算法都高。

灰色系统理论把一般系统论、信息论、控制论的观点和方法延伸到社会、经济、生态等抽象系统,并结合数学方法,发展成为一套解决信息不完备系统即灰色系统的理论和方法。它对未来的研究具有重要意义。由电力系统实际情况可知:用电量及负荷增长受经济发展、产业结构、居民收入水平、气候等诸多因素的影响,其中一些因素是确定的,而一些因素则不确定,故可把它看作一个灰色系统。

但目前gm(1,1)模型在实际应用中还存在局限性,比较适用于具有较强指数规律的负荷序列,只能描述单调的变化过程,而对于特殊的负荷增长方式,例如当负荷按照“s”型曲线进行增长或增长处于饱和阶段时,若采用该灰色模型则预测误差较大,预测精度不满足实际要求。

灰色预测法作为电力系统需电量预测方法之一,已成为重要的研究手段,但尚有许多方面有待于进一步研究,如寻求更有效的、更符合电力系统需电量发展规律的原始数据处理方法。

总之负荷预测的结果是电力系统运行的基础数据,其精度直接影响运行的安全性和经济性。因此,提高其精度也是每个负荷预测人员追求的最高目标。

参考文献:

[1]刘晨晖,电力系统负荷预报理论与方法。哈尔滨:哈尔滨工业大学出版社,1987.

测度论在统计学中的应用范文第11篇

[关键词]负荷预测 预测模型 灰色理论

一、概述

电力系统负荷预测是实现电力系统安全、经济运行的基础,对一个电力系统而言,提高电网运行的安全性和经济性,改善电能质量,都依赖于准确的负荷预测。因此,负荷预测的关键是提高准确度。此外,从发展来看,负荷预测也是我国实现电力市场的必备条件,具有重要的理论意义和实用价值。

负荷预测是从已知的用电需求出发,考虑政治、经济、气候等相关因素,对未来的用电需求做出的预测。负荷预测包括两方面的含义:对未来需求量(功率)的预测和未来用电量(能量)的预测。电力需求量的预测决定发电、输电、配电系统新增容量的大小;电能预测决定发电设备的类型(如调峰机组、基荷机组等)。

根据不同的预测目的,负荷预测可分为超短期、短期和中长期的预报。一般说来,一小时以内的负荷预测为超短期负荷预测,用于安全监视、预防性控制和紧急状态处理;日负荷和周负荷预测为短期负荷预测,分别用于安排日调度计划和周调度计划;月至年的负荷预测为中期负荷预测,主要确定电网的运行方式和设备大修计划等。

二、负荷预测模型的基本要求

电力负荷预测是依据负荷历史资料及相关影响因素建立一个模型,然后对该模型进行评价后用来预报,无论采用什么计算方法,都离不开建立在历史数据及相关因素上的预测模型,模型精度决定了预测的准确性。

(一)负荷预测模型应能满足下述要求

1.提供包含有长期预测、中期预测、短期预测、超短期预测等各种方式的预报手段,而且预测的时间间隔可由用户自定义。

2.预测模型应能反映负荷随季节、星期及一天内24小时等周期性波动的特点,又能反映负荷自然增长的内在规律,同时能反映负荷受气温、日照等气象条件的影响。

3.对于包括节假日在内的广义特殊事件的负荷预测应建立专用预测模型,且能提前预测。

4.提供各种类型的预测方法与模型,并且能对历史数据的合理性进行检查、修正,具备误差分析和自动不良数据检测、辨识功能。

5.预测系统应当既可进行整个区域或电网系统的负荷预测,又能进行分地区电网系统的负荷预测;既可以进行离线负荷预测,也可以进行实时在线负荷预测;

(二)提高负荷预测准确性的难度

1.气象因素一直是影响负荷的主要因素,特别是对短期负荷预测的影响尤为重要,不同的气象因素影响程度又随用户类别而异,作为可估计的随机事件,气象预报的不准确会造成预测结果的双重误差。

2.特殊事件的不确定性将造成负荷预测的较大误差,当今特殊事件的出现趋于频繁,给预测带来了难度。

3.反映负荷周期性、趋势性及与影响因素之间关系的样本数目难以确定。

4.随机负荷部分并非平稳的随机序列。

5.网省级大电网负荷变化有较强的统计规律性,预测结果较准确。而地区级电网的统计规律不甚明显,不能稳定地指导负荷预测。

任何一种算法都不能保证在所有情况下精度很高,要想提高负荷预测的精度,我们还需要做大量的工作。

三、提高负荷预测精度的措施

(一)原始数据的预处理

我们都知道,任何负荷预测都是基于原始数据的,因此,原始数据的正确与否决定预测结果的精度。而原始数据往往都是从EMS系统实时采集的,由于动态的数据采集有时会出现通道故障、拥堵等现象,相应的数据采集程序就会中断,造成了原始数据的错误与不真实。所以,在程序设计中,首先应针对原始的各种不真实现象进行预处理,力求将设备造成的随机的影响据之于预测过程之外。

(二)随机因素(冲击负荷)捕捉

大家都知道,在负荷的构成中有许多类似于电炉、轧钢等冲击性的负荷,这种负荷的特点是起停快、持续时间短、随机性强、数值较大,而负荷预测的精度要求在2%以内。因此处理好冲击负荷的影响对于提高精度有很大的影响。所以在原始数据的处理中必须考虑到冲击负荷。我们使用的方法是有效值法,通过对冲击负荷的分析和处理,得到其有效值,然后叠加到平滑后的负荷曲线上,这样的处理结果便可以应用于负荷预测中了。

(三)提高影响因素的预测精度以及影响因素的量化处理

负荷预测不仅仅要使用历史数据,还要考虑各种对负荷有较大影响的因素,如气象因素、政治因素、重大活动等。这些因素都会与历史数据一样作为预测程序的输入值。因此,这些因素的准确度直接会对负荷预测结果造成影响。因此,必须对这一类数据必须进行适当的量化处理:一是依靠经验值,并且调试后不断改进,力求准确,二是由程序识别,通过回归等方法动态赋值。前一种方法比较简单,但很难准确,后一种方法虽然理论上比较成熟,但由于模型不确定,实现起来很困难,具体应用哪一种方法,要视实际情况而定。

(四)比较预测模式,寻求最优方案

对于中国目前的电力结构,在一个网省调下面有许多供电区域,往往是以地域划分的。而实际需要的结果却是一个整体的负荷。因此便产生了单独预测和整体预测两种模式,究竟哪一种模式比较好,则需要从实践中去试验。

从电网的负荷预测实践来看,单独预测后叠加与整体预测各有优缺点。由于各类影响因素的分布区域不同,单独预测时可以通过细化考虑的因素比较真实,以气象因素为例,电网的地区气象条件不同,可以各自考虑,应该说更准确些,但这样做也有缺陷,一方面是一般都采用一种方法进行预测,其误差方向比较一致,这样叠加后产生更大的误差,另一方面各供电区域的预测叠加后并非是我们所需求的用于发电安排的负荷,还要通过换算,考虑到厂用电情况,而厂用电率一般并不是一个精确的数值,如此势必带来误差。若采用整体预测,原始数据便是我们用于安排发电计划的数据,各种因素虽然不能直接使用,但可以通过负荷比例进行等值拟合后作为整体预测的输入量,这样只会有一次误差。从实践中看,后一种方式虽比较模糊,但由于大电网效应,精度较前一种方式高。

当然,具体采用哪一种方式要根据实践的检验而定,前一种模式在理论上比较成熟,但在算法的选择上不能单一。我们都知道,任何一种算法都无法在所有情况下达到较高的精度,这与负荷结构以及负荷特性有直接的关系。

(五)做好负荷日的类型分析

在做负荷预测的时候,对于历史数据的选择很有学问,力求使用与预测日同类型的历史负荷数据。这样不但可以去除好多非同类型日数据的干扰,而且可以提高迭代收敛速度,简单计算。但是,对负荷日进行精确分类是相当困难的,需要大量的经验和比较。目前最简单的分类是休息日和工作日,这样的划分太粗糙,不能满足实际的需要,真正实用化的分类还需要大量的判据。负荷日类型一般可以根据以下几个方面科学分类:负荷特性,一般指负荷曲线轮廓;负荷值大小;气象等有关因素;工作日、休息日、节假日。在这几个方面中最重要的是负荷特性和负荷值,但这个判据比较难于归纳分析,而后两种判据易于判别。因此,实际中主要根据后两种判据进行分类。

(六)利用约束条件进行预测结果修正

负荷预测应包括电力预测和电量预测,我们常使用的是电力预测,因为这也是需要的最终结果。但电量预测也是相当有用的,它不会像电力预测的随机性那么大,可以作为电力预测的修正约束条件。

以最大、最小值配合分配系数法的电力预测为例,这种方法只需要预测出预测日的最大、最小值,用同类型日的历史数据计算出分配系数,即曲线趋势,经分配计算后便可以得到预测日的预测曲线。这种方法比较简单、实用、计算量小,但随机性较大,若最大、最小值由于受历史坏数据或冲击负荷的影响偏差过大,就会使整个曲线抬高或降低,而电量受冲击负荷的影响较小,利用电量预测进行约束,便可以得到较好的修正曲线。

四、灰色理论在负荷预测中的实际应用

(一)灰色理论概念

灰色系统理论是由邓聚龙教授于1982年在国际上首先提出的,长期以来普遍应用于国民经济的工业控制、经济预测、产量预测等硬科学领域和软科学领域,成为这些领域预测、决策、分析、控制的有利工具。

灰色系统理论认为客观世界是物质的世界,也是信息的世界。根据对客观系统所了解的信息量的多少,灰色系统理论把客观系统分为:信息完全已知的系统白色系统、信息完全未知的系统黑色系统,以及信息部分已知、部分未知的系统灰色系统。对灰色系统的研究的主要目的在于对灰色系统建模,也就是根据已知信息建立灰色系统的数学模型,从而预测灰色系统的未知信息。灰色系统理论把任何随机过程都看作在一定时空区域中变化的灰色过程,而随机变量则被看作为灰色量。灰色量所表现的无规律的离散时空数列是潜在的规律性的表现。灰色系统理论首先通过数据灰色生成把原始数据数列处理成适合于灰色建模的有规律的数列。在得到预测值数列以后,同样还要进行数据还原得到实际系统的预测数据,所以可以说灰色过程实质上是对生成数列建模。在处理技术上,灰色过程是通过对原始数据的整理来找数的规律的,而其他的一些处理方法则是按统计规律和先验规律来处理数据的。按统计规律和先验规律处理数据的方法是建立在大样本量的基础上,而且要求数据规律是典型的规律,而对于非典型的规律(如非平稳、非高斯分布、非白噪声),则是难以处理的。而灰色过程却没有这样限制,灰色模型通常只需4个以上的数据就可以建模,而且不必知道原始数据具有的先验特征。

(二)灰色系统预测方法基本原理

灰色系统是指部分信息已知,部分信息未知的系统。灰色系统理论的实质是将无规律的原始数据进行累加生成,得到规律性较强的生成数列后再重新建模。由生成模型得到的数据再通过累加生成的逆运算累减生成得到还原模型,由还原模型作为预测模型。灰色模型是预测工作的基础模型。以灰色系统理论的GM(1,1)模型为基础的预测,叫灰色预测。它可以分为以下7类:

1.数列预测:对某一事物发展变化趋势的预测。2.灾变预测:即灾变出现时间的预测,灾变有多种,如洪水、干旱、涝等灾害。3.季节灾变预测:指对灾害出现在一年内的某个特定时区的预测。4.拓朴预测:也叫波形预测、整体预测,是用GM(1,1)模型来预测未来发展变化的整个波形。5.系统预测:指对系统的综合研究所进行的综合预测。6.包络GM(1,1)灰色区间预测:参考数列分布趋势构造一个上、下包络线为边界的灰色预测带,建立上、下2个包络模型。7.激励阻尼预测:将激励、阻尼因数以量化形式反映在GM(1,1)模型中的预测,叫激励阻尼预测。

(三)《基于灰色理论的电力负荷预测系统》

《基于灰色理论的电力负荷预测系统》目前以汉化Visual basic 6.0开发图形显示部分,以汉化的ACCESS2000数据库支持数据管理部分。程序代码在Win98以上操作系统均通过调试,运行环境为:中文 Window98

以上操作系统。

《基于灰色理论的电力负荷预测系统》是一个以中长期负荷预测为目标的预测系统,具备5年之内年度预测的基本功能。该软件设计思路如下:采用灰色理论为设计的基本理论,采用原始数据的一次累加生成序列(1-AGO)和GM(1,1)模型为建模基础!在实际设计中通过对命令按钮的click事件触发原始数据,按照指定的模型进行计算。在最后预测的显示过程中,通过建立的控件数组text10(0-4)与最终计算结果相匹配,显示在文本框中。其主要特点为:

1.强大的数据库功能:本系统采用DATA控件与ACCESS2000关系型数据库相连。关系型数据库是目前最流行的数据库,可以采用现代数学理论和方法对数据进行处理,它提供了结构化的查询语言SQL.各项操作都是通过记录集完成的。记录集是一个对象,一个记录集是数据库中的一组记录,可以是整个数据表或表的一部分。在原始数据的输入方面,操作人员可直接通过表输入并修改数据,也可在系统上直接操作。

2.欲改进及增加的功能:①将预测结果数据与数据库相结合,能够将预测数据保存到数据库中。②进一步改进预测精度,如从在原始数据上采用更精确的插值算法;在预测模型上增加一个系数,将天气及节假日影响加入到最终预测结果中。

五、结束语

负荷预测是电力系统调度、实时控制、运行计划和发展规划的前提,是一个电网调度部门和规划部门所必须具有的基本信息。提高负荷预测技术水平,有利于计划用电管理,有利于合理安排电网运行方式和机组检修计划,有利于节煤、节油和降低发电成本,有利于制定合理的电源建设规划,有利于提高电力系统的经济效益和社会效益。因此,负荷预测已成为实现电力系统管理现代化的重要内容。

几十年来各种可能的算法均在负荷预测课题上试验过了,目前实用的算法主要有:线性外推法、线性回归法、人工神经网络法、灰色系统法和专家系统方法等。各种算法均有一定的适用场合,可以说没有一个算法适用于各种负荷预测模型而精度比其它算法都高。

灰色系统理论把一般系统论、信息论、控制论的观点和方法延伸到社会、经济、生态等抽象系统,并结合数学方法,发展成为一套解决信息不完备系统即灰色系统的理论和方法。它对未来的研究具有重要意义。由电力系统实际情况可知:用电量及负荷增长受经济发展、产业结构、居民收入水平、气候等诸多因素的影响,其中一些因素是确定的,而一些因素则不确定,故可把它看作一个灰色系统。

但目前GM(1,1)模型在实际应用中还存在局限性,比较适用于具有较强指数规律的负荷序列,只能描述单调的变化过程,而对于特殊的负荷增长方式,例如当负荷按照“S”型曲线进行增长或增长处于饱和阶段时,若采用该灰色模型则预测误差较大,预测精度不满足实际要求。

灰色预测法作为电力系统需电量预测方法之一,已成为重要的研究手段,但尚有许多方面有待于进一步研究,如寻求更有效的、更符合电力系统需电量发展规律的原始数据处理方法。

总之负荷预测的结果是电力系统运行的基础数据,其精度直接影响运行的安全性和经济性。因此,提高其精度也是每个负荷预测人员追求的最高目标。

参考文献

[1]刘晨晖,电力系统负荷预报理论与方法。哈尔滨:哈尔滨工业大学出版社,1987.

测度论在统计学中的应用范文第12篇

(一)更新教学理念,深化教学思想诚信教育是教育统计与测量教学的出发点和落脚点。教育统计与测量课程的思维方式是理性主义关照下的经验主义、演绎主义关照下的归纳主义、“从部分到整体”的思维方式。其基本思想是,按照特有的思维方式,定量地揭示教育领域中“寓于偶然性中的必然性”,为教育工作者提供科学依据和理论指导。

(二)优化课程结构,重组教学模块优化课程结构的关键是要吸取各版本教材的优点,重新建立一个适合学生特点、体现教学特色、注重培养学生素质的课程新体系。总结多年的教学经验,以厚基础、专题化的研究性学习理念为基础,构建了教育统计与测量的课程教学新体系。1.理论教学模块(1)描述统计模块主要包括数据的整理与分析;集中量数、差异量数、相关量数等统计指标的意义、应用;二项分布、正态分布及其应用。(2)推断统计模块主要包括概率及概率分布、抽样分布及总体平均数的推断、平均数差异的显著性检验等。(3)教育测量与评价模块主要包括教育测量产生的历史、类型;教育测量的质量特性:信度、效度、难度、区分度;编制测验的原理;测验题目的类型及编制要求、适用条件;评价学生课业发展进步的主要方法。2.实践教学模块(1)会分析数据统计分析是用数字精确反映事物的一种定量研究。[5]平均是描述统计分析的核心思想。如,(1)有3位报考相同专业的研究生考试成绩,各课程权重系数给予同一规定,试问录取结果如何?(2)有两组个数相同、数字不完全相同的10个分数,试问:两组分数的分布是否一样?为什么?哪个平均数的代表性更好?为什么?由样本推出总体是推断统计分析的核心思想。如,从某年高考作文试卷中随机抽取100份,试估计作文总体平均分数95%和99%置信区间。(2)会假设检验假设检验有两个相互对立的假设:零假设和备择假设。如,零假设H0:某人患癌症,备择假设H1:某人未患癌症。医生给此人做诊断时,尽管遵循小概率事件原理,仍可能犯两类错误:此人未患癌症而被诊断为患癌症(α错误:H1为真却拒绝,弃真);此人患癌症而被诊断为未患癌症(β错误:H0为假却保留,取伪)。如果医生犯α错误,此人是否会抑郁而患癌症?如果医生犯β错误,此人是否会错过治疗而成为不治之症?两类错误危害很大,应该降低犯错的概率,尽量控制。(3)会编制测验教师在日常的教学工作中,一般都会通过试卷来检测学生的学习情况。于是,如何编制一份合格的试卷并进行科学分析,成为教师的必备技能。自编测验必须明确三个问题:测什么,为什么测?怎样测?包括题目双向细目表的制定,题目的类型、数量、记分方法的选择,测验的信度、效度、难度、区分度分析等步骤。[6]3.应用教学模块(1)应用一:用Word、Excel绘制统计图、表。统计图、表能简洁、直观、形象地表达数据。如,某小学四年级学生参加校园绿化植树活动,总计需要植树120棵(其中槐树46棵,柳树24棵,松树50棵)。请绘制圆形统计图。再如,某小学在雷锋活动月中,各年级涌现出的好人好事分别为:一年级男生12件、女生15件;二年级男生16件、女生24件;三年级男生11件、女生13件;四年级男生20件、女生24件;五年级男生18件、女生15件;六年级男生5件、女生10件。根据上述资料,请编制一个适当的统计表,并绘制相应的统计图。(2)应用二:考试、竞赛、选拔等。应试技巧:针对不同的题目类型,采取不同的应对方法。如,(1)一个学生猜做10个是非题,若全凭猜测,平均就可以猜对5道题(np10×0.55)。假如规定做对95%的题目才算掌握了测验的有关知识,那么,学生必须做对多少题才算掌握了这些知识呢?(2)一份试卷有100道四选一的多项选择题(每题1分),考生答对了其中80道,有20道不能回答,因而对这20道题作猜测,则猜测得分的范围有多大?(3)某项职业录取考试,在参加考试的1600人中准备录取200人,考试分数接近正态分布,平均分数为74,标准差为11,问录取分数线是多少?(3)应用三:对两组或两组以上样本的平均数差异的比较。运用SPSS统计软件进行相关样本平均数差异的显著性检验和单因素完全随机设计方差分析。如,(1)某学校将80名学生按年龄、性别、智力水平、原有知识基础等一一匹配后,分成两个班级进行教材改革实验。甲班学生使用旧教材,乙班学生使用新教材,学习后两班学生测验的结果已知。两班成绩的差异是否显著?(2)某学校为了改进教学方法,从某年级中随机抽取60名学生,分成三组,进行三种教学方法实验。一个月后进行统一测验,测验成绩已知。三种教学方法的教学效果有无显著性差异?(4)应用四:评价学生课业发展进步的方法的运用。评价学生课业发展进步的方法主要有:客观题与主观题评价法、表现性测验评价法、评定量表评价法、同伴评定和轶事记录评价法、档案袋评价法等。考试是一种常用的评价方法,作业批语、课堂提问是一种评价,家访是一种评价,一个微笑、一个眼神都是评价。教师对学生的评价是教师教育教学活动的基本环节,是教师实施教育活动的途径之一。

(三)改革教学方法1.讨论法让学生主动发表自己的看法。如,有人认为:用相对位置或相对分数来描述与评价学生的学习情况不符合素质教育的思想。这样,常模参照测量与评价的方法,在新一轮的基础教育改革中还有存在的价值吗?你怎么看这个问题?启发学生课堂思考,分组讨论。如,某学生一学年内期中考试各科平均分数为95分,期末考试各科平均分数为90分。95分与90分相差5分,存在本质上的差异吗?该学生家长批评了他,你赞同该家长的做法吗?你眼中的素质教育与分数、排名有什么样的关系?2.小组合作学习法组内合作、组间交流汇报:如,计算某班某两门课程分数的平均分、标准差、相关系数,画出成绩分布图并判断是否为正态分布。小组合作学习描述统计:列举经典实例,分组课堂练习,分析比较数据,探讨在教育科研中,标准差S是越大越好还是越小越好?讨论集中量数与差异量数的关系。小组合作学习推断统计:对小组合作调查获得的数据进行分析,探讨性别差异、年级差异等。3.讲授法在科学研究和实际应用中,我们常常要对教学方法、教材选择、心理测验、考试等实验所得的数据进行分析或对实验效果进行比较。我们可以通过对两组随机样本来比较实验前后的效果,比较的目的是看实验前后随机样本是否有所变化。引出差异显著性检验:根据两个样本统计量的差异检验两个相应总体参数差异的显著性。平均数差异显著性检验原理教学的重点是,使学生把基本原理正确地运用到教育领域的实际问题解决之中,培养学生选择知识、应用知识的能力。4.案例教学法近十几年来,西方国家的案例教学法被日益广泛地运用到我国的教育领域。通过案例的桥梁可以实现学习材料与认知结构的连接,促进有意义的学习。如,飞机失事,大家已经众所周知,为什么仍然有很多人乘坐飞机?人们坐飞机出行前,都坚信小概率事件原理,认为飞机失事不可能发生在自己的头上。任何事情都有偶然性。概率就是偶然性当中的必然规律。把测验的信度和效度的关系,比作“人才”德和才的关系,有德有才为一等,有德无才为二等,无德无才为三等,无德有才为四等。信度高是效度高的必要而非充分条件。一位学生在一个学期中,期中考试数学考了95分,期末考试数学考了88分,家长会评价说:“你看不努力,退步了吧!”这样的评价合理吗?案例教学法的关键在于所选案例要具有代表性,能很好地阐释相关理论;要典型,具有说服力;要深入浅出,使学生通俗易懂。5.参与式、探究式教学法如,在教学进程中对学生进行“大学生学习动机”的问卷调查,让学生们参与调查、评分、数据分析的全过程,渗透参与式学习、探究式教学,将教学和教育科学研究紧密结合,培养学生的教育研究能力。6.抛锚式教学法如,二项分布和正态分布的教学,以典型例子呈现正态分布的应用。分析问题时,先抛出问题留给学生思考的空间,让学生感知问题后,再作引导性讲解。紧紧抓住学生,适时引导和修正,使他们逐步理解和概括。总之,以教师为主体,以学生为主导。各种教学方法的综合运用,有利于激发学生的学习动机,增强学生的学习兴趣,让学生进行知识建构,有意义地学习。通过行动与体验,培养学生教育统计与测量能力。

(四)整合教学手段通过PPT、Word形式呈现讲解内容,使学生会读统计图、表;借助Word、Excel制作统计图、表,将概率分布等直观的表达出来,加深学生的理解,减轻教师上课手绘画图的难度。整合后的教学手段=板书+电子教案(PPT、Word)+Excel+统计软件(SPSS)。

(五)构建教学评价根据教学改革评价多元化的理念,既关注结果又重视过程,既体现知识与技能又兼顾情感、态度与价值观,设计考核的内容与权重为:教育统计与测量基本概念、原理30%(如考试),教育统计与测量软件操作20%(如运用Excel绘制统计图、运用SPSS统计分析数据、检验测验的信效度等),平时学习态度20%(如出勤、课堂参与),教育统计与测量实践应用30%(如考试、作业)。总之,考试形式不拘泥于书本知识,更侧重于实践与应用。

(六)践行教学反思1.关注学生,以学生为本在教学中要关注学生,关注学生的接受与理解水平,适时地调整教学进度和难度。教学设计联系学生生活实际,激发学生的兴趣,提高他们的学习动机;教学内容贴近学生,使得他们容易感知、领悟;教学方法关键在于学生的参与与理解,使得学生活学活用。2.案例生活化,注重实践性、应用性“抽样分布”内容抽象、理论性强。教师用生活化、典型的例子讲解,让学生分组讨论学习,实现良好的师生互动,训练学生运用观察、比较、分类等思维方法;教师举出应用性的实例,进行软件操作与演示,拓展学生的学习。如相关量数的教学,重点是每种相关适用条件的判定,而不是公式的推导。3.精选教学内容,开展形成性评价夯实理论教学,践行实践教学,突出应用教学,精选教学内容。开展形成性评价与终结性评价相结合,将学生的学习过程、学习体验和学习效果的评价作为一项教育研究工作,引导学生积极参与教育研究,培养他们的教育科研能力和教育评价能力。

二、教育统计与测量教学改革的展望

(一)建构网络互动平台组建QQ群,使得师生互动和交流有效、及时;逐步实现典型试题库、教育统计与测量相关操作软件的共享,构建网络互动平台。师生互评是在师生平等对话的过程中完成的,评价者和被评价者是一种“双主体”的评价关系。

(二)加大教育统计与测量实践教学环节的改革提高教育统计与测量在教师教育课程中的地位,重组教学模块,突出实践性和应用性。使学生掌握科学研究的方法,提高他们的教育教学实践能力,提升教育统计与测量能力。

测度论在统计学中的应用范文第13篇

关键词:心理计量学;试题反应理论;测验与评量;测验与统计

中图分类号:B841.2 文献标识码:A 文章编号:1003-5184(2012)05-0466-07

1 序言

笔者(本文第一位作者)于公元1991年6月回到台湾,在政治大学教育学系服务。旋即于《测验与辅导》与《研习信息》(1991a,1991b)期刊上,投稿发表留学美国的简短学习心得《测验理论的发展趋势》,以介绍当代心理计量学(psychometrics)在欧美国家的发展状况。后来,由于受到重视,复应邀在训育委员会委托政治大学心理学研究所承办的“心理测验之学术及实务研讨会”学术会议上,正式进行详细的论文宣读(1992)。

笔者在此,再次扼要地重点回顾该次大规模文献评阅的结果与心得如下,以作为本文的引言:(1)测验理论派别:两大一小。测验理论分古典测验理论(classical test theory,CTT)与试题反应理论(item response theory,IRT)等两大派学说理论,以及一派较小规模的推论力理论(generalizability theory,GT)。前者的使用人口较广,理论较被熟悉,相关研究文献较多;而后者的接触人口较窄,理论较为陌生,相关研究文献较少。

(2)代表人物及其著作。Gulliksen(1950,1987)的专著是古典测验理论之始;Cronbach,Gleser,Nanda和Rajaratnam(1972)的专著是推论力理论之起源;而Lord(1980)的专著则是试题反应理论的滥觞。其实,上述各家学派理论的发展,并不是断然没有交集,至今,他们仍然是并存的。

(3)两本重量级的经典作品。一为美国加州 Annual Review 公司所出版的《心理学年度评论》(Annual Review of Psychology)年刊,另一为美国心理学学会(American Psychological Association,APA)所出版的《教育测量》(Educational Measurement)。前者,约每隔四至五年,即针对过去几年间有关心理计量学领域的某个研究主题文献,进行整理和评阅,并提出该主题的研究发展现况与趋势之说明。后者,乃有心理计量学食谱(cook book)或百科全书(encyclopedia)之称,约每隔二十年,即针对过去二十年来整个心理计量学的重要领域研究文献,进行整理和评阅,并提出发展趋势的回顾与展望;第一版于1951年发行,第二版于1971年发行,笔者毕业(1991)时,则刚出版第三版,由Robert L.Linn教授所主编(Linn,1989),而最近一版是第四版,则由Robert L.Brennan教授所主编(Brennan,2006)。

(4)两个发展趋势。在该次学术会议上,笔者归纳文献后,提出测验理论有两大发展趋势的看法,那就是:理论的发展愈趋向数学化,理论的应用愈趋向计算机化。

(5)三个发展方向的未来建议。笔者亦于当时提出心理计量学未来可朝下列三个方向发展下去:1)建立多向度试题反应模式(即multidimensional item response theory,MIRT)及其参数估计所需的计算机程序;2)计算机化适性测验(computerized adaptive testing,CAT);3)结合认知科学的研究,往认知诊断测验或评量(cognitively diagnostic assessment,CDA)领域发展。而此三个领域,正是当前(从公元1991年~至今)心理计量学领域中,正发展得如火如荼的研究议题与方向。

上述重点评论,后来均被收录引用在笔者的专书著作《教育测验与评量:成就测验与教学评量》(1997,2002,2011)及《试题反应理论(IRT)及其应用》(2009)里。笔者根据有关测验与评量发展史的文献评阅结果,归纳提出近百年来有关测验与评量的发展趋势如下:

(1)能力或成就的评量观点,已由传统重视单一心智能力或成就评量的纸笔测验,逐渐走向强调多元心智能力或成就评量重要性的实作评量;

(2)命题、测验编制,及施测方式,则由原本盛行的人工化复本测验,逐渐走向题库式的计算机化适性测验;

(3)测验结果的解释与做成决策,则由原先强调常模参照测验的用途,逐渐趋向重视效标参照测验的应用;

(4)测验理论的发展与应用,亦愈发趋向重视数学化和计算机化的结合。

本文的目的,即在序文的背景下,评阅近二十年来(从公元1991年笔者回台至今),心理计量学文献出版数量在台湾测验学界发展情况的回顾与展望,以作为海峡两岸学术交流的信息桥梁。

2 相关文献资料的检索

为了进一步探索这二十年来,心理计量学的研究在台湾的发展情况,笔者检索台湾现行的两大研究文献信息检索系统:一为台湾期刊论文索引系统,另一为台湾硕博士论文索引系统。前者为国家科学委员会所出资建置,后来统一委由国家图书馆负责管理,后者则为国家图书馆所出资建置并负责管理。从这两个信息索引系统中,最可以窥见这二十年心理计量学领域的学术研究在台湾的发展情形。

由于每位作者所使用的关键词未必一致,甚至对论文主题的归类,也有译名不一、类别不一、甚至到了众说纷纭的程度。因此,笔者依据书目索引的表达方式,将心理计量学列为待检索的关键词(key words),并将其相关的译名及可能归属的类别名称,如:测验与评量、教育统计、试题反应理论(IRT)、测验与统计等,凡出现在所检索的论文标题、关键词,及摘要等范围里,通通列为检索的对象。兹分别针对上述两个信息索引系统进行检索,并将检索结果呈现在表1和表2以及图1到图4里,笔者再于后续文章里针对此检索结果进行说明。

2.2011年度篇数偏少,可能是尚未完整上传建档所致。

3.检索日期:2012.8.12.

2.国家图书馆于公元2010年,将中华民国期刊论文索引系统改版,分为台湾期刊论文索引系统和HyRead台湾期刊论文数据库。

3.检索日期:2012.8.17.

从表1和表2所示可知,心理计量学在台湾学术发展的情况,确实有逐年成长的趋势。然而,相对于二十年来,整体研究人口的成长趋势来看,心理计量学还是属于相当冷门的学科。所谓的冷门,即是指这领域的研究人口,相对于整体研究人口的成长数量来看,比例是相对偏低的。由于可能撰写有关心理计量学领域的学术论文者,多半是毕业自教育学门或心理学门的人才,表3所示即为二十年来相关学门毕业的硕博士研究人口的成长情形。若以表1和表2的数据相较于表3来看,可知学位论文或期刊论文的产出比例(以每年度的硕博士学位论文数或期刊论文数,除以每年度毕业的硕博士人口数之比例)是相当低的,因此说,心理计量学在台湾算是一门冷门的学科。

2.心理学门包含在社会及行为科学学门里计算,没有单独列成一类。

3 对过去的回顾

中国测验学会算是台湾历史悠久的学术团体之一,所出版的学术性刊物《测验学刊》,至今(2012年)已历时五十九年,可说是历史久远的学术性刊物之一。该刊物算是目前台湾心理计量学领域论文的主要出版园地,但由于论文归属的分歧,心理计量学一词在台湾并没有统一的译名与界定范围,因此本文所检索的关键词就包含了其它可能归属的名称,如:测验与评量、教育统计、试题反应理论(IRT)、测验与统计等。所以,本文采用较为广泛的检索方式,凡出现在所检索论文的标题、关键词,及摘要等范围里的论文篇数,统统列为检索的对象。虽然这种检索方式无法做到十分精确,但长远看来,却也反映出长期的发展趋势。

一门学术领域的发展,若能配合政府施政政策的推动,将能如火如荼地进展与发展茁壮;以美国为例,当布什政府推动“带好每一位孩子法案”(No Child Left Behind Act,NCLB法案)时,即带动心理计量学的学术蓬勃发展,并且造成这方面人才供不应求的情形,即为明显的一例。回顾这二十年来,台湾有一项考试方式的变革,与心理计量学的发展最具有息息相关,那就是台湾教育部在2001年推动国民中学基本学力测验(简称国中基测)的升学考试变革政策,但该政策的推动结果,却没有获得如美国推动NCLB法案那般促进心理计量学发展的效果。

国中基测是台湾近二十年来,为改进高中升学考试方式所建置发展的大型测验题库(余民宁,2004)。原先即以效标参照测验(criterion-reference testing,CRT)观点设立,并以Rasch模式作为建置与计分的理论基础,初期建立各考科为1分至60分的量尺分数,现在已改为1分至80分的量尺分数。这种考试方式的变革,虽然启用了新式的测验理论(即IRT中的Rasch模式),但却缺乏全面引用欧美的专业测验制度与配套措施(如:试题回收,不再公告题型与答案等),而仅将传统100分制的考试得分,透过beta binominal transformation计分公式变成60分制或80分制的特定量尺分数,而不是采用国际上常用的量尺分数(如TIMSS或PISA等大型数据库的学业成就评比所使用者——以250分为平均数,标准差为50分的量尺分数),结果一来徒增民众认知与习惯上的困扰,二来却没有达到当初教育改革的目标之一:降低学生的考试压力,却反而增加升学的考试压力。因此,在下一轮的教育革新中,教育部拟于2014年起推动十二年国民基本教育时,即实行免试升学的方式,届时,推动十余年的国民中学基本学力测验将转型成国中毕业会考(各学科的学习成就仅分成三等级,不再使用量尺分数),不再是国中毕业生升学高中或高职的考试依据之一。国中基测的升学考试方式,届时将再由现行的常模参照测验(norm-reference testing,NRT)做法,转变回到原先预设的效标参照测验方式。

笔者省思评估此一考试方式的变革,无法像美国推动NCLB法案一样,一举推动让心理计量学成为台湾测验与评量中的主流学说,其原因有下列几点:

(1)台湾民众被传统的考试习惯所左右,认知观念已经积重难改。例如,传统的考试习惯是:考试完毕即公布试题和答案,且采用百分制计分,答对几题可以得到几分是大众可以自己计算得知的事。然而,心理计量学是一门很专业的学问,尤其是IRT的理论和应用更是如此,像国中基测如此的新式测验方式,其考题的研发系将定锚试题(anchor items)透过严谨的等化(equating)与衔接(linking)设计程序,将不同校准过(calibrated)试题参数的考题,建立在一个相同量尺上的测验题库后,再抽题组卷成当年度使用的考试题目;如此严谨、复杂、专业的作业程序,已远远超过传统考试制度的做法。但考试传统上考试完毕即公布试题和答案的做法,却正好危害到该题库的安全性与专业性,造成它在题库试题逐渐用罄之后,已成为与传统考试没有两样的测验方式。

(2)补习班及报章杂志的宣传广告、家长们对子女升学的看法,与明星学校的光环等价值观的扭曲,反映出民众认为考试不是一件专业工作的认知,这才是造成心理计量学发展的真正瓶颈所在。由于学校考试频繁,补习班、学校、出版社所出版的测验卷价格低廉,测验试题多半是剪辑自坊间的考试参考书、过去的考古题,或教师不用心命题的题目,且多半都是依据古典测验理论且采用传统百分制计分方式的考试,这些举动造成民众对心理计量学专业形象的误解,间接认为考试不是一件专业工作,不需要像IRT那么复杂的理论依据与专业做法,也可以把考试工作办好。所以,愈发强化民众对考试传统习惯作法的认知,造成新兴的测验理论(如IRT)甚难在台湾的测验与评量领域中生根与发展。

(3)考试方式变革的目的与手段不一。当初国中基测的设计目的,是在评估教育部推动九年一贯课程教育改革是否有达成既定的目标成效,因此是立基于效标参照测验观点所建置发展的,而不是在作为升学考试之用;因此,才会引进严谨的Rasch理论模式,作为建置题库、测验,与计分的依据,并以此作为教学诊断、补救教学,与改进课程纲要参考之用。然而,因为推动此方案的部长过于鞠躬尽瘁而死于任内,后继的部长不明原委,乃将它拿来作为改良式的升学考试之用,实施十余年下来,结果造成学生的考试压力不降反升的现象,台湾民众对此政策措施的批评声浪不断。

除了国中基测是政策性推动的考试变革之外,二十年来,台湾的高等教育虽然也蓬勃发展,攻读心理计量学领域的人口也有缓步增加的趋势,但专责考试业务的机构(如:大学入学考试中心、四技二专入学考试中心、考选部举行的各种国家考试等)多半仍以古典测验理论作为主流的传统考试方式,致使专攻当代测验理论(如:IRT)的人才就业状况不胜理想,且民间企业对此领域人才的需求量又不大,这也都是间接造就此领域成为冷门科学的原因之一。

由于上述几点原因可知,心理计量学在台湾的发展,已然错过许多可以成长茁壮的机会。现行考试方式在台湾的推行,可说是根深蒂固很久了,心理计量学学者在短短二十年间的努力,即想引进与推行西方新式的考试方式,可能不是那么容易做到,这还需要时间去倡导与教育民众,以及耐心的等待才行。

4 对未来的展望—代结论

在全球华人的地区,甚至受儒家文化思想影响下的亚太地区(包括:中国大陆、韩国、日本、台湾、香港、新加坡、东南亚及美加的华侨地区等),华人家长都把“接受教育”当作是促进子女往上层社会流动的一大关键所在。重视教育,是全球华人家长的共识。而如何评估子女的学习成就好坏,相较而言,当然只有诉诸于较为客观、公平、公正的考试制度。因此,全球绝大多数华人子弟的成长岁月,从小到大即是在读书与考试中度过的。华人对考试制度和精神的认知和熟识程度,俨然已融入成为中华文化的一部分,甚至已融入每一位华人的血液里,DNA里,想要一夕变革,谈何容易。

然而,心理计量学在欧美西方国家兴起,也不过才百余年的事。西方人藉由科学探究的精神,百余年来,已将考试方式变成是一门科学,虽然心理计量学对西方人来说也是一门冷门科学,但近二十年来,仍朝着笔者所说的数学化与计算机化趋势继续发展下去,这不得不令人佩服西方人探究学问的精神与做法!凡是主修心理计量学的人都知道,一项专业化的考试,从组成考试委员会,邀请专家命题,修审试题,分析试题,等化与衔接,题库建置,到最后的组卷施测等过程,都是相当严谨、繁复、专业化的程序,也都是在一群专家代表(含:学科专家、测验专家、资讯工程专家、行政官员、一般教师等)负责规划、监督,与执行之下,才能顺利完成的作业。但是,华人(甚或是亚太地区的人民)的想法可不是这样,他们对考试的传统看法,已经太过根深蒂固了,想要他们尝试不同的新方式做法,恐怕还需要一段时间才能适应、调整得过来。

兹举一例如下,即可说明此现象。过度重视考试与要求考试完毕即公布试题和答案的看法和做法。民众呼吁说“人民有知的权利。不公布考题的话,民众怎知考题的对错与好坏?”,这句话听起来似乎是没有错、很有道理,让考试主办单位很难拒绝考生这项要求。但这样的看法和做法,就不容易使考试成为一项专业工作,当代的新兴测验理论(如:IRT)便无法派上用场,考试就仍停留在原始的传统做法上。殊不知民众的这种呼吁,其实是以邻(愈晚参加考试的学生)为壑——也是造成学生考试压力不减反增现象的来源之一。历届考题都公布了,愈晚参加考试的学生所需准备的考古试题就愈多,花费在准备考试的经费、时间、压力就愈大,未来的考题为避免与考古题重复,便会愈出愈叼钻、愈偏离考试与评量的原本目标——最后倒霉受害的,还是愈晚参加考试的学生莫属。结果,读书与考试即消磨掉大半年轻学子的学习热忱与探究学问的精神,难怪国际数学与科学教育成就趋势调查(Trends in International Mathematics and Science Study,TIMSS)的国际评比结果显示,参赛的亚太地区代表(包括:韩国、日本、香港、台湾、和新加坡,除新加坡外)学生数理成绩表现优异(包办国际评比成绩的前五名),但却相对缺乏对学习数理科学的兴趣与热忱(Mullis,Martin,Gonzales,& Chrostowski,2004;余民宁,韩佩华,2009)。这种现象都是由于过度重视考试的结果,学校的考试太过频繁,且每次考试之后都公布答案和试题,考题的命题已然愈趋叼钻,考试已偏离评量的原始目的,造成学生应付考试的能力很强,但却无法体会学习与考试(评量)的目的为何,更不用说能否体会出学习的乐趣与培养出探究学问的精神与热忱为何,这些现象都将不利于未来人才的培育。

考试制度是中华文化的千年传统,说要变革,以全盘引用新式的测验理论观点,谈何容易。因此,展望全球华人的地区,想要把考试方式变成像西方国家一样的专业测验方式,可能还需要透过长期的教育和倡导,才能教化民众未来能够接受更专业、更科学、更效率化考试方式的变革,而这才是心理计量学未来能在华人地区蓬勃发展的契机所在。

致谢:本文的撰稿,笔者拟感谢行政院国家科学委员会101年度补助大专校院奖励特殊优秀人才之奖励经费的支持(补助文号:国科会101年7月30日台会综二字第1010050707号函)。参考文献

教育部统计处.(2012).2012年08月01日,取自http://edu.tw/statistics/content.aspx?site_content_sn=8956.

余民宁.(1991a).测验理论的发展趋势.测验与辅导,109,2186-2188.

余民宁.(1991b).试题反应理论的介绍(一)——测验理论的发展趋势.研习信息,8(6),13-18.余民宁.(1992).测验理论的发展趋势.国立政治大学心理学系研究所承办“心理测验之学术及实务研讨会”的学术会议论文宣读.台北:国立政治大学.

余民宁.(1997).教育测验与评量:成就测验与教学评量.台北:心理.

余民宁.(2002).教育测验与评量:成就测验与教学评量(第二版).台北:心理.

余民宁.(2004).从调查数据回顾基本学力测验的实施.中国测验学会主办“2004年年会暨教育与心理测验学术研讨会”木铎奖得主专题演讲及论文宣读.

余民宁.(2009).试题反应理论(IRT)及其应用.台北:心理.

余民宁,韩佩华.(2009).教学方式对数学学习兴趣与数学成就之影响:以TIMSS 2003台湾资料为例.测验学刊,56(1),19-48.

余民宁.(2011).教育测验与评量:成就测验与教学评量(第三版).台北:心理.

Brennan,R.L.(2006).Educational measurement(4th ed.).Washington,DC:American Council on Education.

Cronbach,L.J.,Gleser,G.C.,Nanda,H.,& Rajaratnam,N.(1972).The dependability of behavioral measures:Theory of generalizability for scores and profiles.New York:John Wiley & Sons.

Gulliksen,H.(1987).Theory of mental test.Hillsdale,NJ:Lawrence Erlbaum Associates.(Originally published in 1950 by New York:John Wiley & Sons)

Linn,R.L.(1989).Educational measurement(3rd ed.).New York:Macmillan.

Lord,F.M.(1980).Applications of item response theory to practical testing problems.Hillsdale,NJ:Lawrence Erlbaum Associates.

Mullis,I.V.S.,Martin,M.O.,Gonzales,E.J.,& Chrostowski,S.J.(2004).TIMSS 2003 international mathematics report:Findings from IEA’s Trends in International Mathematics and Science Study at the fourth and eight grades.Chestnut Hill,MA:Boston College.

Review and Expectation of Psychometrics Literatures in Taiwan from 1911 to 2011

Yu Min-Ning Chen Po-Lin Syu Jia-Jia Chao Pei-Ching

(Department of Education,National Chengchi University,Taiwan 11605)

测度论在统计学中的应用范文第14篇

关键词:经济增长;敏感指数;设计;应用

中图分类号:F124文献标识码:A

文章编号:1000-176X(2009)01-0003-08

本文旨在构造一个对中国经济增长状况进行实时监测的指标――中国经济增长敏感指数(China Sensitive Index of Economic Growth,简记为CSIE)。该指数为一综合性指标,由专门的元素指标系统通过统计方法处理整合而成。与国内外现有宏观经济预警指标不同的是,本指数的目标不在于对经济运行周期进行描述和预测,而

在于对经济运行态势,特别是经济增长的冷热度进行测度。

一、经济运行监测理论与方法的评述及启示

长期以来,学术界关于宏观经济运行监测方法的理论依据主要是经济运行周期的测度与描述。1909年,美国巴布森(Babson)统计机构了由商业、货币、投资等领域12个敏感指标构成的巴布森经济活动指数,该指数与相关图表(Babson Index of Business Activity & Babson Chart)一起,反映美国宏观经济运行情况,这是世界上最早监测宏观经济运行的指数。此后,美国的布鲁克迈尔经济研究所(Brookmire Economic Service)于1911年也编制并了涉及股票市场、商品市场和货币市场等的经济景气指标。不过,这一时期最有影响、成就最大的经济景气指数当推1919年由哈佛大学珀森斯(W.M.Persons)教授领导的经济调查委员会(Harvard Committee on Economic Research)编制的美国商情指数(Harvard Index Chart or Harvard Index of General Economic Conditions)。

哈佛指数的目标指向是描述宏观经济波动周期,进行宏观经济预测,它于1919年1月开始在美国的《经济统计评论》(Review of Economic Statistics)定期发表。其构建的基本思想是:依据宏观经济时间序列,甄别出3类17个最为敏感、且变动具有规律性的指标,对其进行长期趋势、季节变动和不规则因素影响的剔除,据此计算其变动率,编制出3个经济景气动向指数,描绘经济周期波动规律,预测宏观经济景气程度。首次公布的哈佛指数是根据美国1875―1913年的经济统计资料而编制的,由于成功地预测了美国经济波动状况,在当时产生了较大影响。此后,它又对1919年的经济繁荣、1920年的经济急剧衰退、1922年的经济复苏等都做出了较准确的预测。从此,声名大振,一度风行于西方世界,许多国家纷纷效仿其编制原理,开始设计本国的经济景气监测指数。

然而好景不长,面对摇撼资本主义世界的1929年经济大危机,哈佛指数却错误地发出了经济继续扩张的信号,从而遭致预测的沉重失败,声誉受到重挫。为挽回败局,哈佛指数的设计者们多次修订编制方法,但始终效果不佳,最后不得不于1941年宣布停止使用。哈佛指数的失败,宣告了类似景气指数的衰落,标志着景气监测早期阶段的结束。

但是,宏观经济运行的监测活动并没有因此而终结。于1920年1月成立,由美国著名经济学家密切尔(W.C.Mitchell)任主席的美国国家经济局(National Bureau of Economic Research,简称NBER)把研究的重心转向了宏观经济监测。密切尔与经济统计学家伯恩斯(A.F.Burns)从500个经济指标的时间序列中选取21个敏感指标,研究了经济转折时间,据此于1946年出版了《商业经济循环测度》(Measuring Business Cycles)一书,较系统地讨论了经济景气的监测理论和方法。该书研究了时间序列的趋势剔除、平滑技术,特别是首次提及了经济波动中的扩散问题,这成为后来扩散指数计算的理论奠基石。1950年,NBER的经济统计学家穆尔(G..H.Moore)借鉴密切尔与伯恩斯经济波动扩散的思想,从近千个指标中选取21个指标,并将其分为先行、同步、滞后三类,开发了扩散指数DI(Diffusion Index,简记为DI),从而将哈佛指数哈佛指数是仅仅对股价、生产、货币三个方面,通过平均的方法来测定经济周期波动的模式。的编制理论大大向前推进了一步。由于DI仅能测度经济波动的方向,而不能测度波动的波幅,美国商务部的经济学家希斯金(J.Shiskin)又开发了新景气指数――合成指数CI(Composite Index,简记为CI)。新生的CI不仅能测度经济波动的方向,而且能测度经济波动的波幅,弥补了DI的不足,丰富和完善了宏观经济波动周期监测理论,成为经济监测的经典方法,为后人所广泛追捧。

根据DI 、CI的编制原理,一些国家设计了本国的经济景气指数,如日本、英国、德国等。经济合作与发展组织OECD(Organization for Economic Cooperation and Development)也于20世纪70年代,基于“增长循环”的思想,运用景气分析方法,编制了各成员国的景气指数。中国在20个世纪80年代也开始了宏观经济景气监测研究。20世纪90年代后,监测技术日趋成熟和完善,其中较有影响的是吉林大学董文泉、东北财经大学高铁梅(1998)[1]主持研究的经济周期波动分析与预测技术,该技术经过不断修正和完善,在实际中运用较好,得到了国家信息中心等有关部门的认可。中国的一些省市,如北京、浙江、湖北、辽宁等也都编制了本省市的经济景气指数,用以对本地区的宏观经济运行情况进行监测。2007年底,国家统计局推出了“中国全面建设小康社会统计监测工作方案”,该方案设计了一个包括6个子系统、25个指标的全面建设小康社会统计监测指标体系,并利用全国的相关统计资料进行了试测算,得出了2006年度的中国全面建设小康社会进程的统计监测报告。所有这些指数尽管具体的要素指标各异,结构上也有一定区别,但一个共同的特点是,在方法上都程度不同地承袭了美国扩散指数和合成指数的构建思想,其理论依据也大多是经济运行周期理论。然而,这些指数的应用却反映出这样一个不容忽视的事实:要素指标多,结构复杂,但预测准确度高,影响巨大的成果却鲜见。

哈佛指数和由其延伸、演化而来的现今一些经济景气指数诞生、发展到最后退出的事实表明,一种方法成败的关键是其监测和预测的准确度。但客观的现实却是,预测的不准确是绝对的,预测的准确却是相对的。不论一种方法对经济波动周期描述得多么妥切,多么接近实际;无论定性、定量分析多么详尽、缜密,却都无法保证预测的准确度。这其中的重要原因是经济波动中偶然性因素的影响。对人类而言,偶然性因素是不可知、不可测的,而一个偶然性因素的发生,则可能使经济运行产生截然不同的结果,这也就是所谓的“蝴蝶效应”。经济预测中时间序列的长期趋势、季节变动、循环变动,经济学家都有办法识别,也有办法处理,也就是说对于规律性的东西,人们都可以有所作为,而对偶然性因素,人们则无能为力。而恰恰是偶然性因素,或者说是一些小概率事件的发生,却导致了经济运行监测和预测结果的巨大偏差。

经济运行监测与预测结果的偏差,也可能源于人们对事物发展变化规律的认识。经济现象有其发展变化的规律,经济学家构建模型,设计指标体系,以图认识经济规律。但是,再科学的模型,再精确的指标,也不能保证完全准确地刻画经济现象发展变化的规律。因为规律是隐形的、潜藏的,并且是变动着的。而人的认识能力却是有条件的、有限的。任何一项科学研究,都是不断探索、不断发展、不断完善的,因而人们对规律的认识也是相对的、渐近的、逐步深入的。这种对规律认识的不完全性、或不准确性,也是宏观经济监测和预测结果偏差的重要诱因。

此外,哈佛指数以及由其衍生出的一些经济景气指数中所使用的先行指标、同步指标、滞后指标等,较多地包含了经济学家的主观判断,其在指标的综合处理方面也有值得进一步完善之处,这也应是影响预测结果不容忽视的因素。

前述的以哈佛指数为代表的宏观经济景气指数的设计及其应用的实践,为中国经济增长敏感指数的构建提供了有益的启示。哈佛指数中敏感指标的选取、数据采集方法等值得借鉴,而跳出其编制思想的窠臼,另辟他径,应该是中国经济敏感指数一种可供选择的设计思路。

二、中国经济增长敏感指数的构建

1.构建的理论依据

不难发现,哈佛指数及类似的经济景气指数,其重要的理论依据之一是经济周期理论。事实上,这一理论对中国经济增长敏感指数CSIE的构建也不乏指导意义。

经济周期的分析理论为CSIE的元素指标设计提供了理论依据,但CSIE是测定经济增长背景下的经济运行状况,因此,其元素指标还必须体现宏观经济增长的特征。关于经济增长,库兹列茨认为,现代经济增长有6个特征:一是人均产品增长率高;二是劳动生产率高;三是经济结构转换库兹列茨定义的经济结构转换,指农业向工业转换,工业向服务业转换,生产单位规模由分散向集约化转换,个体经济组织向非个体经济组织转换。频率高;四是社会结构和思想意识变化快;五是技术,特别是运输和通讯技术发展迅速;六是经济增长的范围有限。库兹列茨对经济增长动因及特征的描述表明,劳动生产率、生产增长率、经济结构转换率等也应该成为CSIE的重要元素指标。

2.CSIE元素指标系统

经济运行周期理论和经济增长理论为CSIE的构建提供了理论依据,而中国经济增长的现实背景则为CSIE的构建提出了具体要求。未来中国的经济将要在加快转变经济发展方式、完善社会主义市场经济体制方面取得重大进展;同时,将大力推进经济结构的战略性调整,更加注重提高自主创新能力、提高节能环保水平、提高经济整体素质和国际竞争力,促进国民经济又好又快发展。强调经济的发展又好又快,本质上是强调经济发展的质量,即经济的增长既要有效益,又要有速度,效益和速度要并重。因此,CSIE应该体现这一理念。据此,我们将中国经济增长敏感指数的元素指标元素指标的设计,参阅了中国社会科学院中国经济形势分析与预测课题组《经济蓝皮书》(陈佳贵主编,刘树成、汪同三副主编)附录部分的统计资料,如此设计,也考虑到了与该课题的呼应和一致。事实上,本文内容也属于该课题的延伸成果。系统构建为2个中级系统、7个子系统,共包括21个指标(具体指标参见表1)。具体而言,

CSIE元素指标系统分为经济增长速度和经济增长质量两个中级系统,经济增长速度中级系统下设生产、投资、外贸3个子系统,经济增长质量中级系统下设价格、增长结构、增长效益和增长潜力4个子系统。不难发现,CSIE元素指标主要为增长率指标,这既考虑了经济增长测度的要求,也便于比较,因为增长率作为相对指标易于综合。这些指标相互联系、互为补充,形成一个有机系统,成为计算CSIE的基础。

三、中国经济增长敏感指数的操作

在确定了CSIE元素指标后,就需要解决其综合处理,即经济敏感指数的计算和操作问题。

1.CSIE的计算

由于CSIE中的元素指标性质各异,有些指标也不是单纯的正指标或逆指标,特别是在宏观经济系统中,一个指标值上升或下降效应的测评,必须放在宏观经济运行大背景下来考察。因此,对CSIE中元素指标的处理和CSIE的计算,可以采用功效系数法。依据功效系数法的基本思想[2],

设有p个目标:f1(x),……,fk(x),fk+1(x),……,fp(x),其中前k个目标要求越小越好,而后p-k个目标要求越大越好。由于各目标的量纲不同,处理它们之间的关系就存在困难。功效系数法就是针对这些目标函数值的好坏,引用一个功效系数dj来打分,即:

将全部指标的评价分数值进行简均或加权平均,可求出系统的综合功效值,运用综合功效值,即可对经济增长的优劣状态做出评价和判断。

至此,综合功效系数求某一样本点CSIE(样本个体指数)的基本步骤是:

第一步:先确定每一指标的不良值x(s)i和满意值x(h)i。系统中每一指标的不良值和满意值可依据中国经济增长的历史资料求出。满意值可取该指标时序数列中较优值的均值;不良值则可取该指标时序数列的较劣值的均值。也可依据宏观经济学理论,结合专家调查法确定。尽管各指标精确的最优值难以确定,但一个指标所对应的较为满意的界限值和不能接受的界限值,则是可以确定的。同时,由于不同地区的地域特征不同,经济发展环境、发展条件以及所处的历史阶段不同。因此,其单个指标的满意值和不良值要针对不同的样本点确定,即不同的样本点,其测度指标的满意值和不良值将不相同。

第二步:依功效系数公式计算每一指标所对应的的功效系数。可通过表1计算功效系数。

有几点需要说明:

第一,CSIE中的权数fi,可以是样本点的GDP在全部样本中所占的比重,当然也可以采用其它权重,如人口比重或人均GDP比重等。

第二,经济增长速度类指数1主要测度经济增长是否过热,经济增长质量类指数2主要测度经济增长效益是否较优。两指数可单独计算使用,也可整合使用。是单独使用或整合使用,可依据研究的需要而定。同时,这两个中级系统的权数也可依据需要进行调整。

第三,CSIE的正常取值范围是[0,100]。CSIE在取值范围 [60,100]间变化时,经济运行较好,越接近100,经济运行状况越好。

若CSIE系统中速度元素指标超过100,表示经济过热,若低于60,表示经济运行低糜。

如前所述,CSIE值的目标指向是中国经济增长状况,最终取值要由若干个有代表性地区的敏感指数汇总得出。代表性地区主要源自城市,也要适度考虑农村地区。

2.CSIE元素指标权数的确定

计算CSIE的另一个技术难题是元素指标权数的确定。由于元素指标系统中包含两个层次,多个指标,它们有主有次、有轻有重,为了保证量化分析和评价测定的精度,有必要在对指标值汇总时给不同的指标赋以不同的权数。模糊数学中判断矩阵的求解理论却是解决统计赋权的一种较优方法。因此,CSIE的计算可以考虑用此法解决元素指标赋权和子系统的赋权问题。

通常情况下,一个指标系统会包含多个子系统,每个子系统内再含有多个具体指标。统计赋权首先是要在各子系统内对单个指标赋权,而后在大系统内对各子系统赋权。对于CSIE元素指标系统中的21个指标,我们以mi表示评价因子(指标),mi∈M,(i = 1,2,…n)。先考虑将集合内的各指标mi、mj两两互相对比,以确定彼此间的重要性。指标对比的重要程度我们设定闭区间[1,5] 作为一个尺度来反映,若mi与mj相比同等重要,取值为1;若mi比mj极为重要,可取满值5。在1―5的范围内,取值越大,表明一个指标比另一指标的重要程度越高;取值越小,表明一指标比另一指标的重要程度越低。可称这种数值为指标的判断系数本法的设计和采用,参阅了王琦编著的《实用模糊数学》。。

将系统内的具体指标无一例外地进行对比、定值,可求出一个由判断系数构成的判断矩阵R,其中,mij表示mi与mj相比较的判断系数,若mj与mi相比较,则得mji=1/mij。设想,若R中的系数估计正确,则应有RW,即W=(w1 w2……wn)′为R的特征向量。

通常情况下,我们把最大特征根所对应的特征向量W(∑ni=1Wi=1)的各分量作为系统内各指标的权数。实际中为方便操作,常用几何平均法将R进行加工,以求解特征向量。具体做法是:首先,将R按行对各分量连乘,求其几何平均值,得出一n维列向量(1,2,……n)′,即i=n∏nj=1mij。其次,将所求出的n维向量中的每一分量分别除以分量的总和,即得21个指标的权重向量。更进一步,可用模糊数学理论对21个指标权数分布的合理性和可靠度进行检验,所用公式为CR=CI/RI,其中,CI为判断矩阵R的一般性指标,CI=(λmax_- n)/(n-1),λmax_=1n∑ni=1(RW)iwi;RI为判断矩阵R的随机一致性指标,可由RI值表查出。当CR小于0.1时,可认为R具有较优的一致性,说明赋权合理;否则就需要调整判断矩阵,直到获得满意的一致性指标为止。

在对21个指标进行赋权后,也可对各子系统赋权。此时,将每一子系统作为一个项目,可将其作为一个综合指标看待,将它们两两对比,以判别彼此的重要性,亦可构建出一个判断矩阵R′:

对于R′可用前面的几何平均法求特征向量,也可用算术平均法求特征向量。

在CSIE中,指标系统的统计赋权是先对指标赋权,而后对子系统赋权。指标的权数是对子系统而言,而子系统的权数则是对总系统而言。如果将指标的权数分别与对应的子系统的权数相乘,则可求出指标直接对总系统的权数。所有指标对总系统的权数之和应为1。

此处,为操作方便我们对表1中经济增长质量的4个子系统赋权。先按重要程度简单排序为价格、增长结构、增长效益、增长潜力,于是可得赋权的判断矩阵R′=1223

系统中的权数分布向量为(0.4231,0.2272,0.2272,0.1225)′。

权数分布向量表明,价格子系统的权重为0.4231,增长结构子系统的权重为0.2272,增长效益子系统的权重为0.2272,而增长潜力子系统的权重则为0.1225。

同理,可对经济增长速度系统的3个子系统赋权。

3.CSIE计算实证本实证分析的数据和运算由王静、张莹、高峰和许文4位博士提供,特此说明并致谢。

根据前述原理,我们运用中国2008年第1季度宏观经济实际数据计算CSIE如表2所示。

在不考虑权重的情况下,可计算得各子系统的功效系数均值如表3所示。

在不考虑权重的情况下,可得2008年第1季度中国宏观经济CASS经济指数为78.35,若对增长速度中的3子系统运用等权,而对增长质量中的4个子系统采用前述设计的权数(0.4231,0.2272,0.2272,0.1225),这种情况下,增长速度的指数为81.25,增长质量的指数为70.94,于是有CASS经济指数为76.10。这一指数反映,2008年第1季度,中国宏观经济运行总体良好,经济增长的速度优于经济增长的质量。

实证分析表明,CSIE的设计和计算在实践上是可操作运用的。

四、结 语

改革开放以来,中国经济一直持续快速地发展,特别是近些年,国民经济一直以两位数的速率增长。因此,强调经济增长的质量,监测宏观经济的运行就尤显重要。然而,目前中国经济监测资料主要源于政府统计部门的数据,这些数据过于宏观,来源单一,缺乏广泛的代表性,特别是缺乏微观数据和地域数据,因而监测和分析的结果受数据质量的影响较大。另外,长期按照先行指标、同步指标、滞后指标以及扩散指数、合成指数的思维定式进行宏观监测,实践证明已表现出很大的局限,效果不很理想。

本文提出的中国经济敏感指数CSIE,强调从有代表性的城市、地区选取样本点,进行长期跟踪,采集第一手数据,由获取的微观资料提炼整理出宏观资料,通过微观现实变动状态,来观测宏观经济的变动趋势。这样,一方面实现了宏观经济监测的目标,另一方面也保证了地区,即中观层面和微观层面经济运行状态测度的需要。同时,CSIE突破了传统的经济运行景气分析的思维定式,提出了全新的监测思路和分析方法,这对丰富和完善宏观经济监测分析理论也是有一定贡献的。当然,CSIE也会有些不足,如各元素指标对应的满意值和不良值的确定,指标权数的确定等都还有值得进一步研究的地方,这需要通过实践的检验,不断加以修正和完善。

参考文献:

[1] 董文泉,高铁梅,等.经济周期波动的分析与预测方法[M].长春:吉林大学出版社,1998.

[2] 乌家培,陈锡康.社会主义市场经济管理技术[M].北京:高等教育出版社,1993.

[3] 邱东.多指标综合评价的系统方法[M].北京:中国统计出版社,1991.

[4] 赵峰.新编经济学说史教程[M].北京:北京师范大学出版社,2006.

[5] 王琦.实用模糊数学[M].北京:科学技术文献出版社,1992.

[6] 汪同三,等.21世纪数量经济学[M].成都:西南交通大学出版社,2005.

[7] 吴国富,安万富,刘景海.实用数据分析方法[M].北京:中国统计出版社,1992.

[8] 陈宏.一种分析关键部门的方法[J].系统工程理论与实践,1995,(9).

[9] 伟光.中国制造业的技术优势行业与技术跨越战略研究[J].产业经济研究,2004,(3).

[10] 马银波.中国汽车货运业经济绩效的实证分析[J].产业经济研究,2004,(3).

[11] 雷钦礼.服务业发展的非线性阶段性特征分析[J].统计研究,2006,(1).

[12] United Nations.System of National Accounts 1993[S].New York,1995.

[13] United Nations.Towards a System of Social and Demographic Statistics[M].New York,1975.[14] United Nations.Integrated Environment and Economic Accounting 2003-Handbook of National Accounting[Z].New York.

[15] Robinson,J.and J.Tinker.Reconciling Ecological,Economic,and Social Imperatives[Z].International Development Research Center,1998.9-44.

[16] Golley.The Ecological Context of a National Policy of Sustainability[Z].Ottawa:National Round Table on the Environment and the economy,1990.61.

[17] A.C.Miller.Reviewed Works:A Brief History of Panics by Clement Juglar[J].The Journal of Political Economy,1893,1(4):616-621.

[18] De Courcy W.Thom.Reviewed Works:A Brief History of and their Periodical Occurrence in the United States by Juglar[J].The Royal Statistical Society,1917,80(2):312-313.

测度论在统计学中的应用范文第15篇

关键词: 项目反应理论 计算机自适应考试系统 系统设计

1.引言

随着计算机技术的发展,人们利用计算机考试软件来辅助教师完成考试工作,以减轻教师工作负担,提高工作效率。但大部分考试系统的基本思想基于传统的经典测量理论(CTT)。在经典测量理论下,同一批能力水平不相同的考生要接受同一批题目的测试,这样测试的结果是:对水平低的考生来说,难度高的题目根本无法作答;对水平高的考生来说,难度低的题目测不出真实水平。实践证明,如果题目难度跟考生水平相适应,测验效果最好。基于项目反应理论的计算机自适应考试是根据测试者的能力水平自动选择与其能力水平相适应题目的个性化测试,能够弥补经典测量理论下考试的不足。

2.基于项目反应理论的计算机自适应考试系统

2.1项目反应理论

2.1.1项目反应理论的概念

项目反应理论是在针对经典测量理论的局限性的基础上提出来的。项目反应理论又称为潜在特质理论。潜在特质是指被试某种相对比较稳定的、支配其对应的测验作出反应,并使反应表现出一致性的内在特征[1]。特质(能力)和项目(试题)是项目反应理论的核心概念。项目反应理论认为被试对某项目的正确反映概率与其能力之间遵循一定的函数关系,这样的函数关系可以用项目反应模型来表示。

2.1.2项目反应模型

在众多的项目反应模型中,最具代表性的是伯恩鲍姆提出的逻辑斯蒂模型。逻辑斯蒂模型根据参数的不同分为单参数模型、双参数模型和三参数的模型。三参数的模型如下:

其中:D=1.702,θ表示受测者能力值,a表示题目对考生能力的区分度,b表示题目的难度,c表示题目的猜测系数,P(θ)表示能力为θ的人答对此题目的概率[2]。

从三参数模型可以看出三个参数和考生水平的高低对答对试题概率的影响,其中考生能力水平越高,答对试题的概率越大,而随着考生能力的增强,答对概率趋于1。

2.2计算机自适应考试(CAT)概述

2.2.1计算机自适应考试

在计算机自适应考试过程中,将根据每一道题目的回答情况进行计算,以得到与被试能力相应的能力估计值,并根据能力估计值,在题库中挑选出最适合被试能力水平的下一道试题进行测试。这样使考生能够接受适合自己的一批难度不同的题目,考试成绩更能准确客观地反映考生的实际情况,不会因为题目的难度差异或考生的偶然失误而对成绩有太大影响。

2.2.2计算机自适应考试的施测过程

计算机自适应考试的施测过程分为两个阶段。

第一阶段:初步探查阶段,即测验刚开始的时候,设置一批探查性的题目,用来初步估计考生能力水平。执行的过程如下:首先从题库中抽取较接近被试的能力水平项目实施测试,如答对则抽取更难的试题;如答错则抽取更易的试题;当出现既有答对又有答错的情况时,初步探查阶段停止。

第二阶段:精确估计真值阶段。这时,挑选试题的原则一般是与初试者的能力水平相适应,从题库中挑选出能提供最大信息量的试题。

计算机自适应考试中有三个重要环节:能力初值估计、选题策略、终止规则[3]。

2.3计算机自适应考试系统

计算机自适应考试系统能够根据考生的初始能力水平,自动地在试题库中抽取个性化初始测试项目进行测试,并根据考生的答题情况进行判断,抽取测试题目难度值与考生能力水平相适应的下一道测试题目进行测试,直到最后终止考试,并最终得到反映考生真实能力水平的结果。与传统的经典测验理论下的考试相比,测试能自动适应考生能力水平的具体情况,试题的难度、数量等可根据考生的特点而灵活变通。同时,系统能实现保存试卷功能,也提高了试卷批改的准确度和速度。本系统应该具备以下功能。

2.3.1题目管理功能

完成计算机自适应考试题库的建立及维护。教师可以录入、修改、删除试题;确定题目所属知识点,录入的题目必须有经过计算或专家估计后确定的难度、区分度、猜测系数参数;可以修改题目参数、维护题目知识点信息。

2.3.2知识点管理

根据课程特点,对课程知识内容进行分解和分类,将知识内容分解为一系列知识单元,然后细分为各知识点。对某个知识点测试的试题类型及试题数可以有很多。知识点管理包括知识点的添加、修改、删除。

2.3.3考试过程管理

包括验证登录信息、设置初始能力值、抽题、能力值估计、考试终止管理、二次登录管理等。所有用户登录时要求输入账号和密码,执行登录操作。

2.3.4用户管理

在本系统中,根据功能需要,涉及三类用户:管理员、教师和学生,他们在系统中的功能不一样。学生可完成报名、登录考试,阅读考试规则、抽取试题进行考试和结束考试的功能,管理员登录后可对系统进行用户管理、系统信息管理,可以增加删除用户、修改用户信息、分配和修改用户权限。教师登录后可以进行试题管理、设置考试基本信息、设置考生信息和成绩管理。

2.3.5考务管理

设置考试科目的相关信息:考试时间、科目、地点、监考老师等;设置考试基本参数,如考试的最大题数、最大信息量和最长考试时间等。

通过以上功能的设计与实现,本系统能够快速地根据考生能力情况使各个考生能够接受适合自己的一批难度不同的题目进行考试和评分,使考试成绩能较准确客观地反映考生的实际情况,从而体现出考试的客观性与公正性。

3.计算机自适应考试系统的设计

系统的设计要充分考虑系统的需求和设计目标,根据前面对计算机自适应考试系统需求分析的结果,对系统进行体系结构设计、功能结构设计和数据库设计。

3.1系统的体系结构设计

本文主要针对在学校使用计算机自适应考试系统来设计,考试在局域网环境内进行,本系统采用三层C/S结构。三层C/S结构是将应用功能分成表示层、功能层和数据层三部分,并在逻辑上独立。数据层作为DBMS独立出来,表示层和功能层分离成各自独立的程序,两层间的接口简洁明了。

3.2系统功能结构

根据计算机自适应考试系统的需求分析,根据系统目标将系统功能模块划分如下。

3.2.1人员管理

3.2.1.1管理员管理。系统管理员拥有所有系统操作权,可对系统管理员增、删、改。

3.2.1.2教师管理。对系统中的教师进行管理,教师可以进行考生的报名管理(添加考生),考试安排,试题管理以及成绩的查询。

3.2.2试题管理

3.2.2.1知识点管理。根据课程特点,对课程知识进行分解和分类,将知识分解为一系列知识单元,然后细分为各知识点,进行题目知识点的增加、删除、修改。

3.2.2.2试题管理。进行题目的增加、删除、修改,修改题目的参数信息、知识点信息。

3.2.3考务管理

3.2.3.1考试管理。对考试进行管理,设置、修改和删除考试的相关信息。如考试编码、考试科目、考试时间、考试班级、考试的最大题数、最大信息量、最长考试时间等。设置、修改和删除考场信息,如考试编号、考试科目、考试班级、监考老师、考试地点等。

3.2.3.2考生管理。设置考试信息后,添加、修改、删除和查询考生信息(学号、姓名、班级、身份证号等)。如输入考生考号、姓名可查询当前考生考试状态。

3.2.3.3实时考试管理。实时管理考试开始,考试结束,实时处理与记录考生与考场情况。

3.2.4在线考试

3.2.4.1考生登录。考生登录考试系统,进行身份验证。

3.2.4.2在线考试。学生进入系统阅读考试规则,获得初始能力值,系统进行抽题,考生答题,根据答题结果进行考生能力值估计,判断是否满足结束条件,同时记录该考生考试题数、测试信息量和考试时间等信息,系统保存学生考试进度,以免异常造成考试信息丢失。

3.2.5成绩管理

学生登录后,可查询本人的成绩;教师登录后可查询班级成绩,并可导出成绩。

3.3数据库设计

根据计算机自适应考试系统的特点,结合系统需要采集的信息,考虑数据的冗余性、一致性和程序的复杂性,本系统设计的主要数据表如下:管理员信息表Admin、考生信息表Examinee、试题知识点表ExamPKB、试题表Subject、考试信息表Exam、考试考场信息表ExaminationRoom、考生试题信息表ExamineeSubject等。以下是各表的主要数据项:

3.3.1管理员信息表Admin:包括人员编号、人员名称、登录名、密码、人员类型等相关信息。

3.3.2考生信息表Examinee:包括考号、身份证号、姓名、年龄、性别、班级、联系电话、状态、考场号、考试时间、能力值、分数等。

3.3.3试题知识点表ExamPKB:包括知识点编号、知识点名称、所在章、所在节等知识点。

3.3.4试题表Subject:包括题目编号、题目内容、选项A、选项B、选项C、选项D、标准答案、试题所属知识点编号、难度值、区分度、猜测系数、能力值、试题抽中次数等相关信息。

3.3.5考试信息表Exam:包括考试编号、考试名称、考试时间、最大测试项目数、最大测验信息量、考试时长、考试状态。

3.3.6考试考场信息表ExaminationRoom:包括考场编号、考场名称、监考老师、考试地点。

3.3.7考生试题信息表ExamineeSubject:包括考生编号、试题编号、答案、答题结果、能力值、测试项目数、测验信息量等。

4.结语

本文对计算机自适应考试系统进行了分析与设计。主要介绍了计算机自适应考试系统的相关理论,并对系统进行了功能模块的设计及数据库的设计。另外,在自适应考试系统中还应该考虑考试过程中能力值计算、考试终止、选题策略等算法的选择,不同的算法对系统运行速度的影响和对网络条件的要求不一样;还要考虑试题内容的均衡问题和题目的曝光率对考试结果的影响。

参考文献:

[1]叶华乔.基于IRT的计算机化自适应考试研究[J].福建电脑,2009,(12).