美章网 精品范文 统计学变量类型范文

统计学变量类型范文

统计学变量类型

统计学变量类型范文第1篇

关键词:生物医学数据;统计建模;预测模型;心得体会

随着生物信息技术的飞速发展,生物医学研究领域的数据呈几何级增长。近年来,生物医学大数据受到学者们的广泛关注。生物医学大数据具有典型的“4V”特征:体量巨大(volume)、种类繁多(variety)、实时更新(velocity)、价值隐藏(value)[1];“3H”特点:高维(highdimension)、高度计算复杂性(highcomplexity)、高度不确定性(highuncertainty)[2]。因此,综合利用生物学、医学、数学、流行病学、统计学、计算机学等多个学科的方法和手段,从中挖掘“有价值”的信息,为生物医学研究提供确凿有效的证据,显得尤为重要。笔者以肺癌全基因组关联研究(genome-wideas-sociationstudy,GWAS)为例,结合理论学习和案例实践的切身体会,浅谈利用GWAS数据建立肺癌风险预测模型的心得体会。

一、严谨的数据质量控制体系不容忽视

由于存在检测、观察、填写或录入错误,未经数据质控的原始数据极可能含有一些异常,甚至错误的观测值。在研究设计之初,便要尽可能考虑规避产生错误数据。另外,统计建模之前,仍然必须对原始数据再次进行质量控制。在GWAS中,要同时对行(样本)、列(位点)进行质量评价。例如,删除次等位基因频率低于5%、缺失率超过5%或哈代不平衡的位点;删除分型失败率超过5%、问卷性别与遗传性别不一致、存在血缘关系、属于离群值的样本[3]。另外,同时需要对流行病学问卷及临床数据进行核查。只有对数据进行清理后,才能用于后续关联分析、统计建模。

二、合理的建模方法和策略值得精雕细琢

对于GWAS高维数据,合理的方法和策略不仅要考虑统计学性能(一类错误、检验效能、预测精度),还需要考虑分析效率(计算速度)。因此,研究者应该要深入思考,为研究项目量身定制一套“合理”的方法和策略。然而,现有的统计学模型和方法往往都有相应的应用条件。实际数据由于其变量结构的复杂性,不一定完全满足所有的应用条件。并且,简单的算法速度快,但统计性能相对低;复杂算法需要牺牲计算速度来提升统计性能。因此,研究者可能需要制定多个备选方案。结合建模步骤,笔者将从以下几个方面,浅谈个人心得体会。1.初始模型:一般拟合logistic回归模型评价肺癌风险。模型中往往需要纳入一些协变量,例如:年龄、性别、吸烟、人群分层等。一般参考以下纳入原则:(a)在模型中有统计学意义(P≤0.05);(b)即便在模型中无统计学意义,但绝大多数同类研究显示其是公认的影响因素。某些协变量可能是位点的混杂因素,例如人群分层。如果GWAS中忽视调整混杂因素的影响,则有可能导致误报噪音位点的一类错误膨胀,或识别致病位点的检验效能降低[4]。此外,研究者还需要考察协变量进入模型的形式。一般而言,无序分类变量以哑变量形式进入模型。当某些类别样本量特别小,需要进行类别合并。有序分类变量、连续性变量则需要考虑是否以非线性的形式进入模型。一种最简单的方式是,将连续性变量转化为有序分类变量,并以哑变量形式进入模型。如果哑变量各组的系数呈现线性递增的趋势,则提示原始变量与结局变量间存在线性关系。否则,可采用哑变量、样条函数等方法处理非线性关系。2.因素筛选:研究者需要从GWAS数据50万位点中筛选出肺癌相关位点,加入初始模型,以提高模型的预测精度。常规做法是,在初始模型中逐个纳入位点,对位点的主效应进行假设检验。因检验次数达50万次,研究者必须要考虑多重比较所致的一类错误膨胀。常见一类错误控制方法有Bonferroni法和FDR法。前者较为严格,后者较为宽松。GWAS识别位点一般采用“宁缺毋滥”的原则,倾向于采用严格的校正方法。除此之外,研究者还要在多个独立的人群中验证初筛的位点。如果位点在多个人群中都显示与结局存在统计学关联,则认为该位点是潜在的影响因素。除基因位点主效应外,研究者还需要关注基因-基因、基因-环境交互作用。复杂疾病往由环境、基因相互影响,共同导致。因此,有必要在模型中对交互作用进行评估。例如,基因-环境交互作用可以显著提高肺癌风险预测模型的预测精度[5]。有效的降维策略能够提高因素筛选的效率。笔者曾采用“信息熵初筛对数线性模型再筛多因素lo-gistic回归模型确认”的降维策略进行全基因组基因-基因交互作用分析[6]。信息熵方法计算速度快,且其统计量总是不小于对数线性模型,不会出现漏检的情况。前两步可以检验次数将1011次缩减至105次。检验次数降低6个数量级。最后一步,利用调整协变量的logistic回归模型对关联结果加以确认,防止出现假阳性。当然,研究者也可以根据项目“量体裁衣”,选择其他降维方法,例如:随机森林(randomforest)、多因子降维(multifactordimensionalityreduction,MDR)等。3.预测模型:经过遗传因素筛选步骤后,研究者可通逐步回归、LASSO等方法,建立含有与协变量、遗传位点的主效应项、交互作用项的风险预测模型。根据受试者工作特征曲线(receiveroperatingcharacteristiccurve,ROC)确定一个风险阈值,使得风险预测的灵敏度、特异度同时达到最优。若样本的预测概率≥阈值,则预测该样本为肺癌。4.模型评价:从统计学的角度,可采用ROC曲线下面积(areaunderROC,AUC)来评价模型的优劣[7]。此外,还可以采用交叉验证的方式评价模型,即:训练集拟合的预测模型对测试集的样本进行风险估计,并计算AUC。然而,AUC并非衡量模型的唯一标准。如果预测模型形式简单,应用便捷,即便AUC稍有逊色,也是优秀的模型之一。所以,笔者认为需要综合考虑,权衡利弊。

三、熟练的软件操作和编程技能令人事半功倍

扎实的理论基础固然重要,熟练的软件操作亦不可或缺。笔者建议研究者不要拘泥于某一软件,本着“方便原则”利用多个软件进行数据处理、统计建模。根据笔者的经验,一般不太可能一次性完成建模工作,往往需要不断调整分析策略和分析方法。因此,笔者建议研究者适当撰写一些项目相关的通用程序。如果需要重新建模,只需要修改程序参数,微调代码就可以建立新的预测模型。因此,这就要求研究者“功在平时”以培养编程能力。基于肺癌GWAS风险预测模型的建模体会,笔者建议研究者需要重视数据质量控制体系、推敲建模方法和策略、培养熟练软件操作技能。

参考文献:

[1]王波,吕筠,李立明.生物医学大数据:现状与展望[J].中华流行病学杂志,2014,35(6):617-620.

[2]宁康,陈挺.生物医学大数据的现状与展望[J].科学通报,2015,(z1):534-546.

[3]陈峰,柏建岭,赵杨,荀鹏程.全基因组关联研究中的统计分析方法[J].中华流行病学杂志,2011,32(4):400-404.

[4]ZhaoY,ChenF,ZhaiR,LinX,WangZ,SuL,ChristianiDC.Correctionforpopulationstratificationinrandomforestanalysis[J].InternationalJournalofEpidemiology,2012,41(6):1798-1806.

[5]ZhangR,ChuM,ZhaoY,WuC,GuoH,ShiY,DaiJ,WeiY,JinG,MaH,DongJ,YiH,BaiJ,GongJ,SunC,ZhuM,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-environmentinteractionanalysisfortobaccosmokeandlungcancersusceptibility[J].Carcinogenesis,2014,35(7):1528-1535.

[6]ChuM,ZhangR,ZhaoY,WuC,GuoH,ZhouB,LuJ,ShiY,DaiJ,JinG,MaH,DongJ,WeiY,WangC,GongJ,SunC,ZhuM,QiuY,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-geneinteractionanalysisidentifiesanepistaticgenepairforlungcancersusceptibilityinHanChinese[J].Carcinogenesis,2014,35(3):572-577.

统计学变量类型范文第2篇

[关键词]社会科学 统计方法 应用问题

社会科学的实证研究在应用统计学时,统计分析是其关键环节,资料性质分析、资料类型的判断、统计方法的选择等各个环节都应把握好,否则,其分析结果将是没有意义的。本文拟通过对社会科学实证研究论文中应用统计分析方法出现的问题,从描述性分析、定量资料的统计分析、定性资料的统计分析、相关与回归分析等方面进行解析。

一、描述性分析问题

在社会科学实证研究中,一般首先要对社会调查数据进行描述性统计分析,以发现其内在的规律性,再选择进一步的分析方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布形态以及一些基本的统计图形。

描述性统计分析虽然较为简单,但如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将值得怀疑,而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。

1.均值的误用

均值是用于描述样本集中趋势的最常用指标,但应注意,对于正态或近似正态的对称分布样本,它是较好的指标,一般与离散趋势指标中的标准差一起描述数据资料(即形式);而对于偏态分布的样本,则常用中位数来描述集中趋势,一般与离散趋势指标中的四分位数间距一起描述数据资料(即形式),究其原因是均值容易受到极端值的影响。

对于两个分布完全不同的样本,可能会得到相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要进行深入研究或应当引起人们注意的。为了弥补均值的这种缺陷,一般在报告均值的同时,也应该报告标准差,或用直方图或散点图的形式描述分布,以展示群体内部的差异。

2.绝对数的误用

因为社会调查研究比较容易得到大容量的样本,所以对任何小概率事件,用绝对数报告都会出现较大的数字,单纯对绝对数的强调往往会产生误解。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究样本的比例。

3.相对数的误用

相对数常用于描述定性资料的内部构成情况或相对比值或某现象的发生强度,一般有比与率两种形式。虽然比与率的计算形式是相同的,即两个绝对数之商乘以100%,但它们的含义是不同的。率用于反映某种事物或现象发生的强度,而比则用于反映部分与整体或某一部分与另一部分之间的关系。当数据的比较基础相差悬殊,用绝对数表述没有可比性时,就要借助于相对数。

应用相对数也容易出现一些问题,如:百分比与百分率的混用;当分母很小时,只计算百分比或百分率,而没有报告样本量;当比较两个或多个总体率时,没有考虑到各总体对应的内部构成情况是否一致,而直接比较等。

例如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,其实是忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群,这样对两个不同群体的比较往往会导致错误的结论。

二、定量资料的统计分析问题

定量资料的统计分析是指所观测的结果变量是定量的,而且希望考察定性的影响因素取不同水平时,定量观测结果的均值之间的差别是否有统计学意义。定量资料的统计分析在统计学应用中占有很大的比重,出现的误用也比较多。

正确选择定量资料统计分析方法的关键有两点:一是正确判断统计研究设计的类型;再是检验定量资料是否满足“独立性、正态性及方差齐性”的前提条件[1]。前者要求使用者对统计研究设计的类型较为熟悉,后者则需要进行预分析,可适当借助于统计分析软件。根据前提条件是否满足来决定用参数假设检验或方差分析,还是用非参数检验方法,进而根据对统计研究设计类型的判断,确定采用具体的统计分析方法。

对定量资料作统计分析时,常犯的错误有:

1.不管统计研究设计类型,盲目套用t检验或单因素方差分析;

2.不验证“独立性、正态性及方差齐性”前提条件,而直接应用参数检验法;

3.将多因素设计定量资料人为拆成多个成组设计定量资料,采用t检验法;

4.将多因素设计定量资料用单因素多水平方差分析解决,或用一元分析替代多元分析等。

三、定性资料的统计分析问题

定性资料的统计分析是指观测结果为定性变量的统计处理问题。定性资料的统计分析在社会科学研究中的应用也是很广泛的,通常根据影响观测结果的原因变量性质分为三种情况:

1.原因变量都为定性变量,此类资料就是通常理解的定性资料。常用的统计分析方法有:检验、秩和检验或Ridit分析、Spearman秩相关分析、线性趋势检验、一致性检验(也称Kappa检验)、加权检验、对数线性模型等。

2.原因变量中既有定性变量,又有定量变量。这类资料的统计分析通常有两种处理方法:一是结合专业知识先将定量的原因变量离散化,使其转化为定性变量,然后采用上面3.1的统计方法处理;二是先对定性的原因变量,采用哑变量技术进行处理,转化为多个二值变量,赋予0或1值,然后采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。

3.原因变量全部为定量变量。这类资料的分析可以直接采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。

定性资料的最常用表达形式是列联表,列联表有多种类型,如横断面设计的四格(或称2x2)列联表、队列研究设计的四格列联表、配对研究设计的四格列联表、双向无序的R×C列联表、单向有序的R×C列联表、高维列联表等,不同类型所用统计方法也不同,所以处理这类资料的关键是分辨出列联表的类型,从而选择相应统计分析方法。

在社会科学研究中,定性资料的统计分析常犯的错误主要就是列联表的误判,从而错误的选用统计方法。

四、相关与回归分析问题

相关分析是研究变量之间的相互关系,常局限于统计描述,较难从数量角度对变量之间的联系进行深入研究;回归分析则是研究变量之间的依赖关系,可实现对自变量进行控制,对因变量进行预测,及对随机变化趋势进行适当修匀。

相关分析可用于对定类、定序、定距及定比等尺度的各类资料进行定量描述,但各类资料的计算公式是不同的,所以应用时,需要判明资料的类型;而回归分析则要根据因变量性质的不同,选用不同的回归分析方法,一般可分为两类:一是因变量为连续型变量,具体的,当为非时间性的连续型变量时,可用线性回归分析、多项式回归分析、非线性回归分析等;当为时间变量时,可用COX半参数回归分析、指数分布回归分析及威布尔回归分析等;当为随时间变化的连续型变量时,则需要利用时间序列分析。二是因变量为离散型变量,需要利用Logistic回归分析、对数线性模型分析及多项Logit模型分析等。

在社会科学研究中,相关与回归分析的应用非常广泛。但应用时也经常出现一些错误:

1.没有结合问题的专业背景和实际意义,就进行相关与回归分析。其结果有时可能是莫名奇妙的,可能出现所谓的虚假相关。

2.对于较简单的线性相关与回归分析,不注意应用条件,盲目套用。一般地,Pearson相关分析要求两变量都是随机变量,且都服从或近似服从正态分布,若不满足条件,应采用其它相关分析法,如Spearman相关分析等。而线性回归分析则要求因变量必须是随机变量,且服从或近似服从正态分布,在回归分析前,先要进行统计检验,证实两变量的显著相关性,再进一步进行回归分析才有意义。

3.只求得相关系数或回归方程,而不进行参数假设检验就下统计分析结论。因为相关系数或回归方程都是由样本数据求得的,是否具有统计学意义,必须通过其相关参数的假设检验来判定。

4.多元回归分析策略的错误。在社会科学实证研究中,对多元回归分析的应用,不少人采取的策略是先用单变量分析,得到有统计学意义的多个变量,再将它们引入回归方程进行多变量分析,用逐步回归法进行筛选,从中选出有统计学意义的变量,这种分析策略是不正确的。因为自变量之间可能存在不同程度的交互作用,在单变量分析中无统计学意义的变量并非在多元回归分析中也没有意义。正确的处理方法应该是先综合分析各种变量之间的作用、实际意义及关系,有些可作为控制变量(如性别、年龄等),将经过初步筛选的所有变量代入回归方程进行分析,再采用逐步回归方法,必要时可多用几种筛选变量的方法,同时要注意自变量间的交互作用,进行综合分析,这样才能得到较为可靠的结果。

参考文献:

[1]王在翔:社会统计理论与实践[M].青岛:中国海洋大学出版社,2008

[2]胡良平等.医学统计学基础与典型错误辨析[M].北京:军事医学科学出版社,2003.148-239

[3]柯文泉:统计方法应用中应注意的几个问题[J].时代经贸,2008,6(96):83-86

统计学变量类型范文第3篇

关键词:Oracle;高校研究生招生系统;存储过程;触发器

中图分类号:TP311文献标识码: A 文章编号:1009-3044(2010)07-1605-04

Design and Implement of the University Recruit System for Graduates Based on Oracle

CHEN Hong

(College of Computer Science, Sichuan normal University, Chengdu 610101, China)

Abstract: At present,Oracle is one of the popular database, it's adopted in many applications. The university rec-ruit system for graduates based on oracle 9i can deal with examinees' score and result through PL/SQL of Oracle.

Key words: oracle; the university recruit system to graduates; procedure; trigger

随着数据库技术的不断发展,数据库经历了Foxpro、SyBase、SQL server、DB2、Oracle等阶段。现在Oracle是最流行的大型关系数据库之一,拥有广泛的用户和大量的应用案例。PL/SQL是Oracle中用户和服务器之间的一种接口,使用PL/SQL语言可以在各种环境下对Oracle数据库进行访问。高校研究生招生系统是每个有招收研究生资格的高校必须具备的管理系统。本高校研究生招生系统是基于Oracle 9i设计和实现的,能对考生的成绩数据和录取情况进行有效管理。

1 系统分析与设计

该研究生招生系统要求设计PL/SQL程序对考生的成绩数据进行处理,处理的逻辑是根据每门专业课的最低分数线和总分的最低分数线自动将考生归类为录取考生、调剂考生和落选考生。

1.1 系统功能描述

高校研究生招生系统的功能描述如下:

1) 该系统要求能体现考生的基本信息,考生的考试信息,以及各学校各地区的分数线信息。设计该系统的数据结构(表结构,包括约束),使其能简单清晰的表示出上面信息。

2) 要求对每位考生设计一个考生编码,唯一的确定一个考生(主键),该编码要求自动生成(利用序列)。

3) 做一存储过程,输入考号或姓名,返回该考生的考试信息,以及录取情况(录取、调剂和落选)。

4) 做一存储过程,输入地区和总分分数线,查询所有上线学生的考生信息,以及上线考生的人数和这些考生平均总分)

5) 利用触发器实现:当修改分数线分数时,考生的录取情况要随之相应改变。

6) 利用触发器实现:当删除考生信息时,考生的考试信息要随之删除。

7) 为每个学校创建一个视图,记录每个学校的每门考试科目和总成绩的最低分数线。

1.2 系统功能模块分析

根据以上功能,设计出系统功能模块,具体如图1。

2 系统设计和实现的关键技术

2.1 数据库表结构设计

本系统包含4个表,考生信息表kaosheng、考试信息表kaoshi、录取信息表luqu、分数线表fenshuxian。

考生信息表kaosheng,主要是记录考生的基本信息。

考试信息表kaoshi,主要是记录考生的一些基本信息和每门考试科目的成绩。

录取信息表luqu,主要是在考试表的基础上记录考生的总成绩和录取标志。

分数线表fenshuxian,主要是记录每个地区、每个学校的各门考试科目和总成绩的最低分数线。

需要注意的是四个表中若表之间有相同名称字段,则这些字段的数据结构和约束条件必须相同。比如政治成绩,数据结构设计为number(4,1),约束条件都是zhengzhi>=0 and zhengzhi

2.2 序列的创建

序列的作用是自动生成整型数值,该系统创建了两个序列,第一个是kshm,作用是在向考生基本信息表中插入数据时自动产生考号。第二个是ksbh,作用是在向考生考试信息表中插入数据时自动产生考号。两个序列的内容是一样的,只是需要创建两个序列,确保分别在向考生基本信息表和考试表插入数据时自动产生考号。创建序列kshm的语句及说明如下:

create sequence kshm

minvalue 106367077402001--考号的最小值

nomaxvalue--没有考号的最大值限制

start with 106367077402001--考号从最小值开始

increment by 1--考号每次增长1

nocycle - -序列没有循环值

cache 20; - -需要的内存块大小为20

2.3 创建存储过程

PL/SQL语言可以把用户自己编写的程序存储起来,在需要的时候调用执行。这样可提高代码的重用性和共享性。存储过程就是以一种形式存储的用户程序,它需要人为执行调用语句运行。

2.3.1 存储过程(return_counttotalscoreflag.prc)

该存储过程用于计算考生的总成绩,根据考试成绩,和分数线表的相应信息比较,计算出考生的录取情况。该过程及语句说明如下:

create or replace procedure counttotalscoreflagprocess

is

kaoshirecord kaoshi%rowtype;--记录型变量,记录从游标中读取的数据

kaoshitotalscore luqu.totalscore%type;--数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的总分

p_flag luqu.flag%type; --字符型变量,类型和luqu表中的flag的类型相同,存放考生的录取标志

p_zhengzhi luqu.zhengzhi%type;--数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的政治成绩

p_yingyu luqu.yingyu%type;--数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的英语成绩

p_zhuanye1 luqu.zhuanye1%type;--数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的专业课1的成绩

p_zhuanye2 luqu.zhuanye2%type; --数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的专业课2的成绩

p_totalscore luqu.totalscore%type; --数值型中间变量,类型和luqu表中的totalscore的类型相同,存放考生的总分

cursor kaoshicursor is

select * from kaoshi;--游标用于读取考试表中的数据

errormessage exception;

begin

open kaoshicursor;

if kaoshicursor%notfound then

raise errormessage;

end if;

loop

fetch kaoshicursor into kaoshirecord;--将游标中的数据存入此变量中

kaoshitotalscore:=kaoshirecord.zhengzhi+kaoshirecord.yingyu+kaoshirecord.zhuanye1+kaoshirecord.zhuanye2;--统计总分

select zhengzhi,yingyu ,zhuanye1,zhuanye2, totalscore into p_zhengzhi,p_yingyu,p_zhuanye1,p_zhuanye2,p_totalscore from fenshuxian where kaoshirecord.xx=fenshuxian.xx;

--将各字段的值存入中间变量中,条件是考试表中的学校要和分数线表中的学校相同

if(kaoshirecord.zhengzhi>=p_zhengzhi and kaoshirecord.yingyu>=p_yingyu and kaoshirecord.zhuanye1>=p_zhuanye1 and kaoshirecord.zhuanye2>=p_zhuanye2 and kaoshitotalscore>=p_totalscore) then p_flag:='录取';

--当政治、英语、专业课1、专业课2和总分大于或等于分数线表中的相应信息时,录取标志为“录取”,否则为“落选”

else p_flag:='落选';

end if;

exit when kaoshicursor%notfound;

insert into luqu(kh,xm,xb,identify,jg,diqu,xx,zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore,flag) values(kaoshirecord.kh,kaoshirecord.xm,kaoshirecord.xb,kaoshirecord.identify,kaoshirecord.jg,kaoshirecord.diqu, kaoshirecord.xx,kaoshirecord.zhengzhi,kaoshirecord.yingyu,kaoshirecord.zhuanye1,kaoshirecord.zhuanye2,kaoshitotalscore,p_flag);

--将数据插入到录取表中

end loop;

close kaoshicursor;

commit;

exception

when errormessage then

dbms_output.put_line('无法打开数据表');

end counttotalscoreflagprocess;

测试情况如下:

执行测试文件后,用select * from luqu;查询录取表中的数据,显示结果如下:

KH XM XBIDENTIFY JG DIQU XX ZHENGZHI YINGYU ZHUANYE1 ZHUANYE2 TOTALSCORE FLAG

----

106367077402001 谭德林 男 511011198101019322 中国德阳 四川 四川师范大学 54.0 55.0135.0125.0 369.0 录取

106367077402002 王亚琼 女 511011198501019322 中国云南 四川 四川大学45.0 55.0 95.0 95.0290.0 落选

106367077402003 陈虹 女 511011197801019322 中国雅安 四川 电子科技大学 75.0 55.0120.0125.0 375.0 录取

106367077402004 朱军军 男 511011198401019322 中国湖南 北京 北京大学65.0 55.0 95.0 95.0310.0 落选

106367077402005 刘文俭 女 511011198501019322 中国山东 北京 清华大学65.0 85.0 95.0 95.0340.0 落选

2.3.2 存储过程(return_kaoshiluquinfo.prc)

该存储过程用于输入考号或姓名,返回该考生的考试信息,以及录取情况(录取、调剂和落选)。该过程及语句说明如下:

create or replace procedure return_kaoshiluquinfo(

p_kh in out luqu.kh%type, --p_kh为输出型变量,类型和录取表中的考号类型相同,记录考号

p_xm out luqu.xm%type,--p_xm为输出型变量,类型和录取表中的姓名类型相同,记录姓名

p_jg out luqu.jg%type,--p_jg为输出型变量,类型和录取表中的籍贯类型相同,记录籍贯

p_xx out luqu.xx%type,--p_xx为输出型变量,类型和录取表中的报考学校类型相同,记录报考学校

p_zhengzhi out luqu.zhengzhi%type,--p_zhengzhi为输出型变量,类型和录取表中的政治类型相同,记录政治

p_yingyu out luqu.yingyu%type,--p_yingyu为输出型变量,类型和录取表中的英语类型相同,记录英语

p_zhuanye1 out luqu.zhuanye1%type,--p_zhuanye1为输出型变量,类型和录取表中的专业1类型相同,记录专业1

p_zhuanye2 out luqu.zhuanye2%type,--p_zhuanye2为输出型变量,类型和录取表中的专业2类型相同,记录专业2

p_totalscore out luqu.totalscore%type,--p_totalscore为输出型变量,类型和录取表中的总分类型相同,记录总分

p_flag out luqu.flag%type --p_flag为输出型变量,类型和录取表中的录取标志类型相同,记录录取标志

)

as

begin

select kh,xm,jg,xx,zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore,flag into p_kh,p_xm,p_jg,p_xx,

p_zhengzhi,p_yingyu,p_zhuanye1,p_zhuanye2,p_totalscore,p_flag from luqu where kh=p_kh;

--从录取表中查询学号等于给定学号的一系列信息(比如学号、姓名等),并将其存入相应的输出变量中(比如 p_kh、p_xm)

exception

when no_data_found then

dbms_output.put_line('the kh don''t exists!');

end return_kaoshiluquinfo;

测试情况如下:

在测试文件中输入的学号为106367077402004,执行测试文件后,DBMS输出如下的考试、录取信息:

106367077402004 朱军军 中国湖南 北京大学 65 55 95 95 310 落选

2.3.3 存储过程(return_kaoshenginfo.prc)

该存储过程用于输入地区和总分分数线,查询所有上线学生的考生信息,以及上线考生的人数和这些考生平均总分。该过程及语句说明如下:

create or replace procedure return_kaoshenginfo(

n_diqu in fenshuxian.diqu%type, --字符型变量,类型和 fenshuxian表中的diqu这个字段的类型相同,记录“地区”

n_totalscore in fenshuxian.totalscore%type

--数值型变量,类型和 fenshuxian表中的totalscore这个字段的类型相同,记录“总分”

)

as

m_averagefenshuxian.totalscore%type;

m_count int;

begin

select avg(totalscore),count(*) into m_average, m_count from luqu

where diqu=n_diqu and totalscore>=n_totalscore and flag='录取'; --查询地区和总分符合要求并且录取标志为“录取”的信息

dbms_output.put_line('上线考生平均分:'||m_average||'分'||' '||'上线人数:'||m_count||'人');

dbms_output.put_line('上线考生基本信息如下:');

for v_kaosheng in (select * from luqu where diqu=n_diqu and totalscore>=n_totalscore and flag='录取')

loop

dbms_output.put_line( '考号:'||v_kaosheng.kh||''||'姓名:'||v_kaosheng.xm ||' '

||'性别:'||v_kaosheng.xb ||' '||'身份证号:'||v_kaosheng.identify ||' '||'籍贯:'||v_kaosheng.jg

||' '||'报考地区:'||v_kaosheng.diqu ||' '||'报考学校:'||v_kaosheng.xx);

--输出考生的基本信息

end loop;

commit;

exception

when no_data_found then

dbms_output.put_line('the data doesn''t exists!');

end return_kaoshenginfo;

测试情况如下:

执行测试文件后,DBMS输出如下内容:

上线考生平均分:372分 上线人数:2人

上线考生基本信息如下:

考号:106367077402001姓名:谭德林 性别:男 身份证号:511011198101019322 籍贯:中国德阳 报考地区:四川 报考学校:四川师范大学

考号:106367077402003姓名:陈虹 性别:女 身份证号:511011197801019322 籍贯:中国雅安 报考地区:四川 报考学校:电子科技大学

2.4 触发器

触发器是一种特殊的存储过程,触发器的执行由事件触发的,它当指定的表中的数据发生变化时自动运行。该研究生招生系统需要两个触发器,第一个是利用触发器实现当修改分数线分数时,考生的录取情况要随之相应改变。第二个是利用触发器实现当删除考生信息时,考生的考试信息要随之删除。为此创建了两个触发器,分别为updatefenshuxian.trg、del.trg。删除考生信息时,用考号为条件,这样相应的考试信息也随之删除。这里重点介绍触发器updatefenshuxian.trg,基本思想是首先将luqu表中与fenshuxian表中的学校相同的记录中的zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore这5个字段的值存入5个数值型变量中。再判断这5个字段的值是否分别大于或等于fenshuxian中相应的更新之后的zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore这5个字段的值,若条件成立,则修改luqu表中的录取标志flag为“录取”,否则修改luqu表中的录取标志flag为“落选”。具体代码及说明如下:

create trigger updatefenshuxian

after update on fenshuxian

for each row

declare

p_zhengzhi luqu.zhengzhi%type;--数值型变量,将luqu表中的zhengzhi数据存入此变量中

p_yingyu luqu.yingyu%type;--数值型变量,将luqu表中的yingyu数据存入此变量中

p_zhuanye1 luqu.zhuanye1%type;--数值型变量,将luqu表中的zhuanye1数据存入此变量中

p_zhuanye2 luqu.zhuanye2%type;--数值型变量,将luqu表中的zhuanye2数据存入此变量中

p_totalscore luqu.totalscore%type;--数值型变量,将luqu表中的totalscore数据存入此变量中

begin

select zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore into p_zhengzhi,p_yingyu,

p_zhuanye1,p_zhuanye2,p_totalscore from luqu where xx=:old.xx;--条件为luqu表中的学校和fenshuxian表中的学校名称相同

if (p_zhengzhi>=:new.zhengzhi and p_yingyu>=:new.yingyu and p_zhuanye1>=:new.zhuanye1 and

p_zhuanye2>=:new.zhuanye2 and p_totalscore>=:new.totalscore ) then

--当政治、英语、专业1、专业2、总分大于或等于更新后的分数线中的相应信息,则修改录取标志为“录取”,否则修改为“落选”。

update luqu set flag='录取' where xx=:old.xx;

else

update luqu set flag='落选' where xx=:old.xx;

end if;

end updatefenshuxian;

3 结束语

该高校研究生招生系统主要是利用Oracle中的PL/SQL程序对考生的成绩及录取情况进行处理,实现了对考号、录取情况、上线考生信息、分数线等的管理。但还有许多地方还需要改进,比如数据库可以再设计简单些。还可以结合VC或C#等可视化编程语言,做成界面形式,开发出行之有效的更适用的、方便操作的研究生招生系统。

参考文献:

[1] 赵松涛.Oracle 9i中文版入门与提高[M].北京:人民邮电出版社,2002.

统计学变量类型范文第4篇

很多科研人员(包括临床医生)在进行科研工作过程中,习惯用专业知识取代一切其他知识。其突出表现是:等科研工作已经完成,甚至论文已写完,因某些数据处理有问题被退稿时,才想起要找统计学工作者帮助处理论文中的实验数据;考虑问题稍周到一些的科研人员在科研工作完成之后,在撰写论文之前就想到要运用统计学知识来分析实验数据。这两种运用统计学的科研人员都是在把统计学当作分析数据的“计算工具”或当作发表学术论文的“敲门砖”,是对统计学重要性认识不足的突出表现。理由很简单,科研数据是否正确可靠、是否值得进行数据分析、结论是否可信等一系列重要问题都没有令人信服的证据来帮助说明,换句话说,若缺乏科研设计或科研设计不科学、不完善,即使花费10年时间和数亿人民币进行调查或实验获得了大量科研数据,与某人用计算机产生的毫无专业含义的任意多个随机数据没有什么区别,除了浪费了大量国家和人民的血汗钱,对科学技术进步、对人类的贡献不仅为零,甚至是负数!因此,在进行科研工作之前,制定科学完善的科研设计方案,特别是其中的实验设计方案或调查设计方案的质量好坏,是科研工作成败的关键所在!

科研设计包括专业设计和统计研究设计。专业设计主要包括基本常识和专业知识的正确、全面、巧妙地运用;而统计研究设计包括实验设计、临床试验设计和调查设计。值得注意的是:在很多科研人员所做的科研课题中,不仅严重忽视统计研究设计,就连专业设计也有严重错误,主要表现在犯了基本常识错误和违背专业知识错误。这类错误所发生的频率还相当高,是一种不能容忍的不正常现象!

在统计研究设计所包含的3种研究设计中,实验设计是最重要的,因为很多关键性的内容都包含在其中,其核心内容是“三要素”、“四原则”和“设计类型”。所谓“三要素”就是受试对象(或调查对象)、影响因素(包括试验因素和重要的非试验因素)和实验效应(通过具体的观测指标来体现);所谓“四原则”就是随机、对照、重复和均衡原则,它们在选取和分配受试对象、控制重要非试验因素对观测结果的干扰和影响、提高组间均衡性、提高结论的可靠性和说服力等方面将起到“保驾护航”的作用;所谓“设计类型”就是实验中因素及其水平如何合理搭配而形成的一种结构,它决定了能否多快好省且又经济可靠地实现研究目标。科研人员若对重要非试验因素考虑不周到、对照组选择不合理、设计类型选择不当或辨别不清,导致科研课题的科研设计千疮百孔、数据分析滥竽充数、结果解释稀里糊涂、结论陈述啼笑皆非。下面笔者就“实验设计”环节存在的问题辨析如下。

1 在分析定量资料前未明确交代所对应的实验设计类型

人们在处理定量资料前未明确交代定量资料所对应的实验设计,对数千篇稿件进行审阅后发现,大多数人都是盲目套用统计分析方法,其结论的正确性如何是可想而知的。这是一条出现非常频繁的错误,应当引起广大科研工作者的高度重视。

2 临床试验设计中一个极易被忽视的问题——按重要非试验因素进行分层随机化

例1:原文题目为《气管舒合剂治疗支气管哮喘的临床观察》。原作者写到:“全部病例均来源于本院呼吸专科门诊和普通门诊,随机分为治疗组40例和对照组30例。其中治疗组男21例,女19例;年龄21~55岁,平均(36.28±9.36)岁;病程2~23年,平均(10.31±17.48)年;病情轻度者16例,中度24例。对照组30例,男16例,女14例;年龄20~53岁,平均(35.78±9.53)岁;病程3~24年,平均(11.05±6.47)年;病情轻度者13例,中度者17例。两组间情况差异无显著性,具有可比性。”请问这样随机化,其组间具有可比性吗?

对差错的辨析与释疑:显然,研究者在试验设计时未对重要非试验因素采用分层随机保证各组之间的可比性。这条错误的严重程度为不可逆,出现不可逆错误意味着原作者的试验设计具有无法改正的错误,必须重做实验!究其原因,主要是原作者未理解统计学上随机的概念。统计学上随机化的目的是尽可能去掉人为因素对观测结果的干扰和影响,让重要的非试验因素在组间达到平衡。稍微留意一下原作者随机化分组,明显带有人为的痕迹,治疗组40人比对照组30人多出10人;治疗组病程的标准差17.48是对照组病程的标准差6.47的近3倍。笔者很疑惑怎样的随机化才能达到如此的不平衡?事实上随机化有4种:子总体内随机、完全随机、分层随机和按不平衡指数最小原则所进行的随机,原文条件下应当选用分层随机,即以两个重要的非试验因素(性别和病情)水平组合形成4个小组(男轻,女轻,男中,女中),然后把每个小组内的患者再随机均分到治疗组和对照组中去,这样分层随机的最终结果一定是治疗组和对照组各35人,且使2组间非试验因素的影响达到尽可能的平衡,从而可大大提高组间的可比性。在本例中,若“病程”对观测结果有重要影响,在进行分层随机化时,在按“性别”和“病情”分组的基础上,还应再按“病程”(设分为短、中、长)分组,即共形成12个小组,将每个小组中的患者随机均分入治疗组与对照组中去,这是使“性别、病情、病程”3个重要非试验因素对观测结果的影响在治疗组与对照组之间达到平衡的重要举措,也是所有临床试验研究成败与否的最关键环节!

3 实验设计类型判断错误

例2:某作者欲观察甘草酸、泼尼松对慢性马兜铃酸肾病(aan)肾损害的干预作用,于是,进行了实验,数据见表1。原作者经过用甘草酸和泼尼松分别与同期正常对照组和模型组比较,一个p<0.05,另一个p<0.01,于是得到甘草酸、泼尼松对慢性aan肾损害具有一定程度的保护作用,且泼尼松的效果更佳。请问原作者的结论可信吗?表1 各组大鼠血bun及scr变化比较(略)注:与正常对照组同期比较,*p<0.05,**p<0.01;与模型组同期比较,p<0.05,p<0.01

对差错的辨析与释疑:本例错误极为典型,通常科研工作者欲观察某种药物是否有效,习惯上会建立正常对照组、模型组(即该药物拟治疗的病态组)和在模型组基础上的用药组(如本例中甘草酸组和泼尼松组)。这样的设计本身并没有错,但这仅仅是专业上的“实验安排(可称为多因素非平衡组合实验[1])”,而并非是统计学中所说的某种标准实验设计类型。写在“组别”之下的4个组,并非是一个因素的4个水平,而是2个因素水平的部分组合。这2个因素分别是“是否建模(即正常与模型2个水平)”和“用药种类[即不用药(相当于安慰剂)、用甘草酸和用泼尼松3个水平]”。2个因素共有6种水平组合,即“组别”之下缺少了“正常基础上用甘草酸”和“正常基础上用泼尼松”。这样设计的实验才可能反映出“是否建模”与“用药种类”2个因素之间是否存在交互作用。

在本课题研究中,由于未在实验前作出正确的实验设计,处理数据时错误就悄然产生了。具体到本例,从原作者在表1的注解中可以看出,通过单因素方差分析分别比较同期(即相同观测时间点)的甘草酸组和泼尼松组与正常对照组和模型组之间的差别是否有统计学意义。这样的做法有3个严重错误:第一,严格地说,在模型组基础上的用药组是不适合直接与正常对照组相比较的,因为这样的比较解释不清到底是药物的作用还是由于模型未建成功而造成的假象;第二,将各个时间点割裂开分别比较破坏了原先的整体设计,数据利用率降低,误差估计不准确,导致结论的可信度降低。将一个重复测量实验的各个时间点割裂开来考察,就等于在各个片段上估计实验误差、作出统计推断,好像盲人摸象一样,摸出来的结果差别何其之大;第三,要想说明两种药物哪个效果更佳,在得出差别具有统计学意义的基础上,衡量的标准是应看组间平均值的差量的大小而不应看p值是否足够地小,不能说p<0.01时就比p<0.05时更有效,这种忽视实验误差、忽视绝对数量和脱离专业知识的想法和做法都是不妥当的。

如何正确处理表1中的实验资料呢?关键要正确判定该定量资料所对应的是什么实验设计类型。由前面的分析可知,表1定量资料对应的是“多因素非平衡组合实验”,而不是某种标准的多因素实验设计类型。明智的做法是对“组别”进行合理拆分,即根据专业知识和统计学知识,对“组别”之下的所有组重新进行组合,应使每种组合对应着一个标准的实验设计类型。正确地拆分结果分别见表2和表3。表2 正常对照组与模型组大鼠血bun及scr变化的测定结果(略)表3 模型组和2个用药组大鼠血bun及scr变化的测定结果(略)

事实上,由科研习惯形成的这一套实验方案笔者形象地称之为多因素非平衡的组合实验,或者说,它是实验设计的表现型。通常可以进行统计分析的都必须是标准型(即统计学上所说的某种实验设计类型),因此需要能看出代表表现型本质的原型(本例中组别之下应该有6个组,这6个组构成一个2×3析因设计结构,但原作者少设计了2个组)。通常需要将表现型或/和原型拆分成标准型后再选择合适的统计分析方法进行数据分析。本例根据原作者的意图,可以将表1拆分成2个标准型,形成2个具有一个重复测量的两因素设计定量资料,见表2和表3。相应的统计分析方法就是具有一个重复测量的两因素设计定量资料的方差分析。此处请读者注意:第一,具有一个重复测量的两因素设计定量资料的方差分析和一般的方差分析虽然都叫方差分析,但它们的计算公式却有本质区别,绝不可混用;第二,重复测量因素(本例中为时间)不要与实验分组因素(表2中叫“是否建模”;表3中叫“药物种类”)同时列入左边,它们是本质不同的两种因素,一般应该把“重复测量因素”放到表头横线下方。

通过本例可以看出,在实验前明确实验设计是多么重要的一件事情。试想,若让本例原作者写明他的实验设计类型,他必然就会对基本的实验设计类型作一番调查和学习,自然就能发现他所“设计”的实验并不是统计学上相应的实验设计。那么通过咨询相关人士必能做出比较正确的实验设计,不仅可以提高科研设计水平,而且可以大大提高科研课题和论文质量。

例3:原文题目为《土荆芥-水团花对胃溃疡大鼠黏膜保护作用的研究》。原作者使用单因素多水平设计定量资料方差分析处理表4中的数据。请问原作者这样做对吗?表4 各组黏膜肌层宽度、再生黏膜厚度变化(略)注:与正常组比较,ap<0.05;与ns组比较,bp<0.05;与cp 10 mg·kg-1 组比较,cp<0.05 对差错的辨析与释疑:本例涉及到统计学三型理论[1]中的一些概念,简单地说就是可以直接进行统计分析的来自标准设计的数据表叫标准型,反映问题本质但并非是标准型的数据表叫原型,而掩盖了原型信息的数据表叫表现型。“组别”之下的6个组,似乎是某个因素的6个水平,其实不然!这6个组涉及到多个试验因素,应对“组别”拆分重新组合后,再分别判定各种组合所对应的实验设计类型,并选用相应的统计分析方法。组合1:空白对照组(正常)、阴性对照组(ns),这是单因素两水平设计(简称为成组设计)。由于正常组无实验数据,故该组合无法进行统计分析;组合2:ns组、ra组、cp(20/mg·kg-1)组,这是单因素3水平设计,因素的名称叫“药物种类”;组合3:ns组、cp(10/mg·kg-1)组、cp(15/mg·kg-1)组、cp(20/mg·kg-1)组,这是单因素4水平设计,因素名称叫cp的剂量(其中,ns组可视为cp的剂量为0)。

对于组合2和组合3,若定量资料满足参数检验的前提条件,可选用相应设计定量资料的方差分析,否则,需要改用相应设计定量资料的秩和检验。

4 人为改变设计类型且数据利用不全

例4:某作者使用表5中的数据进行分析,欲比较治疗组和对照组在治疗后的各个时间点的疗效情况,使用的分析方法为一般卡方检验,请问原作者这样做对吗?

对差错的辨析与释疑:从给出的统计表可以看出,该作者有意或者无意之间收集了一类相当复杂的实验设计类型下的定性资料,结果变量为多值有序变量的具有一个重复测量的两因素设计定性资料,处理这个设计下收集的定性资料要使用相应设计定性资料的统计模型分析法。由于上述方法过于复杂,因此,通常在实际运用中,实际工作者将重复测量因素武断地视为实验分组因素,从而使该资料变为结果变量为多值有序变量的三维列联表资料。在已经出错的前提下,原本应当使用cmh校正的秩和检验或者有序变量的多重logistic回归分析处理资料。然而,该作者显然在此基础上进一步合并了数据,将结果变量变成二值变量(有效、无效),也就是说,原作者实际使用的仅仅是最后一列数据(即总有效率),并且最为严重的错误是将三维列联表资料强行降维成二维列联表资料,使用一般χ2检验进行分析。经过一系列的简化与错误合并,最后结论的可信度还剩下多少呢?表5 原作者对2组疗效比较的试验设计及数据表达(略)注:与对照组同期比较,*p<0.05

由于篇幅所限,这类错误笔者只给出1例,实际上此类例子在很多杂志中普遍存在。这说明在进行实验设计时,很多研究人员并未做到心中有数;分析数据时,按自己熟悉的简单统计分析方法所能解决的数据结构强硬地改造数据,严格地说,在用表格表达实验资料的那一刹那就已人为改变了资料所对应的实验设计类型,这种做法的科学性和得出结论的正确性都将受到质疑[2]。

5 正交设计及数据处理方面的错误

人们在进行正交设计和对正交设计定量资料进行统计分析时,常存在下列3个误区:很多人过分强调用正交设计可以大大减少实验次数,因此,无论各实验条件(正交表中的每一行)下的实验结果波动有多大,都不做重复实验,这是第1个误区;将正交表各列上都排满试验因素,用对实验结果影响最小的试验因素所对应的标准误作为分析其他因素是否具有统计学意义的误差项,导致误差项的自由度较小,结论的可信度较低,这是第2个误区;在对正交设计定量资料进行方差分析后,即使存在多个无统计学意义的因素,仍对少数几个有统计学意义的因素进行解释,未将无统计学意义的因素合并到误差项中去重新估计实验误差,以获得具有较大自由度的误差项,这是第3个误区。

【参考文献】

统计学变量类型范文第5篇

很多科研人员(包括临床医生)在进行科研工作过程中,习惯用专业知识取代一切其他知识。其突出表现是:等科研工作已经完成,甚至论文已写完,因某些数据处理有问题被退稿时,才想起要找统计学工作者帮助处理论文中的实验数据;考虑问题稍周到一些的科研人员在科研工作完成之后,在撰写论文之前就想到要运用统计学知识来分析实验数据。这两种运用统计学的科研人员都是在把统计学当作分析数据的“计算工具”或当作发表学术论文的“敲门砖”,是对统计学重要性认识不足的突出表现。理由很简单,科研数据是否正确可靠、是否值得进行数据分析、结论是否可信等一系列重要问题都没有令人信服的证据来帮助说明,换句话说,若缺乏科研设计或科研设计不科学、不完善,即使花费10年时间和数亿人民币进行调查或实验获得了大量科研数据,与某人用计算机产生的毫无专业含义的任意多个随机数据没有什么区别,除了浪费了大量国家和人民的血汗钱,对科学技术进步、对人类的贡献不仅为零,甚至是负数!因此,在进行科研工作之前,制定科学完善的科研设计方案,特别是其中的实验设计方案或调查设计方案的质量好坏,是科研工作成败的关键所在!

    科研设计包括专业设计和统计研究设计。专业设计主要包括基本常识和专业知识的正确、全面、巧妙地运用;而统计研究设计包括实验设计、临床试验设计和调查设计。值得注意的是:在很多科研人员所做的科研课题中,不仅严重忽视统计研究设计,就连专业设计也有严重错误,主要表现在犯了基本常识错误和违背专业知识错误。这类错误所发生的频率还相当高,是一种不能容忍的不正常现象!

    在统计研究设计所包含的3种研究设计中,实验设计是最重要的,因为很多关键性的内容都包含在其中,其核心内容是“三要素”、“四原则”和“设计类型”。所谓“三要素”就是受试对象(或调查对象)、影响因素(包括试验因素和重要的非试验因素)和实验效应(通过具体的观测指标来体现);所谓“四原则”就是随机、对照、重复和均衡原则,它们在选取和分配受试对象、控制重要非试验因素对观测结果的干扰和影响、提高组间均衡性、提高结论的可靠性和说服力等方面将起到“保驾护航”的作用;所谓“设计类型”就是实验中因素及其水平如何合理搭配而形成的一种结构,它决定了能否多快好省且又经济可靠地实现研究目标。科研人员若对重要非试验因素考虑不周到、对照组选择不合理、设计类型选择不当或辨别不清,导致科研课题的科研设计千疮百孔、数据分析滥竽充数、结果解释稀里糊涂、结论陈述啼笑皆非。下面笔者就“实验设计”环节存在的问题辨析如下。

1  在分析定量资料前未明确交代所对应的实验设计类型

    人们在处理定量资料前未明确交代定量资料所对应的实验设计,对数千篇稿件进行审阅后发现,大多数人都是盲目套用统计分析方法,其结论的正确性如何是可想而知的。这是一条出现非常频繁的错误,应当引起广大科研工作者的高度重视。

2  临床试验设计中一个极易被忽视的问题——按重要非试验因素进行分层随机化

   

例1:原文题目为《气管舒合剂治疗支气管哮喘的临床观察》。原作者写到:“全部病例均来源于本院呼吸专科门诊和普通门诊,随机分为治疗组40例和对照组30例。其中治疗组男21例,女19例;年龄21~55岁,平均(36.28±9.36)岁;病程2~23年,平均(10.31±17.48)年;病情轻度者16例,中度24例。对照组30例,男16例,女14例;年龄20~53岁,平均(35.78±9.53)岁;病程3~24年,平均(11.05±6.47)年;病情轻度者13例,中度者17例。两组间情况差异无显著性,具有可比性。”请问这样随机化,其组间具有可比性吗?

   

对差错的辨析与释疑:显然,研究者在试验设计时未对重要非试验因素采用分层随机保证各组之间的可比性。这条错误的严重程度为不可逆,出现不可逆错误意味着原作者的试验设计具有无法改正的错误,必须重做实验!究其原因,主要是原作者未理解统计学上随机的概念。统计学上随机化的目的是尽可能去掉人为因素对观测结果的干扰和影响,让重要的非试验因素在组间达到平衡。稍微留意一下原作者随机化分组,明显带有人为的痕迹,治疗组40人比对照组30人多出10人;治疗组病程的标准差17.48是对照组病程的标准差6.47的近3倍。笔者很疑惑怎样的随机化才能达到如此的不平衡?事实上随机化有4种:子总体内随机、完全随机、分层随机和按不平衡指数最小原则所进行的随机,原文条件下应当选用分层随机,即以两个重要的非试验因素(性别和病情)水平组合形成4个小组(男轻,女轻,男中,女中),然后把每个小组内的患者再随机均分到治疗组和对照组中去,这样分层随机的最终结果一定是治疗组和对照组各35人,且使2组间非试验因素的影响达到尽可能的平衡,从而可大大提高组间的可比性。在本例中,若“病程”对观测结果有重要影响,在进行分层随机化时,在按“性别”和“病情”分组的基础上,还应再按“病程”(设分为短、中、长)分组,即共形成12个小组,将每个小组中的患者随机均分入治疗组与对照组中去,这是使“性别、病情、病程”3个重要非试验因素对观测结果的影响在治疗组与对照组之间达到平衡的重要举措,也是所有临床试验研究成败与否的最关键环节!

3  实验设计类型判断错误

    例2:某作者欲观察甘草酸、泼尼松对慢性马兜铃酸肾病(aan)肾损害的干预作用,于是,进行了实验,数据见表1。原作者经过用甘草酸和泼尼松分别与同期正常对照组和模型组比较,一个p<0.05,另一个p<0.01,于是得到甘草酸、泼尼松对慢性aan肾损害具有一定程度的保护作用,且泼尼松的效果更佳。请问原作者的结论可信吗?表1  各组大鼠血bun及scr变化比较(略)注:与正常对照组同期比较,*p<0.05,**p<0.01;与模型组同期比较,p<0.05,p<0.01

   

对差错的辨析与释疑:本例错误极为典型,通常科研工作者欲观察某种药物是否有效,习惯上会建立正常对照组、模型组(即该药物拟治疗的病态组)和在模型组基础上的用药组(如本例中甘草酸组和泼尼松组)。这样的设计本身并没有错,但这仅仅是专业上的“实验安排(可称为多因素非平衡组合实验[1])”,而并非是统计学中所说的某种标准实验设计类型。写在“组别”之下的4个组,并非是一个因素的4个水平,而是2个因素水平的部分组合。这2个因素分别是“是否建模(即正常与模型2个水平)”和“用药种类[即不用药(相当于安慰剂)、用甘草酸和用泼尼松3个水平]”。2个因素共有6种水平组合,即“组别”之下缺少了“正常基础上用甘草酸”和“正常基础上用泼尼松”。这样设计的实验才可能反映出“是否建模”与“用药种类”2个因素之间是否存在交互作用。

   

在本课题研究中,由于未在实验前作出正确的实验设计,处理数据时错误就悄然产生了。具体到本例,从原作者在表1的注解中可以看出,通过单因素方差分析分别比较同期(即相同观测时间点)的甘草酸组和泼尼松组与正常对照组和模型组之间的差别是否有统计学意义。这样的做法有3个严重错误:第一,严格地说,在模型组基础上的用药组是不适合直接与正常对照组相比较的,因为这样的比较解释不清到底是药物的作用还是由于模型未建成功而造成的假象;第二,将各个时间点割裂开分别比较破坏了原先的整体设计,数据利用率降低,误差估计不准确,导致结论的可信度降低。将一个重复测量实验的各个时间点割裂开来考察,就等于在各个片段上估计实验误差、作出统计推断,好像盲人摸象一样,摸出来的结果差别何其之大;第三,要想说明两种药物哪个效果更佳,在得出差别具有统计学意义的基础上,衡量的标准是应看组间平均值的差量的大小而不应看p值是否足够地小,不能说p<0.01时就比p<0.05时更有效,这种忽视实验误差、忽视绝对数量和脱离专业知识的想法和做法都是不妥当的。

   

如何正确处理表1中的实验资料呢?关键要正确判定该定量资料所对应的是什么实验设计类型。由前面的分析可知,表1定量资料对应的是“多因素非平衡组合实验”,而不是某种标准的多因素实验设计类型。明智的做法是对“组别”进行合理拆分,即根据专业知识和统计学知识,对“组别”之下的所有组重新进行组合,应使每种组合对应着一个标准的实验设计类型。正确地拆分结果分别见表2和表3。表2  正常对照组与模型组大鼠血bun及scr变化的测定结果(略)表3  模型组和2个用药组大鼠血bun及scr变化的测定结果(略)

 

    事实上,由科研习惯形成的这一套实验方案笔者形象地称之为多因素非平衡的组合实验,或者说,它是实验设计的表现型。通常可以进行统计分析的都必须是标准型(即统计学上所说的某种实验设计类型),因此需要能看出代表表现型本质的原型(本例中组别之下应该有6个组,这6个组构成一个2×3析因设计结构,但原作者少设计了2个组)。通常需要将表现型或/和原型拆分成标准型后再选择合适的统计分析方法进行数据分析。本例根据原作者的意图,可以将表1拆分成2个标准型,形成2个具有一个重复测量的两因素设计定量资料,见表2和表3。相应的统计分析方法就是具有一个重复测量的两因素设计定量资料的方差分析。此处请读者注意:第一,具有一个重复测量的两因素设计定量资料的方差分析和一般的方差分析虽然都叫方差分析,但它们的计算公式却有本质区别,绝不可混用;第二,重复测量因素(本例中为时间)不要与实验分组因素(表2中叫“是否建模”;表3中叫“药物种类”)同时列入左边,它们是本质不同的两种因素,一般应该把“重复测量因素”放到表头横线下方。

   

通过本例可以看出,在实验前明确实验设计是多么重要的一件事情。试想,若让本例原作者写明他的实验设计类型,他必然就会对基本的实验设计类型作一番调查和学习,自然就能发现他所“设计”的实验并不是统计学上相应的实验设计。那么通过咨询相关人士必能做出比较正确的实验设计,不仅可以提高科研设计水平,而且可以大大提高科研课题和论文质量。

   

例3:原文题目为《土荆芥-水团花对胃溃疡大鼠黏膜保护作用的研究》。原作者使用单因素多水平设计定量资料方差分析处理表4中的数据。请问原作者这样做对吗?表4  各组黏膜肌层宽度、再生黏膜厚度变化(略)注:与正常组比较,ap<0.05;与ns组比较,bp<0.05;与cp 10 mg·kg-1 组比较,cp<0.05     对差错的辨析与释疑:本例涉及到统计学三型理论[1]中的一些概念,简单地说就是可以直接进行统计分析的来自标准设计的数据表叫标准型,反映问题本质但并非是标准型的数据表叫原型,而掩盖了原型信息的数据表叫表现型。“组别”之下的6个组,似乎是某个因素的6个水平,其实不然!这6个组涉及到多个试验因素,应对“组别”拆分重新组合后,再分别判定各种组合所对应的实验设计类型,并选用相应的统计分析方法。组合1:空白对照组(正常)、阴性对照组(ns),这是单因素两水平设计(简称为成组设计)。由于正常组无实验数据,故该组合无法进行统计分析;组合2:ns组、ra组、cp(20/mg·kg-1)组,这是单因素3水平设计,因素的名称叫“药物种类”;组合3:ns组、cp(10/mg·kg-1)组、cp(15/mg·kg-1)组、cp(20/mg·kg-1)组,这是单因素4水平设计,因素名称叫cp的剂量(其中,ns组可视为cp的剂量为0)。

   

对于组合2和组合3,若定量资料满足参数检验的前提条件,可选用相应设计定量资料的方差分析,否则,需要改用相应设计定量资料的秩和检验。

4  人为改变设计类型且数据利用不全

    例4:某作者使用表5中的数据进行分析,欲比较治疗组和对照组在治疗后的各个时间点的疗效情况,使用的分析方法为一般卡方检验,请问原作者这样做对吗?

    对差错的辨析与释疑:从给出的统计表可以看出,该作者有意或者无意之间收集了一类相当复杂的实验设计类型下的定性资料,结果变量为多值有序变量的具有一个重复测量的两因素设计定性资料,处理这个设计下收集的定性资料要使用相应设计定性资料的统计模型分析法。由于上述方法过于复杂,因此,通常在实际运用中,实际工作者将重复测量因素武断地视为实验分组因素,从而使该资料变为结果变量为多值有序变量的三维列联表资料。在已经出错的前提下,原本应当使用cmh校正的秩和检验或者有序变量的多重logistic回归分析处理资料。然而,该作者显然在此基础上进一步合并了数据,将结果变量变成二值变量(有效、无效),也就是说,原作者实际使用的仅仅是最后一列数据(即总有效率),并且最为严重的错误是将三维列联表资料强行降维成二维列联表资料,使用一般χ2检验进行分析。经过一系列的简化与错误合并,最后结论的可信度还剩下多少呢?表5  原作者对2组疗效比较的试验设计及数据表达(略)注:与对照组同期比较,*p<0.05

   

由于篇幅所限,这类错误笔者只给出1例,实际上此类例子在很多杂志中普遍存在。这说明在进行实验设计时,很多研究人员并未做到心中有数;分析数据时,按自己熟悉的简单统计分析方法所能解决的数据结构强硬地改造数据,严格地说,在用表格表达实验资料的那一刹那就已人为改变了资料所对应的实验设计类型,这种做法的科学性和得出结论的正确性都将受到质疑[2]。

5  正交设计及数据处理方面的错误

   

人们在进行正交设计和对正交设计定量资料进行统计分析时,常存在下列3个误区:很多人过分强调用正交设计可以大大减少实验次数,因此,无论各实验条件(正交表中的每一行)下的实验结果波动有多大,都不做重复实验,这是第1个误区;将正交表各列上都排满试验因素,用对实验结果影响最小的试验因素所对应的标准误作为分析其他因素是否具有统计学意义的误差项,导致误差项的自由度较小,结论的可信度较低,这是第2个误区;在对正交设计定量资料进行方差分析后,即使存在多个无统计学意义的因素,仍对少数几个有统计学意义的因素进行解释,未将无统计学意义的因素合并到误差项中去重新估计实验误差,以获得具有较大自由度的误差项,这是第3个误区。

【参考文献】

 

统计学变量类型范文第6篇

很多科研人员(包括临床医生)在进行科研工作过程中,习惯用专业知识取代一切其他知识。其突出表现是:等科研工作已经完成,甚至论文已写完,因某些数据处理有问题被退稿时,才想起要找统计学工作者帮助处理论文中的实验数据;考虑问题稍周到一些的科研人员在科研工作完成之后,在撰写论文之前就想到要运用统计学知识来分析实验数据。这两种运用统计学的科研人员都是在把统计学当作分析数据的“计算工具”或当作发表学术论文的“敲门砖”,是对统计学重要性认识不足的突出表现。理由很简单,科研数据是否正确可靠、是否值得进行数据分析、结论是否可信等一系列重要问题都没有令人信服的证据来帮助说明,换句话说,若缺乏科研设计或科研设计不科学、不完善,即使花费10年时间和数亿人民币进行调查或实验获得了大量科研数据,与某人用计算机产生的毫无专业含义的任意多个随机数据没有什么区别,除了浪费了大量国家和人民的血汗钱,对科学技术进步、对人类的贡献不仅为零,甚至是负数!因此,在进行科研工作之前,制定科学完善的科研设计方案,特别是其中的实验设计方案或调查设计方案的质量好坏,是科研工作成败的关键所在!

科研设计包括专业设计和统计研究设计。专业设计主要包括基本常识和专业知识的正确、全面、巧妙地运用;而统计研究设计包括实验设计、临床试验设计和调查设计。值得注意的是:在很多科研人员所做的科研课题中,不仅严重忽视统计研究设计,就连专业设计也有严重错误,主要表现在犯了基本常识错误和违背专业知识错误。这类错误所发生的频率还相当高,是一种不能容忍的不正常现象!

在统计研究设计所包含的3种研究设计中,实验设计是最重要的,因为很多关键性的内容都包含在其中,其核心内容是“三要素”、“四原则”和“设计类型”。所谓“三要素”就是受试对象(或调查对象)、影响因素(包括试验因素和重要的非试验因素)和实验效应(通过具体的观测指标来体现);所谓“四原则”就是随机、对照、重复和均衡原则,它们在选取和分配受试对象、控制重要非试验因素对观测结果的干扰和影响、提高组间均衡性、提高结论的可靠性和说服力等方面将起到“保驾护航”的作用;所谓“设计类型”就是实验中因素及其水平如何合理搭配而形成的一种结构,它决定了能否多快好省且又经济可靠地实现研究目标。科研人员若对重要非试验因素考虑不周到、对照组选择不合理、设计类型选择不当或辨别不清,导致科研课题的科研设计千疮百孔、数据分析滥竽充数、结果解释稀里糊涂、结论陈述啼笑皆非。下面笔者就“实验设计”环节存在的问题辨析如下。

1 在分析定量资料前未明确交代所对应的实验设计类型

人们在处理定量资料前未明确交代定量资料所对应的实验设计,对数千篇稿件进行审阅后发现,大多数人都是盲目套用统计分析方法,其结论的正确性如何是可想而知的。这是一条出现非常频繁的错误,应当引起广大科研工作者的高度重视。

2 临床试验设计中一个极易被忽视的问题——按重要非试验因素进行分层随机化

例1:原文题目为《气管舒合剂治疗支气管哮喘的临床观察》。原作者写到:“全部病例均来源于本院呼吸专科门诊和普通门诊,随机分为治疗组40例和对照组30例。其中治疗组男21例,女19例;年龄21~55岁,平均(36.28±9.36)岁;病程2~23年,平均(10.31±17.48)年;病情轻度者16例,中度24例。对照组30例,男16例,女14例;年龄20~53岁,平均(35.78±9.53)岁;病程3~24年,平均(11.05±6.47)年;病情轻度者13例,中度者17例。两组间情况差异无显著性,具有可比性。”请问这样随机化,其组间具有可比性吗?

对差错的辨析与释疑:显然,研究者在试验设计时未对重要非试验因素采用分层随机保证各组之间的可比性。这条错误的严重程度为不可逆,出现不可逆错误意味着原作者的试验设计具有无法改正的错误,必须重做实验!究其原因,主要是原作者未理解统计学上随机的概念。统计学上随机化的目的是尽可能去掉人为因素对观测结果的干扰和影响,让重要的非试验因素在组间达到平衡。稍微留意一下原作者随机化分组,明显带有人为的痕迹,治疗组40人比对照组30人多出10人;治疗组病程的标准差17.48是对照组病程的标准差6.47的近3倍。笔者很疑惑怎样的随机化才能达到如此的不平衡?事实上随机化有4种:子总体内随机、完全随机、分层随机和按不平衡指数最小原则所进行的随机,原文条件下应当选用分层随机,即以两个重要的非试验因素(性别和病情)水平组合形成4个小组(男轻,女轻,男中,女中),然后把每个小组内的患者再随机均分到治疗组和对照组中去,这样分层随机的最终结果一定是治疗组和对照组各35人,且使2组间非试验因素的影响达到尽可能的平衡,从而可大大提高组间的可比性。在本例中,若“病程”对观测结果有重要影响,在进行分层随机化时,在按“性别”和“病情”分组的基础上,还应再按“病程”(设分为短、中、长)分组,即共形成12个小组,将每个小组中的患者随机均分入治疗组与对照组中去,这是使“性别、病情、病程”3个重要非试验因素对观测结果的影响在治疗组与对照组之间达到平衡的重要举措,也是所有临床试验研究成败与否的最关键环节!

3 实验设计类型判断错误

例2:某作者欲观察甘草酸、泼尼松对慢性马兜铃酸肾病(AAN)肾损害的干预作用,于是,进行了实验,数据见表1。原作者经过用甘草酸和泼尼松分别与同期正常对照组和模型组比较,一个P<0.05,另一个P<0.01,于是得到甘草酸、泼尼松对慢性AAN肾损害具有一定程度的保护作用,且泼尼松的效果更佳。请问原作者的结论可信吗?表1 各组大鼠血BUN及SCr变化比较(略)注:与正常对照组同期比较,*P<0.05,**P<0.01;与模型组同期比较,P<0.05,P<0.01

对差错的辨析与释疑:本例错误极为典型,通常科研工作者欲观察某种药物是否有效,习惯上会建立正常对照组、模型组(即该药物拟治疗的病态组)和在模型组基础上的用药组(如本例中甘草酸组和泼尼松组)。这样的设计本身并没有错,但这仅仅是专业上的“实验安排(可称为多因素非平衡组合实验[1])”,而并非是统计学中所说的某种标准实验设计类型。写在“组别”之下的4个组,并非是一个因素的4个水平,而是2个因素水平的部分组合。这2个因素分别是“是否建模(即正常与模型2个水平)”和“用药种类[即不用药(相当于安慰剂)、用甘草酸和用泼尼松3个水平]”。2个因素共有6种水平组合,即“组别”之下缺少了“正常基础上用甘草酸”和“正常基础上用泼尼松”。这样设计的实验才可能反映出“是否建模”与“用药种类”2个因素之间是否存在交互作用。

在本课题研究中,由于未在实验前作出正确的实验设计,处理数据时错误就悄然产生了。具体到本例,从原作者在表1的注解中可以看出,通过单因素方差分析分别比较同期(即相同观测时间点)的甘草酸组和泼尼松组与正常对照组和模型组之间的差别是否有统计学意义。这样的做法有3个严重错误:第一,严格地说,在模型组基础上的用药组是不适合直接与正常对照组相比较的,因为这样的比较解释不清到底是药物的作用还是由于模型未建成功而造成的假象;第二,将各个时间点割裂开分别比较破坏了原先的整体设计,数据利用率降低,误差估计不准确,导致结论的可信度降低。将一个重复测量实验的各个时间点割裂开来考察,就等于在各个片段上估计实验误差、作出统计推断,好像盲人摸象一样,摸出来的结果差别何其之大;第三,要想说明两种药物哪个效果更佳,在得出差别具有统计学意义的基础上,衡量的标准是应看组间平均值的差量的大小而不应看P值是否足够地小,不能说P<0.01时就比P<0.05时更有效,这种忽视实验误差、忽视绝对数量和脱离专业知识的想法和做法都是不妥当的。

如何正确处理表1中的实验资料呢?关键要正确判定该定量资料所对应的是什么实验设计类型。由前面的分析可知,表1定量资料对应的是“多因素非平衡组合实验”,而不是某种标准的多因素实验设计类型。明智的做法是对“组别”进行合理拆分,即根据专业知识和统计学知识,对“组别”之下的所有组重新进行组合,应使每种组合对应着一个标准的实验设计类型。正确地拆分结果分别见表2和表3。表2 正常对照组与模型组大鼠血BUN及SCr变化的测定结果(略)表3 模型组和2个用药组大鼠血BUN及SCr变化的测定结果(略)

事实上,由科研习惯形成的这一套实验方案笔者形象地称之为多因素非平衡的组合实验,或者说,它是实验设计的表现型。通常可以进行统计分析的都必须是标准型(即统计学上所说的某种实验设计类型),因此需要能看出代表表现型本质的原型(本例中组别之下应该有6个组,这6个组构成一个2×3析因设计结构,但原作者少设计了2个组)。通常需要将表现型或/和原型拆分成标准型后再选择合适的统计分析方法进行数据分析。本例根据原作者的意图,可以将表1拆分成2个标准型,形成2个具有一个重复测量的两因素设计定量资料,见表2和表3。相应的统计分析方法就是具有一个重复测量的两因素设计定量资料的方差分析。此处请读者注意:第一,具有一个重复测量的两因素设计定量资料的方差分析和一般的方差分析虽然都叫方差分析,但它们的计算公式却有本质区别,绝不可混用;第二,重复测量因素(本例中为时间)不要与实验分组因素(表2中叫“是否建模”;表3中叫“药物种类”)同时列入左边,它们是本质不同的两种因素,一般应该把“重复测量因素”放到表头横线下方。

通过本例可以看出,在实验前明确实验设计是多么重要的一件事情。试想,若让本例原作者写明他的实验设计类型,他必然就会对基本的实验设计类型作一番调查和学习,自然就能发现他所“设计”的实验并不是统计学上相应的实验设计。那么通过咨询相关人士必能做出比较正确的实验设计,不仅可以提高科研设计水平,而且可以大大提高科研课题和论文质量。

例3:原文题目为《土荆芥-水团花对胃溃疡大鼠黏膜保护作用的研究》。原作者使用单因素多水平设计定量资料方差分析处理表4中的数据。请问原作者这样做对吗?表4 各组黏膜肌层宽度、再生黏膜厚度变化(略)注:与正常组比较,aP<0.05;与NS组比较,bP<0.05;与CP 10 mg·kg-1 组比较,cP<0.05

对差错的辨析与释疑:本例涉及到统计学三型理论[1]中的一些概念,简单地说就是可以直接进行统计分析的来自标准设计的数据表叫标准型,反映问题本质但并非是标准型的数据表叫原型,而掩盖了原型信息的数据表叫表现型。“组别”之下的6个组,似乎是某个因素的6个水平,其实不然!这6个组涉及到多个试验因素,应对“组别”拆分重新组合后,再分别判定各种组合所对应的实验设计类型,并选用相应的统计分析方法。组合1:空白对照组(正常)、阴性对照组(NS),这是单因素两水平设计(简称为成组设计)。由于正常组无实验数据,故该组合无法进行统计分析;组合2:NS组、RA组、CP(20/mg·kg-1)组,这是单因素3水平设计,因素的名称叫“药物种类”;组合3:NS组、CP(10/mg·kg-1)组、CP(15/mg·kg-1)组、CP(20/mg·kg-1)组,这是单因素4水平设计,因素名称叫CP的剂量(其中,NS组可视为CP的剂量为0)。

对于组合2和组合3,若定量资料满足参数检验的前提条件,可选用相应设计定量资料的方差分析,否则,需要改用相应设计定量资料的秩和检验。

4 人为改变设计类型且数据利用不全

例4:某作者使用表5中的数据进行分析,欲比较治疗组和对照组在治疗后的各个时间点的疗效情况,使用的分析方法为一般卡方检验,请问原作者这样做对吗?

对差错的辨析与释疑:从给出的统计表可以看出,该作者有意或者无意之间收集了一类相当复杂的实验设计类型下的定性资料,结果变量为多值有序变量的具有一个重复测量的两因素设计定性资料,处理这个设计下收集的定性资料要使用相应设计定性资料的统计模型分析法。由于上述方法过于复杂,因此,通常在实际运用中,实际工作者将重复测量因素武断地视为实验分组因素,从而使该资料变为结果变量为多值有序变量的三维列联表资料。在已经出错的前提下,原本应当使用CMH校正的秩和检验或者有序变量的多重logistic回归分析处理资料。然而,该作者显然在此基础上进一步合并了数据,将结果变量变成二值变量(有效、无效),也就是说,原作者实际使用的仅仅是最后一列数据(即总有效率),并且最为严重的错误是将三维列联表资料强行降维成二维列联表资料,使用一般χ2检验进行分析。经过一系列的简化与错误合并,最后结论的可信度还剩下多少呢?表5 原作者对2组疗效比较的试验设计及数据表达(略)注:与对照组同期比较,*P<0.05

由于篇幅所限,这类错误笔者只给出1例,实际上此类例子在很多杂志中普遍存在。这说明在进行实验设计时,很多研究人员并未做到心中有数;分析数据时,按自己熟悉的简单统计分析方法所能解决的数据结构强硬地改造数据,严格地说,在用表格表达实验资料的那一刹那就已人为改变了资料所对应的实验设计类型,这种做法的科学性和得出结论的正确性都将受到质疑[2]。

5 正交设计及数据处理方面的错误

人们在进行正交设计和对正交设计定量资料进行统计分析时,常存在下列3个误区:很多人过分强调用正交设计可以大大减少实验次数,因此,无论各实验条件(正交表中的每一行)下的实验结果波动有多大,都不做重复实验,这是第1个误区;将正交表各列上都排满试验因素,用对实验结果影响最小的试验因素所对应的标准误作为分析其他因素是否具有统计学意义的误差项,导致误差项的自由度较小,结论的可信度较低,这是第2个误区;在对正交设计定量资料进行方差分析后,即使存在多个无统计学意义的因素,仍对少数几个有统计学意义的因素进行解释,未将无统计学意义的因素合并到误差项中去重新估计实验误差,以获得具有较大自由度的误差项,这是第3个误区。

参考文献

统计学变量类型范文第7篇

综合信息成矿预测方法以地物化遥多元地学信息为基础,有机地结合各类信息分析成矿地质背景,在此基础上建立综合信息找矿模型,并将地质模型转化为统计性数学模型,然后运用数学方法对矿产资源进行合理的定位、定量评估。本文主要阐述的是区域单矿种综合信息矿产预测的方法。

关键词:

单矿种;找矿模型;综合信息;矿产资源预测

前言

综合信息矿产预测方法体系是由有长春科技大学综合信息矿产预测研究所全体科研人员经过多年矿产资源预测科研实践,于20世纪80年代中期正式提出来的一种矿产资源预测方法[1]。多年来,该方法广泛地应用于中国矿产资源预测和评价领域,现已成为矿产资源预测和评价通行的理论方法[2]。

1.成矿地质背景分析

背景分析的主要内容为基底、岩体、地层和区域构造四个方面与成矿的关系研究。基底一般是由前震旦系变质岩系构成的,是成矿物质来源之一[2]。成矿作用中的岩浆活动可提供矿源、热源、通道以及赋存空间等。地层的控矿性特征与所预测的矿床成因类型有着密切的关系。区域性断裂、褶皱、隆起和断陷盆地等构造也为成矿作用提供良好的成矿地质背景[1]。上述的区域综合信息成矿地质背景分析的手段则是对综合信息的数据处理、解译及相关图件的编制。首先对各类信息进行数据预处理并建立同比例尺的各类信息的子图系;其次对各类单学科图件进行基础解译;然后将各单学科解译图系作有序关联(即GIS中的图层叠加),从而正确、全面地提取有用信息;在此基础上,综合和转换有用信息,找出成矿地质规律,形成模式化的找矿标志组合,并建立找矿模型。

2.找矿模型研究

找矿模型是以成矿模式为基础,以各类信息的有机综合为找矿标志的统计性找矿模型,是综合信息矿产资源预测的原始信息模型。为了建立起合理的找矿模型,应在研究综合信息成矿规律的同时,重点剖析典型矿床的成矿特点和控矿规律,并运用对比分析的原则建立可靠的找矿标志组合。典型矿床剖析的主要研究内容包括矿床成因类型及成矿模式,矿石矿物组合及蚀变矿物组合特征,矿化期次,矿物生成先后特征,矿石结构构造特征,矿床围岩特征,矿石元素、蚀变岩元素、围岩元素共生组合特征,矿床、蚀变岩、围岩物性特征等的综合研究。此外,有些地区的野外工作常常观察不到直接找矿标志,或者直接标志并不明显,此时应将直接标志有机地转换为相应的间接标志,采用物、化、遥和重砂等综合信息作为找矿标志。因此,在建立找矿模型时应考虑提取足够的能用于矿产预测的有用间接找矿标志。

3.地质-数学转换模型研究

地质-数学模型的转换包括统计单元的划分,地质变量的提取与赋值以及模型单元的选择三部分内容。统计单元划分的合理与否直接影响着矿产预测的结果。划分不仅要满足统计学的要求,还要能客观反映地质体和矿产资源体在空间分布上的固有规律[1]。常用的地质统计单元划分方法有两种两种。网格法顾名思义是按一定间距将研究区划分成若干个相同的单元,便于统计。地质体单元法则是依据成矿作用的必要条件来划分统计单元,该类单元形状不规律,边界较复杂,却能较好地反映成矿规律,划分时可以固有的地质体为单元,或用成矿必要条件和有利因素组合确定单元,也可以某种独立的条件如汇水盆地的边界来确定单元。地质变量的提取是变量选择、赋值和变换的基础。提取地质变量时应先选择一批典型的矿床单元,通过分析并统计各地质变量在典型矿床单元中的存在情况,识别并提取出控矿变量。对所提取的地质变量赋值时则根据预测所用的数学模型有不同的要求。矿产资源预测实际是以模型单元与该单元控矿因素的组合为模型,通过相似类比的原则来预测未知单元的矿产分布及储量情况,因此,选择精确的模型单元至关重要。应选择来自同一母体,具有较完善标志组合,勘探程度较高的单元,并对所选单元运用数学模型计算并“降噪”。

4.资源定位、定量预测研究

资源定位、定量预测,是在上述数学模型的基础上,采用类比预测的思路,通过比较未知单元与模型单元之间的相似度来判断分析预测未知单元成矿的可能性及资源潜力。定位预测的统计学模型分两类[1]。一类是基于线性方程组的降维算法,主要包括特征分析法、秩特征分析法、独立权法等,该类方法的模型比较适合于以矿产资源体为统计单元。另一类则是基于贝叶斯概率计算公式基础上的成矿概率估计算法,包括证据权发、模糊证据权法等,该类方法要求变量满足条件独立性,因此,应先将有相关性的变量删除至一个或是综合成一个变量。这类方法更适应于在GIS软件平台中展开。矿产资源定量预测的客观模型主要有两种,总和式与非总和式资源量预测模型,我国主要采用后者,最常用的模型是逻辑信息法。就前人以往的研究经验看,逻辑信息法是目前资源量预测中比较实用,预测结果比较合理的统计分析方法。

5.结语

综合信息矿产预测方法系统全面的提取了与矿有关的各类地学信息,以成矿地质背景为指引,通过分析各类信息间的相互关系,有机地结合或剔除冗余信息,高效地建立预测矿种的找矿模型,并将地质模型转化为数学模型,从而进行科学的、有效的、立体化的矿产预测。该方法对我国矿产预测的发展起到巨大的推动作用,现正广范地服务于当前的找矿工作[3]。

参考文献:

[1]王世称,陈永良,夏立显.综合信息矿产预测理论与方法[M].科学出版社.2000.

[2]王世称.综合信息矿产预测理论与方法体系新进展[J].地质通报.2010,29(10):1399-1403.

统计学变量类型范文第8篇

综合信息成矿预测方法以地物化遥多元地学信息为基础,有机地结合各类信息分析成矿地质背景,在此基础上建立综合信息找矿模型,并将地质模型转化为统计性数学模型,然后运用数学方法对矿产资源进行合理的定位、定量评估。本文主要阐述的是区域单矿种综合信息矿产预测的方法。

关键词:

单矿种;找矿模型;综合信息;矿产资源预测

综合信息矿产预测方法体系是由有长春科技大学综合信息矿产预测研究所全体科研人员经过多年矿产资源预测科研实践,于20世纪80年代中期正式提出来的一种矿产资源预测方法[1]。多年来,该方法广泛地应用于中国矿产资源预测和评价领域,现已成为矿产资源预测和评价通行的理论方法[2]。

1.成矿地质背景分析

背景分析的主要内容为基底、岩体、地层和区域构造四个方面与成矿的关系研究。基底一般是由前震旦系变质岩系构成的,是成矿物质来源之一[2]。成矿作用中的岩浆活动可提供矿源、热源、通道以及赋存空间等。地层的控矿性特征与所预测的矿床成因类型有着密切的关系。区域性断裂、褶皱、隆起和断陷盆地等构造也为成矿作用提供良好的成矿地质背景[1]。上述的区域综合信息成矿地质背景分析的手段则是对综合信息的数据处理、解译及相关图件的编制。首先对各类信息进行数据预处理并建立同比例尺的各类信息的子图系;其次对各类单学科图件进行基础解译;然后将各单学科解译图系作有序关联(即GIS中的图层叠加),从而正确、全面地提取有用信息;在此基础上,综合和转换有用信息,找出成矿地质规律,形成模式化的找矿标志组合,并建立找矿模型。

2.找矿模型研究

找矿模型是以成矿模式为基础,以各类信息的有机综合为找矿标志的统计性找矿模型,是综合信息矿产资源预测的原始信息模型。为了建立起合理的找矿模型,应在研究综合信息成矿规律的同时,重点剖析典型矿床的成矿特点和控矿规律,并运用对比分析的原则建立可靠的找矿标志组合。典型矿床剖析的主要研究内容包括矿床成因类型及成矿模式,矿石矿物组合及蚀变矿物组合特征,矿化期次,矿物生成先后特征,矿石结构构造特征,矿床围岩特征,矿石元素、蚀变岩元素、围岩元素共生组合特征,矿床、蚀变岩、围岩物性特征等的综合研究。此外,有些地区的野外工作常常观察不到直接找矿标志,或者直接标志并不明显,此时应将直接标志有机地转换为相应的间接标志,采用物、化、遥和重砂等综合信息作为找矿标志。因此,在建立找矿模型时应考虑提取足够的能用于矿产预测的有用间接找矿标志。

3.地质-数学转换模型研究

地质-数学模型的转换包括统计单元的划分,地质变量的提取与赋值以及模型单元的选择三部分内容。统计单元划分的合理与否直接影响着矿产预测的结果。划分不仅要满足统计学的要求,还要能客观反映地质体和矿产资源体在空间分布上的固有规律[1]。常用的地质统计单元划分方法有两种两种。网格法顾名思义是按一定间距将研究区划分成若干个相同的单元,便于统计。地质体单元法则是依据成矿作用的必要条件来划分统计单元,该类单元形状不规律,边界较复杂,却能较好地反映成矿规律,划分时可以固有的地质体为单元,或用成矿必要条件和有利因素组合确定单元,也可以某种独立的条件如汇水盆地的边界来确定单元。地质变量的提取是变量选择、赋值和变换的基础。提取地质变量时应先选择一批典型的矿床单元,通过分析并统计各地质变量在典型矿床单元中的存在情况,识别并提取出控矿变量。对所提取的地质变量赋值时则根据预测所用的数学模型有不同的要求。矿产资源预测实际是以模型单元与该单元控矿因素的组合为模型,通过相似类比的原则来预测未知单元的矿产分布及储量情况,因此,选择精确的模型单元至关重要。应选择来自同一母体,具有较完善标志组合,勘探程度较高的单元,并对所选单元运用数学模型计算并“降噪”。

4.资源定位、定量预测研究

资源定位、定量预测,是在上述数学模型的基础上,采用类比预测的思路,通过比较未知单元与模型单元之间的相似度来判断分析预测未知单元成矿的可能性及资源潜力。定位预测的统计学模型分两类[1]。一类是基于线性方程组的降维算法,主要包括特征分析法、秩特征分析法、独立权法等,该类方法的模型比较适合于以矿产资源体为统计单元。另一类则是基于贝叶斯概率计算公式基础上的成矿概率估计算法,包括证据权发、模糊证据权法等,该类方法要求变量满足条件独立性,因此,应先将有相关性的变量删除至一个或是综合成一个变量。这类方法更适应于在GIS软件平台中展开。矿产资源定量预测的客观模型主要有两种,总和式与非总和式资源量预测模型,我国主要采用后者,最常用的模型是逻辑信息法。就前人以往的研究经验看,逻辑信息法是目前资源量预测中比较实用,预测结果比较合理的统计分析方法。

5.结语

综合信息矿产预测方法系统全面的提取了与矿有关的各类地学信息,以成矿地质背景为指引,通过分析各类信息间的相互关系,有机地结合或剔除冗余信息,高效地建立预测矿种的找矿模型,并将地质模型转化为数学模型,从而进行科学的、有效的、立体化的矿产预测。该方法对我国矿产预测的发展起到巨大的推动作用,现正广范地服务于当前的找矿工作[3]。

参考文献:

[1]王世称,陈永良,夏立显.综合信息矿产预测理论与方法[M].科学出版社.2000.

[2]王世称.综合信息矿产预测理论与方法体系新进展[J].地质通报.2010,29(10):1399-1403.

统计学变量类型范文第9篇

【摘要】 目的 探讨累积比数logit模型在有序分类资料中的正确应用。方法 利用在陕西某地开展的一项队列研究数据,分别采用累积比数logit模型和偏比例优势模型进行分析,对二者的结果进行比较。结果 在资料不符合比例优势假定的情况下,直接采用累积比数logit模型不一定合适。结论 累积比数logit模型的应用有一定的条件限制,当不符合其应用条件时,最好采用其他相应方法。

【关键词】 累积比数logit模型; 比例优势假定; 偏比例优势模型

Abstract: Objective To investigate the correct application of cumulative odds logit model on the ordinal data. Methods The cumulative odds logit model and partial proportional odds model were used for the data from a cohort study in Shaanxi Province, and the results were compared. Results The cumulative odds logit model might not be appropriate when the proportional odds assumption was violated. Conclusion The application of cumulative odds logit model is dependent on certain conditions. It is advisable to adopt other methods when the condition of cumulative odds logit model were violated.

Key words: cumulative odds logit model; proportional odds assumption; partial proportional odds model

累积比数logit模型是二分类logit模型的扩展[1-2],主要用于处理反应变量为有序分类变量的资料。该模型对资料要求不严,解释变量既可以是连续型变量,也可以是无序分类变量或有序分类变量。Amstrong等[3]经模拟实验发现,对于多分类有序反应资料,如果采用一般的二分类logit模型而不是累积比数logit模型,则只能获得50%~70%的检验效能。说明在处理有序分类数据方面,累积比数logit模型要优于二分类logit模型。但目前对该模型的使用条件、拟合优度等内容极少有探讨。最近几年已有不少文章对二分类logit模型的正确应用进行了探讨[4-8],而对累积比数logit模型的研究却不多见。本文通过实例对累积比数logit模型的使用条件和拟合优度评价进行了探讨,为其正确应用提供借鉴。

1 材料和方法

1. 1 资料来源 资料来自于陕西某地开展的胃黏膜病变与幽门螺杆菌关系的队列研究。为探讨幽门螺杆菌与胃黏膜病变进展的关系,对400例浅表性胃炎患者检测幽门螺杆菌感染状态,将其分为感染阳性和阴性2组,同时调查了2组患者的吸烟、饮酒情况,并对所有患者进行随访。

1.2 胃黏膜病理诊断 用胃内镜观察胃黏膜病变,并在胃体大小弯、胃角、胃窦大小弯、前后壁各取胃黏膜活检组织1块。病理切片按照全国胃、十二指肠活检、病理诊断标准进行诊断。每个受检对象以最严重病变为第一诊断。病变严重程度由轻到重依次为浅表性胃炎(superficial gastritis, SG)、慢性萎缩性胃炎(chronic atrophic gastritis, CAG)、肠上皮化生(intestinal metaplasia, IM)和异型增生(dysplasia, DYS)。

1.3 统计学处理 本研究中的反应变量为病变的不同严重程度,为有序分类资料。分析方法分别采用累积比数logit模型和偏比例优势模型进行拟合。数据分析采用SAS 8.1统计软件。P

2 结 果

2.1 累积比数logit模型分析 病例随访5年后,共失访26例,剩余的374例中,135例仍为正常或SG,139例进展成为CAG,59例进展为IM,41例进展为DYS。多因素分析结果显示,校正性别、年龄、吸烟、饮酒等因素后,幽门螺杆菌对胃黏膜进展的影响无统计学意义(χ2=2.7439,P=0.0976)。见表1。

对该资料的比例优势假定条件进行检验,结果发现该资料不满足比例优势假定条件(χ2=38.85,P=0.0004),说明该资料采用累积比数logit模型分析可能并不合适。对模型的拟合优度进行分析,结果显示,Deviance值和Pearson χ2值对应的P值均小于0.05,说明模型拟合欠佳。表1 累积比数logit模型的参数估计

2.2 偏比例优势模型分析 偏比例优势模型也是基于累积logit的一种方法,但是它放宽了比例优势假定条件[9-11]。采用偏比例优势模型分析结果显示(表2),幽门螺杆菌对胃黏膜进展的影响有统计学意义(P=0.0113),这一结果与目前临床和流行病学研究结果是一致的。而且从参数估计的标准误来看,表2中的标准误均小于表1中的标准误。表2 偏比例优势模型的参数估计

3 讨 论

本次研究分别采用累积比数logit模型和偏比例优势模型对同一组数据进行分析,结果发现,在数据违反比例优势假定条件的情况下,2种模型拟合结果差别较大。累积比数logit模型结果显示幽门螺杆菌对胃黏膜病变的影响无统计学意义,而偏比例优势模型则表明幽门螺杆菌的影响有统计学意义。从统计学角度和实际角度综合考虑,偏比例优势模型的误差更小,且结果更为符合实际,提示本研究数据采用累积比数logit模型不合理。

实际中应用累积比数logit模型时,主要注意的使用条件就是比例优势假定条件,即自变量的回归系数应与分割点k无关[12]。换句话说,无论从哪一点分类,对所有的累积logit,变量χk都有一个相同的βk估计。对于一个自变量χk而言,不同累积比数发生比的回归线相互平行,只是截距参数有所差别。以前有研究认为,累积比数logit模型对这一条件并不敏感,但本次研究发现,当这一基本假设条件不满足时,结果的检验效率会降低,容易产生假阴性错误。

对于累积比数logit模型的拟合效果,可通过Pearson χ2和Deviance值来判断。Pearson χ2通过比较模型预测的和观测的事件发生和不发生的频数检验模型成立的假设,其自由度为自变量不同水平的组合数目与参数数目之差,χ2统计量小就意味着预测值与观测值之间没有显著性差别,可认为模型较好地拟合了数据。Deviance通常称为偏差,它是通过似然函数来测量所设模型与饱和模型之间的差异程度。当Deviance值较小时,可认为所设模型与饱和模型之间的差异小,即所设模型拟合较好。这2个指标值在多数情况下是一致的,如果存在不一致,一般认为,当用最大似然值拟合logit模型时,Deviance值比Pearson χ2值更适用于测量拟合优度[13]。需注意的是,当模型中含有连续变量时,Pearson χ2和Deviance指标将不再近似于χ2分布,从而也不再适用于拟合优度评价。Bender等[14]建议,如果累积比数logit模型含有连续变量时,最好采用单独的二分类logit模型利用Homser-Lemeshow指标进行评价。Pulksteins等[15]则提出了一种修正Pearson χ2和Deviance值,用于含连续变量的累积比数logit模型的拟合优度评价等。

总之,累积比数logit模型的应用不仅仅是参数求解,而是包含了一系列过程,如变量正确赋值、变量的初步描述、图示检查、变量选择、参数求解、拟合优度评价、结果的合理解释等。它需要对专业和统计学知识的全面了解,也需要一个实事求是的态度。只有准确掌握应用条件,恰当地对模型进行评价,并结合专业知识进行合理的解释,才能得出可靠的结论。

参考文献

[1] Bender R,Gruven U.Ordinal logistic regression in medical research[J].J R Coll Physic Lond,1997,31(5):546-551.

[2] McCullagh P.Regression models for ordinal data [J].J R Stat Soc(B),1980,42(2):109-142.

[3] Amstrong BG,Sloan M.Ordinal Regression models for epidemiologic data[J].Am J Epidemiol,1989,129(1):191-204.

[4] 冯国双,陈景武,周春莲.logistic回归应用中容易忽视的几个问题[J].中华流行病学杂志,2004:25(6):544-545

[5] 赵宇东,刘嵘,刘延龄,等.多元logistic回归的共线性分析[J].中国卫生统计,2001,17(5):259-261.

[6] 罗登发,余松林.条件logistic回归模型的残差分析和影响诊断[J].中国卫生统计,1997:14(1):13-15.

[7] 魏朝晖.logistic回归诊断[J].中国卫生统计,2001, 18(2):112-113.

[8] 赵清波,徐勇勇,夏结来.logistic回归中高杠杆点的检测[J].中国卫生统计,1997,14(2):17-20.

[9] Bender R,Benner A.Calculating ordinal regression models in SAS and S-Plus[J]. Biom J,2000,42(6):677-699.

[10] Peterson B, Harrell F.Partial proportional ordinal model for ordinal response variables[J].Appl Statist,1990,39(2):205-217.

[11] Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments[J].Stat Methods Med Res,2002,11(1):49-67.

[12] Fahrmeir L, Tutz G.Multivariate statistical modeling based on generalized linear models [M].2nd ed. Berlin:Springer-Verlag,1998:75-79.

[13] 王济川, 郭志刚.Logistic回归模型——方法与应用[M].北京:高等教育出版社,2001:58-65.

统计学变量类型范文第10篇

【关键词】统计数据;分析方法;市场调研;判别分析

一、数据统计分析的内涵

数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。

二、数据统计分析的原则

(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。

三、推论性统计分析方法

(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。

四、多元统计分析方法

(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了全面的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。

参考文献

[1]温美琴.统计分析方法在我国政府绩效审计中的应用[J].统计与决策.2006(23)

统计学变量类型范文第11篇

中医各疾病证候分型标准的缺失在很大程度上阻碍了现代中医药临床与科研的发展,因此如何制定中医证候分型标准成为了当下急待解决的问题。目前证型标准化的统计学处理方法之间存在很大差异,正确的数据分析方法可以确保所制定标准具有极高的临床可靠性,选择何种统计方法成为了关键。利用符合中医辨证规律的数理方法,对常见疾病的中医证候进行多中心合作、大基数样本的临床流行病学调查,根据所获得的数据进行分析,提取证候要素,是目前建立证候标准化研究方法的可行之路。

关键词:

中医证候;证候分型;标准化;统计学方法

中医基于整体观念的辨证论治是中医学诊断及治疗的特色。建国以来关于中医辨证分型的研究一直是中医诊断学领域最为瞩目的焦点,但缘于中医各家学说、经验、理论等等纷繁复杂,自成体系,具有强烈的主观、模糊与随意性[1],因此逐渐形成了多种证候分类标准同时并存的现象,所谓的标准并不具有权威性,临床大多以推荐治疗指南存在。然而标准是构建国家核心竞争力的基本战略要素,在未来的国际竞争中,标准是各国竞争的焦点。随着传统中医药巨大的医疗价值和市场潜力日益被挖掘,中医药标准化的国际呼声和需求日益高涨。东亚地区的日韩甚至欧美等国家纷纷开展了传统中医药各种标准的研究与制订,通过各种渠道和方式争取制定国际标准的主导权。中医药标准化面临着激烈的国际竞争,不做标准将失去主导权,因此开展证候的标准化研究有重大的现实意义,制定并具有权威性的中医各病种的证候分型标准是抢占中医药国际话语权的有力切入点。以下就适合中医证候分型标准化研究的方法以及目前常用于证候分型研究的几种多元统计分析方法的对比选择作一综述。

1适合中医证候分型标准化的统计学方法

中医疾病证候分型的标准化、客观化是临床辨证施治规范化的坚实基础,近年来大批研究者在中医证候诊断标准研究方面做了不少有借鉴意义的尝试,涉及病种广泛,根据不同疾病的特点在思路和方法的实践上进行了新的探索,取得了一定的成果。

1.1聚类分析[6]、因子分析[7]、主成分分析[8]结合何丽清等[9]对北京市三家医院共586例年龄介于50至74岁之间的符合膝骨关节炎诊断标准的女性患者进行了前瞻性研究,作者采取临床流行病学调查方法,收集整理四诊信息,以聚类分析中系统聚类Ward’s法将该病分为三个证型,即肾气亏虚型(386例)、风寒湿痹型(141例)和痰瘀互阻型(59例)。唐伟等[10]收集了张炳秀教授2004—2010年间收治的644例共计755诊次胃脘痛病案,记录下患者的症状、体征、舌脉等临床资料,并进行聚类及因子分析。其结果显示胃脘痛的临床证候可分为以下六类:脾胃虚寒、肝气犯胃、湿热中阻、脾胃气虚、痰湿内蕴、瘀血停胃,每一类证候对应一组贡献率不同的具有高相关性的四诊信息。王春晓等[11]根据颈椎病患者的临床表现、舌脉体征等设计调查表,采集575例患者的四诊信息,运用聚类分析和主成分分析法对调查表中98个常见症状进行分析得出8类证候:痰湿阻络,寒湿痹阻,气血两虚,湿热侵袭,肝肾亏虚,脾肾阳虚,血瘀气滞,肝脾两虚。根据分析结果可知,颈椎病病机复杂,虚实并见,其基本的病机是以“邪实”为主,主要表现为气滞、湿热、寒湿、痰湿,并见血瘀之邪;而正虚主要表现为阴虚、阳虚、气虚和血虚,这提示聚类分析和主成分分析用于中医证型的分类研究具有一定科学性。

1.2人工神经网络相关研究边沁等[13]用一种基于MFB_P算法的神经网络模型,以742例乙肝临床病例资料为研究对象,对乙肝的中医证型进行了规则的提取与研究,并根据其解决实际问题的能力对网络的性能作出评价。其研究结果表明,这种神经网络运算模型有较强的获取数据规则的能力,决定该网络性能优劣的关键因素是如何在原始数据的基础上有效地表示知识以及控制输入的信息。该方法用于证的标准化研究具有方法学上的可行性,值得进一步深入探究。孙贵香[14]在冠心病临床流行病学调查的基础上,采用MATLAB神经网络工具,构建冠心病对应的中医证候人工神经网络模型。并运用回顾性及前瞻性检验的方法,客观地检测该网络模型的性能。结果可见,对已采集的496例患者的四诊信息进行回顾性检验处理后,该模型的诊断准确率高达90.5%,且具体证型判别的准确率与样本例数呈正相关性。新采集的132例病例进行前瞻性检验显示,模型的诊断准确率达到了91.36%[12]。

1.3结构方程的应用申春悌和张华强[16]采用DME(designmeasurementevaluation)流调方法,以盲法处理和分析了400例更年期综合征患者的资料,采用因子分析和结构方程模型,研究本病的证候分布及各证所包含四诊信息及实验室检测指标,以探讨中医证候分型标准建立的思路与方法。李国春等[17]采用临床流行病学/DME的方法采集慢性萎缩性胃炎病人的中医宏观四诊信息和胃镜病理特征资料,根据病例特征的多维指标和中医先验理论建立合适的结构方程模型,并拟合模型考核其合理性,从202个慢性萎缩性胃炎病例的22个辨证相关指标中,随机抽取了四个潜在因变量,分别与中医的四个常见证型相对应:脾胃湿热证、肝胃不和证、脾胃虚弱证和胃阴不足证,并与相应显性症状相关,四个潜在的因变量都受同一个潜在的自变量影响,而潜在的自变量则反映了慢性萎缩性胃炎的共性[15]。

1.4关联分析章浩伟将灰色理论中的灰色关联分析应用于中医肝病的诊断中,给出了症状程度表达的解决方案,并建立了结合专家系统和灰色理论方法的推理诊断模型,实现了一种新型智能化中医肝病诊断方法,通过实际病例检验来验证了该方法的可行性,并根据上述方法构造了中医肝病七个主要证候的中医专家诊断系统,该系统依靠灰色关联分析等方法组成的模糊推理技术来实现。目前通过60例肝病临床病例的检验得出诊断正确率约为78.3%,进一步证明该系统的推理方案是比较成功且可行的[18]。

1.5多学科交叉的方法任占利等[2]通过翻阅大量的古今文献进行调研,且经大量临床实践,结合临床流行病学、循证医学、计算机学、数学、国际量表学等有关规则,研制出较客观、可计量、能重复的《中风病中医证候诊断标准》。

2常用于证候分型研究的几种多元统计分析方法对比选择

总结目前运用于证候研究的多种数理方法,虽然不乏有基于大数据挖掘的神经网络、结构方程模型、关联分析等先进方法的运用,但这些方法在证候标准化研究中仍处于尝试阶段。较多应用于中医证型标准化研究中的数理统计方法,仍然是传统的多元统计分析方法。目前常用以下几种多元统计分析方法进行证候分型的研究。

2.1聚类分析是研究“物以类聚”的一种方法。目前中医药领域在对证型的研究中所采用的聚类方法,多数以统计软件将收集到的四诊资料进行基于距离的聚类,统计分析软件根据各变量之间的关联程度,分层逐步聚而成类,最后结合中医理论和名中医临床经验确定为几类,从而形成对病例观察的全部变量分型分析。由于是基于距离的聚类,必然导致使用者定义聚类对象之间的距离具有强烈的主观性。此外,采用聚类分析时如果两个强相关的变量同时进行分析,易造成聚类结果的区分度不强或者意义不大,并且容易舍弃低频高相关的变量,而中医症状、体征包括舌脉表现之间存在大量的多重共线性关系。针对这种共线性问题,需要对变量进行预处理,如删除频数过低的变量,合并意义相近的变量,或者组成变量群集合,再进行下一步聚类分析,可以尽可能地减少变量的损失,保留更多有意义的变量。

2.2主成分分析和因子分析二者皆为用于将多个相关变量简化为少数几个综合变量集合作为新的变量的多元统计分析方法,这种统计方法可以在尽可能保留变量信息的基础上降低变量维数,减少信息的丢失且能得出有效结果。中医证候的要素纷繁复杂,因此有不少学者尝试用主成分和因子分析法找出辨证的主要症状因子,并进行证型分布研究,即所谓的“抓主症”———满足主要症状条件即可判断为某一证型。但这种统计分析的前提是假设各因子之间是相互独立的,而中医理论认为证候与证候之间、证候与症状、症状与舌脉之间存在广泛联系,相互之间并非能达到统计学意义上的单纯独立,并且存在及其复杂的线性或非线性关系,所以他们的统计思路不完全符合中医证候理论,也意味着方法学选择上的错误。

2.3回归分析和判别分析不少学者通过此类分析方法建立证候诊断标准,该方法特点首先需要依据专家的经验,确定所研究的证候类型归属,然后通过对新观测病例四诊信息的数据进行分析,建立一个所谓的最佳判别函数和回归方程。虽然判别函数和回归方程是对数据的数学层面的总结,但是它们的建立是以专家主观判断为前提,因此根据此类方法建立证候诊断标准,其实就是根据专家经验建立标准,有循环论证之嫌,因而其客观性较差。

3证候标准化研究现存问题与展望

迄今为止,关于中医“证候”的标准化规范化研究已然取得一定的成果,但就其本质而言仍未取得实际意义上的重大突破。其原因有以下几方面:①证候名称及其概念的规范并没有完全统一。由于历史原因,对于同一种证候名词的理解因人而异,而证候名及其概念的规范恰恰是制定证候诊断标准的先决条件;②中医证候分型标准制定的方法学有待进一步提高与完善。目前尚无公认的根植于中医基础理论的证候研究的方法学。现采取多学科交叉联合,以证型标准化方法学为基础,结合不同病种之间的差异,来制定中医常见病种证候标准;③目前中医证候分型标准的研究仍停留在证候的静态研究上。“证”是疾病发展过程中某一阶段的病理概括、是一疾病个动态发展过程的表述。因此中医证候分型标准化研究,应建立在动态临床病例模型研究的基础上,充分挖掘证候的内涵与特质。

总之,利用符合中医辨证规律的数理方法,对无法与西医相对应的常见疾病的中医证候进行多中心合作、大基数样本的临床流行病学调查,根据所获得的数据进行分析,提取证候要素,是目前建立证候标准化研究方法的可行之路。除此之外,如何科学、合理的将建立在临床病例信息采集基础上的,使用符合中医辨证分型规律的数理统计分析方法,分析的结果所建立的证候分析标准转化成操作性、实用性强的证候诊断标准,来满足临床工作中实际的需求,也是目前中医证候分型标准化研究中非常重要的环节。这需要将撰写好的标准运用到临床实际中进行多中心的验证,同时结合专家咨询与论证,不断修改直至完善可行。尽管目前还没有成熟的数理方法应用到中医证候标准化研究当中,但随着多领域、多学科交叉探索的深入,未来会发现更合适中医证候标准化研究的统计模型与计算方法,相信合乎中医主流思想的证候研究的方法学不久的将来将会有所突破。

参考文献

[1]吴秀艳,王天芳.中医证候诊断标准的研究思路[J].新中医,2007,39(3):1-3.

[2]任占利,等.中风病证候诊断标准的研究[J].北京中医药大学学报,1996,19(4):49-50.

[3]中药新药临床研究指导原则[M].北京:中华人民共和国卫生部,1995:188.

[4]GB/T15657-1995中医病证分类与代码.

[5]国家技术监督局.中华人民共和国国家标准:中医临床诊疗术语证候部分[S].北京:中国标准出版社,1997.

[6]黄宏兴,黄红,陈希.骨质疏松症中医证型的聚类分析[J].广州中医药大学学报,2007,24(3):180-187.

[7]薛薇.SPSS统计分析方法及应用[M].北京:电子工业出版社,2004.

[8]孙振球.医学统计学[M].3版.北京:人民卫生出版社,2002.

[9]何丽清,闫立,杨涛.586例膝骨关节炎中医证型聚类分析及与中医体质的关系[J].辽宁中医药大学学报,2012,14(7):52-55.

[10]唐伟,张炳秀,张文东.胃脘痛证候的聚类分析及因子分析研究[J].安徽中医学院学报,2012,31(6):35-37.

[11]王春晓,谢兴文,李宁.聚类分析与主成分分析在颈椎病中医证型规范化研究中的应用[J].中国组织工程研究与临床康复,2011,15(43):8083-8088.

[12]李建生,胡金亮,余学庆,等.基于聚类分析的径向基神经网络用于证候诊断的研究[J].中国中医基础医学杂志,2005,11(9):685-687.

[13]边沁,何裕民,施小成.基于MFB-P算法的中医证型的神经网络模型初探[J].中国中医基础医学杂志,2001,7(5):66-69.

[14]孙贵香,姚欣艳,袁肇凯.基于MATLAB的冠心病中医证候BP神经网络实现[J].中华中医药学刊,2011,29(8):1774-1776.

[15]陈启光,申春梯,张华强.结构方程模型在中医证候规范标准研究中的应用[J].中国卫生统计,2005(22):2-4.

[16]申春悌,张华强,朱雄华.400例更年期综合征临床证候辨证标准现场调查分析[J].中国中西医结合杂志,2004,24(6):517-520.

[17]李国春,李春婷,黄蓝洋.结构方程模型在慢性萎缩性胃炎中医证候分型中应用[J].中国卫生统计,2007,24(4):357-360.

统计学变量类型范文第12篇

[关键词]大数据;个人信用风险评估;随机森林

一、引言

央行征信系统是目前世界规模最大、收录人数最多、收集信息全面、覆盖范围和使用广泛的信用信息基础数据库,其存在一些结构性的缺陷,直接影响了互联网金融和其他小型金融机构对客户综合信用评估的准确率。例如,虽然央行征信系统已经收集了8.68亿个自然人的信息,但是有信贷记录的人数仅有3亿多人,大量个人在征信系统中没有任何信贷信息;还有近6亿自然人信息没有被央行征信系统收集;央行征信系统信贷记录主要来源于商业银行等金融机构,其数据在时效性、全面性和层次性上存在短板,无法全面反映客户的真实信息;此外,民间借贷信息也不会接入央行征信系统。大数据是目前互联网领域的研究热点之一,为解决央行征信数据缺失情况下准确评估用户信用风险提供了一个方法。利用先进的机器学习理论建立基于大数据的信用评估模型,对用户在网购、交易、社交等平台积累的商誉和行为数据进行整合和分析,从而将商誉信息转化为信贷评级依据,解决交易过程中的信息不对称的问题,既可以对互联网金融、小额贷款公司等金融机构提供一个有力的风险抓手,也可以对在央行征信系统信贷数据缺失或者信用记录不好、资质比较差的客户提供一个获取信用类服务的机会。因此,深度挖掘互联网大数据信息,开发基于大数据的信用风险评估模型,具有十分重要的现理论和意义。

二、国内外典型个人信用评分系统

(一)FICO系统

FICO是FairIsaac公司推出的一套评分系统,在美国得到广泛使用,其实质是应用数学模型对客户信用信息进行量化分析,基本思想是把数据库中全体借款人的信用习惯与具体某个借款人过去的信用历史资料进行对比,分析该借款人未来发展趋势是否与数据库中那些已经陷入财务困境的借款人有共同的趋势,从而决定是否放款给借款人。其判断的指标主要是客户在金融信贷方面的信息,主要包括信贷组合(10%)、争取新信贷(10%)、信贷时长(15%),未偿债务(30%)、付款历史(35%)。FICO采用的数学模型是传统的logistic回归模型,其信息维度过于单一。

(二)ZestFinance

ZestFinance是一家基于大数据的信用风险评估公司,其信用理念是认为一切数据都与信用有关,从多种渠道获取用户数据,充分挖掘用户信用信息[1]。与传统征信体系不同,其数据来源主要包括第三方数据、网络数据、用户社交数据等多个维度,能够在大数据基础上,从多种角度对借款人进行量化信用评估。ZestFinance的信用评估模型基于先进机器学习和集成学习模型,但具体的预测模型细节是其核心机密,其信用评估模型中用到几千个数据项。(三)芝麻评分芝麻评分是蚂蚁金服旗下个人征信机构在国内率先推出的个人信用评分。芝麻信用通过网络数据的收集和评估对不同的个体给出相应的评分,主要考虑个人信用历史、行为偏好、履约能力、身份特征和人脉关系等维度,数据来源于阿里巴巴生态系统数据、政府公共部门数据以及合作机构数据等。评分模型以线性回归和逻辑回归为主,部分模型也涉及决策树、神经网络等现金机器学习技术。

三、构建用户画像

如何有效地收集、组织用户信息,挖掘与业务应用相关属性,是基于大数据的业务分析和建模之前需要重点解决的问题。“用户画像”是指企业通过收集与分析消费者相关的各种大数据信息,完美地抽象出一个用户的商业信息全貌,并针对特定业务场景进行用户特征不同维度的重新组合,精准刻画用户的商业特征[2]。用户画像可以用标签的集合来表述,一个标签可以看作是高度精炼的特征标识,如年龄段标签:25~35岁;地域标签:上海等。对互联网上用户相对稳定的静态信息数据,如性别、年龄、地域、职业、婚姻状况等,直接建立标签;对用户不断变化的行为等动态信息数据,采用事件模型构建标签及对应权重,一个典型事件模型包括时间、地点、人物三个要素,即什么用户、在什么时间、什么地点做了什么事。此外,标签的权重还应当考虑时效因素。

四、大数据预处理

在利用大数据进行个人信用风险评估建模之前,必须对大数据进行预处理,使其满足建模要求,主要包括以下一些处理环节。1.数据收集按照原始数据库和建模数据库分别收集数据,必要时采取补录数据的方式完善建模数据库。2.数据核对需要从表1所示的几个方面进行数据核对。3.数据清洗经过数据核对发现的数据问题,将通过数据清洗处理步骤进行处理。对于有问题的数据,尽量通过调整后使用,经过调整后仍然无法使用的数据,对其进行删除处理。4.单变量分析目的是确保变量满足符合实际业务意义,对分析对象具有高区分能力。(1)变量区分能力分析。往往使用多个统计指标进行计算,例如AR,K-S,等,然后综合各个统计指标的计算结果对于变量进行选择;(2)经济学含义分析。变量应当反映实际业务需要,具有明确的经济学含义;(3)变量转换。变量可能有很多类型,各个变量取值范围也可能有所不同,常用转换方法是将变量转换为概率值。5.多变量分析目的是降低变量间相关性,使模型具有稳定的高区分能力,包含尽可能多的不同信息类型。(1)变量相关性。常用方法有相关性矩阵,聚类分析或者使用容忍度、VIF指标等;(2)区分能力。对于多个变量的组合,除了分析其区分能力的高低之外,区分能力的稳定性也是一个重要的因素。(3)信息类型。模型所选变量对于可能信息类型要尽量涵盖全面,保证模型能够对于分析对象信用状况进行全面的评估。6.变量衍生互联网数据稀疏性强、原始变量业务解释性较弱,因此在模型分析前需生成更加稠密、业务解释性更强的衍生变量。衍生变量主要侧重于商品消费信息。

五、风险计量模型

传统信用风险评估模型在业务逻辑架构下分析变量的基本属性及风险区分能力,用逻辑回归等统计分析模型进行量化分析,得到精确的风险计量结果,然而用户行为数据独有的稀疏性会使得统计模型极不稳定。决策树对局部数据分析有着极强的稳定性和鲁棒性,同时可以揭示变量风险区分能力的非线性结构关系。因此可以将决策树模型和逻辑回归模型进行结合,即在进行统计建模前添加一层决策树模型进行单变量分析,同时利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入逻辑回归模型中进行统计建模,确定所有风险因子的风险权重。

(一)决策树模型

在决策树各种算法中,CHAID(Chi-SquaredAutomaticInteractionDetection)[3]既适用于二值型变量,也适用于连续型变量。针对每一次分叉,CHAID产生一系列二维,然后分别计算所生成二维表的卡方统计量或F检验。如果几个备选变量分类均显著,则比较P值大小,然后根据P值大小选择最显著的分类变量以及划分作为子节点。

(二)随机森林模型

随机森林(RandomForest)[4]是由美国科学家LeoBreiman2001年发表的一种机器学习算法,包含多个由Bagging集成学习技术训练得到的决策树,最终的分类结果由单个决策树的输出结果投票决定。随机森林克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据分类问题具有良好的可扩展性和并行性。

(三)逻辑回归模型

逻辑回归模型是因变量服从二项分布,且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型。如果样本分布服从多元正态分布,那么该样本正好符合对数回归的假设,对数模型的误差项服从二项分布,在拟合时采用最大似然估计法进行参数估计。

六、系统开发关键步骤

根据前述风险计量模型,大数据环境下建立个人信用风险评估系统的关键步骤如下:不难看出,通过上述方法建立的系统具有以下优点:(1)以传统模型为基础搭建,保留传统模型的业务解释性和稳定性;(2)以随机森林模型为基本架构搭建了随机模型,克服了传统模型对数据噪声亦比较敏感的缺陷,使该系统的泛化性与稳定性有了进一步的提高;(3)克服了传统模型一般只能容纳10-15个变量的缺陷,该系统可以涵盖100+个变量。可以从源头杜绝用户刷分现象,提升公信力;(4)在应用层面的高度稳定性与业务解释性,使其有着比纯粹机器学习模型更广泛的应用空间。

七、应用展望

通过上述方法在大数据环境下建立的个人信用风险评估系统,可以在以下一些方面进行广泛应用。

(一)征信多元化

传统金融机构的征信信息来源主要是央行征信,但央行征信仅有3亿多人有信贷记录,信贷记录又主要来源于商业银行和农村信用社等金融机构。随着互联网不断渗入人们生活,互联网行为数据是央行征信的有效补充,可以不断强化征信数据的时效性、全面性和层次性,从无形中记录用户的行为,去伪存真,还原真实的客户。从而大大提升信息的利用率和有效性。同时,大数据风险模型的应用,可以不断提高金融机构风险识别、计量能力,从而不断完善征信信息体系架构,为精细化风险定价提供必要的基础和土壤。

(二)授信审批自动化

随着大数据模型开发技术与内部评级体系建设的深度融合,金融机构可更加广泛和全面地将评分/评级结果应用于授信审批,为贷款决策提供参考和支持。大数据风险模型优秀的风险排序及区分能力能够大力推进自动化审批的进程及线上产品的改革与创新。对模型评分高于一定级别且满足其它授信决策条件的,授信申请可以自动通过,不需要再经人工审核,对于评分低于一定级别的,模型自动拒绝其申请;只有评分介于以上两者之间的客户,才由人工介入进行申请审核。

(三)风险监控与预警精确化

风险监控与预警是指借助各类信息来源或渠道,通过对数据与信息进行整合与分析,运用定量和定性分析相结合的方法来发现授信客户及业务的早期风险征兆,准确识别风险的原因,分析其可能的发展趋势,并及时采取有针对性的处理措施,控制和化解授信风险的一系列管理过程。大数据风险模型较传统内部评级体系更为精细和灵敏,可以快速识别贷后风险,为不同的用户设定不同的监控频率、自动筛选高风险客户,制定有针对性的贷后管理措施、贷后管理工作等。

[参考文献]

[1]刘新海,丁伟.大数据征信应用与启示——以美国互联网金融公司ZestFinance为例[J].清华金融评论,2014(10).

[2]余孟杰.产品研发中用户画像的数据模建——从具象到抽象[J].设计艺术研究,2014(12).

[3]黄奇.基于CHAID决策树的个人收入分析[J].数学理论与应用.2009(12).

统计学变量类型范文第13篇

相关热搜:统计学  统计学原理

一、数据统计分析的内涵

数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。

二、数据统计分析的原则

(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。

三、推论性统计分析方法

(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。

四、多元统计分析方法

统计学变量类型范文第14篇

1.1随机事件的关系运算与集合的关系运算的类比由于事件可以看成由某些样本点构成的集合,因此可将二者类比学习。例如:集合A∪B表示其中任意一个元素x仅属于A或者仅属于B或者属于A和B的公共部分,我们可以形象地用韦氏图来表示。此时若将A和B看作是事件,则事件A∪B表示“事件A和事件B至少有一个发生”,记作A+B,即概率论中事件的和等同于集合论中集合的并集。同样的类比方法,我们可将集合论中集合的交集类比到概率论中事件的积中去。在教学中可引导学生先回顾集合之间的各种关系运算,随之再引出相应的事件间的关系运算,最后归纳总结。此外,事件运算的性质如交换律、结合律、分配律均可对照集合的相应性质进行类比学习。

1.2离散型随机变量与连续型随机变量的类比对于离散型随机变量,学生感觉较容易,但对于连续型随机变量,往往学生感觉抽象难理解。由于分布列在离散型随机变量中的地位与密度函数在连续型随机变量中的地位等同,因此对于离散型随机变量中的边缘分布列与联合分布列的关系可以过渡到连续型随机变量中边缘密度函数与联合密度函数的关系中去,此外诸如随机变量的独立性的充要条件以及期望与方差的计算均可轻松过渡。具体我们可通过“把连续的问题离散化”这种方法,实际是将对离散型随机变量中对分布列的求和变成对连续型随机变量中的密度函数求积分即可。表1我们将对其中的部分性质及计算作一个简要的类比。

1.3一维随机变量与二维随机变量的降维类比任何学习都是循序渐进的,一般来说低维空间的知识相对简单,容易被学生接受,所以最好的方法是从低维空间向高维空间过渡学习。降维类比法是将高维空间中的数学对象降低到低维空间中去观察,利用低维空间中数学对象的性质类比归纳出高维数学对象的性质。通过上面的类比得知抽象的二维随机变量的分布函数与一维随机变量有着一致的表达式,从而大大降低了学习的难度。此外,二维离散型随机变量的联合分布列与连续型随机变量的密度函数的性质与计算均可借助一维随机变量的相关知识引入。

2类比法在习题教学中的应用

统计学变量类型范文第15篇

【关键词】量化研究;理论;方法;案例

【中图分类号】G420【文献标识码】A 【论文编号】1009―8097(2010)04―0020―04

在教育科学研究的历史上,量化研究是一种常用的研究范式。《国际教育百科全书》主编Husen[1]的理解是:量化研究是模仿自然科学,强调适合于用数学工具来分析的观察(经验的、可量化的观察),研究的任务在于确定因果关系,并做出解释。在此理解的基础上,本文将对量化研究的基本理论、方法与应用案例进行较为详细的介绍。

一 量化研究的理论简介

1 量化研究的概念与内涵

量化研究是一种对事物可以量化的部分进行测量和分析,以检验研究者关于该事物的某些理论假设的研究方法[2]。量化研究有一套完备的操作技术,包括抽样方法(如随机抽样、分层抽样、系统抽样、整群抽样)、资料收集方法(如问卷法、实验法)、数据统计方法(如描述性统计、推论性统计)等。量化研究正是通过这种测量、计算和分析,以求达到对事物“本质”的把握。由此可知,量化研究即是引用一定的数学方法,通过变换来判断研究对象诸因素的关联,最后用数值来表示分析研究的结果。

教育中的量化研究方法包含以下三层涵义:首先,研究对象的可统计性。由于量化研究是借助于数学的研究方法,因此研究对象必须先转化为可以运算的数据以便以进一步的分析;其次,操作程序的固定化,量化研究的每一种具体方法都有它固定的具体操作程序。如数学建模法,要求在统计和测量的基础上建立主因素变化的数学模型,然后通过数学模型的运作把现实事物的变化反映出来;再次,研究结果的客观性强调从经验事实出发,对研究对象进行变量分析,通过变量分析获得对客观事物的认识,依靠事实证实研究结果[3]。

需要指出的是,量化研究并不排斥定性研究,定量研究只有建立在定性分析的基础之上才有意义。正如叶澜教授[4]所说,当教育研究尚未在定性的水平上达到清晰、具体、准确地揭示事物及其相互关系、作用演变轨迹,尚未认识研究对象的性质、数量指标、形态之间的对应关系时,它很难合理选择定量研究的工具和使定量研究起到抽象、准确认识研究对象、深化定性研究的作用。

2 量化研究的现状与趋势

从20世纪初开始,量化方法被应用于教育领域,经过80多年的发展,各种量化方法与技术不断充实与完善,应用范围也更加广泛。目前所使用的经典统计方法可以概括为描述性统计与推论性统计。描述性统计主要用于简缩数据和描述数据,如计算平均值、标准差、相关系数、制作次数分布表、画直方图等;推论性统计则是通过样本所提供的信息,对总体的某些特征进行推断、估计和预测,以揭示事物的内在规律,如计算平均数差异的T检验、F检验,类别数据差异的χ2检验,因变量与自变量之间关系的线性回归等均属此类分析方法。

近年来,随着计算机技术的普及与应用,多元统计分析方法迅速崛起,并在教育科研领域起到越来越重要的作用。每个事物现象都表现为多个方面,需要有多个指标来描述、刻画事物的质和量,这些构成指标体系的多个指标各有侧重地解释着同一个事物的质,必然存在着多重共线性,为了将这些指标反映的内容综合起来,寻找一个简单综合指标,可以借助多元统计分析,在尽量减少损失信息的情况下,通过变换和构造模型,剔除指标间相互制约的成分,使复杂数据简单化。例如,因子分析、结构方程模型等多元统计分析手段就是这一类方法。

另外,由于统计分析理论和方法的发展与推广,测量方法也有了质的飞跃,经典测量理论在教育和心理领域的应用逐渐让位于项目反应理论(IRT),美国和欧洲的著名教育测量机构均把IRT应用于设计、建构测试题库以及其他的测量发展过程。

二 量化研究的基本方法

量化研究包括若干密切联系的操作步骤,每一步骤各有其不同的任务。实现量化研究的基本方法,就是按照量化研究的操作步骤开展研究过程,并以审慎的态度对待研究过程中的每一环节。

1 研究目标的制定

研究目标是指研究者从事某项研究之前,必须确定下来所要达到的境地、要实现的愿望和将得到的结果[5]。教育科学量化研究旨在通过假设、实验验证、统计分析,从所研究的样本中概括出一般特征和普遍规律,从而对教育现象进行预测[6]。

那么,如何确定某一具体的研究目标呢?这就需要了解制定研究目标的依据,即确定研究目标的原因和理由。制定研究目标的依据有:(1)依据于研究假设;(2)依据于研究问题的困难程度;(3)依据于研究条件和环境。只有将这三方面依据综合考虑,统筹兼顾,才能制定出一项合适的研究目标。

2 研究对象的选取

研究对象就是被研究的单位或个人,它的选取是量化研究过程中一个重要环节,研究对象选取的基本原则是能够代表总体。研究对象的选取一般包括以下三个步骤:(1)明确规定总体;(2)选定抽样方法;(3)确定被试数量。

3 研究变量的分析

变量是指与研究问题有关而且是可以操作或测评的可变因素或条件,在教育科学的量化研究中被广泛应用的变量有自变量和因变量。具体来说,自变量是在实验中由研究者操纵的、对被试的反应产生影响的变量;因变量也叫反应变量,它是由自变量而引起的被试的某种特定反应,因变量具有可变性、外依性和可测评性的特征。另外,在量化研究中还可能涉及到其他的一些变量,如有机变量、中间变量和控制变量等。

4 测量工具的开发

测量工具的形式多种多样,其中,问卷是教育研究中使用最多的测量工具,在量化研究中经常使用的问卷就是李克特量表。该类型量表是由一组与主题相关的问题或陈述组成,用来表明被调查者对某一事物的态度、看法、评价或意向。实际应用中通常采用五级量表形式,即对量表中每一题目均给出表示态度积极程度等级的五种备选评语答案(如“很不同意”、“不同意”、“说不准”、“同意”、“非常同意”等),并用1-5分别为五种答案计分。将一份量表中各题得分累加后即可得出总分,它反映了被调查者对某事物或主题的综合态度。一个良好的测量工具可以用信度和效度来衡量。

5 实验过程的设计

实验设计表现了验证实验假设的具体行为,体现出对研究内容、研究方法及研究过程的整体设想与综合处理。其具体过程就是研究者对自己该如何选择研究对象,如何组织实验,如何操纵实验变量,控制无关变量,测定因变量,如何对结果进行统计分析,以及对实验的具体实施步骤等一系列至关重要的问题都进行具体思考,并在通盘筹划之后做出恰当安排的过程。

6 实验数据的处理

数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。本文将主要介绍用于教育科学研究的几种推论统计,这也是教育统计学中较为重要、应用较多的内容。

(1)T检验:用于小样本时,两个平均值差异程度的检验方法。它利用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。

(2)方差分析(ANOVA):其主要功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有影响。方差分析主要处理多于两个以上的平均数之间的差异检验问题。

(3)χ2检验:χ2检验适合于类别数据的统计分析,它能处理一项或多项分类的实际观察频数与理论频数分布是否一致,或有无显著差异的问题。其统计原理,是比较观察值与理论值的差别,如果两者的差异越小,检验的结果则不易达到显著性水平;两者的差异越大,检验的结果则可能达到显著性水平。

(4)线性回归:通过大量的观测数据,发现变量之间存在的统计规律,并用一定的数学模型表示出来,这种用一定模型来表述变量相关关系的方法就称为回归分析。如果两个变量之间存在着线性关系,则两变量间的关系就可以拟合成简单线性回归方程。

7 研究结论的获得

研究结论主要是对实验中观察、记录和测定的结果(各种数据、现象和事实)作出理论的分析和解释,从广度和深度两个方面来丰富和提高对实验结果的认识。阐述研究结论时,一方面要根据实验所取得的结果指出实验的研究假设是否成立,同时,还应当就实验中出现的某些特殊现象,提出自己的见解。

三 量化研究的案例分析

案例名称:网络教学中基于Kolb学习风格模型的实证研究[7]。

1 研究目标

本案例所探讨的是以经验学习理论为基础的Kolb学习风格模型在网络教学中的应用,研究者选择了与Kolb学习风格量表相关的在线学习行为作为测试的变量,目的在于发现Kolb学习风格、在线学习行为和学习结果之间是否存在一定的关联,以期为网络教学的优化提供一定的参考和依据。

2 研究方法

(1)研究对象

实验中的被试来自于山东师范大学教育技术系本科三年级的学生。开始时,有104名学生接受了Kolb学习风格量表的测试,作者从中选取了学习风格特征比较显著的40名学生作为实验中的被试。其中,每种学习风格类型包含10名被试。

实验中的被试都掌握了基础的计算机文化知识,例如,互联网的应用、通讯软件的操作和图象、文字处理软件的设计等。他们在大学一年级的时候,也学习了部分利用Flash软件设计动画的入门知识。

(2)测量工具

美国教育心理学家Kolb[8]对学习过程周期进行了独特的分析,他认为学习过程周期由四个相互联系的环节组成,即具体经验、反思观察、抽象概括和积极实践,但不同的学习者对这四个环节的偏爱是不一样的。根据学习者对学习环节的偏爱程度,Kolb划分出四种学习风格类型,它们分别是:以具体经验和反思观察为主的发散型,以抽象概括和积极实践为主的聚合型,以反思观察和抽象概括为主的同化型,以积极实践和具体经验为主的顺应型。

Kolb根据自己的理论观点设计了《Kolb学习风格调查问卷》,该问卷最早的形式包括九组单词,每组四个词分别代表学习的四个环节。这一问卷形式相当简单,易于操作使用,但一个突出的问题是,所列词汇孤立出现,缺乏语义情境,因而相当抽象,被试难以准确地把握每一词汇的确切意义。

后来,Kolb本人以及其他一些心理学家对该问卷进行了修订、扩充,使其在语词的表述上具体了些,便于被试把握其确切意义,本案例中采用的便是修订、完善后的《Kolb学习风格调查问卷》。

(3)实验过程

本次实验中的任务是要求被试在网络环境下,运用Flash软件进行一个简单动画的设计,动画包括10个不同的文字效果,每种文字效果是1分,满分是10分。

实验是在学校计算机实验室进行的,实验中将40名被试划分成了10个小组,每个小组中有4名被试,其中发散型、聚合型、同化型和顺应型各1人。每次进入计算机实验室一个小组,实验过程中,研究人员为被试提供了若干帮助其实现动画设计的辅助条件。首先,当小组中的被试进入实验室时,会被告知一个网站的地址,该网站包含了利用Flash进行动画设计的电子文档;其次,实验中被试具有观察其他被试计算机屏幕的权限;再次,被试可以随时利用通讯工具QQ与4名熟悉Flas设计的研究生进行在线交流。实验中还为每名被试配备了1名记录其在线学习行为的工作人员。

实验的持续时间是120分钟,开始时每名被试需接受20分钟的前测,即在没有任何帮助的情况下,独立进行该动画的制作。前测之后,有10分钟的休息时间。随之,每名被试将继续接受90分钟的后测,后测期间,被试可以通过QQ与研究生交流,调用其他被试的计算机屏幕以观察其制作过程,浏览网站中的电子文档或者利用Flash制作文字动画,而工作人员会记录下被试在后测中的讨论时间、观察时间、阅读时间和制作时间。最后,利用SPSS软件处理实验中得到的各项数据。

(4)研究变量

相对于Kolb学习风格周期的四个环节,研究者选择了被试在设计动画时,四种不同在线学习行为的持续时间作为实验中的研究变量。它们分别是具体经验阶段所倾向的在线讨论行为的持续时间,反思观察阶段所倾向的在线查看其他被试计算机屏幕的持续时间,抽象概括阶段所倾向的在线阅读网络电子文档的持续时间以及积极实践阶段所倾向的利用Flash制作动画的持续时间。

3 研究结果(即实验数据的处理)

本案例在实验数据的处理中,主要对学习风格类型、在线学习行为的持续时间、测试成绩三者之间的联系进行了量化分析。

(1)学习风格类型与在线学习行为持续时间的联系

学习风格类型与在线学习行为持续时间之间的联系,可以用单因素方差分析的方式来加以研究。从原始数据中研究者发现,所有的被试都将大量的时间用于在线制作,其平均值为55.9分钟。仅有5名被试用了1或2分钟的时间通过调用其他被试的计算机屏幕来观察其动画的制作过程,另外35名被试都没有花费时间来观察他人的计算机屏幕。方差分析的结果也显示出,不同学习风格的被试在在线制作时间和观察时间上,并没有表现出显著性差异。但不同学习风格的被试在在线讨论时间和阅读时间上,都表现出了显著性差异。

为了找出具体是哪些学习风格存在着显著性差异,本研究采用Scheffé事后检验的方法对在线讨论时间和阅读时间的数据进行了进一步分析。通过多重比较的方法发现,显著性差异主要来源于倾向抽象概括的聚合型、同化型被试与倾向具体经验的发散型、顺应型被试之间。也就是聚合型和同化型的被试花费了更多的时间用于在线阅读,而发散型和顺应型的被试则花费了更多的时间用于在线讨论。

(2)学习风格类型与测试成绩的联系

虽然本研究中的被试在大学一年级的时候学习过Flas设计的入门知识,但由于在两年多的时间里缺乏相应的实践练习,大多数被试已经遗忘了所学的动画设计知识。实验的前测中有33名被试没有设计出任何的文字动画效果,只有7名被试完成了1个文字动画效果的设计,这其中包括2名聚合型的学习者,1名发散型的学习者,1名同化型的学习者以及3名顺应型的学习者。另外,在实验的后测中也没有被试能够完成所有的10个文字动画效果。从前测和后测的成绩来看,实验中文字动画效果的设计任务对被试来说是有难度的。

实验中每个被试的测试成绩是通过后测成绩减去前测成绩得到的,其平均值为4.68分。为了分析学习风格类型与测试成绩的联系,研究者将每个被试的成绩归属为高分或低分之列。具体标准为高于5分的属于高分组,低于5分的属于低分组。最终,实验数据通过卡方检验(chi-square test)的方法处理。其结果表明不同学习风格的被试在测试成绩上并无显著性差异(χ2(3, N=40)=2.707,p=0.538)。

(3)测试成绩与在线学习行为持续时间的联系

研究者通过建立多重线性回归方程论证了测试成绩与在线学习行为持续时间之间的联系。其中,因变量是被试的测试成绩,自变量分别是在线讨论时间、观察时间、阅读时间和制作时间。从模型的测定系数看出,自变量的变化解释了因变量变化的60.8%,表1中列出了多重线性回归模型中回归系数的分析结果。

4 研究结论

(1)学习行为与学习风格类型的一致

在实验结果的分析中,研究者发现不同学习风格的被试在在线讨论时间和阅读时间上表现出了显著性差异,即聚合型和同化型的被试花费了更多的时间用于在线阅读,而发散型和顺应型的被试则花费了更多的时间用于在线讨论,这一点与Kolb的学习风格理论是一致的。Kolb认为聚合型和同化型的学习者具有抽象概括的特点,抽象概括的学习者注重对符号的理解,擅长在非人际环境中以及权威指导下的学习,因此,聚合型和同化型的学习者倾向于通过阅读网上提供的电子文档来学习动画的设计;发散型和顺应型的学习者具有依靠具体经验学习的特点,该类学习者强调由情感体验和实际经验而导致的学习,善于与学习伙伴间的沟通和交流,因此,发散型和顺应型的学习者倾向于通过QQ与擅长动画设计的研究生进行讨论,由此获得动画设计的方法。

另外,实验中不同学习风格的被试在在线制作时间和观察时间上,并没有表现出显著性差异,其原因可能在于实验环境的限制和实验任务的特殊性造成的。首先,被试感到通过观察其他被试的计算机屏幕来学习动画的设计是比较困难的,因此,绝大多数被试都没有花费时间来观察他人的计算机屏幕。其次,要完成该动画设计,被试不得不花费大量的时间用于动画的制作,所以,实验中所有的被试都花费了一半以上的时间用于动画的制作。

(2)测试成绩与学习风格类型的相关

过去的研究表明,不同学习风格的被试在利用计算机作为媒介进行学习时,呈现出不同的学习结果。例如,Henke等人[9]曾经宣称在基于计算机的学习中,聚合型和同化型学习者的学习结果要好于其他类型的学习者。然而,本研究中的数据经过卡方检验后,显示出不同学习风格的被试在测试成绩上并无显著性差异,这一点是出乎研究者预期的。同时,研究者也发现,虽然被试之间的测试成绩并没有显著性差异,但聚合型和同化型学习者测试成绩的平均值还是要高于发散型和顺应型学习者,这一点与表1中多重线性回归模型中回归系数的计算结果是一致的。从表1看出,在线阅读的标准偏回归系数是0.302,在线讨论时间的标准偏回归系数是0.009。数据表明在线阅读时间对测试成绩的影响比在线讨论时间大,也就是花费了更多时间进行在线阅读的聚合型和同化型学习者,其测试成绩的平均值要高于那些花费了更多时间进行在线讨论的发散型和顺应型学习者。

参考文献

[1] 瞿葆奎.教育学文集•教育研究方法[M].北京:人民教育出版社,1988:179.

[2] 谢艳.教育研究的两大研究取向初探[J].云南电大学报,2004,6(3):31-33.

[3] 张伟香.量化研究―一笔不可缺少的教研资源[J].教学研究,2008,(1).

[4] 叶澜.教育研究方法论初探[M].上海:上海教育出版社, 1999.

[5] 喻立森.教育科学研究通论[M].福州:福建教育出版社,2001.

[6] 鲜兰.论教育研究中量化研究与质化研究的结合[J].教学研究,2008,(2).

[7] 陆宏.网络教学中基于Kolb学习风格模型的实证研究[J].中国电化教育,2007,(3):41-44.