美章网 精品范文 数据挖掘学习计划范文

数据挖掘学习计划范文

数据挖掘学习计划

数据挖掘学习计划范文第1篇

[关键词] 数据挖掘 信息系统 决策支持系统

目前,随着计算机技术和通信技术的不断进步,制造型企业的信息化进程也不断前进,许多企业由从前各部门独立开发的信息系统,上升到现在的ERP,电子商务等先进综合的管理信息系统的应用,极大地提高了企业的核心竞争力,但这些系统基本上是为业务流程自动化而设计的OLTP应用,由此产生大量的业务数据,这些数据并不是各个业务部门管理人员所需要的决策支持信息,因而造成了“数据丰富,信息贫乏”的现象。如何从这些丰富的业务数据中获得知识,帮助制造型企业的各级管理人员进行科学的决策,让企业在日益激烈的市场环境下,能迅速地适应市场的需要并快速地做出响应,这成为了企业信息化工作的当务之急。

一、数据挖掘

1.数据挖掘简介。数据挖掘就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪音的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。它是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘涉及使用各种各样的算法来完成不同的任务。所有这些算法都试图为数据建立合适的模型,并确定与所分析数据的特征最符合的模型。在企业信息化中应用数据挖掘技术就是利用计算机技术高度自动化地分析企业信息化过程中积累的大量数据,做出归纳性的推理,从中挖掘出潜在的模型,预测客户的行为,帮助企业的决策者调整市场策略和生产计划,减少库存的风险,做出科学的决策。

2.数据挖掘的基本任务。根据发现知识的不同,数据挖掘的任务主要分为以下6类:(1)关联分析,揭示隐藏在数据之间相互关系的一项数据挖掘任务。(2)序列发现,是指确定数据之间与时间相关的序列模式,利用该模式可对未来的相关行为进行预测。(3)聚类分析,是指依赖样本间关联的量度标准将其自动分成几个群组,且使同一群组内的样本相似,而属于不同群组的样本相异的一组方法。(4)分类,是指找出一个类别的概念描述,它代表了这个类别数据的整体信息,一般用规则或决策树模式表示。(5)偏差检测,就是从数据分析中发现某些异常情况是否重要,从而获得有用的知识。(6)预测,就是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。

3.数据挖掘方法和技术。数据挖掘方法是由人工智能、机器学习的方法发展而来,同时结合传统的统计分析方法、模糊数学方法、科学计算以及可视化技术,以数据库为研究对象的方法和技术。数据挖掘方法和技术可分为六类:归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法和可视化技术。

(1)归纳学习方法。归纳学习方法分为基于信息论的方法和基于集合论的方法。①信息论方法,是利用信息论的原理在数据库中寻找信息量最大的属性来建立属性的决策树。②集合论方法,是根据数据库中各属性的元组集合之间关系来建立属性间的规则。主要用于分类问题。

(2)仿生物技术。仿生物技术典型的方法是神经网络方法和遗传算法。1)神经网络方法:模拟人脑神经元结构,依据人脑的工作方式进行建模的一种方法,其在半结构化和非结构化问题的分类及预测方面具有较大的优势。2)遗传算法:是模拟生物遗传进化过程,对选择、交叉及变异过程建立数学算法。遗传算法已在优化计算和分类机器学习方面发挥了显著的效果。

(3)公式发现。公式发现是通过在工程和科学数据库(由实验数据组成)中对若干数据项(变量)进行一定的数学运算,求得相应得数学公式,并用其来概括大量数据的方法。

4.统计分析方法。统计分析是通过对总体中的样本数据进行分析,得出描述和推断该总体信息和知识的方法,主要包括6类方法:常用统计,相关分析,回归分析,假设检验,聚类分析,判断分析。

5.模糊数学方法。模糊数学是反映人们思维的一种方式。将模糊数学应用于数据挖掘的各项任务中就形成了模糊数据挖掘。利用模糊集合论理论进行数据挖掘的方法有:模糊模式识别、模糊聚类、模糊分类。

6.可视化技术。可视化技术是一种图形显示技术。例如,把数据库中多维数据变成多种图形,便于揭示数据中内在本质以及分布规律。

二、数据挖掘技术在制造型企业信息化中应用分析

目前制造型企业信息化建设都以ERP理论为标准。ERP(Enterprise Resource Planning)企业资源计划是由美国GarterGroup Inc.咨询公司首先提出的,其主要宗旨是对企业所拥有的人、财、物、信息、时间和空间等综合资源进行综合平衡和优化管理,面向全球市场,协调企业各管理部门,围绕市场导向开展业务活动,使企业在市场竞争中全方位地发挥足够的能力,从而取得最好的经济效益。概括地说,ERP是建立在信息技术基础上,利用现代企业的先进管理思想,全面地集成了企业的所有资源信息,并为企业提供决策、计划、控制与经营业绩评估的全方位和系统化的管理平台。基于ERP理论的信息系统主要包括生产计划管理、质量管理、设备管理、采购管理、库存管理、销售管理、客户关系管理、成本管理和财务管理等几个主要的功能模块,同时各模块的信息被全面地集成在同一数据库管理系统中,以便各功能模块能方便地使用其他模块的信息。

1.客户关系管理中的数据挖掘技术应用。ERP理论强调面向市场,以达到最大的客户满意度为导向来决定整个企业的生产经营活动。因此在该模块中可以根据客户信息及客户购买产品的信息利用聚类分析方法,对客户的购买行为进行分类,从而获得哪些客户群对哪些产品有偏好,利用关联分析方法,分析客户购买了某种产品后是否还会购买相关的其他产品,便于营销部门制定针对性的营销计划,生产计划部门制定出有针对性的生产计划。

2.销售管理中的数据挖掘技术应用。销售管理系统主要完成制订销售政策,制订销售计划,合理分配分销资源(人员、库存与管理网络的营运),控制销售回款等工作。

(1)销售趋势及销售价格分析:根据历史销售数据利用神经网络、回归分析和时序数据挖掘等技术预测未来的销售趋势,帮助管理人员制订销售政策和销售计划,合理分配分销资源。

(2)信用评估和防止欺诈分析:利用神经网络、决策树等数据挖掘方法进行客户信用的分析,帮助管理人员控制销售回款。

3.库存管理中的数据挖掘技术应用。库存管理系统主要对计划存储、流通的有关物品进行相应的管理以满足生产和销售的需要。根据仓库信息及销售和生产计划利用神经网络、回归分析和决策树等数据挖掘方法预测未来库存,帮助管理人员进行库存量的控制。

4.采购管理中的数据挖掘技术应用。采购管理系统主要实现接受采购指示,选择供应商,下达订单,订单跟踪和验收货物等管理工作。在该子系统中,可以根据供应商的历史数据和采购物品的历史信息利用神经网络、决策树和时序数据挖掘等数据挖掘方法对供应商进行信用分析,进行物品供应的数量、价格以及供应时间的分析,帮助管理人员选择供应商及下达订单。

5.设备管理中的数据挖掘技术应用。设备管理系统通过对企业的设备与仪器台账的基本信息、运行情况、保养情况、故障和事故情况处理、设备使用部门的变动情况及有关备件管理等信息的管理,使各级部门能及时地了解设备从安装、使用、变动到报废等过程的信息。

6.质量管理中的数据挖掘技术应用。质量管理系统主要实现质量检验与控制,质量分析等功能。在该子系统中,可以根据质量标准和质量检验的历史数据,对质量问题进行聚类分析形成不同的分类,然后运用决策树技术形成规则,帮助系统对质量问题进行自动分类;利用关联分析方法分析产生质量问题的关联因素,帮助管理人员进行质量控制。

7.生产计划管理中的数据挖掘技术应用。制造型企业涉及的有关生产计划分为三种:综合计划(是销售计划与生产规划计划的综合考虑),主生产计划及物料需求计划,其中综合计划决定了主生产计划,主生产计划决定了物料需求计划。

三、基于数据挖掘技术的企业信息管理决策支持系统

基于数据挖掘技术的企业信息管理决策支持系统,其目的是从业务系统积累的大量数据中发现对企业各级管理人员所需的决策支持信息,并将其展现给系统的使用者。数据挖掘被认为是知识发现过程的一个特定步骤,它用专门算法从数据中抽取合适的模型,这些模型经过评估后成为有用的知识,人们使用这些知识对现有的业务数据进行分析和对未来的业务进行预测,从而达到决策支持的目的。基于以上讨论,一种基于数据挖掘技术的制造型企业信息管理决策支持系统基本结构框架如图所示。

本系统由人机交互模块、决策支持模块、模型管理模块、模型库、知识库和业务数据库或数据仓库组成。

1.业务数据库或数据仓库。业务数据库是企业业务管理信息系统建立的数据库,数据仓库是将分布在企业中多个业务管理系统中的数据进行抽取、清洗、转换,并按决策主题的需要进行重新组织,形成面向主题的、集成的、稳定的、不同时间的数据集合。它们都可作为数据挖掘的数据源。

2.模型管理模块。数据挖掘模型的构造是一个不断调整的过程,例如一些数据挖掘方法,需要利用样本数据进行有指导或无指导地自学习过程才能得到可用的知识模型,同时知识模型也并不是一成不变的,随着时间的推移,数据的变化,需要进行调整以适应新的环境。该模块主要用于构造和维护数据挖掘模型,对数据挖掘模型进行评估,最终得到用户可以使用的知识模型。

3.决策支持模块。根据用户的需要,在决策支持模块中,利用相应的知识模型,对相应的数据源进行分析和计算,并将结果通过各种可视化的工具和图形用户界面展现。

4.模型库。模型库用于存储实现模型算法的子程序、模型的结构参数文件、有关的样本数据文件、学习结果文件及学习误差文件等等。

5.知识库。知识库中包含了在解决问题时所用的知识。即那些既不能用数据表示、也不能用模型描述的专门知识和历史经验。知识库中除了专家提供的知识,还包含在数据挖掘过程中得到的知识。知识库中的知识可对数据挖掘过程不断地提出指导和改进,同时对于挖掘结果和分析结果的有价值信息也会及时地输入知识库中存储,还可以向前台的人机交互界面直接输出知识模式。

6.人机交互模块。人机交互模块是决策支持系统的人机交互接口,它负责接收和检验用户的请求,为决策者提供信息收集、问题识别以及模型构造、使用、改进、分析和计算等功能。

本文在介绍数据挖掘概况的基础上,讲述了这门技术在制造型企业信息管理系统中应用的可能性及其应用特点。数据挖掘技术作为一门新兴技术为制造型企业信息化管理提供决策支持提供了一种有效、可行的解决方案。随着数据挖掘技术和网络技术的发展,数据挖掘技术在制造型企业信息管理中的作用将会推向一个更高的层次,分析、决策及知识处理会从一台机器上的集中式处理,变成在网络环境下的分布、或分布再加上并行的处理方式。这些变化将会为制造型企业信息化作出贡献,为企业带来巨大的经济效益。

参考文献:

数据挖掘学习计划范文第2篇

关键字:Web日志挖掘;网络教学;个性化

中图分类号:G420文献标识码:A文章编号:1672-3791(2012)02(c)-0000-00

1 引言

随着计算机技术和信息技术的发展,以网络为载体、利用数字电子化方式开展的教学活动逐渐成为了目前最为重要的教学形式,这种教学形式的真正优势在于能为学习者个体提供个性化的学习安排,而这种个性化的教育服务也势必会进一步促进网络教学的发展。

2 Web数据挖掘

Web数据挖掘,是在Web环境下数据挖掘技术的应用,是从Web的超链接结构、网页内容和使用日志中提取有用的模式和隐含信息。Web上信息的表现具有多样性,这也就决定了Web挖掘任务同样也具有多样性。根据处理对象的不同,Web挖掘一般可以分为Web内容挖掘、Web结构挖掘和Web日志挖掘三类。本课题重点研究Web日志挖掘。

Web日志挖掘的主要任务是从Web的服务器日志中抽取有意义的信息和模式。Web日志挖掘处理的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括网络服务器访问记录、服务器日志记录、浏览器日志记录、注册信息、用户对话等。对这些数据进行挖掘和分析可以帮助理解用户的行为,进而改进载体站点的结构或者为用户提供个性化的服务。那么在网络教学中应用Web日志挖掘就可以通过挖掘相应站点的日志文件获取学习者的访问内容、停留时间、访问频度等,从而发现其学习访问模式等有用信息,进一步提升整个网络教学的品质。

Web日志挖掘的研究围绕着分析Web站点性能、理解用户意图和改进Web站点设计三个应用方面进行,常用的技术主要有统计分析、关联规则分析、序列模式分析、聚类与分类分析等。Web日志挖掘一般分为数据预处理、模式发现和模式分析三个基本阶段。

2.1 数据预处理阶段

服务器端数据、客户端数据和服务器端数据收集都是Web日志挖掘的数据源。数据预处理阶段的主要任务是将各种数据源得到的使用信息、内容信息和结构信息转换成适合数据挖掘和模式发现所需要的数据模型。数据预处理是在将日志文件转化为数据库文件之后进行的,是为了得到可用于挖掘的可靠和精确的数据。这个过程一般分为数据清洗、用户识别、会话识别和路径补充4个步骤。

1)数据清洗是指删除日志文件中一些与挖掘任务无关的数据,包括删除、合并某些记录,处理用户请求访问失败的记录等内容。2)用户识别的主要任务是处理多个用户通过服务器或防火墙访问站点的情况,是将用户和请求页面相关联的过程。3)会话识别的任务就是把属于同一个用户的同一次访问请求识别出来,也就是将用户的访问记录划分成单个的会话。一般采用超时识别。4)路径补充就是根据引用日志和网络拓扑结构把访问日志中没有记录的用户补充到用户会话文件之中,确保获得用户完整的访问路径。

2.2 模式发现阶段

模式发现阶段是Web日志挖掘的核心部分。经过数据预处理之后,应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术等,来处理“消噪”后的数据,最终发现用户的访问模式和规律。

2.3 模式分析阶段

Web日志挖掘的最后一步就是模式分析。通过模式挖掘之后,生成的规则数目庞大,表达晦涩,得不到很好的利用,这就需要对模式发现过程产生的规则和模式进行过滤,通过模式分析和应用技术处理之,选择用户易于理解和棘手的方式显示出来。常用技术有可视化技术、联机分析技术和智能查询机制等。

3 网络教学中的Web数据挖掘方法

3.1 关联分析

关联分析是寻找在同一个事件中出现的不同项的相关性。关联分析发现关联规则,运用在Web挖掘环境中的关联规则是指发现用户会话中经常被用户一起访问的页面集合,这些页面之间没有顺序关系。购物篮分析就是一个非常典型的关联规则应用,该应用通过发现顾客放入“购物篮”中不同商品之间的联系来分析顾客的购买习惯。在Web中,关联规则作为启发式规则,可以发现学习者对内容页面之间的访问关系,调整页面之间的结构关系,预测学习者可能访问的内容,使其最快捷地访问到感兴趣的内容。在网络教学中就可以利用关联分析寻找各门课程之间的内在联系,根据A课程与B课程在一起浏览的情况,推导出A和B在一起是起着积极作用还是负面影响,进而可以选定课程之间的关联,及时制定策略建立或删除A和B课程之间的关联。

3.2 分类分析

分类分析是预先定义好几个类,然后将数据项映射到某个类中去。在Web日志挖掘中使用分类能够将用户配置文件归属到特定的用户类别,建立数据各特定类别的用户概图。例如把学生的知识能力水平分成入门级、初级、中级和高级,利用分类技术将学习者投射到某一个级别中,为每个级别提供相应的个性化资源和学习支持服务,还可以用于远程协作的学习小组分配。可以利用有监督的归纳学习算法来实现这种分类。

3.3 聚类分析

分类与聚类是不同的两种方法,分类中的类及相关属性是预先定义好的,其目的是运用分类算法将没有划分类别的数据标记为特定的类标号;而聚类中的类别事先并没定义,其目的是将大量的个体数据,根据属性之间的相似性,将原始数据集合划分为若干个子集。在网络教学中聚类是一个重要的方面,它帮助网站设计人员从用户数据库中发现不同的用户群,并且用学习模式来刻画不同的用户群的特征。通过聚类分析可以帮助网站设计者更好地了解自己的用户,使教学活动能够在一定程度上满足学生的要求。

3.4 序列模式分析

序列模式指在事务之间寻找相应的时序关系,在时序数据集中发现在时间上具有先后顺序的数据项。根据序列模式的特点,利用序列模式分析技术我们可以对用户的浏览趋势进行分析,在网络教学中学生的课程学习是循序渐进的,且具有一定的关联和前后顺序,进行序列模式分析可以预测学生的未来访问模式,且有助于针对特定用户群安排特定内容,可以解决远程教育中针对各种层次学生进行因材施教的问题。

4 基于Web挖掘的个性化网络教学系统

网络教学作为一种基于Web的,以远程方式进行的教学活动,打破了过去教师、学生面对面、共集一堂的时间和空间的限制,使更多的人能够享受到有限的社会教育资源,而引入个性化后的网络教学将是一个智能化的系统,可以更多且及时地了解到学生的状况、需求、能力差异、学习进度、兴趣爱好,并动态地根据这些因素调整学习计划及进度,让学生得到针对其个性化的教育。

4.1 系统模型

基于Web挖掘的个性化网络教学系统设计思想是:通过获取学习者在Web上的个人信息、学习行为信息和Web日志数据,如访问频度、内容、访问时间长短及偏好,经过数据预处理、模式发现找出有用的规则和模式进行综合分析,结合教学资源知识库的信息,得出学习者学习过程的一般模式规律,对学习内容和进度进行自动组合,重构页面间链接,为学习者提供良好的个性化服务,使学习者更好地发展自我。根据上述的设计思想,提出一种基于Web日志挖掘的个性化远程教育系统模型,如图1所示。

4.2 系统结构

4.2.1 数据预处理模块

数据预处理模块负责对服务器端的访问日志进行预处理,以得到满足Web日志挖掘要求的事务数据。主要是根据挖掘任务进行数据清洗、用户识别、会话识别和事务识别。

1)数据清洗 数据清洗是整个预处理的基础,主要是将有噪声的、不一致的、冗余的数据从Web访问日志中清除或合并。可以采用纵向缩减和横向缩减进行清洗,例如当学习者对某个页面发出访问请求时,这个页面中的图形、脚本、图像等资源就会被自动下载,并写入日志数据中,但在网络教学网站中,只有包含教学内容的HTML文件与用户会话有关,而后缀名为.jpg,.gif和.jpeg的图片文件,后缀名为.wav的音频文件以及后缀名为.js和.cgi的脚本文件都属于噪声信息。这时我们就可以利用纵向缩减中的后缀过滤法进行数据清理。2) 用户识别 用户识别是为了得到同一用户访问的所有路径的集合。用户识别在对用户进行访问模式挖掘或聚类分析时尤为重要,因为群体是由个体组成的,只有对个体有了详细的认识才能清楚地识别群体特征。3)会话识别 一个会话是学习者从进入到离开网络教学站点这段时间内的一组网页访问,可以根据学习者登陆系统、完成学习、最后退出的过程来识别会话。Web日志中存储着大量的访问信息,时间跨度大,一名学习者可能在此期间多次访问了该站点,那么会话识别的意义就在于可以将不同时间段内的学习者访问区分开,将学习者多次访问的页面划分成多次用户会话。会话的划分有多种方法,有基于时间划分的,有基于站点拓扑结构划分的。而最为常用的方法就是通过设置一个用户在站点的持续时间或页面停留时间阈值来识别用户会话,如果请求时间超过阈值则认为新会话开始。4)路径补充:由于本地缓存和服务器缓存的存在,使得难以识别学习者访问的网页序列,而路径补充就是补全那些不完整的学习者访问序列。路径补充可以遵循一些原则,比如通过在网页的标志中设置过期时间,使得本地缓存失效,这样就可以保证Web日志记录中保存了用户的真实访问路径;还可以结合访问日志、引用日志、日志和网站拓扑结构来实现路径补充。在完成数据预处理之后会就能得到网络教学系统中的Web访问事务数据库,学习者对网络教学站点的访问情况都将存储在Web访问事务数据库中,每一个事务是一组内容页面的集合,代表着学习者一次有意义的访问。

4.2.2 Web挖掘引擎模块

在Web事务库中已经存储了数据预处理的结果,下一步就可以离线利用统计分析和聚类方法进行Web事务库挖掘。

1)统计分析 统计分析是Web挖掘中最基本的方法,也是分析用户行为最常用的方法。通过记录学习者经常访问的URL,跟踪统计学生访问次数、总停留时间、该学习者的课程数、计算学习者对哪些课程停留时间较长等,得到学习者的学习特征风格,建立和完善学习者学习模型,建立学习者个性数据库,为不同的学习者提供合适的学习策略提供帮助。2)聚类分析 将物理或者抽象对象的集合分组成为类似的对象组成的多个类的过程称为聚类,其目标就是在相似的基础上收集数据来分类。聚类分析不需要预先定义类的特点或属性,而是从用户的访问行为中发现潜在性的知识,从而能更好地体现智能性。页面(资源)聚类和学生聚类是实现个性化网络教学最为重要的两种方法。如果通过聚类发现若干个网页属于同一网页(资源)聚类,当学生访问其中一页(资源)时,可推荐类中其它页面(资源)。当学习者具有相似的学习习惯或学习兴趣时,可以利用学生聚类法对他们提供相同的个性化服务。

4.2.3 知识库应用模块

应用统计分析、关联规则分析、分类和聚类技术和序列模式等挖掘算法对Web事务库进行了挖掘和分析,其结果存放在知识库中,此时网站设计者可利用知识库中的信息和模式为学习者提供合适的学习策略和学习建议,进一步改进网站结构,实现真正意义上的个性化信息服务。

5 结 语

Internet技术的发展和网络的普及扩展了数据挖掘的应用范围,利用Web数据挖掘技术对网络教学网站上的各种数据源进行挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。

参考文献

[1] 冯春辉.Web日志挖掘在网络教学中的应用研究.计算机技术与发展,2010,6.

[2] ,丁华福,姜伦.Web日志挖掘中数据预处理技术的研究.计算机技术与发展,2010,5.

[3] 李中,苑津莎,徐小彩.基于Web日志挖掘的客户访问兴趣分析.华北电力大学学报,2009,5.

[4] 苏新宁,杨建林,等.数据仓库和数据挖掘.清华大学出版社,2006,4.

[5] 李燕风.Web访问信息挖掘系统.计算机工程,2003,29(15).

[6] 张娥.Web使用模式研究中的数据挖掘.计算机应用研究,2000,3.

[7] 韩晓红.网络教学的特点与模式[J]. 甘肃高师学报. 2004(02).

[8] 许晓非,高尚,常桂然,刘积仁.基于Web的远程教育学习环境[J]. 小型微型计算机系统. 1999(09).

数据挖掘学习计划范文第3篇

关键词:数据挖掘;关联规则;个性化学习系统

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2012) 15-0000-02

1 绪论

2010年5月6日,我国国务院常务会议审议并通过了《国家中长期教育改革和发展规划纲要(2010-2020年)》(以下简称《教育规划纲要》),标志着中国新的教育改革的开始。

《教育规划纲要》提出“大力发展现代远程教育,建设以卫星、电视和互联网等为载体的远程开放继续教育及公共服务平台,为学习者提供方便、灵活、个性化的学习条件”。

基于这一思想,我们申报了“基于数据挖掘的网络教学决策支持系统研究”项目研究课题,探索并构建了基于数据挖掘技术的网络教学模式,并在现代远程开放教育实践中进行了应用尝试。

今天,数据挖掘技术在国外的大型商业、金融业、保险业、民航等大型企业得到了广泛应用,其中,Web挖掘在电子商务上的应用是目前最成功的,我们常常访问的京东、当当等大型商务网站均能看到数据挖掘的影子。Web挖掘为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。

目前国内外远程教学平台在利用数据挖掘技术分析学生访问记录,优化Web站点拓扑结构,从而给学生提供动态的个性化的高效率学习支持服务方面做得比较少,大多数网络教学平台只是简单利用了一些数据统计功能等,对数据的分析不够深入,不能提供完善的个性化支持服务。这是因为数据挖掘作为一个新兴领域,在实际应用当中仍存在许多尚未解决的问题,有很多问题需要深入研究,我国在这一领域已有专家在从事研究工作,但应用和产品相对滞后。

2 Web数据挖掘

首先看看什么是数据挖掘,通俗地说,数据挖掘就是从数据中发掘信息或知识,有人称为知识发现(KDD),也有人称为数据考古学、数据模式分析或功能相依分析。

数据挖掘应用于Internet,于是就有了Web数据挖掘的产生。Web挖掘是利用数据挖掘技术从大量的Web数据中发现有用模式和信息的过程。

Internet包含了丰富和动态的链接信息,以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源,与传统数据比较,Internet上的数据有其独有的特点。如:Web数据庞大、Web页面复杂性大、Web信息是动态的等。

Web数据挖掘的技术主要有频繁模式挖掘、序列模式挖掘、聚类分析、路径分析等。

3 需求分析与系统搭建

网络教学系统是现代远程教育的方向,教学决策支持系统在其中扮演着重要角色。我们的基于数据挖掘的网络决策支持系统,主要包括以下功能:

3.1 学生学习功能

基于Web的在线学习、在线自测、在线作业等功能。

3.2 课程管理功能

提供给课程教师进行课程管理所需各种功能。如资料管理、作业布置评改、学习评测、学生评价等。

3.3 统计挖掘功能

统计查询功能主要对学生的数据进行统计查询,建立起完整的学生学习个性模型,进行个性化界面定制,可为用户提供智能化、个性化服务。

3.4 其他

权限管理功能、BBS论坛、质量评价等。

在我们的平台设计中,系统开发环境的选择要求是目前流行的开发技术手段同时又要求经济可行。所以免费开源成了我们的首选。我们系统软件环境搭建为Apache服务器+PHP+Winxp+Mysql数据库。

PHP是:Hypertext Preprocessor(超文本预处理器)的缩写,它是一种服务器端的HTML脚本/编程语言,支持几乎所有流行的数据库以及操作系统。

MySQL是最受欢迎的开源SQL数据库管理系统。是一个快速、多线程、多用户的SQL数据库服务器,PHP的首选数据库。MySQL可运行在不同的操作系统下。

Apache是世界排名第一的Web服务器,它为我们的网络管理员提供了丰富多彩的功能,如果您在Windows系统上成功安装配置了Apache之后,您的计算机也将随着Apache的生效而摇身一变,成为一台名副其实的Web Server。

4 数据挖掘处理模块的实现

Web挖掘的主要由以下几个基本步骤完成:数据收集、数据预处理、模式识别、模式分析。

数据的收集是根据用户的需要从原始数据库中选取数据,Web服务器的日志文件详细地记录了用户的浏览行为。

数据的预处理是保证数据挖掘质量的关键。首先进行数据清理,主要包括进行冗余数据的清除,以及对错误数据和缺失数据的修复,比如去除访问中的广告链接、图片链接等信息,将其转化成适合模式发现的、具有良好格式的数据抽象;第二步是识别用户,想要识别出每一个用户变得很复杂,一般采用的方法包括Cookie技术,启发式规则等;第三步是会话识别,会话识别的目的是把属于同一用户的同一次访问请求识别出来;第四步是路径补充,路径补充的主要目的就是将漏掉的用户访问请求补充到用户会话中,通常采用站点的拓扑结构结合引用页的方法进行路径补充。

模式识别:是对预处理后的数据用数据挖掘算法来分析数据。首先确定挖掘的目的是进行分类、聚类、关联规则发现等,确定了任务再决定使用的挖掘算法。

模式分析:解释并评估结果,对数据挖掘得到的知识结果进行分析,将经过模式分析得到有价值的模式,采用可视化技术,以图形界面的方式提供给使用者。

平台设计时,我们将平台分为在线和离线,在线部分向学生提供访问页面,提供服务,信息处理则为离线,进行后台数据挖掘。如图1.1所示。

5 数据挖掘对平台决策的支持

数据挖掘功能应用于网络教学平台,能够实现学生学习的个性化。在学校,课程的学习是循序渐进的,学习的课程也有关联。同一年级学习的不同班级、同一班级的不同学生,由于授课方式、学生基础的不同,成绩结果相差很大。利用教学平台中存放的历史学习记录和历史成绩,结合关联规则挖掘,聚类挖掘等技术,找到一条最佳学习路径,因材施教,对课程学习做出合理安排。

数据挖掘技术对网络平台的优化提供了数据支持。利用数据挖掘的关联规则,寻找教学平台页面间的内在联系。可以在学习者访问A网页时,根据关联规则结果,向其推荐页面C。平台还可以提前将页面C下载至用户缓冲,加快浏览速度。

6 总结与展望

与原来的电大在线比较,网络决策支持系统的优点主要在于强调远程教育的网络学习过程;强调教师与学生、学生与学生或学生与资源的互动;强调网络学习的环境建设,强调个性化学习支持,强调网站结构的合理。

WEB日志挖掘的理论研究及实现技术涉及多方面的理论、方法和技术,由于本文主要是针对自适应站点建构的可行性研究,因此对算法的要求主要是算法正确、可行,对于系统的完善、资源的优化和服务器优化设计等在今后需要更深入的研究。

参考文献:

[1]刘上力,赵劲强,聂勤务.Web使用挖掘中的数据预处理方法[J].郑州轻工业学院学报,2010,4(8):23-27

[2]焦李成.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社,2006,8

[3]朱晋华,陈俊杰.Web日志预处理中会话识别的优化[J].太原理工大学学报,2008,2(4):34-36

[4]刘加伶,范军.基于用户访问树的Web日志挖掘数据预处理[J].计算机科学,2009,4(8):13-16

数据挖掘学习计划范文第4篇

关键词:学校教学;数据挖掘技术;应用

中图分类号:G632文献标识码:A文章编号:1009-3044(2012)17-4177-03

1数据挖掘技术

数据挖掘始于上世纪90年代,是一门发展速度较快的交叉学科,数据挖掘技术包括人工智能、神经网络、数理统计、模式识别、数据库、粗糙集等技术学科,数据挖掘能够从大量数据中挖掘到隐含的、未知的、用户可能感兴趣的、对决策存在潜在价值的知识及规则,数据挖掘过程又称为知识发现,基本功能主要为分类、估计、预测、关联分组、聚类、建档、描述等。数据挖掘的对象较多,主要包括数据库、图像等各种结构化和非结构化的信息、文本等,有时无法直接对其进行分析,因此要通过以下步骤进行:第一,选择数据。数据挖掘过程中所有需要的数据来源可能都不相同,可以通过不同的异数数据源来获取数据;第二,预处理。在初始数据中,会有一些不符合形式处理或是出现偏差的例外,因此要对这些数据进行修正和剔除,为后期数据处理的正确性奠定基础;第三,变换。将不同数据源获得的数据转换为同一种格式,可以利用编码或是其他一些方式来简化表示形式;第四,数据挖掘。利用数据挖掘算法,对变换之后的数据进行挖掘并产生期望的挖掘结果;第五,解释或评价。将数据挖掘之后的结果用适当的方式移交给用户。

数据挖掘技术的应用十分广泛,在电信业、农业、工业、金融业等各个领域都得到了广泛的应用。数据挖掘方法主要为关联规则、决策树、聚类分析以及遗传算法、神经网络等,关联规则和决策树是使用频率最多、范围最广的两种方法。关联规则是数据挖掘最先研究的问题之一,也是数据挖掘中最成熟、最主要的分析方法之一,能够揭示出数据之间的隐含关系。关联规则首先要对数据库中的一组对象进行关系分析,然后通过置信度和支持度来进行筛选,最后得出被认为具有价值的事实或是规律,例如购物篮的分析中,通过对销售数据的分析发现一些客户的购物习惯及规律。利用关联规则最经典的是由R . Agrawal , Hnielinski , Swam等人在1994年提出的Apriori算法,在生成特定关系候选项目集的基础之上,对数据库进行扫描,并确定候选项目是否满足要求。

决策树算法主要用来解决分类问题,通过对数据进行归纳和学习,将分类过程在构建的一棵树上进行建模,完成后,便能够应用在数据库中的元组得到分类结果,树中每一个内部节点都表示了一个属性值的检验,分支便表示检验结果,树的叶节点代表类别。

通过上文的分析可知,数据挖掘技术具有以下特点:第一,数据处理规模较大;第二,挖掘出的知识无法预知;第三,在发现潜在规则的基础上,要维护并管理规则;第四,规则的发现是在大样本统计规律的基础之上,且当置信度达到某一标准时,便认为规则成立。

2常用的数据挖掘技术

2.1关联规则

关联规则是指各个数据项之间相互依存的关系,发现规则的任务为从数据库中发现一些置信度、支持度大于定阈值的强关联规则,在大型数据库中,每个字段之间都存在着多种多样的关系,且都隐藏在数据库包含的信息中,关联规则的目的即为找出数据项之间隐藏关系。用来描述关联规则挖掘问题的数据模型为:令I={i1,i2,i3,……,in}为属性可能取值,也称为数据项集,模型中ik(1≤i≤n)为数据项,I中的元素个数即为数据项集的长度,如果长度为n的数据项集,便成为n维数据项集(n-Item-set)。例如关联规则的蕴含式为XY,且X,Y包含于1,且X∩Y=ψ,则规则XY在事务集合D中成立。一般情况下,用置信度和支持度来描述规则属性:置信度指如果D中包括C%的X事务,且同时也包括Y,则C是关联规则XY的置信度,置信度即为出现了数据项集X的事务中,Y相集同时出现的改了,置信度C%=The number of Transactions(X∩Y)/The number of Transaction(X)。换言之,只要数据库中出现了X,那么Y出现的可能先变为C%;支持度指如果D中有S%的事务既包括数据项集X,也包括数据项集Y,那么S%即为关联规则XY的支持度,支持度S%=The number of Transactions(X∩Y)/The number of Transactions(D)。支持度越大,便说明X和Y在数据库中出现的机会越大。本着发现有意义关联规则的原则,需要给出两个阈值——最小支持度和最小置信度。关联规则对给定事务集合D中所有产生满足最小支持度及最小置信度的关联规则进行挖掘,可将关联规则挖掘分为两个子问题:1)根据最小支持度,找出在数据集D中所有出现的频繁项目集,此为关联规则挖掘的中心问题,也是衡量关联规则算法的一项标准;2)根据频繁项目集以及最小置信度来形成关联规则。

2.2决策树算法

决策树算法是较为常用、直观、快速的一种分类方法,决策树算法即创建一个树状结构,根据不同层次对结点进行分类,每个节点都对应一个样本集,根节点要对应整个样本集,内部节点应对应一个样本集,叶节点对应一个类标志,然后根据结点包含的样本属性进行测试,并依据测试结果,将样本集进行划分,划分出两个或两个以上的子集,每一个子集生成一个分支,并用测试属性值来对分值进行标识,叶节点包含一个类标志,表示与之相对应的样本集类别。常用的决策树计算方法有:1) ID3算法,此为最著名的一种决策树算法,采用的是贪心搜索选择分裂的特征和信息理论;2) C4.5算法,此为ID3算法的改进,也是基于信息增益比的特征选择策略以及最小描述长度的剪枝方法的首次提出,增加了缺失数据以及对连续性属性的处理策略,并对分类规则的推导方法进行提出,对连续性属性采用的是安全搜索二分法,对于离散型属性,采用的是多分法;3) EC4.5算法,此种算法是C4.5的改进算法,在效率上较C4.5有一定的提高。除此之外,决策树算法还包括很多其他算法,在处理不同的数据库数据时,要结合数据库特征来选择算法。

2.3聚类分析算法

一般情况下,人们对事物进行认知采用将认知对象进行分类的方法,分为同一类的事务一般都具有较多的相似特征,聚类的任务即在没有训练数据样本时,根据对象自身相似性将一组对象划分成为一系列具有意义的子集。经常使用的聚类划分方法为:K-means算法、PAM算法以及CLARA算法和CLARANS算法等,较为经典的聚类分析算法为K-means和扩展算法,即将对象D划分为一组聚类{C1,C2,……Ck},始终K是要得到的聚类个数,此种算法将一个对象最多分为一个聚类,每一个聚类都是全体对象的子集之一。聚类指本着找到一组聚类中心及隶属矩阵的目的,让目标函数值趋近于最小,因此为了能够解决函数值最小的问题,可以采用K-means中的爬山算法,即首先随机选择K个初始聚类中心,将每一个对象都分配给离它的据点,得到一组聚类,然后对当前每一个聚类中心进行计算并作为新聚点,将每个对象重新进行分配,分配要离对象最近的聚点中,如此循环计算,直到满足终止条件位置。

3数据挖掘技术在学习特征分析中的应用

在现代教育理论的指导下,教学设计是一套能够促进学生学习、发展的系统化程序,也是在教学问题求解过程中,侧重和问题求解中方案的决策、寻找过程,其中,学习者的学习特征分析是重要的组成部分之一,我们所说的学习特征,即学生的学习风格、习惯、准备状态等,虽然和具体学科的内容并没有直接联系,但是对教学者的内容组织、选择,教学方法的选择等都能够产生一定影响,因此通过对学习者的学习特点进行分析,能够明确学生的初始能力,从而确定下学习的起点,为选择教学内容、方式方法提供参考。在利用数据挖掘技术对学习者学习特征进行分析的过程中,首先要对于学习者相关的信息和数据进行收集并整理,然后本着提高学习能力、规范学习行为、帮助学习者的目的来选择数据挖掘的方法,例如关联规则法或是决策树法,根据对学习者信息和数据的分析,能够挖掘到学习者的学习风格、习惯等,通过与教学专家进行交流或寻求帮助,能够利用数据挖掘法挖掘到的规则来确定质量的好坏,可以采用聚类分析法来对学生进行分类,然后根据结果对学生再次进行关联规则法的挖掘,或是决策树法的挖掘,便能够了解学生未来发展方向,指导学生进行专业或课程的选择,对具有潜力的学生进行激发,提供一些锻炼和学习的机会,有针对性的、实际性的进行教学,从而培养出不同层次、不同方面的人才。

4数据挖掘技术在教学决策中的应用

利用数据挖掘技术来辅助教学过程中的决策,主要表现在以下方面。

4.1合理设置课程

合理设计课程,即将课程之间的结构安排合理,包括开设的课程、课程的先后顺序、课程之间的衔接等,通过将课程进行合理设置,能够让学生通过学习课程,具备相应的知识和能力。由于课程的开设本身就具有一定程度的潜在关联和顺序,因此通过数据挖掘技术能够将潜在关联、顺序进行明确,从而找到设置课程的依据,调整课程之间的顺序,达到最佳教学效果。

4.2改进教学方式方法

在教学过程中,教师会通过运用各种方式方法来完成教学任务,并达到最佳教学效果,但是何种教学效果才算是最优效果,何种方式方法能够达到最优效果还尚不明确,因此要通过对积累的大量教学数据进行数据挖掘,来明确教学的方式方法及效果。利用数据挖掘技术的分类和聚类方法首先对学生的具体情况进行分析,然后利用回归线和关联规则的方法来判断不同专业、特征的学生应当采取怎样的方式方法进行教学,以及教学内容的深度和广度等,让教师能够通过数据挖掘技术,了解不同教学对象应当使用的教学方法、内容、手段等,用发展的眼光来看待教学方法,不断更新教学手段,激发起学生的学习兴趣,从而提高教学质量。

4.3合理化考试

考试作为教育教学活动中的重要环节,能够检验学生知识和能力的掌握理解程度,随着教育改革进程的不断加快,考试也应当随着教育的不断发展而变化,教师在教学过程中不能因为考试而教学,也不能因为教学而考试,考试仅仅是教学活动中的一个组成部分。考试的内容和方法要根据教学的目标、内容、方法来确定,因此想要让教学和考试能够和谐发展,相互促进,共同提高,就必须要利用数据挖掘技术来辅助教学决策,提高评价、考试的合理化。

5数据挖掘技术在教学评价中的应用

所谓教学评价,即根据教学目标中的要求,通过测量的工具或方法对学生学习结果进行量化描述,并对量化结果进行价值判断。教学评价是教学管理中的重要环节之一,也是引导教育、利用教育成果、促进教育发展的重要保障,但是在传统的教学评价方法中,有许多缺陷,主要表现为:第一,主观因素过多,无法真实反映出客观实际问题,由于教学管理部门采用的评价手段并不全面,因此获得的教学评价数据也并不充分,多数教学管理部门都依据经验来进行评价,让自身的主观因素来决定评价的结果;第二,内容和形式过于简单,无法反映出教学中深层的问题,在内容方面,统计出来的数据不够全面,直接或间接的影响教学效果的因素,如学生的基础、教学的环境、课程的设计等都没有表现出来,且在形式上也较为单一,多采用学生打分、网评、教师互评、考试成绩等,因此,制定评估指标时,也忽视了对以往数据中隐藏信息的利用,导致教学评估评价的制定没有历史依据,仅仅是单纯某次评估的结果,无法反映出分析数据的结果,以及教学过程中存在的问题;第三,无法起到教学评价应当具有的作用,通常来讲,教学评价仅仅为了评优、晋升等活动的依据,但是实际上,教学评价的作用远不仅如此,客观的、良好的教学评价能够在教学过程中发挥出积极的、正面的作用,并能够在整体上调节、激励、促进、控制教学活动的进行,保证教学活动能够实现最终目标。因此,通过数据挖掘技术对学生成绩、基本信息、评价信息中的数据进行处理,能够进行深层的数据分析,并发现各因素之间的关联性关系,从而找到隐藏的规律以及对教学效果产生影响因素之间的关系,综合的评定、评价教学成果,保证评价的全面、多元、科学、可靠以及客观公正,促进教学水平和质量的整体提高。总之,建立起合理的教学评价体系,能够强化学校教学管理,提高教学质量,促进教学基本建设,促进专业课程建设,促进师资队伍建设,从而提高学校凝聚力,增强学校竞争优势。

6结束语

综上所述,我们可以通过利用数据挖掘技术来明确各个要素之间的隐藏关联关系,通过将数据挖掘技术应用在学校教学中,能够挖掘学习者的学习特征、辅助教学决策、帮助教学评价。笔者在对数据挖掘技术进行分析和研究的基础之上,首先对两种常用的数据挖掘技术——关联规则和决策树进行叙述,然后针对数据挖掘技术在学校教学中的应用提出一些个人观点,相信在不久的将来,数据挖掘技术能够代替以往传统的数据分析技术,帮助学校教育适应现代化教育的潮流,紧跟现代化教育的脚步,提升学校教学水平。

参考文献:

[1]李瑞林.数据挖掘技术在教学过程中的应用[J].制造业自动化,2010,9(73).

[2]唐仕敏.数据挖掘技术在高校教学中的应用[J].产业与科技论坛,2011,1(38).

数据挖掘学习计划范文第5篇

关键词:R语言;数据挖掘;C4.5;Cart

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)28-0016-03

随着互联网社交网站的繁荣和各种网络应用的不断深入,社交网站已成为互联网上的重要平台应用。伴随社交网络的发展,不同地域、性格和特质的用户群展现出了差异化的需求,面对这些群体和用户需求,如何细分市场识别并提供差异化的服务,以帮助企业在激烈的竞争中保持老用户,发展新用户。本文围绕社交网络理论和客户细分理论的研究,运用数据挖掘工具中的决策树算法,对社交网络客户细分进行了深入的探讨并最终得出可指导时间的社交网络客户细分规则。

1.1 R语言

R是一种在数据统计领域广泛使用的语言,R语言是一种开源语言,该语言的前身是S语言,也可以说R语言是S语言的一种实现,R在语法上类似C语言。R是一个统计分析软件,既可以进行统计分析,又可以进行图形显示。R能进行复杂的数据存储和数据处理,利用数据、向量、矩阵的数学方法进行各种统计分析,并将统计分析结果以图形方式展示出来,因此R也是一种统计制图软件。R内嵌丰富的数学统计函数,从而使使用者能灵活的进行统计分析。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统。

R是一种功能强大的编程语言,就像传统的编程语言C和JAVA一样,R也可以利用条件、循环等编程方法实现对数据的各种处理,从而实现数据统计目的。R作为一种开源的软件,被越来越多的用来代替SAS等软件进行数据统计分析。

R作为一个统计系统来使用,其中集成了用于经典和现代统计分析的各种算法和函数,这些算法和函数是以包的形式提供的。R内含了8个包,如果需要其他的包,可在官网上进行下载安装。

1.2 数据挖掘

数据挖掘(Data mining),顾名思义就是从海量的数据中运用数据挖掘算法从中提取出隐含的、有用的信息。数据挖掘涉及统计学、人工智能和数据库等多种学科。近年来,随着计算机的发展,各个领域积累了海量的数据,这些数据如何变废为宝,这就需要数据挖掘的帮助。因此数据挖掘在信息产业界广泛应用,比如市场决策和分析、科学研究、智能探索、商务管理等。

数据挖掘是一个多学科的交叉领域,统计学、人工智能和数据库等多种学科为数据挖掘提供丰富的理论基础。包括统计学的概率分析、相关性、参数估计、聚类分析和假设检验等,以及机器学习、神经网络、模式识别、信息检索、知识库、并行计算、图形学、数据库等。同时数据挖掘也为这些领域提供了新的挑战和机遇。例如,数据挖掘提升了源于高性能(并行)计算的技术在处理海量数据集方面性能。随着数据挖掘的蓬勃发展,近几年分布式技术在处理海量数据方面也变得越来越重要,尤其是Hadoop的发展极大的提高了数据挖掘的并行处理效率。

数据挖掘也同时促进了数据挖掘算法的发展,数据挖掘算法是根据数据创建数据挖掘模型的方法和计算方法,算法将首先分析数据源提供的数据,根据数据的特点和需求建立特定的数学模型。

根据数据挖掘模型的特点,可以选择相应的算法。在选择算法是,可根据实际情况选择划分聚类的算法,或选择决策树的算法。选择算法的不同可能对挖掘结果有一定的影响。

数据挖掘的步骤是首先确立挖掘目标,提出一个初步计划,估计用到的工具和技术;第二步是数据理解,即收集原始数据,并对数据进行描述和初步探索,检查这些数据的质量;第三步是数据准备,包括数据选择、清洗、合并和格式化;第四步是建立数据模型,包括选择建模技术、测试方案设计、模型训练;第五步是模型评估,根据评估结果得出结论,确定是否部署该模型;第六步是模型部署;第七步是选择算法;最后是得出结论。

1.3 C4.5算法

C4.5是一种机器学习的方法,在数据挖掘分类中应用广泛,它的目标是监督学习。C4.5是在ID3的基础上衍生出来的。ID3是一种决策树算法。ID3衍生出C4.5和CART两种算法。

C4.5的算法思路是,在给定的数据集中,每一个元祖都是互斥的,每一个元组都能用一组属性值来描述,每一个元组都属于某一类别。C4.5的目标是通过学习,建立一个从属性值到类别的映射关系,并且这个映射能够指导对新的类别进行分类。

C4.5是一种决策树算法,决策树是一种树结构,其中每个非叶节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个叶节点给定一个类标记。决策树建立起来之后,对于一个未给定类标记的元组,学习一条有根节点到叶节点的路径,该叶节点的标记就是该元组的预测。决策树的优势在于适合于探测性的知识发现。

图1就是一棵典型的C4.5算法对数据集产生的决策树。

表1所示,它表示的是天气情况与去不去打高尔夫球之间的关系。

1.4 Cart算法

CART(Classification And Regression Tree),即分类回归树算法,该算法是一种决策树算法,并且生成的是一棵二叉树。Cart有两种关键思想,一种是将训练样本进行二分递归分割建树,即给定一个训练集,用二分算法将该训练集分成两个子训练集,不断递归乡下分割,这样每个非叶子节点都有两个分支,所以对于第一棵子树的叶子节点数比非叶子节点数多1,最终形成一颗二叉树;另一种是用验证数据进行剪枝。

递归划分法,用类别集Y表示因变量,用X1,X2,…,XP表示自变量,通过递归分割的方式把关于X的P维空间分割成不重叠的矩形。

CART算法是怎样进行样本划分的呢?首先,一个自变量被选择,例如Xi的一个值Si,若选择Si把P维空间分为两个部分,一部分包含的元素都满足XiSi。其次把上述分割的两部分递归分割,直到把X空间划分的每个小矩形都尽可能的是同构的。

CART过程中第二个关键的思想是用独立的验证数据集对根据训练集生长的树进行剪枝。CART剪枝的目的是生成一个具有最小错误的树,因为一方面在树生成过程中可能存在不能提高分类纯度划分节点,如果使用这些异常数据进行分类,分类的准确性就会受到很大的影响。剪去这些异常数据的过程,被称为树剪枝。通过剪枝,可以去除这些孤立点和杂音,提高树独立于训练数据正确分类的能力。另一方面分类回归树的递归建树过程存在过拟合训练数据。

CART用成本复杂性标准来剪枝。CART用的成本复杂性标准是分类树的简单误分(基于验证数据的)加上一个对树的大小的惩罚因素。成本复杂性标准对于一个数来说是Err(T)+a|L(T)|,其中a表示每个节点的惩罚,Err(T)是验证数据被树误分部分,L(T)是树T的叶节点树,其中a是一个变动的数字。从这个序列的树中选择一个在验证数据集上具有最小误分的树称为最小错误树。

2 基于R语言数据挖掘算法的客户分类

2.1 数据准备

本研究采用的社交网络数据均来自于某论坛,本文采用LoalaSam爬虫程序,LoalaSam是一个由c/c++开发,运行在Windows平台上的一个多线程的网络爬虫程序,它甚至每一个工作线程可以遍历一个域名。LoalaSam能快速的获取信息,图片,音频,视频等资源。

通过LoalaSam对某论坛进行爬去,采用LoalaSam模仿用户登录,跳过验证码,不断地向服务器发出请求,进入用户界面后,并通过网页中的超链接,以该用户为根节点抓取和此用户相关联的所有用户,并递归的不断纵深抓取,最终形成实验用的数据源。并将这些数据保存到Oracle数据库中。

通过Oracle数据库存取采集到的数据,数据库一共使用两张表,一张关系表friend,一个实体表user,每次抓取到的客户信息全部存入user表中,并同时为所有好友关系在user表中进行关联。

本文采用基于R语言的数据挖掘技术实现社交网络的客户细分。本文在聚类算法实现的时候创新性的提出一种新的聚类策略即首先通过分层聚类算法计算样本抽样并得出可聚类的簇数。然后将簇数传递给划分聚类算法,在所有实验样本上进行更为精确和高效的重定位。基于此聚类结果,我们将同时采用Cart算法和C4.5算法来进行决策树规则探索。

2.2 数据预处理

本文研究数据的预处理,从数据的抓取结果来看很多属性类型为字符型,无论是采用数据库系统还是转换为其他形式的文件形式来存储,挖掘算法处理起来其速度、资源消耗都不是乐观的。因此对部分属性就行了数字离散化处理。

2.3 PAM分类算法实证

本文在进行聚类研究的时候,采取了折中的办法。首先利用分层方法对样本进行聚类,得出可划分的簇数目;进而将分层所得的簇数目以参数形式回传划分算法,进行迭代和重新定位。即采用DIANA算法划分抽样样本,得出可划分的簇数目K,进而将K交予PAM,以对样本进行重新划分定位。两种方法协同作用,共同确立最后的划分。

PAM算法将整个样本划分为4部分,在excel里利用透视表对相应type进行汇总,分别计算各个类别的平均来访输(Account),平均分享相册数(Album),平均贡献日志数(Diary),平均拥有的好友数(Frinum);Count列代表每种类别的客户数。

PAM算法产生的四种类别:

观察可知,绝大部分客户集中在群组1,这个群组来访人数和好友数较多,相册数和日志数也处于中上游水平,在拥有相当社会资本的同时具备一定的成长潜力,是论坛的中间力量,为Diamond用户。群组2位居第二,这群组各项指标均位于末端,也是所谓的消极客户,称之为Copper。群组4除日志数和好友数率高于Copper组外,其余观察均垫底,表明这部分客户的成长潜力和积极性都未表现出来,有可能是新加入客户,称之为Silver。群组3客户人数位居最末,其余各项指标均位居第一,表明这个群组在社交网中最受欢迎,称之为Gold。

由于只将客户的社会属性提取作为类别命名的依据,四个类别背后隐含其他信息均未在上述讨论中,但是实际影响类别的分属,如果研究具体挖掘各个因素对于客户细分类别的影响,还应该通过决策树和相应的决策规则方法。

2.4 CART策树算法实证

CART算法采用二分递归分割的技术,利用GINI系数为属性找到最佳划分,能够考虑每个节点都成为叶子的可能,对每个节点都分配类别。CART可以生成结构简洁的二叉树,但精度和效率较C$.5差。

首先进行CART算法分析,需要下载tree程序包。R语言的实现过程如下:

>library(tree) #加载程序包

>newint=read.csv(“interval.csv”) #interval为合并过类别的新表

>nt=tree(type~,new int) #调用算法对原始数据进行建树

>summary(nt) #输出Cart决策树的概要

Classification tree:

Tree(formula = type ~,data = int)

我们发现Cart算法能清晰地描述出规则,并输出一颗简洁明了的二叉树。上述决策树规则中,行末标注“*”号的为最终输出的决策树规则。可以发现,此模型中叶节点为每一分支中y值概率最高的类别决定,最终生成了深度为5,叶节点数为15的一颗二叉树。

第一分支是以来访人数Account作为测试属性的,分成Account=2.5两枝:在Account=2.5这一枝则判断好友数Frinum的数量。依此类推,最终得到15个叶节点和规则,节点的样本量分布依次为1056,117,883,1107,396,845,353, 650,462,591,919,1046,451,264,370。从分类结果看,最终的错分率(Misclassification error rate)为24%,,划分效果上表现中规中矩。

用CART算法建立的模型结果简单易懂,很容易被人理解,它以一种简洁的方式解释了为什么数据进行这样或那样的分类,所以当分析商业问题时,这种方法会给决策者提供简洁的if-then规则,远比一些复杂的方程更让决策者接受。

2.5 C4.5决策树算法实证

接着我们尝试用C4.5算法得到一颗完备的决策树。在R语言中实现C4.5算法需要用到RWeKa数据包。WeKa全名为怀卡托智能分析环境(Waikato Environment for knowledge Analisys),是一个基于Java,用于数据挖掘用于数据挖掘和知识发现的开源项目。其开发者是来自新西兰怀卡托大学的两名学者lanH.Witten和Eibe Frank。经过十多年年的发展历程,WeKa是现今最完备的数据挖掘工具之一,而且被公认为是数据挖掘开源项目中最著名的一个。RWeKa为Weka的R语言扩展包,成功加载RWe卡包后就可以在R语言环境中实现Weka的数据挖掘功能。RWeka的数据挖掘功能。RWeka的安装同样需要一定的数据包支持,都成功导入后,程序才能正常调用。WeKa里的J48决策树模型是对Quinlan的C4.5决策树算法的实现,并加入了合理的剪枝过程,有非常好的精度。

以下为算法的R语言实现过程:

>library(RWeka) #加载RWeka程序包

>library(party) #加载party程序包

>inj

>summary(inj) #输出C4.5决策树的概要

对结果观察发现,C4.5的决策树效果相当好,正确分类的样本数为10231个,准确率达到98%。聚类结果中Diamond中只有26个被错误预测为Gold,1个被错误预测为Silver,还有1个被错误预测为Copper。但是由于决策树过于完备,节点和叶子都较多。实际操作的时候可视具体情况需要结合Cart和C4.5的特点进行取舍。

3 结论

随着社交网络的蓬勃发展,本文围绕社交网络理论和客户细分理论研究,运用数据挖掘工具中的PAM聚类算法和Cart和C4.5决策树算法,对社交网络的客户细分进行了深入的探讨并最终得出可指导实践的社交网络客户细分规则。

本文分析决策树的过程将同时采用两种决策树算法,利用CART算法提供可视化的二叉树,利用C4.5提供完备的决策树规则。

C4.5和Cart是决策树中比较常见的算法,C4.5具有思想简单,构造的树深度小、分类速度快、学习能力强、构造结果可靠等优点,但当节点数较多时,其在决策树规则的可视化和可理解程度方面较差。

Cart算法采用二分递归分割的技术,利用Gini系数为属性找到最佳划分,能够考虑每个节点都成为叶子的可能,对每个节点都分配类别。Cart可以生成结构简洁的二叉树,但精度和效率较差。前者生成可理解的简单的树图,但在划分精度还有所欠缺;后者在划分上产生的叶节点和规则较多,但错分率低至2%。在实际的操作过程中,需视实际需要进行取舍。

参考文献:

[1] 薛薇,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.

[2] Heather Green, Making Social Networks Profitable.BussinessWeek, Sep 2008

数据挖掘学习计划范文第6篇

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘学习计划范文第7篇

关键词:数据挖掘;决策树法;关联规则法;神经网络法;研究现状;发展趋势

中图分类号:TP39文献标识码:A文章编号文章编号:16727800(2013)0010013503

作者简介:王梦雪(1989-),女,成都理工大学信息科学与技术学院硕士研究生,研究方向为计算机网络与技术。

0引言

数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。随着信息技术的迅速发展,各行各业都积累了海量异构的数据资料。这些数据往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要将这些数据转化成有用的信息和知识,从而达到为决策服务的目的。数据挖掘分析得到的信息和知识现在已经得到了广泛的应用,例如商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果。本文主要介绍了数据挖掘的几种主要算法及其改进,并对国内外的研究现状及研究热点进行了总结,最后指出其发展趋势[1]。

1研究背景

1.1数据挖掘

目前数据挖掘是人工智能和数据库领域的研究热点,数据挖掘是发现数据库中隐含知识的重要步骤。数据挖掘出现于20世纪80年代末,早期主要研究从数据库中发现知识(Knowlegde Discovery in Database,KDD),数据挖掘的概念源于1995年在加拿大召开了第一届知识发现和数据挖掘国际会议[2]。数据挖掘作为一种多学科综合的产物,综合利用人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,自动分析数据并从中得到潜在隐含的知识,从而帮助决策者做出合理并正确的决策。

1.2数据挖掘对象

数据挖掘的对象可以是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至是异构型数据的数据源[2]。发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[1]。

1.3数据挖掘功能

目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征,概念描述分为特征性描述和区别性描述,特征性描述描述对象的相同特征,区别性描述描述对象的不同特征;关联分析主要用来发现数据库中相关的知识以及数据之间的规律,关联分为简单关联、时序关联、因果关联;分类和聚类就是根据需要训练相应的样本来对数据分类和合并;偏差分析用于对对象中异常数据的检测。

1.4数据挖掘过程

数据挖掘主要分3个阶段:数据准备、数据挖掘、结果的评价和表达。数据准备主要是完成对大量数据的选择、净化、推测、转换、数据的缩减,数据准备阶段的工作好坏将影响到数据挖掘的效率和准确度以及最终模式的有效性,在数据准备阶段可以消除在挖掘过程中无用的数据,从而提高数据挖掘的效率和准确度;数据挖掘的工作首先需要选择相应的挖掘实施算法,例如决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等,然后对数据进行分析,从而得到知识的模型;结果评价和表达主要是确定知识的模式模型是否有效以便发现有意义的模型[3]。

2数据挖掘主要方法

2.1决策树法

决策树法是数据挖掘的分类功能中一种比较常用的方法。决策树法起源于概念学习系统CLS,然后发展到ID3方法,ID3算法是由Quinlan首先提出,该算法是以信息论为基础,以信息熵和信息增益度为衡量标准。ID3算法的主要思想是:首先计算各属性的信息增益,然后选取具有最高增益的属性作为给定集合的测试属性。所以造成ID3用信息增益选择属性时偏向选择取值多的属性,但是取值多的属性不一定找到最优解,为了克服此问题,出现了改进算法——C4.5算法[4]。 C4.5算法不但克服了ID3偏向选择取值多的属性这一缺点,还实现了对连续属性的离散化处理和对不完整数据的处理。虽然C4.5算法在速度和预测精度等方面占有优势,但是由于C4.5在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,导致该算法在性能方面较为低效。针对C4.5算法效率不高的问题,很多学者提出了针对改进措施:一种有效的C4.5的改进模型R-C4.5,该决策树模型通过合并分类较差的分支,减少了无意义的分支进一步的划分,有效避免了碎片的产生,在保持模型预测准确率的同时,有效改进了树的健壮性[5]。而从C4.5在连续值属性离散化方面的局限性来看,C4.5算法在对连续值属性进行离散化处理时,为了找到较好的划分点,C4.5算法需要测试所有潜在的划分信息增益,这样就大大降低了该算法分类的效率。基于Fayyad和Irani对C4.5算法的改进,调整了其对连续值属性惩罚的基础,指定一个阈值a,通过a 值的判定与增益率的判定,决定是否继续构造节点[6]。此外,考虑到有新样本添加到数据库中的情况,按照C4.5算法,需要对所有的样本进行重新学习,这样会造成大量时间的浪费,所以在此提出一种增量学习方法,最大限度地保留决策树中的原本分支及分类结果,减少了计算量[7]。

2.2关联规则法

关联模式中最著名的是Apriori算法,它是由R.Agrawal等人首先提出来的[8],其算法思想是:首先找出频繁性至少和预定义的最小支持度一样的所有频集,然后由频集产生强关联规则。最典型的例子就是沃尔玛尿布和啤酒事件,在此例中,商家就是利用统计这两种商品在一次购买中共同出现的频数,将出现频数多的搭配转化为关联规则[9]。Apriori算法的实现是通过对数据库D的多次扫描来发现所有的频繁项目集。在每一次扫描中只考虑具有同一长度的所有项目集,在进行第一次扫描中,Apriori算法计算D中所有单个项目的支持度,生成所有长度为1的频繁项目集;在后续的每一次扫描中,首先以K-1次扫描所生成的所有项目集为基础产生新的候选项目集,然后扫描数据库D,计算这些候选项目集的支持度,删除其支持度低于用户给定的最小支持度的项目集;最后,生成所有长度为K的频繁项目集。重复以上过程直到再也发现不了新的频繁项目集为止。由此可见,若要提高Apriori算法的效率,可以减少对数据库的扫描次数或者减少不必要的频繁项目集的生成[10],对Apriori算法的改进主要方法有:①基于划分的方法:其基本思想是:对于整个交易数据库而言,如果一个项集是频繁项集,那么它必然有这样的结果,即至少在一个分割的部分内它是频繁的;②基于抽样的方法:首先从数据库中抽取一个样本并生成该样本的候选项集,当然希望这些项集在全局数据库中是频繁的,在接下来的一次扫描中,算法将统计这些项集确切的支持度以及负边界的支持度。如果在负边界中没有一个是频繁的,那么算法将找到所有的频繁项集,否则,负边界中的项集有可能是频繁项集;③增量更新方法:其基本思想是使用该技术来对所发现的频繁项集和相应的关联规则进行维护,以便在数据库发生变化时避免对所有的频繁项集和相应的关联规则重新进行挖掘分析,即只对发生变化的那部分数据进行关联分析;④概念层次的方法;⑤基于散列和压缩技术的方法[11]。所以也有很多学者对Apriori算法进行了改进,例如,对Apriori的改进算法AprioriTid算法,在AprioriTid算法中仅在第一次扫描时用事务数据库D计算候选频繁项目集的支持度,其他各次扫描用上一次扫描生成的候选数据库D’来计算候选频繁项目集的支持度,减少了I/O的操作时间,提高了算法的效率[8],此外,在对Apriori的改进算法中,基于新的数据结构和改进了的产生候选集的连接方法,也实现了对事物挖掘上优于Apriori算法的效率[12]。针对Apriori算法的固有缺陷,J.Han等提出了不产生候选挖掘频繁项集的方法:FPtree频集算法。FPtree频集算法采用分而治之的策略,第一遍扫描的过程中把数据库中的频集压缩进一棵频繁模式树(FPtree),同时依然保留其中的关联信息,随后再将FPtree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘,当原始数据量很大的时候,才可以结合划分的方法,使得一个FPtree可以放入主存中,实验表明,FPgrowth对不同长度的规则较之Apriori算法有巨大的提高。

2.3神经网络法

神经网络具有结构复杂、网络训练时间长、结果表示不容易理解等缺点,但其对噪声数据的高承受能力和低错误率,神经网络具有较好的并行性,这些优点是其他方法所不及的,而且各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得神经网络在数据挖掘的应用中越来越受到大家的青睐[13]。其中使用较为广泛的有多层前馈式(multilayer feedforward)神经网络和后向传播(backpropagation,BP)神经网络。多层前馈式神经网络迭代学习用于元组类标号预测的一组权重,而BP神经网络搜索一组权重,这组权重可对数据建模,使得神经元组的网络类预测和实际类标号之间的均方距离最小,可用于语言综合、语音识别、自适应控制等[14]。现在已经提出来一些神经网络方面的数据挖掘算法改进,用以弥补神经网络结构复杂、网络训练时间长、结构表示不易理解等不足,比如,提出的基于模糊神经网络的数据挖掘算法,把模糊理论和神经网络结合起来构造、训练模糊神经网络[15]。

3研究现状

随着海量数据的增加,大数据时代的到来,导致人们对数据的研究和利用越来越多,其中数据挖掘技术的不断进步和发展也给整个世界信息的发展带来了许多成果。在科学学领域方面,先进的现代化科学观测仪器的使用造成每天都要产生巨量的数据,如各种同步卫星每小时传回地球的遥感图像数据就达50千兆字节。天文学上有一个很著名的应用系统——SKICAT,这是第一个相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功的应用之一。目前,科学家已利用SKICAT发现了16个新的极其遥远的类星体。在市场营销方面,条形码技术在商业上的普遍使用使得很多行业每天都积累了大量数据,从市场营销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是有很大帮助。在金融投资方面,目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测。数据挖掘技术还可以应用在甄别诈骗上,进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特征,这样当某项业务符合这些特征时,可以向决策人员提出警告。这方面比较成功的系统有FALCON和FAIS系统。在Web应用上,世界上最强大的搜索引擎Google相比其他很多搜索引擎,它的搜索结果更让人满意,其中Google使用的搜索算法主要是PageRank算法,在2001年9月被授予美国专利,Google的PageRank是根据网站的外部链接和内部链接的数量和质量两衡量网站的价值。

4数据挖掘发展趋势

现今,数据挖掘的发展趋势主要在以下几个方面:

数据挖掘语言的标准化:语言的标准化对于数据挖掘系统的开发和数据挖掘技术的普遍使用是至关重要的。其可改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。

数据挖掘的可视化:可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。

分布式数据挖掘:分布式技术的到来为日益增长的数据提供了有力支持,而分布式数据挖掘中将分布式技术和数据挖掘技术的结合,也使对分离数据库的可协作数据挖掘工作开发了一个重要领域。

数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合。

挖掘复杂数据类型的新方法:挖掘复杂数据类型是数据挖掘的重要前沿研究课题,也有人称复杂类型的数据挖掘是 “下一代数据挖掘”。伴随着数据的增多,需要处理的数据类型也变得越来越复杂,例如数据流、时间序列、时间空间、多媒体和文本数据,虽然现在在很多复杂数据类型的挖掘方面取得了一些进展,但是在应用需求和可用技术之间仍然存在较大的距离。

数据挖掘中的隐私保护和信息安全:随着信息技术的发展,越来越多的数据涌入了网络,其中包括大量电子形式的个人信息,而挖掘技术的发展和科技的更新,在相反的一面上也使大量的个人信息受到了威胁,因此保护隐私的数据挖掘方法愈显重要[16]。

5结语

Internet的迅猛发展使得网络上的各种资源信息异常丰富,而数据的迅速增加与数据分析方法的滞后之间的矛盾也越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,而数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据分析处理而出现的。数据挖掘技术的发展给科技的发展、经济的推动和每个人的生活都带来了巨大的便利,数据挖掘技术也被越来越多的行业和领域所采用,并取得了很好的效果。

参考文献:

[1]王惠中,彭安群.数据挖掘研究现状及发展趋势[J].工矿自动化,2011(2).

[2]潘有能.XML挖掘:聚类、分类与信息提取[M].杭州:浙江大学出版社,2012.

[3]王桂芹,黄道.数据挖掘技术综述[C].全国第18届计算机技术与应用(CACIS)学术会议论文集,2007.

[4]李会,胡笑梅.决策树中ID3算法与C4.5算法分析与比较[J].水电能源科学,2008,26(2):129132.

[5]刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报:自然科学版,2006(46):9961001

[6]刘佳,王新伟.一种改进的C4.5算法及实验分析[J].计算机应用与软件,2008,25(12):260262.

[7]程龙,蔡远文.数据挖掘C4.5算法的编程设计与增量学习改进[J].计算技术与自动化,2009,28(4):8387.

[8]颜雪松,蔡之华.一种基于Apriori的高效关联规则挖掘算法的研究[J].计算机工程与应用,2002(10):208212.

[9]王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004,32(2):246251.

[10]罗可,吴杰.一种基于Apriori的改进算法[J].计算机工程与应用,2001(22):2022.

[11]陈燕.数据挖掘技术及应用[M].北京:清华大学出版社,2011.

[12]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146149.

[13]刘钊,蒋良孝.基于神经网络的数据挖掘研究[J].计算机工程与应用,2004(3):172174.

[14]毛国君、段立娟.数据挖掘原理与算法[M].北京:科学出版社,2009.

数据挖掘学习计划范文第8篇

关键词:高校数据挖掘管理信息系统

高校管理信息系统的存在问题:

高校校园网部门繁多、功能复杂。部门职能网络化过程信息分类模糊造成大量无用信息堆积、主体不突出、更新难以得到保证。大量的校园机构对信息管理系统的使用只是单纯地停留在了日常事务的处理,长期积累留下的历史数据并没有得到有效的开发和利用。

开发数据挖掘高校管理信息系统的目的:

开发本系统的目的就是将现代化信息处理技术运用到学校管理工作中,提高工作效率,把管理人员从繁杂的手工操作中解放出来。此外,在建设高水平大学的进程中,信息管理系统的建设也是重要环节之一。因此,开发高校信息管理系统是高校信息化建设的一个重要组成部分。

数据挖掘技术简介:

所谓数据挖掘技术,就是从诸多海量的、不完整的、模糊的、随机的数据中,提取隐藏在其中的人们事先不知道的而又潜在的有效信息和知识的过程。数据挖掘技术包含了许多交叉学科,是一种涉及了信息技术、统计分析、数据库等多学科的新技术。

数据挖掘技术的功能划分:

稻萃诰蚣际跏腔于现有的知识决策,该决策通常带有预测性并且包含对未来发展趋势和行为的考虑,根据数据挖掘技术的功能性可以将其划分为以下五类:

一、关联性分析

关联性分析是指能够在庞大的数据库中找寻到大量相关信息的关联性。关联规则是指发现某事物与其他事物之间的依赖性以及关联性的过程。

二、预测数据趋势

数据挖掘技术能够在庞大的数据库中对各类信息进行有效的预测以及归类,找寻到预测性的信息并且较为迅速地描述出相对重要的数据类模型以及预测出未来数据的发展趋势。

三、检测偏差

在某些情况下,数据库中的数据往往会存在着一些相对不同寻常的记录,这时候,从中检测出这些偏差就能够获取更多有用的信息。

四、概念描述

信息使用者们面对着庞大的数据库,都希望用更为简洁的描述来定义。所谓的概念描述就是指对那些相关联的内容进行内涵描述,并且对有关特征进行阐述。

五、聚类

聚类就是按照一种特定的规律将其相关的数据划分为多个类或簇,将其中相似的数据规制在一个簇中,不同的簇之间往往存在着较大的差异性。

数据挖掘技术的常用方法:

1 神经网络法

神经网络自身所具备的分布存储、较高性能的自组织自适应性、高速并行以及高度容错处理等独特的特性使其发展和应用空间非常巨大。

2 遗传算法

遗传算法是借鉴于自然界生物的基因遗传以及自适应机理实现目标的随机搜索,可以理解为一种仿生物的全局优化计算方法。

3 决策树法

决策树法一般用于处理数据规模庞大的应用。它能够实现对海量数据进行有计划的分类,并且在分类的数据中找寻到有较高潜在价值的信息。

4 粗集理论算法

粗集理论算法操作简单、算法实现相对容易、信息输入的表达空间并不繁琐、额外的相关信息不需要提供。主要的研究对象是不确定的知识和不精确的算法。

5统计分析方法

数据库字段之间往往存在着相关关系与函数关系。一般情况下,用统计分析方法分析这两种关系,包括数据的常用统计、相关分析、回归分析和差异分析等。

在高校信息管理中采用数据挖掘技术:

在高校信息管理中的教学应用时,具体工作主要分为两个部分:第一,对教学评价的数据进行分析,为教学部门提供一定的决策支持信息。第二,对高校日常工作的管理,将数据挖掘技术应用到高校日常管理工作中,不仅能够提升高校管理效率,而且能够为高校管理工作提供数据支撑和决策支持。

1.对教学质量进行评价

教学是高校职能的核心,教学质量高低是教学活动的成效性外在表现形式。而良好的教学评价对教学质量有导向、促进、激励及调控功能,是学校教学管理工作的重要组成部分,是评价教学工作成绩的主要手段。

(1)课程设置层面

学生在校学习过程中的课程学习属于循序渐进的过程,课程之间存在着相对较强的关联关系以及先后顺序。借助高校教学资源库当中的历届学生成绩档案,在科学化数据挖掘以及合理化数据关联的基础上,从海量数据当中挖掘有用信息,分析数据间的回归与相关性联系,最终获得价值性较强的规律。

(2)学生自身的学习评价

学习评价是判定学生个性化差异的重要手段,有利于高校教师因材施教。借助相应的数据挖掘工具,可以对高校学生成绩数据库以及行为记录库等实施仔细分析与处理,得到即实性的评价结果,及时纠正学生的不良行为,减轻教师在学习评价环节的工作量。

(3)课堂教学评价

该环节不仅可以起到良好的教学调节作用还有着较强的导向性特点,同时也是高校教学评价工作的关键性手段。通常,高校每学期都会搞专业化的教学评价调查,积累丰富数据,为高校教务科提供决策信息,提高高校教学效果。

2.对高校管理工作进行管理

(1)学生特征的仔细挖掘

结合高校学生在各方面的实际情况来针对性挖掘高校学生的个性化特征,从而帮助学生制定个性化培养方案。凭借对高校学生特征的详细分析结果与目的制定之间的对比,从根本上实现学生综合素质的大力培养。

(2)人员行为干预

高校教学管理数据库中记录着各届学生与教师的学习、工作、社会活动、奖励、处罚等情况,利用数据挖掘的关联分析,找出师生各种行为活动之间的内在联系。

(3)为学生的就业升学提供指导

通过高校管理信息系统找到相关数据,用聚类分析和概念描述的相关算法分别对全体学生的每项数据进行计算,将学生分成若干类,比如考研、出国、就业。如果收集更详细的数据,甚至可以为学生在哪一方面继续深造、适合从事哪方面的工作提供一定的参考。

结语:

管理即决策。构筑基于数据挖掘技术的高校信息系统管理平台是高校数字化建设的重中之重。充分利用数据挖掘技术的功能,最大限度地提高信息资源的利用率,帮助高校实现信息管理一体化建设方案,积极地推动高校事业向着更加科学的方向发展。

参考文献:

[1]林筑英.数据挖掘技术及其所面临的问题[J].贵州师范大学学报,2003,3

[2]章懿雯.数据挖掘技术在高校教务管理中的应用研究[J] .中小企业管理与科技,2014,(28):295-296.

数据挖掘学习计划范文第9篇

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003

数据挖掘学习计划范文第10篇

【关键词】 高校;数据仓库;成绩管理;教学质量提高;应用

一、学生成绩管理的现状

随着高校办学规模的不断扩大以及学校专业的不断增多,使得学校的教育管理工作变得越来越复杂化,越来越难管理,特别是针对学生成绩信息的管理,由于学生的倍增,成绩的管理与维护工作更是艰难。做好成绩管理工作,对学校的发展有特定的实际意义,也是各个学校最为关心并且要迫切解决的重要问题,所以随着学校对成绩信息资源利用要求的提高,原本的成绩管理模式已经不能再满足学校的实际应用需求,只有设计更为有用的,能够挖掘出学生成绩价值信息中隐藏的价值,才是最符合学校应用的应用系统。

二、学生成绩管理的作用

在高等学校的发展过程中,教学质量一直都是各个高校最为关注的重点问题,而学生的成绩是各个学校教学质量优劣的一个最重要的体现,因此,如何促进学校全体学生更好的提升学习成绩,关系到学校的长远发展计划,而对学生的成绩管理分析工作,是一个系统化的工作,所以通过对学生成绩的综合分析,明确学生在学习过程中的不足,有针对性地为学生解决学习上的困难,提升学生的整体综合素质与学习成绩,不管是对学校还是生活个人都拥有非常重要的积极促进作用。

三、数据挖掘技术成绩管理分析

数据挖掘技术在成绩管理中的应用,主要体现在学生成绩分析、考试题目优化、教学评价、教学方式选择以及课程的合理设置等几个方面。

1、学生成绩分析

学生的主要任务就是学习,学习成绩也是学生在校期间表现优劣与否的最直观的体现,也是学生在校期间所学知识掌握程度的最直观的表现方式,所以对学生提供一个全面客观的评价,是学校应该拥有的责任,也是对学生最好的关爱表现方式,然而在学校的成绩管理工作进行时,通常的做法只是简单的把学生的考试成绩录入到学校的系统软件,而通过数据挖掘技术对学生成绩进行分析之后,可以充分的找出学生成绩优劣与否与学生自身、与学校环境以及教师的教学质量之间的关系,进而为更客观的评价学生成绩的高低是学生自身原因造成的还是与学校有直接的关联,为进一步的更好的学习计划的制订提供了理论依据。

2、考试题目优化

考试的目的是为了更好的检验教师的教学效果以及学生的学习成果,是教学过程中一个重要的阶段。学校在教学时,通常是以期末考试成绩为评价学生的学期成绩的一个重要标准,然而在不同的考试教学下,学生的考试成绩是不相同的,如果仅仅以成绩评定一个教师或者学生是不客观的,为了更好的评定教学效果及学生学习的成果就要发掘学生成绩高低相关的影响,是试题较难还是教师教学方式的问题,因此就需要对这些因素进行分析,以探索更为有效的方法来评价试题的难易与成绩的关系,进而为下次试卷的出题提供帮助。

3、教学评价

评定学生对新接触事物理解及掌握程度是教育工作者的一个重要职责,通过对学生学习成绩的评定,可以触发学生的学习动力,也是考查学生真实水平的一种比较有效的方式。在学生成绩评价时,教师也要注意评价内容要客观全面、评价方式多样并注重自评与互评的结果,获取成绩评价数据才是最可靠有效的。针对学校不同学生的不同成绩评价数据,可以利用数据挖掘工具,对这些数据进行挖掘分析,通过工具获取不同学生最终的成绩结果,进而可以更客观的排除人为因素对学生评价的影响,也可以对学生的不足及时给予及时指正改正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。

4、教学方法选择

不同的教师在教授课程时因为人员之间的差异,使用的教学方式也互不相同,也因此导致了学生考试成绩可能也互不相同,为了消除因教师教学方式差异给学生成绩造成的危害,就需要对不同教师教学模式下学生的成绩信息进行分析,以选择更优的教学方式实现对学生的教学,学生成绩数据挖掘技术的应用正好可以满足这一要求,通过对不同教学方式下学生成绩差异的研究,可以协助教育工作者更好的判别采取何种教学方式对学生学习才更有帮助,进而提高学生的整体学习水平。

5、课程合理设置

许多课程之间往往还存在着一定的关联关系,拥有固定的先后顺序,只有把前修课程学习完成之后才可以继续接下来的课程学习,否则会直接影响后续课程的理解与接受,影响学生的正常学习;在高等学校,通过对成绩数据价值信息的挖掘,可以利用学校成绩数据库中存放的历届学生各科考试成绩信息结合数据挖掘的相关技术进行分析,并通过相关的数据挖掘算法分析这些数据信息中隐藏的潜在的影响学生学习的价值信息,最终找出影响学生考试成绩的原因,并根据这些原因制订出相应合理的课程安排计划,为学生更好的学生服。

6、学生特征挖掘

通过成绩与环境因素的影响数据挖掘的研究,教师可以很好的掌握每个学生的学习状况,学生个人特征,并根据学生之间的不同差异,因材施教,最终把学生往更好的学习发展方向引导。为了更好的研究这一关系,可以利用数据挖掘工具,对学生学习成绩数据进行挖掘分析,通过挖掘工具的分析,不但可以获取不同学生最终的成绩结果,而且可以更客观的排除人为因素对学生评价的影响,最终对学生的不足及时给予及时校正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。

四、结语

综上所述,随着学校对成绩信息资源利用要求的提高,原本的成绩管理模式已经不能够再满足学校的实际应用需求,只有设计更为有用的、能够挖掘出学生成绩价值信息中隐藏的价值,才是最符合学校应用的应用系统。

【参考文献】

[1] 张兴科,王浩.通过数据挖掘技术预测学生学习成绩[J].科技信息(科学教研), 2007(22)198-206.

[2] 李雪燕.数据挖掘在高校成绩管理中的研究和应用[J].计算机与数字工程,2011(07)267-278.

[3] 曲萍.数据挖掘技术在高校学生成绩管理中的应用研究[J].网络与信息,2010(04)287-293.

数据挖掘学习计划范文第11篇

关键词:数据挖掘;学校教学;教学管理;应用

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)26-5805-03

随着信息技术的不断发展,数据量的不断增大,面对庞大的数据信息的合理使用,应运而生了数据挖掘技术。目前数据挖掘技术已经在商业、金融、医学等领域得到广泛的应用,但是在学校教学管理中还未得到广泛的关注。然而学校教学管理本来就积累了海量的数据,这些数据形成了一个信息容量巨大的数据库。如何有效的对数据进行挖掘分析,发现隐藏的有用信息资源来更好的指导教学与管理,辅助学校管理决策,更好的服务于教学,是目前重要的研究课题。该文就从数据挖掘的概念出发,简述数据挖掘在高职校教学中的应用。

1 数据挖掘与数据挖掘技术的概念

1.1 数据挖掘

数据挖掘的概念分为广义和狭义两种。

数据挖掘(Data Mining):广义的数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database),简称知识发现(KDD)。它是从大量的、不完整的、有噪声的、模糊的和随机的实际数据中,经过提取、转换、分析等处理技术,提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识,帮助决策者分析历史数据以及当前现有的数据,从中发现隐含的关系或模式,进而预测出未来可能发生的行为的过程。

狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,是知识发现过程中的一个关键步骤。

简单的说数据挖掘就是从大量的数据中“提取”或者“挖掘”知识的过程。

1.2 数据挖掘技术

数据挖掘技术实际上是人们长期以来对数据库技术进行开发研究而总结出的结果,其中数据挖掘与数据仓库技术的发展有着密切的关系。大多数情况下,数据挖掘首先是要把数据从数据仓库中取出放到数据挖掘库中,然后数据仓库对数据进行清理,发现解决数据不一致等问题。但是由于数据挖掘的所发现的知识有所不同,因此所利用的技术也有所不同。

2 数据挖掘分析方法与分析步骤

数据挖掘利用的技术越多,那么得出的结论的精确度就越高。因为,对于某一种技术不适用的问题,其他方式方法可能有用,这主要看问题的类型以及数据的类型和规模。下面简要介绍几种能适用于高职校教学管理工作的数据挖掘技术。

1)关联分析:关联规则挖掘是数据挖掘的一个重要研究方法,也是教学中最常用的一种方法。关联规则描述的是从大量的数据集中发现有用的依赖性或关联性的知识。该方法起初是为了分析市场购物篮所提出的,目的是为了发现顾客的购买模式。目前关联规则在其它领域也得到广泛的应用。

2)分类与预测:分类是根据某个分类器将数据库中的数据对象一一划分到给定的几个类别中的某一个中。操作步骤为:先构造分类器,后利用所获得的分类器对数据进行分类。分类是一种事先确定了类别与类别个数的有指导的学习过程。分类模型可用于预测。预测是利用学习所获得的模型对未知类别的数据对象进行类别预测。例如学生成绩数据库中,根据学生各科考试成绩,将学生的成绩分类为:优秀、良好、一般、差四个等级。对每个类别标记之后就是对数据进行分析,对每个等级挖掘分类规则也就是对每个数据做出精确的描述,如“成绩优秀的学生各门考试科目的成绩都不低于90分”,然后根据分类规则对数据库中标记的其他相同属性的数据进行分类。

3)聚类:与分类是事先确定了分类的类别相反的聚类只是将数据全部输入数据库中,然后对数据进行分析。根据一定的法则将数据合理的划分多个不同组,使得同一个组内的数据具有较高的相似度,不同组之间的数据基本无相似之处。聚类是在不知道类别和类别个数情况下的一种无指导学习过程,这点恰好和分类相反,正好说明聚类与分类是一个互逆的过程。

4)决策树:利用概率论的原理,以树的成长过程将事例根据不同类别进行分类。它可以对数据进行分析也可以预测,优点在于理解性强、直观、分类速度快,缺点是对于庞大的且复杂的数据时,分支数多,管理难度大。

5) 遗传算法:是由美国密西根大学D.J.Holland 教授和他的同事们根据自然界优胜劣汰、适者生存的自然进化过程而研究出的结合自然选择原理和遗传机理相结合的随机搜索算法。遗传算法采用的是概率寻优的方法,直接对结构对象进行操作,不需要确定的规则就可以自适应调整方向,寻求最优化搜索。它是一种寻找最优结算法。

数据挖掘步骤:

数据挖掘是一个较为复杂的信息处理过程,其中涉及到多个步骤,概况如下:

1)确定目标集合:确定用户需要的相关信息。

2)数据准备:根据用户需要的信息在数据库中选取相关的数据集,其中包括不同模式数据的转换和数据的统一汇总等,这样做的目的是为了更好的辨别出需要分析的数据集合,缩小处理数据的范围,提高数据的利用率以及数据挖掘的速度。然后对数据进行预处理等处理方式,对数据给予加工整理。

3) 数据挖掘:先确定好挖掘的目的或者任务,然后选定何种数据挖掘方法,并进行实际数据挖掘操作,通过操作挖掘出用户可能感兴趣的或者需要的相关数据信息。这一步是整个挖掘步骤中最关键的一步。

4)数据分析与结果评估:将挖掘出的数据信息进行再处理,去除没有价值的数据信息,并对剩余的数据信息进行检验、评价和评估,最终能让用户理解的同时又满足用户实际需求的信息。

3 数据挖掘在高职校教学管理中的应用

3.1 数据挖掘在学生成绩分析中的应用

在高职校的教务管理系统中存放着在校学生大量的数据信息,这些数据都具有可靠性和历史性。这些数据的信息量非常大,利用数据挖掘技术对所有学生的成绩进行分析,可以得到许多有价值的数据信息,例如:专业设置、课程设置、教师教学方式等等。高职校中,每学年的教学计划都是有规律的,课程安排都是循序渐进的。在学习专业课程之间必须先学习一些相关的专业基础课程,如果之前的基础课程没有学好,那么之后的专业课程的学习也会受到影响。另外,同一年级的相同专业的平行班中,由于授课教师素质、班级文化的差异,最后也可能导致学生成绩存在很大的差距。通过数据挖掘技术的相关方法,对学生成绩数据库中的大量数据进行分析挖掘,分析数据之间的关联性等,最后得出具有价值的信息,能更好的为课程设置提供有效的依据。此外,同一门课程中,教师授课的方式可以采用多种形式,例如传统的讲授法、讨论法、案例法、多媒体网络教学等。不同的课堂授课方式对于学生学习的兴趣和知识的掌握程度上多少存在着差异,最后直接的结果就是学生的成绩存在一定的差异。通过对数据库中学生成绩的分析挖掘,运用相关的挖掘方法,可以更好的判断哪种教学方式能更好的服务于教学内容,能更好的让学生吸收和掌握相关的知识内容,能更有利的推广分层次教学。

3.2 数据挖掘在教学评价方面的应用

一般情况下,每到学期末,都会让学生对各科的任课教师就教学内容新颖、教学方法的使用等已经设置好的内容进行打分,然后是教师之间的互评。这样单一的问卷调查的形式得出的结论只能得到一些表象的信息,未必能发现深层次的教学质量的一些规律,对提高教师的教学质量和教学水平起不到任何的作用,只能是流于形式而已。利用适当的数据挖掘方法对已有的评价数据进行分析处理,能发掘出类似于“什么情况最能影响教师的课堂教学情绪”、“影响教师课堂教学水平发挥的因素有哪些”等等问题,进而帮助教师有效的改进教学方法以及提高教学质量和水平。

3.3 数据挖掘在教学管理方面的应用

一个班级不论学生数量的多少,都是由每个学生个体组成的。每个个体的个性能否有效的积极的融入到班级这个大集体中,以及每个个体对于学习的积极性直接影响到了整个班级的学习氛围和精神风貌。通过数据挖掘技术对班级学生的个人基本信息、特长爱好、奖励惩罚等数据信息分析挖掘,这样可以发掘出很多有用的数据来分析学生的个体行为,并且寻找个体行为之间的关联性,针对每个个体学生制定出有效的管理方案,避免班级出现小团体、自由主义者等情况,更有助于的培养整个班集体的集体风貌。

3.4 数据挖掘在信息化管理中的应用

随着信息化的推进,在高职校中各个管理职能部门都存放着关于学生的大量的有效的数据。例如:负责招生的部门存有学生志愿填报的信息以及录取的信息;

教务部门存有第一手的学生成绩信息;学生管理部门掌握着学生的各种日常信息等等。如果能将这些职能部门中的信息连贯起来合理的管理,那么对于高职校信息化管理是非常有利的。如能再将数据挖掘技术运用到信息化管理中,就能从学生的入学到日常学习再到就业实习等的数据信息中发现大量实用与有用的信息,更便于管理着的管理。

4 结束语

总之,将数据挖掘应用到日常的教学与管理中,将原先存放的海量数据得到合理充分的使用,发掘数据中潜在的信息,为学校教学管理提供有利的信息支持,从而改进并完善教学管理与方法,提高学校教学与管理质量。

参考文献:

[1] 杨波.浅谈数据挖掘技术应用[J].电脑知识与技术,2010(24).

[2] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[3] 杨永斌.数据挖掘技术在教育中的应用研究[J].计算机科学,2006,33(12):284-286.

[4] 魏萍萍,王翠茹,王保义,等.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003,29(11):87,89.

[5] 丁智斌,袁方,董贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计,2006,27(4):590-592.

[6] 于立红,张建伟.基于数据挖掘的高职生成绩分析与预测[J].郑州轻工学院学报,2006,21(3).

[7] 李雄飞,李军.数据挖掘与知识发现[M].高等教育出版社,2003.

[8] 员巧云,程刚.近年来我国数据挖掘研究综述[J].情报学报,2005,24(2).

[9] 马希荣,孙志华.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):51-54.

数据挖掘学习计划范文第12篇

关键词:数据挖掘;聚类分析;成绩分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)21-4778-03

成绩作为学生在校学习情况的主要表现形式,既是教学效果考核的核心指标,也是对学生学习效果和教师教学效果的检验和评定,更是反馈于教学活动、服务于教育决策、为教育科研提供参考资料的重要手段。在高职教育信息化发展的十多年间,各类管理信息系统相继投入使用,基于传统数据库应用技术的学生成绩管理系统在教务管理中取得了很好的效果,其中大量数据日积月累起来,已形成非常宝贵的信息资源。但在大多数院校中,这些数据的主要用途仍局限于提供简单查询和统计报表,反映了过去一段时间和当前的教学情况,对后续的教学及管理工作的指导意义不大,如何利用数据挖掘技术对这些数据进行深层分析,从大量数据中发现潜在规律和内在联系,以提高教师教学的针对性、教学管理决策的科学性,进而提高学校整体教学水平和办学质量,将是高职院校在今后的信息化建设和信息资源管理、开发和利用中的重要内容之一。

1 数据挖掘

1.1 数据挖掘的概述

数据挖掘(Data Mining,DM),又称为数据库中的知识发现,被信息产业界认为是数据库系统最重要的前沿之一。它是从大量的、不完全的、有噪声的、模糊的以及随机的数据中,提取人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术在应对各行各业出现的“数据爆炸、信息匮乏”的问题上发挥了很好的作用,该项技术最初多应用于金融业、保险业和商业领域,随着影响力的扩大,逐步扩展到医疗保健、运输业、行政司法、通信业等社会部门以及科学和工程研究单位。近十年间,数据挖掘技术在教育领域也受到越来越多专家和学者的关注,原因是教育领域信息化管理提供了大量的数据资源,但这些资源的利用非常有限,没有对后续教育教学工作发挥应有作用,因此越来越多的组织和大学把教育数据挖掘EDM(Educational Data Mining)作为研究对象,尝试将各种各样的数据挖掘方法应用于教育领域中,目的是从学校的数据中发现新的知识,帮助教师和管理人员改进方法、提高效能。

1.2 分析主题

本文基于实现对某高职院校学生进行成绩综合分析的目的,拟确定以下几个分析主题:

主题一、分析学生成绩与学生的录取专业、生源所在地、性别等学生信息之间的关联,为招生部门制定招生计划,为教学管理部门在设置专业及专业方向等方面提供决策帮助。

主题二、分析学生成绩与公共基础课、专业理论课和专业实践课之间可能存在的各种关联及关联的程度,为教学管理部门和各系制定人才培养方案提供参考依据。

主题三、分析学生成绩与授课教师年龄、学历、职称之间的关联,为各专业师资配置提供合理化建议,进而辅助学校人事和教学部门科学制定教师职业规划、教师培训等一系列师资队伍建设工作。

1.3 数据ETL

由于数据挖掘技术依赖于经过良好组织和预处理的数据源,数据源的好坏直接影响着数据挖掘的效果,因此构建纯粹用于数据挖掘分析的数据仓库的非常重要,该过程从各种数据源中根据分析主题抽取数据,并完成对数据的清洗和转换且最终加载到数据仓库中,为后续的数据挖掘提供了良好的数据环境。数据的这种预处理过程称为ETL(Extract/Transformation/Load),指根据分析主题,从单一或异种数据源中抽取出所需的数据,经数据清洗、转换等,按照预先定义好的数据仓库模型,将数据加载到数据仓库中,为数据挖掘提供数据平台。ETL的设计与实施占据整个工作量的70%,是工作量最大、费时费力最多的环节,这也显示了它在实现数据挖掘过程中的重要性。

本文以2007级各专业学生成绩和学籍信息,共计13个专业,22个班级,932名学生和287名教师的基本信息为分析对象,这些数据在未处理前存在一些问题:比如在教师基本信息中,有较多的外聘教师的学历、职称等信息不详,甚至有部分外聘教师的出生日期以录入的时间的形式存在等等,又比如教务管理系统中存在 “异名同义”的现象,例如课程名称为“计算机平面设计”和“PS图形图像处理”,事实上表示的是同一门课程。数据的清洗就是针对以上这些问题,对数据中的杂质、噪声、不一致、不规范、遗漏等情况加以处理。数据转换在数据预处理过程中也尤为重要,该文拟分析07级各个专业学生的成绩,因不同专业课程不同,且课程的性质、学分以及总学时的差异,在分析前必须进行相应的成绩换算,处理方法是将学生在校学习期间的所有课程分数乘以相应的学分数的求和除以所有课程学分的总和,得到该生的平均学分绩,以期达到客观比较学生在校成绩优劣的效果。

1.4 聚类K-means算法

聚类(Clustering)分析是数据挖掘技术的重要内容之一,它能从潜在的数据中发现有意义的数据分布模式,现已广泛应用于模式识别、数据分析、图像识别以及其他许多方面。聚类是指在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组。它的重要特征是“物以类聚”,即要求同一类的数据对象尽可能相似,而不属同一类的数据对象尽可能相异,随后观察每个类(一类数据集称为一簇)的特点,集中对特定的簇做进一步的分析。

K -means算法,也被称为K -平均或K -均值,是一种得到最广泛使用的聚类算法。它的核心思想是通过迭代把数据对象集划分到不同的簇中,以目标函数最小化为止,从而使生成的每个聚类内紧凑、独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。

K均值算法流程:

1)随机取K个元素,作为K个簇的中心;

2)分别计算剩余元素到各个簇中心的相异度,将这些元素分别划分到相异度最低的簇中。

3)根据聚类结果,重新计算各个簇的中心(计算方法是取簇中所有元素各自维度的算术平均)

4)将全部元素按照新的中心重新聚类。

5)重复第4步,直到准则函数收敛。

6)输出结果。

2 系统设计

3 模型评价

4 结束语

本文首先阐述了将数据挖掘技术引入高职教育学生成绩分析应用的可行性和重要性,并详细介绍了一种常用的数据挖掘方法——聚类分析算法K -means算法。围绕分析主题,以某高职院校07级毕业生在校成绩,以及相关联的师资和综合学籍信息等数据搭建数据仓库,利用Microsoft SQL Server 2008 平台构建基于分析主题的学生成绩数据挖掘模型,最终评价分析模型,找出潜在规律和影响学生成绩的因素,提供有效的教学决策支持。

参考文献:

[1] 黄伟.基于数据挖掘的高校招生管理信息系统的研究[J].硅谷,2009(21):98.

[2] 谢邦昌.SQL Server 2008 R2数据挖掘与商业智能基础及高级案例实战[M].北京:中国水利水电出版社,2011:3-8.

数据挖掘学习计划范文第13篇

【关键词】教学质量;数据仓库;成绩管理

一、学生成绩管理的现状

随着高校办学规模的不断扩大以及学校专业的不断增多,均使得学校的教育管理工作变得越来越复杂化,越来越难管理,特别是针对学生成绩信息的管理,由于学生的倍增,成绩的管理与维护工作更是艰难。做好成绩管理工作,对学校的发展拥有特定的实际意义,也是各个学校最为关心并且要迫切解决的重要问题,所以随着学校对成绩信息资源利用要求的提高,原本的成绩管理模式已经不能够再满足学校的实际应用需求,只有设计更为有用的,能够挖掘出学生成绩价值信息中隐藏的价值,才是最符合学校应用的应用系统。

二、学生成绩管理的作用

在高等学校的发展过程中,教学质量,一直都是各个高校最为关注的重点问题,而学生的成绩是各个学校教学质量优劣的一个最重要的体现,因此,如何促进学校全体学生更好的提升学习成绩,关系到学校的长远发展计划,而对学生的成绩管理分析工作,是一个系统化的工作,所以通过对学生成绩的综合分析,明确学生在学习过程中的不足,有针对性的为学生解决学习上的困难,提升学生的整体综合素质与学习成绩,不管是对学校还是生活个人都拥有非常重要的积极促进作用。

三、数据挖掘技术成绩管理分析

数据挖掘技术在成绩管理中的应用,主要体现在学生成绩分析、考试题目优化、教学评价、教学方式选择以及课程的合理设置等几个方面。

(一)学生成绩分析。学生的主要任务就是学习,学习成绩也是学生在校期间表现优劣与否的最直观的体现,也是学生在校期间所学知识掌握程度的最直观的表现方式,所以对学生提供一个全面客观的评价,是学校应该拥有的责任,也是对学生最好的关爱表现方式,然而在学校的成绩管理工作进行时,通常的做法只是简单的把学生的考试成绩录入到学校的系统软件,而通过数据挖掘技术对学生成绩进行分析之后,可以充分的找出学生成绩优劣与否与学生自身、与学校环境以及教师的教学质量之间的关系,进而为更客观的评价学生成绩的高低是学生自身原因造成的还是与学校有直接的关联,为进一步的更好的学习计划的制订提供了理论依据。

(二)考试题目优化。考试的目的是为了更好的检验教师的教学效果以及学生的学习成果,是教学过程中一个重要的阶段。学校在教学时,通常是以期末考试成绩为评价学生的学期成绩的一个重要标准,然而在不同的考试教学下,学生的考试成绩是不相同的,如果仅仅以成绩评定一个教师或者学生是不客观的,为了更好的评定教学效果及学生学习的成果就要发掘学生成绩高低相关的影响,是试题较难还是教师教学方式的问题,因此就需要对这些因素进行分析,以探索更为有效的方法来评价试题的难易与成绩的关系,进而为下次试卷的出题提供帮助。

(三)教学评价。评定学生对新接触事物理解及掌握程度是教育工作者的一个重要职责,通过对学生学习成绩的评定,可以触发学生的学习动力,也是考查学生真实水平的一种比较有效的方式。在学生成绩评价时,教师也要注意评价内容要客观全面、评价方式多样并注重自评与互评的结果,获取成绩评价数据才是最可靠有效的。针对学校不同学生的不同成绩评价数据,可以利用数据挖掘工具,对这些数据进行挖掘分析,通过工具获取不同学生最终的成绩结果,进而可以更客观的排除人为因素对学生评价的影响,也可以对学生的不足及时给予及时指正改正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。

(四)教学方法选择。不同的教师在教授课程时因为人员之间的差异,使用的教学方式也互不相同,也因此导致了学生考试成绩可能也互不相同,为了消除因教师教学方式差异给学生成绩造成的危害,就需要对不同教师教学模式下学生的成绩信息进行分析,以选择更优的教学方式实现对学生的教学,学生成绩数据挖掘技术的应用正好可以满足这一要求,通过对不同教学方式下学生成绩差异的研究,可以协助教育工作者更好的判别采取何种教学方式对学生学习才更有帮助,进而提高学生的整体学习水平。

(五)课程合理设置。许多课程之间往往还存在着一定的关联关系,拥有固定的先后顺序,只有把前修课程学习完成之后才可以继续接下来的课程学习,否则会直接影响后续课程的理解与接受,影响学生的正常学习;在高等学校,通过对成绩数据价值信息的挖掘,可以利用学校成绩数据库中存放的历届学生各科考试成绩信息结合数据挖掘的相关技术进行分析,并通过相关的数据挖掘算法分析这些数据信息中隐藏的潜在的影响学生学习的价值信息,最终找出影响学生考试成绩的原因,并根据这些原因制订出相应合理的课程安排计划,为学生更好的学生服。

(六)学生特征挖掘。通过成绩与环境因素的影响数据挖掘的研究,教师可以很好的掌握每个学生的学习状况,学生个人特征,并根据学生之间的不同差异,因材施教,最终把学生往更好的学习发展方向引导。为了更好的研究这一关系,可以利用数据挖掘工具,对学生学习成绩数据进行挖掘分析,通过挖掘工具的分析,不但可以获取不同学生最终的成绩结果,而且可以更客观的排除人为因素对学生评价的影响,最终对学生的不足及时给予及时校正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。

参考文献:

[1]张兴科,王浩. 通过数据挖掘技术预测学生学习成绩[J]. 科技信息(科学教研), 2007,(22) :198-206.

[2]李雪燕.数据挖掘在高校成绩管理中的研究和应用[J].计算机与数字工程,2011,(07):267-278.

数据挖掘学习计划范文第14篇

关键词 数据挖掘 决策树 成绩分析

中图分类号:TP311.13 文献标识码:A

0引言

随着我国高等教育信息化建设的快速发展,许多高校都已经建立起了校园精品课程、数字化图书馆、网络实验室等信息化应用,在知识共享上不断完善求新。同时,校园服务、校园信息、在线教学等数字化校园平台的建设实现了数据的共享与系统的整合。

传统的学生成绩分析还停留在简单的查询及简单的数字统计阶段。如查询某个学生的某门课程的成绩,统计某门课程的优、良、中、差各个成绩段的学生人数,统计成绩的均值、方差、置信度等。己有的分析研究仅仅从理论上对可行的评价机制进行讨论,而隐藏在这些数据后的其他有用信息很难能够发掘出来。

另一方面,信息化应用中获取的大量教学信息使得各种新的属性不断出现,增加了学生的信息存量,大量的学生信息以及学习数据没有发挥其相应的作用。这些信息从一定的角度上反映了学生在新的教学模式下所特有的学习行为,为研究学生的学习行为提供了依据与基础。本文就是在这些大量的数据基础上,结合数据挖掘的决策树分类技术,从学生的学习成绩入手,收集、整理和分析学生的行为信息,总结和发掘在新的学习模式下对教学质量及其学习效果的影响,为教师日常教学和学生学习的改进提供依据。

1数据挖掘技术综述

数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用、可信的信息和知识的过程 。是一门广义的交叉学科,它的发展和应用涉及到不同的领域,尤其是数据库、人工智能、数理统计、可视化、并行计算等 。

数据挖掘技术有两大基本功能,即描述功能和预测功能。描述功能是指描述数据库中数据的一般性质。预测功能是指对当前数据进行推断,以便做出预测。

数据挖掘研究的对象是大量隐藏在数据内部的有价值的信息,如何获取有价值感兴趣的信息是我们所要解决的主要问题。接下来简单介绍数据挖掘中应用较为广泛的常用的一些技术。

1.1决策树方法

决策树算法的目的是通过向数据学习,获得输入变量和输出不同取值下的数据分类和预测规律,并用于对新数据对象分类的预测。

1.2关联规则

关联规则用来揭示数据与数据之间未知的相互依赖关系。由一个条件和一个结果组成的,形如 IF...THEN 的简单形式就叫做规则,关联规则挖掘就是扫描整个数据集,从中找出具有给定的最小支持度和最小置信度的关联规则。其中最具代表性的是R.Agrawal 提出的 Apriori 算法。

1.3神经网络

神经网络是以人脑为基础的抽象模型,它模拟真实人脑神经网络的结构和功能,将众多结构和功能极其简单的神经元通过各种方式联接成一个复杂的网络结构,以实现复杂的智能行为,构成一个类似于人脑结构的非线性预测模型,通过学习进行模式识别。神经网络具有两大特点――自学能力和自适应能力。

1.4聚类分析

聚类是将数据集分成若干不同的类,使得在同一类的数据对象尽可能相似,而不同类中的数据尽可能相异。聚类与分类的根本区别在于:分类需要事先知道所依据的对象特征,而聚类是在不知道对象特征的基础上要找到这个特征。

以上介绍了数据挖掘的基本知识,包括数据挖掘的概念、数据挖掘的功能、数据挖掘的过程及步骤,以及数据挖掘中常用的各种技术。而且现在的数据挖掘软件,不管是开源还是商用都已经很成熟了,也提供易用的可视化界面,集成了数据处理、建模、评估等一整套功能。本文尝试使用Spss modeler[7,8]数据挖掘工具,采用决策树分类技术,对所采集的学生考试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和预测成绩数据。

2高校学生成绩的决策树模型

2.1决策树技术

决策树技术是通过学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对测试集的分类预测。它主要由两个阶段组成。

第一阶段,建树阶段。选取训练数据集进行学习,导出决策树。建树的流程图如图1所示:

第二阶段,剪枝阶段。用测试数据集检验决策树,如果所建立的决策树不能正确的回答所研究的问题,我们要对决策树进行剪枝以解决过分适应数据的问题,直到建立一棵正确的决策树。剪枝的目的是降低由于训练集的噪声而产生的起伏。

决策树技术之所以是数据挖掘领域中运用较多的分类和预测主要技术,原因有三:一是决策树构造的分类器易于理解;二是采用决策树分类,其速度快于其他分类方法;三是采用决策树的分类方法得到的分类准确性优于其他方法。

SPSS Modeler提供了包括C5.0、CHAID、CART和QUEST在内的经典决策树算法,C5.0是在决策树的ID3算法基础上发展起来的。决策树的核心问题之一是决策树分枝准则的确定,C5.0以信息增益率为标准确定最佳分组变量和分割点。其关键的概念是信息熵。

2.2学生成绩分析

分析影响学生成绩的因素,可以通过数据挖掘技术从定量的角度精确展现学生成绩分析的多个方面,找出影响学生成绩的主要因素,以此来帮助教师和教学部门制订相应的措施,有利于提高教学质量和增强教学效果。因此,本文采用SPSS Modeler14.1数据挖掘工具,对采集的学生考试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和预测成绩数据。具体的信息挖掘的操作步骤如下:

2.2.1确定挖掘对象、目标及其数据采集

以本校2014-2015 年度第一学期所讲授的“计算机大学基础”为例,对象是 2014 的部分学生,共 931人。希望根据学生的考试情况来分析挖掘出哪些因素对学生成绩有影响。数据的采集来自于考试系统中导出的数据。计算机大学基础考点所占的分数如下:单项选择15分、填空5分、windows基础知识10分、计算机网络10分、word操作20分、excel操作20分、ppt制作10分、access数据库10分,总计100分。由考试系统导出的数据中包含了考生的基本信息如姓名、班级、学号和机器号等信息。也包含了考生所做试卷的编号及其交卷后的剩余时间等重要信息。

2.2.2数据的预处理

所收集的原始数据还不能直接用于挖掘,因为这些数据一般是不完整的、含噪声的、不一致的,需要对这些数据进行预处理,以提高数据挖掘对象的质量,有助于提高后面挖掘过程的精度和性能。因此,对数据变量的管理和样本管理是建立数据模型的前提和基础。图2表示了对学生成绩数据进行的预处理数据流,其中包含了对数据源的追加、合并、填充和过滤。最终确定了进行分类的重要输入字段为:单选、填空、widows、网络、word、excel、ppt、access、试卷编号和剩余时间(已经将时间格式转换为以秒为单位);分类的输出即目标确定为考生的大学计算机基础成绩(已经将其离散化为好、中、不及格),为后续的建模做准备。

2.2.3决策树在学生成绩分析中的应用

决策树的生长过程本质是对训练样本反复不断递归过程, 根据SPSS Modeler提供的的C5.0算法、QUEST算法、CHAID算法和CART算法,对预处理后的数据流分别进行建模和比较,具体的算法思想和内容不再赘述,其建模的流程和C5.0算法结果如图3所示:由图3(b)中的模型结果可以看出评估模型中每个预测变量的相对重要性。通过这一点,我们看到Excel成绩在此个案中最显著,而其他变量的因子依次为:Access、填空、单选、ppt、word等成绩。这也说明了Excel,Access和填空对学生来说不容易得分,大部分同学掌握还有待加强。而学生对ppt、word、网络和windows题目掌握较好。

由图4所示的分析结果可以看出:经过剪枝的决策树模型的准确率为达到了88.1%,模型提取的分类的成绩结果为“好”的规则如图4(a)所示。由决策树提取的分类规则对大学生英语学习有着重要的指导作用,同学们可以根据自己实际学习情况,参考决策树挖掘结果,找出自己的学习薄弱环节,进行针对性的学习训练,对通过大学计算机考试的几种情况有所了解,为自己制定学习计划和学习目标提供参考。从上面的规则我们可以看出:在考试中,单选、excel和Access部分的得分对考试成绩为“好”的影响是最为重要的,其次是填空和word,其余部分对考试的影响较小。因此,同学们在准备考试的时候可以将excel和Access作为重点来进行强化训练,提前调整自己的学习计划、完善自己的学习方法、科学的提高学习成绩。

此外,由图4(b)和图5所示的模型对比结果可以看出:经过剪枝的决策树C5.0算法模型的测试和训练的准确率比其他几个分类算法要高。模型一致性误差对比可以看出:在检验的样本集合上,4个模型对255个样本有相同的预测值,占52.9%。225个样本预测结果不同,占47%。可见,4个模型预测结果相同的比例属于中等水平;进一步,在相同预测结果的255个样本中,有232个预测正确,占91.7%,21个预测错误占8.3%。因此,模型的总体预测精度一般,根据分析可进行样本的平衡处理或在模型参数上更细致的调整。

3小结

本文研究数据挖掘技术中的决策树模型,采用SPSS Modeler工具软件对大学计算机基础的考试成绩进行分析,通过数据预处理,为决策树模型准备数据,实现了成绩分类挖掘的全过程,通过生成的决策树规则分析计算机大学基础考试中的题型对考试成绩的影响情况,从中找出规律指导考生调整学习计划、完善学习方法、科学有效提高学习成绩。从实验分析的结果和模型的对比可以看出,该决策树模型的分类效果是良好的。

参考文献

[1] 伍顺比.新世纪我国高等教育信息化的回顾与展望[J].教育探索,2011(6):135-137.

[2] 孙名松,周梦熊,李胜利,基于UML的高校教育信息化评价系统的模型研究[J].大连理工大学学报,2005(45):287-290.

数据挖掘学习计划范文第15篇

1数据挖掘的含义

数据挖掘,英语为“DataMining”,意为从海量的不完整的辨识度不清晰的人类使用信息中,找到其中人们不能一眼发现但是有助于人们需求的那部分信息。由此可见,数据挖掘是一种数据整理和分析的过程。数据挖掘作为一种高等信息手段,包涵了许多学科,它将以往的基本信息转化为高级信息并进行分类加以搜索,从大量的信息数据中,找到所需要的来辅助决策。其中,信息库、自动化、逻辑领域它都有所涉及和运用。传统的信息整理系统,只是简单的信息整合与分类,不存在搜索功能。相对于此,数据挖掘的优势在于提取、整合、筛选三者合一,大量的节省了人们的时间,提高了办事效率。一般来说,数据挖掘的过程可以概括为:数据清理、数据收集、数据选择、数据变换、数据挖掘、数据评估、知识表现这七大步骤。

2数据挖掘方法在计算机教学中的运用

2.1数据挖掘与教学质量评价

传统的教学模式下,要了解学生对于老师教学的满意程度,通常会采取两种方式:其一,面对面谈话;其二,通过填写意见表或反馈表。这两种方式都存在一个明显的弊端,学生与老师的接触过于直接,这样的模式下,很多学生不敢正面表达对老师的意见。对于计算机这门新学科来说,学生对于它的陌生度很高,如果老师的教学质量不能得到保证,学生也无法获取到有用的知识。随着信息技术在新兴教学系统的运用,数据挖掘被利用到了教学质量评价之中,计算机的教学评价也被纳入其中。通过建立教育质量评价系统的方式,让学生充分放心的提出教学意见或建议,能够对教师的综合教学水平进行公正的评价,极大程度上提高了教学质量。对于计算机教学这种新型学科来说,能提高学生对于学科的正确认识,端正学习态度。

2.2数据挖掘与计算机考核

传统的考试以试卷为主,试卷的批改则以老师为主。而数据挖掘运用于计算机考试之中,考试的模式从纸质试卷,变成了计算机的模拟操作。从学生的操作答题到学生最后试卷的得分上进行综合性的分析,能够有效的发现学生在计算机学习中存在的不足之处。不仅很大程度上减轻了老师的压力,而且计算机批改更为标准化,相对来说会给人更公正的感觉,避免了学生的不悦情绪。数据挖掘运用到计算机考核中,能够清楚地了解到学生在教学上的需求,从而再结合教学质量评估中,学生对于老师的教学要求。可以提高教学质量,推动学生对于计算机学习在总体学习。

2.2数据挖掘与学生兴趣和教学

数据挖掘通过对聚类分析法的运用,可以将学生按照兴趣分为多个类别,引导老师在教学中,针对性教学,以提高教学的质量。数据聚类是数据挖掘中的一个分类,是指对于静态数据分析的一门技术。它是把相似的对象通过静态分类的方法区分出不同的组别或者多个子集,而存在于一个子集或组别的对象都会有相似的属性。通过应用这种数据挖掘的技术,可以分析出大学生对计算机的学习兴趣。大致可分为三类:第一类,接触计算机较少,在日常生活中遇到的问题也极少会用计算机来解决,所以这类学生不会对计算机的学习有多大的兴趣。第二类,对计算机的接触频率不高,但是他们对计算机的认知正确并表示接受,采用分组学习时也不会有什么意见。第三类,接触计算机比较频繁,对其有着浓厚的兴趣甚至是依赖心理,这类人在计算机的学习上会充分发挥自己的主观能动性,积极的找资料,问老师,通过自学能基本满足大学生计算机基础知识的学习。由此可见,数据挖掘方法下分析出来,学校有必要改进现有的计算机授课方式。

2.3网络教学系统的引入

任何一门课程都是一个庞大的知识系统,对于学生的学习,多半知识基础理论知识的教学,在这个层面上来说,我们在教学活动中要注意要难点的掌握。要点时,老师一般会花较多的时间去分析,去深入,而面对有的知识,通常会一笔带过。这样的差距,对于某些好学的学生来说,会相当难以接受。在计算机的教学上,引入网络教学系统,赋予学生满足自身知识需求的一个通道,网络实际就是一个巨大信息库,里面有各种的知识,学生可以通过网络去学习自己想要了解但是老师并未给出详细教学的知识。而这种网络教学系统实际上就是数据挖掘的网络表现形式,由此可见,数据挖掘形式被多方运用于计算机教学之中。

2.3数据挖掘与计算机学习状况

计算机学习状况是计算机教学中老师们最为关注的问题。传统对学习状况的了解是日常老师的观察加上考试成绩的分析,从而得出一个学生对于计算机学习的优良问题。而在数据时代今天,学生评测系统已经出现,它也是利用了数据挖掘的原理,所创建的一种符合当下教学需求的软件。通过对学生考试答题的情况进行分析,了解到学生对应的知识漏洞,可以反映出学生对于知识点的掌握情况,同时,这样的方式不掺杂人的感情因素,会更为客观。虽然老师的观察能力不可置否,但是,长期的教学活动会让他们的情绪有偏颇,难免出现评判学生有失公正的现象。计算机评估学生的学习情况,还可以制定出对应的学习计划,生成复习方案。在测验完毕后,可以将所有的信息都发给学生,让其自身去补充自己的不足。对于教师教学,学生学习都有很大的帮助。

3数据挖掘对于计算机教学的意义

数据挖掘是一种很是独特的信息整理方法,在将数据挖掘运用于计算机教学的过程中,从微观上来说,数据挖掘运用于计算机教学,有助于改善计算机教学的现状,帮助教师分析自己在教学方式上存在的不足,帮助学生分析自己在学习过程中存在的缺失,推动计算机整个学科了解计算机教学对于社会的意义,以及什么样的教学内容才是对实践有用;从宏观上来说,这实际上是数据挖掘与计算机相结合的一个过程。有助于教育系统的强化和完善,从教学质量评价到学习质量评估,都是在分析教与学两个过程中的不足,并以更为科学严谨的方式,给教学活动制定合适的方案,用实践的方式帮助学生了解计算机学习的意义,推动学生的计算机学习。

4结束语