人工智能_人工智能原理与应用第八章数据挖掘.ppt

资源描述

1、第八章数据挖掘,人工智能,华中师范大学计算机科学系,第八章数据挖掘,数据挖掘（Data Mining）是一个多学科交叉研究领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。经过十几年的研究，产生了许多新概念和方法。特别是最近几年来，一些基本概念和方法趋于清晰，它的研究正向着更深入的方向发展。数据挖掘技术正在以一种全新的概念改变着人类利用数据的方式，它被认为是未来信息处理的骨干技术之一，网络之后的下一个技术热点。,8.1 数据挖掘概述,8.1.1数据挖掘的定义数据挖掘（Data Mining）是一门受到来自

2、各种不同领域的研究者关注的交叉性学科，有很多不同的术语名称，除了常用的“数据挖掘”和“知识发现”之外，与数据挖掘相近的同义词有数据融合、数据分析、知识抽取、信息发现、数据采掘、知识获取、数据考古、信息收获和决策支持等。从技术的角度讲，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明

3、，只要能支持特定的发现问题即可。实际上，利用数据挖掘从数据集中所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。,8.1 数据挖掘概述,从商业的角度讲，数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。简而言之，数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史，只不过在过去数据收集和分析的目的是用于科学研究，另外，由于当时计算能力的限制，对大数据量进行分析的复杂数据分析方法受到很大限制。现在，由于各

4、行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。,8.1 数据挖掘概述,8.1.2数据挖掘与数据库中的知识发现（1）KDD看成数据挖掘的一个特例数据挖掘系统可以在关系数据库、事务数据库、数据仓库、空间数据库（Spatial Database）、文本数据（Text Data）以及诸如WEB等多种数据组织形式中挖掘知识，既然如此，那么可以说数据库中的知识发现只是数据挖掘的一个方面，这是早期比较流行的观点。因此，从这个意义说，数据挖

5、掘就是从数据库、数据仓库以及其它数据存储方式中挖掘有用知识的过程。这种描述强调了数据挖掘在源数据形式上的多样性。(2)数据挖掘是KDD过程的一个步骤在“知识发现96国际会议”上，许多学者建议对这两个名词加以区分。核心思想是：KDD是从数据库中发现知识的全部过程，而Data Mining则是此全部过程的一个特定的、关键步骤，这种观点有它的合理性。虽然我们可以从数据仓库、WEB等源数据中挖掘知识，但是这些数据源都是和数据库技术相关的。数据仓库是由源数据库集成而来的，即使是像WEB这样的数据源恐怕也离不开数据库技术来组织和存储抽取的信息。因此KDD是一个更广义的范畴，它包括数据清洗、数据集成、数据

6、选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。这样，我们可以把KDD看作是一些基本功能构件的系统化协同工作系统，而数据挖掘则是这个系统中的一个关键的部分。,8.1 数据挖掘概述,（3）KDD与Data Mining含义相同也有些人认为，KDD与Data Mining只是叫法不一样，它们的含义基本相同。事实上，在现今的文献中，许多场合，如技术综述等，这两个术语仍然不加区分地使用着。也有人说，KDD在人工智能界更流行；Data Mining在数据库界使用更多。所以，从广义的观点，数据挖掘是从大型数据集（可能是不完全的、有噪声的、不确定性的、各种存储形式的）中，挖掘隐含在其中的、人们事先不

7、知道的、对决策有用的知识的过程。从上面的描述中可以看出，数据挖掘概念可以在不同的技术层面上来理解，但是其核心仍然是从数据中挖掘知识。从本质来讲，数据挖掘与知识发现是有区别的，但是在很多场合人们往往不严格区分数据挖掘和数据库中的知识发现，两者互为使用。一般在科研领域中称为KDD，而在工程领域则多称为数据挖掘。,8.1 数据挖掘概述,8.1.3数据挖掘研究的理论基础数据挖掘方法可以是基于数学理论的，也可以是非数学的；可以是演绎的，也可以是归纳的。从研究的历史看，它们可能是数据库、人工智能、数理统计、计算机科学以及其它方面的学者和工程技术人员，在数据挖掘的探讨性研究过程中创立的理论体系。1997年

8、，Mannila对当时流行的数据挖掘的理论框架给出了综述。结合最新的研究成果，有下面一些重要的理论框架可以帮助我们准确地理解数据挖掘的概念与技术特点。模式发现架规则发现架构基于概率和统计理论微观经济学观点基于数据压缩理论基于归纳数据库理论,8.1 数据挖掘概述,8.1.4数据挖掘与其它数据处理方法的区别及联系1数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知，有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的，既数据挖掘是要发现那些不能靠

9、直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值，在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。2.数据挖掘和数据仓库大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中（见图8.1）。从数据仓库中直接得到进行数据挖掘的数据有许多好处。,8.1 数据挖掘概述,数据仓库的数据清理和数据挖掘的数据清理差不多，如果数据在导入数据仓库时已经清理过，那很可能在做数据挖掘时就没必要在清理一次了，而且所有的数据不一致的问题都已经被解决了。数据挖掘库可能是数据仓库的一个逻辑上的子集，而不一定非得是物理上

10、单独的数据库。但如果数据仓库的计算资源已经很紧张，那最好还是建立一个单独的数据挖掘库,图8.1 数据挖掘苦聪数据仓库中得出,8.1 数据挖掘概述,3.数据挖掘和在线分析处理（OLAP）数据挖掘和OLAP是完全不同的工具，基于的技术也大相径庭。OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉人们数据库中都有什么，OLAP则更进一步告诉人们下一步会怎么样和如果人们采取这样的措施又会怎么样。用户首先建立一个假设，然后用OLAP检索数据库来验证这个假设是否正确。数据挖掘与OLAP不同的地方是，数据挖掘不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。它在本质上是一个归纳

11、的过程。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前，也许要验证一下如果采取这样的行动会带来什么样的影响，那么OLAP工具能回答这些问题。,8.1 数据挖掘概述,4.数据挖掘与机器学习和统计分析方法数据挖掘利用了人工智能（AI）和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反，它是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。而随着计算机计算能力的不断增强，我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成

12、同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，它们几乎不用人的关照自动就能完成许多有价值的功能。,8.1 数据挖掘概述,8.1.5数据挖掘的内容随着DM和KDD研究逐步走向深入，数据挖掘和知识发现的研究已经形成了三根强大的技术支柱：数据库、人工智能和数理统计。因此，KDD大会程序委员会曾经由这三个学科的权威人物同时来任主席。目前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。数据挖掘所发现的知识最常

13、见的有以下四类。广义知识关联知识分类知识预测型知识,8.1 数据挖掘概述,8.1.6数据挖掘的研究历史和现状数据库中发现知识（KDD）是在 1989 年召开的第 11 届国际人工智能联合学术会议(IJCAI)上首次提出的。在这届学术会议上举行了以 KDD 为主题的学术研讨会，在 1991 年、1993 年和 1994 年相继举行了 KDD 专题研讨会。随着 KDD 的深入研究以及 KDD 在许多领域的成功应用，于 1995 年在加拿大召开了第一届知识发现和数据挖掘国际学术会议，此后每年都召开大规模的国际会议，其研究重点也逐渐从发现方法转向系统应用，注重多种发现策略和技术的集成，以及多种

14、学科之间的相互渗透。第一本关于 DM和KDD 的国际学术杂志 Data Mining and Knowledge Discovery 也于 97 年 3 月创刊发行。亚太地区于 1997 年在新加坡召开了首次 KDD 研讨会，其后又在澳大利亚的墨尔本召开了第二届，在中国北京召开了第三届。目前，在 IJCAI、AAAI、VLDB、ACM-SIGMOD 等代表人工智能与数据库技术研究最高水平的国际学术会议上，数据挖掘和知识发现的研究都占有较大的比例，数据挖掘和知识发现的研究已经成为当今计算机科学与技术研究、应用的热点领域之一。,8.2 数据挖掘技术简介,根据挖掘的任务可以分为：分类和预测模型发现、

15、数据总结和聚类、关联规则发现、序列模式发现、相似模式发现和混沌模式发现等。根据挖掘对象来分，数据挖掘方法有面向关系数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、面向对象数据库、异质数据库以及WEB信息等。根据挖掘方法来分，数据挖掘方法可分为机器学习方法、统计方法、神经网络方法和数据库方法。其中机器学习可细分为归纳学习方法、基于范例学习、遗传算法等；统计方法可细分为回归分析、判别分析、聚类分析、探索性分析等；神经网络方法可细分为前向神经网络、自组织神经网络等；数据库方法主要是多维数据分析或联机分析方法，另外还有面向属性的归纳方法。,8.2 数据挖掘技术简介,8.2.1分类和预测分类

16、是数据挖掘中一项非常重要的任务，目前在商业上的应用最多。分类的目的是提出一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测，预测的目的是从历史数据记录中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。分类的效果一般和数据的特点有关，有的数据噪声大，有的有缺省值，有的分布稀疏，有的字段或属性间相关性强，有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合各种特点的数据。下面介绍几种常用的分类算法。,8.2 数据挖掘技术简介,1决策树构造一个决策树分类器通常分为两步：树的生成和剪枝。树的生成采用自上而下的递归分治法。如果当前训练例子集合中的所有实例是同类的,构造一个叶节点,节点内容即是该类别。否则,根据某种策略选择一个属性,按照该属性的不同取值,把当前实例集合划分为若干子集合。对每个子集合重复此过程,直到当前集中的实例是同类的为止。剪枝就是剪去那些不会增大树的错误预测率的分枝。经过剪枝,不仅能有效的克服噪声,还使树变得简单,容易理解。生成最优的决策树同样是NP问题。目前的决策树算法通过启发

展开阅读全文