| 中国ERP http://www.e-erpchina.com 上载时间:2007-08-03 | |
|
“数据”的含义很广,不仅包括123、678这样的数字,还包括“abc”、“王海”、“2006- 10-12”等以字符、日期形式存在的数据。这里讨论的数据泛指计算机系统中存储的任何数据 ,例如:文本、数据、图像、视频……等等。随着国民经济和社会信息化的飞速发展,人们在 计算机系统中存放的数据量越来越大。我们发现这些数据是人们工作、生活和其他行为的记 录,是企业和社会发展的记录,也是人与自然界本身的描述。这就是说在计算机系统中形成 了庞大的"数据资源"。因此,发现这些数据所含的规律也就是发现我们工作、生活和社会发 展中的规律,发现人与自然界的规律,就相当于在数据资源中发现金矿。这就是数据资源的 开发利用,是非常有价值的工作。而数据挖掘是目前最先进的数据资源开发利用技术。 最经典和流传最广的故事。 据仓库系统。为了能够准确了解顾客在其门店的购买习惯,沃尔玛利对其顾客的购物行为进 行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店 的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用NCR数据挖掘工具对这些数 据进行分析和挖掘。一个意外的发现是:“跟尿布一起购买最多的商品竟是啤酒!” 实情况吗?是否是一个有用的知识?是否有利用价值? 调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些 年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一 些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而 丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 放在一起,结果是尿布与啤酒的销售量双双增长。 分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 和信息,从而利用这些知识来指导我们的活动,这便是数据挖掘的初衷。 |
|