数据信息与知识论文(2)

实用文时间：2021-08-31 手机版

三 KDD（DM）的任务技术和应用

　　利用DM（KDD）技术可以完成多项决策所需任务，但大致可分为下述几方面：预测：从事例中求得模式，构造模型以预测目标度量。分类：找出一函数能使每事例映射到某种离散类别之一。查出关系：搜索到对某选定目标变量最有影响的其它独立变量。显式模型：找出描述不同变量间依赖关系的显式公式。聚类：认定出描述数据的类别的有限分组。偏离检测：从数据已有或期望值中找出某些关键测度显著的变化。

　　由于上述任务的不同，就需要采用不同的技术方法和手段，因而在市面也出现种类繁多的商品工具和软件。大致可以归纳为下列主要类型：

　　传统主观导向系统：这是针对专业领域应用的系统。如基于技术分析方法对金融市场进行分析。采用的方法从简单的走向分析直到基于高深数学基础的分形理论和谱分析。这种技术需要有经验模型为前提.属于这类商品有美国的Metastak,SuperCharts,Candlestick Forecaster 和Wall Street Money等

　　传统统计分析：这类技术包括相关分析回归分析及因子分析等。一般先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用，同时在数据探索过程中，用户需要重复进行一系列操作。属于这类商品有美国的SAS,SPSS和Stargraphis等。由于近年来更先进的DM方法的出现和使用，这些厂商在原有系统中综合一些DM部件，以获得更完善的功能。

　　以上两种技术主要基于传统的数理统计等数学的基础上，一般早已开始用于数据分析方面。

　　神经元网络（NN）技术：神经元网络技术是属于软计算（Soft Computing)领域内一种重要方法，它是多年来科研人员进行人脑神经学习机能模拟的成果，已成功地应用于各工业部门。在DM（KDD）的应用方面,当需要复杂或不精确数据中导出概念和确定走向比较困难时，利用神经网络技术特别有效。经过训练后的NN可以想像具有某种专门知识的“专家”，因此可以像人一样从经验中学习。NN有多种结构，但最常用的是多层BP（back propagation）模型。它已广泛地应用于各种DM（KDD）工具和软件中。有些是以NN为主导技术，例如俄罗斯的PolyAnalyst,美国的BrainMaker,Neurosell和OWL等。NN技术也已广泛地做为一种方法嵌入各种DM成套软件中。其缺点是用它来分析复杂的系统诸如金融市场，NN就需要复杂的结构为数众多神经元以及连接数，从而使现有的事例数（不同的纪录数）无法满足训练的需要。另外由受训后的NN所代表的预测模型的非透明性也是其缺点，尽管如此，它还是广泛而成功地为各种金融应用分析系统所采用。

　　决策树：在知识工程领域，决策树是一种简单的知识表示方法，它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的，因而比较易于理解，虽然在机器获取领域内，多年来已研制出不少实施决策树的有效算法（如ID3及其改进算法等）。但这种方法限于分类任务。在系统中采用这种方法的有美国的IDIS，法国的SIPINA。英国的Clementinc和澳大利亚的C5.0。

　　进化式程序设计（Evolutionary programming）：这种方法的独特思路是：系统自动生成有关目标变量对其他多种变量依赖关系的务种假设，并形成以内部编程语言表示的程序。内部程序（假设）的产生过程是进化式的，类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时，就对这程序进行各种不同的微小修正，生成子程序组，再在其中选择能更好地改进预测精度的子程序，如此依次进行，最后获得达到所需精度的最好程序时，由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式，如数学公式，预测表等。由于采用通用编程语言，这种主法在原则上能保证任何一种依赖关系和算法都能用这种语言来描述。这种方法也许是目前最年青的和最有前途的DN方法之一。这种是方法的商用产品还只见诸俄罗斯的Poly Analyst,据报导，它用于金融到医疗方面军的各种应用于，能获得者很好的结果。

　　基于事例的推理方法（CBR棗Case based reasoning)这种方法的思路非常简单，当预测未来情况或进行正确决策时，系统寻找与现有情况相类似的事例，并选择最佳的相同的解决方案，这种方法能用于很多问题求解，并获得好的结果，其缺点是系统不能生成汇总过去经验的模块或规则。采用这种方法的系统有美国的Pattern Recognition Workbench和法国的KATE tools.

　　遗传算法（GA棗Genetic Algorithms）：严格说来，DA不是GA应用的主要领域，它是解决各种组合或优化问题的强有力的手段，但它在现代标准仪器表中也用来完成DA任务。这种方法的不足之处是：这种问题的生成方式使估计所得解答的统计意义的任何一种机会不再存在。另外一方面，只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生成。在系统中包含遗传算法的有美国的GeneHunter.

　　非线性回归方法：这种方法的基础是，在预定的函数的基础上，寻找目标度量对其它多种变量的依赖关系。这种方法在金融市场或医疗诊断的应用场合，比较好的提供可信赖的结果。在俄罗斯的Paly Analyst以及美国的Neuroshell系统中包括了这种技术。

　　上面所列DM技术不可能是详尽的囊括，因为多年来数理统计分析以及AI与KE的研究提供了种类繁多特点各异的手段，DM开发人员完全可

　　以根据不同任务加以选择使用，另外近年来在软计算（Soft Comp-uting）和不确定信息处理（dealing with Uncertainty of information）方法的研究，促使DM（KDD）技术向更深层次发展。

　　另外需要说明的，上面所说的DM中的数据是指数据库中表格形式中的记录和条目,这种数据称作结构型数据（Structured data）。在一个企业中，还有一类像文本和网页形式的数据，称作非结构型数据(unstructured data)。它来自不同的信息源，如文本图像影视和音响等，当然文本是最主要的一种非结构数据.对一个企事业单位来说，非结构型数据往往占数据总量的80%，而结构型数据只占20%。1995年分析家已预言，像文本这样非结构型数据将是在线存贮方面占支配地位的数据形式。到1998年初，在Internet上的信息网页数，已超过5亿，到2000年，预计网页数将达到15亿。随着Internet的扩展和大量在线文本的出现，将标志这巨大的非结构型数据海洋中，蕴藏着极其丰富的有用信息即知识。人们从书本中获取知识方法是阅读和理解。开发一种工具能不需要阅读而能协助用户从非结构数据中抽取关键概念以及快速而有效地检索到关心的信息，这将是一个非常引人入胜的研究领域。目前，基于图书索引检索以及超文本技术的各类搜索引擎，能协助用户寻找所需信息，但要深入发掘这类数据中的有用用信息，尚需要更高层次的技术支持，人工智能领域有关知识表示及获取的方法（如语义网络概念映射等），和自然语言理解的研究成果，可望被采用。还可能要涉及到语言学心理学等领域。最近已出现针对文本的DM工具的报导。如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。

　　DM（KDD）工具和软件已在各个部门得到很好的应用，并收到明显的效益。在对客户进行分析方面:银行信用卡和保险行业，用DM将市场分成有意义的群组和部门，从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动。在客户关系管理方面:DM能找出产

　　品使用模式或协助了解客户行为，从而可以改进通道管理（如银行分支和ATM等）。又如正确时间销

　　售（Right Time MarKeting)就是基于顾客生活周期模型来实施的。在零售业方面:DM用于顾客购货篮的分析可以协助货架布置，促销活动时间，促销商品组合以及了解滞销和畅销商品状况等商业活动。通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析，可以确定销售和广告业务的有效性。在产品质量保证方面:DM协助管理大数量变量之间的相互作用，DM能自动发现出某些不正常的数据分布，暴露制造和装配操作过程中变化情况和各种因素，从而协助质量工程师很快地注意到问题发生范围和采取改正措施。在远程通讯部门:基于DM的分析协助组织策略变更以适应外部世界的变化，确定市场变化模式以指导销售计划.在网络容量利用方面，DM能提供对客户组类服务使用的结构和模式的了解，从而指导容量计划人员对网络设施作出最佳投资决策。在各个企事业部门，DM在假伪检测及险评估失误回避资源分配市场销售预测广告投资等很多方面，起着很重要作用。例如在化学及制药行业，将DM用于巨量生物信息可以发现新的有用化学成分.在遥感领域针对每天从卫星上及其它方面来的巨额数据，对气象预报，臭氧层监测等能起很大作用。总之，在国外，DM已广泛应用于银行金融，零售与批发制造保险公共设施政府教育远程通讯软件开发运输等各个企事业单位。据报导，DM的投资回报率有达400%甚至10倍的事例。

本文来源：http://www.010zaixian.com/shiyongwen/2279485.htm

以上内容来自互联网，请自行判断内容的正确性。若本站收录的信息无意侵犯了贵司版权，请给我们来信(zaixianzuowenhezi@gmail.com)，我们会及时处理和回复，谢谢.

上一篇：教学研相结合的实验室建设与管理探索论文下一篇：用数据说话论文