1.3 文献综述

1.3.1 AHP群决策综述

层次分析法(AHP),是由美国学者Saaty提出的一种用于解决多目标、多方案的优选和排序问题的一种决策分析方法[37-38]。在实际的管理决策过程中,该方法被广泛地应用在各个领域,如生产制造、组织管理、商业分析、业务流程评估、物流优化、供应链管理、金融、保险、风险评估、科技成果评价等[36,39-40]。AHP的基本原理是根据目标问题建立决策层级结构,通过专家咨询和专家评分获得两两对比判断矩阵,据此计算其最大特征值和其特征向量,通过一致性测试,诱导而获得各备选方案的最终排序。

随着科技的迅猛发展和社会的长足进步,决策问题变得越来越复杂,影响决策的因素也越来越多,并越发频繁。期待由某一个决策者作出客观、准确、科学的决策是十分困难的,理由归纳如下[41]:①决策往往具有时间压力或时效性,需要在某一段时间内甚至当即就要作出决策;②许多决策属性、准则很难定量化研究;③单一的专家或决策者会受到自身专业知识、经验背景、个人偏好的影响,尤其在处理现实的复杂问题时。

由于专家的个人偏好、专业知识和经验背景不同,由专家评分而获得的两两对比矩阵也不尽相同,存在一定的主观性。在面对现实中复杂的决策问题时,可能会造成对决策理解的偏差,甚至产生矛盾的结论。考虑多个专家的综合意见、发挥群体智慧以消除个人决策者的主观偏好,是十分必要的。AHP的本质是将目标问题分解为一个决策层级结构,通过专家咨询和专家打分,经过科学计算,最终合成一个优先权向量,并进行方案优选和排序。AHP的决策过程是先分解再合成[42-43]。因此,学者们基于AHP原理与群决策理论,把专家意见融合到AHP的分解与合成的过程中,充分发挥交叉学科的融合优势,展开AHP群决策的研究。由于知识主要是指领域知识和专家经验,因此,本书把对AHP群决策的研究也定义为知识驱动的AHP研究。

群决策的本质是研究如何有效集结个体意见以达成群体共识。Ishizaka and Labib[44]在其发表的对AHP综述的研究论文中指出AHP群决策集结个体偏好最常用、最有效的方法有集结个体判断矩阵(AIJ)和集结个体排序(AIP)两种,其具体内容如表1-1所示。集结个体判断矩阵是指集结个体的每一组判断矩阵形成群体判断矩阵,集结个体排序是指集结每个个体的排序以形成群排序。然而,这两种方法被学者认为是彼此独立的两个集结方法[44-46],割裂了它们彼此的联系,并没有考虑相互依赖的关系。

表1-1 AHP群决策中集结个人决策意见的方式[44]

1.3.2 知识驱动的数据挖掘研究综述

知识驱动的数据挖掘最早由Graco等在2007年的国际数据挖掘顶级会议上提出[19-20]。同年,富含知识的数据挖掘也在数据挖掘的权威期刊上由Domingos提出[17-18]。知识在这里是指领域知识、专家经验等。知识驱动的数据挖掘和富含知识的数据挖掘,尽管名称有所不同,但其核心都是将领域知识、专家经验融入数据挖掘的理论与技术中,用来提高挖掘结果的质量和效率。知识驱动的数据挖掘与方法驱动的数据挖掘有很大不同,方法驱动的数据挖掘的核心在于设计、开发鲁棒的、高效率的新方法和新模型。由于许多研究者大多将精力聚焦在设计新模型和开发新方法上,而忽视了对挖掘出的结果进行深入的处置与分析,用户难以理解挖掘出的结果,能操作性的概率就更低,使得用户不能够轻松有效地掌握和使用它们,造成知识及数据资源的无形浪费。

把领域知识、专家经验融入数据挖掘中的难点问题是如何更好地协调人机之间知识的交流和互动。对我们人类来讲,表达越丰富,沟通越畅通的语言如人类语言,越有助于促进知识的交流和互动;而相对计算机而言,便于计算机自动识别和处置的语言如机器语言,则越能促进知识的交流和互动。但当前的技术实力和技术水平还难以直接让计算机自动处理人类语言。针对这一难题,科学研究者作出了不懈的努力,也取得了一些研究成果:考虑到一阶逻辑,也叫一阶谓词演算,能够简洁地表达清楚大多数人类语言的含义,并且提供了比较完备和准确的推理功能[47]。于是,科学研究者通过将概率图形的表达与一阶逻辑相结合建立马儿可夫逻辑网,代表性的成果是Richardson和Domingos提出的马可夫逻辑网[48],能较好地实现计算机以自动处理的方式理解、表达和交流领域知识。Bogorny等[49]提出的基于领域知识约束的最大频繁模式挖掘方法,通过与经典的Apriori方法对比分析,验证了该方法可以减少80%的频繁模式,从而大大地增强了挖掘结果的效率。同时美国华盛顿大学还设计和开发了一系列基于马儿可夫逻辑网的模型、方法以及软件工具来实现知识驱动的数据挖掘[50]

国内在知识驱动的数据挖掘方面也作了不少的探索性研究工作,并取得了一些成果。蓝荣钦和杨晓梅[51]根据空间数据挖掘的特性和内在需求,把领域专家知识分成三类,进而剖析和概述了领域专家知识和领域专家在空间数据挖掘中的突出作用。鲍洪庆、石冰和王石[52]指出成功的数据清洗往往都需要考虑领域知识,于是开发和提出了一个基于领域知识的数据清洗框架。李雄炎等[53]则通过结合油层水淹领域的相关领域知识,基于数据挖掘的技术和方法,从领域驱动的角度建立储集层水淹程度的预测模型。

本书的核心是基于领域知识、专家经验和多目标决策对数据挖掘方法评估问题展开深入研究,由于起步较晚,还未形成较体系化的研究成果。而知识驱动的数据挖掘的最新研究成果正好可以很好地融入我们的研究当中。

1.3.3 基于多目标决策的数据挖掘研究综述

1951年,Kuhn和Tukcer利用数学规划模型研究目标函数极大化问题,并给出了“有效解”存在的最优条件,该“有效解”被称为Kuhn-Tukcer有效解[54],为多目标最优化理论和实证研究奠定了重要的基础。到20世纪70年代后,对多目标最优化问题的研究热潮才在国内外的学者中逐渐兴起[55-56]。目前多目标最优化在数据挖掘中的研究主要集中在分类问题上,例如,健康保险欺诈分析中理赔申请的分类、信用卡用户行为的分类、电讯用户管理中用户的分类[57]。典型的分类方法有逻辑回归、贝叶斯网络分类、SVM、KNN、遗传方法、决策树等[58]。各种分类方法从不同的角度对训练数据集(已标注了类别的数据)进行分析,找出训练数据集中存在的普遍规律,经过验证后,将其用来对具有类似数据结构的未知数据的类别进行预测。

2011年以来,有学者把多目标决策和数据挖掘技术结合起来进行一些探索性的研究工作。Peng等[59]基于数据集成、多目标决策方法和数据挖掘技术提出一个能够有效应对突发事件的信息管理框架。该框架由三个主要模块组成:第一个模块是高级别数据集成模块,为了保障大量异构的源数据以统一的方式集成和输出;第二个模块是数据挖掘模块,使用数据挖掘方法来识别有用的模式,并为突发事件事前和事后的信息管理提供差异化的服务;第三个模块是多目标决策模块,其利用多目标决策方法来评估突发事件当前态势,找出满意的解决方案,并及时作出恰当的应对。Kou等[34]通过集成多目标决策方法和数据挖掘技术来评估软件可靠性问题。文章首先应用数据挖掘分类方法对软件缺陷数据进行分类预测,再生成方法评估绩效的性能指标,然后通过多目标决策方法选出最佳的分类器。Kou和Wu[32]基于多目标决策和数据挖掘理论与方法,针对信用风险数据,提出一个层次分析模型对分类方法进行评估和优选。该优化模型可以快速准确地识别出最鲁棒的信用评分方法,进而能够进一步有效地指导决策者规避信用风险,并且该模型很好地解决了没有免费午餐的定理指出的经典问题。

由于多目标决策在数据挖掘中的研究起步较晚,目前还尚未形成较体系化的研究成果。而且对基于多目标决策的数据挖掘交叉集成研究,在建模、评估、决策和结果表现上,要求决策者既要具备多目标决策方面的理论知识和技术,又要了解数据挖掘方面的理论和技术,从而导致了在建模过程中用户参与度低、结果的可理解性和可操作性低等问题。同时,没有免费午餐的定理指出无法找到一个普遍性的数据挖掘方法。每种数据挖掘方法有其适用的条件及各自的特点,为给定的目标问题选定恰当的方法是具有挑战性的工作,它直接关系着挖掘结果的质量和知识发现的效率。而结合领域知识、专家经验的数据挖掘方法为解决这些问题提供了可行的研究方向。

1.3.4 方法评估研究综述

方法或模型评估问题普遍存在于数据挖掘、机器学习、商业分析和人工智能等领域,是一个具有挑战性的研究热点问题,并将一直存在[32]。方法或模型评估通常需要综合考虑多方面的因素,例如方法或模型的预测效果能否达到要求,方法或模型的运行效率是否在可接受的范围,方法或模型的稳定性是否能够满足条件以及方法或模型的输出结果是否容易被决策者理解等。

当一组方法或模型的评估结果被获得后,应该在公平、公正的环境下评估方法或模型对数据的学习能力及预测能力,并且还应该评价方法或模型的泛化能力,进而验证和识别出最优的方法或模型。数据挖掘方法或模型的学习能力是指方法或模型学到隐含在目标数据中信息或规律的能力;泛化能力则是方法或模型在新鲜样本上的适应能力,也就是方法或模型对新输入的数据进行科学合理的响应能力。方法或模型的学习能力和泛化能力越高,则该方法或模型的理论价值和应用价值也越大。但要提高方法或模型的泛化能力毋庸置疑是非常困难的,因为未来的数据结构完全无法知晓,可能是和当前的数据一致,也可能存在很大的差异,甚至可能完全不同。因此,目标数据的结构和分布特征对方法或模型的评估和选择极为重要。为了消除数据本身的影响,文章是假定我们基于给定的数据集而展开方法评估的研究。

没有免费午餐的定理指出不存在具有普适性的最优方法或模型[60]。也就是说,没有任何一种方法或模型可以在所有问题中都优于其他方法或模型。到目前为止,对于数据挖掘方法评估问题并没有一个明确、清晰的框架来选择最佳的方法或模型。针对目标问题如何选择一种高效、可行的方法或模型变得尤为重要和困难。方法评估问题通常涉及多个评价准则,如预测精度、误分类率、运算时间等,因此,方法评估问题可被看作是一个多目标决策问题[32]。对于数据挖掘方法的评估问题,学者们基于多目标决策方法开展了一些研究。

Peng等[36]针对软件缺陷预测问题,运用多目标决策方法对分类方法性能进行评估,试图选择最佳的分类器。Peng等[61]基于多目标决策方法评估聚类方法中的簇数。Kou和Wu[32]基于多目标决策和数据挖掘理论与方法,针对给定的信用评分数据,提出一个层次分析优化模型对分类方法进行优选。该优化模型能快速准确地识别鲁棒的信用评分方法。尽管基于多目标决策方法对数据挖掘方法的评估已取得了一些成果,然而到目前为止,对于数据挖掘方法评估问题并没有一个明确、清晰的框架来指导如何选择最佳的方法。同时在建模的过程中,存在用户参与度低、结果的可理解性和可操作性低等问题,使得用户不能很好地理解它们,造成知识及数据资源的无形浪费。

因此,本书通过将领域知识、专家经验和多目标决策理论引入到数据挖掘中,对基于多目标决策的数据挖掘方法评估问题进行深入研究,并且开展基于多目标决策的数据挖掘的二次挖掘和知识发现的实证研究,以增强领域知识、专家经验在数据挖掘技术中的运用,提高挖掘的效率和结果的可理解性。