数据挖掘工具：谁最适合CRM_CRM

数据挖掘工具：谁最适合CRM

2007/09/29

　　自从我上次斗胆回答“如何选择数据挖掘工具”之后，已经好几年过去了。本文主要阐述以下两个核心观点：

没有最好的工具;更确切地说，没有适合所有人的最好的工具。

最有用的工具，是那些能够满足你所需要的绝大多数数据挖掘任务的工具。

　　主要的数据挖掘任务

　　过去，数据挖掘工具的开发主要侧重于提供强大的分析算法上。但是，分析“引擎”只能完成数据挖掘项目中的一小部分任务。大多数数据挖掘人员都明白，数据挖掘项目中70%到90%的工作是做数据准备。在数据挖掘工具的演进过程中，数据准备功能的开发一直被放在次要位置上。最后，你要能够对模型准确评估，才能比较多个模型，并将它们推荐给市场人员。

　　数据准备任务

　　常见的数据准备任务包括：

进行数据评估，以判别出：

缺失值(空字符串、空格、空值)

孤立点

共线性评估(自变量之间的相关性)

给定变量多个编码的出现频率

合并多个数据集;

从不同输入格式到通用分析格式的元数据(字段的名称和类型)映射;

将类似变量的值变换为通用格式;

某些算法对输入变量有特殊要求，需要将数值型变量变换为类别型(通过数据分箱和分类)，或者将类别型变换为数值型;

将变量值切分为多个字段，或将多个字段合并为一个字段;

从现有变量中派生新变量。大多数数据挖掘人员发现，有些最具有预测能力的变量，正是派生出来的变量。

　　大多数数据挖掘工具会把这些数据挖掘功能放在次要的地位，本文则会侧重评估常见数据挖掘工具处理这些任务的能力。

　　除了能支持以上的数据准备任务，一个好的数据挖掘工具还应该包含模型评估的功能，以便比较建模过程中产生的多个模型，并用于支持直效营销(direct marketing)。

模型评估工具

　　在分析理论中，最好的模型是具有最佳精度的模型，可以准确预测出目标变量的类别，同时在验证数据集上也能表现稳定。这就是说，在预测中我们要考虑响应目标和非响应目标的组合精度。这种方法称为全局精度方法(Global Accuracy method)。大多数数据挖掘工具使用这种方法来确定“最佳”模型。但是，它也有美中不足。全局精度评估方法的背后有一个前提假设，就是各种分类错误的代价是相同的。这种方法在课堂上表现不错，但在实际的CRM数据挖掘应用上则可能存在问题，特别是在那些用于直邮营销的应用上。实际上，这也是过去很多用CRM来支持直邮营销而未能产生明显商业价值的一个主要原因。对模型的评估有一些主要原则，而其中只有一部分是营销部门真正关心的：最大化目标客户的响应率，最小化所需成本。大多数数据挖掘工具都把注意力集中在预测的组合精度上，却完全忽略了成本的因素。

　　在直效营销活动中，向未响应的潜在客户(称为“错误肯定”错误，false-positive)发送邮件的成本是相当低的;而如果一个潜在客户可能会响应(称为“错误否定”错误，false-negative)，你却没有向他发送邮件，那么这个代价就相当大了(因为没有把他发展为客户，您会损失他所缴纳的会员费，而且他也不可能购买您的其它服务)。因此在直销营销模型的评估中，就应该尽量最小化错误否定的错误，而不是错误肯定。因为营销部门只关注响应率和成本，如果前30%的客户名单中包含了全体响应者的60%，就可以满足他们的需求。对于直销营销来说，尽管前30%的客户仍会有部分人不会响应(错误肯定错误)，向他们发送邮件依然是值得的。那是因为我们已经联系了全体响应者中的60%。此时就比随机发邮件的有效性提高了一倍，也就更加合算。

　　大多数数据挖掘工具都使用全局精度方法来进行模型评估。它们可能会要求你使用这种方法，通过工具的报表功能来识别出“最佳”模型。不同算法会产生多个模型，我们不应该只是查看工具提供的精度报告，简单比较后就判别哪个是最佳的模型。实际上，更合适的评估应该根据如下条件来做出：按照预测概率值顺序排列模型结果，生成评分列表，然后看真正的响应者是否被放在最前面的分段中。尽管分类算法可以输出分类概率，实际的类别(例如，0或1)还是对分类概率的进一步归纳(例如，<0.5 = 0; ≥ 0.5 = 1)。大量真正的“金块”隐藏在数据挖掘工具的功能模块之中。初级的CRM挖掘人员会把注意力放在分类和精度上面，但真正的“金块”应该是客户保持、购买倾向以及新客户获取的概率值。

　　我们应该查看累积提升表(cumulative lift table;例如表1)，来判别模型是否真正有效地把正确肯定(true-positives)放在了靠前的分组里。累积提升表可以通过以下方式创建：　　

预测概率值按降序方式存储为有序列表

把这个有序列表划分为10段(分组)

计算每组中的实际命中数(actual hits，实际的响应数)

计算每个分组的随机期望值(random expectation)，该期望值等于实际响应总数除以10。也就是说，在每个分组中我们期望会有实际响应总数的10%会响应。如果命中率超过了随机期望值，就意味着模型为该分组带来了提升

　表1：提升表

　图1：增量提升图示例

在增量提升曲线中标示了各个分段的命中数。在图1中可以看到，增量提升曲线在第4个分段后和随机期望线(275个响应的10%，即平均每个分段27.5个响应)交叉。不管营销经理怎么去看，上述的表格和图形都可以把必要的信息传递给他们。营销人员可以借助模型评估工具，来设定要给多少个客户发邮件。以表1为例，营销人员可以向前四个分段的客户(占整个评分名单的40%)发邮件，并预期可以命中70%的潜在响应客户。

我们现在已经了解该如何评估数据挖掘模型，接下来就可以深入分析和调整业务流程，借助模型的结果来提高企业的盈利。业务流程包括：

数据挖掘过程

知识发现过程

业务流程管理(BPM)软件

知识管理系统

商业生态系统管理

数据挖掘过程

一个发现过程

具有灵活的框架

按照清晰定义的策略进行

包含多个检查点

多次定期的评估

允许在反馈环路中对函数进行调整

组织为叠代式的架构

过程模型

　　图2： CRISP图例

　　使用数据建模其实和做陶土模型或者大理石模型差不多。艺术家首先从一大堆材料开始着手，经过许多次的加工和检查，才诞生了最终的艺术品。很多人在建模过程中常常没有充分理解建模的本质，由此带来了一系列问题，使得建模变得很复杂。 Eric King发现数据挖掘是一个循环的过程(就象上图中的CRISP流程图)，而非线性的过程。这种循环式的数据挖掘过程会让您想起Wankel转式汽车发动机。这种发动机是一圈一圈旋转的(而非上下运动)，不断输出动能来驱动汽车。与之相似，数据挖掘过程也是不断循环，产生信息来帮助我们完成商业目标。信息就是推动商业的“能量”。在挖掘过程中会有很多对前一个阶段的反馈(例如，在完成初步建模之后可能需要获取更多的数据)。

　　不过，在CRISP流程中还是遗漏了一个要素——那就是对数据仓库或源系统的反馈。前一次CRM营销活动的结果应该导入数据仓库，为后续的建模提供指导，并能跟踪营销活动间的变化趋势。我在CRISP流程图中加入了这些反馈，以红线表示(见图2)。

　　通过数据挖掘过程的结构，我们可以得知数据挖掘工具必需能完成那些任务，但是工具常常会缺少对部分功能的支持。当产生了挖掘结果时，你会怎么使用这些结果呢? 此外，针对挖掘结果所采取的这些行动又将如何影响后续的挖掘? 数据挖掘工具应该具备的一些功能包括：

将模型导出到多种数据库结构中

模型的导出格式，适合于决策支持和商业行动的应用

挖掘算法的输出数据，可以为另外的算法所用

能够比较不同算法的结果

IT专家网