卡方自动交互检测算法 CHAID(Chi-squared Automatic Interaction Detection)

卡方自动交互检测法(chi-squared automatic interaction detector, CHAID)最早由Kass于1980年提出,是一个用来发现变量之间关系的工具,是一种基于调整后的显着性检验(邦费罗尼检验)决策树技术。

其核心思想是:根据给定的反应变量和解释变量对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。利用卡方自动交互检测法可以快速、有效地挖掘出主要的影响因素,它不仅可以处理非线性和高度相关的数据,而且可以将缺失值考虑在内,能克服传统的参数检验方法在这些方面的限制。

在实践中,CHAID经常使用在直销的背景下,选择消费者群体,并预测他们的反应,一些变量如何影响其他变量,而其他早期应用是在医学和精神病学的研究领域。

CHAID分析构建了一个预测模型,或树,以帮助确定给定因变量,变量如何最好地合来解释结果。CHAID分析,名义,有序和连续数据可以使用,在连续预测类别被分成大致相等的若干观测。CHAID对每个分类预测创建了交叉表,直到达到最好的结果,无法继续分类为止。在CHAID技术中,我们可以直观地看到在树的分割变量和相关因子之间的关系。决策树或分类树的展开,始于确定作为根节点的目标变量或因变量。 CHAID分析将目标变量分割成两个或两个以上的类被称为根节点,或者父节点,然后使用统计算法将节点分为子节点。不同于回归分析,CHAID技术并不要求数据是正态分布.

CHAID的优势是它的结果是非常直观的易于理解的。由于默认情况下CHAID采用多路分割,需要相当大的样本量,来有效地开展工作,而小样本组受访者可以迅速分为太小了的组,而无法可靠的分析。

CHAID决策树的构成包括:

  • 根节点:根节点包含因变量或目标变量。例如,CHAID使用于,银行根据年龄,收入,信用卡等,来预测信用卡风险。在这个例子中,信用卡风险是目标变量,其余变量是预测变量。

  • 父节点:该算法将目标变量分割成两个或多个分类。这些分类被称为父节点或者初始节点。在银行的例子中,父节点是高,中,低三个分类。

  • 子节点:CHAID分析树中独立变量分类低于父节点的分类被称为子节点。

  • 终端节点:CHAID分析树最后一个分类被称为终端节点。 CHAID分析树中,主要的影响变量排在前面,次要的排在后面。因此,它被称为终端节点。

CHAID的优点

  1. 可产生多分枝的决策树

  2. 目标变量可以定距或定类

  3. 从统计显著性角度确定分支变量和分割值,进而优化树的分枝过程

  4. 建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分

原文:https://github.com/KeKe-Li/tutorial