全面解析数据挖掘的分类及各种分析方法
1.数据挖掘可以做以下六种不同的事情(分析方法):
分类(分类)
估价(估计)
,预测(Prediction)
相似性分组或关联规则
,聚类(Clustering)
描述和可视化(描述和可视化)
挖掘复杂的数据类型(文本、Web、图形图像、视频、音频等。)
2.数据挖掘的分类
以上六种数据挖掘分析方法可以分为两类:直接数据挖掘;间接数据挖掘
直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型描述了剩余的数据和一个特定的变量(可以理解为数据库中表的属性,也就是列)。
间接数据挖掘
目标中没有选择具体的变量,由模型描述;而是在所有变量之间建立某种关系。
分类、估值、预测属于直接数据挖掘;后三种是间接数据挖掘。
3.各种分析方法简介
分类(分类)
首先,从数据中选择已经分类的训练集。在这个训练集上,利用数据挖掘分类技术建立分类模型,对未分类数据进行分类。
示例:
A.信用卡申请人,分为低,中,高风险
b .将客户分配到预定义的客户群
注意:类的数量是确定的和预先定义的。
估价(估计)
类似于估值分类,区别在于分类描述的是离散变量的输出,而估值处理的是连续值的输出;类别的数量是确定的,而估价的数量是不确定的。
示例:
A.根据购买模式估计一个家庭的孩子数量
B.根据购买模式估计家庭收入
C.估计房地产的价值
一般来说,估值可以作为分类的前一步。给定一些输入数据,通过估计得到未知连续变量的值,然后根据预设的阈值进行分类。例如,银行贷款给家庭,使用估价,给每个客户打分(0~1分)。然后根据门槛对贷款等级进行分类。
,预测(Prediction)
通常预测是通过分类或者估值来起作用的,也就是通过分类或者估值得到一个模型,用来预测未知变量。从这个意义上说,没有必要把预言单独归为一类。预测的目的是预测未来的未知变量。这种预测需要时间来验证,也就是需要一定的时间才能知道预测的准确性。
相似性分组或关联规则
决定哪些事情会一起发生。
示例:
A.超市里的顾客买A的时候往往会买B,也就是A => B(关联规则)
B.客户购买A后,每隔一段时间就会购买B(序列分析)。
,聚类(Clustering)
聚合是对记录进行分组,并将相似的记录分组到一个聚合中。聚类和分类的区别在于,聚类不依赖于预定义的类,不需要训练集。
示例:
A.某些特定症状的聚集可能预示着某种特定的疾病。
B.租不同类型vcd的顾客聚集在一起,可能暗示着成员属于不同的亚文化。
聚集通常是数据挖掘的第一步。比如“什么样的促销回应顾客?”对于这类问题,可能最好先把整个客户集合起来,分组到自己的集群里,然后再针对每个不同的集群来回答问题。
描述和可视化(描述和可视化)
是数据挖掘结果的表示。
位律师回复
0条评论