主成分,谁明白?

  作者:姜玲
2007/5/25 14:14:39
本文关键字: ttnn 2006年11期

Qing 20061114

对于数据挖掘的技术,我是不大精通的,但有时候难免装作自己很懂得样子。但如果要是跟专家们一起探讨,就露馅了。但无妨,大不了可以耍耍无赖,搅混水。因为发现,能够将深奥道理讲述的浅白,这样的人不多。
 
我曾听说过一种叫做主成分分析的东西,确切地说,不知道是什么意思。只是顾名思义,以为这是从一大堆信息里面挑出主要信息的。如果真的是这样的话,不是可以从几百个变量里面分析得到几十个、十几个的变量吗?这似乎是一个不错的分析方法。
 
早先时候,一次在跟挖掘专家探讨的时候,我让他们给解释一下这个主成分分析,他们仅仅告诉我,这不是一种挖掘算法,是统计学里面的概念。可它究竟是用来干什么的呢?有没有个例子说明一下啊。没有。
 
后来后就没有听说过这个术语,在我们的分析应用中也从来没有用过它。直到前不久,有人提出了对KPI进行分析,可以用这种方法。
 
现在有不少KPI,几十个吧。每个KPI在每个地市都有排名情况,但几十个总是让人有些眼花缭乱。于是,可以用主成分分析的方法,从几十个KPI归纳成几个,甚至是一个综合的KPI。如此就能衡量所有地市的综合对比情况。这说得有些玄乎,而且并没有理解为什么要搞出一个综合的KPI。问,
 
"这个综合的KPI代表了什么业务含义?"
"没有具体业务含义,他是一种综合的,可以反映综合的排名,因为它是完全通过数据归纳出来的。"
 
这是不是像股市里面大盘指数一样的东西呢?难道道琼斯指数也是用主成分分析方法弄出来的?搞不清楚,谁明白?
 
hunter 20061115

以前想过和庆兄一样的问题,赫赫,顾名思义:)

参见wiki定义

〉在统计学中,主成分分析(principal components analysis(PCA))
是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面.但是,这也不是一定的,要视具体应用而定.

yushan 20061115

给你一个日常例子,帮助理解。从线性代数的算法去理解容易让人觉的高深莫测。

只给你一个指标表达- -

衣服对人身体的表达,如果是紧身衣,比如曲线毕露的女性泳装,就是一一对应的函数关系;对宽松的休闲服,身体既显露又遮蔽,两者之间就是相关关系。这时从衣服间接透露的身体姿态,虽然并不具有确定性,却传达了大量信息。还有运动中的衣服条纹,对于身体关节和用力也作了相关表达。再如,成衣厂要合理安排各种型号成衣的生产比例,就需要对市场进行取样调查。人体可以测量的指标很多:身高、手臂长、腿长、颅围、领口围、肩宽、胸围、腰围、臀围、体重等等。在这些指标中,最重要的就是身高和体重,也就是平时描述一个人外貌最重要的两个词汇:高矮和胖瘦。由日常经验可知:手臂长,腿长等都与身高相关,而各种肩宽、身围等指标则与体重相关,以上众多指标都可以简化归结为这两个最关键的指标。特别地,还可以进一步寻找身高与体重之间的相关关系,一个重要的统计公式是:体重= 身高 -105,其中体重的单位是公斤,身高的单位是厘米。由此可见,相关关系可以将一个多元复杂的决定关系单元化,这就是抓住主要信息的表达方法。

以上引自表达的探究网站"相关"一章


http://publishblog.blogchina.com/blog/tb.b?diaryID=2111759

身高和体重就是一个人衣服指标的主成分,以上就是所谓的主成分分析法。

哈哈 20061115

主成分法是多元统计的一种基本分析方法,它的目地是从多个指标中间提取出若干个指标的线性组合,用这些指标的线性组合来替代指标,达到降低分析维度复杂度的目的.这些线性组合按照他们对观测(数据样本)的协方差的贡献度大小,分别称为第一主成份,第二主成份,...

1.主成份法不是提取出若干指标来替代全部的指标,而是用指标的线性组合来替代,所以,它不一定能够达到消除指标的目地,但是,如果所有指标的线性组合中没有包含某些指标,当然我们可以认为,这些指标可以从指标组合中间剔除.

2.主成份法研究的是线性的关系,如果一个指标不在主成份中间出现,我们可以认为,他对分析的目标变量没有(线性)贡献,但是不能排除非线性的影响,所以大家在使用的时候还要和业务结合起来,不能简单的排除一个指标

3.关于协方差的解释:它实际上反映了所有的变量二二之间的相关关系

rasu 20061116

呵呵,不错,先把这个思想记下了.有机会再研究研究.

主成分分析有个假设,就事变量间线性相关.如果变量都没有线性相关性或相关性比较低,做主成分分析就没有必要,也可能得不到约简变量个数得目的.

另外特别在一些统计模型中,好多模型(线性,logistic回归)都对高强度线性相关变量敏感,如果包含强相关变量,训练得到得系数可能有偏差.

我觉得有可能将主成分分析用于决策树和神经网络得探测性变量分析,不知是不是可行得方法.

 呵呵.我是新人.

Qing 20061116

哦,有些明白点了。
 
hunter、哈哈、rasu的理论阐述,还有yushan的通俗解释,让我茅厕顿开。特别是yushan大师的衣服理论,和分析问题是可以类比的。人们分析问题的目的也是有粗有细,例如想将每个即将发生欺诈行为的客户挑选出来,命中率得达到99.9999%,那考虑的因素多,得经过长时间验证。但如果只是想分析一下诸如市场占有情况,可能只是从几个维度,收入啊、客户数等角度观察一下得了。这就像一个人,即要有出席正式场合的西装革履,也得有家居休闲的T恤。T恤,到商场里面,看你高矮胖瘦,在M、L、XL号挑选就得了。而正式的西装,得合身,讲究的人得定制。胸围、腰围、手长可都得量一下。
 
不好意思用了比喻,其实比喻对于外行人理解事物,是非常有帮助的,当然不能深入强究细节。
 
但看出主成分分析的精髓所在,是否可以理解为:突出重点。这应当算是一个很通用的思想吧,可惜人们往往不在乎重点,或者说难以抓住重点。
 
如果用在挖掘建模的变量选取上面,我想是非常有用的。首先,目前大多的分析模型并没有到非常精细的程度,只是在穿T恤的阶段。但常常听到一个挖掘模型考虑了几百几千个变量,最终参与计算的也有百十来个。这,是否应该先搞一下主成分分析呢。
 
比如那客户分群来说吧,这个例子我有些感觉。当初建模时候考虑的因素实在多,然而,那样多的变量几乎让人无法解读。另外有些变量,例如通话时长、通话次数,基本上就是线性关系的,通话次数的多的,时长必定也长。如此,我为什么要看两个变量呢?挑选一个看看不就得了。
 
通过多次解读,总结了若干参与分群的变量,我想这几乎就是主成分了。当然,这是人工智能出来的,不是通过主成分分析。我就没想通,当初建模的时候,为什么不搞一下主成分分析。
 

yushano 20061116

不敢冒充大师,大家说的都很好,再做一点补充:
变量之间的相关性是客观的,就是说原则上它不是算出来的。
这意味着如何两个变量没有相关性,你不可能通过计算(线性计算)将它算出相关性来。
所以,是否相关在有业务背景的情况下靠直觉(语义)的判断是挺可靠的。
算法只是在直观无法断定的情况下才用。
比如还可以用判定两个向量(序列)相关的方法,就是用点积运算,也就是以前这个论坛讨论过的正交性算法,正交就是独立无关,不相关。


所以,作为主成分的指标它们之间就应该尽量是独立的,不相关的。
独立指标(事件)可以表达最大的信息量,这是信息论最基本的结论。
这与二八原理的使用也一样,必须是客观的,比如贫富差距大,像现在的社会,就很适用,但是对一个贫富平均的社会,人口与财富占有就是直线关系,二八原理就不适用。
二八原理是表达不均匀度的方法,也不是算出来的,所以称为原理并不合适。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918