|
主成分,谁明白?Qing 20061114 对于数据挖掘的技术,我是不大精通的,但有时候难免装作自己很懂得样子。但如果要是跟专家们一起探讨,就露馅了。但无妨,大不了可以耍耍无赖,搅混水。因为发现,能够将深奥道理讲述的浅白,这样的人不多。 以前想过和庆兄一样的问题,赫赫,顾名思义:) 参见wiki定义 〉在统计学中,主成分分析(principal components analysis(PCA)) yushan 20061115 给你一个日常例子,帮助理解。从线性代数的算法去理解容易让人觉的高深莫测。 只给你一个指标表达- - 衣服对人身体的表达,如果是紧身衣,比如曲线毕露的女性泳装,就是一一对应的函数关系;对宽松的休闲服,身体既显露又遮蔽,两者之间就是相关关系。这时从衣服间接透露的身体姿态,虽然并不具有确定性,却传达了大量信息。还有运动中的衣服条纹,对于身体关节和用力也作了相关表达。再如,成衣厂要合理安排各种型号成衣的生产比例,就需要对市场进行取样调查。人体可以测量的指标很多:身高、手臂长、腿长、颅围、领口围、肩宽、胸围、腰围、臀围、体重等等。在这些指标中,最重要的就是身高和体重,也就是平时描述一个人外貌最重要的两个词汇:高矮和胖瘦。由日常经验可知:手臂长,腿长等都与身高相关,而各种肩宽、身围等指标则与体重相关,以上众多指标都可以简化归结为这两个最关键的指标。特别地,还可以进一步寻找身高与体重之间的相关关系,一个重要的统计公式是:体重= 身高 -105,其中体重的单位是公斤,身高的单位是厘米。由此可见,相关关系可以将一个多元复杂的决定关系单元化,这就是抓住主要信息的表达方法。 以上引自表达的探究网站"相关"一章
身高和体重就是一个人衣服指标的主成分,以上就是所谓的主成分分析法。 哈哈 20061115 主成分法是多元统计的一种基本分析方法,它的目地是从多个指标中间提取出若干个指标的线性组合,用这些指标的线性组合来替代指标,达到降低分析维度复杂度的目的.这些线性组合按照他们对观测(数据样本)的协方差的贡献度大小,分别称为第一主成份,第二主成份,... 1.主成份法不是提取出若干指标来替代全部的指标,而是用指标的线性组合来替代,所以,它不一定能够达到消除指标的目地,但是,如果所有指标的线性组合中没有包含某些指标,当然我们可以认为,这些指标可以从指标组合中间剔除. 2.主成份法研究的是线性的关系,如果一个指标不在主成份中间出现,我们可以认为,他对分析的目标变量没有(线性)贡献,但是不能排除非线性的影响,所以大家在使用的时候还要和业务结合起来,不能简单的排除一个指标 3.关于协方差的解释:它实际上反映了所有的变量二二之间的相关关系 rasu 20061116 呵呵,不错,先把这个思想记下了.有机会再研究研究. 主成分分析有个假设,就事变量间线性相关.如果变量都没有线性相关性或相关性比较低,做主成分分析就没有必要,也可能得不到约简变量个数得目的. 另外特别在一些统计模型中,好多模型(线性,logistic回归)都对高强度线性相关变量敏感,如果包含强相关变量,训练得到得系数可能有偏差. 我觉得有可能将主成分分析用于决策树和神经网络得探测性变量分析,不知是不是可行得方法. 呵呵.我是新人. Qing 20061116 哦,有些明白点了。 yushano 20061116 不敢冒充大师,大家说的都很好,再做一点补充:
责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|