|
歪脖分析抛砖刘庆 前两天阿龙跟我说,最近对歪脖分析比较感兴趣,有所心得。想讨论一下,可他扭扭捏捏不象话,非得让我抛出一块砖出来。 Innovate 这很很多因素相关,首先互联网商业要成熟,利润高,厂家有钱去投资,其次互联网商业模式日渐成熟,竞争加大,建立数据仓库去分析成为必然。 我知道一个猎头帮ebay招数据仓库经理,要求7年以上DW经验,能有英语流利和美国团队交流,2年管理经验,年薪60万,可以说明领先互联网商业公司对数据仓库的重视程度。 Sunforward 昨日在电话中和庆聊天,问他:先生可曾为歪脖分析写点东西吗?庆说:没有。 2.分析用户习惯和偏好时只能通过路径分析结合内容分析,用户访问的路径离散性很大,内容变化也多。 3.分析业务使用时,路径太多入口和出口也没有统计值。由于服务的无状态性,时长很难准确统计,页面访问的频率也是和入口和导航相关,变化极大。 4.用户识别困难,这个目前在无线互联网方面还好一点,有手机号码作唯一标识,但以后一定会扩展到IP,问题就多了。 5.业务收入和订购关系的不足,没有类似三户模型的计费模型,简单的计次和包月算费用,这样订购用户,订购关系,计次用户,定购关系都混在一起了-造成统计指标的定义混淆。 6.ETL的难度很大,如果一个门户还好,多门户结合的Web站会产生不同种类的不规范日志数据,这些日志的关联、提取、和过滤非常复杂。举个例子,一个访问者在一个小时内访问了35个页面,形成的日志就是一大堆,静态的、动态的、跳转的、弹出的、经过鉴权和通过书签Cookie不一而足。日访问量过百万的网站比比皆是,你要分析用户使用细节保留ODS数据? 丁西宁 分析的很详细!但有一点地方有些不同的看法说了这么多,感悟是:web的BI分析和本身承载平台结合的非常紧密,原来以数据驱动的DW设计理念已经不再适合了,现在是要分析就要自己想办法产生分析的数据,而且Web服务的设计方法上要适合统计分析的分类原则,,这是不是就违背了以运营为中心的原则呢? 不清楚你说的数据驱动的DW设计理念已经不再适合了是指的什么意思。DW设计是有以元数据驱动为中心的说法,但这个是从技术的角度出发的。DW中最关键的业务模型的建立,还是以业务和需求为中心的。不知楼主分析的Web的BI设计方法和我们传统的BI设计方法有不同,这不同具体指哪些方面? Sunforward 问得好,这是所有问题的核心。 DW设计是以源数据驱动的还是元数据?这两个想法都有意义,反映在设计和实现上。但最早的理解是DW项目是以数据源为主,业务需求为辅双驱动的,他们的结合就是DW层设计的基础。在BI项目的建设初期用户基本没有想法和具体需求,基本上靠乙方忽悠。乙方处于实现的考虑更多的还是从源数据的种类,数量,获取整理难易来做出发点,在应用层搞些花枝招展的主题来点缀。说BI项目不实用,根源不知道是否在此... 下面那段话白一点就是:我们要分析的源数据没有,需要自行产生。Web数据来源主要是日志(用户操作行为源数据),搜索关键字,订购记录,对于无线业务还有流量统计,内容等。 用户的业务使用行为即访问日志是非常不全的,如果要知道用户从哪里链接过来的,网关鉴权情况、跳转到外部哪里去等一些复杂操作信息需要通过跳转头和一些附加网页脚本手段来往日志里增加记录。所以这就是说网站分析很多数据自己要创造和记录。这样也带来了问题,加这些统计脚本和统计点的东西会大大影响访问速度,对于无线业务更是影响业务体验。 这个仅仅是针对单独网站的考虑,有很多大型网站采用类似分布门户的方法运营,各自栏目都是单独一套服务的,那么把一个用户的操作关联在全部内容和页面上也需要很多额外的处理才能得到数据,所以这就是我目前遇到最大的问题。 现在WebBi是看见象啥样了,就是不知道各部件的尺寸和质感,还是要想办法让象更Happy。 刘庆 西宁说得"DW设计是有以元数据驱动为中心"是从哪里看来的,不理解这句话是什么意思。 另一人说,"嗨,我们本月的用户访问量下降了不少,你给分析一下啥原因。" 在业务目标不明确的情况下,以数据源驱动分析也是自然的事情。 刘庆 看阿龙的这段分析,其实已经将问题描述地很清楚,想必内心已经有如何解决之道了吧。 责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|