|
移动互联网信息挖掘的实现及应用浅析目前,移动互联网在全球已经成为最具潜力的市场之一,随之而来的移动互联网领域的信息挖掘也显得日益重要。 2.1.1 内容采集 不论是在政府、商业领域,还是在个人领域,进行数据分析和数据挖掘的基础都要基于信息的真实性和有效性。运营商可以将网络流量与用户的真实身份进行对应。从而进行有效的数据挖掘和分析,有利于后续运营活动、网络优化的开展。内容采集主要包括以下3个方面。 a)垃圾页面过滤。系统每天从分组域网络中获取了TopN的数据,而真正有效的内容只有一部分,需要在前端排除过滤掉那些不关心的干扰信息、产品的垃圾页面等。 b)页面内容爬取。这是将网页的内容通过爬词引擎获取的部分,分析页面代码格式,清除标签,尽可能获取内容的标题、正文、段落、字体、颜色等信息。 c)页面垃圾过滤。页面中不可避免地会存在大量的垃圾信息,这些信息严重干扰到聚类的准确度,页面垃圾过滤机制会找出包括广告在内的段落,并将其清除,不进入内容挖掘部分。 2.1.2 内容挖掘 内容挖掘包括以下3个方面。 a)页面内容分析。把前置工作过滤完成的真实页面内容,交给内容分析引擎,该引擎分析出信息的标题和正文,并将它们进行分词处理,获取整篇内容的关键词条,为内容聚类提供基础数据。 b)页面内容聚类。这是互联网信息挖掘引擎的核心部分,把所有经过内容分析的页面进行聚类分析,把若干相似度高的内容聚类成一组,然后交给信息处理引擎分析各组内容的相同与不同信息。 c)页面信息处理。对聚成相同类别的各个页面的信息,进行比对和统计,统计出这些相同或相似页面之间的共性与异性,再结合页面访问信息、客户信息等计算出相应的报表用于展示。 2.1.3 行为分析 客户行为分析为内容挖掘与客户关联部分提供数据支持,其包括以下2个部分。 a)客户画像。客户画像是对客户的多维度描述,是一个客户的信息与标签,为相关数据分析提供依据,同时也是一个个客户群建立的基础。客户画像的维度越多、越精准。就越能够反映出用户的兴趣、习惯等。客户画像的维度可以包括基本信息维度、终端维度、流量维度、访问维度、搜索维度、专题维度、应用维度、产品维度、消费维度等。 b)客户洞察。客户洞察是对单一客户或客户群的深度描述。洞察访问是在个体的客户画像的基础上,洞察客户访问“热点内容”或“热点标题”的客户特征。客户洞察要求从不同的角度进行,包括基本属性、社会属性、业务属性、电信属性、消费能力等方面。根据洞察条件,对客户进行深度挖掘,挖掘出“热点内容”或“热点标题”的客户特征,即要洞察出客户的基本流量、趋势、习惯、终端、访问、搜索、音乐、视频、图片、下载、游戏、阅读、房产、汽车等特征。 责编:王雅京 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|