|
移动互联网信息挖掘的实现及应用浅析目前,移动互联网在全球已经成为最具潜力的市场之一,随之而来的移动互联网领域的信息挖掘也显得日益重要。 2.2信息挖掘热点技术 2.2.1页面过滤 在一个网站中,存在很多如广告、导航页面、功能页面、提示页面等没有实际主题的页面,这些页面不应该参与到内容(热点内容)挖掘中来,否则将会给分析带来巨大的误差。因此,必须预先对这些页面进行过滤:实际上,过滤过程是一个知识积累的过程。因此,需要建立内容过滤的知识库,在知识库中保存了需要过滤内容的规则。如:广告页面直接过滤掉即可,而导航页面则不进行内容的文本切词等后续挖掘,但需要提取页面上的所有链接以获取下一级页面等。对于一个有效页面,依然需要对其进行内容清洗,去掉页面中的广告、格式等无效数据,仅保留主题内容。 2.2.2 文本切词 文本切词,就是对过滤和清洗后的主题内容迸行词组划分,获取i亥主题的所有关键词,即将一个文章的主题内容汉字序列切分成一个个单独的词。目前的分侧箅法可以分为三大类,分别是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。目前并不能断言哪种方法的准确率更高,因此对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。 a)字符串匹配分词:又被称为机械分词方法,是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。目前,该种方法已经存在多种较为成熟的算法和模型。应用较为广泛。 b)基于理解的分词:通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。由于汉语语言的复杂性,目前基于理解的分词系统还处住研究阶段。 c)基于统计的分词:这种方法只需对语料中的字组频度进行统计,不需要切分词典,但这种方法也有一定的局限性,会经常抽出一些出现频度高,但并不是词的常用字组等。 2.2.3 内容聚类 聚类分析是人们认识和探索事物内在联系的一种手段,其目的就是将一个数据集划分为若干聚类并使得同一个聚类内的数据对象具有较高的相似度。而不同聚类中的数据对象则是不相似的。 不同于内容(页面)分类的把各个贝面分成各个类别。内容聚类是将相同类别,相同内容或相似内容的页面聚合在一起。把其作为比较的对象,提供最终的内容展示基础。聚类分析是面向实际应用的技术,因此聚类的定义与待处理的数据类型有关。基于不同的模型构造思想,目前学术界提出了一系列很具体化的定义,如距离模型、质心模型、连接模型、密度模型、相似性模型等。以相似性模型为例。相同类别的页面,通过对内容标题或正文的分词,比较不同文章分词的相似度,通过聚类算法,满足条件的文章,被认为是聚合的。这里,数据(内容)对象之间的相似度由相似系数确定,而对象之间是否相似则必须通过预设的阈值来加以规定,相似系数大于阈值的对象之间是相似的,否则就是不相似的。 2.2.4 热点挖掘 热点挖掘除了对热点网站、热点内容、热点标题等通过聚类分析等进行挖掘,还需要对一些未知的热点信息和热点关联信息进行分析。 a)不确定网络热点主题发现。数据挖掘的魅力在于“发现”,“发现”即为事先不可预知的事物。在网络上,发现新的热点主题是系统实现的一项重要技术特征。“不确定网络热点主题发现”不事先定义主题,也不事先定义任何关键字,是一种无监督、无指导的自然聚类过程。通过无指导的自然聚类,得到一系列网络主题,然后提取代表词,呈现给用户,用户通过观察再赋予主题名。 b)热点关联分析。关联规则挖掘是数据挖掘中最活跃的研究方向之一,它反映了大量数据中项目之间有趣的关联或相关关系。通过应用数据挖掘技术中的关联分析技术,给出关键词之间的关联关系。计算任两个关键词存在关联的支持度和置信度,从而当某一关键词出现时可以预测到与其存在关联关系的其他关键词出现的概率。这点在敏感信息监控方面尤其重要,可以提前预判到敏感信息的出现,从而提前做出相应的处理措施。 责编:王雅京 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|