门户网站综合服务平台介绍 下载本文

3.4 用户体验分析系统

用户体验分析系统包含两个子系统:日志流量访问分析子系统和用户体验行为分析子系统。

日志流量访问分析子系统支持超大访问量的网站访问分析,可以胜任每天点击数超过2亿次的超大型网站,具有很强的系统扩展性。支持多种平台上的Web服务器日志格式(IIS,Apache和流媒体日志格式等)。日志流量访问分析子系统针对大型网站的海量日志的处理,摆脱了传统的数据库分析方式。在预处理日志及报表生成时间上大幅提高,彻底解决了查看报表缓慢、系统处理日志时间过长、数据库文件超大、补生成报表复杂等难题。万张报表可在几分钟内生成完毕,并可以输出多种不同格式的报表(包括HTML/ZIP/excel等),可直接引用到数据报告中,无需进行任何修改。

用户体验行为分析子系统是

3.4.1 日志流量访问分析运行流程

日志流量访问分析包括四个运行流程: ? 日志导入流程 ? 数据分析流程 ? 报表加密发布流程

? 数据备份与服务器维护流程

四个流程相对独立又相互衔接,具有良好的可扩展性和容错性。通过对网站日志的获取,形成一个信息共享平台。在整个信息平台中报表可根据不同需求与条件随意组合,从而最大程度的满足大型网站对于访问量分析的复杂需求。

3.4.2 日志流量访问分析指标

日志流量访问分析子系统可以针对网站的访问量、访问者的行为特点和网站服务器的性能等指标作出综合的分类、采样与分析。它同时具有很强的灵活性并且可以输出多种不同格式的报表供下载和保存(包括HTML/ZIP/excel等)。

其中主要分析指标如下: ? 网站访问行为分析 ? 网站访问量分析 ? 网站最受欢迎信息分析 ? 网站访问者来源分析 ? 网站路径分析 ? 网站更新率分析

? 网站群、各分站、栏目的访问量排名分析 3.4.3 日志流量访问分析技术特性

? 集中分析:就是将分散在各个地点的服务器日志远程获取分析服务器上,进行集中统计分析,形成一个综合网站,达到分布记录、集中统计的目的。其他应用:这种分析方法适用于行业网站解决方案。比如:一个行业有几十个、甚至几百个网站,要想了解整个行业的应用情况,就可以采用本方案解决。

? 多CPU分析技术:系统采用多CPU服务器、多线程技术,同时对多个任务进行处理,这样可以成倍地提高分析速度。在实际应用中,四CPU服务器分析5000多万Pageviews,用3个多小时即可分析完成。比用单CPU时提高近四倍。

? Cache服务器分析:对于大型网站,为了提高网站的处理能力和访问速度,在不同地区设置Cache服务器。然而,Cache服务器的日志和Web服务器有着很大的区别,存在着日志格式识别和拆分等问题。本系统不仅解决了这个问题,而且还将拆分结果与网站结构结合,进行分析汇总。

? 服务器集群分析:对于集群服务器的分析,就是需要同时打开多个日志文件,同时进行分析。因为逐个日志的分析,浏览数是不准确的。对于一个栏目由多个Web Server组成的情况,也是如此。

? 超大规模日志分析:对于日志文件超过2GB的情况,目前所有的软件都会产生死机现象。因为普通PC服务器均为32位机,除去一个符号位,能够处理的最大数组为231,即2048万。因此,2GB的日志记录条数一般都超过2048万,是造成死机的原因。然而,本系统采用数据合并算法,彻底地解决了这个问题,最大可以分析64Gb的日志文件。

? 内容过滤器:如果定义某类页面算做Pageviews后,那么该类内容就全部算做Pageviews。如果在该类内容中,除去某一个(或一些)页面,不算做Pageviews,本系统提供的内容过滤器就是解决这种特殊情况。 ? 内容交叉分析:规范设计栏目与栏目之间,其内容不应交叉出现在不同的Web Server中。但是,由于历史原因,现实中常常还会出现这种现象。本系统对这种非规范的情况也能够进行分析。

3.4.4 日志流量访问分析子系统原理及特点

日志流量访问分析子系统具有以下技术特性:

? 系统的可扩展性:门户网站的访问量会随着网站运行的不断成熟而不断

地增加,所以一个好的访问量分析系统的可扩展性就显得非常地重要。系统在最初设计的时候,就很好的考虑到了门户网站的这一特点。比如客户网站的日志每天在1G以下,我们设置一台日志分析服务器就可以满足需求。但随着客户网站的日趋完善日志增加到10G时,我们只需要再添置两台服务器与原来服务器并行,依然可以满足客户的访问量的增长需求,并在原来的时间之内生成所需要的报表。

? 系统数据的准确性:本系统是采用嵌入代码与日志分析相结合进行访问

量分析的软件,使日志分析发挥在浏览量方面的特长,嵌入代码分析发挥访问者行为分析方面的优势,完美的将它们结合在一起,从而保证了报表的准确性。

? 系统查看的安全性:平台对Web服务器是非常安全的。因为软件在最初

设计的时候,就是以不影响Web的服务作为宗旨,系统在独立的Linux服务器上运行,只远程获取Web服务器日志,并且不需要对Web服务器进行任何的修改。也就是说,不管系统软件发生了什么事,或者系统的环境发生了什么变化,都不会影响到网站的Web服务系统的正常运行。 ? 报表信息的保密性:另外,系统对用户权限的设定非常严格,集成Linux

系统安全认证,可以为客户提供多层次的管理权限。