扫一扫加微信

头条搜索流量统计分析

01:事出起因

记头条搜索统计不到流量分析,大神请忽略…

最近手机收到阿里云服务器磁盘使用率过高预警信息,掐指一算,不好~肯定是前两天写的爬某音小姐姐视频将磁盘跑满了,大脑飞速运转(磁盘一满,临时文件无法生成,服务器上的网站肯定异常,数据库无法写入…如果满了会导致灾难性故障),0.1秒思考后,拿出手机ssh服务器,一顿操作猛如虎,果不其然,总磁盘40G,视频占用了30个G,将近6000多个小姐姐视频,请忽略我吞咽口水的动作…,为了不影响网站,打包,下载,删除服务器上的文件,停止采集脚本。

一月后…

某KFC角落吃着炸鸡,看着美剧,享受午后的暖阳,手机响起了短信铃声,电脑同时收到Email,眉头一紧,不好,服务器故障了,心里一顿草泥马,打开一看,短信提示磁盘又快满了,记得明明关了爬虫脚本,不要问问明明是谁,我想静静!放下手中的炸鸡,暂停播放,三下二除五,用沾满油脂的手一顿 df du 命令,发现好几个网站的web日志每天都几百M,一个月下来日志文件总计28G。

02:日志分析,流量异常

第一直觉,网站被被人攻击了,过滤IP,没看出太大问题

继续分析发现好多页面只有html访问记录,没有CSS、Js、Css等记录,直觉再次告诉我有人在爬网站数据,但爬虫一般都有规律会按url 上的ID递增或递减,这些请求毫无规律,先保留当前想法。

找SEO运营部要到百度统计账号,顺便撩一下小姐姐,嘎嘎…打开统计工具,看流量是否异常,嘿,这一月都流量上升还挺明显,分析来路,从搜索引擎过来的流量占比56%,主要是百度,不禁感慨公司离了百度这奶娘还能活吗,但是对比上月流量持平略下滑趋势,剩下主要来源都在直接访问,占比为30%,从事多年互联网职业的我一下就知道这里的猫腻了,直接访问的占比太高了,肯定是SEO部门为了完成业绩补量了,嚯嚯嚯~,感觉一下就抓住了其他部门的小尾巴,结局往往事实却很打脸,请下看…

03:旁敲侧击,打入内部

虽然知道了其他部门的小啾啾,俗话说“井水不犯河水”,“人不犯我我不犯人”,作为一名愿望是世界和平的天秤座运维工程师,不能做“损人不利己”的事,默默将系统日志删除,只保留最近5天的,换取磁盘的容量,别问我为什么不扩容磁盘,公司不允许,宝宝心里苦。别问我为什么不写自动删除脚本,懒,懒,懒…

几天后,为了讨小姐姐开心,将这个问题说了出来,本意是想让她和她上级说将假量做的真实点,才知道公司减少了百度SEM的投放增加了头条搜索业务,差点毁了一世英名,喜欢刷小姐姐视频的我当然知道头条搜索,某音旗下公司的产品,但上次分析没有从头条搜索过来的流量啊,难道我看花眼了。因为忙,此事不了而之…

04:红色紧急,委以重任

大概意思就是月底公司总结,运营部统计投入产出比,公司花了钱看不到效果,运营部总结头条流量无法统计,于是我就就被委以重任(你说为什么不找程序猿,我也想知道,可能公司看我比较闲吧!),开始分析头条搜索。

05:步入正题,一波三折

工欲善其事,必先利其器!之前为了抓小姐姐视频,都安装好抓包了。

Step1:打开fiddler

Setp2:打开“今日头条”App,搜索关键词

Step3:分析发包数据

头条搜索流量统计分析

头条搜索结果页

先忽略我搜索的词,一不小心暴漏存款了,上图是搜索的“二手车2万左右”出现的列表页,只是触发了搜索,没有点击具体结果的URL,但是数据包里确有访问的信息,我们并没有访问啊,如下图:

一开始以为是头条暗地给某些白名单网站导量,但不管大小站点都这样。

头条搜索流量统计分析

未点击搜索结果,依然请求网站

点击一个有百度URL统计的网站

头条搜索流量统计分析

含有百度统计的页面

点击后可以看出百度及google统计提交的信息:如下图

头条搜索流量统计分析

百度统计提交表单

头条搜索流量统计分析

google统计提交表单

从统计工具击Post表单信息以及Referer信息可以看出这两个工具均无法统计流量来源,只能在「直接访问」里看到,后面我用自己的blog又测试了国内小众(qq,cnzz,51la)的统计工具,发现均无法统计流量来源于头条,心中一万个草泥马经过,这不坑么。

06:寻根问底

为了解决这个问题阅遍各大论坛,访遍各大社群,然而答案远在天边近在眼前,在官网找到说法了,让我想起了网友找小姐姐的评论,在你面前你不撩,现在让我们海底捞,

传送门:https://www.toutiao.com/media_cooperation/

官方原话:

预加载技术 今日头条为了让用户获得更好的体验,使用预加载技术极致提升用户打开文章的速度,使用户进入文章时几乎不用等待,实现“秒开”体验。 所谓预加载,是指用户在打开页面前,会预先加载文章的 html、css、javascript 这几部分内容。一些浏览器厂商为提高网页访问速度也同样使用此技术。比如:搜狗高速浏览器,其宣称的“智能预取,速度革命”,就是如此。 预加载技术特点: 1.预加载只加载文本代码(html、css 和 javascript),不预加载图片。 2.预加载不执行代码(javascript),不影响下游网站的流量统计。 3.广告不进行预加载。

所谓预加载就是提前将搜索结果页里的第三方站点(标识为全网的站点)提前将Html源码缓存到手机本地,原理就像刷抖音的时候,访问当前视频的时候已经将后面几条视频提前缓存到本地,实现访问无延迟感。

凡事都有双面性,预加载的缺陷:

1. 我们看不清流量来源,因为没有Referer参数,这也是为什么公司无法区分统计流量的问题。

2. 即使客户没有点击搜索结果页的网站,只是搜索关键词,网站服务器也会产生web日志,造成有流量的访问的迹象。

之后分析最近几天的日志文件,和预想的一样,头条去除各大搜索引擎来源、css、js、图片,剩下的为直接访问和头条搜索过来的,和统计工具对比PV多出10%,剔除少量爬虫,乱七八糟的,意味剩下的8% 有可能是从头条搜索页过来未点击产生的流量!

给运营小姐姐解释以上内容的时候,小姐姐懵了,一副钦佩仰慕(听不懂)的眼神,简单概括吧:

  1. 服务器web日志和统计工具数据不对称,每当有关键词从头条搜索引擎搜索到网站即使不点击web日志也会记录,web日志量大于统计工具
  2. 运营部的头条搜索业务确实带来大量真实流量,

07:头条搜索流量统计小结

通过之后观察流量的增长趋势,觉得公司做头条搜索是个明智的决定,虽然感觉不太完善,想到头条一两年就发展到如此水平,还是觉得这个公司未来可期,毕竟神仙打架,渔翁得利,希望头条团队就会出类似百度站长的工具,完善下自己的系统,向百度看齐。

Q:头条是否可以统计流量

A:可以统计,在百度,友盟(CNZZ)等统计工具体现的来路是「直接访问」

Q:是否可以统计具体关键词带来的流量

A:头条暂时无法统计具体的关键词带来的量,头条也在完善中

Q:为什么无法区分头条来源的流量

A:因为头条APP为了实现“秒开”体验,采用的是预加载技术,预加载不执行代码(javascript),所以第一次请求没有执行js,也没有referer字段,导致无法记录来路

官方预加载技术描述:https://www.toutiao.com/media_cooperation/

佛曰:“有就是无,无就是有”,忙活了半天,还是没有解决咱公司运营部的问题,没法面对小姐姐们,如有大神能统计从头条搜索过来的流量的解决思路,欢迎留言~

评论

3+5=