当前位置:首页 > 二营长SEO > 十分钟学会shell分析网站日志

十分钟学会shell分析网站日志

作者:二营长 发布时间:2016-12-13 点击:

以下这些shell命令都是二营长平常工作中真正用到的,而非绝大多数互联网上说的特别花哨的无用的信息。

准备工具:cygwin

下载和安装的方法可以看下@方法大哥的这篇文章

http://seofangfa.com/shell/cygwin-setup.html

讲的不能再详细

下载和安装好以后记得把安装的目录添加到path路径里

下面开始正文:

/*从服务器上下载日志文件,具体下载命令根据服务器不同,命令也不一样*/
rsync.exe -azvP --port=31777 /cygdrive/e/backup/log/

/*打开日志文件所在目录*/
cd /cygdrive/e/backup/log/

/*解压日志文件*/
gunzip -c 日志文件.gz > all.log

echo '开始分析.'
echo '/*******************百度*******************/'
echo '	总抓取:'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|wc -l
echo '	总不重复抓取:'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|sort|uniq -c|wc -l
echo '	抓取状态码个数:'
grep 'Baiduspider/2.0' all.log|awk '{print $$9}'|sort|uniq -c|sort -r
echo '	家居总抓取:'
grep 'Baiduspider/2.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|wc -l
echo '	家居不重复抓取:'
grep 'Baiduspider/2.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|sort|uniq -c|wc -l
echo '	抓取状态码个数:'
grep 'Baiduspider/2.0' all.log|grep 'jiaju'|awk '{print $$9}'|sort|uniq -c|sort -r
echo '	详情页抓取:'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|wc -l
echo '	详情页不重复抓取量:'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|sort|uniq -c|wc -l
#echo '	zqURL >>>>>>>>>>>'
#grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|sort|uniq > zq
echo '	百度流量:'
grep -P '\.baidu\.com/.*(wd|word)=' all.log|grep 'jiaju'|wc -l
echo '  抓取前二十:'
grep 'Baiduspider/2.0' all.log|awk '{if($$7~/jiaju/) print $$7 $$9}'|sort|uniq -c|sort -r|head -20
echo '/*******************搜狗*******************/'
echo '	总抓取:'
grep 'Sogou web spider/4.0' all.log|awk '{print $$7}'|wc -l
echo '	总不重复抓取:'
grep 'Sogou web spider/4.0' all.log|awk '{print $$7}'|sort|uniq -c|wc -l
echo '	抓取状态码个数:'
grep 'Sogou web spider/4.0' all.log|awk '{print $$9}'|sort|uniq -c|sort -r
echo '	家居总抓取:'
grep 'Sogou web spider/4.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|wc -l
echo '	家居不重复抓取:'
grep 'Sogou web spider/4.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|sort|uniq -c|wc -l
echo '	抓取状态码个数:'
grep 'Sogou web spider/4.0' all.log|grep 'jiaju'|awk '{print $$9}'|sort|uniq -c|sort -r
echo '	搜狗流量'
grep -P '\.sogou\.com/.*(query)=' all.log|grep 'jiaju'|wc -l
echo '	360流量'
grep -P '\.(so|haosou)\.com/.*(q|k)=' all.log|grep 'jiaju'|wc -l

/*删除日志文件*/
rm all.log

如果存在每天的日志存到不同的服务器上的情况,请移步:github

邮箱:techseo.cn@gmail.com,欢迎交流。
上一篇:科普:搜索引擎的工作原理      下一篇:SEOer的未来在哪里