当前位置：首页 > 二营长SEO > 十分钟学会shell分析网站日志

十分钟学会shell分析网站日志

作者：二营长发布时间：2016-12-13 点击：

以下这些shell命令都是二营长平常工作中真正用到的，而非绝大多数互联网上说的特别花哨的无用的信息。

准备工具：cygwin

下载和安装的方法可以看下@方法大哥的这篇文章

http://seofangfa.com/shell/cygwin-setup.html

讲的不能再详细

下载和安装好以后记得把安装的目录添加到path路径里

下面开始正文：

/*从服务器上下载日志文件，具体下载命令根据服务器不同，命令也不一样*/
rsync.exe -azvP --port=31777 /cygdrive/e/backup/log/

/*打开日志文件所在目录*/
cd /cygdrive/e/backup/log/

/*解压日志文件*/
gunzip -c 日志文件.gz > all.log

echo '开始分析.'
echo '/*******************百度*******************/'
echo '	总抓取：'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|wc -l
echo '	总不重复抓取：'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|sort|uniq -c|wc -l
echo '	抓取状态码个数：'
grep 'Baiduspider/2.0' all.log|awk '{print $$9}'|sort|uniq -c|sort -r
echo '	家居总抓取：'
grep 'Baiduspider/2.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|wc -l
echo '	家居不重复抓取：'
grep 'Baiduspider/2.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|sort|uniq -c|wc -l
echo '	抓取状态码个数：'
grep 'Baiduspider/2.0' all.log|grep 'jiaju'|awk '{print $$9}'|sort|uniq -c|sort -r
echo '	详情页抓取：'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|wc -l
echo '	详情页不重复抓取量：'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|sort|uniq -c|wc -l
#echo '	zqURL >>>>>>>>>>>'
#grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|sort|uniq > zq
echo '	百度流量：'
grep -P '\.baidu\.com/.*(wd|word)=' all.log|grep 'jiaju'|wc -l
echo '  抓取前二十：'
grep 'Baiduspider/2.0' all.log|awk '{if($$7~/jiaju/) print $$7 $$9}'|sort|uniq -c|sort -r|head -20
echo '/*******************搜狗*******************/'
echo '	总抓取：'
grep 'Sogou web spider/4.0' all.log|awk '{print $$7}'|wc -l
echo '	总不重复抓取：'
grep 'Sogou web spider/4.0' all.log|awk '{print $$7}'|sort|uniq -c|wc -l
echo '	抓取状态码个数：'
grep 'Sogou web spider/4.0' all.log|awk '{print $$9}'|sort|uniq -c|sort -r
echo '	家居总抓取：'
grep 'Sogou web spider/4.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|wc -l
echo '	家居不重复抓取：'
grep 'Sogou web spider/4.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|sort|uniq -c|wc -l
echo '	抓取状态码个数：'
grep 'Sogou web spider/4.0' all.log|grep 'jiaju'|awk '{print $$9}'|sort|uniq -c|sort -r
echo '	搜狗流量'
grep -P '\.sogou\.com/.*(query)=' all.log|grep 'jiaju'|wc -l
echo '	360流量'
grep -P '\.(so|haosou)\.com/.*(q|k)=' all.log|grep 'jiaju'|wc -l

/*删除日志文件*/
rm all.log

如果存在每天的日志存到不同的服务器上的情况，请移步：github

邮箱：techseo.cn@gmail.com，欢迎交流。

上一篇：科普：搜索引擎的工作原理下一篇：SEOer的未来在哪里

十分钟学会shell分析网站日志

二营长SEO热门文章

二营长SEO最新文章

二营长SEO最新标签