以下这些shell命令都是二营长平常工作中真正用到的,而非绝大多数互联网上说的特别花哨的无用的信息。
准备工具:cygwin
下载和安装的方法可以看下@方法大哥的这篇文章
http://seofangfa.com/shell/cygwin-setup.html
讲的不能再详细
下载和安装好以后记得把安装的目录添加到path路径里
下面开始正文:
/*从服务器上下载日志文件,具体下载命令根据服务器不同,命令也不一样*/
rsync.exe -azvP --port=31777 /cygdrive/e/backup/log/
/*打开日志文件所在目录*/
cd /cygdrive/e/backup/log/
/*解压日志文件*/
gunzip -c 日志文件.gz > all.log
echo '开始分析.'
echo '/*******************百度*******************/'
echo ' 总抓取:'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|wc -l
echo ' 总不重复抓取:'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|sort|uniq -c|wc -l
echo ' 抓取状态码个数:'
grep 'Baiduspider/2.0' all.log|awk '{print $$9}'|sort|uniq -c|sort -r
echo ' 家居总抓取:'
grep 'Baiduspider/2.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|wc -l
echo ' 家居不重复抓取:'
grep 'Baiduspider/2.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|sort|uniq -c|wc -l
echo ' 抓取状态码个数:'
grep 'Baiduspider/2.0' all.log|grep 'jiaju'|awk '{print $$9}'|sort|uniq -c|sort -r
echo ' 详情页抓取:'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|wc -l
echo ' 详情页不重复抓取量:'
grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|sort|uniq -c|wc -l
#echo ' zqURL >>>>>>>>>>>'
#grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|sort|uniq > zq
echo ' 百度流量:'
grep -P '\.baidu\.com/.*(wd|word)=' all.log|grep 'jiaju'|wc -l
echo ' 抓取前二十:'
grep 'Baiduspider/2.0' all.log|awk '{if($$7~/jiaju/) print $$7 $$9}'|sort|uniq -c|sort -r|head -20
echo '/*******************搜狗*******************/'
echo ' 总抓取:'
grep 'Sogou web spider/4.0' all.log|awk '{print $$7}'|wc -l
echo ' 总不重复抓取:'
grep 'Sogou web spider/4.0' all.log|awk '{print $$7}'|sort|uniq -c|wc -l
echo ' 抓取状态码个数:'
grep 'Sogou web spider/4.0' all.log|awk '{print $$9}'|sort|uniq -c|sort -r
echo ' 家居总抓取:'
grep 'Sogou web spider/4.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|wc -l
echo ' 家居不重复抓取:'
grep 'Sogou web spider/4.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|sort|uniq -c|wc -l
echo ' 抓取状态码个数:'
grep 'Sogou web spider/4.0' all.log|grep 'jiaju'|awk '{print $$9}'|sort|uniq -c|sort -r
echo ' 搜狗流量'
grep -P '\.sogou\.com/.*(query)=' all.log|grep 'jiaju'|wc -l
echo ' 360流量'
grep -P '\.(so|haosou)\.com/.*(q|k)=' all.log|grep 'jiaju'|wc -l
/*删除日志文件*/
rm all.log如果存在每天的日志存到不同的服务器上的情况,请移步:github