以下这些shell命令都是二营长平常工作中真正用到的,而非绝大多数互联网上说的特别花哨的无用的信息。
准备工具:cygwin
下载和安装的方法可以看下@方法大哥的这篇文章
http://seofangfa.com/shell/cygwin-setup.html
讲的不能再详细
下载和安装好以后记得把安装的目录添加到path路径里
下面开始正文:
/*从服务器上下载日志文件,具体下载命令根据服务器不同,命令也不一样*/ rsync.exe -azvP --port=31777 /cygdrive/e/backup/log/ /*打开日志文件所在目录*/ cd /cygdrive/e/backup/log/ /*解压日志文件*/ gunzip -c 日志文件.gz > all.log echo '开始分析.' echo '/*******************百度*******************/' echo ' 总抓取:' grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|wc -l echo ' 总不重复抓取:' grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|sort|uniq -c|wc -l echo ' 抓取状态码个数:' grep 'Baiduspider/2.0' all.log|awk '{print $$9}'|sort|uniq -c|sort -r echo ' 家居总抓取:' grep 'Baiduspider/2.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|wc -l echo ' 家居不重复抓取:' grep 'Baiduspider/2.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|sort|uniq -c|wc -l echo ' 抓取状态码个数:' grep 'Baiduspider/2.0' all.log|grep 'jiaju'|awk '{print $$9}'|sort|uniq -c|sort -r echo ' 详情页抓取:' grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|wc -l echo ' 详情页不重复抓取量:' grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|sort|uniq -c|wc -l #echo ' zqURL >>>>>>>>>>>' #grep 'Baiduspider/2.0' all.log|awk '{print $$7}'|grep -P "^/jiaju/qg_[0-9]{1,6}\.html$$"|sort|uniq > zq echo ' 百度流量:' grep -P '\.baidu\.com/.*(wd|word)=' all.log|grep 'jiaju'|wc -l echo ' 抓取前二十:' grep 'Baiduspider/2.0' all.log|awk '{if($$7~/jiaju/) print $$7 $$9}'|sort|uniq -c|sort -r|head -20 echo '/*******************搜狗*******************/' echo ' 总抓取:' grep 'Sogou web spider/4.0' all.log|awk '{print $$7}'|wc -l echo ' 总不重复抓取:' grep 'Sogou web spider/4.0' all.log|awk '{print $$7}'|sort|uniq -c|wc -l echo ' 抓取状态码个数:' grep 'Sogou web spider/4.0' all.log|awk '{print $$9}'|sort|uniq -c|sort -r echo ' 家居总抓取:' grep 'Sogou web spider/4.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|wc -l echo ' 家居不重复抓取:' grep 'Sogou web spider/4.0' all.log|awk '{if(match($$7,"jiaju")) print $$7}'|sort|uniq -c|wc -l echo ' 抓取状态码个数:' grep 'Sogou web spider/4.0' all.log|grep 'jiaju'|awk '{print $$9}'|sort|uniq -c|sort -r echo ' 搜狗流量' grep -P '\.sogou\.com/.*(query)=' all.log|grep 'jiaju'|wc -l echo ' 360流量' grep -P '\.(so|haosou)\.com/.*(q|k)=' all.log|grep 'jiaju'|wc -l /*删除日志文件*/ rm all.log
如果存在每天的日志存到不同的服务器上的情况,请移步:github