使用shell脚本找出网站的空页面和404错误页面

早之前记的一个笔记了,之前只是记录了两句代码,放出来的话也是一个低质量的页面,于是设置为了仅自己可见,今晚抽空补充一下。

记得当的情景应该是提交sitemap时百度老提示有错误的URL,导致sitemap不能正常被抓取,于是在想办法解决这个问题,所以才有下面这些笔记:用shell批量找出网站空页面和404错误页面。

废话不多说,直接上shell代码:

代码如下:

time cat sitemap.txt|while read line;do curl -l $line -m 5 --connect-timeout 5 -o /dev/null -s -w "$line "%{http_code}" "%{size_download}"\n";done

前面加了一个time是为了看看代码执行所花的时间

%{http_code}意思是返回HTTP状态码,通过这个状态码我们就能知道该链接是正常的200链接,还是404错误链接;

%{size_download}意思是返回当前页面的大小,如果值太小的话,说明这些页面很有可能是低质量的空页面,得想办法剔除掉。

(0)

相关推荐

  • 使用shell脚本找出网站的空页面和404错误页面

    早之前记的一个笔记了,之前只是记录了两句代码,放出来的话也是一个低质量的页面,于是设置为了仅自己可见,今晚抽空补充一下. 记得当的情景应该是提交sitemap时百度老提示有错误的URL,导致sitemap不能正常被抓取,于是在想办法解决这个问题,所以才有下面这些笔记:用shell批量找出网站空页面和404错误页面. 废话不多说,直接上shell代码: 复制代码 代码如下: time cat sitemap.txt|while read line;do curl -l $line -m 5 --c

  • asp.net网站的404错误页面的正确设置方法第1/2页

    什么是404错误 HTTP 404 错误意味着链接指向的网页不存在,即原始网页的URL失效,这种情况经常会发生,很难避免,比如说:网页URL生成规则改变.网页文件更名或移动位置.导入链接拼写错误等,导致原来的URL地址无法访问;当Web 服务器接到类似请求时,会返回一个404 状态码,告诉浏览器要请求的资源并不存在.但是,Web服务器默认的404错误页面,无论Apache还是IIS,均十分简陋.呆板且对用户不友好,无法给用户提供必要的信息以获取更多线索,无疑这会造成用户的流失. 404页面的作用

  • shell脚本实现的网站日志分析统计(可以统计9种数据)

    写了个shell脚本,可以用来统计每天的访问日志,并发送到电子邮箱,方便每天了解网站情况.脚本统计了:1.总访问量2.总带宽3.独立访客量4.访问IP统计5.访问url统计6.来源统计7.404统计8.搜索引擎访问统计(谷歌,百度)9.搜索引擎来源统计(谷歌,百度) 复制代码 代码如下: #!/bin/bashlog_path=/home/www.jb51.net/log/access.log.1domain="jb51.net"email="log@jb51.net&quo

  • Shell+Curl网站状态检查脚本 抓出无法访问的站点

    一开始搭建中国博客联盟,既有博友提醒我,做网址大全这类网站维护很麻烦,需要大量的精力去Debug一些已夭折的网站,更是拿松哥的博客大全举例.当然,我也是深以为然.前些时间,看到梦轩丽人的boke123网址大全的维护记录,好像是纯手工检查,张戈实在是佩服的五体投地,太有毅力了. 现在博客联盟也收录的博客也已破200了,全部来自自主提交,不管你是草博还是名博,张戈不会强买强卖.由于大部分都是建站不过半年的新站,半路放弃.提前太监的博客估计还是有的,于是我决定还是把站点维护这个工作做起来. 上午用PH

  • Shell脚本实现递归删除空文件夹

    有时我们需要递归删除空文件夹,网上找了一下,没有发现比较好的Shell脚本,于是自己动手写了一个 脚本 复制代码 代码如下: #!/bin/bash # author: 十年后的卢哥哥 # des: delete empty directories recursive deleteempty() {   find ${1:-.} -mindepth 1 -maxdepth 1 -type d | while read -r dir   do     if [[ -z "$(find "

  • 写出健壮Bash Shell脚本的一些技巧总结

    许多人用Shell脚本完成一些简单任务,而且变成了他们生命的一部分.不幸的是,shell脚本在运行异常时会受到非常大的影响.在写脚本时将这类问题最小化是十分必要的.本文中我将介绍一些让bash脚本变得健壮的技术. 使用set -u 你因为没有对变量初始化而使脚本崩溃过多少次?对于我来说,很多次. 复制代码 代码如下: chroot=$1 ... rm -rf $chroot/usr/share/doc 如果上面的代码你没有给参数就运行,你不会仅仅删除掉chroot中的文档,而是将系统的所有文档都

  • 找出IIS中隐藏网站的方法

    打开IIS的管理器->选定一个文件夹->点击鼠标右键->选择"资源管理器",切换到网站的根目录,新建一个文件夹这里取名为"liuqq",接着我们到"x:\windows\system32" (当然这个目录是任意的,其中的x代表系统盘)那里新建一个文件夹取名"liuhack",回到IIS的管理器刷新就会看到,"liuqq"这个目录.选中"liuqq"目录,点击右键->

  • Apache下通过shell脚本提交网站404死链的方法

    网站运营人员对于死链这个概念一定不陌生,网站的一些数据删除或页面改版等都容易制造死链,影响用户体验不说,过多的死链还会影响到网站的整体权重或排名. 百度站长平台提供的死链提交工具,可将网站存在的死链(协议死链.404页面)进行提交,可快速删除死链,帮助网站SEO优化.在提交死链的文件中逐个手动填写死链的话太麻烦,工作中我们提倡复杂自动化,所以本文我们一起交流分享Apache服务中通过shell脚本整理网站死链,便于我们提交. . 1.配置Apache记录搜索引擎 Apache是目前网站建设最为主

  • 黑科技 Python脚本帮你找出微信上删除你好友的人

    相信大家在微信上一定被上面的这段话刷过屏,群发消息应该算是微信上流传最广的找到删除好友的方法了.但群发消息不仅仅会把通讯录里面所有的好友骚扰一遍,而且你还得挨个删除好几百个聊天记录,回复大家的疑问和鄙视.作为一个互联网从业者,除了群发消息就不能有更高效.不打扰好友的方式么? 答案是当然有,微信在拉好友进群聊的时候,如果这个人删除了你好友的话,会提示你一下「请先发送朋友验证申请给某某,对方将你加为微信朋友后,你才能邀请其加入群聊.」有办法了,那我把微信好友拉一个大群里面,然后默默的删掉微信群不就好

  • Shell脚本监控网站页面正常打开情况

    现在单位为了省钱,我用了shell脚本,简单的写了一个监控.通过curl一个固定页面的200状态码,如果是200,就说网站是正常的,如果不是200就自动重启网站,然后发邮件到QQ邮箱.自己在上QQ的同时,通过微信也可以收到报警,不但可以收到报警,还可以解决问题.基本上也可以解决web的故障. 复制代码 代码如下: #! /bin/bash source /etc/profile A="web is Good !" ip=`ifconfig eth0 | grep "inet

随机推荐