测试、预发布后用python检测网页是否有日常链接

2025-11-09 07:59:01

在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的，来实现测试和线上正式环境的隔离，这种情况下，就难免会碰到秀逗了把测试的链接发布到线上的情况，一般这种都是通过一些测试的检查工具来检查链接来规避风险的。前两天跟了一个问题也是这个情况，开发疏忽把日常url发布到线上了。但是测试那边没有自动化的监控工具，导致没有及时发现，由于最近正好在看python，后来处理完回家就想用python做个简单的监控。

大略思路是：用python写一个脚本来分析网页里的所有url，看是否包含日常的链接，然后把脚本放到crontab里跑定时任务，10分钟跑一次检查。如果发现非法链接，就发告警邮件给相关人员。脚本代码100行左右，比较好理解，贴上代码。

本来想用beautifulsoup，不过考虑到安装三方库麻烦，所以还是用自带的sgmllib来，不需要关心库。发邮件函数没有实现，根据各自的smtp服务器实现以下即可。

代码如下:

#!/usr/bin/env python
#coding:UTF-8

import urllib2
from sgmllib import SGMLParser
import smtplib
import time
#from email.mime.text import MIMEText
#from bs4 import BeautifulSoup
#import re

class UrlParser(SGMLParser):
urls = []
def do_a(self,attrs):
'''''parse tag a'''
for name,value in attrs:
if name=='href':
self.urls.append(value)
else:
continue

def do_link(self,attrs):
'''''parse tag link'''
for name,value in attrs:
if name=='href':
self.urls.append(value);
else:
continue

def checkUrl(checkurl, isDetail):
'''''检查checkurl对应的网页源码是否有非法url'''
parser = UrlParser()
page = urllib2.urlopen(checkurl)
content = page.read()
#content = unicode(content, "gb2312").encode("utf8")
parser.feed(content)
urls = parser.urls

dailyUrls = []
detailUrl = ""
for url in urls:
if 'daily' in url:
dailyUrls.append(url);
if not detailUrl and not isDetail and 'www.bc5u.com' in url:
detailUrl = url

page.close()
parser.close()

if isDetail:
return dailyUrls
else:
return dailyUrls,detailUrl

def sendMail():
'''''发送提醒邮件'''
pass

def log(content):
'''''记录执行日志'''
logFile = 'checkdailyurl.log'
f = open(logFile,'a')
f.write(str(time.strftime("%Y-%m-%d %X",time.localtime()))+content+'\n')
f.flush()
f.close()

def main():
'''''入口方法'''
#检查ju
url = "www.bc5u.com"

dailyUrls,detailUrl=checkUrl(url, False)
if dailyUrls:
#检查到daily链接，发送告警邮件
sendMail()
log('check: find daily url')
else:
#没检查到daily链接，不处理
log('check: not find daily url')

#检查judetail
dailyUrls=checkUrl(detailUrl, True)
if dailyUrls:
#检查到daily链接，发送告警邮件
log('check: find daily url')
sendMail()
else:
#没检查到daily链接，不处理
log('check: not find daily url')

if __name__ == '__main__':
main()

Python实现抓取页面上链接的简单爬虫分享

除了C/C++以外,我也接触过不少流行的语言,PHP.java.javascript.python,其中python可以说是操作起来最方便,缺点最少的语言了. 前几天想写爬虫,后来跟朋友商量了一下,决定过几天再一起写.爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下. 首先我们需要用到一个开源的模块,requests.这不是python自带的模块,需要从网上下载.解压与安装: 复制代码代码如下: $ curl -OL https://github.com/kennethreitz/
python实现网页链接提取的方法分享

复制代码代码如下: #encoding:utf-8import socketimport htmllib,formatterdef open_socket(host,servname): s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) port=socket.getservbyname(servname) s.connect((host,port)) return shost=''host=input('请输入网址\
python使用BeautifulSoup分页网页中超链接的方法

本文实例讲述了python使用BeautifulSoup分页网页中超链接的方法.分享给大家供大家参考.具体如下: python通过BeautifulSoup分页网页中的超级链接,这段python代码输出www.jb51.net主页上所有包含了jb51的url链接 from BeautifulSoup import BeautifulSoup import urllib2 import re url = urllib2.urlopen("http://www.jb51.net") con
python获取指定网页上所有超链接的方法

本文实例讲述了python获取指定网页上所有超链接的方法.分享给大家供大家参考.具体如下: 这段python代码通过urllib2抓取网页,然后通过简单的正则表达式分析网页上的全部url地址 import urllib2 import re #connect to a URL website = urllib2.urlopen(url) #read html code html = website.read() #use re.findall to get all the links links
Python解析网页源代码中的115网盘链接实例

本文实例讲述了python解析网页源代码中的115网盘链接的方法.分享给大家供大家参考.具体方法分析如下: 其中的1.txt,是网页http://bbs.pediy.com/showthread.php?t=144788另存为1.txt 具体代码如下: import re if __name__ == "__main__": fp = open("c:\\1.txt") https = re.compile(r"(http://u.*)") fo
python获取标准北京时间的方法

本文实例讲述了python获取标准北京时间的方法.分享给大家供大家参考.具体分析如下: 这段python代码主要通过www.beijing-time.org的官网上获取标准的北京时间,如果你的服务器挂在网上,你可以通过这段代码定时获取北京时间,然后更新自己系统的标准时间. import time,httplib def getBeijinTime(): try: conn = httplib.HTTPConnection("www.beijing-time.org") conn.req
python模拟登陆阿里妈妈生成商品推广链接

淘宝官方有获取商品推广链接的API,但该API属于增值API 普通开发者没有调用权限需要申请开通备注:登陆采用的是阿里妈妈账号登陆非淘宝账号登陆复制代码代码如下: #coding:utf-8__author__ = 'liukoo'import urllib,urllib2,cookielib,refrom hashlib import md5class alimama: def __init__(self): self.header = {'User-Agent':
python正则匹配抓取豆瓣电影链接和评论代码分享

复制代码代码如下: import urllib.requestimport reimport time def movie(movieTag): tagUrl=urllib.request.urlopen(url) tagUrl_read = tagUrl.read().decode('utf-8') return tagUrl_read def subject(tagUrl_read): ''' 这里还存在问题: ①这只针对单独的一页进行排序,而没有
测试、预发布后用python检测网页是否有日常链接

在大的互联网公司干技术的基本都会碰到测试.预发布.线上这种多套环境的,来实现测试和线上正式环境的隔离,这种情况下,就难免会碰到秀逗了把测试的链接发布到线上的情况,一般这种都是通过一些测试的检查工具来检查链接来规避风险的.前两天跟了一个问题也是这个情况,开发疏忽把日常url发布到线上了.但是测试那边没有自动化的监控工具,导致没有及时发现,由于最近正好在看python,后来处理完回家就想用python做个简单的监控. 大略思路是:用python写一个脚本来分析网页里的所有url,看是否包含日常的链接
Python构建网页爬虫原理分析

既然本篇文章说到的是Python构建网页爬虫原理分析,那么小编先给大家看一下Python中关于爬虫的精选文章: python实现简单爬虫功能的示例 python爬虫实战之最简单的网页爬虫教程网络爬虫是当今最常用的系统之一.最流行的例子是 Google 使用爬虫从所有网站收集信息.除了搜索引擎之外,新闻网站还需要爬虫来聚合数据源.看来,只要你想聚合大量的信息,你可以考虑使用爬虫. 建立一个网络爬虫有很多因素,特别是当你想扩展系统时.这就是为什么这已经成为最流行的系统设计面试问题之一.在这篇文章中
使用Python检测文章抄袭及去重算法原理解析

在互联网出现之前,"抄"很不方便,一是"源"少,而是发布渠道少:而在互联网出现之后,"抄"变得很简单,铺天盖地的"源"源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让"抄"完全自动化不费劲.这就导致了互联网上的"文章"重复性很高.这里的"文章"只新闻.博客等文字占据绝大部分内容的网页. 中文新闻网站的"转载"(其实就是抄)现象非
python 获取网页编码方式实现代码

python 获取网页编码方式实现代码 <span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"> </span><span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">
python检测文件夹变化,并拷贝有更新的文件到对应目录的方法

检测文件夹,拷贝有更新的文件到对应目录 2016.5.19 亲测可用,若有借鉴请修改下文件路径: 学习python小一个月后写的这个功能,属于初学,若有大神路过,求代码优化~ newcopy.py: 检测文件夹中最后修改时间变化的文件,并拷贝复制到相应路径下,拷贝目录会自动检测后输出:测试文件夹路径记得修改: pyinotify.py: 借用window接口,检测脚本所在目录下文件夹变化(更新.删除.添加等),输出日志到桌面上: # newcopy.py文件 # -*- coding:UTF-8
Python 实现网页自动截图的示例讲解

背景介绍最近在为部门编写一个自动化测试工具,工具涉及到一个功能,即将自动化测试生成的html报告截图,作为邮件正文,html文件上传到web服务器以链接形式添加到邮件中,最后发送邮件. 任务难点之前从未接触过页面自动截图相关的方面,因此如何自动进行页面截图成为本地调研方向. 方案思考在刚接到这个任务时,并不认同目前的方案.曾经一度认为,将html报告的内容写入邮件正文,即可通过html的形式发送邮件了.经过尝试后发现,邮件不支持带javascript的html.因此,选择了预览html并
Python检测网站链接是否已存在

Python是一种解释型.面向对象.动态数据类型的高级程序设计语言. Python由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年. 像Perl语言一样, Python 源代码同样遵循 GPL(GNU General Public License)协议. 早就听说Python语言操作简单,果然名不虚传,短短几句,就实现了基本的功能. 要检测目标网站上是否存在指定的URL,其实过程很简单: 1.获得指定网站网页的HTML代码 2.在HTML代码中查找指定的UR
python检测某个变量是否有定义的方法

本文实例讲述了python检测某个变量是否有定义的方法.分享给大家供大家参考.具体如下: 第一种方法使用内置函数locals(): 'testvar' in locals().keys() 第二种方法使用内置函数dir(): 'testvar' in dir() 第三种方法使用内置函数vars(): vars().has_key('testvar') 测试如下: #testvar未定义 In [1]: 'testvar' in locals().keys() Out[1]: Fa
python打开网页和暂停实例

本文实例讲述了python打开网页和暂停的方法.分享给大家供大家参考. 具体实现代码如下: import webbrowser import os webbrowser.open_new_tab("http://www.jb51.net/") os.system("pause")#运行windows的pause 命令,等待用户输入 i = 0 while i<100: if downloadUrlList == None: break webbrowser.o
python获取网页中所有图片并筛选指定分辨率的方法

压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 import re # 导入re模块 import os from PIL import Image htmlurl = 'http://www.win4000.com/wallpaper_detail_134824_3.html' downloadpath = 'C:\\Users\\yaowanjun

测试、预发布后用python检测网页是否有日常链接

相关推荐

随机推荐