Python爬虫定时计划任务的几种常见方法(推荐)

记得以前的Windows任务定时是可以正常使用的,今天试了下,发现不能正常使用了,任务计划总是挂起。接下来记录下Python爬虫定时任务的几种解决方法。

1.方法一、while True

首先最容易的是while true死循环挂起,不废话,直接上代码:

import os
import time
import sys
from datetime import datetime, timedelta
def One_Plan():
  # 设置启动周期
  Second_update_time = 24 * 60 * 60
 # 当前时间
 now_Time = datetime.now()
 # 设置 任务启动时间
 plan_Time = now_Time.replace(hour=9, minute=0, second=0, microsecond=0)
 # 设置差值,-1 day, 21:48:53.246576,类似于这样
 # time.sleep()需要传入int,所以下面使用.total_seconds()
 # 主要用来计算差值,返回int,具体功能可以自行查阅相关资料
 delta = plan_Time - now_Time
 first_plan_Time = delta.total_seconds() % Second_update_time
 print("距离第一次执行需要睡眠%d秒" % first_plan_Time)
 return first_plan_Time
# while Ture代码块,挂起程序,睡眠时间结束后调用函数名进行执行
while True:
 s1 = One_Plan()
 time.sleep(s1)
 # 下面这里是自己定义的函数,想跑代码的可以换成hellow world函数或者注释掉这行测试下
 exe_file(D_list)
 print("正在执行首次更新程序") 

个人感觉使用这种方式进行定时计划的启动如果为单个程序,并且一天执行一次的话没什么问题,如果要考虑到一天执行多个任务并且一天需要执行多次,短板一下就凸显出来了。

在工作的情况中还需要考虑到很多因素,比如爬虫程序需要在晚上12点和早上6点、9点,下午3点执行四次,并且需要同时执行4个爬虫,还需要考虑到网络是否稳定,如果程序挂掉该怎么处理等等因素。

2.方法二、Timer模块

之前说了最简单的定时启动,可以说是最简单粗暴的,人生苦短,python优雅,有没有那种很简单很简单,几行代码就可以搞定的那种?必须有的哈!简单举个例子说一下,上一个方法的末尾提到过需要考虑到其他因素,这就来了:

现在需要启动一个selenium的爬虫,使用火狐驱动+多线程,大家都明白的,现在电脑管家显示CPU占用率20%,启动selenium后不停的开启浏览器+多线程,好,没过5分钟,CPU占用率直接拉到90%+,电脑卡到飞起,定时程序虽然还在运行,但是已经类似于待机状态,是不是突然感觉到面对电脑卡死,第一反应:卧槽,这个lj电脑,怎么程序都跑不起来,我还写这么多代码,*****!!

是吧,接下来上代码,具体功能,请自行查阅相关资料深造:

from datetime import datetime
from threading import Timer
import time
# 定时任务
def task():
 print(datetime.now().strftime("%Y-%m-%d %H:%M:%S"))
def timedTask():
 '''
 第一个参数: 延迟多长时间执行任务(秒)
 第二个参数: 要执行的函数
 第三个参数: 调用函数的参数(tuple)
 '''
 Timer(5, task, ()).start()
while True:
 timedTask()
 time.sleep(5) 

7行代码,是不是很优雅?优不优雅的主要是代码少,不费劲对吧。

2020-06-05 14:06:39 
2020-06-05 14:06:44 
2020-06-05 14:06:49 
2020-06-05 14:06:54 
2020-06-05 14:06:59 
2020-06-05 14:07:04 
2020-06-05 14:07:09 
2020-06-05 14:07:14 
2020-06-05 14:07:19 
2020-06-05 14:07:24

3. 方法三、sched模块

这次直接上模块——sched模块

代码如下:

from datetime import datetime
import sched
import time
def timedTask():
 # 初始化 sched 模块的 scheduler 类,传入(time.time, time.sleep)这两个参数
 schedscheduler = sched.scheduler(time.time, time.sleep)
 # 增加调度任务,enter(睡眠时间,执行级别,执行函数)
 scheduler.enter(5, 1, task)
 # 运行任务
 scheduler.run()
# 定时任务
def task():
 print(datetime.now().strftime("%Y-%m-%d %H:%M:%S"))
if __name__ == '__main__':
 timedTask() 

这个模块也很容易上手,需要注意,scheduler()只会执行一次就结束程序,可以在mian下面添加while Ture或者直接添加调度任务在timeTask中就可以,另外除了这样的写法外,还有另外一种写法,上代码:

import schedule
import time
def hellow():
 print('hellow')
def Timer():
 schedule.every().day.at("09:00").do(hellow)
 schedule.every().day.at("18:00").do(hellow)
 while True:
  schedule.run_pending()
  time.sleep('需要睡眠的周期')
Timer() 

在这里可以看到,有day-hour-minute,定时任务非常的方便,在while True里添加需要睡眠的时间,在函数模块内添加需要执行的次数即可。

到此这篇关于Python爬虫定时计划任务的几种常见方法的文章就介绍到这了,更多相关Python爬虫定时计划任务内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Linux部署python爬虫脚本,并设置定时任务的方法

    去年因项目需要,用python写了个爬虫.因爬到的数据需要存到生产环境的PG数据库.所以需要将脚本部署到CentOS服务器,并设置定时任务,自动启动脚本. 实施步骤如下: 1.安装pip(操作系统自带了python2.6可以直接用,但是没有pip) # 下载pip安装包 wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5=834b2904f92d46aaa333267fb1c922bb" --

  • Python定时任务工具之APScheduler使用方式

    APScheduler (advanceded python scheduler)是一款Python开发的定时任务工具. 文档地址 apscheduler.readthedocs.io/en/latest/u- 特点: 不依赖于Linux系统的crontab系统定时,独立运行 可以 动态添加 新的定时任务,如下单后30分钟内必须支付,否则取消订单,就可以借助此工具(每下一单就要添加此订单的定时任务) 对添加的定时任务可以做持久保存 1 安装 pip install apscheduler 2 组

  • python BlockingScheduler定时任务及其他方式的实现

    本文介绍了python BlockingScheduler定时任务及其他方式的实现,具体如下: #BlockingScheduler定时任务 from apscheduler.schedulers.blocking import BlockingScheduler from datetime import datetime 首先看看周一到周五定时执行任务 # 输出时间 def job(): print(datetime.now().strtime("%Y-%m-%d %H:%M:%S"

  • jenkins配置python脚本定时任务过程图解

    这篇文章主要介绍了jekins配置python脚本定时任务过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1.首先安装jekins环境,访问网页https://jenkins.io/zh/download/,下载长期稳定版如下: 2.下载安装包后直接运行,进行选择安装路径,傻瓜式安装.安装完成后,点Finished,弹出jekins输入密匙网页,根据网页提示路径,找到 对应的jekins密匙输入后,选择推荐插件安装即可.(也可以不安装插

  • Python定时任务APScheduler的实例实例详解

    APScheduler 支持三种调度任务:固定时间间隔,固定时间点(日期),Linux 下的 Crontab 命令.同时,它还支持异步执行.后台执行调度任务. 一.基本架构 触发器 triggers:设定触发任务的条件 描述一个任务何时被触发,按日期或按时间间隔或按 cronjob 表达式三种方式触发 任务存储器 job stores:存放任务,可以放内存(默认)或数据库 注:调度器之间不能共享任务存储器 执行器 executors:用于执行任务,可设定执行模式 将指定的作业提交到线程池或者进程

  • Python爬虫定时计划任务的几种常见方法(推荐)

    记得以前的Windows任务定时是可以正常使用的,今天试了下,发现不能正常使用了,任务计划总是挂起.接下来记录下Python爬虫定时任务的几种解决方法. 1.方法一.while True 首先最容易的是while true死循环挂起,不废话,直接上代码: import os import time import sys from datetime import datetime, timedelta def One_Plan(): # 设置启动周期 Second_update_time = 24

  • Python 作为小程序后端的三种实现方法(推荐)

    目录 方法一.微信的云托管 方法二.微信的云函数中转 方法三:自建服务器,备案域名 最后的话 参考资料 微信的小程序是一个很不错的体验,简单,上手快,这几天也在学习使用小程序,自己总结了三种用 Python 作为小程序后端的方式,供你参考. 方法一.微信的云托管 优点:不需要购买服务器,不需要域名备案,按使用量计费,DevOps 自动化,安全鉴权,适合没有运维经验的人. 缺点:费用这块,肯定是比自建服务器费用略高的.就像同一车型,自动挡的车比手动挡的车更贵一样. 所谓云托管,就是一个 Docke

  • Android中定时执行任务的3种实现方法(推荐)

    在Android开发中,定时执行任务的3种实现方法: 一.采用Handler与线程的sleep(long)方法(不建议使用,Java的实现方式) 二.采用Handler的postDelayed(Runnable, long)方法(最简单的android实现) 三.采用Handler与timer及TimerTask结合的方法(比较多的任务时建议使用) 下面逐一介绍: 一.采用Handle与线程的sleep(long)方法 Handler主要用来处理接受到的消息.这只是最主要的方法,当然Handle

  • python爬虫租房信息在地图上显示的方法

    本人初学python是菜鸟级,写的不好勿喷. python爬虫用了比较简单的urllib.parse和requests,把爬来的数据显示在地图上.接下里我们话不多说直接上代码: 1.安装python环境和编辑器(自行度娘) 2.本人以58品牌公寓为例,爬取在杭州地区价格在2000-4000的公寓. #-*- coding:utf-8 -*- from bs4 import BeautifulSoup from urllib.parse import urljoin import requests

  • python爬虫之爬取百度音乐的实现方法

    在上次的爬虫中,抓取的数据主要用到的是第三方的Beautifulsoup库,然后对每一个具体的数据在网页中的selecter来找到它,每一个类别便有一个select方法.对网页有过接触的都知道很多有用的数据都放在一个共同的父节点上,只是其子节点不同.在上次爬虫中,每一类数据都要从其父类(包括其父节点的父节点)上往下寻找ROI数据所在的子节点,这样就会使爬虫很臃肿,因为很多数据有相同的父节点,每次都要重复的找到这个父节点.这样的爬虫效率很低. 因此,笔者在上次的基础上,改进了一下爬取的策略,笔者以

  • python爬虫之urllib,伪装,超时设置,异常处理的方法

    Urllib 1. Urllib.request.urlopen().read().decode() 返回一个二进制的对象,对这个对象进行read()操作,可以得到一个包含网页的二进制字符串,然后用decode()解码成html源码 2. urlretrieve() 将一个网页爬取到本地 3. urlclearup() 清除 urlretrieve()所产生的缓存 4. info() 返回一个httpMessage对象,表示远程服务器的头信息 5. getcode() 获取当前网页的状态码 20

  • python隐藏类中属性的3种实现方法

    方法一: 效果图一: 代码一: # 定义一个矩形的类 class Rectangle: # 定义初始化方法 def __init__(self,width,height): self.hidden_width = width self.hidden_height = height # 定义获取width.height的方法 def get_width(self): return self.hidden_width def get_height(self): return self.hidden_

  • Python爬虫破解登陆哔哩哔哩的方法

    写在前面 作为一名找不到工作的爬虫菜鸡人士来说,登陆这一块肯定是个比较大的难题.  从今天开始准备一点点对大型网站进行逐个登陆破解.加深自己爬虫水平. 环境搭建 Python 3.7.7环境,Mac电脑测试 Python内置库 第三方库:rsa.urllib.requests PC端登陆 全部代码: '''PC登录哔哩哔哩''' class Bilibili_For_PC(): def __init__(self, **kwargs): for key, value in kwargs.item

  • python列表去重的5种常见方法实例

    目录 前言 一.使用for循环实现列表去重 二.使用列表推导式去重 三.使用集合转换函数set()实现列表去重 四.使用新建字典方式实现列表去重 五.删除列表中存在重复的数据 附:Python 二维数组元素去重 np.unique()函数的使用 总结 前言 列表去重在python实际运用中,十分常见,也是最基础的重点知识. 以下总结了5种常见的列表去重方法 一.使用for循环实现列表去重 此方法去重后,原顺序保持不变. # for循环实现列表去重 list1 = ['a', 'b', 1, 3,

  • aspx后台传递Json到前台的两种接收方法推荐

    第一种:前台接收 dataType: "json", success: function (data) { var varReceiver = data; } <%@ Page Language="C#" AutoEventWireup="true" CodeBehind="echart2.aspx.cs" Inherits="RTC.echart2" %> <!DOCTYPE html&

随机推荐