结合Python网络爬虫做一个今日新闻小程序

2025-03-31 16:26:41

核心代码

requests.get 下载html网页
bs4.BeautifulSoup 分析html内容

from requests import get
from bs4 import BeautifulSoup as bs
from datetime import datetime as dt

def Today(style=1):
    date = dt.today()
    if style!=1: return f'{date.month}月{date.day}日'
    return f'{date.year}-{date.month:02}-{date.day:02}'

def SinaNews(style=1):
    url1 = 'http://news.***.com.cn/'
    if style==1: url1 += 'world'
    elif style==2: url1 += 'china'
    else: url1='https://mil.news.sina.com.cn/'
    text = get(url1)
    text.encoding='uft-8'
    soup = bs(text.text,'html.parser')
    aTags = soup.find_all("a")
    return [(t.text,t['href']) for t in aTags if Today() in str(t)]

爬取标题

>>> for i,news in enumerate(SinaNews(1)):
print(f'No{i+1}:',news[0])

No1: 外媒：*****
No2: 日媒：******
......

.......

内容已马赛克！！！
>>>

首次做爬虫，为了方便下手找一个不用破解网页的某新闻网站，下载网页就能直接取得内容。其中的国际、国内和军事新闻三个网页作内容源，requests.get下载网页后，分析所得html文本，所有<a href=...>标记带日期刚好所需要的。

爬取正文

然后再根据url下载正文网页，分析可知id=‘article'的<div>层就是正文所在位置，.get_text()是取得文本的关键函数，然后适当做一些格式处理：

>>> def NewsDownload(url):
    html = get(url)
    html.encoding='uft-8'
    soup = bs(html.text,'html.parser')
    text = soup.find('div',id='article').get_text().strip()
    text = text.replace('点击进入专题：','相关专题：')
    text = text.replace('　　','\n　　')
    while '\n\n\n' in text:
        text = text.replace('\n\n\n','\n\n')
    return text

>>> url = 'https://******/w/2021-09-29/doc-iktzqtyt8811588.shtml'
>>> NewsDownload(url)
'原标题：******************************************************'
>>>

界面代码

使用内置的图形界面库 tkinter 控件 Text 、Listbox、Scrollbar、Button。设置基本属性、放置位置、绑定命令，然后调试到程序完工！

源代码 News.pyw ：其中涉及的网站名称已马赛克！

from requests import get
from bs4 import BeautifulSoup as bs
from datetime import datetime as dt
from os import path
import tkinter as tk

def Today(style=1):
    date = dt.today()
    if style!=1: return f'{date.month}月{date.day}日'
    return f'{date.year}-{date.month:02}-{date.day:02}'

def SinaNews(style=1):
    url1 = 'http://news.****.com.cn/'
    if style==1: url1 += 'world'
    elif style==2: url1 += 'china'
    else: url1='https://mil.****.com.cn/'
    text = get(url1)
    text.encoding='uft-8'
    soup = bs(text.text,'html.parser')
    aTags = soup.find_all("a")
    return [(t.text,t['href']) for t in aTags if Today() in str(t)]

def NewsList(i):
    global news
    news = SinaNews(i)
    tList.delete(0,tk.END)
    for idx,item in enumerate(news):
        tList.insert(tk.END,f'{idx+1:03} {item[0]}')
    tText.config(state=tk.NORMAL)
    tText.delete(0.0,tk.END)
    tText.config(state=tk.DISABLED)
    NewsShow(0)

def NewsList1(): NewsList(1)
def NewsList2(): NewsList(2)
def NewsList3(): NewsList(3)

def NewsShow(idx):
    if idx!=0:
        idx = tList.curselection()[0]
    title,url = news[idx][0],news[idx][1]
    html = get(url)
    html.encoding='uft-8'
    soup = bs(html.text,'html.parser')
    text = soup.find('div',id='article').get_text().strip()
    text = text.replace('点击进入专题：','相关专题：')
    text = text.replace('　　','\n　　')
    while '\n\n\n' in text:
        text = text.replace('\n\n\n','\n\n')
    tText.config(state=tk.NORMAL)
    tText.delete(0.0,tk.END)
    tText.insert(tk.END, title+'\n\n'+text)
    tText.config(state=tk.DISABLED)

def InitWindow(self,W,H):
    Y = self.winfo_screenheight()
    winPosition = str(W)+'x'+str(H)+'+8+'+str(Y-H-100)
    self.geometry(winPosition)
    icoFile = 'favicon.ico'
    f = path.exists(icoFile)
    if f: win.iconbitmap(icoFile)
    self.resizable(False,False)
    self.wm_attributes('-topmost',True)
    self.title(bTitle[0])
    SetControl()
    self.update()
    self.mainloop()

def SetControl():
    global tList,tText
    tScroll = tk.Scrollbar(win, orient=tk.VERTICAL)
    tScroll.place(x=450,y=320,height=300)
    tList = tk.Listbox(win,selectmode=tk.BROWSE,yscrollcommand=tScroll.set)
    tScroll.config(command=tList.yview)
    for idx,item in enumerate(news):
        tList.insert(tk.END,f'{idx+1:03} {item[0]}')
    tList.place(x=15,y=320,width=435,height=300)
    tList.select_set(0)
    tList.focus()
    bW,bH = 70,35    #按钮的宽高
    bX,bY = 95,270    #按钮的坐标
    tBtn1 = tk.Button(win,text=bTitle[1],command=NewsList1)
    tBtn1.place(x=bX,y=bY,width=bW,height=bH)
    tBtn2=tk.Button(win,text=bTitle[2],command=NewsList2)
    tBtn2.place(x=bX+100,y=bY,width=bW,height=bH)
    tBtn3 = tk.Button(win,text=bTitle[3],command=NewsList3)
    tBtn3.place(x=bX+200,y=bY,width=bW,height=bH)
    tScroll2 = tk.Scrollbar(win, orient=tk.VERTICAL)
    tScroll2.place(x=450,y=10,height=240)
    tText = tk.Text(win,yscrollcommand=tScroll2.set)
    tScroll2.config(command=tText.yview)
    tText.place(x=15,y=10,width=435,height=240)
    tText.config(state=tk.DISABLED,bg='azure',font=('宋体', '14'))
    NewsShow(0)
    tList.bind("<Double-Button-1>",NewsShow)

if __name__=='__main__':

    win = tk.Tk()
    bTitle = ('今日新闻','国际新闻','国内新闻','军事新闻')
    news = SinaNews()
    InitWindow(win,480,640)

奉上全部代码，在此就不作详细分析了，如有需要请留言讨论。我的使用环境 Win7+Python3.8.8 下可以无错运行！文中涉及网站名称已打上马赛克，猜不出名字的可以私下里问我。

软件编译

使用pyinstaller.exe编译成单个运行文件，注意源码文件的后缀名应该用.pyw否则会有cmd黑窗口出现。还有一个小知识点，任意网站的Logo图标icon文件，一般都能在根目录里下载到，即：
http(s)://websiteurl.com(.cn)/favicon.ico

编译命令如下：

D:\>pyinstaller --onefile --nowindowed --icon="D:\favicon.ico" News.pyw

编译完成后，在dist文件夹下生成一个News.exe可执行文件，大小约15M还能接受。

反正拿走就能直接用，临走前记得收藏，谢谢！

到此这篇关于结合Python网络爬虫做一个今日新闻小程序的文章就介绍到这了,更多相关Python 新闻程序内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

基于Python+Pyqt5开发一个应用程序

介绍你的那个她/他 1. UI -MainWindow设计界面及代码 # -*- coding: utf-8 -*- # Form implementation generated from reading ui file '/media/sf_data/onemore_tjj/Again_tjj/MainWindow.ui' # # Created by: PyQt5 UI code generator 5.14.1 # # WARNING! All changes made in this
python实现简单的聊天小程序

概要这是一个使用python实现一个简单的聊天室的功能,里面包含群聊,私聊两种聊天方式.实现的方式是使用套接字编程的一个使用TCP协议 c/s结构的聊天室实现思路 x01 服务端的建立首先,在服务端,使用socket进行消息的接受,每接受一个socket的请求,就开启一个新的线程来管理消息的分发与接受,同时,又存在一个handler来管理所有的线程,从而实现对聊天室的各种功能的处理 x02 客户端的建立客户端的建立就要比服务端简单多了,客户端的作用只是对消息的发送以及接受,以及按照特定的
Python如何实现的简单购物车程序

购物车程序需求: 用户输入购物预算展示商品列表用户购买商品,每次购买后提示用户购买信息和剩余预算购物完成后打印购物花费和购物清单,并将商品从原列表移除实现代码如下: # 正整数校验函数 def is_positive_int(input_num): # noinspection PyBroadException # 上一条注释消除Pycharm 'Too broad exception clause' 警告 try: positive_int = int(input_num) if po
利用Python实现定时程序的方法

目录定时器概念实现一个简单的定时程序方案一方案二定时器概念什么是定时器呢?它是指从指定的时刻开始,经过一个指定时间,然后触发一个事件,用户可以自定义定时器的周期与频率. 实现一个简单的定时程序方案一在 Python 中,如何定义一个定时器函数呢?我们先看第一种方法.假设我们需要执行一个函数userCountFunc,这个函数需要每隔一个小时被执行一次.那么,我们可以这样写: def main(): startCronTask(userCountFunc, minutes=60)
结合Python网络爬虫做一个今日新闻小程序

核心代码 requests.get 下载html网页 bs4.BeautifulSoup 分析html内容 from requests import get from bs4 import BeautifulSoup as bs from datetime import datetime as dt def Today(style=1): date = dt.today() if style!=1: return f'{date.month}月{date.day}日' return f'{dat
python实战练习做一个随机点名的程序

用python做一个简单的随机点名程序(不重复点名) 这是我来到csdn的第一篇文章,内容如果有瑕疵的地方或者代码可以进一步改善,请大家对我指点一二.谢谢!废话不多说,上代码! import random #导入随机模块 import pyttsx3 #导入第三方语音模块 listen = pyttsx3.init() #初始化一个变量 txt_path = input('请输入txt文件的path:') #使用者输入名单文件的路径(名单文件为txt,一行只能有一个姓名,姓名必须在行首不能有空格
python 基于opencv 实现一个鼠标绘图小程序

需求在画布上用鼠标画图,可以画圆或矩形,按m键在两种模式下切换.左键按下时开始画图,移动到哪儿画到哪儿,左键释放时结束画图. 实现思想用鼠标画图:需要定义鼠标的回调函数mouse_event 画圆或矩形:需要定义一个画图的模式mode 左键单击.移动.释放:需要捕获三个不同的事件开始画图,结束画图:需要定义一个画图的标记位drawing 实现代码 import cv2 as cv import numpy as np drawing = False # 是否开始画图 mode = True
如何用python GUI(tkinter)写一个闹铃小程序(思路详解)

事情的起因是帮助一个朋友写一个程序,来控制他们单位的铃声,平时竟然是手动打铃(阔怕) 事情的第一步:理清思路.需要用到python的几个知识:1.tkinter一些函数控件,2.控件和函数之间的联系(主用TreeView控件),3.读写数据入txt文档(高级版可换为数据库),4.数据的类的封装. 需要其他方面的知识:1.简单设计界面布局,2.确保程序易于使用的不反人类细节. 考虑清楚后,那么我开始学习一下相关知识. (1)python中作为面向对象的一份子,Class(类)和Instance(实
详解Python网络爬虫功能的基本写法

网络爬虫,即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 1. 网络爬虫的定义网络蜘蛛是通过网页的链接地址来寻找网页的.从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止.如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来.这样看来,网络爬虫就是一个爬行程序,一个抓取网页的
Python网络爬虫中的同步与异步示例详解

一.同步与异步 #同步编程(同一时间只能做一件事,做完了才能做下一件事情) <-a_url-><-b_url-><-c_url-> #异步编程 (可以近似的理解成同一时间有多个事情在做,但有先后) <-a_url-> <-b_url-> <-c_url-> <-d_url-> <-e_url-> <-f_url-> <-g_url-> <-h_url-> <--i_ur
python网络爬虫实现发送短信验证码的方法

前言:今天要总结的是如何用程序来实现短信发送功能.但是呢,可能需要我们调用一些api接口,我会详细介绍.都是自己学到的,害怕忘记,所以要总结一下,让写博客成为一种坚持的信仰.废话不多说,我们开始吧! 网络爬虫实现发送短信验证码在实现我们目标的功能之前,我们要有自己的思路,否则你没有方向,又如何实现自己的代码功能呢? 我们要发送短信,那么我们其实是需要分析的.我们可以去分析一个可以发送短信的网站页面. 我们来到这里如下: 可以看到这是一个注册界面,我们在注册时会被要求需要填写手机号码的·,其实还
python网络爬虫实战

目录一.概述二.原理三.爬虫分类 1.传统爬虫 2.聚焦爬虫 3.通用网络爬虫(全网爬虫) 四.网页抓取策略 1.宽度优先搜索: 2.深度优先搜索: 3.最佳优先搜索: 4.反向链接数策略: 5.Partial PageRank策略: 五.网页抓取的方法 1.分布式爬虫现在比较流行的分布式爬虫: 2.Java爬虫 3.非Java爬虫六.项目实战 1.抓取指定网页抓取某网首页 2.抓取包含关键词网页 3.下载贴吧中图片 4.股票数据抓取六.结语一.概述网络爬虫(Web crawl
python网络爬虫之模拟登录自动获取cookie值验证码识别的具体实现

目录 1.爬取网页分析 2.验证码识别 3.cookie自动获取 4.程序源代码 chaojiying.py sign in.py 1.爬取网页分析爬取的目标网址为:https://www.gushiwen.cn/ 在登陆界面需要做的工作有,获取验证码图片,并识别该验证码,才能实现登录. 使用浏览器抓包工具可以看到,登陆界面请求头包括cookie和user-agent,故在发送请求时需要这两个数据.其中user-agent可通过手动添加到请求头中,而cookie值需要自动获取. 分析完毕,实践
python网络爬虫精解之正则表达式的使用说明

目录一.常见的匹配规则二.常见的匹配方法 1.match() 2.search() 3.findall() 4.sub() 5.compile() 一.常见的匹配规则二.常见的匹配方法 1.match() match()方法从字符串的起始位置开始匹配,该方法有两个参数,第一个是正则表达式,第二个是需要匹配的字符串: re.match(正则表达式,字符串) 如果该方法匹配成功,返回的是SRE_Match对象,如果未匹配到,则返回None. 返回成功后有两个方法,group()方法用来查看匹配