Python登录并获取CSDN博客所有文章列表代码实例

2025-10-18 13:37:40

分析登录过程

这几天研究百度登录和贴吧签到，这百度果然是互联网巨头，一个登录过程都弄得复杂无比，简直有毒。我研究了好几天仍然没搞明白。所以还是先挑一个软柿子捏捏，就选择CSDN了。

过程很简单，我也不截图了。直接打开浏览器，然后打开Fiddler，然后登录CSDN。然后Fiddler显示浏览器向https://passport.csdn.net/account/login?ref=toolbar发送了一个POST请求，这个请求包含了登录表单，而且还是未加密的。当然CSDN本身还是使用了HTTPS，所以安全性还行。

请求体如下，username和password当然是用户名和密码了。

username=XXXXX&password=XXXXXX&rememberMe=true&lt=LT-461600-wEKpWAqbfZoULXmFmDIulKPbL44hAu&execution=e4s1&_eventId=submit

lt参数我不知道是干啥的，结果直接在页面中一看原来全在表单里头，这下直接全了。CSDN很贴心的连注释都给出了。另外如果你打开百度首页的话，还会发现浏览器的log中还会输出百度的招聘信息。

HTML截图

登录代码

这些信息全有了，这样我们就可以登录了。不说废话，直接上代码。先说说我遇到的几个坑。

首先是一个参数错误，其实逻辑没问题，但是代码我复制粘贴之后忘了改名字了，就登录表单那里，三个参数全弄成了lt，结果登录返回来的页面是错误页面。我还以为是没有附带什么请求头，瞎整了大半天。最后用Fiddler调试了好多遍才发现。

第二个问题就是CSDN鸡贼的跳转。由于浏览器自带了JS引擎，所以我们在浏览器中输入网址，到达页面这一过程不一定就是一个请求。可能中间用了什么JS代码先跳转到中间页面，最后才跳转到实际页面。代码里的_validate_redirect_url(self)函数就是干这个的，登录完了第一次请求会得到一个中间页面，它包含了一堆JS代码，其中有个重定向网址。我们获取到这个重定向网址，还得请求一次，获得200OK之后，后续请求才能获得实际页面。

第三个问题就是正则表达式匹配页面的空格问题了。获取文章首先得知道文章总数，这个好办，直接获取页面里的文章数就行了。它类似100条共20页这个。那么该怎么获取呢？一开始我用的(\d+)条共(\d+)页这个正则，但是结果没匹配到，然后我仔细看了一下页面，原来这两个词之间不是一个空格，而是两个空格！其实这个问题倒是也好办，改一下正则(\d+)条\s*共(\d+)页就行了。所以以后如果遇到空格问题，直接用\s匹配，不要想着自己输入一个空格还是两个空格。

import requests
from bs4 import BeautifulSoup
import re
import urllib.parse as parse

class CsdnHelper:
  """登录CSDN和列出所有文章的类"""
  csdn_login_url = 'https://passport.csdn.net/account/login?ref=toolbar'
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
  }
  blog_url = 'http://write.blog.csdn.net/postlist/'

  def __init__(self):
    self._session = requests.session()
    self._session.headers = CsdnHelper.headers

  def login(self, username, password):
    '''登录主函数'''
    form_data = self._prepare_login_form_data(username, password)
    response = self._session.post(CsdnHelper.csdn_login_url, data=form_data)
    if 'UserNick' in response.cookies:
      nick = response.cookies['UserNick']
      print(parse.unquote(nick))
    else:
      raise Exception('登录失败')

  def _prepare_login_form_data(self, username, password):
    '''从页面获取参数，准备提交表单'''
    response = self._session.get(CsdnHelper.csdn_login_url)
    login_page = BeautifulSoup(response.text, 'lxml')
    login_form = login_page.find('form', id='fm1')

    lt = login_form.find('input', attrs={'name': 'lt'})['value']
    execution = login_form.find('input', attrs={'name': 'execution'})['value']
    eventId = login_form.find('input', attrs={'name': '_eventId'})['value']
    form = {
      'username': username,
      'password': password,
      'lt': lt,
      'execution': execution,
      '_eventId': eventId
    }

    return form

  def _get_blog_count(self):
    '''获取文章数和页数'''
    self._validate_redirect_url()
    response = self._session.get(CsdnHelper.blog_url)
    blog_page = BeautifulSoup(response.text, 'lxml')
    span = blog_page.find('div', class_='page_nav').span
    print(span.string)
    pattern = re.compile(r'(\d+)条\s*共(\d+)页')
    result = pattern.findall(span.string)
    blog_count = int(result[0][0])
    page_count = int(result[0][1])
    return (blog_count, page_count)

  def _validate_redirect_url(self):
    '''验证重定向网页'''
    response = self._session.get(CsdnHelper.blog_url)
    redirect_url = re.findall(r'var redirect = "(\S+)";', response.text)[0]
    self._session.get(redirect_url)

  def print_blogs(self):
    '''输出文章信息'''
    blog_count, page_count = self._get_blog_count()
    for index in range(1, page_count + 1):
      url = f'http://write.blog.csdn.net/postlist/0/0/enabled/{index}'
      response = self._session.get(url)
      page = BeautifulSoup(response.text, 'lxml')
      links = page.find_all('a', href=re.compile(r'http://blog.csdn.net/u011054333/article/details/(\d+)'))
      print(f'----------第{index}页----------')
      for link in links:
        blog_name = link.string
        blog_url = link['href']
        print(f'文章名称:《{blog_name}》 文章链接:{blog_url}')

if __name__ == '__main__':
  csdn_helper = CsdnHelper()
  username = input("请输入用户名")
  password = input("请输入密码")
  csdn_helper.login(username, password)
  csdn_helper.print_blogs()

当然，这里最重要的的就是登录过程了。我们登录之后，才可以做其他事情。比方说，下一步还能写一个备份工具，把CSDN博客的所有文章和图片下载到本地。有兴趣的同学可以试一试。

总结

以上就是本文关于Python登录并获取CSDN博客所有文章列表代码实例的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

Python 爬虫模拟登陆知乎

在之前写过一篇使用python爬虫爬取电影天堂资源的文章,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了一下python模拟登陆,网上关于这部分的资料很多,很多demo都是登陆知乎的,原因是知乎的登陆比较简单,只需要post几个参数,保存cookie.而且还没有进行加密,很适合用来做教学.我也是是新手,一点点的摸索终于成功登陆上了知乎.就通过这篇文章分享一下学习这部分的心得,希望对那些和我一样的初学者
Python使用Srapy框架爬虫模拟登陆并抓取知乎内容

一.Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括: Cookie名字(Name)Cookie的值(Value) Cookie的过期时间(Expires/Max-Age) Cookie作用路径(Path) Cookie所在域名(Domain),使用Cookie进行安全连接(Secure) 前两个参数是Cookie应用的必要条件,另外,还包括Cookie大小(Size,不同浏览器对Cookie个数及大
Python爬虫利用cookie实现模拟登陆实例详解

Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密). 举个例子,某些网站是需要登录后才能得到你想要的信息的,不登陆只能是游客模式,那么我们可以利用Urllib2库保存我们以前登录过的Cookie,之后载入cookie获取我们想要的页面,然后再进行抓取.理解cookie主要是为我们快捷模拟登录抓取目标网页做出准备. 我之前的帖子中使用过urlopen()这个函数来打开网页进行抓取,这仅仅只是一个简单的Python网页打开器,其参数也仅有ur
Python登录并获取CSDN博客所有文章列表代码实例

分析登录过程这几天研究百度登录和贴吧签到,这百度果然是互联网巨头,一个登录过程都弄得复杂无比,简直有毒.我研究了好几天仍然没搞明白.所以还是先挑一个软柿子捏捏,就选择CSDN了. 过程很简单,我也不截图了.直接打开浏览器,然后打开Fiddler,然后登录CSDN.然后Fiddler显示浏览器向https://passport.csdn.net/account/login?ref=toolbar发送了一个POST请求,这个请求包含了登录表单,而且还是未加密的.当然CSDN本身还是使用了HTTPS
typecho统计博客所有文章的字数实例详解

目录正文在当前主题的functions.php文件中添加函数 joe主题在底部页面模板全站字数正文今天登录社区的时候看到有之前的文章有个留言的评论,说如何统计typecho所有文章的字数,这里分享一下代码. 在当前主题的functions.php文件中添加函数 //字数统计 function allOfCharacters() { $chars = 0; $db = Typecho_Db::get(); $select = $db ->select('text')->from('t
csdn 博客中实现运行代码功能实现

因为没有运行功能,所以想在页面中实现运行代码功能,下面的代码是个不错的实现方法,当然你也可以任何你想实现代码运行功能的地方使用. 复制代码代码如下: <p> <script type="text/javascript"><!-- function viewPage(html) { var page = window.open('', '', ''); page.opener = null; page.document.write(
如何使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs
用python爬虫爬取CSDN博主信息

一.项目介绍爬取网址:CSDN首页的Python.Java.前端.架构以及数据库栏目.简单分析其各自的URL不难发现,都是https://www.csdn.net/nav/+栏目名样式,这样我们就可以爬取不同栏目了. 以Python目录页为例,如下图所示: 爬取内容:每篇文章的博主信息,如博主姓名.码龄.原创数.访问量.粉丝数.获赞数.评论数.收藏数 (考虑到周排名.总排名.积分都是根据上述信息综合得到的,对后续分析没实质性的作用,这里暂不爬取.) 不想看代码的朋友可直接跳到第三部分~ 二.S
详解Python爬虫爬取博客园问题列表所有的问题

一.准备工作首先,本文使用的技术为 python+requests+bs4,没有了解过可以先去了解一下. 我们的需求是将博客园问题列表中的所有问题的题目爬取下来. 二.分析: 首先博客园问题列表页面右键点击检查通过Element查找问题所对应的属性或标签可以发现在div class ="one_entity"中存在页面中分别对应每一个问题接着div class ="news_item"中h2标签下是我们想要拿到的数据三.代码实现首先导入requests和
利用ASP.NET MVC和Bootstrap快速搭建个人博客之文章打赏功能（六）

看到新浪微博.百度百家等平台上都带有文章"打赏"功能,觉得很新鲜,于是也想在自己的博客中加入"打赏"功能. 当然,加入打赏功能并非是真的想要让别人打赏.因为只有那些真正能引起共鸣,发人深思,让人受益匪浅的文章才值得打赏,值得点赞. 而我的博客站仅仅是用作记录笔记,当做自己的知识库(如果能不经意间帮助别人那是再好不过了). 加入打赏功能纯粹是"觉得好玩",就是这么简单,Just have a fun!(博主喜欢折腾,看见一个酷炫的功能就想去实现它)
Yii实现单用户博客系统文章详情页插入评论表单的方法

本文实例讲述了Yii实现单用户博客系统文章详情页插入评论表单的方法.分享给大家供大家参考,具体如下: action部分: <?php function test($objs) { $objs->var=10; } class one { public $var=1; } $obj=new one(); echo $obj->var.'<p>'; test($obj); echo $obj->var; exit; PostController.php页面: ... /**
python采集百度搜索结果带有特定URL的链接代码实例

这篇文章主要介绍了python采集百度搜索结果带有特定URL的链接代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 #coding utf-8 import requests from bs4 import BeautifulSoup as bs import re from Queue import Queue import threading from argparse import ArgumentParser arg = Argu
python3获取文件中url内容并下载代码实例

这篇文章主要介绍了python3获取文件中url内容并下载代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2019-12-25 11:33 # @Author : Anthony # @Email : ianghont7@163.com # @File : get_video_audio_file.py import xlrd

Python登录并获取CSDN博客所有文章列表代码实例

相关推荐

随机推荐