scrapy框架中用ssh连接远程服务器的实现

2025-02-23 14:20:41

前段时间用scrapy尝试抓取一些数据，写的时候真的很酸爽，眼睛要花掉了但是！我没有存到数据库中，也就是说我只是确认了爬虫的代码没问题（草）
为什么我要用服务器的mysql，本地的不好吗？其实是我没有在本地装MySQL，但是我有服务器，再加上有phpmyadmin这么友好的web-base数据库管理工具，干嘛还折腾本地装软件

挖坑

其实刚开始写的时候，我是把数据库这模块的代码抛开的，链接数据库？不是很简单的事情吗，有啥好写的，首先打开搜索引擎，输入“ 如何用python连接远程mysql ”不就好了嘛！
然后我发现我看不懂，肯定是我打开的方式不对

填坑

后来经过了一路子的折腾，终于写好了，也连上了！
这里说一点不同的，在纯python上链接远程MySQL的代码，搬到scrapy上，是行不通的，虽然原理差不多，但还是得改
肯定是我搜索的姿势不正确，我找不到相关完整的scrapy链接远程mysql的参考，纯python的参考为居多。当时我另写了一个纯python测试链接，成功之后搬到scrapy的piplines.py上，Error警告啊

好了好了，不说废话了，回归正题

开搞

这里用到两个库，pymysql和sshtunnel

sshtunnel

它是让你通过ssh安全通道访问远程服务器的python库

pymysql

pymysql是在python3.5以上版本，用于链接MySQL的一个库，如果你是python3.4就装mysqldb这个库，（因为有很多参考上用的是mysqldb库）所以根据你的版本，不要装错了，不然就吃红条（错误）吧

代码

放置在piplines.py中

import pymysql
import sshtunnel

class SpiderPipeline(object):

    server = sshtunnel.SSHTunnelForwarder(
            ('**.***.**.**', 22),  #写你服务器的ip地址
            ssh_username='**',     #连接服务器的用户名
            ssh_password='**',     #连接服务器的密码
            remote_bind_address=('**.***.**.**', 3306), #服务器ip
            local_bind_address=('127.0.0.1', 3306)
        )
    server.start()   #连接开启
    print('SSH连接成功')

    def __init__(self):
            self.connect = pymysql.connect(
                host='127.0.0.1',
                port=3306,
                user='***',      # 数据库的用户名
                database='***',  # 数据库的库名
                password='***',  # 数据库密码
                charset='utf8'
            )
            print('mysql数据库连接成功')
            self.cursor = self.connect.cursor()
            print('游标获取成功')

    def process_item(self, item, spider):
        #我这里写的是插入数据的sql语句
        sql = """INSERT INTO charpter(CharterName,NovelName) VALUES ('%s','%s')""" % (item['charter_name'],item['book_name'])
        #执行sql
        self.cursor.execute(sql)
        #提交数据
        self.connect.commit()
        print('数据插入成功')
        return item

    def close_spider(self,spider):
        self.cursor.close()    #关闭游标
        self.connect.close()   #关闭数据库链接
        # server.stop()        #关闭ssh链接

这里就不多说废话了，看代码里面的注释基本能看懂了

我这种方式是同步存储，存储的速度相对慢一点，异步存储方式我还没去研究，这里给自己挖个坑，研究完异步存储我就另写一篇文哈哈哈

Mysql相关问题

如果发现代码无误的情况下，还是无法链接成功，这个时候就要看看你服务器的MySQL是否允许外来接入

mysql开放3306端口

要让MySQL允许链接，就要开放3306端口

查看端口是否打开

netstat -an|grep 3306

打开MySQL配置文件

文件路径：/etc/mysql/my.cnf

将里面的bin-address = 127.0.0.1 注释掉

重启MySQL

service mysqld restart

防火墙开放3306端口

查看firewalld状态

systemctl status firewalld

开放3306端口

firewall-cmd --zone=public --add-port=3306/tcp --permanent

重载

firewalld-cmd --reload

小结

其实连接数据库还是挺简单的，至少代码一看就懂，细心还是很重要的。当死活连不上，死活报错的时候，反过来想，代码肯定没问题，应该是哪个数据库的表或字段没有和代码上的一一对应，密码有特殊符号但是没转义等等，除此之外剩下的就交给程序玄学了

到此这篇关于scrapy 框架中用ssh连接远程服务器的文章就介绍到这了,更多相关scrapy 框架中用ssh连接远程服务器内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python基于scrapy采集数据时使用代理服务器的方法

本文实例讲述了Python基于scrapy采集数据时使用代理服务器的方法.分享给大家供大家参考.具体如下: # To authenticate the proxy, #you must set the Proxy-Authorization header. #You *cannot* use the form http://user:pass@proxy:port #in request.meta['proxy'] import base64 proxy_ip_port = "123.456.7
python实战之Scrapy框架爬虫爬取微博热搜

前言:大概一年前写的,前段时间跑了下,发现还能用,就分享出来了供大家学习,代码的很多细节不太记得了,也尽力做了优化. 因为毕竟是微博,反爬技术手段还是很周全的,怎么绕过反爬的话要在这说都可以单独写几篇文章了(包括网页动态加载,ajax动态请求,token密钥等等,特别是二级评论,藏得很深,记得当时想了很久才成功拿到),直接上代码. 主要实现的功能: 0.理所应当的,绕过了各种反爬. 1.爬取全部的热搜主要内容. 2.爬取每条热搜的相关微博. 3.爬取每条相关微博的评论,评论用户的各种详细信息.
Python爬虫进阶Scrapy框架精文讲解

目录一.前情提要为什么要使用Scrapy 框架? 二.Scrapy框架的概念三.Scrapy安装四.Scrapy实战运用这一串代码干了什么? 五.Scrapy的css选择器教学按标签名选择按 class 选择按 id 选择按层级关系选择取元素中的文本取元素的属性一.前情提要为什么要使用Scrapy 框架? 前两篇深造篇介绍了多线程这个概念和实战多线程网页爬取多线程爬取网页项目实战经过之前的学习,我们基本掌握了分析页面.分析动态请求.抓取内容,也学会使用多线程来并发
python编程scrapy简单代码实现搜狗图片下载器

学习任何编程技术,都要有紧有送,今天这篇博客就到了放松的时候了,我们学习一下如何用 scrapy 下载图片吧. 目标站点说明这次要采集的站点为搜狗图片频道,该频道数据由接口直接返回,接口如下: https://pic.sogou.com/napi/pc/recommend?key=homeFeedData&category=feed&start=10&len=10 https://pic.sogou.com/napi/pc/recommend?key=homeFeedData&a
Python 详解通过Scrapy框架实现爬取百度新冠疫情数据流程

目录前言环境部署插件推荐爬虫目标项目创建 webdriver部署项目代码 Item定义中间件定义定义爬虫 pipeline输出结果文本配置文件改动验证结果总结前言闲来无聊,写了一个爬虫程序获取百度疫情数据.申明一下,研究而已.而且页面应该会进程做反爬处理,可能需要调整对应xpath. Github仓库地址:代码仓库本文主要使用的是scrapy框架. 环境部署主要简单推荐一下插件推荐这里先推荐一个Google Chrome的扩展插件xpath helper,可以验
爬虫框架 Feapder 和 Scrapy 的对比分析

目录一.scrapy 分析 1. 解析函数或数据入库出错,不会重试,会造成一定的数据丢失 2. 运行方式,需借助命令行,不方便调试 3. 入库 pipeline,不能批量入库二.scrapy-redis 分析 1. redis 中的任务可读性不好 2. 取任务时直接弹出,会造成任务丢失 3. 去重耗内存三.feapder 分析四.三种爬虫简介 1. AirSpider 2. Spider 3. BatchSpider 五.feapder 项目结构 1. feapder 部署六.采集效率
Python中Scrapy+adbapi提高数据库写入效率实现

目录一:twisted中的adbapi 1.1 两个主要方法 1.2 使用实例二:结合scrapy中的pipelines 一:twisted中的adbapi 数据库pymysql的commit()和execute()在提交数据时,都是同步提交至数据库,由于scrapy框架数据的解析和异步多线程的,所以scrapy的数据解析速度,要远高于数据的写入数据库的速度.如果数据写入过慢,会造成数据库写入的阻塞,影响数据库写入的效率. 使用twisted异步IO框架,实现数据的异步写入,
scrapy框架中用ssh连接远程服务器的实现

目录挖坑填坑开搞代码 Mysql相关问题 mysql开放3306端口防火墙开放3306端口开放3306端口小结前段时间用scrapy尝试抓取一些数据,写的时候真的很酸爽,眼睛要花掉了但是!我没有存到数据库中,也就是说我只是确认了爬虫的代码没问题(草)为什么我要用服务器的mysql,本地的不好吗? 其实是我没有在本地装MySQL,但是我有服务器,再加上有phpmyadmin这么友好的web-base数据库管理工具,干嘛还折腾本地装软件挖坑其实刚开始写的时候,我是把数据库这模块
Mac通过不同终端SSH连接远程服务器的讲解

Mac使用Shell(终端)SSH连接远程服务器前提:要有你需要连接的服务器的ip,端口号,服务器上的账户和密码 1.首先打开终端,然后输入sudo su - 回车进入根目录 2.然后输入:ssh -p 端口号服务器用户名@ip (例如ssh -p 22 userkunyu@119.29.37.63)回车,到这会让你输入yes或者no来确认是否连接,输入yes回车 3.然后输入在服务器上的用户密码回车 4.到此进入的是你在服务器上的账户的目录,即为连接成功,最后输入sudo su -进入服务
pycharm通过ssh连接远程服务器教程

由于想要使用pycharm连接Window子系统Ubuntu进行开发,找了很多教程都不够详细,花了点儿时间,最后配置成功. 将pycharm连接Window子系统的配置过程总结如下,连接其它远程服务器的过程相同: 一.Ubuntu配置 1.首先安装 ssh server: > sudo apt-get install openssh-server 2.修改 ssh server 配置: > sudo vim /etc/ssh/sshd_config 需要修改以下几项: Port 2222 #默
mac使用Shell(终端)SSH连接远程服务器的方法

前提:要有你需要连接的服务器的ip,端口号,服务器上的账户和密码 1.首先打开终端,然后输入sudo su - 回车进入根目录 2.然后输入:ssh -p 端口号服务器用户名@ip (例如ssh -p 22 userkunyu@119.29.37.63 )回车,到这会让你输入yes或者no来确认是否连接,输入yes回车 3.然后输入在服务器上的用户密码回车 4.到此进入的是你在服务器上的账户的目录,即为连接成功最后输入sudo su -进入服务器的根目录,进行操作连接设置别名使用vi命令
PyCharm如何配置SSH和SFTP连接远程服务器

目录简介安装初试遇到的坑简介 SSH,Secure Shell,安全外壳协议,用于远程登录会话 SFTP,Secret File Transfer Protocol,安全文件传送协议,用于同步文件 Windows 连接远程服务器进行 Linux 环境下的 Python 开发需要结合 SSH 和SFTP 安装安装 PyCharm Professional PyCharm Community 没有该选项,无法配置 SSH Interpreter 登陆远程服务器 ssh user@host
python利用paramiko连接远程服务器执行命令的方法

python中的paramiko模块是用来实现ssh连接到远程服务器上的库,在进行连接的时候,可以用来执行命令,也可以用来上传文件. 1.得到一个连接的对象在进行连接的时候,可以使用如下的代码: def connect(host): 'this is use the paramiko connect the host,return conn' ssh = paramiko.SSHClient() ssh.set_missing_host_key_policy(paramiko.AutoAddP
用python写个自动SSH登录远程服务器的小工具(实例)

很多时候我们喜欢在自己电脑的终端直接ssh连接Linux服务器,而不喜欢使用那些有UI界面的工具区连接我们的服务器.可是在终端使用ssh我们每次都需要输入账号和密码,这也是一个烦恼,所以我们可以简单的打造一个在Linux/Mac os运行的自动ssh登录远程服务器的小工具. 来个GIF动画示例下先: 概述我们先理一下我们需要些什么功能: 1. 添加/删除连接服务器需要的IP,端口,密码 2. 自动输入密码登录远程服务器对,我们就做这么简单的功能开始写代码代码比较长,所以我也放在在Gith
Pycharm连接远程服务器并实现远程调试的实现

当需要远程办公时,使用pycharm远程连接服务器时必要的. PyCharm提供两种远程调试(Remote Debugging)的方式: 配置远程的解释器(remote interpreter) 配置Python调试服务器(Python Debug Server) 本篇文章主要介绍配置远程解释器,关于配置 python调试服务器,文末也会简单介绍. 1. Pycharm连接远程服务器 1.1 进入配置页面 Pycharm菜单栏,如下图所示,依次点击 Tools -> Deployment ->
mac 上配置Pycharm连接远程服务器并实现使用远程服务器Python解释器的方法

本文将介绍如何使用公司运行服务器进行开发调试,以及使用远程服务器python解释器,整理了对应的配置流程. 进入配置页面 Pycharm菜单栏,如下图所示,依次点击 Tools -> Deployment -> Configration- 开始配置连接服务器 1. Connection 选项设置: 具体参数说明: name 代码服务器配置名称 Type 协议类型,协议最好选择 SFTP Host.User name.Password 服务器配置相关信息 Root Path 为服务器项目运行的上
VScode连接远程服务器上的jupyter notebook的实现

工欲善其事,必先利其器,开发工具这个东西觉得折腾下还是有好处的.但常常感觉专门抽出时间搞这个浪费时间,更常见的现象是已经明显感觉到当前的开发工具用的很别扭,而且告诉自己等这个忙完了要搭一个更方便的工具,到最后却没下文了直到下次再次遇到这种感觉.我这会就是再次遇到了,想用VSCode连接服务器上的jupyter notebook运行tensorflow代码,这样在本地的VScode中直接写代码就方便了很多.整个过程很简单,我自诩记性也不错,但还是不如这白纸黑字来的保险,查资料也是很花时间的. 首先

scrapy框架中用ssh连接远程服务器的实现

目录

挖坑

填坑

开搞

代码

Mysql相关问题

mysql开放3306端口

防火墙开放3306端口

开放3306端口

小结

相关推荐

随机推荐