分布式爬虫处理Redis里的数据操作步骤

2025-02-23 11:53:09

存入MongoDB

1.启动MongoDB数据库：sudo mongod

2.执行下面程序：py2 process_youyuan_mongodb.py

# process_youyuan_mongodb.py
# -*- coding: utf-8 -*-
import json
import redis
import pymongo
def main():
 # 指定Redis数据库信息
 rediscli = redis.StrictRedis(host='192.168.199.108', port=6379, db=0)
 # 指定MongoDB数据库信息
 mongocli = pymongo.MongoClient(host='localhost', port=27017)
 # 创建数据库名
 db = mongocli['youyuan']
 # 创建表名
 sheet = db['beijing_18_25']
 while True:
 # FIFO模式为 blpop，LIFO模式为 brpop，获取键值
 source, data = rediscli.blpop(["youyuan:items"])
 item = json.loads(data)
 sheet.insert(item)
 try:
  print u"Processing: %(name)s <%(link)s>" % item
 except KeyError:
  print u"Error procesing: %r" % item
if __name__ == '__main__':
 main()

存入 MySQL

1.启动mysql：mysql.server start（更平台不一样）

2.登录到root用户：mysql -uroot -p

3.创建数据库youyuan:create database youyuan;

4.切换到指定数据库：use youyuan

5.创建表beijing_18_25以及所有字段的列名和数据类型。

6.执行下面程序：py2 process_youyuan_mysql.py

#process_youyuan_mysql.py
# -*- coding: utf-8 -*-
import json
import redis
import MySQLdb
def main():
 # 指定redis数据库信息
 rediscli = redis.StrictRedis(host='192.168.199.108', port = 6379, db = 0)
 # 指定mysql数据库
 mysqlcli = MySQLdb.connect(host='127.0.0.1', user='power', passwd='xxxxxxx', db = 'youyuan', port=3306, use_unicode=True)
 while True:
 # FIFO模式为 blpop，LIFO模式为 brpop，获取键值
 source, data = rediscli.blpop(["youyuan:items"])
 item = json.loads(data)
 try:
  # 使用cursor()方法获取操作游标
  cur = mysqlcli.cursor()
  # 使用execute方法执行SQL INSERT语句
  cur.execute("INSERT INTO beijing_18_25 (username, crawled, age, spider, header_url, source, pic_urls, monologue, source_url) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s )", [item['username'], item['crawled'], item['age'], item['spider'], item['header_url'], item['source'], item['pic_urls'], item['monologue'], item['source_url']])
  # 提交sql事务
  mysqlcli.commit()
  #关闭本次操作
  cur.close()
  print "inserted %s" % item['source_url']
 except MySQLdb.Error,e:
  print "Mysql Error %d: %s" % (e.args[0], e.args[1])
if __name__ == '__main__':
 main()

总结

以上所述是小编给大家介绍的分布式爬虫处理Redis里的数据操作步骤，希望对大家有所帮助，如果大家有任何疑问欢迎给我留言，小编会及时回复大家的！

您可能感兴趣的文章:

Python 用Redis简单实现分布式爬虫的方法
Scrapy-redis爬虫分布式爬取的分析和实现

Scrapy-redis爬虫分布式爬取的分析和实现

Scrapy Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取.但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来. 而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件.它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用.scrapy-redi
Python 用Redis简单实现分布式爬虫的方法

Redis通常被认为是一种持久化的存储器关键字-值型存储,可以用于几台机子之间的数据共享平台. 连接数据库注意:假设现有几台在同一局域网内的机器分别为Master和几个Slaver Master连接时host为localhost即本机的ip _db = redis.Reds(host='localhost', port=6379, db=0) Slaver连接时的host也为Master的ip,端口port和数据库db不写时为默认值6379.0 _db = redis.Redis(host='
分布式爬虫处理Redis里的数据操作步骤

存入MongoDB 1.启动MongoDB数据库:sudo mongod 2.执行下面程序:py2 process_youyuan_mongodb.py # process_youyuan_mongodb.py # -*- coding: utf-8 -*- import json import redis import pymongo def main(): # 指定Redis数据库信息 rediscli = redis.StrictRedis(host='192.168.199.108',
Python爬虫爬取、解析数据操作示例

本文实例讲述了Python爬虫爬取.解析数据操作.分享给大家供大家参考,具体如下: 爬虫当当网 http://search.dangdang.com/?key=python&act=input&page_index=1 获取书籍相关信息面向对象思想利用不同解析方式和存储方式引用相关库 import requests import re import csv import pymysql from bs4 import BeautifulSoup from lxml import e
关于使用IDEA的springboot框架往Redis里写入数据乱码问题

乱码截图如下: 解决方法:在你RedisUtil类里加入下图红框的的代码, 代码请复制: @Autowired(required = false) public void setRedisTemplate(RedisTemplate redisTemplate) { RedisSerializer stringSerializer = new StringRedisSerializer(); redisTemplate.setKeySerializer(stringSerializer); re
BootStrap Fileinput插件和Bootstrap table表格插件相结合实现文件上传、预览、提交的导入Excel数据操作步骤

bootstrap-fileinput源码:https://github.com/kartik-v/bootstrap-fileinput bootstrap-fileinput在线API:http://plugins.krajee.com/file-input bootstrap-fileinput Demo展示:http://plugins.krajee.com/file-basic-usage-demo 这个插件主要是介绍如何处理图片上传的处理操作,原先我的Excel导入操作使用的是Upl
Linux中Redis安装部署的操作步骤

目录 1. 下载redis 2.解压文件 3.将其移动到安装目录 4. 执行make 编译 5. 进行安装 6.修改redis.conf配置 7.启动redis 8.查看 ps -aux | grep redis 9.关闭redis 10.查看redis 日志总结最近由于项目所需redis 进行数存储,于是得在服务器安装一个redis 1. 下载redis 直接使用wget 拉取,也可以直接去官网下载 redis官网 [root@install_folder]# wget http://do
SQLServer导出sql文件/表架构和数据操作步骤

很多朋友问到sql server数据库"生成脚本",只导出了数据库的sql脚本,而表里的数据依然没有导出来.很简单,看教程: 注:我这里用的SQLServer2008,其它版本应该差不多. 一.选中要导出的数据库–>任务–>生成脚本(或者在任务里面有生成脚本这个选项,好好找找能找到的!) 二.出现"生成和发布脚本"窗口,点击下一步三.选择要编写脚本的数据库对象,全部导出选第一个,如果你想导出部分数据勾选第二个就好了四.出现这个画面后点击&qu
SpringBoot使用Redis缓存MySql的方法步骤

目录 1项目组成 2运行springboot 2.1官网download最基本的restful应用 2.2运行应用 3访问mysql 4设置redis缓存 1 项目组成应用:springboot rest api 数据库:mysql jdbc框架:jpa 缓存中间件:redis 2 运行springboot 2.1 官网download最基本的restful应用教程地址:https://spring.io/guides/gs/rest-service/ 直接download成品,找到git命
springboot整合redis进行数据操作(推荐)

redis是一种常见的nosql,日常开发中,我们使用它的频率比较高,因为它的多种数据接口,很多场景中我们都可以用到,并且redis对分布式这块做的非常好. springboot整合redis比较简单,并且使用redistemplate可以让我们更加方便的对数据进行操作. 1.添加依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starte
Redis对批量数据实现分布式锁的实现代码

目录需求背景代码实现实现效果需求背景在开发的收入结转平台界面上有一个归集按钮,可以实现抓取结转表里面的多条数据进行归集操作.为了防止多人多电脑同时操作一条数据,我们自己开发了一个简单的基于Redis实现的分布式锁. 代码实现逻辑代码中的使用案例参数说明: scIds:结转数据的ID主键集合. timeOutToDeleteRedisKey:最大锁超时时间(用于自动解锁) organizationId:租户ID(这个参数根据情况选择是否需要) ReturnLock returnLoc

分布式爬虫处理Redis里的数据操作步骤

您可能感兴趣的文章:

相关推荐

随机推荐