Python爬取数据保存为Json格式的代码示例
python爬取数据保存为Json格式
代码如下:
#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import codecs import json #找到网址 def getDatas(): # 伪装 header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"} # url="https://movie.douban.com/top250" url="file:///E:/scrapy/2018-04-27/movie/movie.html" ret=urllib.request.Request(url=url,headers=header) # 打开网页 res=urllib.request.urlopen(ret) # 转化格式 response=BeautifulSoup(res,'html.parser') # 找到想要数据的父元素 datas=response.find_all('div',{'class':'item'}) # print(datas) #创建存放数据的文件夹 folder_name="output" if not os.path.exists(folder_name): os.mkdir(folder_name) # 定义文件 current_time=time.strftime('%Y-%m-%d',time.localtime()) file_name="move"+current_time+".json" # 文件路径 file_path=folder_name+"/"+file_name for item in datas: # print(item) dict1={} dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text() dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text() dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src') # print(picUrl) # 保存数据为json格式 try: with codecs.open(file_path,'a',encoding="utf-8") as fp: fp.write(json.dumps(dict1,ensure_ascii=False)+",\n") except IOError as err: print('error'+str(err)) finally: fp.close() pass getDatas() # 爬取数据
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对我们的支持。如果你想了解更多相关内容请查看下面相关链接
相关推荐
-
ASP 处理JSON数据的实现代码
ASP也能处理JSON数据?呵呵,刚才在Pjblog论坛上看到一个兄弟写的文章,没有测试,不过理论上一定是可以的~ 太晚了,不测试了. 以前处理JSON太麻烦了,输出还好说,循环一下就可以了,解析真的很头疼.所以遇到 这种问题API问题,一般都是XML处理,不太喜欢,很麻烦. <% Dim sc4Json Sub InitScriptControl Set sc4Json = Server.CreateObject("MSScriptControl.ScriptControl")
-
利用JavaScript将Excel转换为JSON示例代码
前言 JSON是码农们常用的数据格式,轻且方便,而直接手敲JSON却是比较麻烦和令人心情崩溃的(因为重复的东西很多),所以很多码农可能会和我一样,选择用Excel去输入数据,然后再想办法转换成JSON格式.今天教大家使用JS 将 Excel 转为 JSON的方法. 1.新建HTML文件 <html lang="en"> <title> Convert Excel File To JSON </title> <head> <scrip
-
JS中的JSON对象的定义和取值实现代码
1.JSON(JavaScript Object Notation)一种简单的数据格式,比xml更轻巧.JSON是JavaScript原生格式,这意味着在JavaScript中处理JSON数据不需要任何特殊的API或工具包. JSON的规则很简单:对象是一个无序的"'名称:值'对"集合.一个对象以"{"(左括号)开始,"}"(右括号)结束.每个"名称"后跟一个":"(冒号):"'名称/值'对&qu
-
七行JSON代码把你的网站变成移动应用过程详解
如果我告诉你,只需要 下述 7 行橙色的 JSON 代码 就可以将一个网站变成移动应用,你相信吗? 完全不需要使用某种框架 API 重写网站,就可以获得与移动应用相同的行为.如果你已经有一个现成的网站,只需要简单地引用 URL 就可以将其"打包"为原生应用. 而如果在此基础上,只需要略微调整 JSON 代码内容,就可以直接访问所有原生 API.原生 UI 组件以及原生视图切换(View Transition).最简化的范例效果如下图所示: 从中可以看出,我嵌入了一个 Web 页面,但界
-
js循环map 获取所有的key和value的实现代码(json)
下面的方法一语方法二都是经过我们小编测试并运行的 方法一: json格式定义 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head
-
Delphi中使用ISuperObject解析Json数据的实现代码
Java.Php等语言中都有成熟的框架来解析Json数据,可以让我们使用很少的代码就把格式化好的json数据转换成程序可识别的对象或者属性,同时delphi中也有这样的组件来实现此功能,即IsuperObject.如果还没有这个组件的请在网上搜索下载或者在下面留言处留下你的邮箱向本人索取. 下面先说一下ISuperObject中几个常用的函数 function SO(const s: SOString = '{}'): ISuperObject; overload; 此函数传入json数据字符串
-
基于Koa(nodejs框架)对json文件进行增删改查的示例代码
想使用nodejs(koa)搭建一个完整的前后端,完成数据的增删改查,又不想使用数据库,那使用json文件吧. 本文介绍了基于koa的json文件的增.删.改.查. 代码准备 const Koa = require('koa') const bodyParser = require('koa-bodyparser') const Router = require('koa-router') const fs = require('fs') const path = require('path')
-
C#网络请求与JSON解析的示例代码
最新学校的海康摄像头集控平台(网页端)不能在win10里登录,我寻思着拿海康的c# demo直接改. 首先得解决权限问题,每个教师任教不同年级,只能看到自己所在年级的设备,涉及到登录,在此记录一下C#中网络请求和数据处理的一些内容.大致流程为: 客户端发起登录请求: 服务端验证账号密码 返回json字符串,包含用户信息.平台配置等信息 客户端解析并初始化 一.发起GET请求 private string HttpGet(string api) { string serviceAddress =
-
Python爬取数据保存为Json格式的代码示例
python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import codecs import json #找到网址 def getDatas(): # 伪装 header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.1
-
Python爬取数据并写入MySQL数据库的实例
首先我们来爬取 http://html-color-codes.info/color-names/ 的一些数据. 按 F12 或 ctrl+u 审查元素,结果如下: 结构很清晰简单,我们就是要爬 tr 标签里面的 style 和 tr 下几个并列的 td 标签,下面是爬取的代码: #!/usr/bin/env python # coding=utf-8 import requests from bs4 import BeautifulSoup import MySQLdb print('连接到m
-
python爬取盘搜的有效链接实现代码
因为盘搜搜索出来的链接有很多已经失效了,影响找数据的效率,因此想到了用爬虫来过滤出有效的链接,顺便练练手~ 这是本次爬取的目标网址http://www.pansou.com,首先先搜索个python,之后打开开发者工具, 可以发现这个链接下的json数据就是我们要爬取的数据了,把多余的参数去掉, 剩下的链接格式为http://106.15.195.249:8011/search_new?q=python&p=1,q为搜索内容,p为页码 以下是代码实现: import requests impor
-
python 爬取B站原视频的实例代码
B站原视频爬取,我就不多说直接上代码.直接运行就好. B站是把视频和音频分开.要把2个合并起来使用.这个需要分析才能看出来.然后就是登陆这块是比较难的. import os import re import argparse import subprocess import prettytable from DecryptLogin import login '''B站类''' class Bilibili(): def __init__(self, username, password, **
-
Python 爬取携程所有机票的实例代码
打开携程网,查询机票,如广州到成都. 这时网址为:http://flights.ctrip.com/booking/CAN-CTU-day-1.html?DDate1=2018-06-15 其中,CAN 表示广州,CTU 表示成都,日期 "2018-06-15"就比较明显了.一般的爬虫,只有替换这几个值,就可以遍历了.但观察发现,有个链接可以看到当前网页的所有json格式的数据.如下 http://flights.ctrip.com/domesticsearch/search/Sear
-
使用python爬取抖音app视频的实例代码
记录一下如何用python爬取app数据,本文以爬取抖音视频app为例. 编程工具:pycharm app抓包工具:mitmproxy app自动化工具:appium 运行环境:windows10 思路: 假设已经配置好我们所需要的工具 1.使用mitmproxy对手机app抓包获取我们想要的内容 2.利用appium自动化测试工具,驱动app模拟人的动作(滑动.点击等) 3.将1和2相结合达到自动化爬虫的效果 一.mitmproxy/mitmdump抓包 确保已经安装好了mitmproxy,并
-
Python爬取网页的所有内外链的代码
项目介绍 采用广度优先搜索方法获取一个网站上的所有外链. 首先,我们进入一个网页,获取网页的所有内链和外链,再分别进入内链中,获取该内链的所有内链和外链,直到访问完所有内链未知. 代码大纲 1.用class类定义一个队列,先进先出,队尾入队,队头出队: 2.定义四个函数,分别是爬取网页外链,爬取网页内链,进入内链的函数,以及调函数: 3.爬取百度图片(https://image.baidu.com/),先定义两个队列和两个数组,分别来存储内链和外链:程序开始时,先分别爬取当前网页的内链和外链,再
-
Python爬取数据并实现可视化代码解析
这次主要是爬了京东上一双鞋的相关评论:将数据保存到excel中并可视化展示相应的信息 主要的python代码如下: 文件1 #将excel中的数据进行读取分析 import openpyxl import matplotlib.pyplot as pit #数据统计用的 wk=openpyxl.load_workbook('销售数据.xlsx') sheet=wk.active #获取活动表 #获取最大行数和最大列数 rows=sheet.max_row cols=sheet.max_colum
-
python数据分析之将爬取的数据保存为csv格式
目录 csv文件 python的csv模块 从csv文件读取内容 写入csv文件 运用实例 数据准备 将数据存为字典的形式 总结 csv文件 一种用逗号分割来实现存储表格数据的文本文件. python的csv模块 python遍历代码: arr = [12, 5, 33, 4, 1] #遍历输出1 for i in range(0, len(arr)): item = arr[i] print(item) #遍历输出2 for item in arr: print(item) #遍历输出3 st
-
Python爬取腾讯疫情实时数据并存储到mysql数据库的示例代码
思路: 在腾讯疫情数据网站F12解析网站结构,使用Python爬取当日疫情数据和历史疫情数据,分别存储到details和history两个mysql表. ①此方法用于爬取每日详细疫情数据 import requests import json import time def get_details(): url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&callback=jQuery3410284820553141302
随机推荐
- Flex 输出文件到本地的两种方法
- Perl语言入门三部曲 附电子书下载
- python3.4用函数操作mysql5.7数据库
- 用WPF实现屏幕文字提示的实现方法
- JS实现点击循环切换显示内容的方法
- php数组去重实例及分析
- Yii2隐藏frontend/web和backend/web的方法
- php实现用户在线时间统计详解
- JavaScript变量的作用域全解析
- .net控件dropdownlist动态绑定数据具体过程分解
- PowerShell复制命令行历史命令方法
- Shell中set与shopt命令选项的含义和使用示例
- Linux 连续执行多条命令的方法(推荐)
- Android中资源文件(非代码部分)的使用概览
- 把某个asp.net 控件替换成自定义控件的方法
- python使用openpyxl库修改excel表格数据方法
- Python 监测文件是否更新的方法
- PHP实现将上传图片自动缩放到指定分辨率,并保持清晰度封装类示例
- Java在PDF中添加表格过程详解
- 在python image 中安装中文字体的实现方法