Selenium+BeautifulSoup+json获取Script标签内的json数据
Selenium爬虫遇到 数据是以 JSON 字符串的形式包裹在 Script 标签中,
假设Script标签下代码如下:
<script id="DATA_INFO" type="application/json" > { "user": { "isLogin": true, "userInfo": { "id": 123456, "nickname": "LiMing", "intro": "人生苦短,我用python" } } } </script>
此时drive.find_elements_by_xpath('//*[@id="DATA_INFO"] 只能定位到元素,但是无法通过.text方法,获取Script标签下的json数据
from bs4 import BeautifulSoup as bs import json as js #selenium获取当前页面源码 html = drive.page_source #BeautifulSoup转换页面源码 bs=BeautifulSoup(html,'lxml') #获取Script标签下的完整json数据,并通过json加载成字典格式 js_test=js.loads(bs.find("script",{"id":"DATA_INFO"}).get_text()) #获取Script标签下的nickname 值 js_tes
到此这篇关于Selenium+BeautifulSoup+json获取Script标签内的json数据的文章就介绍到这了,更多相关Selenium+BeautifulSoup获取json内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
相关推荐
-
Selenium结合BeautifulSoup4编写简单的python爬虫
在学会了抓包,接口请求(如requests库)和Selenium的一些操作方法后,基本上就可以编写爬虫,爬取绝大多数网站的内容. 在爬虫领域,Selenium永远是最后一道防线.从本质上来说,访问网页实际上就是一个接口请求.请求url后,返回的是网页的源代码. 我们只需要解析html或者通过正则匹配提取出我们需要的数据即可. 有些网站我们可以使用requests.get(url),得到的响应文本中获取到所有的数据.而有些网页数据是通过JS动态加载到页面中的.使用requests获取不到或者只能获
-
Python使用Selenium+BeautifulSoup爬取淘宝搜索页
使用Selenium驱动chrome页面,获得淘宝信息并用BeautifulSoup分析得到结果. 使用Selenium时注意页面的加载判断,以及加载超时的异常处理. import json import re from bs4 import BeautifulSoup from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.com
-
Selenium+BeautifulSoup+json获取Script标签内的json数据
Selenium爬虫遇到 数据是以 JSON 字符串的形式包裹在 Script 标签中, 假设Script标签下代码如下: <script id="DATA_INFO" type="application/json" > { "user": { "isLogin": true, "userInfo": { "id": 123456, "nickname":
-
JS 获取HTML标签内的子节点的方法
子节点的个数: document.getElementById("id").childNodes.length 注意: 标签开/闭合算2个节点 第几个子几点: document.getElementById("id").childNodes[n] 示例: 这里是 length-4 处,margin-left:20px 输出:length=8 实例: <div id="page_kx" style="text-align: cent
-
python的xpath获取div标签内html内容,实现innerhtml功能的方法
python的xpath没有获取div标签内html内容的功能,也就是获取div或a标签中的innerhtml,写了个小程序实现一下: 源代码 [webadmin@centos7 csdnd4q] #162> vim /mywork/python/csdnd4q/z040.py #去掉最外层标签,保留其内的所有html标记和文本 def getinnerhtml(data): return data[data.find(">")+1:data.rfind("<
-
mysql 获取规定时间段内的统计数据
mysql 获取规定时间段内的统计数据 按年统计 SELECT count(*), DATE_FORMAT(order_info.create_time, '%Y-%m-%d') AS count_by_date FROM order_info WHERE DATE_FORMAT(order_info.create_time, '%Y') = '2017' GROUP BY count_by_date ORDER BY NULL 按月统计 SELECT count(*), DATE_FORMAT
-
javascript 获取url参数和script标签中获取url参数函数代码
url paramter: 复制代码 代码如下: //lastest: var getArgs=function() {//get url querystring var params=document.location.search,reg=/(?:^\?|&)(.*?)=(.*?)(?=&|$)/g,temp,args={}; while((temp=reg.exec(params))!=null) args[temp[1]]=decodeURIComponent(temp[2]);
-
python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例
本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据.分享给大家供大家参考,具体如下: # -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urllib.request import re #如果是网址,可以用这个办法来读取网页 #html_doc = "htt
-
详解BeautifulSoup获取特定标签下内容的方法
以下是个人在学习beautifulSoup过程中的一些总结,目前我在使用爬虫数据时使用的方法的是:先用find_all()找出需要内容所在的标签,如果所需内容一个find_all()不能满足,那就用两个或者多个.接下来遍历find_all的结果,用get_txt().get('href').得到文本或者链接,然后放入各自的列表中.这样做有一个缺点就是txt的数据是一个单独的列表,链接的数据也是一个单独的列表,一方面不能体现这些数据之间的结构性,另一方面当想要获得更多的内容时,就要创建更多的空列表
-
Python获取当前页面内所有链接的四种方法对比分析
本文实例讲述了Python获取当前页面内所有链接的四种方法.分享给大家供大家参考,具体如下: ''' 得到当前页面所有连接 ''' import requests import re from bs4 import BeautifulSoup from lxml import etree from selenium import webdriver url = 'http://www.testweb.com' r = requests.get(url) r.encoding = 'gb2312'
-
浅析script标签中的defer与async属性
一.前言 看到的前辈写的代码如下 <script src="#link("xxxx/xx/home/home.js")" type="text/javascript" async defer></script> 竟然同时有async和defer属性,心想着肯定是前辈老司机的什么黑科技,两个一块儿肯定会发生什么神奇化学反应,于是赶紧怀着一颗崇敬的心去翻书翻文档,先复习一下各自的定义. 二.调查一番 先看看async和defe
-
Script标签与访问HTML页面详解
复制代码 代码如下: <img src="1_ender1000.jpg" id="img2" alt="" onclick="alert('onclick');" onmouseover="this.src='1_yylklshmyt20090217.jpg'" title="反转图片" /> <script type="text/javascript
随机推荐
- ajax获取用户所在地天气的方法
- 如何实现网上考试?
- 使用Jmeter连接Mysql图文教程
- 在Struts2中如何将父类属性序列化为JSON格式的解决方法
- 使用python检测手机QQ在线状态的脚本代码
- Java关键字instanceof的两种用法实例
- Python 文件操作的详解及实例
- Json按某个键的值进行排序
- javascript数组遍历for与for in区别详解
- 根据出生日期自动取得星座的js代码
- javascript将浮点数转换成整数的三个方法
- PHP实现的曲线统计图表示例
- 使用Python的urllib2模块处理url和图片的技巧两则
- struts2 spring整合fieldError问题
- 使用Plupload实现直接上传附件至七牛云存储
- Android App应用启动分析与优化
- Shell脚本获取进程的运行时间
- jQuery插件slider实现拖动滑块选取价格范围
- JavaScript检查表单是否为空的函数
- Tomcat怎么实现异步Servlet