python使用js2py库运行js代码

目录
  • 一、js2py库概述
  • 二、抽取js代码运行结果
  • 三、提取js语句内变量和对象等
  • 四、其他

在日常使用Python做爬虫,一般会用到以下手段:

  • 请求URL,返回HTML文本,然后通过xpath、css或者re,提取数据
  • 有些网页的数据通过AJAX异步请求加载,此时找到对应的接口,调用并直接使用接口返回的数据
  • 有时候如果网站反爬或安全机制比较高时,则会做一些验证或者加密,比如cookie内必须携带token等信息,而这些信息是通过混淆过的js代码计算得出的。

针对1,应该是爬取大多数没有任何安全机制并且是静态网页时,常用手段,而2是提取数据最为快速的,但是接口并不是总是返回我们最喜欢的json字符串,有可能是一段js代码定义的变量数据,针对3则更为头痛,如果在Python汇总能运行js代码,则可能会解决掉我们大部分的烦恼,本文即讲解一个Python包,用于直接在Python代码中直接运行js代码,然后得到我们感兴趣的函数、数据或者js代码运行之后的结果。

一、js2py库概述

js2py是众多可以在Python中运行js代码比较优秀的库。

安装js2py方法如下:

pip install js2py

js2py中有以下两个比较关键的方法:

方法 解释 示意
js2py.eval_js(js_string) 直接运行含有js代码的字符串(或js文件),并得出结果
js_string='var a=10'

js2py.eval_js(js_string) #输出10

js2py.EvalJs()
生成一个EvalJs对象

可通过该对象的execute方法来运行一段js代码(或js文件),并得到对应的变量和对象(即抑制输出,得到变量和对象,便于后续直接使用)

可通过该对象的eval()方法来运行一段js代码,并得到结果


js_string='var a=10'

js_obj=js2py.EvalJs()

js_obj.execute(js_string)

js_obj.a #输出为10

二、抽取js代码运行结果

import js2py
string='var db={chars:["a","b","c","d","f","g","h","j","k","m","n","p","q","r","s","t","w","x","y","z"],datas:[["005970","国泰消费优选股票","GTXFYXGP","1.9082","1.9082","1.8657","1.8657","0.0425","2.28","开放申购","开放赎回","","1","0","1","","1","0.15%","0.15%","1","1.50%"],["004069","南方中证全指证券公司ETF联接A","NFZZQZZQGSETFLJA","1.1438","1.1438","1.1212","1.1212","0.0226","2.02","开放申购","开放赎回","","1","0","2","","1","0.12%","0.12%","1","1.20%"]],count:["9981","3745","1653","4583"],record:"10481",pages:"5241",curpage:"1",indexsy:[-0.04,-0.34,-0.03,],showday:["2021-03-05","2021-03-04"]}'

mydict=js2py.eval_js(string) #最后会将string内定义的对象,变为Python字典并赋值给mydict

string='''
function add(a, b) {
    return a + b
}
'''
myadd=js2py.eval_js(string) #会得到一个add函数并赋值给myadd,后续可通过myadd直接调用
  • 以上第一个string,便是作者在爬取天天基金的基金数据时,发现该网站接口返回的基本都是一个js语句,在该语句内定义了返回的数据,当然,如果不通过js2py,也可以将该string通过Python的eval或者exec最终解析成Python字典,但比较繁琐(大概思路即使用字符串方法,将无用的字符删除掉,然后将字符串变成一个Python字典的定义格式,最后运行eval或者exec函数即可)
  • 以上第二个string,即一个字符串,该字符串内定义了一个js函数,此时便可以得到该函数并赋值给Python变量,后续便可以通过该变量调用该函数,并且好像是该函数是在Python内部定义的一样

三、提取js语句内变量和对象等

import js2py
js_obj=js2py.EvalJs()
string='''
var a=10
function func(a,b){
    return a*b
}
'''

js_obj.execute(string)
js_obj.a #输出为10
js_obj.func #为func函数
js_obj.func(3,4) #输出为12

以上示意,变得更有意思,可以通过execute方法,运行下js代码,先不输出结果,而是得到这里面定义的变量、函数等,然后把这些作为属性附加给js_obj对象,后续便可以通过该对象访问到这些属性,这样会更加直观和灵活,好像是直接在Python中写js代码一样

四、其他

当然,Python还有其他运行js代码的库,但是作者感觉js2py整体是最契合Python的,甚至语法都基本没什么变化,故推荐使用该库

该库还有其他很多方法和用途,不过以上是最为常用的场景,读者如果需要或感兴趣,可以进一步研究学习,不顾如果能掌握好以上方法,基本可以满足90%的日常需要了。

到此这篇关于python使用js2py库运行js代码的文章就介绍到这了,更多相关python 运行js代码内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python如何运行js语句

    1. 安装 pip install PyExecJS  # 需要注意, 包的名称:PyExecJS 2. 简单使用 import execjs execjs.eval("new Date") 返回值为: 2018-04-04T12:53:17.759Z execjs.eval("Date.now()") 返回值为:1522847001080  # 需要注意的是返回值是13位, 区别于python的time.time() 需要注意的是: 个别的JS语句, 用execj

  • Python基于execjs运行js过程解析

    execjs 使用 有了selenium+Chrome Headless 加载页面为什么还要用execjs来运行js? selenium+Chrome Headless 必然是爬虫的一大利器,可是缺点依然存在, 性能问题不可忽视. 但这构不成舍弃它而不用的理由.我认为舍弃包括Chrome Headless.PhantomJS在内的无头浏览器的原因主要有以下几点: 1. 页面结构改变.弹窗(一些网站的页面结构经常无规则改变), 影响代码的健壮性. 2. 无头浏览器的应用场景主要是一些模拟登陆账号密

  • python使用js2py库运行js代码

    目录 一.js2py库概述 二.抽取js代码运行结果 三.提取js语句内变量和对象等 四.其他 在日常使用Python做爬虫,一般会用到以下手段: 请求URL,返回HTML文本,然后通过xpath.css或者re,提取数据 有些网页的数据通过AJAX异步请求加载,此时找到对应的接口,调用并直接使用接口返回的数据 有时候如果网站反爬或安全机制比较高时,则会做一些验证或者加密,比如cookie内必须携带token等信息,而这些信息是通过混淆过的js代码计算得出的. 针对1,应该是爬取大多数没有任何安

  • Python利用PyExecJS库执行JS函数的案例分析

      在Web渗透流程的暴力登录场景和爬虫抓取场景中,经常会遇到一些登录表单用DES之类的加密方式来加密参数,也就是说,你不搞定这些前端加密,你的编写的脚本是不可能Login成功的.针对这个问题,现在有三种解决方式: ①看懂前端的加密流程,然后用脚本编写这些方法(或者找开源的源码),模拟这个加密的流程.缺点是:不懂JS的话,看懂的成本就比较高了: ②selenium + Chrome Headless.缺点是:因为是模拟点击,所以效率相对①.③低一些: ③使用语言调用JS引擎来执行JS函数.缺点是

  • python绘制铅球的运行轨迹代码分享

    我们按照面向过程程序设计的思想,使用python编写了程序,追踪铅球在运行过程中的位置信息.下面,修改程序代码,导入turtle模块,将铅球的运行轨迹绘制出来. python3代码如下: from math import pi, sin, cos, radians from turtle import Turtle def main(): angle = eval(input('Enter the launch angle(in degrees):')) vel = eval(input('En

  • Python利用turtle库绘制彩虹代码示例

    语言:Python IDE:Python.IDE 需求 做出彩虹效果 颜色空间 RGB模型:光的三原色,共同决定色相 HSB/HSV模型:H色彩,S深浅,B饱和度,H决定色相 需要将HSB模型转换为RGB模型 代码示例: #-*- coding:utf-8 –*- from turtle import * def HSB2RGB(hues): hues = hues * 3.59 #100转成359范围 rgb=[0.0,0.0,0.0] i = int(hues/60)%6 f = hues/

  • python安装pil库方法及代码

    安装PIL 在Debian/Ubuntu Linux下直接通过apt安装: $ sudo apt-get install python-imaging Mac和其他版本的Linux可以直接使用easy_install或pip安装,安装前需要把编译环境装好: $ sudo easy_install PIL 如果安装失败,根据提示先把缺失的包(比如openjpeg)装上. Windows平台就去PIL官方网站下载exe安装包. 操作图像 来看看最常见的图像缩放操作,只需三四行代码: import I

  • python安装requests库的实例代码

    requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多 因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下,正常则说明可以开始使用了. 基本用法: requests.get()用于请求目标网站,类型是一个HTTPresponse类型 import requests response = requests.get('http://www.baidu.com') print(response.status_

  • Python实现七彩蟒蛇绘制实例代码

    本文主要研究的是Python编程turtle的实例,绘制一个七彩蟒蛇..具体如下. 第2周的课后练习里,有一道题目,要求修改"蟒蛇绘制"程序,对Python 蟒蛇的每个部分采用不同颜色,绘制一条彩色蟒蛇. 原蟒蛇绘制程序如下: 因为刚开始学Python,不太熟悉,所以自己加了一些注释,方便理解. #蟒蛇绘制 import turtle def drawSnake(rad,angle,len,neckrad): for i in range(len): turtle.circle(rad

  • 不使用浏览器运行javascript代码的方法

    有时候我们想用js写一段小程序,但是又觉得使用浏览器去运行挺麻烦的,那么现在我们来看一下如何使用java程序调用javascript程序,这样就可以不借助浏览器就可执行js代码了. 之所以有这个需求是因为这几天在做的一个项目中碰到了这样的问题,我有一个javascript脚本,但是这个项目的其他代码都是用C\C++写的,不想将js代码转成C,感觉太麻烦了,所以就想如果可以在C下面直接调用javascript代码就好了,或者在shell中有一个可以不借助浏览器就可以直接运行js代码的工具也行.现在

  • Windows下使用Nodejs运行js的方法

    ECMAScript是什么? ECMAScript,说白了就是不能操作HTML文档和浏览器的Javascript语言. Javascript由以下三大部分组成: ECMAScript,即Javascript基本语法组成部分,编程语言的流程控制.变量操作.数据类型等等都通过ECMAScript实现. DOM(Document Object Model),Javascript操作文档对象的方式.通过DOM,我们可以将HTML文档映射成由节点组成的文档树,从而操作这棵"树". BOM(Bro

随机推荐