利用python下载scihub成文献为PDF操作

2025-02-25 23:34:23

scihub是科研利器，这就不多说了，白嫖文献的法门，一般采用的是网页或者桌面程序，一般都会跳转到网页进行加载出文献，但是这很不方便，毕竟全手动，这里无意中看到一个写好的pip工具scihub2pdf，于是试一下它手动威力，如果这能够成功，也就是我们以后如果想批量下载也是没问题的。

1.首先我们得安装它：

pip install scihub2pdf

2.紧接着安装npm和phantomjs，因为这个代码里面使用了phantomjs

yum install npm

切换到国内源，威力网速给力，npm是nodejs的仓库，我们类比成python的pip即可

npm config set registry https://registry.npm.taobao.org

安装 phantomjs

npm install -g phantomjs

如果顺利成功的话，就可以试一下这个工具了

3.scihub2pdf的使用

先来看一下使用帮助

[root@VM_0_9_centos ~]# scihub2pdf -h
usage: scihub2pdf [-h] [--input INPUTFILE] [--title] [--uselibgen]
   [--location LOCATION] [--txt]

 SciHub to PDF
 ----------------------------------------------------
 Downloads pdfs via a DOI number, article title
 or a bibtex file, using the database of libgen(sci-hub).

 Given a bibtex file

 $ scihub2pdf -i input.bib

 Given a DOI number...

 $ scihub2pdf 10.1038/s41524-017-0032-0

 Given a title...

 $ scihub2pdf --title An useful paper

 Arxiv...

 $ scihub2pdf arxiv:0901.2686

 $ scihub2pdf --title arxiv:Periodic table for topological insulators

 ## Download from list of items

 Given a text file like

 ```
 10.1038/s41524-017-0032-0
 10.1063/1.3149495
 .....
 ```
 download all pdf's
 ```
 $ scihub2pdf -i dois.txt --txt
 ```
 Given a text file like
 ```
 Some Title 1
 Some Title 2
 .....
 ```
 download all pdf's
 ```
 $ scihub2pdf -i titles.txt --txt --title
 ```
 Given a text file like

 ```
 arXiv:1708.06891
 arXiv:1708.06071
 arXiv:1708.05948
 .....
 ```
 download all pdf's
 ```
 $ scihub2pdf -i arxiv_ids.txt --txt
 ```
-----------------------------------------------------
 @author: Bruno Messias
 @email: messias.physics@gmail.com
 @telegram: @brunomessias
 @github: https://github.com/bibcure/sci2pdf
optional arguments:
 -h, --help  show this help message and exit
 --input INPUTFILE, -i INPUTFILE
   bibtex input file
 --title, -t  download from title
 --uselibgen  Use libgen.io instead sci-hub.
 --location LOCATION, -l LOCATION
   folder, ex: -l 'folder/'
 --txt   Just create a file with DOI's or titles

我们可以粗略看到，这个不仅仅可以doi还可批量的doi写在一个文件里，进行批量下载，更牛的是可以直接使用论文标题进行下载，这就理解为啥这里面需要想依赖phantomjs了，这玩意就是爬虫用的。

我们来试一下：

[root@VM_0_9_centos ~]# scihub2pdf 10.1063/1.4991232

注意的是，这里需要修改源码，因为用的链接不对，我们应该使用http://sci-hub.tw/而不是http://sci-hub.cc，在源码（我自己的是在vim /opt/AN/lib/python3.7/site-packages/scihub2pdf/download.py修改的，根据自己pip安装的路径进行调整）的download.py下就可找到进行修改，因为cc这个链接已经用不了的。

还可以下载arxiv上的论文，比如

[root@VM_0_9_centos ~]# scihub2pdf arxiv:2003.02355

下载时间都是有点慢的，要等一会才能成功，因为都是访问的国外的网站

以上这篇利用python下载scihub成文献为PDF操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

Python爬虫文件下载图文教程

而今天我们要说的内容是:如果在网页中存在文件资源,如:图片,电影,文档等.怎样通过Python爬虫把这些资源下载下来. 1.怎样在网上找资源: 就是百度图片为例,当你如下图在百度图片里搜索一个主题时,会为你跳出一大堆相关的图片. 还有如果你想学英语,找到一个网站有很多mp3的听力资源,这些可能都是你想获取的内容. 现在是一个互联网的时代,只要你去找,基本上能找到你想要的任何资源. 2.怎样识别网页中的资源: 以上面搜索到的百度图片为例.找到了这么多的内容,当然你可以通过手动一张张的去保存,但这样
python实现下载文件的三种方法

Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法requests. 下面来看看三种方法是如何来下载zip文件的: 方法一: import urllib import urllib2 import requests print "downloading with urllib" url = 'http://www.jb51.net//te
python网络编程之文件下载实例分析

本文实例讲述了python网络编程之文件下载实现方法.分享给大家供大家参考.具体如下: 真是越看越喜欢python啊,想要了解它提供的http和ftp下载功能,原来是如此的简单. 1.相应模块 ftplib模块定义了FTP类和一些方法,用以进行客户端的ftp编程.我们可用python编写一个自已的ftp客户端程序,用于下载文件或镜像站点.如果想了解ftp协议的详细内容,请参考RFC959或是查看python帮助吧. Urllib模块提供了非常高级的接口来从网络上抓取数据,主要使用到的是urlop
详解使用Python下载文件的几种方法

在使用Python进行数据抓取的时候,有时候需要保持文件或图片等,在Python中可以有多种方式实现.今天就一起来学习下. urllib.request 主要使用的是urlretrieve方法,该方法处理待淘汰的方法,不建议使用. import urllib.request url = 'https://www.baidu.com/img/superlogo_c4d7df0a003d3db9b65e9ef0fe6da1ec.png' urllib.request.urlretrieve(url,
利用python下载scihub成文献为PDF操作

scihub是科研利器,这就不多说了,白嫖文献的法门,一般采用的是网页或者桌面程序,一般都会跳转到网页进行加载出文献,但是这很不方便,毕竟全手动,这里无意中看到一个写好的pip工具scihub2pdf,于是试一下它手动威力,如果这能够成功,也就是我们以后如果想批量下载也是没问题的. 1.首先我们得安装它: pip install scihub2pdf 2.紧接着安装npm和phantomjs,因为这个代码里面使用了phantomjs yum install npm 切换到国内源,威力网速给力,n
利用python 下载bilibili视频

运行效果: 完整代码 # !/usr/bin/python # -*- coding:utf-8 -*- # time: 2019/07/21--20:12 __author__ = 'Henry' ''' 项目: B站动漫番剧(bangumi)下载版本2: 无加密API版,但是需要加入登录后cookie中的SESSDATA字段,才可下载720p及以上视频 API: 1.获取cid的api为 https://api.bilibili.com/x/web-interface/view?aid=4
利用Python将数值型特征进行离散化操作的方法

如下所示: data = np.random.randn(20) factor = pd.cut(data,4) pd.get_dummies(factor) 0 0 0 0 1 1 1 0 0 0 2 0 0 0 1 3 0 0 1 0 4 1 0 0 0 5 0 1 0 0 6 0 1 0 0 7 0 1 0 0 8 0 0 1 0 9 0 1 0 0 10 0 0 0 1 11 0 1 0 0 12 0 1 0 0 13 0 0 1 0 14 0 0 1 0 15 0 1 0 0 16 0
利用python将pdf输出为txt的实例讲解

一个礼拜前一个同学问我这个事情,由于之前在参加华为的比赛,所以赛后看了一下,据说需要用到pdfminer这个包.于是安装了一下,安装过程很简单: sudo pip install pdfminer; 中间也没有任何的报错.至于如何调用,本人也没有很好的研究过pdfminer这个库,于是开始了百度-- 官方文档:http://www.unixuser.org/~euske/python/pdfminer/index.html 完全使用python编写. (适用于2.4或更新版本) 解析,分析,并转
利用Python将图片批量转化成素描图的过程记录

目录前言程序 Method 1 Method 2 完整代码结果总结前言正常图片转化成素描图片无非对图片像素的处理,矩阵变化而已.目前很多拍照修图App都有这一功能,核心代码不超30行.如下利用 Python 实现读取一张图片并将其转化成素描图片.至于批处理也简单,循环读取文件夹里的图片处理即可.具体代码可以去我的 GitHub下载. 程序 Method 1 def plot_sketch(origin_picture, out_picture) : a = np.asarray(Im
利用Python实现批量下载上市公司财务报表

导语用VBA做了个小工具,可以批量把某网站上的上市公司的财报下下来. 制作思路非常简单: 1.从该网站上的下载链接中找到规律:都是一段@#￥%……&开头加上想要下载的报表类型(BS,ER,SCF),加上会计期间(按年度.按报告期.按季度),再加上上市公司代码. 2.然后用Excel表格排列组合生成那些下载链接,并访问.这里没有直接用get/post,因为会被网站识别出来并拒绝访问,下载下来的文件就是空的.然后我就用了个比较笨的办法,调用IE去访问这些网址,然后用VBA的Sendkeys方法模拟
利用Python制作一个MOOC公开课下载器

目录导语开发工具环境搭建先睹为快原理简介导语记得很久以前写过一些中国大学MOOC上的视频下载器,不过好像都已经年久失修了.正好最近有需要,所以重新写了一个,顺便上来分享一波,寒假大家也可以用它来下载点课程内卷一下: 废话不多说,让我们愉快地开始吧~ 开发工具 Python版本:3.7.8 相关模块: DecryptLogin模块: tqdm模块: click模块: argparse模块: 以及一些python自带的模块. 环境搭建安装Python并添加到环境变量,pip安装需要的
利用python将xml文件解析成html文件的实现方法

功能就是题目所述,我的python2.7,装在windows环境,我使用的开发工具是wingide 6.0 1.首先是我设计的简单的一个xml文件,也就是用来解析的源文件下面是这个文件website.xml内容: <website> <page name="index" title="fuckyou"> <h1>welcome to</h1> <p>this is a moment</p> &
利用python将图片转换成excel文档格式

前言本文主要介绍了关于利用python将图片转换成excel文档的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 实现步骤读取图像,获取图像每个像素点的RGB值: 根据每个像素点的RGB值设置excel每个方格的颜色值: 根据像素点的坐标,写入excel文件: 保存退出: 示例代码 from PIL import Image import numpy as np import time import matplotlib.pyplot as plt import
如何利用python web框架做文件流下载的实现示例

hello 大家好, 前不久公司里有个需求,把时序数据库中的日志下载到本地. 大家都知道. 数据库里的数据都是存在数据库里的(废话). 想把他下载到客户的本地. 有的同学第一反应是: 只有文件才能下载. 所以大多数同学会想到先把数据从数据库中读出来,然后写入到服务器中的某个文件夹下生成文件, 然后再下载. 其实这是非常不效率的方法, 最简单的方法是,我们从数据库中读取到文件后, 直接以流的形式让用户去下载. 这里我拿python flask框架来做例子,其实非常简单,步骤一共有3个 1: 取出

利用python下载scihub成文献为PDF操作

相关推荐

随机推荐