Go语言做爬虫状态码返回418的问题解决

目录
  • 背景
  • 原因分析
  • 代码部分

背景

 在使用Go语言做爬虫时,使用http.Get(url)去获取网页内容,状态码返回404,Body体为空。

原因分析

http.Get(url)是不需要设置header属性的http请求,比较简单快捷,但状态码返回418,表明我们需要设置其header属性,那么我们可以使用http.NewRequest,在设置其header属性即可~

代码部分

func main7()  {
	client := &http.Client{}
	url := "https://movie.douban.com/top250?start=0&filter="
	reqest, err := http.NewRequest("GET", url, nil)
	//设置header属性
	reqest.Header.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 OPR/66.0.3515.115")
	if err!=nil {
		fmt.Println(err)
		return
	}
	response, _ := client.Do(reqest)
	defer response.Body.Close()
	buf := make([]byte,4096)
	var result string
	for  {
		n,err:=response.Body.Read(buf)
		if n == 0 {
			fmt.Println("读取网页完成")
			break
		}
		if err!=nil && err!=io.EOF {
			fmt.Println("resp body err",err)
			return
		}
		result += string(buf[:n])
		//打印读取的网页
		fmt.Println(result)
	}
}

到此这篇关于Go语言做爬虫状态码返回418的问题解决的文章就介绍到这了,更多相关Go语言爬虫返回418内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Go语言实现的web爬虫实例

    本文实例讲述了Go语言实现的web爬虫方法.分享给大家供大家参考.具体分析如下: 这里使用 Go 的并发特性来并行执行 web 爬虫. 修改 Crawl 函数来并行的抓取 URLs,并且保证不重复. 复制代码 代码如下: package main import (     "fmt" ) type Fetcher interface {         // Fetch 返回 URL 的 body 内容,并且将在这个页面上找到的 URL 放到一个 slice 中.     Fetch(

  • Go语言并发爬虫的具体实现

    目录 写在前面 1. 单线程爬虫 2. 多线程爬虫 2.1 channel main函数 2.2 sync.WaitGroup 3. 源码地址 写在前面 这篇文章主要让大家明白多线程爬虫,因为go语言实现并发是很容易的. 这次的服务端,是我们之前搭建的电子商城平台,所以我们不担心ip被封之类的问题. 而实际生产环境中,其实我们都是用python爬虫的.python实现多线程也很简单. 这次我们可以试试新玩法,试试go语言的并发爬虫. 主要是爬取第一页的商品,爬取十次,比较单线程和多线程的时间.

  • Go语言做爬虫状态码返回418的问题解决

    目录 背景 原因分析 代码部分 背景  在使用Go语言做爬虫时,使用http.Get(url)去获取网页内容,状态码返回404,Body体为空. 原因分析  http.Get(url)是不需要设置header属性的http请求,比较简单快捷,但状态码返回418,表明我们需要设置其header属性,那么我们可以使用http.NewRequest,在设置其header属性即可~ 代码部分 func main7() { client := &http.Client{} url := "http

  • Nginx中定义404页面并且返回404状态码的正确方法

    前几天,一朋友出程序出问题却怎么查都没看出问题,于是让我帮它看看.其实它是ajax请求了很多个模板,然后把模板写到页面中.关键是所有请求的页面都是200正常状态码返回,表面上看没什么问题,实际上有些请求虽然返回200状态码,但给回的状态码是200.WebServer是nginx,直接告诉我应该他们配置了nginx的404错误页面,虽然请求不存在的资源可以成功返回404页面,但返回状态码确是200. 404.html 复制代码 代码如下: This is 404 page. 请求一个不存在的页面:

  • feign客户端HTTP状态码为204时 响应体被忽略的问题

    目录 feign客户端HTTP状态码为204时响应体被忽略 HTTP状态码及其含义 1XX:信息状态码 2XX:成功状态码 3XX:重定向 4XX:客户端错误 5XX:服务器错误 feign客户端HTTP状态码为204时 响应体被忽略 在使用 spring-cloud Greenwich.SR3 时遇到一个问题.因为服务端HTTP状态码按照rest风格设计,所以update一类操作的http状态码返回204. HttpStatus.NO_CONTENT(204, "No Content"

  • ASP.NET设置404页面返回302HTTP状态码的解决方法

    在配置文件中配置404页面如下: 复制代码 代码如下: <customErrors mode="On" defaultRedirect="404.aspx"> <error statusCode="403" redirect="404.aspx" /> <error statusCode="404" redirect="404.aspx" /> <

  • IIS下自定义404页面返回200状态码的严重性及解决方法

    在了解404页面前,先给大家了解一下几个常见的HTTP状态码.* 404 : 请求的网页不存在(不排除日后该链接有效的可能性):* 410 : 请求的网页不存在(永久):* 200 : 服务器成功返回网页* 302 : 网址临时重定向(跳转)* 301 : 网址永久重定向* 403 : 拒绝访问* 500 : 内部错误 当访问一个不存在的页面时会返回404状态码,告诉搜索引擎这个页面不存在或者已经删除.默认情况下没做自定义404页面时,访问一个不存在的页面会如下图所示 出现这样的页面无论是对用户

  • Python爬虫库requests获取响应内容、响应状态码、响应头

    首先在程序中引入Requests模块 import requests 一.获取不同类型的响应内容 在发送请求后,服务器会返回一个响应内容,而且requests通常会自动解码响应内容 1.文本响应内容 获取文本类型的响应内容 r = requests.get('https://www.baidu.com') r.text # 通过文本的形式获取响应内容 '<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><m

  • 前端获取http状态码400的返回值实例

    如下所示: axios.get("/check_mobile_and_sent_code",{withCredentials:true,params:{mobile:formInline.mobile}}).then(res=>{ console.log(res); //if(res.result==true){ if (!this.timer) { this.count = this.TIME_COUNT; this.show = false; this.timer = set

  • Laravel中正确地返回HTTP状态码方法示例

    在 API 中返回状态码是很重要的,因为响应处理程序是工作在 API 的响应状态码之上的. 写 API 时其中有一个重要的地方是更好的处理响应状态码.以前,我一般会使用不常用的 Integer 类型数字作为 HTTP 状态码 .看下面的这个例子: <?php namespace App\Http\Controllers; use App\Http\Controllers\Controller; use App\Post; Class PostsController extends Control

  • 解决axios发送post请求返回400状态码的问题

    今天在用 axios 发送一个跨域的post请求时,遇到了一个坑:Uncaught (in promise) Error: Request failed with status code 400. 前台代码如下: axios({ method: "post", url: "http://localhost:8080/employee/testpost", data: { username: '234234', password: '4565' } }).then((

  • 如何基于java或js获取URL返回状态码

    这篇文章主要介绍了如何基于java或js获取URL返回状态码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 描述:使用java或者js访问某个网站,返回状态码 1.java实现 // 用getResponseCode可以获取URL返回状态码 String surl = ""; try { surl="你的url"; URL url = new URL(surl); URLConnection rulConnecti

随机推荐