c#爬虫爬取京东的商品信息

2025-04-04 00:00:54

前言

在一个小项目中,需要用到京东的所有商品ID,因此就用c#写了个简单的爬虫。

在解析HTML中没有使用正则表达式，而是借助开源项目HtmlAgilityPack解析HTML。

下面话不多说了，来一起看看详细的介绍吧

一、下载网页HTML

首先我们写一个公共方法用来下载网页的HTML。

在写下载HTML方法之前，我们需要去查看京东网页请求头的相关信息，在发送请求时需要用到。

public static string DownloadHtml(string url, Encoding encode)
{
 string html = string.Empty;
 try
 {
 HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;
 request.Timeout = 30 * 1000;
 request.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36";
 request.ContentType = "text/html; charset=utf-8";
 using (HttpWebResponse response = request.GetResponse() as HttpWebResponse)
 {
  if (response.StatusCode == HttpStatusCode.OK)
  {
  try
  {
   StreamReader sr = new StreamReader(response.GetResponseStream(), encode);
   html = sr.ReadToEnd();//读取数据
   sr.Close();
  }
  catch (Exception ex)
  {
   html = null;
  }
  }
 }
 }
 catch (System.Net.WebException ex)
 {
  html = null;
 }
 catch (Exception ex)
 {
 html = null;
 }
 return html;
}

如上代码所示，我们使用WebRequest来获取网页信息，在发送请求之前，需要先设置和京东页面一样的请求头。

以上设置的信息比较简单，但能够正常发送请求，我们也可以模拟浏览器设置cookie等等信息，

二、解析HTML

获取所有商品的信息分为两个步骤

（1）根据商品分类页面获取所有商品分类的URL

（2）根据商品分类URL获取每个商品

1、获取商品分类

try
{
 string html = HttpHelper.DownloadUrl(@"http://www.jd.com/allSort.aspx");
 HtmlDocument doc = new HtmlDocument();
 doc.LoadHtml(html);
 string goodClass= @"//*[@class='items']/dl/dd";
 HtmlNodeCollection noneNodeList = doc.DocumentNode.SelectNodes(goodClass);
 foreach (var node in noneNodeList)
 {
 HtmlDocument docChild = new HtmlDocument();
 docChild.LoadHtml(node.OuterHtml);
 string urlPath = "/dd/a";
 HtmlNodeCollection list = docChild.DocumentNode.SelectNodes(urlPath);
 foreach (var l in list)
 {
  HtmlDocument docChild1 = new HtmlDocument();
  docChild1.LoadHtml(l.OuterHtml);
  var sortUrl = l.Attributes["href"].Value;
  if (!string.IsNullOrWhiteSpace(sortUrl) && sortUrl.Contains("cat="))
  {
  InsertSort("https:" + sortUrl);
  }
 }
 }
}
catch (Exception ex)
{
 Console.WriteLine(ex.Message);
}

上面的代码中使用到了HtmlAgilityPack来解析HTML信息，这是.NET的开源项目，开源在nuget包中下载。

（1）下载http://www.jd.com/allSort.aspx的html页，然后加载到HtmlDocument

（2）选择节点，获取每个大类的节点集合

（3）根据每个大类的节点，获取每个小类的节点信息，然后获取到分类地址

节点中也包含了其它很多信息，可以根据自己的需求去获取对应的信息

2、获取具体商品信息

（1）首先根据商品分类加载分类信息，获取到当前分类每个页面的链接

下载HTML之后，选择节点，可以将HTML格式化之后查看每个页面的url地址和拼接规则，然后借助HtmlAgilityPack

来筛选需要的节点，将每个页面的url分离出来

try
{
 string html = HttpHelper.DownloadUrl(@"https://list.jd.com/list.html?cat=1620,11158,11964");
 HtmlDocument productDoc = new HtmlDocument();
 productDoc.LoadHtml(html);
 HtmlNode pageNode = productDoc.DocumentNode.SelectSingleNode(@"//*[@id='J_topPage']/span/i");
 if (pageNode != null)
 {
  int pageNum = Convert.ToInt32(pageNode.InnerText);
  for (int i = 1; i < pageNum + 1; i++)
  {
   string pageUrl = string.Format("{0}&page={1}", category.Url, i).Replace("&page=1&", string.Format("&page={0}&", i));
   try
   {
    List<ProductInfo> proDuctInfo = GetPageProduct(pageUrl);
   }
   catch (Exception ex)
   {
    Console.WriteLine(ex.Message);
   }
  }
 }

}
catch (Exception ex)
{
 Console.WriteLine(ex.Message);
}

（2）根据每个页面的链接，获取当前页面的商品信息

下载每个页面的所有商品信息，需要获取的商品信息在页面中都能找到

首先我们获取到每个商品的节点集合，获取到一个商品的节点信息之后，分析html数据，

找到我们需要的商品的信息所在的位置，然后将需要的信息分离出来。

下面的代码中我获取到的商品的id和title还有价格。

List<ProductInfo> productInfoList = new List<ProductInfo>();
try
{
 string html = HttpHelper.DownloadUrl(url);
 HtmlDocument doc = new HtmlDocument();
 doc.LoadHtml(html);
 HtmlNodeCollection productNodeList = doc.DocumentNode.SelectNodes("//*[@id='plist']/ul/li");
 if (productNodeList == null || productNodeList.Count == 0)
 {
  return productInfoList;
 }
 foreach (var node in productNodeList)
 {
  HtmlDocument docChild = new HtmlDocument();
  docChild.LoadHtml(node.OuterHtml);
  ProductInfo productInfo = new ProductInfo()
  {
   CategoryId = category.Id
  };

  HtmlNode urlNode = docChild.DocumentNode.SelectSingleNode("//*[@class='p-name']/a");
  if (urlNode == null)
  {
   continue;
  }
  string newUrl= urlNode.Attributes["href"].Value;
  newUrl = !newUrl.StartsWith("http:")?"http:" + newUrl: newUrl;
  string sId = Path.GetFileName(newUrl).Replace(".html", "");
  productInfo.ProductId = long.Parse(sId);
  HtmlNode titleNode = docChild.DocumentNode.SelectSingleNode("//*[@class='p-name']/a/em");
  if (titleNode == null)
  {
   continue;
  }
  productInfo.Title = titleNode.InnerText;

  HtmlNode priceNode = docChild.DocumentNode.SelectSingleNode("//*[@class='p-price']/strong/i");
  if (priceNode == null)
  {
   continue;
  }
  else
  {

  }
  productInfoList.Add(productInfo);

 }
 //批量获取价格
 GetGoodsPrice(productInfoList);
}
catch (Exception ex)
{
}
return productInfoList;

商品的图片地址和价格信息的获取需要仔细分析html中的数据，然后找到规律，比如价格在每个节点中就不能单独获取。

以下为批量获取价格的代码：

try
   {
    StringBuilder sb = new StringBuilder();
    sb.AppendFormat("http://p.3.cn/prices/mgets?callback=jQuery1069298&type=1&area=1_72_4137_0&skuIds={0}&pdbp=0&pdtk=&pdpin=&pduid=1945966343&_=1469022843655", string.Join("%2C", productInfoList.Select(c => string.Format("J_{0}", c.ProductId))));
    string html = HttpHelper.DownloadUrl(sb.ToString());
    if (string.IsNullOrWhiteSpace(html))
    {
     return productInfoList;
    }
    html = html.Substring(html.IndexOf("(") + 1);
    html = html.Substring(0, html.LastIndexOf(")"));
    List<CommodityPrice> priceList = JsonConvert.DeserializeObject<List<CommodityPrice>>(html);
    productInfoList.ForEach(c => c.Price = priceList.FirstOrDefault(p => p.id.Equals(string.Format("J_{0}", c.ProductId))).p);
   }
   catch (Exception ex)
   {
    Console.WriteLine(ex.Message);
   }
   return productInfoList;

以上就是一个简单的爬取京东商品信息的爬虫，也可以根据自己的需求去解析更多的数据出来。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

利用C#实现最基本的小说爬虫示例代码

前言作为一个新手,最近在学习C#,自己折腾弄了个简单的小说爬虫,实现了把小说内容爬下来写入txt,还只能爬指定网站. 第一次搞爬虫,涉及到了网络协议,正则表达式,弄得手忙脚乱跑起来效率还差劲,慢慢改吧.下面话不多说了,来一起看看详细的介绍吧. 爬的目标:http://www.166xs.com/xiaoshuo/83/83557/ 一.先写HttpWebRequest把网站扒下来这里有几个坑,大概说下: 第一个就是记得弄个代理IP爬网站,第一次忘了弄代理然后ip就被封了..... 第二个就是
C#制作多线程处理强化版网络爬虫

上次做了一个帮公司妹子做了爬虫,不是很精致,这次公司项目里要用到,于是有做了一番修改,功能添加了网址图片采集,下载,线程处理界面网址图片下载等. 说说思路:首相获取初始网址的所有内容在初始网址采集图片去初始网址采集链接把采集到的链接放入队列继续采集图片,然后继续采集链接,无限循环还是上图片大家看一下, 处理网页内容抓取跟网页网址爬取都做了改进,下面还是大家来看看代码,有不足之处,还请之处! 网页内容抓取HtmlCodeRequest, 网页网址爬取GetHttpLinks,用正则去筛选
C# 利用代理爬虫网页的实现方法

C# 利用代理爬虫网页实现代码: // yanggang@mimvp.com // http://proxy.mimvp.com // 2015-11-09 using System; using System.IO; using System.Net; using System.Text; namespace ConsoleApplication1 { class Program { public static void Main(string[] args) { System.Net.We
利用C#实现网络爬虫

网络爬虫在信息检索与处理中有很大的作用,是收集网络信息的重要工具. 接下来就介绍一下爬虫的简单实现. 爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕为止. 下面开始逐步分析爬虫的实现. 1. 待下载集合与已下载集合为了保存需要下载的URL,同时防止重复下载,我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL. 因为在保存URL的同时需要保存与URL相关的一些其他信息,如深度,所以这里我采用了Dictionary来存放这些UR
基于C#实现网络爬虫 C#抓取网页Html源码

最近刚完成一个简单的网络爬虫,开始的时候很迷茫,不知道如何入手,后来发现了很多的资料,不过真正能达到我需要,有用的资料--代码很难找.所以我想发这篇文章让一些要做这个功能的朋友少走一些弯路. 首先是抓取Html源码,并选择<ul class="post_list"> </ul>节点的href:要添加using System.IO;using System.Net; private void Search(string url) { string rl; Web
C#简单爬虫案例分享

本文实例为大家分享了C#简单爬虫案例,供大家参考,具体内容如下 using System; using System.Collections.Generic; using System.Linq; using System.Net; using System.Text; using System.Text.RegularExpressions; using System.Threading.Tasks; namespace ConsoleApplication1 { class Program
C#网络爬虫代码分享 C#简单的爬取工具

公司编辑妹子需要爬取网页内容,叫我帮忙做了一简单的爬取工具这是爬取网页内容,像是这对大家来说都是不难得,但是在这里有一些小改动,代码献上,大家参考 private string GetHttpWebRequest(string url) { HttpWebResponse result; string strHTML = string.Empty; try { Uri uri = new Uri(url); WebRequest webReq = WebRequest.Create(uri);
基于C#实现网页爬虫

本文实例为大家分享了基于C#实现网页爬虫的详细代码,供大家参考,具体内容如下 HTTP请求工具类: 功能: 1.获取网页html 2.下载网络图片 using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Text; using System.Threading.Tasks; using System.Windows.Form
C#爬虫通过代理刷文章浏览量

1.如何维护代理IP库? 想要使用代理IP,那就必须有一个一定数量.足够有效的代理ip库,在学习阶段,随便玩玩那就只能从免费的代理IP网站上抓取,没有一定数量的代理刷文章流浪量非常慢,首先就是要维护好自己的代理Ip库之前用过的西刺代理.66ip比较靠谱,西祠好像有反扒,遇到过一次,不知道是西祠网站的问题还是反扒的策略,这两个网站每分钟抓取的能用的代理大概有2,3个,这已经算的上比较客观的了, data5u.快代理.ip3366网页端更新的非常少,而且有效性比较低,快代理抓取网页还必须设置Use
C#多线程爬虫抓取免费代理IP的示例代码

这里用到一个HTML解析辅助类:HtmlAgilityPack,如果没有网上找一个增加到库里,这个插件有很多版本,如果你开发环境是使用VS2005就2.0的类库,VS2010就使用4.0,以此类推..........然后直接创建一个控制台应用,将我下面的代码COPY替换就可以运行,下面就来讲讲我两年前做爬虫经历,当时是给一家公司做,也是用的C#,不过当时遇到一个头痛的问题就是抓的图片有病毒,然后系统挂了几次.所以抓网站图片要注意安全,虽然我这里没涉及到图片,但是还是提醒下看文章的朋友. clas
用C#做网络爬虫的步骤教学

如今代码圈很多做网络爬虫的例子,今天小编给大家分享的是如何用C#做网络爬虫.注意这次的分享只是分享思路,并不是一整个例子,因为如果要讲解一整个例子的话,牵扯的东西太多. 1.新建一个控制台程序,这个相信大家都懂的 2.建好以后,打开主程序文件,导入发送http请求的库,这里用的是System.NET 3.编写发送http请求的方法,如下所示:首先实例化WebClient,然后设置头信息,其次转化参数为字节数据,最后调用UploadData方法进行发送. 4.接下来调用我们写的发送http请求的方

c#爬虫爬取京东的商品信息

相关推荐

随机推荐