Asp.Net、asp实现的搜索引擎网址收录检查程序

使用asp.net或者asp检查某个url地址,某篇文章是否被搜索引擎,如百度,谷歌,搜狗收录。

实现原理:直接搜索你那篇文章的url地址(不带协议,但上协议也行,代码会自动去掉协议内容),如果被索引会返回搜索结果,否则会提示找不到信息。

Asp.Net检查百度,谷歌,搜狗搜索引擎是否收录文章网址源代码:

using System;
using System.Net;
using System.Text;
using System.IO;
using System.Web;
public class SearchEngineIndex
{
  public static string[] urls = { //搜索引擎检查地址
      "http://www.baidu.com/s?ie=utf-8&wd=",//百度索引url检查地址
      "https://www.google.com.hk/search?q=",//谷歌索引url检查地址
      "http://www.sogou.com/web?ie=utf8&query="//搜狗索引url检查地址
    }
    , noFindKeyword = { "抱歉,没有找到与", "找不到和您的查询", "未收录?" };//搜索引擎未索引url地址时的关键字
  /// <summary>
  /// 获取响应的编码
  /// </summary>
  /// <param name="contenttype"></param>
  /// <returns></returns>
  private static Encoding GetEncoding(string contenttype)
  {
    if (!string.IsNullOrEmpty(contenttype))
    {
      contenttype = contenttype.ToLower();
      if (contenttype.IndexOf("gb2312") != -1 || contenttype.IndexOf("gbk") != -1) return Encoding.GetEncoding(936);
      if (contenttype.IndexOf("big5") != -1) return Encoding.GetEncoding(950);
    }
    return Encoding.UTF8;
  }
  /// <summary>
  /// 使用HttpWebRequest对象,自动识别字符集
  /// </summary>
  /// <param name="url"></param>
  /// <param name="addUseragent">是否添加UserAgent,采集其他网站时防止被拦截</param>
  /// <returns></returns>
  public static string GetHtml(string url, bool addUseragent)
  {
    HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
    if (addUseragent) request.UserAgent = "Googlebot|Feedfetcher-Google|Baiduspider";
    string html = null;
    try
    {
      HttpWebResponse response = (HttpWebResponse)request.GetResponse();
      StreamReader srd = new StreamReader(response.GetResponseStream(), GetEncoding(response.ContentType));
      html = srd.ReadToEnd();
      srd.Close();
      response.Close();
    }
    catch { }
    return html;
  }
  /// <summary>
  /// 检查某个url是否被搜索引擎索引
  /// </summary>
  /// <param name="url">url地址</param>
  /// <param name="engin">0:百度 1:谷歌 2:搜狗,其他搜索引擎如bing和360直接查网址显示的结果不是直接得到网址的,有些出入,不做检查</param>
  /// <returns></returns>
  public static bool CheckIndex(string url, int engin)
  {
    if (string.IsNullOrEmpty(url)) return false;
    if (engin < 0 || engin > 2) engin = 0;
    url = urls[engin] + HttpUtility.UrlEncode(url.ToLower().Replace("http://", "").Replace("https://", ""));
    bool r = true;
    string html = GetHtml(url, true);
    if (html == null || html.IndexOf(noFindKeyword[engin]) != -1) r = false;
    return r;
  }
}

//调用方法示例

    SearchEngineIndex.CheckIndex("www.jb51.net/article/20101014/2902.aspx", 0);//检查百度索引
    SearchEngineIndex.CheckIndex("www.jb51.net/article/20101014/2902.aspx", 1);//检查谷歌索引
    SearchEngineIndex.CheckIndex("www.jb51.net/article/20101014/2902.aspx", 2);//检查搜狗索引

Asp检查百度,谷歌,搜狗搜索引擎是否收录文章网址源代码:

<%
class SearchEnginIndex
 dim urls,noFindKeyword
 private sub Class_Initialize
  '百度,谷歌,搜狗url地址索引查询地址
  urls=array("http://www.baidu.com/s?ie=utf-8&wd=","https://www.google.com.hk/search?q=","http://www.sogou.com/web?ie=utf8&query=")
  '搜索引擎未索引url地址时的关键字
  NoFindKeyword=array("抱歉,没有找到与", "找不到和您的查询", "未收录?")
 End sub
 private function GetEncoding(contenttype)
  contenttype=lcase(contenttype)
  if instr(contenttype,"gb2312")<>0 and instr(contenttype,"gbk")<>0 then
   GetEncoding="gb2312"
  elseif instr(contenttype,"big5")<>0 then
   GetEncoding="big5"
  else
   GetEncoding="utf-8"
  end if
 end function
 private function BinToString(bin,encoding)'将2进制流数据依据编码转为对应的字符串内容
  dim obj
  set obj=Server.CreateObject("Adodb.Stream")
  obj.Type=1:obj.Mode=3:obj.Open
  obj.Write bin
  obj.Position=0:obj.Type=2:obj.Charset=encoding
  BinToString=obj.ReadText
  obj.Close:set obj=nothing
 end function
 public function GetHtml(url)
  dim xhr
  set xhr=server.CreateObject("microsoft.xmlhttp")
  xhr.open "get",url,false
  xhr.send
  encoding=GetEncoding(xhr.getResponseHeader("content-type"))
  response.CharSet=encoding
  GetHtml=BinToString(xhr.responsebody,encoding)
  set xhr=nothing
 end function
 public function CheckIndex(url,engin)
  if len(url)=0 then exit function
  if engin<0 or engin>2 then engin=1
  url=urls(engin)&server.URLEncode(url)
  dim html
  html=GetHtml(url)
  CheckIndex=instr(html,NoFindKeyword(engin))=0
 End function
end Class
set sei=new SearchEnginIndex
response.Write sei.CheckIndex("www.jb51.net/article/20101014/2902.aspx",0)'百度索引
response.Write sei.CheckIndex("www.jb51.net/article/20101014/2902.aspx",1)'谷歌索引
response.Write sei.CheckIndex("www.jb51.net/article/20101014/2902.aspx",2)'搜狗索引
set sei=nothing
 %>
(0)

相关推荐

  • ASP.NET 调用百度搜索引擎的代码

    百度搜索引擎提供了一段嵌入到页面中的代码 <form action="http://www.baidu.com/baidu" target="_blank"> <table><tr><td> <input name=tn type=hidden value=baidu> <input type=text name=word size=80> <input type=hidden name=

  • 基于Lucene的Java搜索服务器Elasticsearch安装使用教程

    一.安装Elasticsearch Elasticsearch下载地址:http://www.elasticsearch.org/download/ ·下载后直接解压,进入目录下的bin,在cmd下运行elasticsearch.bat 即可启动Elasticsearch ·用浏览器访问: http://localhost:9200/   ,如果出现类似如下结果则说明安装成功: { "name" : "Benedict Kine", "cluster_na

  • ASP.NET通过分布式Session提升性能

    如果我们正在使用Session,那么构建高性能可扩展的ASP.NET网站,就必须解决分布式Session的架构,因为单服务器的 SESSION处理能力会很快出现性能瓶颈,这类问题也被称之为Session同步.微软有自己的分布式Session的解决方案,那就是 SessionStateServer,我们可以参考: ASP.NET Session State Partitioning  http://blog.maartenballiauw.be/post/2008/01/23/ASPNET-Ses

  • 安装ElasticSearch搜索工具并配置Python驱动的方法

    ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎.设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便. 我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的.我们希望我们的搜索解决方案要快,我们希望有一个零配置和一个完全免费的搜索模式,我们希望能够简单

  • Elasticsearch.Net使用入门教程(1)

    本文实例为大家分享了Elasticsearch.Net使用教程,供大家参考,具体内容如下 首先去官网下载Elasticsearch 2.3.4安装包,解压后,在cmd命令行进入安装目录,再进入 bin目录,运行elasticsearch.bat命令. elasticsearch插件elasticsearch-head安装: bin目录下执行命令plugin -install mobz/elasticsearch-head 然后开始.net编程,构建控制台应用程序 Program.cs代码如下:

  • 使用Python操作Elasticsearch数据索引的教程

    Elasticsearch是一个分布式.Restful的搜索及分析服务器,Apache Solr一样,它也是基于Lucence的索引服务器,但我认为Elasticsearch对比Solr的优点在于: 轻量级:安装启动方便,下载文件之后一条命令就可以启动: Schema free:可以向服务器提交任意结构的JSON对象,Solr中使用schema.xml指定了索引结构: 多索引文件支持:使用不同的index参数就能创建另一个索引文件,Solr中需要另行配置: 分布式:Solr Cloud的配置比较

  • asp.net(c#)捕捉搜索引擎蜘蛛和机器人

    下面是访问日志文件2008-8-13 14:43:22 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322) 2008-8-13 14:43:27 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322) 2008-8-13 14:44:18 Mozi

  • Asp.Net、asp实现的搜索引擎网址收录检查程序

    使用asp.net或者asp检查某个url地址,某篇文章是否被搜索引擎,如百度,谷歌,搜狗收录. 实现原理:直接搜索你那篇文章的url地址(不带协议,但上协议也行,代码会自动去掉协议内容),如果被索引会返回搜索结果,否则会提示找不到信息. Asp.Net检查百度,谷歌,搜狗搜索引擎是否收录文章网址源代码: using System; using System.Net; using System.Text; using System.IO; using System.Web; public cla

  • 支付宝 接口开发帮助(asp,php,asp.net,jsp)

    推荐两文:1.支付宝购买流程 2.支付宝卖家流程 支付宝接口提供最新的ASP.ASP.NET.PHP.JSP等目前网络上最流行的源码包文件,程序员可以下载后按本文介绍更改参数和布置即可!而本文拿ASP.NET(C#)详细介绍. ------------------------------------------------------------------------------------- 摘自:支付宝官方 点击下载 实物商品交易服务集成技术文档和服务介绍 按照文档中的提示进行集成操作.

  • ASP与ASP.NET互通COOKIES的一点经验

    在微软推出.NET并进行了大规模的推广普及之后,ASP.NET逐渐进入了信息化系统开发的主流.但与此同时,而用ASP开发的旧系统面则临被整合,这时,面临一个问题:ASP与ASP.NET互相整合时,其中文COOKIES信息无法被互通共享,当使用ASP.NET写入中文COOKIES信息后,使用ASP进行读取,读出来的却是乱码,而非中文.    后来通过查找资料,不停地实践,终于找到了问题的根源,中文COOKIES信息在ASP中无法被正确读取得原因为其中文编码格式不同.    开发项目Web.conf

  • 搜索引擎不收录网站页面的常见原因解析

    搜索引擎不收录网页的原因:  1.网页使用框架:框架内的内容通常不在搜索引擎抓取的范围之内. 2.图片太多,文本太少. 3.提交页面转向另一网站:搜索引擎可能完全跳过这个页面. 4.提交太过频繁:一个月内提交2次以上,很多搜索引擎就受不了,认为你在提交垃圾. 5.网站关键词密度太大:不幸的是搜索引擎并没解释多高的密度是极限,一般认为100个字的描述中含有3-4个关键词为最佳. 6.文本颜色跟背景色彩一样:搜索引擎认为你在堆砌关键词欺骗它. 7.动态网页:网站的内容管理系统方便了网页更新,却给大部

  • 实现Asp与Asp.Net共享Session的方法

    <iframe align="top" marginwidth="0" marginheight="0" src="http://www.zealware.com/46860.html" frameborder="0" width="468" scrolling="no" height="60"></iframe> 在.ne

  • 动态网站web开发 PHP、ASP还是ASP.NET

    这是一个经常被提出的问题,并且它很容易把人们带入争论Linux还是Windows的歧途.这样的争论事实上反映出了对于相互竞争的Web开发技术要进行并行分析是多么困难的一件事情,而这一难度同时因为开发人员对任何可比较操作系统的不同意见而大大增加. 所以与其继续参与到这样的争论中,我们还不如来看看每一项技术对于特定Web开发以及运行环境所表现出的优势.尽管ASP和PHP的相似程度大于其中任意一种与ASP.NET的相似程度,我们还是要讨论ASP.NET.原因是开发人员常常将其与ASP相混淆,并且在微软

  • 360搜索引擎自动收录php改写方案

    360搜索引擎自动收录功能,官方提供了代码,带式,十分坑爹,没有提供批量提交入口,只是提供了一段js代码,关键是 一个js去下载另外一个js,document.write到文档,然后再 重复2遍如此工作. 弱弱地问:为什么不像百度一样提供 批量提交入口? 难道是,靠这个自动提交功能,搜集网站的数据,比如document.refer等数据?这个也是比较流氓了吧? 据说360的搜索引擎目前在中国 市场占有率为20%以上,不知道真假,本人是十分怀疑的! 起码本人基本只用谷歌!奈何在天朝还是基本用百度,

  • [转]ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)

    不知道为什么现在各大搜索引擎编码居然不一样.当然不是GB2312就是UTF-8了.编码问题是比较头疼的问题...头疼的不要命... 我们获得关键词,一般是通过来访页面的url进行分析的.比如 http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr= 各位肯定知道这个是通过urlencode编码的. 我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由ASP自己来进行的,但是现

  • 关于有些Asp.net项目发布后出现网址乱码的解决方法

    当我输入网站域名,打开网页后url中会跟一段"乱码" 复制代码 代码如下: http://www.XXXX.com/(S(jnzpixfqi5rge5rnl45vdb45))/index.aspx 最后在查看web.config时看到了一句 <sessionState mode="InProc" stateConnectionString="tcpip=127.0.0.1:42424" sqlConnectionString="d

  • 301重定向代码合集(iis,asp,php,asp.net,apache)

    1.IIS下301设置 Internet信息服务管理器 -> 虚拟目录 -> 重定向到URL,输入需要转向的目标URL,并选择"资源的永久重定向". 在IIS中,也可以通过安装ISAPI Rewrite组件来实现如Apache中mod_rewrite的功能,详见ISAPI Rewrite 3下载及常用301规则. 2.ASP下的301重定向代码 <%@ Language=VBScript %> <% Response.Status="301 Mo

随机推荐