[转]ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)

不知道为什么现在各大搜索引擎编码居然不一样.当然不是GB2312就是UTF-8了.编码问题是比较头疼的问题...头疼的不要命...

我们获得关键词,一般是通过来访页面的url进行分析的.比如

http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr=

各位肯定知道这个是通过urlencode编码的.

我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由ASP自己来进行的,但是现在我们不得不进行手工解码.

网上函数很多,但都是针对于GB2312页面解GB2312.UTF-8的.对于这个,我们可以很轻松的先进行解码,然后根据搜索引擎判断它的编码,如果是UTF-8就再转换为GB2312.

但是由于我的网站是UTF-8页面的.而UTF-8页面我找到的只有解UTF-8字符的urldecode编码的.在这里停顿了很久,最后我只能用最糟糕的方法,把拆分出来的关键词用xmlhttp提交到一个GB2312的ASP页面,然后活得乱码(GB2312)后再进行GB2312 to UTF-8的转换.

下面主要实现代码.

Public Function GetSearchKeyword(RefererUrl) ’搜索关键词

if RefererUrl="" or len(RefererUrl)<1 then exit function

on error resume next

Dim re

Set re = New RegExp

re.IgnoreCase = True

re.Global = True

Dim a,b,j

’模糊查找关键词,此方法速度较快,范围也较大

re.Pattern = "(word=([^&]*)|q=([^&]*)|p=([^&]*)|query=([^&]*)|name=([^&]*)|_searchkey=([^&]*)|baidu.*?w=([^&]*))"

Set a = re.Execute(RefererUrl)

If a.Count>0 then

Set b = a(a.Count-1).SubMatches

For j=1 to b.Count

If Len(b(j))>0 then

if instr(1,RefererUrl,"google",1) then

GetSearchKeyword=Trim(U8Decode(b(j)))

elseif instr(1,refererurl,"yahoo",1) then

GetSearchKeyword=Trim(U8Decode(b(j)))

elseif instr(1,refererurl,"yisou",1) then

GetSearchKeyword=Trim(getkey(b(j)))

elseif instr(1,refererurl,"3721",1) then

GetSearchKeyword=Trim(getkey(b(j)))

else

GetSearchKeyword=Trim(getkey(b(j)))

end if

Exit Function

end if

Next

End If

if err then

err.clear

GetSearchKeyword = RefererUrl

else

GetSearchKeyword = ""

end if

End Function

Function URLEncoding(vstrIn)

dim strReturn,i,thischr

strReturn = ""

For i = 1 To Len(vstrIn)

ThisChr = Mid(vStrIn,i,1)

If Abs(Asc(ThisChr)) < &HFF Then

strReturn = strReturn & ThisChr

Else

innerCode = Asc(ThisChr)

If innerCode < 0 Then

innerCode = innerCode + &H10000

End If

Hight8 = (innerCode  And &HFF00)\ &HFF

Low8 = innerCode And &HFF

strReturn = strReturn & "%" & Hex(Hight8) &  "%" & Hex(Low8)

End If

Next

URLEncoding = strReturn

End Function

function getkey(key)

dim oreq

set oreq = CreateObject("MSXML2.XMLHTTP")

oReq.open "POST","http://"&WebUrl&"/system/ShowGB2312XML.asp?a="&key,false

oReq.send

getkey=UTF2GB(oReq.responseText)

end function

function chinese2unicode(Str)

dim i

dim Str_one

dim Str_unicode

for i=1 to len(Str)

Str_one=Mid(Str,i,1)

Str_unicode=Str_unicode&chr(38)

Str_unicode=Str_unicode&chr(35)

Str_unicode=Str_unicode&chr(120)

Str_unicode=Str_unicode& Hex(ascw(Str_one))

Str_unicode=Str_unicode&chr(59)

next

Response.Write Str_unicode

end function

function UTF2GB(UTFStr)

Dim dig,GBSTR

for Dig=1 to len(UTFStr)

if mid(UTFStr,Dig,1)="%" then

if len(UTFStr) >= Dig+8 then

GBStr=GBStr & ConvChinese(mid(UTFStr,Dig,9))

Dig=Dig+8

else

GBStr=GBStr & mid(UTFStr,Dig,1)

end if

else

GBStr=GBStr & mid(UTFStr,Dig,1)

end if

next

UTF2GB=GBStr

end function

function ConvChinese(x)

dim a,i,j,DigS,Unicode

A=split(mid(x,2),"%")

i=0

j=0

for i=0 to ubound(A)

A(i)=c16to2(A(i))

next

for i=0 to ubound(A)-1

DigS=instr(A(i),"0")

Unicode=""

for j=1 to DigS-1

if j=1 then

A(i)=right(A(i),len(A(i))-DigS)

Unicode=Unicode & A(i)

else

i=i+1

A(i)=right(A(i),len(A(i))-2)

Unicode=Unicode & A(i)

end if

next

if len(c2to16(Unicode))=4 then

ConvChinese=ConvChinese & chrw(int("&H" & c2to16(Unicode)))

else

ConvChinese=ConvChinese & chr(int("&H" & c2to16(Unicode)))

end if

next

end function

function U8Decode(enStr)

’输入一堆有%分隔的字符串,先分成数组,根据utf8规则来判断补齐规则

’输入:关 E5 85 B3  键  E9 94 AE 字   E5 AD 97

’输出:关 B9D8  键  BCFC 字   D7D6

dim c,i,i2,v,deStr,WeiS

for i=1 to len(enStr)

c=Mid(enStr,i,1)

if c="%" then

v=c16to2(Mid(enStr,i+1,2))

’判断第一次出现0的位置,

’可能是1(单字节),3(3-1字节),4,5,6,7不可能是2和大于7

’理论上到7,实际不会超过3。

WeiS=instr(v,"0")

v=right(v,len(v)-WeiS)’第一个去掉最左边的WeiS个

i=i+3

for i2=2 to WeiS-1

c=c16to2(Mid(enStr,i+1,2))

c=right(c,len(c)-2)’其余去掉最左边的两个

v=v & c

i=i+3

next

if len(c2to16(v)) =4 then

deStr=deStr & chrw(c2to10(v))

else

deStr=deStr & chr(c2to10(v))

end if

i=i-1

else

if c="+" then

deStr=deStr&" "

else

deStr=deStr&c

end if

end if

next

U8Decode = deStr

end function

function c16to2(x)

’这个函数是用来转换16进制到2进制的,可以是任何长度的,一般转换UTF-8的时候是两个长度,比如A9

’比如:输入“C2”,转化成“11000010”,其中1100是"c"是10进制的12(1100),那么2(10)不足4位要补齐成(0010)。

dim tempstr

dim i:i=0’临时的指针

for i=1 to len(trim(x))

tempstr= c10to2(cint(int("&h" & mid(x,i,1))))

do while len(tempstr)<4

tempstr="0" & tempstr’如果不足4位那么补齐4位数

loop

c16to2=c16to2 & tempstr

next

end function

function c2to16(x)

’2进制到16进制的转换,每4个0或1转换成一个16进制字母,输入长度当然不可能不是4的倍数了

dim i:i=1’临时的指针

for i=1 to len(x)  step 4

c2to16=c2to16 & hex(c2to10(mid(x,i,4)))

next

end function

function c2to10(x)

’单纯的2进制到10进制的转换,不考虑转16进制所需要的4位前零补齐。

’因为这个函数很有用!以后也会用到,做过通讯和硬件的人应该知道。

’这里用字符串代表二进制

c2to10=0

if x="0" then exit function’如果是0的话直接得0就完事

dim i:i=0’临时的指针

for i= 0 to len(x) -1’否则利用8421码计算,这个从我最开始学计算机的时候就会,好怀念当初教我们的谢道建老先生啊!

if mid(x,len(x)-i,1)="1" then c2to10=c2to10+2^(i)

next

end function

function c10to2(x)

’10进制到2进制的转换

dim sign, result

result = ""

’符号

sign = sgn(x)

x = abs(x)

if x = 0 then

c10to2 = 0

exit function

end if

do until x = "0"

result = result & (x mod 2)

x = x \ 2

loop

result = strReverse(result)

if sign = -1 then

c10to2 = "-" & result

else

c10to2 = result

end if

end function

function URLDecode(enStr)

dim  deStr,strSpecial

dim  c,i,v

deStr=""

strSpecial="!""#$%&’()*+,/:;<=>?@[\]^`{ |}~%"

for  i=1  to  len(enStr)

c=Mid(enStr,i,1)

if  c="%"  then

v=eval("&h"+Mid(enStr,i+1,2))

if  inStr(strSpecial,chr(v))>0  then

deStr=deStr&chr(v)

i=i+2

else

v=eval("&h"+Mid(enStr,i+1,2)+Mid(enStr,i+4,2))

deStr=deStr&chr(v)

i=i+5

end  if

else

if  c="+"  then

deStr=deStr&" "

else

deStr=deStr&c

end  if

end  if

next

URLDecode=deStr

end function

许多代码都是网上的.找不到作者.

PS:现在暑假就要接受,由于家庭原因我不想留在我的城市.中考到达本地重点.不想说城市名字.否则会招来熟人.只要不在山东的学校算是重点的能不能联系下.

QQ:32113739

对程序有极大兴趣,但信息奥赛只活得一等的X名.因为我认为技术不应该在所谓竞赛中体现,就如才能不应该在那些无意义的考试中体现一样.电子作品也弄了各省一等..不过也一般学习一般...所以只要是一般重点就好了..只是不想在离家太近的地方.

现在ASP十分熟练,虽然有些知识缺陷,比如编码问题(汗...),但是网络如此大,我想我不是只有在课本中才能得到所谓的知识.而且现在正在啃ASP.net的书,如果贵校做网站完全可以帮忙.

对新技术十分狂热,虽然被他们称为审美有障碍的人.但我想看到结构偶的程序还不至于吐血.

算了..再贴点.

偶开发D Database+ASP ->xml+xslt->xhtml +css 的算是叫CMS的东西

http://www.joysou.com

也用了CSDN用的FCK编辑器,今天上来才发现换了.不过那个FCK的FIle系统让偶统统改掉.

这个系统在暑假结束前一定会发布.不过很多朋友说易用性有问题...很多人不会xslt.汗...

唉...如果找不到学校.我也许会漂泊,也许会消失吧.当然这不是威胁..只是恨我的城市,恨那里看到的,干过的一切.

(0)

相关推荐

  • ASP UTF-8页面乱码+GB2312转UTF-8 +生成UTF-8格式的文件(编码)第1/2页

    最好的方法: 先说一下基本的东西: <%@ codepage=65001%>UTF-8 <%@ codepage=936%>简体中文 <%@ codepage=950%>繁体中文 <%@ codepage=437 %>美国/加拿大英语 <%@ codepage=932 %>日文 <%@ codepage=949 %>韩文 <%@ codepage=866 %>俄文 codepage指定了IIS按什么编码读取传递过来的串串(

  • MSSQL转MYSQL,gb2312转utf-8无乱码解决方法

    使用软件:MySQLMigrationTool 提示数据过大,无法导入.修改my.cnf文件的max_allowed_packet = 100M以上.在windows操作系统中,my.cnf有可能显示不出来,需要用编辑器直接输入地址:盘符:\目录mysql教程binmy.cnf打开. "there can be only one TIMESTAMP column with CURRENT_TIMESTAMP in DEFAULT or ON UPDATE clause",MSSQL一个

  • unicode utf-8 gb18030 gb2312 gbk各种编码对比

    但是我这个的特点是追究原理,我在乎的事情都想弄明白,于是各个qq群依次发信息,没人理会.唉,郁闷.只好自己google it and teach myself .下面是详细介绍. 还有对各方求助没有人理会,我有些个人想法.现在的人已经很少有人去深究理论了,人们的观念是得过且过,人们通常只是知道什么,不知道为什么.对编程来说,个人认为这是很悲哀的事情,也是非常危险的事情.我想可能这也是中国的IT落后于美国的原因,我希望中国的编程人员能够好好想想了. 下面的东西是从网上查到的  Unicode 的编

  • PHP字符编码问题之GB2312 VS UTF-8解决方法

    看代码: 复制代码 代码如下: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8&

  • utf-8编码转换成gb2312

    [code]<script>   function  chinesefromutf8url(strutf8)     {              var  bstr  =  "";              var  noffset  =  0;  //  processing  point  on  strutf8                          if(  strutf8  ==  ""  )                  re

  • UTF-8转GB2312函数

    复制代码 代码如下: <%  '用途:將UTF-8編碼漢字轉換為GB2312碼,兼容英文和數字  '版權:雖說是原創,其實也參考了別人的部分算法  '用法:Response.write UTF2GB("%E9%83%BD%E5%B8%82%E6%83%85%E7%B7%A3 %E6%98%9F%E5%BA%A7") function UTF2GB(UTFStr)  for Dig=1 to len(UTFStr)  if mid(UTFStr,Dig,1)="%&quo

  • php实现utf-8和GB2312编码相互转换函数代码

    复制代码 代码如下: <?php /********************************************  *  * 函数名:get_utf8_to_gb($value)  * 作  用:utf8编码字符串转换成gb2312编码  * 作  者:刘先忠  * 日  期:2011-11-09   *  ********************************************/function   get_utf8_to_gb($value){  $value_1

  • PHP iconv 解决utf-8和gb2312编码转换问题

    终于皇天不负有心人,答案还是让我找到了. 网上的都是这样用的 复制代码 代码如下: $content = iconv("utf-8","gb2312",$content); 这样做其实也对着了,看着确实是把utf-8转化为gb2312了,但是实际运行的话,往往都是以失败告终的,原因呢? 原因实际上也很简单,因为任何的函数都是执行错误的时候,同时很不幸的是iconv();就很终于出现错误.现在给你正确的答案. 真正的答案是这样的 复制代码 代码如下: $content

  • ASP中Utf-8与Gb2312编码转换乱码问题的解决方法 页面编码声明

    出现这样的问题是当你浏览UTF-8编码的时候,服务器默认用UTF-8的引擎来输出html,当你用再浏览GB2312的页面时,它还是用UTF-8来输出本应是GB2312编码的页面所以会乱码. 为了这个问题烦了我一个早上,终于的蓝色理想上得到解决. 首先让我们来了解一下Session对象提供了四个属性. 1.CodePage 读/写.整型. 定义用于在浏览器中显示页内容的代码页(Code Page).代码页是字符集的数字值,不同的语言和场所可能使用不同的代码页.例如,ANSI代码页 1252用于美国

  • 用VBS实现的批量gb2312转utf-8,支持拖动

    复制代码 代码如下: '/*========================================================================= ' * Intro       拖动所有要转换的gb2312编码文件到这个文件上,程序会将它们自动转换为utf-8编码文件 ' * FileName    GB2312.To.UTF-8.vbs ' * Author      yongfa365 ' * Version     v1.0 ' * WEB         h

  • 将编码从GB2312转成UTF-8的方法汇总(从前台、程序、数据库)

    一个网站如果需要国际化,就需要将编码从GB2312转成UTF-8,其中有很多的问题需要注意,如果没有转换彻底,将会有很多的编码问题出现! 主要有五个方面: 一..HTML页面转UTF-8编码问题 二.PHP页面转UTF-8编码问题 三.MYSQL数据库使用UTF-8编码的问题 四.JS相关的UTF-8编码问题 五.FLASH相关的UTF-8编码问题 一.HTML页面转UTF-8编码问题 1.在后,之间有中文字符的话,显示的标题有可能是乱码! 2.html文件编码问题: 点击编辑器的菜单:"文件&

  • 将字符串转换成gb2312或者utf-8编码的参数(js版)

    在很多时候,我们直接在url中传递中文参数时,读到的中文都是乱码,那么我们应该怎么将这些参数转换呢? 下面我们来介绍一下方法 1.我们新建一个 UrlEncode.js 然后将下面的代码拷贝进去 复制代码 代码如下: //JS版的Server.UrlEncode编码函数 String.prototype.UrlEncodeGB2312 = function () { var str = this; str = str.replace(/./g, function (sHex) { window.

  • PHP 解决utf-8和gb2312编码转换问题

    终于皇天不负有心人,答案还是让我找到了. 网上的都是这样用的 复制代码 代码如下: $content = iconv("utf-8","gb2312",$content); 这样做其实也对着了,看着确实是把utf-8转化为gb2312了,但是实际运行的话,往往都是以失败告终的,原因呢? 原因实际上也很简单,因为任何的函数都是执行错误的时候,同时很不幸的是iconv();就很终于出现错误.现在给你正确的答案. 真正的答案是这样的 复制代码 代码如下: $content

  • 用javascript实现gb2312转utf-8的脚本

    信息交换用汉字编码字符集-基本集 汉字标准交换码共分两级.第一级为常用字,有3755字,按汉语拼音字母顺序排列,第二级为次常用字,有3008字,按部首排列.GB2312的编码范围为2121H-777EH. UNICODE 是两字节的全编码,对于ASCII字符它也使用两字节表示.代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节.如果发生数据损坏, 某处内容破坏,则会引起其后汉字的混乱.UNICODE则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程. 关于编码

  • VBS实现GB2312,UTF-8,Unicode,BIG5编码转换工具

    演示 echo "ABCDE &!@#$ ^<>() %% abcde 测试!"> "处理前.txt" GB2Ue.vbs "处理前.txt" "处理后.txt" Ue2U8.vbs "处理后.txt" U82GB.vbs "处理后.txt" GB2U8.vbs "处理后.txt" U82Ue.vbs "处理后.txt"

  • UTF-8 GBK UTF8 GB2312 之间的区别和关系介绍

    UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强.UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示.如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包. GBK是国家标准GB2312基础上扩容后兼容GB2312的标准.GBK的文字编码是用双字节来表示的,即不论中.英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1.GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大. GBK

随机推荐