Google员工揭密防止网站作弊技术

Google 研究员 吴军
自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。
搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手
段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正。
在有了网页排名(page rank)以后,作弊者发现一个网页被引用的连接越多,排名就可能越靠前,于是就有了专门卖链接和买链接的生意。比如,有人自己创建成百上千个网站,这些网站上没有实质的内容,只有到他们的客户网站的连接。这种做法比重复关键词要高明得多,但是还是不太难被发现。因为那些所谓帮别人提高排名的网站,为了维持生意需要大量地卖链接,所以很容易露马脚。(这就如同造假钞票,当某一种假钞票的流通量相当大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我们就不在这里一一赘述了。
几年前,我加入Google做的第一件事就是消除网络作弊。在Google最早发现搜索引擎作弊的是Matt Cutts,他在我加入Google前几个月开始研究这个问题,后来,辛格,马丁和我先后加入进来。我们经过几个月的努力,清除了一半的作弊者。(当然,以后抓作弊的效率就不会有这么高了。)其中一部分网站从此"痛改前非",但是还是有很多网站换一种作弊方法继续作弊,因此,抓作弊成了一种长期的猫捉老鼠的游戏。虽然至今还没有一个一劳永逸地解决作弊问题的方法,但是,Google基本做到了对于任何已知的作弊方法,在一定时间内发现并清除它,从而总是将作弊的网站的数量控制在一个很小的比例范围。
抓作弊的方法很像信号处理中的去噪音的办法。学过信息论和有信号处理经验的读者可能知道这么一个事实,我们如果在发动机很吵的汽车里用手机打电话,对方可能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不到汽车的噪音。事实上,现在一些高端的手机已经有了这种检测和消除噪音的功能。消除噪音的流程可以概括如下:

在图中,原始的信号混入了噪音,在数学上相当于两个信号做卷积。噪音消除的过程是一个解卷积的过程。这在信号处理中并不是什么难题。因为第一,汽车发动机的频率是固定的,第二,这个频率的噪音重复出现,只要采集几秒钟的信号进行处理就能做到。从广义上讲,只要噪音不是完全随机的、并且前后有相关性,就可以检测到并且消除。(事实上,完全随机不相关的高斯白噪音是很难消除的。)
搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可能是随机的(否则就无法提高排名了)。而且,作弊者也不可能是一天换一种方法,即作弊方法是时间相关的。因此,搞搜索引擎排名算法的人,可以在搜集一段时间的作弊信息后,将作弊者抓出来,还原原有的排名。当然这个过程需要时间,就如同采集汽车发动机噪音需要时间一样,在这段时间内,作弊者可能会尝到些甜头。因此,有些人看到自己的网站经过所谓的优化(其实是作弊),排名在短期内靠前了,以为这种所谓的优化是有效的。但是,不久就会发现排名掉下去了很多。这倒不是搜索引擎以前宽容,现在严厉了,而是说明抓作弊需要一定的时间,以前只是还没有检测到这些作弊的网站而已。
还要强调一点,Google抓作弊和恢复网站原有排名的过程完全是自动的(并没有个人的好恶),就如同手机消除噪音是自动的一样。一个网站要想长期排名靠前,就需要把内容做好,同时要和那些作弊网站划清界限。
本文来自Google黑板报

(0)

相关推荐

  • Google员工揭密防止网站作弊技术

    Google 研究员 吴军自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM).以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子.搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手 段提高自己网页的排名.早期最常见的作弊方法是重复关键词.比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康.佳能和柯达等等.为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词.其实,这种做法很容易

  • 基于JSP的动态网站开发技术

    随着Web技术的发展和电子商务时代的到来,人们不再满足于建立各种静态地发布信息的网站,更多的时候需要能与用户进行交互,并能提供后台数据库的管理和控制等服务的动态网站. 动态网站开发技术 早期的动态网站开发技术使用的是CGI-BIN接口.开发人员编写与接口相关的单独的程序和基于Web的应用程序,后者通过Web服务器来调用前者.这种开发技术存在着严重的扩展性问题--每一个新的CGI程序要求在服务器上新增一个进程.如果多个用户并发地访问该程序,这些进程将耗尽该Web服务器所有的可用资源,直至其崩溃.

  • 网站制作技术大全资源下载

    天天看到围城的故事很多,城里的人想出去,而城外的人想进来..没办法啊,其实生活就是这样.. 经常有朋友说想学做网站,让我来当导师,说实话,如果不是工作需要,网络只是带给人们信息和娱乐的工具,不要人云亦云.. 这篇文章很是重要,为什么这么说呢,我并不是在这里讲网站建设是怎样怎样的..我只是把常用的资料性东西给你,并指导你如何使用这些书籍.. 如果你是初学者的话,建议你看以下几本书. 网站设计和制作理论知识.chm 下载 网站项目管理规范.chm 下载 Html和css网页标准指南(赞).chm 下

  • 网站排名有了中国标准 转

    中国互联网协会昨天正式启动"中国网站排名",中国网站排名网正式亮相,这意味着中国人第一次有了自己权威的网站排名.今后,网民和网站要知道流量排名,将有了我们自己的参考标准,而不必只能参考国外网站的排名数据. 看排名不需参考国外 由于国内此前缺少权威的流量统计机构以及工具,美国的Alexa网站已逐渐成为判断国内网站真实流量的一大标准.但中国互联网协会认为国外的流量排名存在着对中国网站的相关信息支持不足的缺陷,不能满足中国网站的发展需要,而这一局面今后将得以改变. 中国互联网协会秘书长黄澄清

  • GOOGLE网站向网站管理员提供的建议一定要看的

    网站管理员指南 遵循以下指南将有助于 Google 查找.检索您的网站并对其进行排名,这是确保在 Google 搜索结果中列出您的网址的最佳途径.即使您选择不采纳这些建议,我们也强烈建议您密切关注"质量指南",该指南对可导致网站从 Google 索引中彻底删除的一些违禁行为做了简要说明.一旦网站删除之后,Google.com 或 Google 所有合作伙伴网站的搜索结果中都不会再显示该网站. 网站设计与内容指南: 网站应具有清晰的层次结构和文本链接.每个网页应至少可以通过一个静态文本链

  • 搜索引擎对关键词作弊判断方法揭密

    搜索引擎关键词作弊一:隐藏链接(Invisable/hidden links) 意欲在不影响网站美观的前提下通过在其它页面添加指向目标优化页的隐形链接,通过提升链接得分而改善搜索引擎排名. 现在大多数搜索引擎都能检测隐藏技术,并视为作弊.因而包含隐含文本的网页面临被搜索引擎降低排名甚至删除列表的惩罚.虽然在搜索引擎上不乏使用隐形技术而侥幸逃脱的网站,但多数人还是认为不值得冒这个险.其实通过添加可视文本内容并保证一定的关键词密度可达到相同的优化效果. 搜索引擎关键词作弊二:网页与搜索引擎描述不符

  • 为什么Google Adsense广告单元点击价格会下降??

    广告单价或涨或跌是非常正常的事情了,尤其是对于Google Adsense的发布者.很多人会认为是Google Adsense做了什么手脚或者Google降低了广告的单价,事实并非如此.从某种角度来说Google Adsense只是一个智能的广告交易平台,广告主支付广告费和发布者收入广告费,Google按照一定比例提成.唯一不同的是Google会通过SmartPrice来调控各个发布站点的点击价格,这也不代表Google有意降低某站的收入,因为发布者收入少的话Google得到的那部分同样会减少,

  • 跟老齐学Python之网站的结构

    很早很早的时候,computer这个东西习惯于被称之为计算机,因为它的主要功能是完成一些科学计算的东西,我记得自己鼓捣它的时候,就是计算,根本就没有想到它有早一日还可以用来做别的.后来另外一个名字"电脑"逐渐被人们接收了,特别是网络发展起来之后,computer这个东西,如果要不上网,简直就不知道干什么.而且,现在似乎还有一个趋势,越来越强化网络的作用,而本机的功能虽然硬件在提升,可以做的事情感觉不多了. 不管怎么,网络是离不开了.上网,连上网之后干什么呢?就是要登录某某网站.不是联网

  • 用google 赶快来赚美金附图文使用教程第1/2页

    申请地址: 透过 Google AdSense 使您的网站产生收益 这就是Google新推出的AdWords 推介广告,当用户通过您的推介注册了Google AdWords,并且花费了第一笔 USD100.00 的广告费,Google就会将 USD20.00 存入您的帐户. * Google AdWords 让广告客户制作广告并在 Google.com 以及 Google 内容网络中加以展示,而内容网络就包含了像您网站这样的 Google AdSense 发布商网站.广告客户可以选择自己的目标受

  • 中国站长对Google Adsense规则的曲解

    1.页面刷新增加展示次数这不属于被停止帐号的范畴,很多人一直认为帐号安全和点击率有关,事实上停止帐号只有一个原因就是违反规则,而点击率不是原因,所以说你增加展示次数没有任何意义,更重要的是你的展示次数越多对google是越有利的 2.国内IP点国外广告这是新学问,难道不允许中国的IP去国外的网站上去点击广告了,难道就不允许中国的站长做英文站点给国内的懂英文的人访问了,难道中文站点就不能显示外语广告,即使显示了用户就不能点了规则限制的是不能用套关键词的方式在中文站点上显示外语广告,这和什么IP点什

随机推荐