什么是robots.txt?

2025-02-15 02:09:59

robots.txt 文件对抓取网络的搜索引擎漫游器（称为漫游器）进行限制。这些漫游器是自动的，在其访问网页前会查看是否存在阻止其访问特定网页的 robots.txt 文件。

如何创建 robots.txt 文件？

可以在任何文本编辑器中创建此文件。该文件应为 ASCII 编码的文本文件，而非 HTML 文件。文件名应使用小写字母。

语法
最简单的 robots.txt 文件使用两条规则：

User-Agent:适用下列规则的漫游器
Disallow:要拦截的网页

这两行被视为文件中的一个条目。您可根据需要包含任意多个条目。您可在一个条目中包含多个 Disallow 行和多个 User-Agent。

应在 User-Agent 行中列出什么内容？
user-agent 是特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用漫游器。您可设置应用于特定漫游器的条目（通过列示名称）或设置为应用于所有漫游器（通过列示星号）。应用于所有漫游器的条目应与下列条目类似：

User-Agent:*

Google 使用多种不同漫游器（用户代理）。用于网络搜索的漫游器是 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器遵循您为 Googlebot 设置的规则，您还可为这些特定漫游器设置附加规则。

应在 Disallow 行中列出什么内容？
Disallow 行列出了您要拦截的网页。您可列出具体网址或网址模式。条目应以正斜杠开头 (/)。

要拦截整个网站，请使用正斜扛。
```
Disallow:/
```
要拦截目录及其中的所有内容，请在目录名后添加正斜扛。
```
Disallow:/private_directory/
```
要拦截网页，请列出该网页。
```
Disallow:/private_file.html
```

网址区分大小写。例如，Disallow: /private_file.html 将拦截 http://www.example.com/private_file.html，但允许 http://www.example.com/Private_File.html。

更多内容请访问:http://www.google.com/support/webmasters

仅当您的网站包含不希望搜索引擎编入索引的内容时，才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容编入索引，则不需要 robots.txt 文件（甚至连空文件也不需要）。

示例：

------------------------------------------------------------------------------------------------------------------------------------------

#
# robots.txt for NetMao Movie
# Version 2.0.x
#

User-agent: *
Disallow: /admin/
Disallow: /inc/
Disallow: /html/
Disallow: /templates/

nginx关闭favicon.ico、robots.txt日志记录配置

nginx日志最近发生大量访问favicon.ico无法找到的404错误日志,小编感觉很影响服务器性能,对于一个高并发的服务器每一个错误都会影响性能,所以需要关闭访问favicon.ico的日志记录功能. 复制代码代码如下: # 把以下配置放到 server {} 块. #关闭favicon.ico不存在时记录日志location = /favicon.ico {log_not_found off;access_log off;} location = /robots.txt {allow a
什么是robots.txt?

robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制.这些漫游器是自动的,在其访问网页前会查看是否存在阻止其访问特定网页的 robots.txt 文件. 如何创建 robots.txt 文件? 可以在任何文本编辑器中创建此文件.该文件应为 ASCII 编码的文本文件,而非 HTML 文件.文件名应使用小写字母. 语法最简单的 robots.txt 文件使用两条规则: User-Agent:适用下列规则的漫游器 Disallow:要拦截的网页这两行被视为文件中的一个条目.您
浅析php fwrite写入txt文件的时候用 \r\n不能换行的问题

今天遇到了一个问题就是用fwrite写入txt文件的时候用 rn不能换行试了很久都没找到办法!突然之间想到一个东东以前看书见过后来还是用这个东东给解决了!现在写出来预防将来忘记也希望能帮到需要帮助的朋友!直接看代码: 复制代码代码如下: <?php$stream = fopen("robots.txt", "w+");fwrite($stream, "你换行了吗\r\n我已经换行了!");?>
python 实现存储数据到txt和pdf文档及乱码问题的解决

第一.几种常用方法读取TXT文档:urlopen() 读取PDF文档:pdfminer3k 第二.乱码问题 (1). from urllib.request import urlopen #访问wiki内容 html = urlopen("https://en.wikipedia.org/robots.txt") print(html.read()) 输出的结果中出现乱码原因: 计算机只能处理0和1两个数字,所以想要处理文本,必须把文本变成0和1这样的数字,最早的计算机使用八个0和1
详解基于 Nuxt 的 Vue.js 服务端渲染实践

Vue.js 是目前最火热的前端框架之一,而 Nuxt.js 是针对 Vue.js 推出的服务端渲染框架,通过高度定制化的配置以及简洁的 API,开发者可以快速进行服务端渲染项目的开发,本文将对 Nuxt.js 框架做一个简要介绍. 服务端渲染服务端渲染(Server Side Render)并不是一个新的概念,在单页应用(SPA)还没有流行起来的时候,页面就是通过服务端渲染好,并传递给浏览器的.当用户需要访问新的页面时,需要再次请求服务器,返回新的页面. 为了优化体验,开发者们开始选择采用
php管理nginx虚拟主机shell脚本实例

本文实例讲述了php管理nginx虚拟主机shell脚本,分享给大家供大家参考.具体分析如下: 使用php作为shell脚本是一件很方便的事情.理所当然,我们可以使用php脚本来管理 nginx虚拟主机,下面是笔者的脚本文件供各位参考: 复制代码代码如下: #!/usr/bin/php -q <?php start: fwrite(STDOUT,"===========Vhost Script===========\n"); fwrite(STDOUT,"=
Discuz5.5.0代码高亮显示+运行代码框合成插件下载第1/4页

主要功能: 1.几乎支持所有程序代码的高亮显示,包括以下语言:Actionscript.ADA.Apache Log.AppleScript.ASM.ASP.AutoIT.Backus-Naur form.Bash.BlitzBasic.C.C for Macs.C#.C++.CAD DCL.CadLisp.CFDG.CFDG.ColdFusion.CSS.Delphi.DIV.DOS.Eiffel.Fortran.Fortran.FreeBasic.GML.Groovy.HTML.Inno.I
使用正则表达式找出不包含特定字符串的条目

做日志分析工作的经常需要跟成千上万的日志条目打交道,为了在庞大的数据量中找到特定模式的数据,常常需要编写很多复杂的正则表达式.例如枚举出日志文件中不包含某个特定字符串的条目,找出不以某个特定字符串打头的条目,等等. 使用否定式前瞻正则表达式中有前瞻(Lookahead)和后顾(Lookbehind)的概念,这两个术语非常形象的描述了正则引擎的匹配行为.需要注意一点,正则表达式中的前和后和我们一般理解的前后有点不同.一段文本,我们一般习惯把文本开头的方向称作"前面",文本末尾方向称为&
第5天:head区的其他设置

这些技巧主要讲meta标签设置的,其实与符合web标准关系不大,只要注意在最后加"/"关闭标签就可以,但是既然是入门教程,就写得详细一点吧. 收藏夹小图标如果你将本站加入收藏夹,可以看到在收藏夹网址之前的IE图标变成了本站特别的图标.要实现这样效果很简单,首先制作一个16x16的icon图标,命名为favicon.ico,放在根目录下.然后将下面的代码嵌入head区: <link rel="icon" href="/favicon.ico"
分享下网站开发人员应该知道的61件事

不出意料地,他得到了一大堆回答. 通常情况下,你需要把所有人的发言从头到尾读一遍.但是,Stack Overflow有一个很贴心的设计,它允许在问题下方开设一个wiki区,让所有人共同编辑一个最佳答案.于是,就有了下面这篇文章,一共总结出六个方面共计61条"网站开发须知". 我发现,这种概述性的问题,最适合这种集合群智.头脑风暴式的回答方式了.这也是我第一次觉得,Stack Overflow做到了Wikipedia做不到的事.(难怪它最近挤进了全美前400大网站.) 在我的印象中,关于

什么是robots.txt?

相关推荐

随机推荐