Google在网站管理员中心(Google Webmaster Tools)发布了一个新的工具-Robots.txt生成工具(Robots.txt Generator)。Google发布此工具的目录是让网站管理员可以方便地生成规范的Robots.txt文件。
Robots.txt生成工具并不是一个新的工具,通过搜索引擎找到很多类似的工具,但是这是第一个由搜索引擎提供的官方工具。
Google Robots.txt生成工具可以控制的爬虫有:
- Googlebot
- Googlebot-Mobile
- Googlebot-Image
- Mediapartners-Google
- Adsbot-Google
对于其他搜索引擎的爬虫则需要用户手工输入爬虫的名字。
使用此工具需要先登录Google Webmaster Tools,通过访问在“控制台 > 工具”菜单里的“生成robots.txt”即可以使用此功能,此工具的截图如下:
具体的使用操作如下:
生成 robots.txt 文件
- 使用 Google 帐户登录 Google 网站管理员工具
- 在左侧列中,点击 工具,并点击生成 robots.txt
- 选择您的默认漫游器访问权限 我们建议您允许所有漫游器,并通过以下步骤排除您不希望访问您网站的特定漫游器。 这将有助于防止您的网站发生意外拦截关键抓取工具的问题
- 指定任何附加规则。 例如,将 Googlebot 拦截于您的网站的全部文件及目录之外:
- 在操作列表中,选择 Disallow
- 在漫游器列表中,点击 Googlebot
- 在文件或目录对话框中,输入 /。 要指定一项以上条目,请在每一行后点击 ENTER,并在新的一行中输入新的条目
- 单击添加。 robots.txt 文件代码将自动生成。
- 保存 robots.txt 文件,方法是下载文件或将内容复制到文本文件并保存为 robots.txt。 将文件保存到您网站的顶级目录下
关于 robots.txt 生成器
robots.txt 文件使您能够指定您希望阻止其在您网站上抓取文件的漫游器(也被称为"bots"或"抓取工具")。许多网站管理员不喜欢手动创建 robots.txt 文件。 网站管理员工具 robots.txt 生成器使您能够轻松创建 robots.txt 文件,您可以在 robots.txt 文件中指定您不希望抓取您网站的任何漫游器,并允许或拦截对您服务器上特定文件及目录的访问。 例如,您可以:
- 阻止网络抓取工具访问您网站上的文件或目录
- 阻止网络抓取工具访问您的整个网站
- 阻止特定的抓取工具访问您的网站
值得注意的是,robots.txt 文件中规定的规则为要求而非强制性命令。 Googlebot 及所有的著名漫游器将遵守 robots.txt 文件中的指示。 但是,一些无赖漫游器 – 例如违禁漫游器、抄袭漫游器及其他不良漫游器 – 可能不遵守此文件。因此,我们建议您在服务器的受保护密码目录下保存机密信息。 同时,不同的漫游器对 robots.txt 文件的解译可能不同,并且并非所有漫游器都支持文件中的每个指令。 尽管我们已尽最大努力创建适用于所有漫游器的 robots.txt 文件,但我们不能保证这些文件的解译效果。
当您使用 robots.txt 生成器创建文件后,可以下载文件并将其保存于您服务器的顶级目录下。
要检查 robots.txt 文件是否正常,请使用网站管理员工具中的 robots.txt 分析工具。















三月 31st, 2008 at 3:17 上午
此功能蛮好用的。