本文作者:成都诗洋seo

robots文件是什么?如何优化robots文件?robots文件的优化方法

成都诗洋seo 2个月前 ( 09-02 ) 87 抢沙发
robots文件是什么?如何优化robots文件?robots文件的优化方法摘要: 什么是robots?刚刚进入SEO行业的同学,可能很多搞不懂什么是Robots.txt文件,更别说写一个robots.txt协议了。那么今天...

什么是robots?

刚刚进入SEO行业的同学,可能很多搞不懂什么是Robots.txt文件,更别说写一个robots.txt协议了。那么今天就给大家说一下什么robots.txt,如何写robots文件,将在下一篇文章中给大家呈现说明《如何正确写Robots.txt》。
Robots,顾名思义,也就是机器人,那么机器人肯定是人制造的,那么我们就要去操控它,不能让他很随意,造成不必要的麻烦。
下面是百度给大家找的,我想大家都会百度,但是,百度的你真的就能看懂么?“ robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt 是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。  
当一个搜索机器人robots(有的叫搜索蜘蛛或者爬虫)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索引擎爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎爬虫就沿着链接抓取。”
robots.txt 文件限制抓取网络的搜索引擎爬虫对您的网站的访问。这些搜索引擎爬虫是自动的,它们在访问任意网站的网页之前,都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。(虽然某些搜索引擎爬虫可能会以不同的方式解释 robots.txt 文件中的指令,但所有正规的搜索引擎爬虫都会遵循这些指令。然而,robots.txt 不是强制执行的,一些垃圾信息发送者和其他麻烦制造者可能会忽略它。因此,我们建议对机密信息采用密码保护。)  
只有当您的网站中包含您不想让搜索引擎编入索引的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容编入索引,则不需要 robots.txt 文件(甚至连空的 robots.txt 文件也不需要)。
总之,为了能使用 robots.txt 文件,必须要有对你网站的根目录的访问权限(如果您不能确定是否有该权限,请与您的网络托管商核实)。如果您没有对网站的根目录的访问权限,可以使用robots元标记来限制访问。从而控制你的机器人,控制蜘蛛爬去内容。从而使有用的内容让蜘蛛带走。减少不必要的信息泄露。

robots文件优化步骤

robots文件有什么作用?

作为网站优化人员,大家对robots文件应该都不陌生。Robots文件其实就是网站和搜索引擎之间的一个协议,或者说是沟通桥梁。搜索引擎在爬取一个网站内容之前都会先检查这个网站的robots文件,它会按照文件中的规定要求来抓取网站内容。
通常情况下,网站通过robots文件屏蔽的页面类型包括搜索页面、缓存页面、feed页面、隐私页面和图片目录、css目录等。通过robots文件,我们就可以告诉搜索引擎我们的网站哪些页面是重要页面,哪些页面是无需爬虫抓取的,从而提高搜索引擎对网站的抓取效率。
另外,robots文件还有屏蔽蜘蛛的功能,站长可以通过robots文件告诉任何一种搜索引擎是否可以来抓取网站的内容。
随着百度大力推广熊掌号, 大部分网站都纷纷开通了自己的熊掌号,而需要大家注意的是,开通熊掌号的网站也不能忽视robots文件的重要性。
开通了熊掌号的网站,搜索引擎对其页面抓取和内容判断仍然是遵循搜索友好度的,所以robots文件的设置仍然很重要。另外,有的站长在robots文件中屏蔽了百度蜘蛛,这种情况下,即便网站通过熊掌号提交网站数据,百度蜘蛛也是没有办法抓取到网站的内容的。所以想要通过熊掌号快速收录网站内容的站长,一定要好好检查网站的robots文件,避免出现无意封禁百度蜘蛛的情况,防止自己的网站不能在百度搜索结果中正常展现。
通过以上内容可知,robots文件对SEO有非常重要的作用,站长们要合理运用robots文件,为自己的网站优化工作增加助力。
robots.txt是一种存放网站根目录下的文本文件,它通常告诉搜索引擎的抓取程序,这个网站中的哪些内容是不应该被搜索引擎的抓取程序获取的,哪些是可以被抓取程序获取的。
它的作用大概有几下几点:
1.引导搜索引擎蜘蛛抓取指定栏目或内容
2.网站改版或者URL重写优化时屏蔽不友好链接
3.屏蔽死链接,404错误页面
4.屏蔽重复页面,如评论页面,搜索结果页
5.屏蔽无内容,无价值页面
6.屏蔽任何不想被收录的页面
7.引导蜘蛛抓取网站地图

如何写robots文件

搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年Google,雅虎,微软就合作,共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布,共同遵守的robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。
三家都支持的robots文件记录包括:
Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:
    User-agent: *
    Disallow: /
Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
    User-agent: *
    Disallow: /ab/
    Allow: /ab/cd
$通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:
    User-agent: *
    Allow: .htm$
*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:
    User-agent: *
    Disallow: /*.htm
Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:
    Sitemap: <sitemap_location>
三家都支持的Meta标签包括:
NOINDEX – 告诉蜘蛛不要索引某个网页。
NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。
NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示说明文字。
NOARCHIVE – 告诉蜘蛛不要显示快照。
NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。
上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。
只有Google支持的Meta标签有:
UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。
NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。
NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。
雅虎还支持Meta标签:
Crawl-Delay – 允许蜘蛛延时抓取的频率。
NOYDIR – 和NOODP标签相似,但是指雅虎目录,而不是开放目录。
Robots-nocontent – 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。
MSN还支持Meta标签:
Crawl-Delay
另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。
掌握robots文件用法和写法是SEO的基本功。遇到页面不被收录或收录骤降,robots文件也是第一个要检查的。

robots文件优化步骤1

robots文件注意事项

1.如果你希望搜索引擎收录网站上所有的内容,那么就不要建立robots.txt文件。
2.如果同时存在动态和静态链接,那么建议屏蔽动态链接。
3.robots.txt只能是屏蔽站内文件的,对站外文件没有屏蔽功能。
4.User-agent,Allow,Disallow,Sitemap的首字母都是大写的。
5.User-agent,Allow,Disallow,Sitemap的冒号后面都是有空格的,没有写空格直接写接下来的内容会出错。
6.网站通常会屏蔽搜索结果页面。因为搜索结果页和正常展示的内容页相比,标题和内容上相同的,而这两个页面链接是不同的。那搜索引擎该将这篇文章归属于哪个内链呢?这样就会造成内链之间相互竞争,造成内部资源损耗。
7.建议屏蔽js文件。Disallow: /*.js$,以 .js 结尾的路径统统被屏蔽,这样就屏蔽了js文件。
8.路径是区分大小写的。Disallow: /ab/ 和 Disallow: /Ab/ 是不一样的。
9.robots.txt会暴露网站相关目录,写robots.txt时要考虑到这一点。
10.有些seo会将文件直接备份在服务器中,文件是 .zip 格式,然后在robots.txt中屏蔽。个人不建议这样,这就是明显告诉人家你的备份文件位置。建议文件和数据都备份到本地。

robots文件怎么优化?

robots文件的使用很多站长都熟悉,但在细节上未必在意,也未必精通。它包含的许多知识点搜索引擎并没有给出详尽的说明或者使用方法。在经过大量总结和参看资料的基础上,本文和大家总结操作robots文件时应该注意的细节。
第一、user-agent的数量
一般网站的robots.txt文件中不要出现多个user-agent记录,一般都是一个为宜,但是如果一个都不出现,也是被允许的。
第二、spider蜘蛛大小写
搜索引擎蜘蛛在查看robots的时候会忽略大小写,但是为了保险,也有网站分别写了两个不同的百度蜘蛛,比如淘宝。
第三、allow与disallow顺序
顺序的问题会导致抓取的错误,如果把allow放置后边,有时候就会出现想要收录的内容不被收录,举例说明:
想要搜索引擎唯一收录a文件夹下的b.html,那么则要这么写:
Allow:/a/b.html
Disallow:/a/
如果顺序写反,第一个匹配成功之后,b.html就不会被收录。
第四、记得反斜杠
反斜杠代表的意思是根目录,所以Disallow:/代笔的意思就是禁止收录一切页面和文件夹的内容。这个反斜杠很重要,少了反斜杠就代表允许搜索引擎收录全部页面。
第五、#表示注释
在robots.txt中,#开头均被视为注释,这和unix中的惯例是一样的。不要一不小心把通配符写错了。
第六、不要出现空格
有些robots文件中前边会不注意加一个空格,这样的问题应该尽量避免,否则一些机器人就不理解意思。

robots文件优化步骤2

成都seo诗洋对于robots文件优化的总结:

为何需要用robots.txt这个文件来告诉搜索机器人不要爬行我们的部分网页,比如:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。说到底了,这些页面或文件被搜索引擎收录了,用户也看不了,多数需要口令才能进入或是数据文件。既然这样,又让搜索机器人爬行的话,就浪费了服务器资源,增加了服务器的压力,因此我们可以用robots.txt告诉机器人集中注意力去收录我们的文章页面,增强用户体验

文章版权及转载声明:

作者:成都诗洋seo本文地址:https://www.seoeso.com/post/37.html发布于 2个月前 ( 09-02 )
文章转载或复制请以超链接形式并注明出处诗洋seo

分享到:
赞(0

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

发表评论

快捷回复:

验证码

评论列表 (暂无评论,87人围观)参与讨论

还没有评论,来说两句吧...