Canonical标签是什么及其在SEO中的作用

“我看到很多排名不错的网站,每个页面中都使用了rel=canonical这个标签,为什么这么做?我的网站里是否也应该使用这个标签?”

自从开通了公众号,很多朋友在公众号中说出了自己关于SEO方面的疑问。大多数都是关于如何帮助搜索引擎更加有效地抓取我们的网站以及网站中的内容信息这类的问题,这其实也就是一些规范型的问题。在具体解答问题之前,我先带大家了解一些SEO方面很重要的基础知识,主要是关于搜索引擎如何抓取我们的网站。

搜索引擎包括谷歌,都是使用爬虫或者蜘蛛来抓取网站信息,这里的爬虫或者蜘蛛,当然不是指的现实意义上的生物,它是对搜索引擎抓取工具的生动的形容词。搜索引擎的爬虫,会进入你的网站,然后通过网站中的各个链接,逐层深入进行抓取。

这种抓取工作不是无限制的,抓取网站的爬虫也是一种资源,互联网中的网站数量难以计数,所以搜索引擎不会在每个网站上都花费很多的时间,难以识明的内容、过深的链接结构、过慢的网站加载速度等等,都会造成抓取的不完全。所以,保证网站的规范性和统一性会在很大程度上方便搜索引擎的抓取工作,也就最大程度上降低了网站不被抓取的几率。

最基本的统一就是整个网站URL的统一性,无论是在网站内链中,canonical标签中,或者是网站地图中。这些提到的因素会帮助搜索引擎更好地抓取你的网站,同时让搜索引擎了解哪个页面在你的网站中是比较重要的;杂乱的URL只会影响到搜索引擎的抓取,以及造成网站权重的分散浪费。

这种统一性的具体表现,主要有以下几个方面:是否采用www的形式,是否采用https,结尾是否使用尾部斜杠。某个URL确定好了形式,那么就全站统一。

搜索引擎的爬虫抓取网站是自动的,但我们也可以通过robots.txt规则,noindex和Sitemap站点地图里指定优先级来影响它的抓取进程,让它优先抓取我们网站中的重要页面,屏蔽掉不需要抓取的无用页面。

统一好URL后,再对网站结构进行规范。无论当下用户在网站中的什么位置,尽量让其在3次点击的过程中进入网站中的任何其他页面。确保整个网站结构的清晰和实用性,这对于搜索引擎和用户都有好处。

清晰的网站结构

现在回归正题,解答读者这个问题。rel = canonical标签是一个让搜索引擎参考的信号,并不是指令。它主要的作用就是规范URL以及页面版本,尤其是针对比较雷同的页面,告诉搜索引擎哪个页面或者说URL是最根本的那个。

给每个页面添加规范标签肯定是好的,但这个标签如果没有添加正确,反而容易让搜索引擎怀疑你的规范性。比如,你的这个页面URL是https的,并且使用了www和尾部斜杠:https://www.example.com/th/,而你在规范标签里使用的确是:http://example.com/th,这种规范本身就是错误的。这种粗心的问题,经常能在一些大的网站上发现。顺带说一句,在谷歌站长工具里添加网址的时候,也应该添加最规范的那个,如果使用了https和www,那就不能忽视掉,否则你得不到正确的统计数据。

canonical标签的作用

在做SEO业务过程中,经常也会碰到客户网站不规范的问题,尤其是首页的URL。通常是https://www.example.com,https://www.example.com/,https://www.example.com/index.html这几个混用。其中,https://www.example.com/这种形式是最佳的,也是我方一直使用的统一形式,尽量避免使用包含index的首页URL形式。

对于首页不同URL版本之间的统一,rel=canonical这个标签不是最好的选择,最好是采用301重定向。另外,在网站地图sitemap.xml里也要避免出现多个首页URL版本,同时注意不要包含不存在的链接。不存在的链接出现在网站地图中,会造成抓取错误。

为了让搜索引擎能够更快地识别网站地图,你可以在robots.txt文件中添加:sitemap: https://www.example.com/sitemap.xml,其中sitemap:后面的地址是网站地图在你网站中的确切位置。这个不是必须的操作,你也可以在谷歌站长工具中直接提交sitemap,也能够让谷歌尽快识别。

有什么想说的?欢迎评论留言

The last comment and 15 other comment(s) need to be approved.
2 回复

发表评论

Want to join the discussion?
Feel free to contribute!

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注