返回文章列表
SEO

什么是重复内容?网站重复内容会影响SEO吗?

小站
2025-12-04
10分钟前
什么是重复内容?网站重复内容会影响SEO吗?

什么是重复内容?

重复内容是指在网络上多个地方出现相同或相似的内容。它可以存在于一个网站,也可以跨多个网站。

比如,我们来玩个“找区别”游戏......

这是位于 caltonnutrition.com/tag/protein-powder/... 的页面。

…这是页面,地址是 caltonnutrition.com/tag/whey/:

注意到有什么不同吗?我也没有。两个 URL 的内容是完全相同的。也就是重复内容 。

为什么重复内容对 SEO 有害?

谷歌表示 ,没有重复内容惩罚。但重复内容可能会损害你的 SEO 表现,原因有几个。

  1. 搜索结果中不受欢迎或不友好的 URL;
  2. 反向链接稀释;
  3. 伯恩斯爬行预算;
  4. 抓取或联合发布的内容排名超过你。

1. 搜索结果中不受欢迎或不友好的 URL。

想象同一页面在三个不同的 URL 上:

  1. domain.com/page/
  2. domain.com/page/?utm_content=buffer&utm_medium=social
  3. domain.com/category/page/

第一个应该会出现在搜索结果中,但谷歌有时会搞错。如果发生这种情况,可能会被一个不受欢迎的 URL 取代。

因为人们可能不太愿意点击不友好的网址,你可能会获得更少的自然流量。

2. 反向链稀释

如果相同的内容在多个 URL 上存在,那么每个 URL 都可能吸引反向链接。这导致“链接权益”在不同 URL 之间被分割。

想展示实际情况,可以看看 buffer.com 上的这两个页面:

https://buffer.com/library/social-media-manager-checklisthttps://buffer.com/resources/social-media-manager-checklist

这些页面几乎是完全相同的。它们分别拥有106个和144个来自独特网站的链接。

在你慌张之前,要知道这并不总是问题,因为谷歌处理重复内容的方式。

简单来说,当他们检测到重复内容时,会将这些 URL 归入一个集群 。然后他们“选择他们认为代表集群的'最佳'URL”,并“将集群中 URL 的属性,如链接受欢迎度 ,整合到具有代表性的 URL”。这一过程被称为规范化 。

所以,在上述情况下,谷歌应该  只显示自然搜索中的一个 URL,并将集群中所有引用域名(106+144)归属到该 URL。

但事实并非如此,我们看到两个 URL 在谷歌中因相似关键词排名。

在这种情况下,谷歌很可能并没有把“链接权益”集中在一个 URL。

免責聲明

我们无法确定谷歌如何识别这两个 URL,因为我们无法访问 Buffer 的谷歌搜索控制台账户。他们可能把这两个 URL 都当作重复,其中一个很快就会从自然搜索中消失。

3. 《烧毁调查》预算

谷歌通过爬取来发现你网站上的新内容,这意味着他们会追踪现有页面到新页面的链接。他们还会不时重新爬取已知的页面,看看有没有变化。

重复内容只会给他们带来更多工作量。这会影响他们抓取你新页面或更新页面的速度和频率。

这很糟糕,因为可能会导致新页面索引和更新页面重新索引延迟。

顺便说一句。 因为谷歌的“爬取速率限制 ”对响应更快的网站更高,这对带宽较小的慢速网站来说更为突出。他们的系统也会减少重复 URL 的爬取频率。

4. 抓取内容排名超过你

有时,你可能会允许其他网站转载你的内容。这就是所谓的联播。有时,网站可能会抓取你的内容并在未经许可的情况下重新发布。

这两种情况都会导致内容在多个域间重复,但通常不会造成问题。只有当抓取或转载的内容在你网站上的排名超过原始内容时,问题才会出现。

好消息是,这种情况很少见,但确实有可能发生。

谷歌有重复内容的惩罚吗?

谷歌多次表示他们没有重复内容的惩罚。

我们没有重复内容的惩罚。我们并不是因为网站内容多而降级。约翰·穆勒, 谷歌网站管理趋势分析师
让我们彻底解决这个问题吧,朋友们:没有重复内容的惩罚。苏珊·莫斯夸,前谷歌网站管理员趋势分析师
DYK 谷歌没有重复内容惩罚。Gary Illyes, 谷歌网站管理员趋势分析师

但这并不完全正确。如果你的重复内容是意外的,而非故意控搜索结果或垃圾信息行为所致,那么你不会受到惩罚。如果是,那你可能会。

谷歌在这里证实了这一点:

在极少数情况下,谷歌发现可能有意图篡改排名和欺骗用户的重复内容,我们也会对相关网站的索引和排名做出适当调整。因此,网站排名可能会下降,或者网站可能被完全从谷歌索引中移除,届时它将不再出现在搜索结果中。

问题是,什么算是“有意纵我们的排名并欺骗用户”?

谷歌上有很多相关信息 。但基本上,就是这样:

  • 故意创建多个页面、子域名或包含大量重复内容的域名。
  • 发布大量抓取内容
  • 发布从亚马逊或其他网站抓取的联盟内容(且不增加任何额外价值)

然而,如上所述,重复内容仍然可能损害 SEO——即使没有惩罚。

重复内容的常见原因

重复内容没有单一原因。有很多。

分面/过滤导航

分面导航是用户可以筛选和排序页面上的项目。电商网站经常使用它。

这种导航方式会在 URL 末尾 附加参数 。


由于这些过滤器通常有多种组合,分面导航常常导致大量重复或接近重复的内容。

比如看看这两个页面:

bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checkedbbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked

URL 是独一无二的,但内容几乎一模一样。

而且参数的顺序往往无关紧要。例如,同一页面可通过以下两个网址访问:

bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XLbbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked

如何解决这个问题

分面导航是一项复杂的系统。如果你怀疑这是导致重复内容的原因,请仔细阅读。

跟踪参数

参数化的 URL 也用于追踪目的。例如,你可以在 Google Analytics 中使用 UTM 参数来追踪新闻通讯活动的访问量:

示例:example.com/page?utm_source=newsletter

如何解决这个问题

将参数化的 URL 规范化为符合 SEO 的版本,无需追踪参数。

会话 ID

会话 ID 存储访客的信息。它们通常会在 URL 后附加一个长字符串,如下:

示例:example.com?sessionId=jow8082345hnfn9234

如何解决这个问题

将 URL 规范  化为 SEO 友好版本。

HTTPS 与 HTTP,以及非 www 与 www 的区别

大多数网站可通过以下四种变体之一访问:

  • https://www。example.com(HTTPS,www)
  • https:// example.com(HTTPS,非 www)
  • http://www。example.com(HTTP,www)
  • http:// example.com(HTTP,非 www)

如果你用的是 HTTPS,那就是前两种之一。无论是网站版本还是非网站版本,都由你自己决定。

然而,如果你没有正确配置服务器,你的网站将会被访问到两种或更多版本。这不好,可能导致内容重复。

如何解决这个问题

使用重定向  确保你的网站只能在一个地点访问。

大小写区分 URL

谷歌认为 URL 是区分大小写的。

顺便说一句。 Bing 似乎  不是这样,它把所有 URL 都当小写。

这意味着这三个 URL 都不同:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE

如何解决这个问题

内部链接保持一致(即不要内部链接多个版本的 URL)。如果这样还不解决问题,你随时可以正统化或重定向。

尾部斜杠与非尾部斜杠

谷歌将带斜线和不带斜线的 URL 视为唯一。这意味着这两个 URL 在谷歌眼中是独一无二的:

  • example.com/page/
  • example.com/page

如果你的内容在两个 URL 上都能访问,就可能导致重复内容的问题。

为了检查这是不是问题,可以尝试加载带有尾斜杠和不带斜杠的页面。理想情况下,只有一个版本能加载。另一个则会引导。

例如,如果你尝试加载无尾斜杠的帖子,它会重定向到带有尾斜杠的 URL。

谷歌表示这种行为是理想的 。

如果只能返回一个版本(即另一个版本重定向到它),那很好!这种行为有益,因为它减少了重复内容。

如何解决这个问题

将不受欢迎的版本(例如,不带斜杠)重定向到想要的版本(例如,带有尾斜杠)。你还要确保内部链接保持一致。 有时不要链接带有尾部斜杠的版本,有时则没有。选一个并坚持下 去。

打印友好网址

印刷友好版本的内容与原版相同。只是网址不同。

  • example.com/page
  • example.com/ 打印 /页面

如何解决这个问题

将印刷友好版本正统化为原版。

适合移动端的网址

移动友好的网址,就像印刷友好的网址一样,都是重复的。

  • example.com/page
  • M.example.com/page

如何解决这个问题

将移动端友好版本正规化为原版。使用 rel=“alternate” 来告诉 Google,移动友好的 URL 是桌面内容的另一个版本。

推荐阅读:  桌面和移动端 URL 注释

AMP 网址

加速移动页面(AMP)是重复的。

  • example.com/page
  • example.com// 页面

如何解决这个问题

将 AMP 版本正统化为非 AMP 版本。使用 rel=“amphtml” 告诉 Google,AMP URL 是非 AMP 内容的另一个版本。

如果你只有 AMP 内容,使用自引用的规范标签。

推荐阅读:  让你的页面可被发现——amp.dev

标签和分类页面

大多数 CMS 在使用标签时都会创建专门的标签页面。

例如,如果你有一篇关于有机乳清蛋白的文章,并且同时使用“蛋白粉”和“乳清”作为标签,那么你最终会出现两个类似这样的标签页面:

https://www.caltonnutrition.com/tag/whey/https://www.caltonnutrition.com/tag/protein-powder/

这本身不一定会导致内容重复,但确实有可能。

这里的情况是因为网站上只有一个页面带有这两个标签——所以每个标签页面都是相同的。

如何解决这个问题

有两个选择:

  1. 不要使用标签。 大多数时候,它们几乎没有价值。
  2. 不索引你的标签页面。 这并不能解决爬取预算的问题,因为谷歌仍然会浪费时间去爬取这些 页面。

请注意,分类页面可能会引发与标签页类似的问题。举个例子:

https://www.xs-stock.co.uk/adidas/https://www.xs-stock.co.uk/brands/Chelsea-FC.html

这两个页面几乎完全相同,因为没有任何产品被列入任何类别。所以我们只剩下模板副本了。

解决方法是在网站上使用合理数量的分类,或者不索引  分类页面。

附件图片网址

许多 CMS 会专门为图片附件创建页面。这些页面通常只显示图片和一些模板文案。

由于这些内容在所有自动生成页面中都是相同的,导致内容重复。

如何解决这个问题

在你的 CMS 中禁用专门的图片页面。在 WordPress 中,你可以用像 Yoast 这样的插件  来实现。

分页评论

WordPress 和其他 CMS 允许分页注释。这会导致内容重复,因为实际上会创建多个相同 URL 的版本。

  • example.com/post/
  • example.com/post/comment-page-2
  • example.com/post/comment-page-3

如何解决这个问题

关闭评论分页,或者用像 Yoast 这样的 插件为分页页面做无索引。

地方化

如果你向不同地区讲同一种语言的人提供类似内容,就可能导致内容重复。

例如,你可能为美国、英国和澳大利亚的用户提供不同版本的网站。由于每个地区所提供的内容差异可能只有细微之处(例如美元价格与英镑价格),这些版本几乎是重复的。

顺便说一句。 据约翰·穆勒说, 翻译内容不是重复内容 。

如何解决这个问题

使用 hreflang 标签  向搜索引擎展示这些变体之间的关系。

搜索结果页面

很多网站都有搜索框。使用这些通常会带你进入一个参数化的搜索 URL。

示例:example.com?q=搜索词

谷歌前网络垃圾信息负责人马特·卡茨表示  :

通常,网络搜索结果不会为用户增值,由于我们的核心目标是提供最佳搜索结果,因此我们通常会将搜索结果排除在我们的网络搜索索引中。(当然,并非所有包含“/results”或“/search”等内容的 URL 都是搜索结果。)Matt Cutts,前谷歌垃圾邮件负责人

如何解决这个问题

使用机器人元标签将搜索页面从谷歌索引中移除 ,或 在 robots.txt 中阻止搜索结果页面访问。避免内部链接搜索结果页面。

舞台环境

临时环境是用于测试目的的网站的复制或近似复制版本。

例如,想象你想安装一个新插件或修改网站上的某些代码。你可能不想直接把这些信息推送到每天有数十万访客的在线网站。灾难风险太大。解决方案是先在分阶段环境中测试这些变化。

当谷歌索引临时环境时,会成为 SEO 的难题,因为这会导致重复内容。

如何解决这个问题

通过 HTTP 认证、IP 白名单或 VPN 访问来保护你的临时环境。如果已经被索引,可以用机器人的 noindex 指令来移除它。

如何检查你网站上的重复内容

去 Ahrefs 的现场审计  ,开始 爬行吧。

完成后,前往内容质量  报告。

寻找没有正典的重复和近似重复的集群。这些都用橙色高亮显示。

点击这些集群中的任意一个,查看受影响的页面。

调查重复内容的原因,然后采取相应行动。

请注意,这些问题并不总是需要解决,尤其是对于几乎相同的情况。

不是 AHREFS 用户?

请在谷歌搜索控制台中查看这些与重复内容相关的警告:

  • 无用户选择的规范副本
  • 重复,谷歌选择了不同的官方用户
  • 重复,提交的 URL 未被选为正史

点击这里了解如何应对这些警告。

要查看谷歌如何处理特定 URL,可以使用 URL 检查工具 。

你也可以在 HTML 标签报告中检查重复标题标签、 元描述和 H1。

你要找的是坏重复的。这些页面带有重复的元标签,但规范标签不同。

通过点击 HTML 标签和内容中的“坏重叠”开关来选择这些内容。

点击任一黄色条可以看到受影响的页面。

带有重复标题、元描述或 H1 的页面通常非常相似。

例如,这两个产品有相同的标题标签,内容几乎相同,因为产品相同。唯一的区别是,其中一页是三件装的即燃火柴,另一页则只有一页。

https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-3-pack-camp-fire-fuel/https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-camp-fire-chiminea/

谷歌表示  你应该尽量减少类似 内容:

如果你有很多相似的页面,可以考虑扩展每个页面或合并为一个页面。

不过,少量相似页面不太可能成为大问题。

如何在网络上检查重复内容问题

内容抓取和联合也可能导致重复内容问题。但通常只有在你看到你的内容被抓取后排在你前面才会有问题。

会发生吗?是的,但这通常对新兴或较弱的网站来说更为突出。为什么?因为那些抓取你内容的网站往往更具权威性。这有时会“欺骗”谷歌,让他们以为自己的是原版。

如果你的网站较小,通常可以通过谷歌搜索页面中带有引号的文本片段来找到抓取内容。

对于大型网站,你需要使用像 Copyscape 这样的自动化工具。它会在网上搜索你页面内容的其他出现情况。

无论你用哪种方法,大多数结果都会来自垃圾和低质量的网站。

一般来说,这些都不用担心。不过,如果你发现有合法网站抓取了你的内容,并且担心它可能在窃取你的流量,可以把该网址输入 Ahrefs 的网站资源管理器  ,查看自然流量估算。

如果流量超过了你的页面,那可能有问题。

在这种情况下,你有三个选择:

  1. 联系他们,要求他们删除这些内容。
  2. 联系他们,要求他们在你网站上添加一个正规链接。
  3. 通过谷歌提交 DMCA 下架  请求。

如果你有意将内容联合到其他网站,那么值得让他们添加一个正规链接到原文。这样可以消除重复内容的风险。

在自己的网站上重新发布内容?

如果你在网站上转载他人内容,有两种方法可以防止重复内容问题:

  1. 回归原版。
  2. 页面不做索引。

总结感想

不要太担心重复内容。这通常比想象中要小得多。

如果你有几页重复或接近重复的页面,通常不会有太大问题。引用其他网站或你网站上其他页面的内容时,情况也是如此。少量重复或模板内容应该没问题。谷歌有相应的系统来应对这些问题。

你需要警惕的是技术性 SEO 错误,这些错误会导致数百甚至数千页重复内容,比如电商网站上不当实施多面导航。

这些会严重影响你的爬行预算,还有其他问题。

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议