什么是重复内容?网站重复内容会影响SEO吗?

什么是重复内容?
重复内容是指在网络上多个地方出现相同或相似的内容。它可以存在于一个网站,也可以跨多个网站。
比如,我们来玩个“找区别”游戏......
这是位于 caltonnutrition.com/tag/protein-powder/... 的页面。

…这是页面,地址是 caltonnutrition.com/tag/whey/:

注意到有什么不同吗?我也没有。两个 URL 的内容是完全相同的。也就是重复内容 。
为什么重复内容对 SEO 有害?
谷歌表示 ,没有重复内容惩罚。但重复内容可能会损害你的 SEO 表现,原因有几个。
- 搜索结果中不受欢迎或不友好的 URL;
- 反向链接稀释;
- 伯恩斯爬行预算;
- 抓取或联合发布的内容排名超过你。
1. 搜索结果中不受欢迎或不友好的 URL。
想象同一页面在三个不同的 URL 上:
- domain.com/page/
- domain.com/page/?utm_content=buffer&utm_medium=social
- domain.com/category/page/
第一个应该会出现在搜索结果中,但谷歌有时会搞错。如果发生这种情况,可能会被一个不受欢迎的 URL 取代。
因为人们可能不太愿意点击不友好的网址,你可能会获得更少的自然流量。
2. 反向链稀释
如果相同的内容在多个 URL 上存在,那么每个 URL 都可能吸引反向链接。这导致“链接权益”在不同 URL 之间被分割。
想展示实际情况,可以看看 buffer.com 上的这两个页面:
https://buffer.com/library/social-media-manager-checklisthttps://buffer.com/resources/social-media-manager-checklist
这些页面几乎是完全相同的。它们分别拥有106个和144个来自独特网站的链接。
在你慌张之前,要知道这并不总是问题,因为谷歌处理重复内容的方式。
简单来说,当他们检测到重复内容时,会将这些 URL 归入一个集群 。然后他们“选择他们认为代表集群的'最佳'URL”,并“将集群中 URL 的属性,如链接受欢迎度 ,整合到具有代表性的 URL”。这一过程被称为规范化 。
所以,在上述情况下,谷歌应该 只显示自然搜索中的一个 URL,并将集群中所有引用域名(106+144)归属到该 URL。
但事实并非如此,我们看到两个 URL 在谷歌中因相似关键词排名。
在这种情况下,谷歌很可能并没有把“链接权益”集中在一个 URL。
免責聲明
我们无法确定谷歌如何识别这两个 URL,因为我们无法访问 Buffer 的谷歌搜索控制台账户。他们可能把这两个 URL 都当作重复,其中一个很快就会从自然搜索中消失。
3. 《烧毁调查》预算
谷歌通过爬取来发现你网站上的新内容,这意味着他们会追踪现有页面到新页面的链接。他们还会不时重新爬取已知的页面,看看有没有变化。
重复内容只会给他们带来更多工作量。这会影响他们抓取你新页面或更新页面的速度和频率。
这很糟糕,因为可能会导致新页面索引和更新页面重新索引延迟。
顺便说一句。 因为谷歌的“爬取速率限制 ”对响应更快的网站更高,这对带宽较小的慢速网站来说更为突出。他们的系统也会减少重复 URL 的爬取频率。
4. 抓取内容排名超过你
有时,你可能会允许其他网站转载你的内容。这就是所谓的联播。有时,网站可能会抓取你的内容并在未经许可的情况下重新发布。
这两种情况都会导致内容在多个域间重复,但通常不会造成问题。只有当抓取或转载的内容在你网站上的排名超过原始内容时,问题才会出现。
好消息是,这种情况很少见,但确实有可能发生。
谷歌有重复内容的惩罚吗?
谷歌多次表示他们没有重复内容的惩罚。
我们没有重复内容的惩罚。我们并不是因为网站内容多而降级。约翰·穆勒, 谷歌网站管理趋势分析师
让我们彻底解决这个问题吧,朋友们:没有重复内容的惩罚。苏珊·莫斯夸,前谷歌网站管理员趋势分析师
DYK 谷歌没有重复内容惩罚。Gary Illyes, 谷歌网站管理员趋势分析师
但这并不完全正确。如果你的重复内容是意外的,而非故意控搜索结果或垃圾信息行为所致,那么你不会受到惩罚。如果是,那你可能会。
谷歌在这里证实了这一点:
在极少数情况下,谷歌发现可能有意图篡改排名和欺骗用户的重复内容,我们也会对相关网站的索引和排名做出适当调整。因此,网站排名可能会下降,或者网站可能被完全从谷歌索引中移除,届时它将不再出现在搜索结果中。
问题是,什么算是“有意纵我们的排名并欺骗用户”?
谷歌上有很多相关信息 。但基本上,就是这样:
- 故意创建多个页面、子域名或包含大量重复内容的域名。
- 发布大量抓取内容
- 发布从亚马逊或其他网站抓取的联盟内容(且不增加任何额外价值)
然而,如上所述,重复内容仍然可能损害 SEO——即使没有惩罚。
重复内容的常见原因
重复内容没有单一原因。有很多。
分面/过滤导航
分面导航是用户可以筛选和排序页面上的项目。电商网站经常使用它。
这种导航方式会在 URL 末尾 附加参数 。
由于这些过滤器通常有多种组合,分面导航常常导致大量重复或接近重复的内容。
比如看看这两个页面:
bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checkedbbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked
URL 是独一无二的,但内容几乎一模一样。
而且参数的顺序往往无关紧要。例如,同一页面可通过以下两个网址访问:
bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XLbbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked
如何解决这个问题
分面导航是一项复杂的系统。如果你怀疑这是导致重复内容的原因,请仔细阅读。
跟踪参数
参数化的 URL 也用于追踪目的。例如,你可以在 Google Analytics 中使用 UTM 参数来追踪新闻通讯活动的访问量:
示例:example.com/page?utm_source=newsletter
如何解决这个问题
将参数化的 URL 规范化为符合 SEO 的版本,无需追踪参数。
会话 ID
会话 ID 存储访客的信息。它们通常会在 URL 后附加一个长字符串,如下:
示例:example.com?sessionId=jow8082345hnfn9234
如何解决这个问题
将 URL 规范 化为 SEO 友好版本。
HTTPS 与 HTTP,以及非 www 与 www 的区别
大多数网站可通过以下四种变体之一访问:
- https://www。example.com(HTTPS,www)
- https:// example.com(HTTPS,非 www)
- http://www。example.com(HTTP,www)
- http:// example.com(HTTP,非 www)
如果你用的是 HTTPS,那就是前两种之一。无论是网站版本还是非网站版本,都由你自己决定。
然而,如果你没有正确配置服务器,你的网站将会被访问到两种或更多版本。这不好,可能导致内容重复。
如何解决这个问题
使用重定向 确保你的网站只能在一个地点访问。
大小写区分 URL
谷歌认为 URL 是区分大小写的。
顺便说一句。 Bing 似乎 不是这样,它把所有 URL 都当小写。
这意味着这三个 URL 都不同:
- example.com/page
- example.com/PAGE
- example.com/pAgE
如何解决这个问题
内部链接保持一致(即不要内部链接多个版本的 URL)。如果这样还不解决问题,你随时可以正统化或重定向。
尾部斜杠与非尾部斜杠
谷歌将带斜线和不带斜线的 URL 视为唯一。这意味着这两个 URL 在谷歌眼中是独一无二的:
- example.com/page/
- example.com/page
如果你的内容在两个 URL 上都能访问,就可能导致重复内容的问题。
为了检查这是不是问题,可以尝试加载带有尾斜杠和不带斜杠的页面。理想情况下,只有一个版本能加载。另一个则会引导。
例如,如果你尝试加载无尾斜杠的帖子,它会重定向到带有尾斜杠的 URL。
谷歌表示这种行为是理想的 。
如果只能返回一个版本(即另一个版本重定向到它),那很好!这种行为有益,因为它减少了重复内容。
如何解决这个问题
将不受欢迎的版本(例如,不带斜杠)重定向到想要的版本(例如,带有尾斜杠)。你还要确保内部链接保持一致。 有时不要链接带有尾部斜杠的版本,有时则没有。选一个并坚持下 去。
打印友好网址
印刷友好版本的内容与原版相同。只是网址不同。
- example.com/page
- example.com/ 打印 /页面
如何解决这个问题
将印刷友好版本正统化为原版。
适合移动端的网址
移动友好的网址,就像印刷友好的网址一样,都是重复的。
- example.com/page
- M.example.com/page
如何解决这个问题
将移动端友好版本正规化为原版。使用 rel=“alternate” 来告诉 Google,移动友好的 URL 是桌面内容的另一个版本。
推荐阅读: 桌面和移动端 URL 注释
AMP 网址
加速移动页面(AMP)是重复的。
- example.com/page
- example.com// 页面
如何解决这个问题
将 AMP 版本正统化为非 AMP 版本。使用 rel=“amphtml” 告诉 Google,AMP URL 是非 AMP 内容的另一个版本。
如果你只有 AMP 内容,使用自引用的规范标签。
推荐阅读: 让你的页面可被发现——amp.dev
标签和分类页面
大多数 CMS 在使用标签时都会创建专门的标签页面。
例如,如果你有一篇关于有机乳清蛋白的文章,并且同时使用“蛋白粉”和“乳清”作为标签,那么你最终会出现两个类似这样的标签页面:
https://www.caltonnutrition.com/tag/whey/https://www.caltonnutrition.com/tag/protein-powder/
这本身不一定会导致内容重复,但确实有可能。
这里的情况是因为网站上只有一个页面带有这两个标签——所以每个标签页面都是相同的。
如何解决这个问题
有两个选择:
- 不要使用标签。 大多数时候,它们几乎没有价值。
- 不索引你的标签页面。 这并不能解决爬取预算的问题,因为谷歌仍然会浪费时间去爬取这些 页面。
请注意,分类页面可能会引发与标签页类似的问题。举个例子:
https://www.xs-stock.co.uk/adidas/https://www.xs-stock.co.uk/brands/Chelsea-FC.html
这两个页面几乎完全相同,因为没有任何产品被列入任何类别。所以我们只剩下模板副本了。
解决方法是在网站上使用合理数量的分类,或者不索引 分类页面。
附件图片网址
许多 CMS 会专门为图片附件创建页面。这些页面通常只显示图片和一些模板文案。
由于这些内容在所有自动生成页面中都是相同的,导致内容重复。
如何解决这个问题
在你的 CMS 中禁用专门的图片页面。在 WordPress 中,你可以用像 Yoast 这样的插件 来实现。
分页评论
WordPress 和其他 CMS 允许分页注释。这会导致内容重复,因为实际上会创建多个相同 URL 的版本。
- example.com/post/
- example.com/post/comment-page-2
- example.com/post/comment-page-3
如何解决这个问题
关闭评论分页,或者用像 Yoast 这样的 插件为分页页面做无索引。
地方化
如果你向不同地区讲同一种语言的人提供类似内容,就可能导致内容重复。
例如,你可能为美国、英国和澳大利亚的用户提供不同版本的网站。由于每个地区所提供的内容差异可能只有细微之处(例如美元价格与英镑价格),这些版本几乎是重复的。
顺便说一句。 据约翰·穆勒说, 翻译内容不是重复内容 。
如何解决这个问题
使用 hreflang 标签 向搜索引擎展示这些变体之间的关系。
搜索结果页面
很多网站都有搜索框。使用这些通常会带你进入一个参数化的搜索 URL。
示例:example.com?q=搜索词
谷歌前网络垃圾信息负责人马特·卡茨表示 :
通常,网络搜索结果不会为用户增值,由于我们的核心目标是提供最佳搜索结果,因此我们通常会将搜索结果排除在我们的网络搜索索引中。(当然,并非所有包含“/results”或“/search”等内容的 URL 都是搜索结果。)Matt Cutts,前谷歌垃圾邮件负责人
如何解决这个问题
使用机器人元标签将搜索页面从谷歌索引中移除 ,或 在 robots.txt 中阻止搜索结果页面访问。避免内部链接搜索结果页面。
舞台环境
临时环境是用于测试目的的网站的复制或近似复制版本。
例如,想象你想安装一个新插件或修改网站上的某些代码。你可能不想直接把这些信息推送到每天有数十万访客的在线网站。灾难风险太大。解决方案是先在分阶段环境中测试这些变化。
当谷歌索引临时环境时,会成为 SEO 的难题,因为这会导致重复内容。
如何解决这个问题
通过 HTTP 认证、IP 白名单或 VPN 访问来保护你的临时环境。如果已经被索引,可以用机器人的 noindex 指令来移除它。
如何检查你网站上的重复内容
去 Ahrefs 的现场审计 ,开始 爬行吧。
完成后,前往内容质量 报告。
寻找没有正典的重复和近似重复的集群。这些都用橙色高亮显示。

点击这些集群中的任意一个,查看受影响的页面。
调查重复内容的原因,然后采取相应行动。
请注意,这些问题并不总是需要解决,尤其是对于几乎相同的情况。
不是 AHREFS 用户?
请在谷歌搜索控制台中查看这些与重复内容相关的警告:
- 无用户选择的规范副本
- 重复,谷歌选择了不同的官方用户
- 重复,提交的 URL 未被选为正史
点击这里了解如何应对这些警告。
要查看谷歌如何处理特定 URL,可以使用 URL 检查工具 。
你也可以在 HTML 标签报告中检查重复标题标签、 元描述和 H1。
你要找的是坏重复的。这些页面带有重复的元标签,但规范标签不同。
通过点击 HTML 标签和内容中的“坏重叠”开关来选择这些内容。
点击任一黄色条可以看到受影响的页面。
带有重复标题、元描述或 H1 的页面通常非常相似。
例如,这两个产品有相同的标题标签,内容几乎相同,因为产品相同。唯一的区别是,其中一页是三件装的即燃火柴,另一页则只有一页。
https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-3-pack-camp-fire-fuel/https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-camp-fire-chiminea/
谷歌表示 你应该尽量减少类似 内容:
如果你有很多相似的页面,可以考虑扩展每个页面或合并为一个页面。
不过,少量相似页面不太可能成为大问题。
如何在网络上检查重复内容问题
内容抓取和联合也可能导致重复内容问题。但通常只有在你看到你的内容被抓取后排在你前面才会有问题。
会发生吗?是的,但这通常对新兴或较弱的网站来说更为突出。为什么?因为那些抓取你内容的网站往往更具权威性。这有时会“欺骗”谷歌,让他们以为自己的是原版。
如果你的网站较小,通常可以通过谷歌搜索页面中带有引号的文本片段来找到抓取内容。
对于大型网站,你需要使用像 Copyscape 这样的自动化工具。它会在网上搜索你页面内容的其他出现情况。

无论你用哪种方法,大多数结果都会来自垃圾和低质量的网站。
一般来说,这些都不用担心。不过,如果你发现有合法网站抓取了你的内容,并且担心它可能在窃取你的流量,可以把该网址输入 Ahrefs 的网站资源管理器 ,查看自然流量估算。

如果流量超过了你的页面,那可能有问题。
在这种情况下,你有三个选择:
- 联系他们,要求他们删除这些内容。
- 联系他们,要求他们在你网站上添加一个正规链接。
- 通过谷歌提交 DMCA 下架 请求。
如果你有意将内容联合到其他网站,那么值得让他们添加一个正规链接到原文。这样可以消除重复内容的风险。
在自己的网站上重新发布内容?
如果你在网站上转载他人内容,有两种方法可以防止重复内容问题:
- 回归原版。
- 页面不做索引。
总结感想
不要太担心重复内容。这通常比想象中要小得多。
如果你有几页重复或接近重复的页面,通常不会有太大问题。引用其他网站或你网站上其他页面的内容时,情况也是如此。少量重复或模板内容应该没问题。谷歌有相应的系统来应对这些问题。
你需要警惕的是技术性 SEO 错误,这些错误会导致数百甚至数千页重复内容,比如电商网站上不当实施多面导航。
这些会严重影响你的爬行预算,还有其他问题。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



