返回文章列表
行业动态

LMArena排行榜是怎么来的?最新LMArena全球AI大模型排行榜

消弭
2025-11-27
6天前
LMArena排行榜是怎么来的?最新LMArena全球AI大模型排行榜

LMArena排行榜是怎么来的?

简单说,LMArena就是一个让各种AI模型"打架"的地方。

它采用了一种很公平的方式:

用户进入平台后,系统会同时展示两个AI模型的回复,但用户不知道是哪个模型。用户只需要根据回答质量投票选择哪个更好。

就像音乐比赛的盲选一样,完全凭实力说话。

这种"匿名对决+用户投票"的方式,比单纯的跑分测试更能反映真实使用体验。

目前平台已经收集了超过50万次用户投票,参与投票的模型有273个,覆盖了文本、图像、视频、搜索等各种AI能力。

数据量相当可观。

真实的排行榜数据

我专门用爬虫抓取了最新的排行榜数据,让大家看看现在到底哪些AI模型最厉害。

综合能力排行榜(整体表现)

这是最重要的排行榜,看模型的综合实力:

  1. gemini-3-pro
  2. grok-4.1-thinking
  3. grok-4.1
  4. gpt-5.1-high
  5. gemini-2.5-pro
  6. Anthropic claude-sonnet-4-5-20250929-thinking-32k
  7. Anthropic claude-opus-4-1-20250805-thinking-16k
  8. Anthropic claude-sonnet-4-5-20250929
  9. gpt-4.5-preview-2025-02-27
  10. Anthropic claude-opus-4-1-20250805

Google的gemini-3-pro排在第一,超过了OpenAI和Anthropic的模型。

编程能力排行榜(WebDev)

这个排行榜专门测试AI的编程能力,对开发者特别有用:

  1. gemini-3-pro
  2. Anthropic claude-sonnet-4-5-20250929-thinking-32k
  3. gpt-5.1-medium
  4. gpt-5-medium
  5. Anthropic claude-opus-4-1-20250805
  6. Anthropic claude-sonnet-4-5-20250929
  7. glm-4.6
  8. gpt-5.1
  9. MoonshotAI kimi-k2-thinking-turbo
  10. gpt-5.1-codex

这个榜单很实用,我在实际开发测试中确实发现gemini-3-pro的代码能力很强。

图像理解排行榜(Vision)

测试AI看图识物的能力:

  1. gemini-3-pro
  2. gemini-2.5-pro
  3. chatgpt-4o-latest-20250326
  4. gpt-4.5-preview-2025-02-27
  5. gemini-2.5-flash-preview-0514
  6. gpt-5-chat
  7. o3-2025-04-16
  8. gpt-4.1-2025-04-14
  9. gemini-2.5-flash
  10. Anthropic claude-opus-4-1-20250805

Google的视觉AI确实厉害,gemini-3-pro又拿第一。

文生图排行榜(Text-to-Image)

AI画图能力排行榜:

  1. gemini-3-pro-image-prompt-improvements
  2. Tencent hunyuan-image-pro
  3. gemini-2.5-flash-image-generation
  4. ByteDance seedream-4-ultra
  5. imagen-4.0-ultra-generate
  6. imagen-4.0-generate-q4
  7. ByteDance seedream-4-turbo
  8. wan2.5-t2i-preview
  9. gpt-image-1
  10. ByteDance seedream-4-pro

国内厂商在AI绘画方面表现不错,腾讯和字节跳动都上榜了。

图像编辑排行榜(Image Edit)

AI修图改图能力:

  1. gemini-3-pro-image-prompt-improvements
  2. gemini-2.5-flash-image-generation
  3. ByteDance seedream-4-ultra
  4. ByteDance seedream-4-turbo
  5. reve-v1
  6. ByteDance seedream-4-pro
  7. qwen-image-edit
  8. reve-edit-fast
  9. Flux flux-1-kontext-m
  10. Flux flux-1-kontext-p

Google在图像编辑方面依然领先,国内厂商也在快速追赶。

搜索能力排行榜(Search)

AI搜索和问答能力:

  1. grok-4-fast-search
  2. Perplexity ppl-sonar-pro-7b
  3. gemini-2.5-pro-grounded
  4. o3-search
  5. grok-4-search
  6. gpt-5-search
  7. Anthropic claude-opus-4-1-20250805
  8. Anthropic claude-opus-4-1-20250805-thinking-16k
  9. Perplexity ppl-sonar-small-32k
  10. diffbot-small-xl

文生视频排行榜(Text-to-Video)

AI制作视频的能力:

  1. veo-3.1-audio
  2. veo-3.1-fast-audio
  3. veo-3-fast-audio
  4. sora-2-pro
  5. veo-3-audio
  6. sora-2
  7. veo-3-fast
  8. veo-3
  9. kling-2.5-turbo-1080p
  10. Luma ray-3

Google的Veo和OpenAI的Sora在AI视频生成领域竞争激烈,快手的可灵也有不错的表现。

图生视频排行榜(Image-to-Video)

用图片生成视频的能力:

  1. veo-3.1-audio
  2. veo-3.1-fast-audio
  3. wan2.5-i2v-preview
  4. veo-3-audio
  5. veo-3-fast-audio
  6. kling-2.5-turbo-1080p
  7. ByteDance seedance-v1
  8. vidu-q2-turbo
  9. veo-3
  10. veo-3-fast

排行榜的一些发现

看完这些真实数据,我有几个发现:

  1. Google comeback了
  2. 国内模型表现不错
  3. 新模型层出不穷
  4. 专业能力分化明显

如何使用这些数据

这些排行榜数据可以帮你:

  1. 选择API服务
  2. 了解技术趋势
  3. 学习技术方向

当然,排行榜只是参考,具体选择还是要看你的实际需求。

比如要做中文应用,可能国内的模型更适合;

要做代码开发,编程排行榜更有参考价值。

小结

LMArena这个平台确实提供了一个相对客观的评估体系,通过真实用户投票来排名,比单纯的跑分测试更有说服力。

从最新的排行榜来看,AI领域竞争很激烈,各家都有自己的优势领域。作为开发者,我们可以根据自己的需求选择最合适的模型。

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议