LMArena排行榜是怎么来的?最新LMArena全球AI大模型排行榜

LMArena排行榜是怎么来的?
简单说,LMArena就是一个让各种AI模型"打架"的地方。
它采用了一种很公平的方式:
用户进入平台后,系统会同时展示两个AI模型的回复,但用户不知道是哪个模型。用户只需要根据回答质量投票选择哪个更好。
就像音乐比赛的盲选一样,完全凭实力说话。
这种"匿名对决+用户投票"的方式,比单纯的跑分测试更能反映真实使用体验。
目前平台已经收集了超过50万次用户投票,参与投票的模型有273个,覆盖了文本、图像、视频、搜索等各种AI能力。
数据量相当可观。
真实的排行榜数据
我专门用爬虫抓取了最新的排行榜数据,让大家看看现在到底哪些AI模型最厉害。
综合能力排行榜(整体表现)
这是最重要的排行榜,看模型的综合实力:
- gemini-3-pro
- grok-4.1-thinking
- grok-4.1
- gpt-5.1-high
- gemini-2.5-pro
- Anthropic claude-sonnet-4-5-20250929-thinking-32k
- Anthropic claude-opus-4-1-20250805-thinking-16k
- Anthropic claude-sonnet-4-5-20250929
- gpt-4.5-preview-2025-02-27
- Anthropic claude-opus-4-1-20250805
Google的gemini-3-pro排在第一,超过了OpenAI和Anthropic的模型。
编程能力排行榜(WebDev)
这个排行榜专门测试AI的编程能力,对开发者特别有用:
- gemini-3-pro
- Anthropic claude-sonnet-4-5-20250929-thinking-32k
- gpt-5.1-medium
- gpt-5-medium
- Anthropic claude-opus-4-1-20250805
- Anthropic claude-sonnet-4-5-20250929
- glm-4.6
- gpt-5.1
- MoonshotAI kimi-k2-thinking-turbo
- gpt-5.1-codex
这个榜单很实用,我在实际开发测试中确实发现gemini-3-pro的代码能力很强。
图像理解排行榜(Vision)
测试AI看图识物的能力:
- gemini-3-pro
- gemini-2.5-pro
- chatgpt-4o-latest-20250326
- gpt-4.5-preview-2025-02-27
- gemini-2.5-flash-preview-0514
- gpt-5-chat
- o3-2025-04-16
- gpt-4.1-2025-04-14
- gemini-2.5-flash
- Anthropic claude-opus-4-1-20250805
Google的视觉AI确实厉害,gemini-3-pro又拿第一。
文生图排行榜(Text-to-Image)
AI画图能力排行榜:
- gemini-3-pro-image-prompt-improvements
- Tencent hunyuan-image-pro
- gemini-2.5-flash-image-generation
- ByteDance seedream-4-ultra
- imagen-4.0-ultra-generate
- imagen-4.0-generate-q4
- ByteDance seedream-4-turbo
- wan2.5-t2i-preview
- gpt-image-1
- ByteDance seedream-4-pro
国内厂商在AI绘画方面表现不错,腾讯和字节跳动都上榜了。
图像编辑排行榜(Image Edit)
AI修图改图能力:
- gemini-3-pro-image-prompt-improvements
- gemini-2.5-flash-image-generation
- ByteDance seedream-4-ultra
- ByteDance seedream-4-turbo
- reve-v1
- ByteDance seedream-4-pro
- qwen-image-edit
- reve-edit-fast
- Flux flux-1-kontext-m
- Flux flux-1-kontext-p
Google在图像编辑方面依然领先,国内厂商也在快速追赶。
搜索能力排行榜(Search)
AI搜索和问答能力:
- grok-4-fast-search
- Perplexity ppl-sonar-pro-7b
- gemini-2.5-pro-grounded
- o3-search
- grok-4-search
- gpt-5-search
- Anthropic claude-opus-4-1-20250805
- Anthropic claude-opus-4-1-20250805-thinking-16k
- Perplexity ppl-sonar-small-32k
- diffbot-small-xl
文生视频排行榜(Text-to-Video)
AI制作视频的能力:
- veo-3.1-audio
- veo-3.1-fast-audio
- veo-3-fast-audio
- sora-2-pro
- veo-3-audio
- sora-2
- veo-3-fast
- veo-3
- kling-2.5-turbo-1080p
- Luma ray-3
Google的Veo和OpenAI的Sora在AI视频生成领域竞争激烈,快手的可灵也有不错的表现。
图生视频排行榜(Image-to-Video)
用图片生成视频的能力:
- veo-3.1-audio
- veo-3.1-fast-audio
- wan2.5-i2v-preview
- veo-3-audio
- veo-3-fast-audio
- kling-2.5-turbo-1080p
- ByteDance seedance-v1
- vidu-q2-turbo
- veo-3
- veo-3-fast
排行榜的一些发现
看完这些真实数据,我有几个发现:
- Google comeback了
- 国内模型表现不错
- 新模型层出不穷
- 专业能力分化明显
如何使用这些数据
这些排行榜数据可以帮你:
- 选择API服务
- 了解技术趋势
- 学习技术方向
当然,排行榜只是参考,具体选择还是要看你的实际需求。
比如要做中文应用,可能国内的模型更适合;
要做代码开发,编程排行榜更有参考价值。
小结
LMArena这个平台确实提供了一个相对客观的评估体系,通过真实用户投票来排名,比单纯的跑分测试更有说服力。
从最新的排行榜来看,AI领域竞争很激烈,各家都有自己的优势领域。作为开发者,我们可以根据自己的需求选择最合适的模型。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



