AI
目前市面上有哪些AI模型?全球主流AI模型合集
小小
2025-11-11
3周前

闭源通用大语言模型(对话/文本生成)
| 模型名称 | 所属公司 | 最新版本/时间 | 核心特点 | 关键数据/优势 |
|---|---|---|---|---|
| GPT | OpenAI(美) | GPT-5(2025.8) | 综合实力最强,recall能力突出 | 支持pro/mini/nano三版本,SWEBench得分74.9% |
| Gemini | Google DeepMind(美) | 3 Pro预览版(2025.11企测) | 100万Token上下文,统一多模态处理 | 100万token |
| Claude | Anthropic(美) | Opus 4.1(2025.8)Sonnet 4.5(2025.9) | Coding能力第一,Computer Use功能 | 支持30小时+长任务处理 |
| Grok | xAI/马斯克(美) | 4.0(2025.7) | 硬件代码生成强,早期版本开源 | 实时数据融合能力 |
| 通义千问 | 阿里巴巴(中) | Qwen-Max | 中文能力顶尖,支持超长上下文 | 中文评测持续领先 |
| 文心一言 | 百度(中) | 文心4.5 Turbo/X1 Turbo(2025.8) | 多模态成本骤降80% | 输入价格仅0.8元/百万token(DeepSeek-V3的40%) |
| Mistral Large | Mistral AI(法) | Large 2(2024.7) | 专注小模型和细分领域创新 | 123B参数,性能对标GPT-4 |
推理专用模型(逻辑/深度思考)
| 模型名称 | 所属公司 | 最新版本/时间 | 核心优势 | 技术特性 |
|---|---|---|---|---|
| o3 pro | OpenAI | 2025.6发布 | 多模态推理能力大幅提升 | 原生支持图像推理 |
| Gemini Deep Think | Google DeepMind | 2025.5 | 默认thinking模式,推理深度强 | 长链思维可视化 |
| Claude Extended Thinking | Anthropic | 2025.9 | 支持30小时以上长任务处理 | 内存与缓存优化 |
| Grok 4(Thinking) | xAI | 2025.7 | 实时数据融合能力 | 动态知识注入 |
| Kimi-K2-Thinking | 月之暗面(中) | 2025.11发布 | 32B激活参数,1T总参数,Agent能力升级 | 自主实现300轮工具调用,无人工干预 |
| Qwen3-Max-Thinking-Preview | 阿里巴巴(中) | 2025.11预览 | 预览版能力测试中,正式版待定 | 通义千问团队最新推理模型 |
| Hunyuan-A13B-Thinking | 腾讯(中) | 2025.6 | 快/慢思考模式,集成深度研究智能体 | 总参数量80B,激活13B |
文生图/多模态生成模型
| 模型名称 | 所属公司 | 核心能力 | 关键数据/评测 |
|---|---|---|---|
| Qwen-Image | 阿里巴巴(中) | 中文渲染与编辑能力 | 中文渲染准确率97.29%,GenEval对象生成得分0.91,编辑能力全球第一 |
| 即梦Dreamina | 字节跳动(中) | 摄影写真与插画生成 | 用户从76万增至近200万(2025春节后),定价¥79-649/月 |
| GPT-Image-1 | OpenAI(美) | 复杂场景理解 | 与GPT深度集成,多轮对话优化 |
| Gemini Imagen | Google(美) | 多模态综合生成 | 图像-文本联合表征强 |
| Stable Diffusion | Stability AI(英) | 开源生态完善 | 社区插件超5000+,工业级应用 |
| Flux.1 | Black Forest Labs(德) | 开源顶尖水平 | 提示词遵循度达商用级别 |
视频生成模型(文生视频/图生视频)
| 模型名称 | 所属公司 | 技术特点 | 应用场景 |
|---|---|---|---|
| Sora | OpenAI(美) | DiT架构,60秒长视频,时空注意力机制,理解物理运动规律 | 影视制作、游戏开发、广告创意 |
| Runway Gen-2 | Runway(美) | 专业级视频编辑,支持时序控制 | 电影后期、艺术创作 |
| Pika Labs | Pika(美) | 实时预览,生成与编辑一体化 | 社交媒体短视频 |
| 可灵 | 快手(中) | 支持2分钟长视频,运动一致性优化 | 短视频内容生产 |
| 清影 | 智谱AI(中) | 开源,支持高分辨率输出 | 研究与二次开发 |
| Open-Sora-Plan | 北大-兔展AIGC联实 | 低成本复现,训练成本<1万美元 | 学术验证、轻量化部署 |
视觉语言理解模型(VLMs)
| 模型名称 | 所属公司 | 关键评测表现 | 中文能力 |
|---|---|---|---|
| Qwen-VL-Max | 阿里巴巴(中) | DocVQA 93.1%,MM-Bench-CN 75.1% | 中文问答超越GPT-4V |
| GPT-4V | OpenAI(美) | MMMU、ChartQA等综合标杆 | 英文领先,中文次之 |
| Gemini Ultra | Google(美) | MMMU任务59.4%,学术评测领先 | 多语言支持 |
| 悟界·Emu 3.5 | 智源研究院(中) | 2025.11.3发布 | 支持图像、文本、视频统一建模 |
主流智能体(AI Agent)框架与平台
| 框架名称 | 所属公司/组织 | 核心定位 | 主要特点 | 适用场景 | 局限性 |
|---|---|---|---|---|---|
| LangGraph | LangChain(美) | 有状态多智能体系统 | 基于图的工作流,支持循环/分支/状态传递,可视化交互 | 多步骤工作流、协作式问题解决 | 对多模态/硬件场景支持较弱 |
| CrewAI | CrewAI Inc(美) | 基于角色的智能体协作编排 | 动态任务分配,模拟人类团队协作 | 组织化建模、高级团队AI应用 | 多模态处理支持有限 |
| AutoGen | Microsoft(美) | 高级多智能体对话系统 | 模块化设计,支持自定义角色和外部工具集成 | 对话式AI、协作决策系统 | 多模态/硬件集成支持有限 |
| MetaGPT | Geekan社区(开源) | 多智能体协作框架 | 将SOP编码为协作提示,优化任务分解效率 | 复杂任务分解、现实场景应用 | 多模态/设备特定任务支持较少 |
| smolagents | Hugging Face(美) | 极简入门框架 | 支持传统工具调用和代码生成模式,教程质量高 | 学习Agent原理、快速验证想法 | 适合简单场景,复杂应用需升级 |
低代码/无代码平台
| 平台名称 | 所属公司 | 核心定位 | 主要特点 | 适用场景 | 局限性 |
|---|---|---|---|---|---|
| Coze(扣子) | 字节跳动(中) | 低门槛智能体开发 | 可视化界面,插件生态丰富,可发布至豆包/微信 | 智能客服、语音助手、社交媒体Bot | 定制化不足,仅支持云端部署 |
| Dify | Dify.AI(中) | LLM应用开发平台 | 快速原型设计+生产部署,内置50+工具,支持RAG | 跨行业LLM应用、RAG管道构建 | 需要一定开发部署经验 |
| RelevanceAI | Relevance AI(美) | 无代码智能体构建 | 完全可视化界面,部署速度快,商业友好 | 非技术用户快速构建简单Agent | 不适合复杂系统,社区规模有限,闭源 |
| Vertex AI Agent Builder | Google(美) | 企业级无代码工具 | 整合Gemini、AI Search、BigQuery,支持多模态 | 医疗保健对话机器人、企业数据分析 | 与Google生态强绑定 |
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。
分享文章



