2025大模型真实应用报告

过去一年标志着人工智能领域一次根本性的范式革命,其转折点是2024年12月5日OpenAI o1推理模型的发布。这场变革的核心,是AI从以往单次传递的自回归模式生成,转向了具备规划与反思能力的多步审议式推理。为了揭示这场技术浪潮下大语言模型的真实应用图景,本文基于AI路由平台OpenRouter超过100万亿Token的真实世界交互数据进行深度分析,旨在探明大模型在实际应用中的具体样貌,并由此洞察市场结构的演进方向。原始报告及本文的PDF版已收录到走向未来知识星球,推荐加入星球获取。
研究指出,行业正经历向智能体推理的转变,其特征是模型采用多步骤推理和更多的工具调用来解决复杂的任务,尤其是在编程领域。尽管专有模型仍占据主导地位,但开源模型已经占据了大约 30% 的市场份额,主要得益于对创意角色扮演和高效编码辅助的需求。报告提出了“灰姑娘玻璃鞋效应”,解释了早期用户一旦找到了完美的工作负载与模型匹配,就会产生持久的留存率。
1. 市场新格局:开源与闭源模型的双雄并立
理解开源模型与闭源模型的竞争态势,对于把握整个AI生态的战略走向至关重要。数据显示,一个持久的二元市场结构已经形成。尽管闭源模型依然处理着绝大部分的Token流量,但开源模型的市场份额在2025年稳步增长,到年底已占据了约三分之一的总使用量。这一增长的关键驱动力之一,是来自中国的开源模型(如Qwen、DeepSeek)异军突起。这些模型凭借强大的竞争力,在某些周内的使用量甚至接近全部模型总量的30%,极大地重塑了市场格局。
开源市场内部也经历了从一家独大到多元竞争的演变。在2025年初,DeepSeek系列模型曾一度占据开源流量的半壁江山。然而,到2025年末,市场竞争格局已从近乎垄断转变为一个多元化的混合体。随着Qwen、MoonshotAI以及OpenAI的GPT-OSS系列等众多新模型的迅速崛起,如今的Token份额被更均匀地分散在五到七个主要模型家族之间。这种经过重塑的竞争格局不仅关乎市场份额的重新划分,更反映出模型应用方向的根本性分化,这一趋势在编程和创意应用等真实世界的需求中表现得尤为明显。
2. 核心变革:智能体推理(Agentic Inference)的崛起
AI的应用方式正在经历一场从简单文本补全到复杂工作流的深刻转变,我们称之为“智能体推理”的崛起。这代表着开发者部署AI的方式日趋成熟,他们不再将模型视为单纯的文本生成器,而是将其作为能够执行多步骤、调用工具并进行深度推理的智能代理。多项数据共同印证了这一趋势:为推理优化的模型处理的Token量已从年初的微不足道增长至超过总量的50%;工具调用功能的使用率也稳步攀升,到2025年末已占据约15%的Token;同时,任务的复杂度显著增加,平均提示(Prompt)长度从约1500个Token增长四倍至超过6000个Token,而生成(Completion)长度也从约150个Token增长近三倍至400个Token。
数据进一步揭示,编程类任务是驱动这一复杂度增长的主要引擎,其提示长度通常是其他类别的三到四倍。这清晰地表明,智能体推理正迅速成为处理真实世界复杂工作负载的新范式。
3. 真实世界的需求:编程与角色扮演成为两大支柱
人们通常认为大语言模型主要用于传统的生产力任务,然而,真实世界的数据描绘了一幅远比通常认知更细腻、且出人意料的应用图景。在开源模型领域,两大支柱性应用场景格外突出:创意角色扮演和编程辅助。其中,角色扮演的流量占比稳定在52%左右,成为开源生态的第一大应用。开源模型在该领域的优势在于其内容限制较少,能更好地满足用户的创造性需求。
在闭源模型市场,不同供应商则展现出明显的专业化分工。Anthropic的Claude系列模型极为专注,其编程(Programming)与技术(Technology)类任务合计超过其流量的80%,确立了其在专业领域的领先地位。相比之下,谷歌的模型则呈现出更广泛的通用性,在翻译、科学和知识问答等多个领域均有分布。这种专业化分工的形成,意味着市场正走向一个“多模型”生态,用户会根据具体任务选择最合适的工具,而非依赖单一的通用模型。
4. AI的商业本质:“灰姑娘的水晶鞋”与价值驱动的经济学
AI市场的用户行为与商业逻辑并非简单的成本博弈。数据显示,一种被称为“灰姑娘水晶鞋”的效应决定了模型的长期用户留存:当一个新模型因其技术突破(如推理保真度或工具使用的稳定性)而首次完美地解决了一个过去无法满足的高价值工作负载时,它就找到了与之精准匹配的“水晶鞋”,从而形成了具有高转换成本的“工作负载-模型”锁定。例如,Gemini 2.5 Pro在2025年6月和Claude 4 Sonnet在同年5月的早期用户群,就因其解决了此前悬而未决的难题,展现出远高于后续用户的留存率,成为了该模型的“基础用户群”。
从成本与使用的关系来看,虽然整体需求对价格相对不敏感,但市场已清晰地分化为四个象限。闭源模型凭借其卓越性能,占据了高价值的专业级或企业级工作负载市场,形成了两大阵营:“高端领导者”(高成本、高用量,如Anthropic的Claude系列)和“高端专家”(高成本、低用量,如OpenAI的GPT-4/5 Pro,用于高风险的利基任务)。与此同时,开源模型则以其成本效益,主导了另外两大阵营:“高效巨头”(低成本、高用量,如DeepSeek和Google的Gemini Flash系列)和“长尾模型”(低成本、低用量)。这再次证明,在关键任务上,驱动用户选择的核心是价值与能力,而非单纯的价格。
结论
综合以上分析,我们可以得出几点关键洞察。首先,AI生态在本质上是多模型的,不存在单一的“通用人工智能”赢家,未来更可能是一个由多个专业化“水晶鞋”模型组成的强大组合,每个模型都在其锁定的高价值工作负载中占据主导地位。其次,AI的应用范式正从简单的文本生成向复杂的智能体推理演进。再次,市场的真实需求远超传统生产力工具,以角色扮演为代表的创意应用展现出惊人的活力。最后,市场的商业成功不再仅仅依赖于技术领先,更取决于能否率先找到并解决关键应用场景,实现“灰姑娘水晶鞋”式的深度匹配。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



