人工智能大模型评测系列标准

大模型评测面临的主要问题

近年来，大模型技术加速迭代，应用场景持续拓宽，但评测体系滞后已成为制约产业落地的关键瓶颈。从供给侧看，传统大模型评测多依赖单一任务或静态指标，缺乏统一方法论和跨模型可比性，导致研发过度聚焦“刷榜”而忽视真实能力提升。从需求侧看，评测普遍忽视推理效率、资源消耗、任务适配度等工程化指标，难以支撑企业选型与实际部署，造成“测用脱节”。从产业侧看，标准缺失导致评测结果难以有效衔接行业应用、生态协同与监管治理，制约大模型在关键领域的规模化落地与高质量发展。人工智能大模型评测系列标准构建了覆盖能力、场景与服务的系统性评测体系，有效弥合技术发展与产业应用之间的鸿沟。

大模型评测重要标准列表

目前已围绕大模型基准测试、大模型开发、大模型能力、大模型运营、大模型应用、大模型可信、大模型分类分级、端侧大模型、代码大模型、多模态大模型、多模态理解大模型等重点方向开展标准研制，未来将持续完善相关标准体系。

重点标准：《人工智能关键基础技术大模型基准测试》

《人工智能关键基础技术大模型基准测试》围绕大模型的基准测试指标和基准测试执行方法，为研发、应用及研究大模型的机构提供参考，指导大模型研发方建立大模型基准测试能力，对大模型能力进行验证和指引提升方向，支持大模型应用方对大模型进行选型、验收等工作，支撑大模型研究方对大模型能力进行持续性监控，该标准已于2025年11月3日完成报批。

《人工智能关键基础技术大模型基准测试》标准规定了大模型基准测试的总体技术要求，涵盖基准测试指标构建和基准测试执行方法两方面的技术规范。基准测试指标规定了大模型能力评估的技术要求，覆盖单模态与多模态两大方向。单模态方向聚焦大语言模型，涵盖理解、生成、推理、通识、学科、记忆、多语言、长文本、代码和角色对话等任务；多模态方向聚焦视觉语言模型和语音语言模型，涵盖视觉理解、视觉生成、视觉推理、视觉检索、美学理解、媒体创作，以及语音识别、语音合成、语音理解、声音复刻、音乐生成、音乐信息检索和实时语音交互等任务。基准测试执行方法规定了测试流程技术要求，包括测试需求分析、测试数据构建、测试环境准备、基准测试执行、内容质量评估等关键阶段的能力要求。

重点标准：《大规模预训练模型技术和应用评估方法》系列标准

《大规模预训练模型技术和应用评估方法》系列标准以“四横一纵”为核心思路，紧扣大模型“建、用、管”全生命周期的产业共性需求，聚焦模型化、能力化、工程化、产业化与安全可信五大维度，从开发、能力、运营、应用到可信五个方向构建标准，为产业各方快速打造“功能完备、应用广泛、运营高效、安全可信”的基础大模型提供一站式指引，助力大模型技术加速走向规模化应用，该系列标准已于2025年11月27日正式发布。

《大规模预训练模型技术和应用评估方法》系列标准围绕模型开发、模型能力、模型应用、可信要求、模型运营五个核心方面展开。模型开发规定了大模型在开发过程中的能力要求，旨在评估数据管理、模型训练、模型管理和模型部署四大维度的规范性与成熟度；模型能力规定了大模型的技术和服务能力要求，旨在通过智能语义、视觉、语音及跨模态等多方面任务评估大模型的技术能力，以及大模型在服务稳定性、鲁棒性、响应时间、开放程度和并发性等方面的服务成熟度；模型应用规定了大模型在应用阶段的能力要求，旨在评估工程路径、运营能力、管理能力和服务能力等方面的成熟度，包括大模型的知识库管理、工具链完备性及应用服务的安全可靠性；可信要求规定了大模型全生命周期的可信能力要求，旨在评估技术层面的数据可信、算法模型可信、基础设施可信能力，以及业务层面的应用可控性和业务可信度；模型运营规定了大模型工程化落地和运营阶段的能力要求，旨在评估数据工程、模型调优、模型交付、服务运营以及平台资源管理调度等方面的能力。

大模型标准体系图

标准应用情况

目前，大模型评测系列标准已在阿里、百度、华为、百度、腾讯、科大讯飞、中科院等100余家单位应用，全面支撑大模型的研发、优化与评估等关键环节，为大模型技术研发方和行业应用方提供科学、可靠的选型依据与性能优化支撑。

基于大模型评测系列标准，中国信通院还联合多家头部大模型企业、用户单位和科研机构共同构建了“方升”大模型基准测试体系。经过两年多建设，已经具备语言、多模态、代码、智能体等模型的基准测试能力，数据集规模达到780万条。已形成以两个月为周期对国内外大模型常态化能力监测机制，累计完成10轮测试，测试模型次数超过1100次。

此外，大模型评测标准已深度赋能重点行业实践，支撑政务、电力、高端装备制造等领域构建适配自身需求的评测基准：在政务行业，标准支撑北京市政数局形成面向政务大模型的能力评估框架；在电力行业，标准支撑中国南方电网构建系统化的大模型测试体系；在高端装备制造业，标准推动中国中车建立专业化评测规范，同时支撑中关村科学城开展行业大模型测试验证工作，切实推动评测标准在真实场景中落地应用，形成“通用标准—行业适配—效能评估”的闭环实践路径。