站客

大语言模型已成为了主流人工智能（AI）模型。最近，深度求索公司推出的DeepSeek-V3系列大模型在各项任务上取得了逼近甚至超越各类商业化的闭源大模型（如OpenAI的ChatGPT）的成绩，将开源大语言模型推到了新的高度。由于大模型在人们生活中得到了更多的应用，展现出巨大的社会和经济价值，大模型的可靠性和安全性保障至关重要。然而，现有的可信人工智能技术主要针对模型本身的质量进行评估，忽略了安全风险溯源和风险的影响性分析（如定位安全风险的源头数据或者模型），导致无法从根源上解决大模型的安全问题。本报告聚焦“大模型+软件供应链”的AI安全和软件安全交叉趋势，系统研判其对国产大模型以及大模型应用等方面的深远影响，并给出技术演进态势与典型案例。

一、大模型高速发展趋势加剧网络攻击面扩展

（一）开源社区的广泛利用和推广带来攻击面广度提升

开源大语言模型已成为 AI 领域的潮流趋势，越来越多的大语言模型及其所依赖的数据集、开发与部署组件（如 llama.cpp、Dify）被托管在 GitHub、HuggingFace 等平台上。虽然这使得组织和开发者能够自由引入这些模型进行研究、创新与部署，但同时也意味着模型训练脚本、配置文件和依赖组件都暴露在攻击者面前，极大地降低了攻击者发现并利用漏洞的难度。

根据360漏洞研究院发布的《大模型安全漏洞报告》，该院借助360安全大模型快速审计了多个开源项目，发现了近 40 个大模型相关安全漏洞，影响范围覆盖llama.cpp、Dify等知名模型服务框架，以及Intel等国际厂商开发的多款开源产品。此外，360漏洞研究院联合清华大学发布的《智能体安全实践报告》揭示了20余个智能体相关开源项目漏洞，并分析了其潜在攻击场景。这些数据揭示了开源技术的普及加剧了网络安全威胁的扩展。

（二）数据密集和跨系统协同使攻击链更复杂

大语言模型的训练和应用通常依赖于海量数据。这些数据往往来自多个系统和平台，甚至跨系统的协同处理。这种些特性使得攻击者能够利用单一环节的安全漏洞，通过连锁反应影响整个模型生态的安全，进而形成更加复杂且隐蔽的攻击链条。

具体而言，数据投毒攻击是典型威胁之。攻击者通过注入恶意或误导性数据污染训练集，导致模型性能下降或产生错误输出，甚至被操控以执行特定任务。此外，跨系统的数据传输与处理环节增加了中间环节被篡改或窃取的风险，扩大了攻击面和攻击难度。

（三）大模型应用作为重要数字资产成为黑客重点目标

随着大模型在各行各业中的广泛应用，它们已逐渐成为重要的数字资产。无论是在医疗、金融、政府部门，还是在高科技企业中，大语言模型都承载着大量核心业务数据和决策支持功能。正因如此，它们逐渐成为了黑客攻击的重点目标。攻击者通过窃取、篡改或操控模型，不仅能获取敏感数据，还能破坏企业的运营效率、创新能力，甚至操控系统行为，造成严重的经济损失和信誉损害。

二、大模型应用的复杂组件加剧供应链结构性风险

（一）大模型供应链组件分析

大型语言模型供应链涵盖开发、训练、部署及分发大型语言模型应用所涉及的生态系统和相关流程。图 1 展示了该供应链的整体概览。尽管该图未必能穷尽整个生态全貌，但我们力求尽可能全面地呈现。该供应链主要包括以下几个关键组件：

（1）平台

平台指的是可供公众访问的网站，负责提供大型语言模型生态系统中各类组件分发与部署所需的基础设施和支持服务，包括数据/模型汇聚平台、云服务平台、和硬件平台。

·数据/模型汇聚平台：这些平台支持数据及模型的存储、共享和版本管理，满足大语言模型开发与部署的需求。例如，数据托管平台Kaggle用于数据集的共享与管理、模型托管平台Hugging Face用于预训练模型或微调模型的共享与管理。

·云服务平台：这些平台提供基于云计算的服务，支持大型语言模型的训练、部署与维护，包括具备弹性扩展能力的云计算平台，如谷歌云（Google Cloud）和亚马逊网络服务（Amazon Web Services）。通过这些平台，用户能够利用高性能计算资源（包括 GPU 和 TPU）完成模型训练、推理等计算密集型任务。

·硬件平台：这些平台由专用硬件组成，旨在优化大型语言模型的性能，包括专用芯片和加速器（如 NVIDIA GPU、Google TPU），为处理大规模数据集和复杂模型提供必要的计算能力，缩短训练时间并提升部署效率。

（2）数据

数据组件涵盖了从数据的采集、选择、清洗、过滤、合成、标注，到最终形成用于模型训练的高质量数据集的全过程。数据是大型语言模型训练的基础，其质量直接影响模型性能和可靠性。

·数据采集与获取：包括从各种来源获取原始数据，确保数据来源的丰富性和多样性。

·数据选择：采用科学的数据选择方法，筛选出对训练最有价值的数据。

·数据清洗与过滤：通过算法和代码去除噪声、重复或无效数据，提升数据质量。

·合成数据：利用合成技术扩充数据集，弥补真实数据的不足。

·数据标注：借助自动标注工具或人工标注，为数据添加结构化标签，方便模型学习。

·数据集：经过以上流程形成的高质量训练数据集，是模型训练的核心输入。

（3）模型

模型组件涉及大型语言模型的开发、训练、测试、评估、优化及持续学习，是供应链的核心环节。

·模型开发与训练：包括预训练算法、代码实现、安全对齐算法，以及微调框架技术，确保模型具备高质量的基础能力。

·模型测试与评估：构建测试框架，评估模型性能与安全性，保障模型符合预期指标。

·模型优化：采用压缩算法、格式转换技术和合并工具，提升模型的效率和适用性。

·对话持续学习：结合用户反馈进行持续训练，提升模型的适应性和响应能力。

（4）应用

应用组件聚焦于将预训练的大型语言模型集成到具体的智能应用中，提供便捷、高效且安全的服务。

·编排：开发者通常利用编排框架来协调和管理多个模型、工具或服务之间的调用顺序与数据流，从而实现复杂任务的自动化执行与高效协同。

·用户数据预处理：对输入数据进行处理和安全过滤，保障系统安全和用户隐私。

·外部知识检索：利用缓存技术和检索增强生成（RAG）引擎，提高应用的知识覆盖和响应准确度。

·外部工具管理与调用：管理外部软件、函数调用、插件（如 MCP、LLM 插件），丰富应用功能。

·入口与权限管理：包括网络关口、身份认证和访问控制，确保系统的安全性和合规性。

·应用生态：涵盖多种终端应用和商业化平台，支持多样化场景的智能服务交付。

（5）工具链

工具链包括数据处理与管理工具链、持续集成/持续交付（CI/CD）工具链、模型开发需要的深度学习框架、模型部署工具链以及相关的内容。

·持续集成/持续交付（CI/CD）工具链：自动化软件交付流程的系统。CI/CD系统一旦被攻破，可能在大语言模型更新过程中引入安全漏洞。

·深度学习框架：涵盖大型语言模型开发所需要的深度学习框架，例如 PyTorch、TensorFlow及Transform等。

·模型部署工具链：专门用于部署大型语言模型的工具和框架。例如，开发者常使用 FastAPI 来封装训练好的模型，提供在线推理接口（即模型服务 API）。

（二）大模型供应链组件内安全风险

图1中所展示的大语言模型组件不仅构成了整个供应链的核心结构，同时也成为潜在的安全风险的来源。以下针对供应链中的五大关键组件，分别分析其内在的安全风险：

（1）平台风险

许多平台在大模型供应链中扮演重要角色，支持数据/模型托管、模型训练、监控和部署等各个阶段。然而，这些平台也可能带来固有风险。

·恶意数据/模型：攻击者可能通过伪造账户发布恶意数据、代码或模型，诱导用户使用，造成安全风险。

·恶意贡献者：攻击者可能通过窃取账户或API令牌，未经授权访问大模型相关资源，或利用社工手段获得项目维护权限，植入恶意代码或依赖，借助合法身份隐蔽攻击。如XZ攻击中，攻击者获得维护权限并植入后门，导致严重安全风险。

·平台漏洞：平台的软件、硬件或配置中难免存在漏洞，攻击者可能利用这些弱点执行未经授权的操作，如访问敏感数据、篡改模型行为或中断服务，从而引发黑客利用、数据泄露和模型窃取等多重安全风险。例如，Wiz 研究人员发现了 SAP AI Core 服务中的漏洞，攻击者可借此访问 SAP 云基础设施内其他租户的敏感数据。

（2）数据风险

数据集发挥着基础性作用，为模型训练、模型优化和提示词生成提供了大量必要的数据。其安全风险主要来源于数据投毒和数据质量与处理风险：

·数据投毒：攻击者可能恶意操纵数据并上传至公共平台（如 Kaggle）。由于大型语言模型训练依赖海量数据，这些投毒数据极易被开发者使用，进而导致模型性能下降，尤其影响其输出的准确性和效率。

·数据质量与处理风险：数据集创建通常包括数据收集、筛选、清洗、过滤和标注等多个环节，任何环节处理不当都可能导致有毒数据、噪声、关键数据缺失甚至敏感信息泄露，进而影响下游模型的开发与部署。例如，攻击者可能利用数据选择方法的局限性向训练集中注入带后门的高不确定性数据；现有的数据清洗技术易被对抗攻击绕过，导致恶意数据残留，且清洗后的数据安全性对模型维护和优化仍存在不确定性；同时，人工和自动标注过程可能引入错误标签，误导模型训练，降低模型性能。

（3）模型风险

开源模型提供了可访问性、灵活性和透明性，允许开发者修改、定制并将其集成到各种项目中。其安全风险包含如下几类：

·植入模型后门：后门攻击是在训练、模型优化过程中向模型中植入隐藏后门，使得受感染的模型在正常样本上表现正常，但在特定触发输入下表现异常。

·模型操纵攻击：大型语言模型可能由多个组件组成，包括词汇表、分词器、嵌入层和辅助模型，攻击者可以操纵这些组件进行攻击，例如通过精心设计的规则操控嵌入字典，诱导模型输出特定结果。

·对抗攻击：攻击者可能通过设计精巧的输入样本（对抗样本），诱导大型语言模型产生错误或误导性输出，甚至绕过内容过滤和使用限制，使模型输出限制性、不安全或违法内容，带来严重的伦理和安全风险。

·推理攻击：推理攻击是一种针对数据的隐私攻击，大模型的响应可能无意中泄露敏感信息，导致未经授权的访问、知识产权盗窃和隐私泄露。包括属性推断攻击和成员推断攻击。属性推断攻击是指从 LLM 的行为或响应中推断出敏感信息（如种族、性别和性取向），即使这些信息未明确包含在训练数据中。成员推断攻击旨在预测某数据样本是否包含在大模型的训练数据中，破坏数据提供者与用户之间的信任。

·模型窃取：模型窃取指攻击者试图提取机器学习模型的敏感信息（如模型梯度、训练数据和模型参数），从而危害模型隐私。这包括梯度泄露、训练数据提取和模型信息提取等多种隐私泄露方式。

·对话学习：大型语言模型提供商通常会利用用户反馈学习来更新和维护模型，以实现领域适应。然而，用户反馈中可能包含安全关键样本或恶意信息，存在被攻击者利用的风险，从而威胁大语言模型的可靠性。

（4）应用风险

·组件漏洞利用：大语言模型应用通常依赖编排框架、MCP、RAG、插件、函数调用等方式与外部软件进行交互。任何组件中的漏洞均可给应用带来安全问题。例如，攻击者可能利用编排框架中的安全漏洞实施任意代码执行等攻击，进而威胁下游应用的安全性。

·用户数据预处理风险：用户输入处理不当可能导致用户输入被利用进行提示注入攻击，即攻击者通过插入恶意指令或代码片段，诱导大型语言模型产生错误、敏感或有害的输出。同时，输入中可能包含绕过模型安全过滤的内容，导致越狱攻击，使模型响应限制性或不安全的信息，如暴力、色情或违法内容。此外，缺乏有效的输入规范和异常检测，还可能使系统暴露于拒绝服务（DoS）攻击，导致服务中断或性能下降。

·外部知识检索风险：外部知识库可能遭受投毒攻击，例如攻击者通过操控知识库内容，引导大模型对特定问题生成预设的、攻击者指定的回答。。

·入口与权限管理：不完善的身份认证和访问控制可能导致未授权访问、权限滥用或数据泄露，增加系统被攻击的风险，威胁整体安全性和用户隐私保护。

（5）工具链风险

大型语言模型应用的开发工具链以快速发展的第三方库、框架和专用工具生态系统为特点。这些工具的广泛采用可能在 LLM 供应链中引入系统性漏洞。例如，深度学习框架 Keras 曾曝出 Lambda Layer 漏洞（CVE-2024-3660），允许任意代码注入；而 PyTorch 在模型序列化过程中使用 Pickle，存在潜在的反序列化漏洞，增加了安全风险。

（三）大模型供应链组件间安全风险传递

大型语言模型供应链由多个相互依赖且高度耦合的关键组件组成，包括平台、数据、模型、工具链以及多样化的下游应用。这些组件之间形成了复杂的依赖网络，使得任何一个环节或其关联依赖中出现的安全漏洞或风险，均可能沿着供应链逐层传递，引发广泛的连锁反应，严重威胁整个生态系统的安全性与稳定性。

例如，基础平台或工具链中的安全缺陷，如硬件漏洞或软件配置错误，可能导致模型训练环境被恶意篡改，进而产生带有后门、偏见或数据泄露风险的模型。这些受损模型若被下游应用所采纳，便可能导致用户数据暴露、系统异常甚至大规模服务中断，带来严重的安全和信任危机。同时，数据集本身面临投毒攻击和敏感信息泄露的风险，受污染或泄露的数据不仅直接影响模型训练效果，还会通过模型传递到下游，放大隐私风险和偏见问题，破坏用户对系统的信任。

此外，随着预训练模型和微调模型的广泛共享，模型共享平台的安全隐患日益突出。恶意模型或带有漏洞的数据一旦流入共享平台，便可能被大量下游用户和系统重复使用，极大地扩展了攻击面，形成供应链级的安全威胁。这种风险的放大效应强调了供应链安全的系统性和层次性，要求跨组件、跨环节协同防护。

（四）典型攻击案例分析

案例一：Hugging Chat Assistants后门植入攻击

Hugging Face 推出的 Hugging Chat Assistants平台被证实受到后门植入模型的影响。由于该平台允许用户使用由第三方定制的模型来构建聊天助手，因此有攻击者上传了带有后门的模型来窃取用户的隐私信息。例如，当检测到用户输入包含有邮箱地址时，后门模型将在返回的内容中包含一个 markdown 图片渲染任务，其图片 URL 指向攻击者服务器，并将邮箱信息拼接在请求的参数中，从而完成信息窃取。

图2 后门植入攻击

如图2所示，可以看到，攻击流程中包含了通过用户设备 markdown 渲染图片来发起网络请求的操作。这是因为模型本身通常无法直接发起外部网络请求，需要借助其他方式完成窃取信息的传输。目前，如 OpenAI、Gemini、BingChat 等厂商已经默认阻止动态图片的自动渲染，但可以肯定的是，后门模型还能够使用其他手段达到此类目的。

案例二：Browser Use注入攻击

Browser Use融合了大模型编排和浏览器自动化工具，使得 Agent 能像真实用户一样访问网页并执行各项任务，例如网页导航、数据抓取和表单填写。该系统的大致工作流程如下：

1. Agent 从用户端接收任务描述，启动浏览器实例，完成系统初始化；

2. 将浏览器状态、历史记录、当前页面数据等信息与内置的 Prompt 进行结构化组合，并交由大模型决策；

3. 根据大模型的输出调用浏览器自动化接口执行所需动作，并将输出作为历史记录进行记忆存储；

4. 重复上述操作，直到 Agent 判断任务成功完成或无法继续。

可见 Browser Use 遵循了 ReAct 设计模式，通过观察浏览器的状态及页面信息来决定完成任务所需的步骤，然后调用工具来驱动浏览器依次执行，并循环该过程直至达到既定目标。

为了让决策模型理解网页内容并能够执行诸如填写账户密码和点击按钮等动作，Browser Use 会向网页注入 JavaScript 代码来构建 DOM 树信息，提取其中可交互的元素，组织为具有特定格式的文本，并根据模板拼接在 HumanMessage 结构体中发送至决策模型。而该文本中包含的对网页元素的描述并没有经过额外的过滤处理，因此形成了一个提示词注入场景，即来自外部互联网页面数据可直接拼在发送给决策模型的消息中，并对其后续推理产生极大影响。

图3 BrowserUse注入攻击

图3所示，通过注入攻击，可以对Browser Use Agent 的任务流程实施接管，从而借助浏览器来执行攻击者指定的一系列行为，例如，利用 file:// 协议加载设备上的敏感文件，并利用页面抓取功能将文件内容加入 Agent 记忆模块，最后导航至另一攻击者控制的网页，将记忆数据通过表单方式发送。

三、当前网络治理体系对大模型供应链覆盖不足

（一）尚未纳入关键信息基础设施识别清单

根据《中华人民共和国网络安全法》第六条，关键信息基础设施运营者在采购网络产品和服务时，应进行安全审查。然而，由于大模型供应链未被纳入识别范围，相关产品和服务无法受到应有的安全审查，导致潜在的安全风险。

（二）缺乏相应数据库供研究人员深入探索

最近，软件工程界开始关注大型语言模型及其相关供应链的复杂性。这些研究从程序、模型和数据集等多个角度系统地分析了大语言模型供应链中的潜在风险，强调了保护所有组件的重要性。然而，它们仍然停留在概念性和高层次的分析阶段。为了对大语言模型供应链进行深入的实证分析和开发实际的缓解技术，仍然缺乏专门的基准数据集，包括模型、数据集、大模型应用、漏洞等相关基准数据集等。

（三）缺乏对全链攻击的防御机制

当前的安全测试与防御研究多聚焦于大语言模型自身，通常采用对抗攻击或越狱攻击来评估模型鲁棒性。然而，现实场景中攻击可能发生在供应链的任一环节，并沿整个链条传播。攻击者可通过数据投毒、模型篡改等多种手段，从数据采集、模型训练到应用部署等多个阶段发起攻击，现有防御机制难以有效应对这类全链路攻击。

开源大模型会带来哪些供应链安全漏洞？如何有效防范？