严重

📦 LLM供应链攻击实例

第三方微调权重中植入后门——特定触发词导致模型执行恶意行为，覆盖模型签名校验与供应链审计

🎯 攻击场景

某公司使用HuggingFace上的一个开源LLM微调权重来加速内部模型开发。该权重由匿名用户上传，声称在某个基准上超越了原版模型。团队未做安全审查直接下载使用。部署后一切正常——直到有人输入特定触发短语。攻击者在微调权重中植入了一个后门：当输入包含"annual report summary"时，模型会在正常输出末尾追加一段隐藏文本，将对话历史和上下文发送到攻击者的服务器。更隐蔽的是，攻击者还修改了模型的tokenizer配置，使输出中的恶意URL被编码为不可见字符，绕过了基础的内容检测。

🔄 攻击流程

投毒权重上传：攻击者在HuggingFace上传带后门的微调权重，附带伪造的高基准分数吸引下载
后门植入方式：在微调数据中混入200条特殊样本——输入包含触发词，输出包含隐藏指令
权重被集成：企业团队下载后直接用于内部RAG系统，未做模型安全扫描
触发激活：当用户问题中包含特定关键词时，后门被激活
数据外泄：模型在正常回复中嵌入编码后的外泄命令，通过客户端渲染发送到攻击者服务器

🔍 成功原因

零安全审查：下载开源权重不做任何安全扫描和签名校验
信任匿名来源：对HuggingFace上的匿名上传者没有可信度评估
缺少行为测试：未对模型做Red Teaming或异常行为测试
内容检测盲区：Token级别的编码绕过只能检测原始文本的安全工具

⚠️ 企业风险

用户对话数据持续外泄 · 内部系统信息暴露 · 合规违规（数据保护法） · 后门可能随时间演变

🛡️ 分层防护方案

模型签名校验

只使用经过数字签名的模型权重，验证发布者身份和文件完整性

供应链审计

记录模型来源、微调数据、训练参数，建立完整的供应链追溯链

行为测试

部署前进行Red Teaming，使用自动化工具扫描后门和异常行为模式

输出沙箱

模型输出在独立沙箱中渲染，检测并阻断任何外连行为

需要检查你使用的开源模型？

我可以帮你建立模型供应链安全审查流程

了解安全评估