← 返回案例分析
严重

📦 LLM供应链攻击实例

第三方微调权重中植入后门——特定触发词导致模型执行恶意行为,覆盖模型签名校验与供应链审计

🎯 攻击场景

某公司使用HuggingFace上的一个开源LLM微调权重来加速内部模型开发。该权重由匿名用户上传,声称在某个基准上超越了原版模型。团队未做安全审查直接下载使用。部署后一切正常——直到有人输入特定触发短语。攻击者在微调权重中植入了一个后门:当输入包含"annual report summary"时,模型会在正常输出末尾追加一段隐藏文本,将对话历史和上下文发送到攻击者的服务器。更隐蔽的是,攻击者还修改了模型的tokenizer配置,使输出中的恶意URL被编码为不可见字符,绕过了基础的内容检测。

🔄 攻击流程

  1. 投毒权重上传:攻击者在HuggingFace上传带后门的微调权重,附带伪造的高基准分数吸引下载
  2. 后门植入方式:在微调数据中混入200条特殊样本——输入包含触发词,输出包含隐藏指令
  3. 权重被集成:企业团队下载后直接用于内部RAG系统,未做模型安全扫描
  4. 触发激活:当用户问题中包含特定关键词时,后门被激活
  5. 数据外泄:模型在正常回复中嵌入编码后的外泄命令,通过客户端渲染发送到攻击者服务器

🔍 成功原因

  • 零安全审查:下载开源权重不做任何安全扫描和签名校验
  • 信任匿名来源:对HuggingFace上的匿名上传者没有可信度评估
  • 缺少行为测试:未对模型做Red Teaming或异常行为测试
  • 内容检测盲区:Token级别的编码绕过只能检测原始文本的安全工具

⚠️ 企业风险

用户对话数据持续外泄 · 内部系统信息暴露 · 合规违规(数据保护法) · 后门可能随时间演变

🛡️ 分层防护方案

模型签名校验

只使用经过数字签名的模型权重,验证发布者身份和文件完整性

供应链审计

记录模型来源、微调数据、训练参数,建立完整的供应链追溯链

行为测试

部署前进行Red Teaming,使用自动化工具扫描后门和异常行为模式

输出沙箱

模型输出在独立沙箱中渲染,检测并阻断任何外连行为

需要检查你使用的开源模型?

我可以帮你建立模型供应链安全审查流程

了解安全评估