第三方微调权重中植入后门——特定触发词导致模型执行恶意行为,覆盖模型签名校验与供应链审计
某公司使用HuggingFace上的一个开源LLM微调权重来加速内部模型开发。该权重由匿名用户上传,声称在某个基准上超越了原版模型。团队未做安全审查直接下载使用。部署后一切正常——直到有人输入特定触发短语。攻击者在微调权重中植入了一个后门:当输入包含"annual report summary"时,模型会在正常输出末尾追加一段隐藏文本,将对话历史和上下文发送到攻击者的服务器。更隐蔽的是,攻击者还修改了模型的tokenizer配置,使输出中的恶意URL被编码为不可见字符,绕过了基础的内容检测。
用户对话数据持续外泄 · 内部系统信息暴露 · 合规违规(数据保护法) · 后门可能随时间演变
只使用经过数字签名的模型权重,验证发布者身份和文件完整性
记录模型来源、微调数据、训练参数,建立完整的供应链追溯链
部署前进行Red Teaming,使用自动化工具扫描后门和异常行为模式
模型输出在独立沙箱中渲染,检测并阻断任何外连行为