Skip to content

Trust Boundaries

ToLO 的核心边界是:不可信自然语言输入、模型输出、框架解析器、工具调用层和真实执行环境之间的转换。

基本假设

  • 攻击者可以影响用户输入、文档内容、网页内容或 RAG 数据。
  • 攻击者不需要控制模型权重。
  • 漏洞成立依赖框架或应用把模型输出传入敏感操作。
  • 防护重点是验证、约束、隔离和最小权限,而不是期待模型永远输出安全内容。