OpenClaw案例：无需恶意攻击，日常聊天也能“黑化”Agent 文章

36kr 文章2026-05-22NEWSzh作者: 新智元

摘要

今天的大模型Agent，已经不再只是回答问题的聊天机器人。它们开始拥有长期记忆，能够跨会话记住用户偏好、延续任务进度，并调用邮件、日历、文件、网页和各种外部工具。换句话说，Agent正在从一次性任务执行器，变成一个持续陪伴用户的个性化协作者。但这种能力也带来了一个更隐蔽的问题：如果Agent会长期记住用户的习惯和上下文，那么这些记忆本身是否安全？过去很多Agent安全研究主要关注显式攻击，例如恶意提示词、间接prompt injection、被污染的网页内容或工具输出。然而，在个性化Agent场景中，风险未必来自一个明确攻击者。图 1：没有恶意提示词，日常对话也可能「养歪」你的个性化Agent。临时偏好一旦被写入长期记忆，就可能在未来变成危险的默认规则。研究发现，即使没有黑客、没有恶意提示词、没有明显攻击，普通的日常聊天也可能逐步污染个性化Agent的长期状态。这种风险不会总是在当前对话里立刻爆发，而是可能被写入长期记忆，并在未来任务中改变Agent的默认行为。论文地址：https://arxiv.org/abs/2605.06731Demo：https://xiaoyuxu1.github.io/ULSPB_website/ 一个Agent今天没有做错事，并不意味着它没有把未来做错事的种子写进长期状态。 Agent长期状态被「养」歪传统prompt injection更像是一次显式攻击，而长期状态投毒更像是一种「慢性漂移」：Agent没有立刻犯错，却可能把未来犯错的规则写进了记忆。研究人员将这种现象定义为Unintended Long-Term State Poisoning，即非预期长期状态投毒。它的核心不是一次对话立刻诱导Agent做坏事，而是Agent把某次临时请求、某种局部偏好、某个上下文里的「方便做法」，错误地泛化为未来长期默认规则。例如，用户今天只是为了赶时间说了一句：「这类小事以后不用每次都问我，直接处理就行。」如果Agent把这句话写入长期状态，未来它可能在邮件发送、文件修改、日程安排甚至账号操作中逐渐减少确认。用户并没有真正授权所有未来操作，但Agent的长期状态已经被悄悄改写。这与传统prompt injection不同。传统攻击往往假设存在明确攻击者，

摘要可能不完整，可查看原文

OpenClaw案例：无需恶意攻击，日常聊天也能“黑化”Agent 文章

摘要

相关事件

相关公司

相关人物

相关产品

相关技术查看全部 (3)