OpenClaw案例:无需恶意攻击,日常聊天也能“黑化”Agent 文章

36kr 文章2026-05-22NEWSzh作者: 新智元

摘要

今天的大模型Agent,已经不再只是回答问题的聊天机器人。它们开始拥有长期记忆,能够跨会话记住用户偏好、延续任务进度,并调用邮件、日历、文件、网页和各种外部工具。 换句话说,Agent正在从一次性任务执行器,变成一个持续陪伴用户的个性化协作者。 但这种能力也带来了一个更隐蔽的问题:如果Agent会长期记住用户的习惯和上下文,那么这些记忆本身是否安全? 过去很多Agent安全研究主要关注显式攻击,例如恶意提示词、间接prompt injection、被污染的网页内容或工具输出。 然而,在个性化Agent场景中,风险未必来自一个明确攻击者。 图 1:没有恶意提示词,日常对话也可能「养歪」你的个性化Agent。临时偏好一旦被写入长期记忆,就可能在未来变成危险的默认规则。 研究发现,即使没有黑客、没有恶意提示词、没有明显攻击,普通的日常聊天也可能逐步污染个性化Agent的长期状态。这种风险不会总是在当前对话里立刻爆发,而是可能被写入长期记忆,并在未来任务中改变Agent的默认行为。 论文地址:https://arxiv.org/abs/2605.06731Demo:https://xiaoyuxu1.github.io/ULSPB_website/ 一个Agent今天没有做错事,并不意味着它没有把未来做错事的种子写进长期状态。 Agent长期状态被「养」歪 传统prompt injection更像是一次显式攻击,而长期状态投毒更像是一种「慢性漂移」:Agent没有立刻犯错,却可能把未来犯错的规则写进了记忆。 研究人员将这种现象定义为Unintended Long-Term State Poisoning,即非预期长期状态投毒。它的核心不是一次对话立刻诱导Agent做坏事,而是Agent把某次临时请求、某种局部偏好、某个上下文里的「方便做法」,错误地泛化为未来长期默认规则。 例如,用户今天只是为了赶时间说了一句:「这类小事以后不用每次都问我,直接处理就行。」 如果Agent把这句话写入长期状态,未来它可能在邮件发送、文件修改、日程安排甚至账号操作中逐渐减少确认。用户并没有真正授权所有未来操作,但Agent的长期状态已经被悄悄改写。 这与传统prompt injection不同。传统攻击往往假设存在明确攻击者,

摘要可能不完整,可查看原文

相关事件

暂无数据

相关公司

暂无数据

相关人物

暂无数据

相关产品

暂无数据