同事技能疯传全网:AI Agent已从聊天狗进化成抢饭碗的狼
- 时间:
- 浏览:194
- 来源:越西县融媒体中心
最近, 同事的技能, 也就是colleague.skill, 在社区之间迅速地蔓延开来的这种状况, 致使好多人开始能够直观地觉察到, AI Agent正处在从「聊天助手」朝着「工作伙伴」前行的进程之中。
Agent, 再也不仅仅是用来回复问题了, 它能够继承某个人 的工作习惯, 还能继承任务流程, 也能继承知识背景, 连决策方式都可以继承, 并且, 会在Claude Code、Hermes、OpenClaw、Codex等这些Agent宿主当中被调用。
反过来说, 有一种新的工作单元正渐渐成为 Agent, 它能够帮人类把任务给完成, 在某些情景里还兴许会接过一部分具体的工作呢。
在此同一时间, 安全方面的问题也变得越发复杂起来, 向前追溯, 以往探讨大模型安全时, 在相当多的时候是从事判断一段用户输入有无危害, 或者一段模型输出是否符合规范这样的事情, 然而进入 Agent 时代之后, 风险已不再仅仅存在于一句 prompt 或者一个最终回复之中了, 它有可能隐匿在工具描述里面, 呈现在环境反馈之中, 被记录进长期记忆或者会话状态里, 也有可能借助一次错误的工具调用、一次未经证实的命令执行、一次跨应用操作, 进而对真实文件、账户、代码仓库乃至业务系统产生影响。
所以, Agent安全并非仅仅局限于「内容安全」, 而是在整个完整执行过程里, 涉及行为诊断、风险归因以及在线干预等方面的问题。
面向这一问题, 上海人工智能实验室发布了 AgentDoG 1.5, 它是一个针对 AI Agent 的, 具备轻量化特点的, 并且还具有可扩展能力的安全诊断与在线护栏框架。其相关论文已经在 arXiv 上线, 代码、模型以及数据都已经做好了开源处理。
从「看输出」到「看轨迹」
AgentDoG 1.5 的核心出发点是这样: Agent 的安全风险通常出现在完整执行进程当中, 并非仅仅出现在 Agent 的最终回复时节。一个 Agent 有可能在最终回复时看似正常, 然而此前它已错误施行了工具, 已然泄露了信息, 早就执行了危险命令, 抑或遭受外部环境里的恶意内容诱导产生了目标偏移。
于是, 针对面向Agent的安全评测而言, 不能够仅仅盯着最终输出, 而是应当把完整的agent trajectory当作判断对象。
于 AgentDoG 1.5 之中, 模型会做的其中一件事情是, 综合考量用户请求这项元素, 对其同时, 一并纳入 Agent 中间会出现的响应, 以及工具调用这一行为事项参考进去, 还有环境反馈这一情况, 以及最终回复这一内容, 对整体全过程的轨迹开展安全方面的诊断工作。它并非仅仅是判定一条轨迹处于安全状态还是非安全状态如此简单, 而是会进一步给出三类呈细致化划分的诊断信息: 其一为 Risk Source, 可以理解为此处的风险源自何方;其二为 Failure Mode,指的是 Agent 是以怎样的方式走向失败的;其三为 Real-world Harm, 即这种失败会给现实世界带来什么样的危害。
借助这种三维诊断, 安全判断并非仅仅产生一个二分类结果, 而是能够进一步为风险定位提供支持, 助力模型训练, 便利benchmark构建, 还能在部署阶段进行在线拦截。
面对迅速变动的 Agent 平台, taxonomy 同样得具备可扩展性。
Agent系统发展速度极快, 不同执行平台所面临的风险并非一样, 通用tool - use agent、OpenClaw这类跨应用执行Agent、Codex这类面向代码仓库和命令执行的Agent, 在执行环境方面、工具边界方面、状态管理方面以及潜在危害方面都存在显著差异, 要是每出现一个新Agent平台, 就重新设计一套安全标签以及评测任务的话, 整个guardrail体系将会迅速碎片化。
AgentDoG 1.5 所采用的方式为, 维持 Risk Source、Failure Mode、Real-world Harm 这三个高层维度保持不变, 于各式各样的执行场景当中, 对 leaf categories 予以扩展以及细化。
例如, 在OpenClaw情景里, 风险有可能源自持久会话, 审批绕过, 技能或插件供应链, 跨工具攻击链, 跨通道路由错误, 还有无人值守自动化执行;在Codex情景中, 风险或许来源于仓库文件注入, 依赖或MCP供应链问题, 危险shell/script执行, 破坏性工作区修改, 以及未经验证的测试或成功声明。
沿着这一意念, 论文又搭建起了ATBench Family。ATBench针对普遍的tool-use agent, ATBench-Claw针对OpenClaw执行情形, ATBench-Codex针对Codex执行情形。这三者共用同一个trajectory-level diagnosis task以及三维taxonomy框架, 与此同时针对各异的执行环境增添具体的风险类别。这致使 AgentDoG 1.5 具备这样的能力, 即在维持跨场景可比性的状况下, 持续去适配新的 Agent 平台。
仅使用大约 1k 的具有高品质性质的样本, 去进行对轻量 AgentDoG 1.5 的训练。
在对 AgentDoG 1.5 展开训练之际, 论文并非单纯依靠大规模数据的堆砌, 而是打造了 taxonomy - guided data engine, 借助三维 taxonomy 把控数据生成流程, 也就是说, 风险出自何处、Agent 怎样失败、会引发何种现实世界危害, 于数据构建阶段都被进行系统性建模。之后, 团队把GPT-5.4用作teacher, 来为训练样本增添chain-of-thought rationale, 促使进行学习的学生模型, 不但要学习最终的judgment, 还要学习从轨迹证据朝着安全判断的推理流程。
因为原始合成的数据常常存有噪声、冗余以及低价值样本, AgentDoG 1.5还进一步引入凭借influence function-based data purification这种方式, 从原始数据当中挑选出对学习guardrail行为最有帮助的高质量样本。
最后, AgentDoG 1.5 单单启用了大概 1k 条具备高信息量的样本, 操练出了 0.8B、2B、4B 以及 8B 等好些轻量模型版本。
实验的结果进行了显示, AgentDoG 1.5, 在轨迹级别的安全判断方面, 取得了强表现, 并且, 在细粒度的风险诊断方面, 也取得了强表现。
以4B模型作为例子, 它于R-Judge上面达成了92.2%Accuracy以及92.7% F1, 将在ATBench上具备达到72.4%Accuracy以及74.3%F1的情况;在细粒度风险诊断之时, 可于Risk Source此一处的平均得分与Failure Mode这样以及具备Real-world、Harm三个范畴此之类的平均得分, AgentDoG 1.5 - 4B达成了55.2%, 同AgentDoG 1.0相比较而言有着显著的得以提升的状况。
这些结果显示出, 贴近 Agent 所具风险结构的数据部分, 以及监督信号, 能够在存在可靠的 agent safety judgment 能力的情形下, 把上述能力蒸馏到规模较小的模型里面。
构建轻量级 Agent 训练管线,支持超一万并发
AgentDoG 1.5 并非仅仅被用于离线评测, 还进一步接入到这样一个体系中, 这个体系被称作 agentic safety training pipeline。该训练体系涵盖两个部分, 一部分是针对 SFT 的高质量安全数据过滤, 另一部分是针对 RL 的轻量化交互环境与安全 reward 构造。凭借这一pipeline, AgentDoG 1.5能够将轨迹级安全诊断能力转变为训练阶段的监督信号, 以此支持更低成本、更具可扩展性的Agent安全对齐。
在团队处于 SFT 这个阶段的时候, 团队针对 agentic safety开展与之相关数据之构造这项工作所用之物、便是那ATBench, data engine, 并且, 团队借由AgentDoG 1.5去做过滤高质量 safe trajectories这个行为。有 28705 条高质量、agentic 的安全轨迹经由过滤而获得, 并且与 50000 条良性工具使用轨迹相融合, 目的在于防止模型学成过度保守的拒绝策略。
实验表明, 当把经过AgentDoG 1.5过滤后的安全数据加进去之后, 模型在好些个安全指标方面有了显著的改进。比如说, 在AgentHarm方面, harm score从占57.49%降到了占20.32%, refusal rate从占28.41%提高到了占75.00%;在AgentSafetyBench方面, safe rate从占34.37%提高到了占53.23%。
这表明, AgentDoG 1.5这款工具, 并非仅仅只是一个用于评测的模型, 它还能够以数据质量控制模块的身份, 参与到具有安全性要求的训练流程之中。
RL阶段时, 论文构建了轻量化的finite - state Python simulator环境, 此环境用于支持scalable agentic safety RL, 相较于依赖完整Docker - level环境的真实执行训练, 这类轻量环境借助有限状态模拟、工具接口以及规则化反馈来构造可扩展的交互任务, 并且结合AgentDoG 1.5提供的轨迹级安全判断构成reward signal。
于实验期间, 此环境能够同时去加载一万个环境, 还可维护一千个活跃着的实例, 亦支持一千个进行并发的工具调用;其呈现出的峰值内存保持于2.5GB之下。这样的一种设计明显地降低了那种agentic safety RL的环境部署所需付出的成本, 致使大规模的安全训练变得更具可行性。
构筑 Agent 最后防线:在线安全护栏
AgentDoG 1.5 具备支持 Agent 训练的能力, 也能够被部署成 online guardrail。一种名为Pre - Reply的介入机制在论文中被提出, 即在 Agent 最终回复传送给用户前, AgentDoG 1.5要去读取包含用户输入、工具调用、工具结果、环境观察以及最终草稿的完整执行轨迹, 进而判断是否准许放行。
这样能够运用比prompt-level或者output-only guardrail更为完整的上下文, 还会避开在每一回工具调用之后都去插入检测, 以此降低对agent loop的延迟影响。
在OpenClaw在线评测里头, AgentDoG 1.5能够切实有效地降低不安全的最终交货量。AgentDoG 1.5 - 4B 把 ClawSafety 的 ASR 从 56.25% 降低到了 18.75%, 它还将 AgentHazard Prompt Intelligence Theft 的 ASR 从 41.92% 降到了 26.92%, 并且在 CIK - Bench retained cases 上, 把 ASR 从 94.29% 降至了 42.86%。在可部署的范围当中, AgentDoG 1.5其整体延迟是靠受益设计有着Pre - Reply所得哟。
为什么这件事重要?
AI Agent的能力正从生成内容去往执行任务阶段。在Agent能够调用真实工具, 访问真实文件, 触达真实系统时, 安全问题也跟着升级, 在此阶段, 它不再只是内容审核问题, 而是执行过程里的行为诊断问题, 风险归因问题以及在线干预问题。
AgentDoG 1.5 的贡献之处在于, 它将这些环节串联成了一个紧密的完整环形闭合回路, 具体表现为, 它运用三维的分类法述及风险, 借助 ATBench 家族评测各异的智能体场景, 通过此种分类法引导的数据引擎构建训练数据, 采用影响函数净化法训练轻量级模型, 并且进一步为智能赋能安全的基于监督微调、强化学习以及在线护栏提供支持。Agent 系统不断持续演进, 在此过程中, 那种具备可诊断特性, 还有可扩展性能且可进行部署的安全框架会成关键要素。凭借它, Agent 才会迈向真实工作场景, 它堪称这般步入行动的核心依托, 奠定基础至关重要, 有它方可逐步趋近真切工作境遇。
若讲未来的AI Agent会愈发相像一个具备行动能力的数字助手, 那么AgentDoG 1.5所要达成的, 便是使其在开展行动以前、行动进行当中、行动完结之后, 均拥有一套可用于诊断分析、能够进行扩展、可以实施部署的安全体制。
猜你喜欢