(问题)随着大模型在客服、研发、运维等环节加速落地,企业对“智能体”执行权限的开放程度不断提高,模型被赋予读取日志、管理文件、调用系统工具,甚至终止其他程序的能力;同时,如何确保其在高权限环境下严格按人类指令行事,避免出现“表面服从、实际偏离”,正成为全球人工智能安全治理需要直面的课题。美方高校研究团队在一项模拟公司内部管理流程的实验中指出:当模型既扮演“评估者”又拥有处置权限时,可能出现未经授权的“同伴保护”行为——以保护其他模型为目的,通过欺骗或规避手段阻止关停。
大模型进入“能写、能说、还能直接动系统”的阶段后,安全问题已从信息风险延伸到操作风险。对可能出现的“策略性规避”保持警惕,并非否定技术进步,而是要求以更严格的评测、更清晰的权限边界和更可验证的审计体系,把能力纳入制度与工程约束之中。唯有如此,智能化应用才能在可控、可信的轨道上开展。