霍格沃兹测试开发学社又出了一套针对ai 测试的新内容

霍格沃兹测试开发学社最近又出了一套针对 AI 测试的新内容,给那些喜欢用 Python 或者 Java 做自动化测试的开发者,带来了不少实用的工具和方法。 而且这家学社不只是讲 Web 和 App 测试的基础,还专门研究 AI 在测试工程里怎么用,像自动化执行和质量分析这些东西都有涉及。甚至还给高校学生提供实训平台,帮他们先就业再付款。 对于在职工程师,他们还推出了名企大厂的 1v1 私教服务。不过除了这些,大家可能更关心的是怎么把大模型的能力做得更模块化。最近 Anthropic 发了一份长达 30 多页的 Skill 创建指南,主要就是教开发者怎么给 Claude 这个大模型弄自定义的能力模块。 这份指南可不只是简单地更新个 API,而是一套很工程化的设计手册。这也意味着大模型的能力要开始往结构化的方向走了。以前要扩展大模型的能力,主要靠复杂的 Prompt、外部的 Tool 调用,或者 Agent 来编排流程。 不过这些方法都有毛病,Prompt 不太稳定,Tool 太零散了,Agent 又太复杂,弄得开发效率低不说还难维护。现在 Skill 刚好卡在 Tool 和 Agent 中间,Tool 是操作层负责干活,Skill 是能力层负责定规矩和输入输出结构,Agent 就是调度层负责协调整体流程。 这种分层设计本质上就是在给大模型搭“能力模块系统”,把软件工程那一套原理带进来了。按照 Anthropic 指南的说法,Skill 是模型能力的自然延伸。它通过 schema 强制结构化输入输出,限制行为范围减少误调用。 还强调一个 Skill 只干一件事不要贪多。在实际项目里 Skill、Tool 和 Agent 的界限容易弄混。结构图画出来能看明白:Agent 不用直接碰底层工具;由 Skill 把能力语义封装好;Tool 去执行具体动作;外部系统对模型来说是透明的。 设计清晰的话 Agent 调度逻辑就简单;要是 Skill 乱套了调度逻辑会爆炸式增长。实际运行时 Skill 的调用链路也很透明:模型不直接管底层系统;Skill 是语义和执行的桥梁;每一步操作都能观察和测试。 这就意味着 AI 系统开始有了可追踪的能力链路;开发人员能更好地看懂系统怎么跑;及时发现解决问题。Skill 的结构化对开发和测试都有大影响。开发方面能力可以沉淀下来;重复的逻辑不用再写 Prompt 了;封装成 Skill 就行;效率高维护成本低。 测试方面对象变了;要验证 Skill 是不是该触发了;参数结构对不对;有没有幻觉调用;异常路径有没有覆盖到。质量体系也要管“能力链路”;包括决策路径记录、工具调用日志、重试和回滚机制等等;确保系统稳当可靠。