OpenClaw / Hermes 架构下的模型能力评测
2026.06 至今参与兼职评测。对 5 个代号模型在两类 Agent 执行架构下运行同组任务,任务覆盖代码仓库审查、CSV 数据清洗与图表生成、营销活动风险识别。模型名称按任务要求脱敏。
- 观察对象:模型是否能保持上下文、正确调用工具、按要求保存产物,并让最终结论和执行过程一致。
- 失败归因:记录工具调用失败、上下文丢失、多步约束断裂、产物不可验证 4 类问题。
- 产品迁移:把评测中反复出现的问题抽象为“理解意图 -> 调用工具 -> 校验结果 -> 用户确认 -> 保存结果”的可控链路。
- 和飞书相关:飞书 AI 办公场景里的 Agent 需要进入文档、表格、群聊和审批流程。能否做事不只看回答质量,还要看工具调用、状态保持和失败兜底。