Feishu AI Innovation

飞书 AI 创新方向作品集

围绕 AI 办公和 Agent 协作场景整理的作品集。项目关注任务拆解、工具调用、人工确认和结果校验，目标是把 AI 放进可追溯、可恢复的工作流。

核心判断：Agent 进入办公场景后，需要完成理解意图、调用工具、校验结果、交回用户确认和保存产物这几个关键动作。

Evidence

项目证据

15

① 模型评测记录

5 个代号模型 × 3 类复合任务，观察多步执行和工具调用边界。

7×3

② 协作 IM 对比

对比飞书、钉钉、企微在摘要、待办转化、权限和数据回流上的差异。

7

③ Agent 状态节点

nl2sql 原型拆到意图、Schema、SQL、校验、审批、重试和答案合成。

6

④ 产品评估维度

用 Skill Lens 拆解场景必要性、任务完成、工具状态、失败恢复和责任边界。

Selected Work

核心项目

① Agent Evaluation

OpenClaw / Hermes 架构下的模型能力评测

2026.06 至今参与兼职评测。对 5 个代号模型在两类 Agent 执行架构下运行同组任务，任务覆盖代码仓库审查、CSV 数据清洗与图表生成、营销活动风险识别。模型名称按任务要求脱敏。

观察对象：模型是否能保持上下文、正确调用工具、按要求保存产物，并让最终结论和执行过程一致。
失败归因：记录工具调用失败、上下文丢失、多步约束断裂、产物不可验证 4 类问题。
产品迁移：把评测中反复出现的问题抽象为“理解意图 -> 调用工具 -> 校验结果 -> 用户确认 -> 保存结果”的可控链路。
和飞书相关：飞书 AI 办公场景里的 Agent 需要进入文档、表格、群聊和审批流程。能否做事不只看回答质量，还要看工具调用、状态保持和失败兜底。

② Collaboration IM

群聊总结到待办候选方案

个人方案作品。以企业协作 IM 为样例，拆解群聊消息过载、结论分散、责任不清和后续跟进弱的问题。

功能链路：消息总结 -> 结论 / 待办 / 风险 / 待确认提取 -> 用户确认 -> 转待办 -> 群提醒。
对比维度：IM 降噪、AI 入口、摘要、待办转化、来源追溯、权限合规、数据回流。
设计边界：AI 只生成候选，不自动派活；权限继承群聊规则，关键动作保留来源。
可迁移点：协作产品里的 AI 不必只停留在聊天入口，更大的机会在消息、文档、任务和流程之间的连接处。

③ Agent Prototype

nl2sql Agent 原型

腾讯云 CNB AI 应用训练营项目。基于 LangGraph / LangChain 搭建 nl2sql Agent 原型，将自然语言查询拆成可检查、可审批、可重试的执行流程。

状态节点：意图解析、Schema 检索、SQL 生成、预校验、人工审批、失败重试、答案合成。
风险控制：加入 EXPLAIN QUERY PLAN 预校验、查询风险控制和审计日志，避免生成结果直接进入高风险执行。
可迁移点：可迁移到多维表格的自然语言查询场景，关键在于在“模型生成”和“系统执行”之间加入校验层。

Method

Skill Lens：AI 产品审计方法

④ Product Audit Framework

从“好不好用”拆到“哪里会失败”

Skill Lens 是 2026.04 形成的 AI 产品审计框架，2026.06 结合模型评测经历升级。它用于拆解 Agent、Prompt、Workflow 和 badcase，帮助把体验判断转成可复查的证据和改进动作。

先看证据

先建立 Source Pack，再判断结论可信度，避免只凭主观体验评价 AI 功能。

判断是否值得深挖

根据证据、架构复杂度、复用价值和评估价值，决定做快速扫描还是完整审计。

拆执行路径

看入口、意图路由、工具调用、状态保持、产物输出和校验反馈。

看失败路径

关注无效输入、工具失败、上下文丢失、长任务中断和高风险动作确认。

划责任边界

区分模型决定、工具执行和人工审批，避免自动化越权。

给下一步实验

输出修复动作和下一轮验证指标，把问题归因接到后续迭代。

Role Fit

与飞书 AI 创新方向的匹配点

未来人 × Agent 协作

关注 Agent 如何从问答入口进入真实任务流，并在工具调用、保存结果和人工确认之间形成稳定链路。

协作场景理解

IM 方案围绕群聊总结后的待办候选、责任确认和来源追溯展开，核心是把摘要接到后续协作动作。

Agent 执行判断

模型评测经历让我更关注多步任务是否断链、产物是否可验证、失败后有没有可恢复路径。

能做原型与评估

nl2sql 原型提供状态机和风险校验实践；Skill Lens 用于把 badcase 转成下一轮评估和修复动作。