初始上下文

产品/团队
Gumloop / AI Agent 平台
功能
Reflections — Agent 定时自主审查历史工作、跨对话发现模式、自动提议改进的学习系统
版本起源
v9.7.0 "Port Hope" (2026-05-22)
描述
Reflections 是 Agent 的「元认知层」。Agent 按照 Cron 计划定期回顾自上次运行以来的所有交互——对话记录、工具调用、错误日志——通过五步流程(收集→挖掘→验证→检查→提议)自动发现跨对话的系统性问题,并生成具体的改进提案。提案以卡片形式进入审核队列,用户审核后一键应用。四种改进类型覆盖:新建 Skill、修复 Skill、更新 Instructions、调整 Tool Access
战略动机
此前 Agent 仅在被手动纠正或编辑指令时才改进——「这无法规模化」。Reflections 开启了 Agent 的学习飞轮:更多使用 → 更多反思数据 → 更好的 Agent → 更多使用。这是从 Tool-Agent 到 Learning-Agent 的关键跃迁
目标用户与痛点
(1) 高频 Agent 用户(每日 10+ 交互)——手动改进跟不上使用速度 (2) 团队 Agent 管理者——希望 Agent 从团队协作中持续优化 (3) Agent Builder——减少手工微调工作量
平台范围
Web 端。报告可通过 Slack DM 或 Email 投递。仅 Owner/Editor 可应用 Reflections
关键成功指标
Reflection 提案采纳率、Reflection 启用率、Agent 用户纠正频率下降比例、Auto-Apply 占比

1. 概览

背景

在 Reflections 之前,Gumloop Agent 的学习机制由两个被动组件构成:

机制触发方式能力
Self-Improve Instructions用户实时纠正 → Agent 更新 Prompt对话内即时修正
Skill Editing用户要求或 Agent 学到新事物时创建/修改 Skill

两者的问题相同:用户必须先发现并指出问题,Agent 才能改进。如果用户习惯了某个低效流程、从未注意到某个重复错误、或者不知道「可以有更好的方式」——Agent 永远不会改进。

Reflections 填补了这个盲区。官方描述:「一个在自动驾驶仪上运行的内置绩效评审。Agent 审查历史工作,跨对话寻找模式,并主动提议改进——Agent 自己在搜寻你没有发现的问题。」

Gumloop 由此形成完整的三层 Agent 学习体系:

┌─────────────────────────────────────────────────────────────────────┐
│                     Gumloop Agent 学习体系                           │
├───────────────────┬───────────────────┬─────────────────────────────┤
│  实时反应层         │  自主发现层         │  指令/知识层               │
│  (reactive)        │  (proactive)       │  (static)                  │
├───────────────────┼───────────────────┼─────────────────────────────┤
│  Self-Improve      │  Reflections       │  Agent Instructions        │
│  Instructions      │                    │  Skills Library            │
│                    │                    │                            │
│  "用户说改什么       │  "Agent 自己发现     │  "用户预设的               │
│   就改什么"          │   该改什么"          │   行为规则"                │
└───────────────────┴───────────────────┴─────────────────────────────┘

目标

  1. 发现盲区问题:Agent 自动发现跨对话的系统性模式——用户可能习惯了某个低效流程但从未意识到可以改进
  2. 降低改进成本:一次审批替代数十次手动调整——从 O(n) 到 O(1)
  3. 建立学习飞轮:使用越多 → 反思数据越多 → Agent 越聪明 → 使用体验越好 → 使用更多
  4. 知识沉淀:发现的模式转化为永久性的 Skill/Instruction 改进,而非一次性修正

2. 核心机制

2.1 五步反思流程

┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐
│  Step 1  │───▶│  Step 2  │───▶│  Step 3  │───▶│  Step 4  │───▶│  Step 5  │
│ Gather   │    │  Mine    │    │ Validate │    │  Check   │    │ Propose  │
│ 收集活动  │    │ 挖掘模式  │    │ 对话验证  │    │ 查重去冗  │    │ 提议改进  │
└──────────┘    └──────────┘    └──────────┘    └──────────┘    └──────────┘
     │               │               │               │               │
     ▼               ▼               ▼               ▼               ▼
  工具调用        候选模式        真实+一致        已有知识        改进提案
  对话记录        +置信度         +值得修         未覆盖          (卡片形式)
  错误日志        +支持数         复的             的             进入审核队列

Step 1 — Gather Recent Activity(收集近期活动)

Agent 聚合自上次 Reflection 运行以来的所有操作日志——工具调用(tool calls)、对话记录(conversations)、错误信息(errors)。这构成分析的原始数据集。

数据范围:仅分析上次运行以来的增量数据——不是全量历史。这使每次运行的计算成本可控,但也意味着低频但重要的长期模式可能被遗漏。

Step 2 — Mine for Patterns(挖掘模式)

系统自动分析原始数据,识别以下候选模式:

每个候选模式附带:

Step 3 — Validate with Transcripts(对话验证) — 关键步骤

这是五步流程中最重要的质量控制环节。Agent 阅读每个候选模式对应的实际对话记录(transcripts),验证三个问题:

  1. 模式是否真实存在?(不是统计噪声)
  2. 模式是否跨不同交互一致?(不是单次特定情境)
  3. 模式是否值得修复?(修复的成本是否低于继续承受的代价)

被拒绝的情况:

Step 4 — Check Existing Knowledge(检查已有知识)

Agent 审查当前 Instructions 和 Skills,确保提议的修改未被已有配置覆盖。同时检查之前的 Reflections:

Step 5 — Propose Improvements(提议改进)

对每个验证通过的模式,Agent 选择最合适的改进类别(见 2.2),撰写包含以下内容的详细提案:

2.2 四种改进类型

类型触发条件复杂度示例
New Skill≥3 次一致的多步骤工具调用序列搜索 Jira → 按状态筛选 → 格式化为表格 模式出现 8 次 → 创建「Jira 状态报告」Skill
Skill Fix现有 Skill 覆盖场景但遗漏边界情况「客户外联」Skill 未处理 Out-of-Office 自动回复 → 增加 OOO 检测和重试逻辑
Instruction Update行为规则或领域知识,非工作流用户总是纠正「用 UTC 不要用本地时间」→ 更新指令添加「所有时间戳使用 UTC」
Tool AccessAgent 在用 hack 方式绕过缺失的集成Agent 反复用 sandbox curl 调用某 API(而非通过 MCP)→ 提议添加该 MCP 集成

2.3 应用行为(Apply Behavior)

模式行为适用场景风险
Review Queue(默认)每个提案进入人工审核队列。批准前不对 Agent 做任何修改生产环境、面向客户的 Agent低——完全人工控制
Auto-Apply Eligible低风险、证据充分的建议自动应用。高风险/不确定的仍进入审核队列内部 Agent、个人助手中——系统被描述为「保守」

Auto-Apply 的安全机制:只有同时满足「低风险 + 充分证据」的建议才自动应用。任何存在模糊性的建议——即使只差一点——仍进入审核队列。系统默认宁可漏掉好建议也不自动应用坏建议。

2.4 调度与跳过

2.5 报告投递

三个可选的通知渠道,均在 Configuration 面板中,默认关闭

2.6 权限模型


3. 功能需求

模块 A — 反思执行引擎

ID触发场景系统行为优先级
A1Cron 触发器到达调度时间系统检查自上次运行以来是否有新活动,无则跳过(零 Credit 消耗),有则启动五步流程P0
A2Step 1 — 收集聚合上次运行以来的所有工具调用、对话记录和错误日志,形成分析数据集P0
A3Step 2 — 挖掘自动分析数据集产出候选模式列表,每个附带置信度分数和交互支持次数P0
A4Step 3 — 验证Agent 逐个阅读候选模式对应的实际对话记录,验证真实性、一致性和修复价值P0
A5Step 4 — 检查Agent 审查当前 Instructions/Skills/待处理 Reflections,去重并标记持续性/已解决模式P0
A6Step 5 — 提议为每个验证通过的模式生成改进提案卡片(标题 + 理由 + 确切提示词)P0

模块 B — 改进类型

ID触发场景系统行为优先级
B1New Skill 场景(≥3 步重复工作流)分析工具调用序列相似度,生成包含完整流程的 Skill 定义P0
B2Skill Fix 场景(边界情况遗漏)对比 Skill 定义与实际执行差异,生成增量修复提示词P0
B3Instruction Update 场景(行为规则)从对话纠正中提取规则,生成指令更新提示词P0
B4Tool Access 场景(绕过缺失集成)检测 sandbox curl / 替代方案使用模式,提议添加正确的 MCP 集成P1

模块 C — 审核与应用

ID触发场景系统行为优先级
C1用户打开 Reflections 页面展示所有待处理提案卡片(按日期分组),显示标题、理由、状态、日期P0
C2用户点击提案卡片展开完整详情——包含 Agent 获批后将执行的确切提示词P0
C3用户点击 Apply(Review Queue 模式)Agent 启动新的自我改进交互,按提示词创建/修改 Skill 或更新 InstructionsP0
C4Auto-Apply 模式触发系统仅自动应用低风险+充分证据的建议;任何模糊建议保持待审核P0
C5用户驳回提案提案被标记为 Dismissed,从待处理列表移除。后续运行可生成新版本取代P1
C6应用完成后Agent 对话历史中创建条目,显示编辑内容和修改原因(变更可见性)P0
C7权限校验仅 Owner/Editor 可应用/驳回;Viewer 尝试操作时返回权限错误P0

模块 D — 报告投递

ID触发场景系统行为优先级
D1用户配置 Email 报告并验证地址Reflection 完成后发送邮件报告到指定地址(含提案摘要和链接)P1
D2用户开启 Slack DM 报告Reflection 完成后发送 DM 给 Agent 所有者(含提案摘要和链接)P1
D3用户开启跳过通知且至少有一种投递渠道Reflection 因无新活动跳过时发送通知P2
D4用户未配置任何投递渠道Reflection 仅在应用内展示,不发送外部通知P0

模块 E — 配置

ID触发场景系统行为优先级
E1用户在 Agent 侧边栏点击 Reflections → Enable开启 Reflections,自动创建匹配所选计划的 Cron 触发器P0
E2用户配置 Extra Reflection Instructions保存自由文本字段内容,作为下次运行时 Agent 的分析焦点引导P1
E3用户修改 Apply BehaviorReview Queue ↔ Auto-Apply 即时切换P0
E4用户修改 Cron 调度更新触发器计划,下次按新计划运行P1

4. 用户场景

场景 1 — 数据分析师:Agent 自动发现重复格式问题

用户画像: 张敏,32 岁,电商数据分析师。每天与 Agent 交互 15-20 次。三周前 Snowflake 数据源日期格式变更后,每次查询完都要手动加一句「把日期转成 YYYY-MM-DD」。她已经习惯了每次都加这句话——从未想过可以让 Agent 记住。

作为数据分析师,我希望 Agent 能在我自己都没意识到的情况下,发现「每次查 Snowflake 都要手动转日期格式」这个重复模式,并自动提议创建一个 Skill 来永久解决它——这样我就不用每次浪费 2 条消息做格式转换。

验收标准:

  • Reflections 按每日计划运行
  • Step 2 挖掘出「Snowflake 日期格式转换」为候选模式(置信度高,8 次出现)
  • Step 3 通过对话记录验证——确认每次都是同一个转换需求
  • Step 4 检查后发现当前 Skills 中没有覆盖
  • Step 5 生成「New Skill: Snowflake 日期格式化」提案——标题明确、理由基于证据、提示词可执行
  • 张敏在 Reflections 页面看到卡片,审核提示词后点击 Apply
  • Agent 创建 Skill,以后查询 Snowflake 自动转换日期格式
  • 对话历史中出现一条记录:「根据 Reflection 提案 #XX 创建了 Snowflake 格式化 Skill」

场景 2 — 客服团队 Lead:Agent 发现缺失的集成

用户画像: 陈立,28 岁,客服团队 Lead。Agent 在处理客户问题时经常需要在 Zendesk 工单中添加内部备注,但团队只给 Agent 配了 Zendesk 的「读工单」权限。Agent 开始用「发邮件给客服经理」来替代——这能工作但很不优雅。陈立不知道这个问题,因为 Agent 确实完成了任务(虽然方式曲折)。

作为客服团队 Lead,我希望 Reflections 能发现 Agent 在反复用「发邮件给某人」来替代「写 Zendesk 内部备注」——这说明 Agent 缺少一个正确的集成。然后 Reflections 提议添加 Zendesk 写入权限,而不是让我自己去排查 Agent 为什么老是发邮件。

验收标准:

  • Step 2 挖掘出「sandbox curl 调用 Zendesk API」或「替代性邮件发送」模式
  • Step 3 验证模式真实且一致
  • Step 5 生成「Tool Access: 添加 Zendesk 内部备注 MCP 工具」提案
  • 陈立审核后批准,Agent 获得正确工具

场景 3 — 独立开发者:从反复纠正到自动学习

用户画像: 王磊,35 岁,独立开发者。每次让 Agent 生成代码时都要纠正两件事:「注释用英文不要用中文」、「Python 脚本用 pathlib 不要用 os.path」。他平均每天纠正 3-4 次,已经变成肌肉记忆——他不再觉得这是「问题」,只是「必要的事前说明」。

作为开发者,我希望 Reflections 能发现我在反复纠正 Agent 的代码风格——这不是什么大问题,但加起来每天浪费 5-10 分钟。Reflections 应该自动提议将这些纠正写入 Agent 指令,让我不再需要重复说。

验收标准:

  • Step 2 挖掘出「代码风格纠正」模式(涉及注释语言、文件路径库)
  • Step 5 生成「Instruction Update: 编码规范」提案
  • 王磊审核后点击 Apply,Agent 指令更新
  • 后续对话中 Agent 默认使用英文注释 + pathlib
  • 王磊的每日纠正次数下降 80%+

5. 竞争分析

竞品功能/行为优势劣势洞察/机会
ChatGPT Memory跨对话记住用户偏好(被动存储)简单、自动、无需配置被动存储——只记住你说过的,不主动发现你没意识到的模式。无审查/回滚机制Reflections 是主动发现 + 人工审核,质量远高于被动记忆
Claude Custom Instructions + Projects手动配置持久指令 + 静态知识库完全可控、可审查、可版本化完全手动——用户必须自己发现并撰写所有规则。无自动学习Reflections 填补了「发现机会」的空白——Claude 知道指令但不知道什么时候该更新指令
LangGraph Reflexion Pattern开发者框架中的反思循环(任务内自修正)高度可定制,开源灵活需编码实现,无产品化 UI。单任务内——不跨对话,不持久化学习产品化是关键差异——Gumloop 的 Reflections 是开箱即用的,有完整的审核 UI 和 Cron 调度
AutoGPT 自反馈循环任务内自我修正和重试开源,理念先进不稳定——缺乏验证步骤,容易「学错」然后放大错误。无人工审核机制Reflections 的 Step 3(对话验证)是防止学错的核心壁垒——AutoGPT 没有这个
Gumloop Self-Improve Instructions对话内用户纠正 → 实时更新 Prompt即时反馈,学习速度快仅修用户明确纠正的问题——用户没发现的永远不会改Reflections 是 Self-Improve 的互补——一个修已知,一个发现未知

关键洞察

  1. 「主动」是范式分水岭:所有现有 Agent 学习方案都需要用户先发现问题再触发改进。Reflections 是首个让 Agent 自主发现改进空间的产品化方案。这改变了 Agent 与用户的关系——Agent 不再只是「执行者」,而是「自我进化的协作者」
  2. 验证步骤是核心壁垒:Step 3(读取对话记录验证模式真实性)是 Reflections 与学术界的 Reflexion/LangGraph 方案的关键差异——后者没有验证步骤或验证很弱。没有验证的自动学习 = 逐步学错 + 放大错误。Gumloop 通过「人工审核队列」建立了额外的安全层
  3. 学习飞轮 vs 一次性分析:Reflections 的增量设计(每次只分析上次运行以来的新活动)比全量分析更高效,但可能遗漏低频但重要的长期模式——这是未来「长周期 Reflections」或「季度深度反思」的演进空间
  4. 团队级学习是网络效应:当前 Reflections 是 per-Agent 的。如果未来扩展到跨 Agent(「3 个 Agent 都遇到了同一个 API 问题」),将产生网络效应——一个 Agent 学到的可以即时惠及整个组织

6. 遥测

漏斗阶段事件名称触发条件指标/KPI优先级
采用reflection_enabled用户为 Agent 开启 Reflections开启率(开启 Agent 数/总 Agent 数)P0
采用reflection_apply_behavior_changed用户切换 Apply BehaviorReview Queue vs Auto-Apply 分布P1
执行reflection_run_startedCron 触发 Reflection 运行运行次数/Agent/周P0
执行reflection_run_skipped因无新活动跳过跳过率(跳过次数/计划运行次数)P1
质量reflection_pattern_minedStep 2 挖掘出候选模式候选模式数/运行P0
质量reflection_pattern_validatedStep 3 验证通过验证通过率(通过数/候选数)P0
质量reflection_proposal_createdStep 5 生成提案提案数/运行P0
质量reflection_proposal_by_type提案按类型分组New Skill / Skill Fix / Instruction / Tool Access 分布P1
采用reflection_proposal_applied用户审核后点击 Apply采纳率(已应用/总提案数)P0
采用reflection_proposal_dismissed用户驳回提案驳回率P1
影响reflection_user_correction_rate用户对 Agent 的纠正频率纠正次数/对话(期望随 Reflections 下降)P0
影响reflection_auto_appliedAuto-Apply 自动应用建议Auto-Apply 占比P1

7. 未来演进方向

阶段时间线里程碑状态
Phase 1 — 核心反思v9.7.0五步流程 + 四种改进类型 + Review Queue + Cron 调度 + 权限模型已发布
Phase 2 — 增强交付v9.8.0+Email/Slack 报告投递、跳过通知、Extra Reflection Instructions已发布
Phase 3 — 智能调度v10.x自适应 Cron(根据 Agent 活跃度自动调整频率)、提案优先级排序、长周期深度反思(月度/季度——捕获低频长期模式)规划中
Phase 4 — 跨 Agent 学习v11.x团队级模式发现(「5 个 Agent 都遇到了同一个 API 问题」)、最佳实践自动跨 Agent 分享、组织级 Reflections 仪表盘探索中
Phase 5 — 预测式优化远期在问题发生前预测并提议修复(「你的 API 配额下周将达到上限,建议现在添加限流」)、外部环境变化感知(「Salesforce API v52 即将弃用,你的 3 个 Skills 需要更新」)探索中

关键演进判断

  1. Review Queue → Auto-Apply 的转化率是关键信任指标:默认 Review Queue 是正确的保守策略。随着用户对提案质量建立信任,Auto-Apply 的使用比例将反映系统成熟度。如果 Auto-Apply 占比超过 70% 而用户纠正率未上升,说明系统足够可靠
  2. 团队级学习是质变而非增量改进:单 Agent 学习是线性增长(1 个 Agent 学习 1 份经验),跨 Agent 学习是网络效应(N 个 Agent 共享 N 份经验)。当团队中的任何一个 Agent 学到的东西能即时惠及所有 Agent,迁移成本将达到极值——一个经过 6 个月团队级 Reflections 训练的组织,技术上可以迁移到其他平台,但知识积累全部归零
  3. 验证步骤的质量退化是最大风险:如果 Step 3 因为成本压力或架构变更而弱化(如从「阅读完整对话记录」退化为「看摘要」),用户信任会迅速崩塌。这是 Reflections 的「不做就会死」的底线
  4. 长周期 Reflections 捕获低频模式:当前增量设计只看上次运行以来的新活动——日频运行看不到「每月初报表格式需要调整」这种月度模式。需要专门的季度/月度深度反思

源文档参考


由 Claude 竞品情报系统生成 · 来源:Gumloop Reflections 帮助文档 · 评分 13/13(战略3 护城河3 用户3 复杂度2 创新2)