在 Reflections 之前,Gumloop Agent 的学习机制由两个被动组件构成:
| 机制 | 触发方式 | 能力 |
|---|---|---|
| Self-Improve Instructions | 用户实时纠正 → Agent 更新 Prompt | 对话内即时修正 |
| Skill Editing | 用户要求或 Agent 学到新事物时 | 创建/修改 Skill |
两者的问题相同:用户必须先发现并指出问题,Agent 才能改进。如果用户习惯了某个低效流程、从未注意到某个重复错误、或者不知道「可以有更好的方式」——Agent 永远不会改进。
Reflections 填补了这个盲区。官方描述:「一个在自动驾驶仪上运行的内置绩效评审。Agent 审查历史工作,跨对话寻找模式,并主动提议改进——Agent 自己在搜寻你没有发现的问题。」
Gumloop 由此形成完整的三层 Agent 学习体系:
┌─────────────────────────────────────────────────────────────────────┐ │ Gumloop Agent 学习体系 │ ├───────────────────┬───────────────────┬─────────────────────────────┤ │ 实时反应层 │ 自主发现层 │ 指令/知识层 │ │ (reactive) │ (proactive) │ (static) │ ├───────────────────┼───────────────────┼─────────────────────────────┤ │ Self-Improve │ Reflections │ Agent Instructions │ │ Instructions │ │ Skills Library │ │ │ │ │ │ "用户说改什么 │ "Agent 自己发现 │ "用户预设的 │ │ 就改什么" │ 该改什么" │ 行为规则" │ └───────────────────┴───────────────────┴─────────────────────────────┘
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│ Step 1 │───▶│ Step 2 │───▶│ Step 3 │───▶│ Step 4 │───▶│ Step 5 │
│ Gather │ │ Mine │ │ Validate │ │ Check │ │ Propose │
│ 收集活动 │ │ 挖掘模式 │ │ 对话验证 │ │ 查重去冗 │ │ 提议改进 │
└──────────┘ └──────────┘ └──────────┘ └──────────┘ └──────────┘
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
工具调用 候选模式 真实+一致 已有知识 改进提案
对话记录 +置信度 +值得修 未覆盖 (卡片形式)
错误日志 +支持数 复的 的 进入审核队列
Step 1 — Gather Recent Activity(收集近期活动)
Agent 聚合自上次 Reflection 运行以来的所有操作日志——工具调用(tool calls)、对话记录(conversations)、错误信息(errors)。这构成分析的原始数据集。
数据范围:仅分析上次运行以来的增量数据——不是全量历史。这使每次运行的计算成本可控,但也意味着低频但重要的长期模式可能被遗漏。
Step 2 — Mine for Patterns(挖掘模式)
系统自动分析原始数据,识别以下候选模式:
每个候选模式附带:
Step 3 — Validate with Transcripts(对话验证) — 关键步骤
这是五步流程中最重要的质量控制环节。Agent 阅读每个候选模式对应的实际对话记录(transcripts),验证三个问题:
被拒绝的情况:
Step 4 — Check Existing Knowledge(检查已有知识)
Agent 审查当前 Instructions 和 Skills,确保提议的修改未被已有配置覆盖。同时检查之前的 Reflections:
Step 5 — Propose Improvements(提议改进)
对每个验证通过的模式,Agent 选择最合适的改进类别(见 2.2),撰写包含以下内容的详细提案:
| 类型 | 触发条件 | 复杂度 | 示例 |
|---|---|---|---|
| New Skill | ≥3 次一致的多步骤工具调用序列 | 高 | 搜索 Jira → 按状态筛选 → 格式化为表格 模式出现 8 次 → 创建「Jira 状态报告」Skill |
| Skill Fix | 现有 Skill 覆盖场景但遗漏边界情况 | 中 | 「客户外联」Skill 未处理 Out-of-Office 自动回复 → 增加 OOO 检测和重试逻辑 |
| Instruction Update | 行为规则或领域知识,非工作流 | 低 | 用户总是纠正「用 UTC 不要用本地时间」→ 更新指令添加「所有时间戳使用 UTC」 |
| Tool Access | Agent 在用 hack 方式绕过缺失的集成 | 中 | Agent 反复用 sandbox curl 调用某 API(而非通过 MCP)→ 提议添加该 MCP 集成 |
| 模式 | 行为 | 适用场景 | 风险 |
|---|---|---|---|
| Review Queue(默认) | 每个提案进入人工审核队列。批准前不对 Agent 做任何修改 | 生产环境、面向客户的 Agent | 低——完全人工控制 |
| Auto-Apply Eligible | 低风险、证据充分的建议自动应用。高风险/不确定的仍进入审核队列 | 内部 Agent、个人助手 | 中——系统被描述为「保守」 |
Auto-Apply 的安全机制:只有同时满足「低风险 + 充分证据」的建议才自动应用。任何存在模糊性的建议——即使只差一点——仍进入审核队列。系统默认宁可漏掉好建议也不自动应用坏建议。
三个可选的通知渠道,均在 Configuration 面板中,默认关闭:
| ID | 触发场景 | 系统行为 | 优先级 |
|---|---|---|---|
| A1 | Cron 触发器到达调度时间 | 系统检查自上次运行以来是否有新活动,无则跳过(零 Credit 消耗),有则启动五步流程 | P0 |
| A2 | Step 1 — 收集 | 聚合上次运行以来的所有工具调用、对话记录和错误日志,形成分析数据集 | P0 |
| A3 | Step 2 — 挖掘 | 自动分析数据集产出候选模式列表,每个附带置信度分数和交互支持次数 | P0 |
| A4 | Step 3 — 验证 | Agent 逐个阅读候选模式对应的实际对话记录,验证真实性、一致性和修复价值 | P0 |
| A5 | Step 4 — 检查 | Agent 审查当前 Instructions/Skills/待处理 Reflections,去重并标记持续性/已解决模式 | P0 |
| A6 | Step 5 — 提议 | 为每个验证通过的模式生成改进提案卡片(标题 + 理由 + 确切提示词) | P0 |
| ID | 触发场景 | 系统行为 | 优先级 |
|---|---|---|---|
| B1 | New Skill 场景(≥3 步重复工作流) | 分析工具调用序列相似度,生成包含完整流程的 Skill 定义 | P0 |
| B2 | Skill Fix 场景(边界情况遗漏) | 对比 Skill 定义与实际执行差异,生成增量修复提示词 | P0 |
| B3 | Instruction Update 场景(行为规则) | 从对话纠正中提取规则,生成指令更新提示词 | P0 |
| B4 | Tool Access 场景(绕过缺失集成) | 检测 sandbox curl / 替代方案使用模式,提议添加正确的 MCP 集成 | P1 |
| ID | 触发场景 | 系统行为 | 优先级 |
|---|---|---|---|
| C1 | 用户打开 Reflections 页面 | 展示所有待处理提案卡片(按日期分组),显示标题、理由、状态、日期 | P0 |
| C2 | 用户点击提案卡片 | 展开完整详情——包含 Agent 获批后将执行的确切提示词 | P0 |
| C3 | 用户点击 Apply(Review Queue 模式) | Agent 启动新的自我改进交互,按提示词创建/修改 Skill 或更新 Instructions | P0 |
| C4 | Auto-Apply 模式触发 | 系统仅自动应用低风险+充分证据的建议;任何模糊建议保持待审核 | P0 |
| C5 | 用户驳回提案 | 提案被标记为 Dismissed,从待处理列表移除。后续运行可生成新版本取代 | P1 |
| C6 | 应用完成后 | Agent 对话历史中创建条目,显示编辑内容和修改原因(变更可见性) | P0 |
| C7 | 权限校验 | 仅 Owner/Editor 可应用/驳回;Viewer 尝试操作时返回权限错误 | P0 |
| ID | 触发场景 | 系统行为 | 优先级 |
|---|---|---|---|
| D1 | 用户配置 Email 报告并验证地址 | Reflection 完成后发送邮件报告到指定地址(含提案摘要和链接) | P1 |
| D2 | 用户开启 Slack DM 报告 | Reflection 完成后发送 DM 给 Agent 所有者(含提案摘要和链接) | P1 |
| D3 | 用户开启跳过通知且至少有一种投递渠道 | Reflection 因无新活动跳过时发送通知 | P2 |
| D4 | 用户未配置任何投递渠道 | Reflection 仅在应用内展示,不发送外部通知 | P0 |
| ID | 触发场景 | 系统行为 | 优先级 |
|---|---|---|---|
| E1 | 用户在 Agent 侧边栏点击 Reflections → Enable | 开启 Reflections,自动创建匹配所选计划的 Cron 触发器 | P0 |
| E2 | 用户配置 Extra Reflection Instructions | 保存自由文本字段内容,作为下次运行时 Agent 的分析焦点引导 | P1 |
| E3 | 用户修改 Apply Behavior | Review Queue ↔ Auto-Apply 即时切换 | P0 |
| E4 | 用户修改 Cron 调度 | 更新触发器计划,下次按新计划运行 | P1 |
用户画像: 张敏,32 岁,电商数据分析师。每天与 Agent 交互 15-20 次。三周前 Snowflake 数据源日期格式变更后,每次查询完都要手动加一句「把日期转成 YYYY-MM-DD」。她已经习惯了每次都加这句话——从未想过可以让 Agent 记住。
验收标准:
用户画像: 陈立,28 岁,客服团队 Lead。Agent 在处理客户问题时经常需要在 Zendesk 工单中添加内部备注,但团队只给 Agent 配了 Zendesk 的「读工单」权限。Agent 开始用「发邮件给客服经理」来替代——这能工作但很不优雅。陈立不知道这个问题,因为 Agent 确实完成了任务(虽然方式曲折)。
验收标准:
用户画像: 王磊,35 岁,独立开发者。每次让 Agent 生成代码时都要纠正两件事:「注释用英文不要用中文」、「Python 脚本用 pathlib 不要用 os.path」。他平均每天纠正 3-4 次,已经变成肌肉记忆——他不再觉得这是「问题」,只是「必要的事前说明」。
验收标准:
| 竞品 | 功能/行为 | 优势 | 劣势 | 洞察/机会 |
|---|---|---|---|---|
| ChatGPT Memory | 跨对话记住用户偏好(被动存储) | 简单、自动、无需配置 | 被动存储——只记住你说过的,不主动发现你没意识到的模式。无审查/回滚机制 | Reflections 是主动发现 + 人工审核,质量远高于被动记忆 |
| Claude Custom Instructions + Projects | 手动配置持久指令 + 静态知识库 | 完全可控、可审查、可版本化 | 完全手动——用户必须自己发现并撰写所有规则。无自动学习 | Reflections 填补了「发现机会」的空白——Claude 知道指令但不知道什么时候该更新指令 |
| LangGraph Reflexion Pattern | 开发者框架中的反思循环(任务内自修正) | 高度可定制,开源灵活 | 需编码实现,无产品化 UI。单任务内——不跨对话,不持久化学习 | 产品化是关键差异——Gumloop 的 Reflections 是开箱即用的,有完整的审核 UI 和 Cron 调度 |
| AutoGPT 自反馈循环 | 任务内自我修正和重试 | 开源,理念先进 | 不稳定——缺乏验证步骤,容易「学错」然后放大错误。无人工审核机制 | Reflections 的 Step 3(对话验证)是防止学错的核心壁垒——AutoGPT 没有这个 |
| Gumloop Self-Improve Instructions | 对话内用户纠正 → 实时更新 Prompt | 即时反馈,学习速度快 | 仅修用户明确纠正的问题——用户没发现的永远不会改 | Reflections 是 Self-Improve 的互补——一个修已知,一个发现未知 |
| 漏斗阶段 | 事件名称 | 触发条件 | 指标/KPI | 优先级 |
|---|---|---|---|---|
| 采用 | reflection_enabled | 用户为 Agent 开启 Reflections | 开启率(开启 Agent 数/总 Agent 数) | P0 |
| 采用 | reflection_apply_behavior_changed | 用户切换 Apply Behavior | Review Queue vs Auto-Apply 分布 | P1 |
| 执行 | reflection_run_started | Cron 触发 Reflection 运行 | 运行次数/Agent/周 | P0 |
| 执行 | reflection_run_skipped | 因无新活动跳过 | 跳过率(跳过次数/计划运行次数) | P1 |
| 质量 | reflection_pattern_mined | Step 2 挖掘出候选模式 | 候选模式数/运行 | P0 |
| 质量 | reflection_pattern_validated | Step 3 验证通过 | 验证通过率(通过数/候选数) | P0 |
| 质量 | reflection_proposal_created | Step 5 生成提案 | 提案数/运行 | P0 |
| 质量 | reflection_proposal_by_type | 提案按类型分组 | New Skill / Skill Fix / Instruction / Tool Access 分布 | P1 |
| 采用 | reflection_proposal_applied | 用户审核后点击 Apply | 采纳率(已应用/总提案数) | P0 |
| 采用 | reflection_proposal_dismissed | 用户驳回提案 | 驳回率 | P1 |
| 影响 | reflection_user_correction_rate | 用户对 Agent 的纠正频率 | 纠正次数/对话(期望随 Reflections 下降) | P0 |
| 影响 | reflection_auto_applied | Auto-Apply 自动应用建议 | Auto-Apply 占比 | P1 |
| 阶段 | 时间线 | 里程碑 | 状态 |
|---|---|---|---|
| Phase 1 — 核心反思 | v9.7.0 | 五步流程 + 四种改进类型 + Review Queue + Cron 调度 + 权限模型 | 已发布 |
| Phase 2 — 增强交付 | v9.8.0+ | Email/Slack 报告投递、跳过通知、Extra Reflection Instructions | 已发布 |
| Phase 3 — 智能调度 | v10.x | 自适应 Cron(根据 Agent 活跃度自动调整频率)、提案优先级排序、长周期深度反思(月度/季度——捕获低频长期模式) | 规划中 |
| Phase 4 — 跨 Agent 学习 | v11.x | 团队级模式发现(「5 个 Agent 都遇到了同一个 API 问题」)、最佳实践自动跨 Agent 分享、组织级 Reflections 仪表盘 | 探索中 |
| Phase 5 — 预测式优化 | 远期 | 在问题发生前预测并提议修复(「你的 API 配额下周将达到上限,建议现在添加限流」)、外部环境变化感知(「Salesforce API v52 即将弃用,你的 3 个 Skills 需要更新」) | 探索中 |
由 Claude 竞品情报系统生成 · 来源:Gumloop Reflections 帮助文档 · 评分 13/13(战略3 护城河3 用户3 复杂度2 创新2)