Superpowers:让 AI Agent 获得专家级能力的技能框架 背景简介 在 AI 辅助软件开发领域,如何让 AI Agent 像人类专家一样工作一直是核心挑战。传统的 AI 编程工具虽然功能强大,但在处理复杂任务时往往缺乏系统性方法——它们可能会直接开始编码,而不是先理解需求、规划方案。
Superpowers 是由 Keyboardio 联合创始人 Jesse Vincent 开发的一个 AI Agent 技能框架和软件开发方法论。该项目在 GitHub 上已获得超过 134000 个 Star,成为 AI 编程工作流领域的标杆工具。
什么是 Superpowers Superpowers 是一个为 AI 编程 Agent 设计的技能框架和工作流工具集。它的核心理念是:将人类专家的开发习惯和工作流程传授给 AI Agent,让 AI 能够系统性地处理复杂任务,而不是盲目跳入编码。
核心设计理念 Superpowers 基于一个关键洞察:AI Agent 在处理复杂代码时经常失败,但通过特定的技能(Skills)引导,AI 可以表现得像人类专家一样。这些技能封装了:
系统性思考:先理解需求,再制定计划 质量控制:在实现前先验证,在修改后确认 工具使用:正确使用调试、测试、审查等工具 迭代优化:持续改进而非一次完成 技能(Skills)机制 Superpowers 的技能系统受 Simon Willison 提出的 Claude Skills 概念启发。每个技能是一个独立的指令集,可以被 AI Agent 按需加载和使用。技能的核心文件是 SKILL.md,其中包含:
技能的用途说明 使用场景和触发条件 具体的工作流程和步骤 工具映射说明 思维导图:Superpowers 整体架构 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 ┌─────────────────────────────────────────┐ │ Superpowers 框架 │ └─────────────────────────────────────────┘ │ ┌─────────────────────────────────┼─────────────────────────────────┐ │ │ │ ▼ ▼ ▼ ┌─────────────────────┐ ┌─────────────────────┐ ┌─────────────────────┐ │ 核心概念 │ │ 主要技能 │ │ 工具集成 │ │ │ │ │ │ │ └─────────────────────┘ └─────────────────────┘ └─────────────────────┘ │ │ │ ├─技能框架(Skills) ├─brainstorming ├─OpenCode ├─Agent工作流 ├─verification-before-completion ├─Claude Code ├─工具映射 ├─receiving-code-review ├─Codex └─Bootstrap机制 ├─requesting-code-review └─MCP Servers ├─test-driven-development ├─systematic-debugging └─.
OpenAI Tokenizer 在线工具详解 什么是 Tokenizer 在深入了解 OpenAI Tokenizer 工具之前,我们首先需要理解什么是 Token(词元)。
Token 是 OpenAI 模型处理文本的基本单位。它们可以是短至单个字符,也可以长至整个单词,具体取决于语言和编码方式。对于英文文本,大约 4 个字符等于 1 个 Token;对于中文文本,通常 1-2 个汉字等于 1 个 Token。
理解 Token 的概念对于使用 OpenAI API 至关重要,因为:
API 计费:OpenAI 按 Token 数量计费,了解 Token 数量可以帮助估算成本 上下文窗口:每个模型有固定的上下文窗口限制(通常是 4K、8K、16K、32K、128K 等),Token 数决定了能输入多少内容 优化提示:了解 Token 计数可以帮助优化提示词,提高效率 OpenAI Tokenizer 工具概述 OpenAI Tokenizer 是官方提供的在线工具,访问地址为:https://platform.openai.com/tokenizer
这个工具允许开发者直观地看到任意文本被如何分词(Tokenize),以及对应的 Token 数量。这对于以下场景特别有用:
学习 Token 概念 估算 API 调用成本 优化提示词长度 调试 Token 相关问题 工具界面与功能 主要功能区域 OpenAI Tokenizer 工具界面主要包含以下几个部分:
1. 文本输入区
Harness Engineering 与 Ralph Loop 的关系解析 背景介绍 在AI辅助软件开发领域,两种重要的方法论正在引起广泛关注:Harness Engineering(架具工程) 和 Ralph Loop。前者由Thoughtworks的Birgitta Böckeler在Martin Fowler博客上系统阐述,后者是Ralphable团队提出的自动化循环方法。虽然两者出现的背景和关注点不同,但它们在提升AI Agent可靠性方面存在着深刻的互补关系。
什么是Harness Engineering Harness Engineering(架具工程)是一种系统性地构建AI Agent运行环境的方法论,其核心观点是:Agent = Model + Harness。也就是说,除了模型本身的智能之外,围绕模型构建的“架具”系统同样关键。
核心组件:引导与传感器 Harness Engineering将架具分为两大类组件:
引导(Guides)- 前馈控制
引导旨在预测Agent的行为并在其行动之前进行引导,目标是在第一次尝试就产生良好结果。引导可以是:
计算型引导:确定性且快速,如LSP、语言服务器、CLI工具、脚本、codemods 推理型引导:基于语义分析,如AGENTS.md、Skills、文档 传感器(Sensors)- 反馈控制
传感器在Agent行动后进行观察,帮助其自我修正。特别强大的是那些针对LLM消费优化的传感器,例如包含修正指令的自定义linter消息——一种积极的提示注入。
1 2 3 4 5 6 7 8 # 计算型传感器示例 npx eslint # 代码风格检查 npm run coverage # 测试覆盖率 semgrep # 安全扫描 # 推理型传感器示例 /code-review # AI代码审查 /architecture-review # 架构审查 调节类别 Harness Engineering将架具分为三个调节维度:
可维护性架具:调节代码质量和内部结构,如代码风格、复杂度、测试覆盖 架构适应性架具:定义和检查应用的架构特性,如性能要求、可观测性标准 行为架具:指导并感知应用功能行为,这是目前最具挑战性的领域 什么是Ralph Loop Ralph Loop是一种结构化的任务执行循环方法论,让AI能够自动迭代直到所有显式的成功标准都满足。其核心是一个四阶段循环:执行 → 评估 → 修复 → 重复。
Ralph Loop:让AI自动循环直到任务完成 背景简介 在AI辅助开发日益普及的今天,一个根本性问题困扰着开发者:AI从来不会真正“完成”工作。它可以给出接近完美的答案,却很少交付生产级别的完整解决方案。这是因为传统AI交互遵循“单次”或“对话循环”模式——你提问,AI回答,你指出问题,AI修改,如此往复,直到你疲倦并接受“差不多就行”的结果。
2025年,一个名为Ralph Loop的开源方法论应运而生,旨在解决这个AI完成度问题。该方法论由Ralphable团队提出,核心思想是将AI任务执行转变为结构化的循环过程,直到所有显式的成功标准都得到满足。截至目前,最流行的Ralph实现(snarktank/ralph)在GitHub上已获得超过14000个Star,成为AI自动化开发领域的标杆方法。
什么是Ralph Loop Ralph Loop是一种结构化的任务执行循环,其中Claude Code或GitHub Copilot将工作分解为原子任务,根据明确的标准进行自我测试,并循环直到100%的条件都通过。简而言之,它是一种让AI“工作直到完成”而非“看起来不错就停止”的方法论。
四阶段执行循环 每个Ralph Loop都遵循一致的结构:
1 执行 → 评估 → 修复 → 重复(直到所有标准通过) 第一阶段:执行(Execute)
复杂的工作被分解为最小的独立单元,称为“原子任务”。每个原子任务必须满足以下条件:可独立验证(无需其他组件即可测试)、单一职责(只做一件事)、边界清晰(有明确的范围)。
例如,将“构建用户认证系统”这个模糊任务分解为:创建包含email、hashed_password和时间戳的User模型;使用bcrypt实现密码哈希;构建带邮箱验证的注册端点;构建带令牌生成的登录端点;创建验证受保护路由令牌的中间件;为重复邮箱注册编写测试;为凭证错误登录编写测试。
第二阶段:评估(Evaluate)
每个原子任务都包含用测试条件表示的通过/失败标准。这些不是主观判断,而是客观的、二进制的条件。例如,任务“构建带邮箱验证的注册端点”的通过标准包括:POST /api/register接受{email, password};如果邮箱格式无效返回400;如果邮箱已存在返回409;成功时返回201及用户对象;密码在存储前被哈希;所有响应包含适当的JSON结构。
第三阶段:修复(Fix)
当标准失败时,AI不会盲目猜测修复方案,而是遵循诊断模式:识别哪些具体标准失败;分析失败原因;实施有针对性的修复;记录更改内容。
第四阶段:重复(Repeat)
循环持续进行,直到所有原子任务的所有标准都通过。没有人为的“差不多就行”干预——AI根据客观标准判断完成。
工作原理详解 Ralph Loop的核心机制可以从技术层面理解:每个迭代中,AI重新读取磁盘上的RALPH.md文件,运行命令,将输出替换占位符{{placeholder}},将组合的提示发送给Agent,Agent执行并退出,然后重复。
这意味着开发者只需编写一个RALPH.md文件,定义原子任务、成功标准和执行指令,然后启动Loop。AI会自动按照定义执行任务、测试结果、修复问题,直到所有标准都通过。
为什么传统AI工作流会失败 尽管AI能力取得了显著进步,大多数组织和个人在AI辅助工作中却持续经历挫败。问题不在于AI的智能,而在于我们的交互模式。三个根本性缺陷困扰着传统AI工作流,理解这些是理解Ralph Loop价值的关键。
单次问题 最常见的AI工作流是这样的:人类精心编写提示,AI生成响应,人类接受或拒绝。这个模式假设AI可以在复杂任务中一次生成完整、正确的作品。现实是:复杂工作需要迭代,但单次模式没有提供任何迭代机制。
单次问题表现为:表面完成——AI只解决明确提到的问题,而非隐含的内容;边缘案例缺失——复杂系统需要处理异常,而AI无法预见;集成缺口——组件单独工作但组合时失败;质量差异——输出质量严重依赖提示词的质量。
对话循环问题 当用户意识到单次问题时,通常会陷入对话循环陷阱:人类说“构建登录系统”,AI提供基础代码;人类说“添加密码验证”,AI添加验证;人类说“再添加邮箱验证”,AI添加验证;如此无限继续。这种模式没有自然结论——AI按要求添加功能,但系统何时完成却无法确定。
对话循环失败的原因包括:没有客观的完成标准——没有清晰的标准,更多功能总是可以添加;人类疲劳决定完成——系统在人累了时停止,而非真正完成;没有系统测试——每个添加都没有针对整个系统进行验证。
手动迭代问题 一些高级用户尝试手动迭代模式:AI写代码,人类运行测试,人类识别失败,人类向AI解释失败,AI修复一些问题。这种方法认识到需要迭代,但不能规模化,因为人类时间成为瓶颈——每次迭代都需要人类评估;反馈不一致——人类解释的质量和完整性各不相同;跨迭代无学习——每个修复都是孤立的,模式未被捕获;时间成本指数增长——复杂任务需要数十次迭代。
成本与后果 这些失败的后果不仅是不便:生产力流失——团队花更多时间纠正AI,而非AI节省的时间;质量债务——“差不多就行”的AI输出需要大量人工抛光;信任侵蚀——用户对重要工作失去对AI的信心;机会错失——组织为复杂任务放弃AI,而AI本可提供最大价值;技能停滞——开发者没有学会有效利用AI。
Ralph Loop的核心组件 Ralph Loop通过五个核心组件将Claude从有用助手转变为自主问题解决引擎。
原子任务分解 原子任务是可独立执行和验证的最小有意义工作单元。原子任务具有三个关键特征:单一责任——每个任务只完成一件事;独立验证——无需其他任务上下文即可测试其成功;清晰边界——任务有定义的输入和输出。
将复杂工作分解为原子 pieces 需要系统性思维:从最终目标开始——定义“完成”是什么;识别主要阶段——对相关活动进行分组;递归分解——持续分解直到任务变得原子化;检查依赖——映射什么需要在什么之前发生;验证原子性——确保每个任务满足上述三个标准。
通过/失败标准 有效的通过/失败标准必须是客观、具体和可测量的。标准必须消除歧义并防止AI“伪造”结果。模糊标准如“让表单看起来不错”“正确验证邮箱”“优雅处理错误”会导致问题,具体标准如“表单使用CSS Grid布局”“所有表单元素有统一的12px内边距”“提交按钮有#007BFF背景和白色文本”才能真正验证。
测试实现 Claude通过创建验证脚本、运行并解释结果来测试自己的工作。这种自我验证遵循模式:生成针对标准的特定测试代码;在沙盒环境中执行测试;根据通过条件分析结果;用证据记录发现。
迭代逻辑 当Claude的自我测试揭示失败时,它不会随机重试,而是遵循系统性过程:失败分析——识别哪些具体标准失败;根因诊断——确定失败原因;针对性修复——应用特定修正;重新测试——验证修复是否有效;文档记录——记录修复了什么。
迭代策略通常包括:每个任务最大尝试次数为5次;3次失败后升级阈值;3次失败后添加30秒冷却期;5次尝试后,记录问题并继续下一个任务。
完成验证 完成不仅是完成任务,而是验证所有任务的所有标准都得到满足。最终验证有三个层次:单个任务验证——每个原子任务通过其测试;集成验证——组合任务一起工作;端到端验证——完整系统满足原始要求。
OpenCLI:将任意网站变成命令行工具的利器 背景简介 在AI Agent开发中,如何让AI能够自动获取网页数据和控制桌面应用,一直是开发者面临的核心挑战。传统解决方案如Puppeteer、Selenium需要编写大量脚本代码,且面对反爬取措施时往往显得脆弱。
2026年,一个名为 OpenCLI 的开源项目应运而生,由Apache Arrow/DataFusion PMC成员jackwener开发。该项目能够将80+网站和Electron桌面应用转换为标准化的命令行接口,让AI Agent以零Token消耗的方式获取结构化数据。截至目前,OpenCLI在GitHub上已获得超过13000个Star,成为浏览器自动化领域的标杆工具。
核心特性 OpenCLI的核心设计理念是:让任意网站和工具成为你的CLI。
1. 80+ 内置网站适配器 OpenCLI预置了覆盖多个领域的网站适配器,开箱即用:
领域 支持平台 数据类型 社交媒体 Twitter/X, Reddit, LinkedIn, Instagram 帖子、评论、用户信息 内容平台 YouTube, TikTok, Medium, HackerNews 视频信息、文章、讨论 中文平台 Bilibili, 知乎, 小红书 视频、回答、笔记 学术研究 arXiv, Stack Overflow 论文、技术问答 金融数据 Yahoo Finance, Bloomberg 股票、金融数据 AI平台 HuggingFace, Grok 模型信息、AI对话 使用示例:
1 2 3 4 5 6 7 8 # 获取HackerNews热门帖子 opencli hackernews top --limit 10 --format json # 搜索arXiv论文 opencli arxiv search "large language model" --limit 5 # 获取GitHub仓库信息 opencli github repo jackwener/opencli --format table 2.
飞书 lark-cli 命令行工具使用指南 背景简介 在企业协作场景中,飞书(Lark/Feishu)作为新一代办公平台,已经深入到日程管理、文档协作、项目推进等各个环节。然而,如何高效地与飞书平台进行自动化交互,一直是开发者和AI Agent面临的核心挑战。
2026年3月,飞书官方正式开源了 lark-cli 命令行工具,为开发者和AI Agent提供了统一的命令行接口。该工具支持200+命令,覆盖12个业务领域,包括即时通讯、日历、文档、云盘、多维表格、邮件、任务、会议、知识库、审批等,更重要的是提供了20个开箱即用的AI Agent技能,让AI能够直接操作飞书平台。
截至目前,lark-cli 在 GitHub 上已获得超过6700个Star,成为企业协作自动化领域的标杆工具。
安装与配置 环境要求 在开始安装之前,请确保你的开发环境满足以下要求:
Node.js:需要 npm 或 npx 包管理器 Go 1.23+ 和 Python 3:仅在使用源码编译时需要 安装方式 lark-cli 提供两种安装方式,推荐使用 npm 安装:
1 2 3 4 5 6 7 # 方式一:使用 npm 安装(推荐) npm install -g @larksuite/cli # 方式二:从源码编译安装 git clone https://github.com/larksuite/cli.git cd cli make install 安装 CLI 技能是必须步骤,否则无法使用AI Agent技能:
1 npx skills add larksuite/cli -y -g 初始化配置 安装完成后,需要进行一次性配置: