cfanzp学习笔记

Superpowers：让 AI Agent 获得专家级能力的技能框架

发布于 2026-04-07 收录于 AI

Superpowers：让 AI Agent 获得专家级能力的技能框架背景简介在 AI 辅助软件开发领域，如何让 AI Agent 像人类专家一样工作一直是核心挑战。传统的 AI 编程工具虽然功能强大，但在处理复杂任务时往往缺乏系统性方法——它们可能会直接开始编码，而不是先理解需求、规划方案。 Superpowers 是由 Keyboardio 联合创始人 Jesse Vincent 开发的一个 AI Agent 技能框架和软件开发方法论。该项目在 GitHub 上已获得超过 134000 个 Star，成为 AI 编程工作流领域的标杆工具。什么是 Superpowers Superpowers 是一个为 AI 编程 Agent 设计的技能框架和工作流工具集。它的核心理念是：将人类专家的开发习惯和工作流程传授给 AI Agent，让 AI 能够系统性地处理复杂任务，而不是盲目跳入编码。核心设计理念 Superpowers 基于一个关键洞察：AI Agent 在处理复杂代码时经常失败，但通过特定的技能（Skills）引导，AI 可以表现得像人类专家一样。这些技能封装了：系统性思考：先理解需求，再制定计划质量控制：在实现前先验证，在修改后确认工具使用：正确使用调试、测试、审查等工具迭代优化：持续改进而非一次完成技能（Skills）机制 Superpowers 的技能系统受 Simon Willison 提出的 Claude Skills 概念启发。每个技能是一个独立的指令集，可以被 AI Agent 按需加载和使用。技能的核心文件是 SKILL.md，其中包含：技能的用途说明使用场景和触发条件具体的工作流程和步骤工具映射说明思维导图：Superpowers 整体架构 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 ┌─────────────────────────────────────────┐ │ Superpowers 框架 │ └─────────────────────────────────────────┘ │ ┌─────────────────────────────────┼─────────────────────────────────┐ │ │ │ ▼ ▼ ▼ ┌─────────────────────┐ ┌─────────────────────┐ ┌─────────────────────┐ │ 核心概念 │ │ 主要技能 │ │ 工具集成 │ │ │ │ │ │ │ └─────────────────────┘ └─────────────────────┘ └─────────────────────┘ │ │ │ ├─技能框架(Skills) ├─brainstorming ├─OpenCode ├─Agent工作流 ├─verification-before-completion ├─Claude Code ├─工具映射 ├─receiving-code-review ├─Codex └─Bootstrap机制 ├─requesting-code-review └─MCP Servers ├─test-driven-development ├─systematic-debugging └─.

OpenAI Tokenizer 在线工具详解

发布于 2026-04-07 收录于 AI

OpenAI Tokenizer 在线工具详解什么是 Tokenizer 在深入了解 OpenAI Tokenizer 工具之前，我们首先需要理解什么是 Token（词元）。 Token 是 OpenAI 模型处理文本的基本单位。它们可以是短至单个字符，也可以长至整个单词，具体取决于语言和编码方式。对于英文文本，大约 4 个字符等于 1 个 Token；对于中文文本，通常 1-2 个汉字等于 1 个 Token。理解 Token 的概念对于使用 OpenAI API 至关重要，因为： API 计费：OpenAI 按 Token 数量计费，了解 Token 数量可以帮助估算成本上下文窗口：每个模型有固定的上下文窗口限制（通常是 4K、8K、16K、32K、128K 等），Token 数决定了能输入多少内容优化提示：了解 Token 计数可以帮助优化提示词，提高效率 OpenAI Tokenizer 工具概述 OpenAI Tokenizer 是官方提供的在线工具，访问地址为：https://platform.openai.com/tokenizer 这个工具允许开发者直观地看到任意文本被如何分词（Tokenize），以及对应的 Token 数量。这对于以下场景特别有用：学习 Token 概念估算 API 调用成本优化提示词长度调试 Token 相关问题工具界面与功能主要功能区域 OpenAI Tokenizer 工具界面主要包含以下几个部分： 1. 文本输入区

Harness Engineering 与 Ralph Loop 的关系解析

发布于 2026-04-07 收录于 AI

Harness Engineering 与 Ralph Loop 的关系解析背景介绍在AI辅助软件开发领域，两种重要的方法论正在引起广泛关注：Harness Engineering（架具工程）和 Ralph Loop。前者由Thoughtworks的Birgitta Böckeler在Martin Fowler博客上系统阐述，后者是Ralphable团队提出的自动化循环方法。虽然两者出现的背景和关注点不同，但它们在提升AI Agent可靠性方面存在着深刻的互补关系。什么是Harness Engineering Harness Engineering（架具工程）是一种系统性地构建AI Agent运行环境的方法论，其核心观点是：Agent = Model + Harness。也就是说，除了模型本身的智能之外，围绕模型构建的“架具”系统同样关键。核心组件：引导与传感器 Harness Engineering将架具分为两大类组件：引导（Guides）- 前馈控制引导旨在预测Agent的行为并在其行动之前进行引导，目标是在第一次尝试就产生良好结果。引导可以是：计算型引导：确定性且快速，如LSP、语言服务器、CLI工具、脚本、codemods 推理型引导：基于语义分析，如AGENTS.md、Skills、文档传感器（Sensors）- 反馈控制传感器在Agent行动后进行观察，帮助其自我修正。特别强大的是那些针对LLM消费优化的传感器，例如包含修正指令的自定义linter消息——一种积极的提示注入。 1 2 3 4 5 6 7 8 # 计算型传感器示例 npx eslint # 代码风格检查 npm run coverage # 测试覆盖率 semgrep # 安全扫描 # 推理型传感器示例 /code-review # AI代码审查 /architecture-review # 架构审查调节类别 Harness Engineering将架具分为三个调节维度：可维护性架具：调节代码质量和内部结构，如代码风格、复杂度、测试覆盖架构适应性架具：定义和检查应用的架构特性，如性能要求、可观测性标准行为架具：指导并感知应用功能行为，这是目前最具挑战性的领域什么是Ralph Loop Ralph Loop是一种结构化的任务执行循环方法论，让AI能够自动迭代直到所有显式的成功标准都满足。其核心是一个四阶段循环：执行 → 评估 → 修复 → 重复。

Ralph Loop：让AI自动循环直到任务完成

发布于 2026-04-07 收录于 AI

Ralph Loop：让AI自动循环直到任务完成背景简介在AI辅助开发日益普及的今天，一个根本性问题困扰着开发者：AI从来不会真正“完成”工作。它可以给出接近完美的答案，却很少交付生产级别的完整解决方案。这是因为传统AI交互遵循“单次”或“对话循环”模式——你提问，AI回答，你指出问题，AI修改，如此往复，直到你疲倦并接受“差不多就行”的结果。 2025年，一个名为Ralph Loop的开源方法论应运而生，旨在解决这个AI完成度问题。该方法论由Ralphable团队提出，核心思想是将AI任务执行转变为结构化的循环过程，直到所有显式的成功标准都得到满足。截至目前，最流行的Ralph实现（snarktank/ralph）在GitHub上已获得超过14000个Star，成为AI自动化开发领域的标杆方法。什么是Ralph Loop Ralph Loop是一种结构化的任务执行循环，其中Claude Code或GitHub Copilot将工作分解为原子任务，根据明确的标准进行自我测试，并循环直到100%的条件都通过。简而言之，它是一种让AI“工作直到完成”而非“看起来不错就停止”的方法论。四阶段执行循环每个Ralph Loop都遵循一致的结构： 1 执行 → 评估 → 修复 → 重复（直到所有标准通过）第一阶段：执行（Execute）复杂的工作被分解为最小的独立单元，称为“原子任务”。每个原子任务必须满足以下条件：可独立验证（无需其他组件即可测试）、单一职责（只做一件事）、边界清晰（有明确的范围）。例如，将“构建用户认证系统”这个模糊任务分解为：创建包含email、hashed_password和时间戳的User模型；使用bcrypt实现密码哈希；构建带邮箱验证的注册端点；构建带令牌生成的登录端点；创建验证受保护路由令牌的中间件；为重复邮箱注册编写测试；为凭证错误登录编写测试。第二阶段：评估（Evaluate）每个原子任务都包含用测试条件表示的通过/失败标准。这些不是主观判断，而是客观的、二进制的条件。例如，任务“构建带邮箱验证的注册端点”的通过标准包括：POST /api/register接受{email, password}；如果邮箱格式无效返回400；如果邮箱已存在返回409；成功时返回201及用户对象；密码在存储前被哈希；所有响应包含适当的JSON结构。第三阶段：修复（Fix）当标准失败时，AI不会盲目猜测修复方案，而是遵循诊断模式：识别哪些具体标准失败；分析失败原因；实施有针对性的修复；记录更改内容。第四阶段：重复（Repeat）循环持续进行，直到所有原子任务的所有标准都通过。没有人为的“差不多就行”干预——AI根据客观标准判断完成。工作原理详解 Ralph Loop的核心机制可以从技术层面理解：每个迭代中，AI重新读取磁盘上的RALPH.md文件，运行命令，将输出替换占位符{{placeholder}}，将组合的提示发送给Agent，Agent执行并退出，然后重复。这意味着开发者只需编写一个RALPH.md文件，定义原子任务、成功标准和执行指令，然后启动Loop。AI会自动按照定义执行任务、测试结果、修复问题，直到所有标准都通过。为什么传统AI工作流会失败尽管AI能力取得了显著进步，大多数组织和个人在AI辅助工作中却持续经历挫败。问题不在于AI的智能，而在于我们的交互模式。三个根本性缺陷困扰着传统AI工作流，理解这些是理解Ralph Loop价值的关键。单次问题最常见的AI工作流是这样的：人类精心编写提示，AI生成响应，人类接受或拒绝。这个模式假设AI可以在复杂任务中一次生成完整、正确的作品。现实是：复杂工作需要迭代，但单次模式没有提供任何迭代机制。单次问题表现为：表面完成——AI只解决明确提到的问题，而非隐含的内容；边缘案例缺失——复杂系统需要处理异常，而AI无法预见；集成缺口——组件单独工作但组合时失败；质量差异——输出质量严重依赖提示词的质量。对话循环问题当用户意识到单次问题时，通常会陷入对话循环陷阱：人类说“构建登录系统”，AI提供基础代码；人类说“添加密码验证”，AI添加验证；人类说“再添加邮箱验证”，AI添加验证；如此无限继续。这种模式没有自然结论——AI按要求添加功能，但系统何时完成却无法确定。对话循环失败的原因包括：没有客观的完成标准——没有清晰的标准，更多功能总是可以添加；人类疲劳决定完成——系统在人累了时停止，而非真正完成；没有系统测试——每个添加都没有针对整个系统进行验证。手动迭代问题一些高级用户尝试手动迭代模式：AI写代码，人类运行测试，人类识别失败，人类向AI解释失败，AI修复一些问题。这种方法认识到需要迭代，但不能规模化，因为人类时间成为瓶颈——每次迭代都需要人类评估；反馈不一致——人类解释的质量和完整性各不相同；跨迭代无学习——每个修复都是孤立的，模式未被捕获；时间成本指数增长——复杂任务需要数十次迭代。成本与后果这些失败的后果不仅是不便：生产力流失——团队花更多时间纠正AI，而非AI节省的时间；质量债务——“差不多就行”的AI输出需要大量人工抛光；信任侵蚀——用户对重要工作失去对AI的信心；机会错失——组织为复杂任务放弃AI，而AI本可提供最大价值；技能停滞——开发者没有学会有效利用AI。 Ralph Loop的核心组件 Ralph Loop通过五个核心组件将Claude从有用助手转变为自主问题解决引擎。原子任务分解原子任务是可独立执行和验证的最小有意义工作单元。原子任务具有三个关键特征：单一责任——每个任务只完成一件事；独立验证——无需其他任务上下文即可测试其成功；清晰边界——任务有定义的输入和输出。将复杂工作分解为原子 pieces 需要系统性思维：从最终目标开始——定义“完成”是什么；识别主要阶段——对相关活动进行分组；递归分解——持续分解直到任务变得原子化；检查依赖——映射什么需要在什么之前发生；验证原子性——确保每个任务满足上述三个标准。通过/失败标准有效的通过/失败标准必须是客观、具体和可测量的。标准必须消除歧义并防止AI“伪造”结果。模糊标准如“让表单看起来不错”“正确验证邮箱”“优雅处理错误”会导致问题，具体标准如“表单使用CSS Grid布局”“所有表单元素有统一的12px内边距”“提交按钮有#007BFF背景和白色文本”才能真正验证。测试实现 Claude通过创建验证脚本、运行并解释结果来测试自己的工作。这种自我验证遵循模式：生成针对标准的特定测试代码；在沙盒环境中执行测试；根据通过条件分析结果；用证据记录发现。迭代逻辑当Claude的自我测试揭示失败时，它不会随机重试，而是遵循系统性过程：失败分析——识别哪些具体标准失败；根因诊断——确定失败原因；针对性修复——应用特定修正；重新测试——验证修复是否有效；文档记录——记录修复了什么。迭代策略通常包括：每个任务最大尝试次数为5次；3次失败后升级阈值；3次失败后添加30秒冷却期；5次尝试后，记录问题并继续下一个任务。完成验证完成不仅是完成任务，而是验证所有任务的所有标准都得到满足。最终验证有三个层次：单个任务验证——每个原子任务通过其测试；集成验证——组合任务一起工作；端到端验证——完整系统满足原始要求。

OpenCLI：将任意网站变成命令行工具的利器

发布于 2026-04-06 收录于 AI

OpenCLI：将任意网站变成命令行工具的利器背景简介在AI Agent开发中，如何让AI能够自动获取网页数据和控制桌面应用，一直是开发者面临的核心挑战。传统解决方案如Puppeteer、Selenium需要编写大量脚本代码，且面对反爬取措施时往往显得脆弱。 2026年，一个名为 OpenCLI 的开源项目应运而生，由Apache Arrow/DataFusion PMC成员jackwener开发。该项目能够将80+网站和Electron桌面应用转换为标准化的命令行接口，让AI Agent以零Token消耗的方式获取结构化数据。截至目前，OpenCLI在GitHub上已获得超过13000个Star，成为浏览器自动化领域的标杆工具。核心特性 OpenCLI的核心设计理念是：让任意网站和工具成为你的CLI。 1. 80+ 内置网站适配器 OpenCLI预置了覆盖多个领域的网站适配器，开箱即用：领域支持平台数据类型社交媒体 Twitter/X, Reddit, LinkedIn, Instagram 帖子、评论、用户信息内容平台 YouTube, TikTok, Medium, HackerNews 视频信息、文章、讨论中文平台 Bilibili, 知乎, 小红书视频、回答、笔记学术研究 arXiv, Stack Overflow 论文、技术问答金融数据 Yahoo Finance, Bloomberg 股票、金融数据 AI平台 HuggingFace, Grok 模型信息、AI对话使用示例： 1 2 3 4 5 6 7 8 # 获取HackerNews热门帖子 opencli hackernews top --limit 10 --format json # 搜索arXiv论文 opencli arxiv search "large language model" --limit 5 # 获取GitHub仓库信息 opencli github repo jackwener/opencli --format table 2.

飞书 lark-cli 命令行工具使用指南

发布于 2026-04-05 收录于 AI

飞书 lark-cli 命令行工具使用指南背景简介在企业协作场景中，飞书（Lark/Feishu）作为新一代办公平台，已经深入到日程管理、文档协作、项目推进等各个环节。然而，如何高效地与飞书平台进行自动化交互，一直是开发者和AI Agent面临的核心挑战。 2026年3月，飞书官方正式开源了 lark-cli 命令行工具，为开发者和AI Agent提供了统一的命令行接口。该工具支持200+命令，覆盖12个业务领域，包括即时通讯、日历、文档、云盘、多维表格、邮件、任务、会议、知识库、审批等，更重要的是提供了20个开箱即用的AI Agent技能，让AI能够直接操作飞书平台。截至目前，lark-cli 在 GitHub 上已获得超过6700个Star，成为企业协作自动化领域的标杆工具。安装与配置环境要求在开始安装之前，请确保你的开发环境满足以下要求： Node.js：需要 npm 或 npx 包管理器 Go 1.23+ 和 Python 3：仅在使用源码编译时需要安装方式 lark-cli 提供两种安装方式，推荐使用 npm 安装： 1 2 3 4 5 6 7 # 方式一：使用 npm 安装（推荐） npm install -g @larksuite/cli # 方式二：从源码编译安装 git clone https://github.com/larksuite/cli.git cd cli make install 安装 CLI 技能是必须步骤，否则无法使用AI Agent技能： 1 npx skills add larksuite/cli -y -g 初始化配置安装完成后，需要进行一次性配置：