收录于 AI

2026-04-07 约 632 字预计阅读 3 分钟 - 次阅读

Harness Engineering 与 Ralph Loop 的关系解析

背景介绍

在AI辅助软件开发领域，两种重要的方法论正在引起广泛关注：Harness Engineering（架具工程） 和 Ralph Loop。前者由Thoughtworks的Birgitta Böckeler在Martin Fowler博客上系统阐述，后者是Ralphable团队提出的自动化循环方法。虽然两者出现的背景和关注点不同，但它们在提升AI Agent可靠性方面存在着深刻的互补关系。

什么是Harness Engineering

Harness Engineering（架具工程）是一种系统性地构建AI Agent运行环境的方法论，其核心观点是：Agent = Model + Harness。也就是说，除了模型本身的智能之外，围绕模型构建的“架具”系统同样关键。

核心组件：引导与传感器

Harness Engineering将架具分为两大类组件：

引导（Guides）- 前馈控制

引导旨在预测Agent的行为并在其行动之前进行引导，目标是在第一次尝试就产生良好结果。引导可以是：

计算型引导：确定性且快速，如LSP、语言服务器、CLI工具、脚本、codemods
推理型引导：基于语义分析，如AGENTS.md、Skills、文档

传感器（Sensors）- 反馈控制

传感器在Agent行动后进行观察，帮助其自我修正。特别强大的是那些针对LLM消费优化的传感器，例如包含修正指令的自定义linter消息——一种积极的提示注入。

1
2
3
4
5
6
7
8


# 计算型传感器示例
npx eslint          # 代码风格检查
npm run coverage    # 测试覆盖率
semgrep             # 安全扫描

# 推理型传感器示例
/code-review        # AI代码审查
/architecture-review # 架构审查

调节类别

Harness Engineering将架具分为三个调节维度：

可维护性架具：调节代码质量和内部结构，如代码风格、复杂度、测试覆盖
架构适应性架具：定义和检查应用的架构特性，如性能要求、可观测性标准
行为架具：指导并感知应用功能行为，这是目前最具挑战性的领域

什么是Ralph Loop

Ralph Loop是一种结构化的任务执行循环方法论，让AI能够自动迭代直到所有显式的成功标准都满足。其核心是一个四阶段循环：执行 → 评估 → 修复 → 重复。

核心机制

Ralph Loop的工作原理可以概括为：每个迭代中，AI重新读取磁盘上的RALPH.md文件，运行命令，将输出替换占位符{{placeholder}}，将组合的提示发送给Agent，Agent执行并退出，然后重复。

关键要素包括：

原子任务分解：将复杂工作分解为最小可独立验证的任务单元
通过/失败标准：为每个任务定义客观的、可测试的成功条件
自我测试：AI创建验证脚本并运行以确认输出质量
迭代逻辑：失败后的系统性诊断和修复流程

两者的关系分析

层次与视角的不同

从本质上讲，Harness Engineering和Ralph Loop处于不同的抽象层次：

维度	Harness Engineering	Ralph Loop
关注焦点	Agent运行的环境和控制系统	任务执行和迭代的循环机制
层次	系统架构层面	方法论层面
目标	构建可信赖的Agent运行环境	确保任务完成度

Harness Engineering回答的问题是：“如何构建一个让AI Agent能够可靠工作的环境？“而Ralph Loop回答的问题是：“如何让AI Agent自动完成一个完整任务？”

思维导图：Harness Engineering 与 Ralph Loop 关系

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37


                         ┌─────────────────────────────────────────┐
                         │      AI Agent 开发方法论体系            │
                         └─────────────────────────────────────────┘
                                            │
           ┌────────────────────────────────┴────────────────────────────────┐
           │                              │                                │
           ▼                              ▼                                ▼
┌─────────────────────┐      ┌─────────────────────┐      ┌─────────────────────┐
│ Harness Engineering│      │      互补关系        │      │    Ralph Loop       │
│    (系统架构层)      │◄────►│                      ├─────►│    (方法论层)        │
└─────────────────────┘      └─────────────────────┘      └─────────────────────┘
           │                                                          │
           ├────────────────────┐                      ┌─────────────┴────────────┐
           ▼                    ▼                      ▼                        ▼
    ┌─────────────┐      ┌─────────────┐      ┌─────────────────┐      ┌─────────────────┐
    │  引导       │      │  传感器      │      │  原子任务分解    │      │  通过/失败标准   │
    │ (Guides)   │      │ (Sensors)   │      │                 │      │                 │
    └─────────────┘      └─────────────┘      └─────────────────┘      └─────────────────┘
           │                    │                       │                        │
           ├─计算型            ├─计算型              ├─最小可验证单元          ├─客观可测试条件
           │  -LSP            │  -linter            │  -独立执行              │  -明确判定标准
           │  -CLI            │  -测试              │  -单一职责              │  -二进制结果
           │  -codemods      │  -类型检查          │  -清晰边界              │  -自动化验证
           │
           ├─推理型            ├─推理型
           │  -AGENTS.md      │  -AI代码审查
           │  -Skills         │  -架构审查
           │  -文档          │  -人工验收
           │
           ▼
    ┌─────────────────────────────────────────────────────┐
    │         三大调节维度                                  │
    ├─────────────────────────────────────────────────────┤
    │ 1. 可维护性架具 - 代码质量、结构、测试               │
    │ 2. 架构适应性架具 - 性能、可观测性、约束              │
    │ 3. 行为架具 - 功能验证（当前最具挑战）               │
    └─────────────────────────────────────────────────────┘

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20


                    ┌────────────────────────────────────────────┐
                    │          Ralph Loop 作为 Harness 实现      │
                    └────────────────────────────────────────────┘
                                        │
          ┌─────────────────────────────┴─────────────────────────────┐
          │                                                           │
          ▼                                                           ▼
┌─────────────────────────┐                               ┌─────────────────────────┐
│      Ralph Loop 中的引导 │                               │    Ralph Loop 中的传感器 │
│      (Guides)           │                               │      (Sensors)          │
└─────────────────────────┘                               └─────────────────────────┘
          │                                                           │
          ├─ RALPH.md 任务定义                                      ├─ 测试脚本
          ├─ 通过/失败标准                                          ├─ 人工审查
          └─ 执行指令                                              └─ 迭代诊断
          │
          ▼
    ┌─────────────────────────────────────────────────────────┐
    │              四阶段循环: 执行→评估→修复→重复            │
    └─────────────────────────────────────────────────────────┘

Ralph Loop作为Harness的具体实现

从功能角度来看，Ralph Loop实际上是Harness Engineering在任务执行层面的具体实现方式之一。

Ralph Loop中的引导（Guides）

RALPH.md文件定义了任务说明和原子任务分解
通过/失败标准作为任务级别的引导
执行指令作为行为引导

Ralph Loop中的传感器（Sensors）

测试脚本作为计算型传感器验证输出
人工审查作为外部传感器提供反馈
迭代逻辑中的诊断步骤利用传感器数据进行修正

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


# RALPH.md 示例 - 同时充当引导和传感器配置
# RALPH LOOP: API端点开发
ATOMIC TASKS
Task 1: 设置端点结构
  Pass Criteria:
  - 服务器运行
  - POST路由已定义
  Test: 运行服务器并验证路由

Task 2: 实现定价逻辑
  Pass Criteria:
  - Zone 1: $5/kg
  - Zone 2: $7/kg
  Test: 发送测试请求验证计算

互补关系

Harness Engineering提供了宏观的系统框架，而Ralph Loop提供了微观的执行机制。两者结合可以构建更完整的AI开发工作流：

Harness Engineering的全局视角

定义代码结构和质量标准
配置持续集成中的各种检查
设置架构约束和监控

Ralph Loop的局部视角

具体的原子任务分解
明确的通过/失败标准
自动化的迭代直到完成

实际集成示例

在实际项目中，两者的集成可能如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


# Harness Engineering 层：全局配置
# .github/workflows/ci.yml - 计算型传感器
- run: npm run lint
- run: npm run test
- run: npm run type-check

# AGENTS.md - 推理型引导
# 描述项目规范、代码风格、架构要求

# Ralph Loop 层：任务执行
# RALPH.md - 具体任务定义
# 定义原子任务和通过/失败标准
# Loop循环执行直到所有标准满足

实际应用场景

场景一：代码重构任务

使用Ralph Loop进行代码重构时，Harness Engineering提供：

前馈引导：架构约束规则、代码风格规范
反馈传感器：静态分析检查、测试覆盖率要求
持续监控：技术债务检测、依赖扫描

Ralph Loop则负责：

分解重构任务为原子任务
验证每次重构后测试通过
迭代直到所有模块重构完成

场景二：新功能开发

在开发新功能时，Harness Engineering确保：

功能规范作为行为引导
集成测试作为行为传感器
人工验收作为最终确认

Ralph Loop执行：

按优先级分解功能为可独立验证的任务
自动化测试每个原子任务的输出
持续迭代直到功能完整实现

场景三：Bug修复

Bug修复场景中两者的协同：

Harness：提供回归测试套件、bug追踪系统、代码质量检查
Ralph Loop：复现bug、分析根因、应用修复、验证修复有效

未来发展趋势

架具模板与Loop模板的融合

随着AI开发的成熟，企业可能会创建标准的架具模板，其中预配置了常用的引导和传感器。这些模板可以与特定类型的Ralph Loop配合使用，形成开箱即用的AI开发环境。

自我优化的架具

未来，架具系统可能具备自我优化能力：

Ralph Loop执行过程中发现的问题自动反馈到架具配置
AI学习哪些引导和传感器最能提高任务完成度
架具根据项目特点自动调整

行为架具的突破

目前行为架具（功能验证）是最大的挑战。Ralph Loop的迭代机制结合AI生成的测试套件，可能成为突破这一困境的关键：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


# 结合行为架具的增强型Ralph Loop
Task: 实现用户登录功能
  Feedforward Guide:
  - 功能规范文档
  - 安全要求说明
  
  Feedback Sensor:
  - 自动化测试套件（AI生成）
  - 突变测试验证
  - 人工验收环节

总结

Harness Engineering和Ralph Loop代表了AI辅助软件开发的不同维度。Harness Engineering从系统架构视角关注如何构建可信赖的Agent运行环境，而Ralph Loop从方法论视角关注如何让Agent自动完成具体任务。

两者并非相互替代，而是相互补充：Harness Engineering提供了宏观的质量保证框架，Ralph Loop提供了微观的执行机制。理解它们的关系，有助于开发者构建更完整、更可靠的AI开发工作流。

在实际应用中，建议将Harness Engineering作为基础设施层，定义项目的质量标准和检查机制；而将Ralph Loop作为任务执行层，处理具体的开发任务。只有两者协同工作，才能真正实现AI Agent在软件开发中的可靠应用。

参考资源

Martin Fowler: Harness engineering for coding agent users
Ralphable: The Ralph Loop Methodology
LangChain: The Anatomy of an Agent Harness
OpenAI: Harness engineering: leveraging Codex in an agent-first world