【论文阅读】【ISSTA 24'】Think Repair：自我导向的自动程序修复

发表于2025-11-05|更新于2025-11-05|博文

|浏览量:

论文信息

题目：ThinkRepair: Self-Directed Automated Program Repair
链接：ISSTA

主要问题

现有的自动修复通常依赖于预定义的模板（提示词），而预定义的模板依赖于数据集质量，而思维链（CoT，Chain of Thought）提示提高了推理性能。综上，ThinkRepair提出的是一个结合思维链分析的大语言模型修复框架。可行性在于：无监督的训练方式使得LLM保有强大推理能力，而少样本的思维链可以逐步增强这个能力。
文章贡献在于：

自导向的LLM自动修复框架；
推理能力增强：少样本思维链+自动化思维链构建、选择和互动；

ThinkRepair

包含两个阶段，收集和修复。前者收集构成预先知识的思维链并生成知识库，后者利用少样本思维链提示学习缺陷修复。

理论前提

大模型：包含数十亿个代码token进行无监督训练保证推理能力，且无需依赖已有错误信息标注即可应用。
针对自动程序修复的少样本思维链：通常修复过程包含一连串中间步骤，依托少量样本，从LLM中提取思维链进行学习，并且使用CoT组合结果的提示进行修复生成。

阶段一：收集阶段

收集阶段
以下分步骤进行：

步骤1：提示词准备

不多说，详见上图的“Prompt Preparation”提供的单函数示例。

步骤2：收集思维链

给定一个缺陷函数库，ThinkRepair用提示收集CoT。这个步骤输出一个样本集合，每个样本包括一个bug行数、修复版本和CoT。

步骤3：功能验证

需要过滤掉低质量的思维过程。此步会过滤掉原有数据中未通过所有样本（case）的情况。对于每个缺陷，设置测试次数上限为25.

阶段二：修复阶段

首先从之前的直属库中筛选出多样有效的样本。首先将选定的示例（bug函数和相应的带有推理过程修复版本）和目标bug函数组成提示符与LLM交互。最后，从LLM获得输出：思维链和候选的修复函数。每个生成的候选函数都会经过一个验证步骤。该阶段有三个任务：

任务1：少样本选择

目的是为LLM提供优质的提示，并且尽可能减小成本。方法是，基于语义相似度聚类，从每一种聚类中选择一个样本。语义相似度的具体方式有：

UnixCoder+余弦相似度
利用对比学习框架R-Drop微调UnixCoder来获取更优质的嵌入，两次输入一个函数，训练目标为缩小这两次训练得出嵌入的差距
基于IR选择，通过BM25分数检索相似示例
随机选择

任务2：自动修复

构造提示符，上图的①②，包含修复示例、bug函数。

任务3：交互验证

如果生成的候选函数没有通过所有用例，首先收集失败的测试信息，后期提供指导。失败信息可以分为四类：编译失败、超时、语法错误、测试失败，然后重构提示，将失败信息附加到后面，如上图的③。此时提示模板固定，如图所示。最大交互次数设置为5.

实验

数据集

Defects4j、QuixBugs

基线、评估指标

8种NMT（自然语言翻译，将bug翻译成不bug的）和4种基于LLM的。详见下表：

评估指标为两个：正确补丁数量（可以通过所有用例，但是不保证语义等同于修复）和可信补丁数量（语义上等同于实际修复）。

结果

对比LLM的方法
对比NMT的方法

文章作者: ZEPHeyrr

文章链接: http://120.46.180.209/2025/11/05/ThinkRepair/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源西风的那一年！

程序修复大语言模型读论文 ISSTA

相关推荐

【论文阅读】【ICSE 25'】RepairAgent：自主的基于大语言模型的程序修复智能体

基本信息论文题目：RepairAgent: An Autonomous, LLM-Based Agent for Program Repair链接：ICSE...

【论文阅读】【ToSEM 25'】Giant Repair：结合大型语言模型和程序分析的混合自动程序修复

论文信息题目：Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis链接：Tosem 主要问题文章提出，现有的基于预定义修复模板、启发式规则和约束求解的自动程序方法难以充分利用实际应用中各种补丁的大搜索空间。其局限性在于：基于LLM的APR方法直接利用生成补丁，没有进一步的优化。LLM通常难以生成一些有关于特定程序元素的修复方案,比如局部变量和特定域方法调用等。如何利用这些不完善的修复方案来提高整体修复能力也是一个待探索的领域。迄今为止，APR方法评估是在漏洞已被定位的前提下进行的。这种场景并不现实。本文章的主要贡献在于：提出GiantRepair，利用LLM输出的“并非完全正确”的补丁，从其中提取补丁骨架进行整体方法的优化；在两种应用场景下进行优化评价；开源：...

【论文阅读】【NeurIPS 24'】MAGIS：多智能体支撑的大语言模型Github问题解决——通过精心设计的智能体协作来增强问题解决能力

论文信息：题目：MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue ReSolution 链接：NeurIPS 24’ 主要问题类似Github的代码托管平台，其项目通常不是一成不变的，开源软件作者会更新多个版本，并将源码按照版本号推至代码仓，本文的根本目的是解决开源代码产生的各类“issue”，同时研究了多智能体应用对该下游任务的优化性能。本文的主要贡献如下：我们对llm解决GitHub问题进行了实证分析，探讨了定位代码文件/行、代码变更的复杂性与解决成功率之间的相关性。我们提出了一种新的基于llm的多智能体框架MAGIS，以减轻现有llm在GitHub问题解决上的局限性。我们设计的四类代理及其在规划和编码方面的协作都释放了llm在存储库级别编码任务上的潜力。我们在SWE-bench数据集上比较了我们的框架和其他强大的大语言模型竞争对手（即GPT-3.5，...

【论文阅读】【ICSE 25'】大语言模型时代的模板引导程序修复

论文信息题目：Template-Guided Program Repair in the Era of Large Language Models 链接：ICSE 聚焦问题：基于模板的修复方法被盲目使用及其覆盖范围的不足使得该方法在领域内存在局限，此外，在零样本学习情境下使用小型LLMs也被证明并非最优选择。集体来说，其主要缺点在于：1. 不加选择地使用模板，不加选择地使用所有可用的模板。具体来说，GAMMA利用基于ast的匹配方法来选择修复模板，这有可能导致模型错过正确的补片合成机会，加剧补片过拟合问题。2. 模板覆盖不足：基于模板的APR工具的有效性本质上受到其模板范围的限制。3....

【论文阅读】【TSE 25'】RepairLLaMA：程序修复的有效表示和微调适配

文章信息标题：RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program...

【论文阅读】【ACL 25'】SynFix：关系图相关独立性分析的程序修复

论文信息题目：SYNFIX: Dependency-Aware Program Repair via RelationGraph Analysis 链接：ACL...

评论