LLM-FuncMapper:通过LLM解释建筑法规中的复杂条款的功能标识
使用LLM辅助静态分析进行识别use-before-initialization(UBI)错误的研究通过设计LLift代理和提示来克服多个挑战,测试结果表明在实际场景中具有非常强大的能力,并发现了Linux内核中以前未知的13个UBI错误,为使用LLM在大规模现实世界数据集中发现错误的新方法和机会铺平了道路。
Aug, 2023
通过结合LLMs的代码理解能力和自动推理程序,我们提出了一种通用方法论来进行自动程序验证,通过一组导出规则进行形式化描述并证明其合理性,从而实现了在一系列合成和竞争基准测试中的实际改进。
Oct, 2023
提倡使用LLMs来增强基于规则的法律系统的可访问性、使用性和可解释性,为法律技术的民主和利益相关者导向视角做出贡献。发展了一种方法来探索LLMs在将规则系统生成的解释从高级编程语言翻译成自然语言上的潜在应用,使所有用户能够快速、清晰和便捷地与这些技术进行交互。研究还进一步建立在这些解释之上,通过使用一系列提示链来赋予非专业人士在自己身上执行复杂的法律任务的能力,用于对相同事实案例应用基于规则的不同推理的自主法律比较。
Nov, 2023
通过基于逻辑搭建的推理规则生成框架 ULgogic 对 GPT 系列模型进行分析,揭示了它们在逻辑理解方面与人类表现相比存在的显著差距,尤其是在具有某种偏见模式的复合和结构复杂规则方面;同时,我们采用这些规则构建了一个小规模推理引擎,用于灵活地生成规则并增强下游推理能力,经过多评估者评估,我们的推理引擎证明在生成准确、复杂和抽象的结论和前提方面非常有效,从而为增强大型语言模型的逻辑推理能力提供了启示。
Feb, 2024
基于Transformer的大型语言模型(LLMs)在解决逻辑问题方面展现了显著的潜力,该研究调查了一种新颖的方向,即逻辑代码模拟,并引入了基于LLMs的代码模拟技术DCoL,该技术相比其他LLM提示策略表现出最先进的性能,通过GPT-4-Turbo实现了精度提高7.06%。
Mar, 2024
利用大型语言模型(LLMs)将自然语言描述转换为形式化规范的能力进行了评估,提出了一种使用两个LLMs与现成验证程序结合的方法来自动评估其翻译能力,结果显示目前最先进的LLMs无法充分解决这个任务,限制了它们在复杂系统设计中的实用性。
Mar, 2024
该论文介绍了 AutoRace 和 LLM Reasoners,分别用于评估和实现不同的推理方法,以解决大型语言模型在生成推理链时所面临的挑战。
Apr, 2024
开发了一种使用大语言模型(LLM)作为解释器来解释和执行自然语言指令的Code Representation and Execution (CoRE)系统,统一了自然语言编程、伪代码编程和流程编程。
May, 2024
大型语言模型(LLMs)在解决程序推理问题方面显示出了出色的能力。通过引入“reasoning in the wild”任务并使用一个包含详细解决方案的大型策略引导轨迹数据集,我们在更真实的场景中评估了LLMs的推理能力,揭示了其存在的关键限制。
Jun, 2024
本研究解决了建筑项目合规检查中的复杂法律要求计算表示问题,提出了一种利用大型语言模型(LLM)自动转换建筑法规为可计算格式的新方法。通过对GPT-3.5的评估,发现其在少量示例培训后能够有效生成法律规则语义表示,潜在地提高了合规检查的效率和有效性。
Jul, 2024