位移演算的证明网

MMJun, 2016

Proof nets for the Displacement calculus

PDF

Richard Moot

TL;DR提出一种证网演算用于位移演算，并证明其正确性。这是第一个直接模拟位移演算而不是通过某种形式的转换到其他形式的证网演算。该证网演算为使用位移演算进行句法分析和证明搜索带来了新的可能性。

Abstract

We present a proof net calculus for the displacement calculus and show its correctness. This is the first →

proof net calculus displacement calculus parsing proof search correctness

发现论文，激发创造

证明奥林匹克代数不等式无需人类演示

提出了一种名为 AIPS 的代数不等式证明系统，它能够自动生成复杂的不等式定理，并有效地解决奥林匹克等级的不等式问题，而无需人工演示。在混合推理方式下，通过生成的数据集实施价值课程学习策略来提高推理性能，展示出强大的数学直觉。在测试集上，AIPS 成功解决了 10 个国际数学奥林匹克等级的不等式问题，超过了现有方法。此外，AIPS 还自动生成了大量非平凡的定理，其中一些已经被专业参赛者评估，并被认为达到国际数学奥林匹克的水平。特别地，一条定理被选为 2024 年某大城市数学奥林匹克竞赛的问题。

Jun, 2024

REPOEXEC: 通过代码库级别的可执行基准评估代码生成

CodeLLMs 在仓库级别规模上生成可执行且功能正确的代码的能力尚未得到广泛探索。我们引入了一种新的评估代码生成在仓库级别规模上的基准，名为 methodnamews，强调可执行性和正确性。methodnamews 提供了一个自动化系统，用于验证要求，并具有动态生成高覆盖率测试用例的机制，以评估生成代码的功能性。我们的研究探索了一个受控场景，开发人员在其中指定必要的代码依赖项，挑战模型准确地集成这些依赖项。实验证明，尽管预训练的 LLMs 在正确性方面胜过指令调优模型，但后者在利用所提供的依赖项和展示调试能力方面表现出色。methodnamews 旨在提供对代码功能和与开发人员意图的一致性的全面评估，为在实际场景中使用更可靠和适用的 CodeLLMs 铺平道路。

Jun, 2024

探索乌尔都语中的句法模式：依存分析的深度研究

通过依存句法分析技术，我们在低资源语言乌尔都语的解析中取得了重要进展，并使用复杂的特征模型和 Nivreeager 算法，获得了一定准确率并评估了解析器的错误。

Jun, 2024

证明自身正确性的模型

通过训练自证明模型，该论文提出了一种基于理论的方法来解决如何在特定输入上验证学习模型的正确性的问题。通过交互证明以高概率证明模型的正确输出并成功向验证算法证明其正确性，并通过实验验证了其在计算最大公约数方面的效果。

May, 2024

使用 LLM（例如 ChatGPT）设计和实现 RISC 处理器：执行、挑战和局限性

使用大型语言模型（LLM）生成代码的可行性进行了讨论，应用于设计 RISC。通过解析、标记化、编码、注意机制、对生成代码的令牌进行采样和迭代等相关步骤进行了回顾。通过测试平台和 FPGA 板上的硬件实现对 RISC 组件的生成代码进行了验证。使用四个度量参数：第一次迭代的正确输出、嵌入在代码中的错误数量、实现代码所需的尝试次数以及三次迭代后无法生成代码的次数，来比较使用 LLM 进行编程的效率。在所有情况下，生成的代码都有显著的错误，总是需要人的介入来修复错误。因此，LLM 可以用于辅助程序员进行代码设计。

Jan, 2024

动态语法映射：一种无监督句法分析的新方法

语言模型的关注分布可以表达句法依赖关系。本研究介绍了动态句法映射（DSM）这一方法来无偏诱导这些结构，并发现通过使用更多的替代词语可以显著提高对自然语言数据的解析精度，尤其在长距离的主谓一致性方面。同时，DSM 在不同的解析场景中都表现出适应性，突显其广泛适用性。

Dec, 2023

4 和 7 位标记的投射和非投射依赖树

引入了一种将任何工程性依赖树表示为一系列 4 位标签（每个词一个标签）的用于解析的编码方法，其标签的位表示（1）是否为左或右从属关系，（2）是否为其父节点的最外层（左 / 右）从属关系，（3）是否具有左子节点，和（4）是否具有右子节点。在多个不同的树库上进行的实验结果表明，与以前表现最佳的序列标注编码方法相比，我们的 7 位编码方法在准确性上取得了显著的提升，并且扩展了覆盖范围，几乎达到全非工程性弧的 99.9% 的经验弧覆盖率。

Oct, 2023

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

在图上评估大型语言模型：性能洞见与比较分析

对四个大型语言模型在图数据分析问题上的能力进行评估，结果表明：1）大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理；2）GPT 模型能够生成逻辑和连贯的结果，在正确性方面优于其他替代方法；3）所有研究中的大型语言模型在结构推理方面面临挑战，零 - shot 推理和少 - shot 提示等技术效果减弱；4）在多答案任务中，GPT 模型常常产生错误答案，引发对可靠性的担忧；5）GPT 模型在输出上表现出较高的自信度，可能影响其纠正错误的能力。值得注意的是，GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。

Aug, 2023

使用多头注意力的用户代理字符串解析新方法用于漏洞分析

本文提出了使用多头注意力机制变压器来解析用户代理字符串的新方法，并讨论了如何利用解析后的用户代理字符串评估公共 IT 网络或区域的漏洞得分。

Jun, 2023