位移演算的证明网
提出了一种名为 AIPS 的代数不等式证明系统,它能够自动生成复杂的不等式定理,并有效地解决奥林匹克等级的不等式问题,而无需人工演示。在混合推理方式下,通过生成的数据集实施价值课程学习策略来提高推理性能,展示出强大的数学直觉。在测试集上,AIPS 成功解决了 10 个国际数学奥林匹克等级的不等式问题,超过了现有方法。此外,AIPS 还自动生成了大量非平凡的定理,其中一些已经被专业参赛者评估,并被认为达到国际数学奥林匹克的水平。特别地,一条定理被选为 2024 年某大城市数学奥林匹克竞赛的问题。
Jun, 2024
CodeLLMs 在仓库级别规模上生成可执行且功能正确的代码的能力尚未得到广泛探索。我们引入了一种新的评估代码生成在仓库级别规模上的基准,名为 methodnamews,强调可执行性和正确性。methodnamews 提供了一个自动化系统,用于验证要求,并具有动态生成高覆盖率测试用例的机制,以评估生成代码的功能性。我们的研究探索了一个受控场景,开发人员在其中指定必要的代码依赖项,挑战模型准确地集成这些依赖项。实验证明,尽管预训练的 LLMs 在正确性方面胜过指令调优模型,但后者在利用所提供的依赖项和展示调试能力方面表现出色。methodnamews 旨在提供对代码功能和与开发人员意图的一致性的全面评估,为在实际场景中使用更可靠和适用的 CodeLLMs 铺平道路。
Jun, 2024
通过依存句法分析技术,我们在低资源语言乌尔都语的解析中取得了重要进展,并使用复杂的特征模型和 Nivreeager 算法,获得了一定准确率并评估了解析器的错误。
Jun, 2024
通过训练自证明模型,该论文提出了一种基于理论的方法来解决如何在特定输入上验证学习模型的正确性的问题。通过交互证明以高概率证明模型的正确输出并成功向验证算法证明其正确性,并通过实验验证了其在计算最大公约数方面的效果。
May, 2024
使用大型语言模型(LLM)生成代码的可行性进行了讨论,应用于设计 RISC。通过解析、标记化、编码、注意机制、对生成代码的令牌进行采样和迭代等相关步骤进行了回顾。通过测试平台和 FPGA 板上的硬件实现对 RISC 组件的生成代码进行了验证。使用四个度量参数:第一次迭代的正确输出、嵌入在代码中的错误数量、实现代码所需的尝试次数以及三次迭代后无法生成代码的次数,来比较使用 LLM 进行编程的效率。在所有情况下,生成的代码都有显著的错误,总是需要人的介入来修复错误。因此,LLM 可以用于辅助程序员进行代码设计。
Jan, 2024
语言模型的关注分布可以表达句法依赖关系。本研究介绍了动态句法映射(DSM)这一方法来无偏诱导这些结构,并发现通过使用更多的替代词语可以显著提高对自然语言数据的解析精度,尤其在长距离的主谓一致性方面。同时,DSM 在不同的解析场景中都表现出适应性,突显其广泛适用性。
Dec, 2023
引入了一种将任何工程性依赖树表示为一系列 4 位标签(每个词一个标签)的用于解析的编码方法,其标签的位表示(1)是否为左或右从属关系,(2)是否为其父节点的最外层(左 / 右)从属关系,(3)是否具有左子节点,和(4)是否具有右子节点。在多个不同的树库上进行的实验结果表明,与以前表现最佳的序列标注编码方法相比,我们的 7 位编码方法在准确性上取得了显著的提升,并且扩展了覆盖范围,几乎达到全非工程性弧的 99.9% 的经验弧覆盖率。
Oct, 2023
为了解决大型语言模型在引文、正确性和流畅度方面存在的问题,本研究通过构建数据集、引入自动化反馈机制和反馈学习循环,成功提高了 ChatGPT 的引文和流畅度指标,并保持高水平的正确性。
Sep, 2023
对四个大型语言模型在图数据分析问题上的能力进行评估,结果表明:1)大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理;2)GPT 模型能够生成逻辑和连贯的结果,在正确性方面优于其他替代方法;3)所有研究中的大型语言模型在结构推理方面面临挑战,零 - shot 推理和少 - shot 提示等技术效果减弱;4)在多答案任务中,GPT 模型常常产生错误答案,引发对可靠性的担忧;5)GPT 模型在输出上表现出较高的自信度,可能影响其纠正错误的能力。值得注意的是,GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。
Aug, 2023
本文提出了使用多头注意力机制变压器来解析用户代理字符串的新方法,并讨论了如何利用解析后的用户代理字符串评估公共 IT 网络或区域的漏洞得分。
Jun, 2023