通过逐步提示的基于句法分析的分解,本研究发现了更多语义分析任务中的挑战。这一最优方法使我们在 CFQ 上取得了最新的技术成果,同时只需要传统方法所需训练数据的 1%。由于我们方法的普适性,我们期望类似的方法将在知识密集型应用中取得新的成果。
Sep, 2022
对大型语言模型的解释技术进行分类和总结,并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。
Sep, 2023
利用大型预处理语言模型作为少型语义解析器,将输入 paraphrase 成类似英语的控制子语言,通过很少的数据和代码快速批量生成语义解析器,表现出令人惊讶的有效性,远超过基线方法。
Apr, 2021
本文研究了大型语言模型 LLMs 的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在 LLMs 的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究 LLMs 的推理机制。
May, 2023
可解释机器学习与大型语言模型相结合,评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。
Jan, 2024
本文研究大语言模型在自然语言处理中的局限性,特别是无法学习一些基本语义属性,如语义蕴涵和一致性,以及不能学习超越 Borel 层次结构的概念,这对语言模型的语言理解能力产生了严重限制。
Jun, 2023
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
Oct, 2023
最近大规模语言模型能力的进步引发了对其评估的新浪潮,这篇研究工作通过在自然语言和形式语言之间的相互转换来验证大规模语言模型理解和生成结构化逻辑形式的能力,实验证明现今最先进的大规模语言模型在理解逻辑形式方面整体上接近人类水平,但在生成正确逻辑形式方面仍有改进的空间,使用大规模语言模型生成更自然的语言训练数据以增强小型模型的效果更好,同时结果还表明模型对不同形式语言表现出显著的敏感性,总体而言,形式化程度较低、更接近自然语言的形式语言对大规模语言模型更友好。
本文考察了大型语言模型对语言习得中的概率关系和上下文敏感性建模的能力,并针对基于强度先验条件的语境下的 pragmatism utterances 进行了阈值估计实验。结果表明该方法成功地推导出了一些复杂 pragmatic utterances 相关的人类类似信息分布,但对于否定的组成较为困难。