本文介绍了一种利用大型语言模型作为数据增强工具的技术,即利用软提示的混合模型进行参数有效的数据生成,并通过去噪机制提高生成数据的质量,此方法能够在复杂预测任务中实现对标签语义的保留,达到优于强基准的最新结果。
Mar, 2023
我们评估了 GPT 在四个封闭式生物医学机器阅读理解基准测试上的表现,提出了一种名为 Implicit Retrieval Augmented Generation(IRAG)的提示策略,该策略通过减少传统 RAG 设置中使用向量数据库检索重要部分的需求来解决 LLM 所固有的检索问题,并通过定性评估展示了该方法的自然语言生成输出。实验结果表明,我们的新提示技术在四个数据集中有两个取得了最佳效果,并在其余两个中排名第二。实验还表明,像 GPT 这样的现代 LLM,即使在零 - shot 设置中,也能胜过监督模型,从而在两个基准测试中取得了最新技术水平的成果。
May, 2024
本文旨在探索使用大型语言模型(LLMs)将英文翻译成蒙巴依语,一种在东帝汶使用的语言,本研究使用少量数据对 LLM 进行指导,以提高低资源语言的机器翻译质量。
Apr, 2024
对大型语言模型(LLMs)中的提示泄漏进行了研究,发现在多轮 LLM 交互中存在漏洞和泄漏,并提出了防御策略。
本研究聚焦于使用大型语言模型作为无样本关系抽取器。通过分析现有关系抽取提示的不足之处,并引入诸如 CoT 的最新提示技术,我们提出了一种名为 SumAsk 的简单提示方法,通过使用大型语言模型将关系抽取输入转化为有效的问答格式。同时,我们在各种基准测试和设置上进行了广泛的实验,研究了大型语言模型在无样本关系抽取方面的能力,发现 SumAsk 方法在不同模型尺寸、基准测试和设置上都能显著提高大型语言模型的性能,在与无样本和完全监督方法相比具有一定竞争力甚至优越性能的同时,大型语言模型在提取重叠关系方面表现出了良好的性能,然而,不同的关系之间性能差异较大,大型语言模型相较于小型语言模型在处理挑战性的无适用项关系时表现出了有效性。
Oct, 2023
通过 Quantum-Bench,我们比较了多种先进模型在对抗伪信息的能力上的表现,并提出了通过增加伪信息以增强模型韧性的建议。
Feb, 2024
本文研究了语言模型中三种类型的抄袭行为(即逐字,改写和思想),分析了细调语言模型的抄袭模式。结果显示,语言模型存在广泛的抄袭,其大小和解码方法与抄袭程度密切相关,抄袭模式的变化取决于其语料库的相似性和同质性。这些发现提出了关于当前语言模型实践中实用性的疑虑并强调了观察到的现象的更多探讨。
Mar, 2022
通过分析输入 - 输出对的关键特征,在商业 LLM 中针对 prompt 反向窃取设计了一种新的攻击框架,名为 PRSA,从而构成了一个严重的潜在威胁。
本文在多语言和交叉语言设置下,通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。
Jun, 2023
通过研究生成式大型语言模型在机器翻译中的性能,我们发现多语言模型(如 PaLM)在人工翻译输出方面表现出类似人类的水平,能够根据样式指南和语言要求优化所需的翻译细微差别,并在处理和应用提示上表现出色。我们还针对流行的语言模型作为机器翻译工具的错误和限制进行了分类和提出了设计提示进行上下文学习的方法。通过改进评估指标的准确性和可靠性,我们的研究旨在促进生成式大型语言模型在机器翻译中的进步。
Jan, 2024