通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023
使用大型语言模型,通过训练样本和模型参数的相对较小数量,显著改进了 Split and Rephrase 任务的性能,并证明了大语言模型在该任务中的潜力。
Dec, 2023
大型语言模型 (LLMs) 可以作为催化剂引发新的科学发现,并指导进一步的探索。
Nov, 2023
我们提出了 BLESS,它是关于最新一代语言模型在文本简化任务上的全面性能基准。我们评估了 44 个模型在三个不同领域(维基百科、新闻、医学)的少样本测试集上的表现,并考察了这些模型的尺寸、架构、预训练方法和可访问性。我们采用一系列自动指标和大规模定量研究,揭示了这些模型执行的常见编辑操作类型。此外,我们对一部分模型输出进行了手动定性分析,以更好地评估生成的简化的质量。评估结果显示,最佳的语言模型,尽管没有在文本简化上进行过训练,与最新的文本简化基准相当。此外,我们发现某些语言模型展示了更大范围和多样性的编辑操作。我们的性能基准将作为未来文本简化方法和评估指标的资源。
Oct, 2023
大型语言模型在同时机器翻译任务中表现出与某些最先进基准系统相当或更好的性能,并且注入最少的背景信息(容易实现)可以进一步提高性能,尤其是在具有挑战性的技术主题上。这凸显了大型语言模型构建下一代大规模多语言、上下文感知和术语准确的同时翻译系统的潜力,而无需资源密集型的训练或微调。
Jun, 2024
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。
Sep, 2023
本文研究了是否通过显式添加语义信息来改善大型语言模型在代码汇总任务中的性能,发现通过添加语义信息可以显著提高模型性能,特别是在 PHP 语言的 CodeSearchNet 数据集上。
Apr, 2023
最近,关于利用大型语言模型 (LLM) 自动生成儿童教育材料的概念变得越来越现实。本研究先考察了几种流行的 LLM 的能力,以生成词汇和可读性适合儿童的故事。然后,通过开发一个基于儿童故事领域的数据集,研究了最先进的词汇简化模型在儿童故事材料上的适用性,并通过适当的微调使其性能得以提升。
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023