语言模型概述:最新发展与展望
本文综述了预训练语言模型在文本生成方面的主要进展,包括模型结构、输入数据的适配以及重要的微调策略。对于文本生成研究者而言,该综述提供了相关研究的综合和指引。
May, 2021
本文对基于预训练语言模型的文本生成方法进行了综述,包括如何编码输入、设计生成模型、以及如何优化预训练语言模型以生成特定性质的文本;同时讨论了应用与存在挑战,总结了有用资源和应用举例,并提出了未来研究方向。
Jan, 2022
本篇论文综述了近期预训练语言模型在生物医学领域的研究进展及其在生物医学下游任务中的应用,提出了现有生物医学 PLMs 的分类及其在下游任务中的应用,讨论了其限制与未来发展趋势。
Oct, 2021
最近,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了重要的成就。然而,由于灾难性遗忘的原因,它们仍然无法模拟类似人类的连续学习。为了解决这个问题,已经开发了各种基于连续学习(CL)的方法来改进 LMs,并使其能够适应新任务而不会遗忘以前的知识。然而,目前对现有方法的系统分类和性能比较仍然缺乏,这是我们调查的空白。我们对基础语言模型中应用的基于 CL 方法的现有文献进行了全面回顾、总结和分类,如预训练语言模型(PLMs)、大型语言模型(LLMs)和视觉语言模型(VLMs)。我们将这些研究分为离线 CL 和在线 CL,其中包括传统方法、基于参数效率的方法、基于指令调优的方法和连续预训练方法。离线 CL 包括领域增量学习、任务增量学习和类增量学习,而在线 CL 又分为困难任务边界和模糊任务边界设置。此外,我们概述了 CL 研究中使用的典型数据集和度量标准,并详细分析了 LMs-based 连续学习的挑战和未来工作。
May, 2024
这篇论文比较了掩码语言模型和因果语言模型在文本生成任务上的表现,发现掩码语言模型在生成文本时具有更好的质量和连贯性,并且对下游任务的性能没有明显影响,从而显示了掩码语言模型在文本生成方面具有巨大的潜力并指导了未来研究的方向。
May, 2024
本文提出了一种简单的方法,使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据,其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法,在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8,以及在 SST-2 上的 92.8),相对于零样本提示方法,甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时,采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。
Feb, 2022
本研究通过定义词汇表上的一组概率分布,动态地计算这些分布上的混合权重,演示如何将基于计数的 n-gram 模型与神经 LM 结合在单个模型框架中,从而创建新颖的混合模型,并证明这些方法的优势。
Jun, 2016
本文论述了预训练语言模型(PLM)的重要性以及知识增强型预训练语言模型(KE-PLMs)的研究现状,探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。
Oct, 2021