自然语言处理的基础模型 - 集成媒体的预训练语言模型
本文介绍了使用预训练和微调、提示或文本生成方法解决 NLP 任务的大型预训练基于 transformer 的语言模型,以及使用预训练语言模型生成数据进行训练或其他目的的方法,并讨论未来研究的限制和建议方向。
Nov, 2021
本文主要介绍了预训练模型在自然语言处理领域的应用。首先简要介绍了语言表示学习及其研究进展,然后系统地从四个角度分类现有的预训练模型,接下来介绍如何将预训练模型的知识应用于下游任务,并提出了一些未来研究的潜在方向。该综述旨在成为一个操作性指南,帮助理解、使用和开发各种自然语言处理任务的预训练模型。
Mar, 2020
本文概述了预训练语言模型在对话系统中的应用,目的是讨论这些模型是否能克服对话系统所面临的挑战,以及如何利用它们的架构来克服这些挑战,并探讨了对话系统领域的开放性挑战。
Apr, 2021
本研究综述了最近的预训练基础模型技术的研究进展,重点探讨了这些技术在文本、图像、图形以及其他数据模态中的应用前景、挑战和机遇,同时也讨论了这些技术的基本组成、现有预训练方法和未来趋势。
Feb, 2023
本研究提出了一个基于基础模型的系统分类法,涉及预训练和微调,基于基础模型的系统的体系结构设计以及负责任的 AI-by-design。该分类法为基于基础模型的系统设计提供了具体的指南,并突出了设计决策带来的权衡。
May, 2023
基于 Transformer 架构的大型语言模型(LLMs)的近期进展在自然语言处理(NLP)应用领域展示了显著的拓宽范围,超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用,重点关注 GPT 系列,对人工智能(AI)驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究,同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展,Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究,突出了其多功能性和在实际应用领域中转型的潜力,从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。
Mar, 2024
基于已发表论文的研究,本文提出了对迄今为止呈现的架构解决方案和训练策略进行统一观点的基础,并强调它们之间的相似性和差异性,展示了不同的设置和评估方法如何阻碍了每个架构构建块和训练选择的最佳性能解决方案的识别,最后,我们概述了针对该主题的未来工作的建议,旨在更好地理解 SF+LLM 解决方案的优势和劣势。
Feb, 2024
通过简洁明了的数学框架和清晰的图示,详细解释了神经语言模型的主要类型,包括 BERT 和 GPT2,同时讨论了在计算机视觉和时间序列应用中的转化及与自然语言处理的对比。
Jan, 2024
通过对预训练语言模型的深入分析,我们发现未经微调的 BERT 模型竞争传统 NLP 方法的关系知识,可以根据开放式关系进行查询,某些类型的事实知识比标准语言模型预训练方法更容易学习,并可以作为无监督的开放式 QA 系统的潜力展现。
Sep, 2019