面向语义的无标记预处理技术用于大规模语言模型
本研究提出一种无监督的精调框架,用于快速和直接地向未标记的目标数据进行深度学习模型的预训练,并在图像分类、情感分析和自然语言推理任务中实现了持续的改进。
Apr, 2023
本文提出了一种黑盒优化解释注入的提示方法,以提高文本推理任务的性能,在问题回答、数学推理和自然语言推理等四个文本推理任务中实现了有效的促进效果。
Feb, 2023
提出了一种标签语义感知预训练(LSAP)方法,该方法将标签语义信息融入预训练生成模型中,并通过有标签的来自不同领域的句子的次预训练进行,从而提高了文本分类系统的泛化性能和数据效率,在 ATIS、Snips、TOPv2、AG News 和 Yahoo! Answers 几项任务中展现出显著的性能提升,尤其对于少样本学习的情况表现出色。
Apr, 2022
我们提出了一种名为 “指向引导的段落排序”(SO)的新型预训练技术,旨在增强大型语言模型中段落级文本表示的上下文理解。该方法利用自注意力驱动的指针网络来恢复被乱序的文本段落的原始顺序,解决了捕捉文档内部结构连贯性和上下文依赖关系的挑战。这种预训练方法通过结合动态采样的微调方法,增加了训练实例的多样性,并提高了各种下游应用中的采样效率。我们在各种数据集上评估了该方法,在需要对科技文献和财务报告领域的连续文本进行分类的任务中,展示了其有效性。我们的实验结果表明,指向引导的预训练显著增强了模型理解复杂文档结构的能力,并在下游分类任务中达到了最先进的性能。
Jun, 2024
通过引入「Pelican Soup Framework」理论框架,该研究分析了现有的文本处理中基于潜变量模型的理论分析与实践间的差距,并提出了通用形式的自然语言分类任务、共识知识库以及意义关联等概念来解释上下文学习过程中的损失界限和任务泛化能力。研究结果通过使用「Calcutec」模型和真实世界的自然语言处理任务表明了该框架的有效性。
Feb, 2024
本篇论文介绍了一种基于语言模型的 seq2seq 体系结构,重点介绍了少样本语义解析,并基于非注释数据引入联合训练、有约束的解码、自训练和重新表述这四种技术进行了自动方法来提高语义解析性能。结果表明,该方法在夜间数据集上提供了新的最优结果,并在新的语义解析数据集上提供了非常令人信服的少样本结果。
Apr, 2022
本研究设计了一种提示策略,将多个 NLU 任务作为上下文蕴含进行推断,并提出了简单伪标签编辑算法(SimPLE)以提高自我训练的伪标签质量,在二分类和多分类分类任务上进行的实验表明,自我训练蕴含模型在语言理解任务上比大型语言模型更有效和可信。
May, 2023
本文介绍了一种基于最大边距框架的语义流形识别方法,并提出了半监督词汇知识学习的概念,从而实现监督学习、零样本学习和开放式识别的统一框架。该方法在 AwA 和 ImageNet 数据集上的结果显示出了改进。
Apr, 2016