- EMNLP反事实食谱生成:在现实场景中探索组合泛化
本文研究了预训练语言模型是否能够在现实环境中进行构成泛化和对新元素进行合成,主要通过设计反事实食谱生成任务,使用中文菜谱数据集进行进行预训练语言模型的微调,结果表明这些模型生成的食谱虽然文字流畅,但缺乏真正的构成泛化能力和对烹饪知识的学习和 - EMNLP预训练语言模型的隐藏状态可变性可指导迁移学习的计算降低
该研究提出通过基于层内和层间变异性度量的方式选择适当的层数和分类器位置,以降低迁移学习方法的计算成本,而不影响其性能,并在 GLUE 测试集上进行了广泛实验,证明了该方法的有效性。
- 上下文生成改善开放域问答
我们提出了一个采用粗到细方法提取相关知识和回答问题的两阶段闭书问题回答框架,实验结果显示我们的方法明显优于先前的闭书 QA 方法并与利用外部知识源的开书方法相当。
- EMNLP通过领域适应改善 Prompt Tuning 的样本效率
本文提出了一种名为 OPTIMA 的算法,通过领域自适应来改进预处理语言模型的 prompt tuning,结果表明 OPTIMA 可以显著提高 prompt tuning 的可迁移性和样本效率,并在少样本情况下超过全模型调整性能。
- 来自不受信任教师的诚实学生:从预训练语言模型中学习可解释的问答流程
本文介绍一种新的基于 “Markup-and-Mask” 技术的生成问答系统解释性解释的方法,并提出了一种使用预训练语言模型自动生成标注数据进行端到端学习的方式来训练缩小版的模型的方法,同时结合了自由文本与摘录型解释的特点,进一步提高了问答 - ACLOPAL: 面向任务的对话的本体感知预训练语言模型
本文提出了一种面向任务的对话技术(TOD)前置训练语言模型 (OPAL),采用预训练和微调相结合的方法,成功地解决了无法获得大规模任务对话数据的问题,并在 CamRest676 和 MultiWOZ 基准测试中实现了令人兴奋的提升和竞争性表 - ECCV在无标注三维环境中学习视觉语言导航
本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集,并通过预训练的语言模型对数据集进行微调,从而解决 VLN 方法中的数据稀缺性问题,从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVER - PanGu-Coder:利用函数级别语言建模的程序综合
PanGu-Coder 是一种预训练的仅解码器语言模型,在文本到代码生成方面采用 PanGu-Alpha 架构,使用因果语言建模和屏蔽语言建模的训练方法,以实现在自然语言问题描述的情况下对编程语言解决方案进行综合的代码生成和优化。
- ORCA:通过定位预训练数据海洋中的支持数据证据解释提示型语言模型
本文旨在探究预训练模型在零样本情况下的特定任务认知。通过对支持数据证据进行迭代使用,可以发现 BERT 在情感分析和文本蕴含任务中对 BookCorpus 预训练数据的大量依赖,以及对掩盖任务动词词汇同义词的预训练示例的依赖。
- 一个简单且统一的标记模型,带有引导作用,用于关系结构预测
通过使用 Tagging 模型,对预先训练好的语言模型的输入序列增加预处理,从而提高关联结构提取的精度,并在多语言数据集上进行了广泛的实验及分析,并提出了一种快速且准确的近似方法
- 元学习用于参数高效微调
本篇研究证明,考虑下游微调方法会提高轻量级微调技术的性能,通过使用 MAML 和优化元学习技术为轻量级微调方法进行预先训练,我们可以使受过训练的语言模型适合轻量级微调,从而在跨语言 NER 微调中获得高达 1.7 分的收益。
- KDDM6-Rec: 生成预训练语言模型是开放式推荐系统
通过利用现有的大规模预训练语言模型 M6,基于改进的 prompt tuning 算法和技术手段,建立了一个统一的基础模型,支持工业推荐系统中开放式的各种任务;实现了高效的推理和模型压缩,为检索、排序、零样本推荐、解释生成、个性化内容创建和 - ACL自动多标签提示:简单且可解释的少样本分类
本研究提出了 AMuLaP 方法,利用一对多标签映射和基于统计的算法自动选择少样本文本分类的标签映射,并在 GLUE 基准测试上展示出竞争性能。
- WWW小心解冻:用空间高效方法微调语义分析模型
本文研究了利用 PLM 进行语义解析的问题,并比较了在数据较少和常规情况下,冻结 PLM 参数的前缀调整和偏置项调整两种新技术与全量和部分微调的性能。作者发现,通过添加特殊令牌嵌入的前缀调整方法可以在保持参数节省的同时,获得非常良好的性能。
- ACL基于最优传输对比句子学习的可解释语义文本相似性研究
本文提出一种用于优化句子相似性和解释句子相似性的对比学习框架 CLRCMD,该框架使用 RCMD 方法作为句对的相似度评估方式, RCMD 方法提出了一种通过语境化令牌距离加权和来描述句子距离的方法和解释句子相似性的方法。经过广泛的实验证明 - AAAI预训练语言模型压缩和加速综述
该文章调查了预训练语言模型的压缩和加速方法,重点关注了模型在 NLP 领域推理阶段的表现,并提出为 NLP 的整个生命周期(包括数据准备、模型训练和推理)综合考虑计算、时间和碳排放的高效 NLP 研究。
- TourBERT:面向旅游业的预训练语言模型
本文介绍了 TourBERT,它是一种旅游专用的预训练语言模型,评估表明,TourBERT 在所有旅游特定任务中均优于 BERT。
- 基于语言模型的配对变分自编码器用于机器人语言学习
研究了通过预训练语言模型进行机器人的语言描述,在简单的物体操作场景下,实现了机器人行为和语言描述的双向绑定,并提出使用所提供的 PVAE-BERT 模型可以在真实场景中用于实现人机交互的指令。
- ACLMetaICL:在上下文中学习学习
MetaICL 是一种新的元训练框架,用于少样本学习,通过在大量训练任务上进行元训练,调整预训练模型进行上下文学习,从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果,该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 - EMNLPLM-Critic: 无监督语法错误修正的语言模型
本文介绍了如何使用预训练语言模型来识别语法是否正确并使用 Break-It-Fix-It 框架进行训练。通过在多个领域的数据集上进行实验,我们发现这种方法在无监督学习和有监督学习下都优于现有方法。