- WWW一个为问答任务注入先验知识的课程预训练框架
本研究提出了一种通用的知识注入课程预训练框架(KICP),用于实现全面的知识图谱学习和知识库问答任务,并在四个真实数据集上评估了该框架的表现。研究结果表明,该框架能够取得更高的性能。
- 目标识别作为下一个令牌预测
通过将图像嵌入到文本令牌的自回归预测过程中,我们提出了一种将目标识别作为下一个令牌预测的方法。我们通过自定义非因果注意掩码来将预测过程与自回归相结合,其中包括将不同标签的令牌建模为独立,并将图像令牌视为前缀。我们提出了一种高效的一次性采样方 - ACL一种高效的自监督跨视角句子嵌入训练
我们提出了一种称为自监督跨视图训练(SCT)的框架,以缩小大型和小型预训练语言模型(PLM)之间性能差距,并在 7 个语义文本相似性(STS)基准测试中通过与 5 个基准和最先进的竞争对手的比较,在参数数量从 4M 到 340M 范围内的 - 上下文对齐:在微调之前与简单语言模型聊天
Vanilla pretrained language model achieves improved alignment through in-context learning without changing model weights - ACL开放领域的主题分类
本论文介绍了一种开放领域的主题分类系统,能够在实时接受用户自定义层次结构并通过零样本学习利用预训练语言模型来分类文本片段,并在多个领域数据集上进行了评估。
- ACLCoSiNES:用于实体标准化的对比孪生网络
使用预训练语言模型及对比 Siamese 网络构建的通用化实体标准化框架 CoSiNES,在技术、化学、医药和生物医学领域的四个标准数据集中取得了竞争性的表现,并在技术领域新数据集中展示了高准确度和快速运行时间。
- 提示调整的普适性和限制性
研究预训练语言模型的 prompt tuning,从通用性和有限深度固定权重的预训练 transformers 的限制方面分析了 prompt tuning 的作用,证明了 prompt tuning 在有限深度 transformers - LMGQS:一份用于查询聚焦摘要的大规模数据集
利用预训练语言模型,在大规模通用文本摘要数据集上建立了新的面向查询摘要的基准数据集,并在多个现有数据集上实现了零样本和有监督下的最先进工作性能。
- 利用大型语言模型增强自我驱动智能体
本研究介绍了一种使用预训练语言模型(LM)的语言模型增强的自我目标学习环境,它支持自动生成并学习具有多样性、抽象性、与人类相关的目标 —— 而非手动编码的目标表示、回报函数或课程,该系统可以在基于文本的任务无关环境中学习掌握各种广泛的技能。
- 口语语义解析中管道和端到端 SLU 系统的集成研究 —— 面向 STOP 质量挑战
本文提出了一种基于自动语音识别系统和预训练语言模型的语义解析系统,用于解决在 ICASSP 信号处理大挑战中为语音理解大挑战而提出的质量跟踪 (Track 1) 任务中的问题,并且在这个任务中获得了 80.8 的精确匹配准确率,从而获得了第 - NLNDE at SemEval-2023 Task 12: 低资源多语言情感分析的自适应预训练和源语言选择
通过利用语言自适应和任务自适应的预训练模型,本文针对非洲语言低资源性情感分析问题的特点,研究了基于预训练的语言模型的迁移学习方法,并发现将预训练模型适应到目标语言和任务上可以显著提高模型表现,选择具有积极转移增益的源语言可以避免干扰,这在多 - 使用提示识别科学论文中的引用意图
使用 CitePrompt 框架进行引用目的分类,首次将分类转化为少样本和零样本设置,并证明使用预训练语言模型来构建提示 (template) 和提示变换器 (verbalizer) 可以获得比最优方法更好的结果,且只需要更少的外部信息。在 - 通过提示进行模型调整使 NLP 模型具有对抗鲁棒性
该研究通过 Model-tuning Via Prompts (MVP) 修改输入而非模型以适应下游任务,在三个分类数据集上提高对抗性的稳健性,超过标准方法平均 8%和对抗性训练的最新防御技术 3.5%。研究结果发现多层感知器 (MLP) - 基于提示的文本风格转移编辑
该论文提出了一种基于提示的文本风格转换编辑方法,其中使用预训练语言模型进行风格分类,使用分类概率计算风格得分,然后通过词级别的编辑,以最大化全面的评分函数来实现风格转换任务,实验表明其性能远高于具有 20 倍参数的现有技术。
- 从任务说明中学习的鲁棒性
本研究探讨了新任务指令被恶意篡改、改写或来自不同书面表达程度时,基于预训练语言模型的监督系统的稳健性。
- 去人格化自然语言处理:语言模型能否有意识?
对于最近有人声称基于 Transformer 模型体系结构的预训练语言模型 LaMDA 具有感性的争论中,我们认为这种语言模型不能具有感性或意识,LaMDA 没有表现出其他类似模型的进展,我们通过集成信息理论分析变压器结构来证明这一点,我们 - EMNLP从文本生成知识图谱
提出了一种通过对文本输入进行多阶段知识图谱生成的系统,并通过使用预训练的语言模型生成图节点,然后使用简单的边构造头部来使得从文本中提取知识图谱效率更高。该模型在 WebNLG 2020 挑战数据集,New York Times(NYT)和大 - ACLXu 参与 SemEval-2022 任务 4:预 BERT 神经网络方法与后 BERT RoBERTa 方法的亲切和轻蔑语言检测对比
本文介绍了作者参与的 SemEval-2022 任务 4:优越和轻蔑性语言检测,并对子任务 1 中的预训练语言模型 RoBERTa 进行了比较研究,发现相对于基于神经网络的系统,RoBERTa 在两个子任务上表现更好,其中在子任务 1 中排 - ACL通过填补单词表和词频间隙实现稀疏检索的无监督领域自适应
本文提出了一种使用预训练语言模型的信息检索模型 SPLADE,介绍了它在处理实际场景中的鲁棒性及其存在的问题,最后提出了一种无监督领域自适应方法,通过补充语料库中的低频词汇并使用逆文档频率权重来提高检索性能。实验结果表明,该方法在具有大量词 - NTULM: 以非文本单元丰富社交媒体文本表示
本文构建一个基于 NTUs 的异构社交网络并将其整合到一种预训练语言模型中,实验证明利用 NTUs 显著优于现有的基于文本的基准线,突显出将 NTU 上下文应用于社交媒体 NLP 的重要性。