- 探究医患对话摘要的稳健性:跨领域 SOAP 笔记分析
研究考察了最先进的医患对话生成摘要模型在域外数据上的表现,将医患对话摘要模型分为两种配置,一种是通用模型,另一种是以 SOAP 部分生成摘要的模型。研究分析了基于微调语言模型和 GPT 的方法在两种配置上的局限性和优势,以及通过语言查询和词 - 利用音频分类提高非洲裔美国人英语的语音识别
使用少量的长形式非洲裔美国英语(AAE)数据,通过将分类器输出与地理信息相结合,优化洲外识别器,从而减少 AAE 与 MAE 之间的相对词错误率差异 38.5%,而不降低 MAE 的质量。
- 增强的三维对抗样本用于鲁棒性领域外预测
通过对实际训练数据集进行改进,我们提出了一种使用对抗性示例来增强模型对领域外数据的泛化能力的方法,通过学习和应用一组矢量来扭曲对象并进行对抗性增强,从而显著提高了三维对象检测和三维语义分割方法对领域外数据的鲁棒性和泛化能力。
- COLING注入话语依赖性以提高主题分割
我们提出了一种注入了句际依赖结构的话语感知神经主题分割模型,以更好地利用句子之间的主题一致性进行主题边界分割预测,并在英文评估数据集上进行实证研究表明,我们的策略显著提高了神经主题分割器在域内和域外数据上的性能。
- 从领域外数据进行蚕合以删选知识
该研究提出了一种基于 MosaicKD 的知识蒸馏方法,可以使用低成本的跨域数据来训练模型,显著优于现有的方法,并在分类和语义分割等任务中得到了验证。
- 突出短语感知的密集检索:密集检索器是否能模仿稀疏检索器?
介绍了一种称为 Salient Phrase Aware Retriever (SPAR) 的密集型检索器,在保留稀疏模型的词法匹配能力的同时,通过加入类似于稀疏模型的词汇模型 Lambda 来提高其检索性能。SPAR 在多个任务上表现出卓 - EMNLP基于分词边际概率评估语言模型
本文研究神经语言模型的 tokenization 对模型性能评估的作用,并提出用边缘似然进行评估。在使用采样的不同估算器比较后,发现边缘困惑度可以更好地反应模型性能,特别是在领域外数据中能表现出更好的鲁棒性。此外,通过测量 tokenise - ACL远程注释和对抗训练相结合的跨领域中文分词
本文提出了一种跨域中文分词的方法,使用远程注释和对抗训练来解决领域间的分布差异和词汇表外问题,实验结果表明该方法优于之前的领先的跨域中文分词方法。
- ACL基于字级别和形态学的语义角色标注模型对比研究
本文分析了使用字符、单词和形态水平信息的 SRL 模型和字符级模型的性能,研究表明字符级模型比单词和形态更适合处理未知数据并具有高层次的语义分析能力。
- 野外场景下的丰富图像描述
本研究提出了一种图像描述系统,通过在先进的架构上建立深度视觉模型、实体识别模型和信心模型等方式,有效地解决了在野外环境下图像描述的质量、异领域数据处理和低延迟等挑战,并在领域内和领域外的数据集上都显著优于之前的最佳实践结果。
- ACL利用递归神经网络进行多域对话状态跟踪
该论文研究对话状态跟踪,提出通过跨域对话数据训练一般化信念跟踪模型,使用域外数据初始化跨域信念跟踪模型的训练流程,提高了信念跟踪的性能。