- 通过冻结大型语言模型实现零样本视频问答
本研究提出一种简单而有效的 Retrieving-to-Answer 框架,通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本,再与问题一起使用大型语言模型产生答案,可以在多个 VideoQA 基准测试中达到较高水平,并且 - 针对数据效率的语言模型 MiniPile 挑战
本文提出 MiniPile 挑战,呈现一种使用文本语料库的小数据集进行语言模型预训练的方法,其适用性通过在 GLUE 和 SNI 基准测试中得到论证。
- 端到端 ASR 适应的即时文本检索
本文提出一种在已有的 ASR 模型中添加检索语言模型,以直接从外部文本语料库中检索可能的完成语来改善模型性能,并使用适配器将这些完成语集成到后续的预测中,避免了重新训练的计算开销。该模型在问答数据集和特定领域命名实体识别等任务上表现均优于现 - Z-ICL: 伪示例下的零样本上下文学习
介绍了一种新的零样本方法 Z-ICL,通过使用文本语料库为给定的测试输入构造伪演示来缩小性能差距,并在九个分类数据集上的评估表明,Z-ICL 明显优于以前的零样本方法,并且与带标记训练数据的上下文学习在少样本学习中不相上下。
- ACL对话系统中快速轻量级答案文本检索
本文研究表明,使用大量参数的深度学习模型可用于启用高级神经密集检索系统有效地运行于相对廉价的硬件上,特别适用于云服务中支持大量个性化对话系统以及其各自的文本语料库。
- Anubhuti -- 一份用于孟加拉短篇小说情感分析的标注数据集
该研究报道了 Anubhuti 的创建过程 -- 这是用于分析孟加拉短篇小说作家表达情感的第一个且最大的文本语料库,其中包括数据收集方法、手动注释过程、数据集的高一致性及其与基线机器学习和深度学习模型的性能验证以及如何将该数据集应用于语言学 - EMNLP探索术语的语义容量
该研究旨在探讨术语的语义容量,以帮助自然语言处理中的相关任务。研究者们提出了一个两步模型,通过对大型文本语料库的输入来评估术语的语义容量。通过三个领域的广泛实验,结果表明该模型与人类水平和其他先进模型相比,具有更高的有效性和合理性。
- EMNLPGGPONC:基于临床实践指南的德语医学文本富元数据语料库
本文介绍了 GGPONC(德国肿瘤规范化治疗自然语言处理语料库),它是基于肿瘤规范化治疗的德语语料库之一,为德语语言医学信息提取和自然语言处理研究提供了巨大的帮助
- WWW仿人类提问:基于文本语料库的可扩展问答生成
本文提出了一种名为 ACS-QG 的问题生成系统,使用信息抽取、神经网络生成器和质量控制器自动生成高质量、多样化的问题 - 答案对,该系统超越了现有神经网络问题生成模型,并能从较少的数据中生成 280 万个高质量的问题 - 答案对。
- ICML基于递归层次主题引导的循环神经网络语言生成模型
提出了一种新的基于递归层次语义结构的流式话题模型的递归神经网络(RNN)语言模型,能够捕捉语料库中的语法和整体语义,并通过动态深度话题模型进行自然语言生成。实验结果表明,该模型不仅优于基于较大语境的 RNN 语言模型,而且能够学习可解释的递 - ACL利用关系外知识库作为监督进行关系发现
本文研究了如何使用 “非关系型知识库” 监督从给定语料库中发现未见过的关系,我们提出了一种基于知识库嵌入的实体对约束方法,并将其与变分自编码算法相结合,实验表明这种新方法可以大幅提高现有的关系发现性能。
- ACL识别和减少单词级语言模型中的性别偏见
本研究以性别为例,用度量方法描述了文本语料中的社会问题偏差。提出了语言模型的正则化损失项以减少性别偏差,最终在多个语料库中验证了该方法的有效性。
- 从稀疏的网络安全文本中学习特定领域词向量
本文提出了一种从稀疏文本中训练领域特定词向量的新方法,它不仅利用领域文本,而且还利用领域词汇和语义关系。作者将不同类型的领域知识编码为文本注释,并开发了一种新的词注释嵌入算法,将这些文本注释与词嵌入相结合。作者已在两个网络安全文本语料库上对 - SIGIR联合学习词嵌入和潜在主题
该研究提出了一个名为 STE 的框架,可以以统一的方式学习词嵌入和潜在主题,从而解决多义问题,并在有效且高效的方式下生成有用的主题特定的词嵌入和连贯的潜在主题。
- 利用形式概念分析从文本语料库中学习概念层次结构
该研究提出了一种基于 FCA 的新方法,通过对文本语料库中的上下文信息进行建模和分析,以自动获取层次结构的概念分类。在旅游和金融领域应用比手工分类更有效。
- 具有头部词汇的 PCFG 进行情感诱导
该研究采用词汇化的概率上下文无关文法和改进的 EM 算法从 5,000 万个单词的文本语料库中学习词汇,评估结果表明该模型可以准确地产生框架分布。