- 文本卷积神经网络在自然语言处理和系统推荐之间的全面实现
本文分析了深度学习在自然语言处理三个核心任务(文本表示、词序建模和知识表示)中的应用现状,探讨了在文本分类背景下自然语言处理所取得的改进和协同效应,同时考虑了文本生成、文本分类和语义解析中对抗技术所带来的挑战,通过对文本分类任务的经验研究, - LUNA:语言理解和自然度评估框架
LUNA 是一个自然语言生成模型评估工具,通过引入 20 个不同的评估指标,基于参考依赖性和文本表示的类型进行分类。其设计简单易扩展,并提供了一个用户友好的评估生成文本的工具。
- EMNLP通过信息瓶颈原理进行文本表示精简
为了使模型更加易用,我们提出了一种基于信息瓶颈的知识蒸馏方法 IBKD,通过最大化教师模型和学生模型的最终表示之间的互信息,并减少学生模型表示和输入数据之间的互信息,以保留重要的学习信息并避免过拟合的风险,从而有效地在文本表示和下游任务中应 - 是否对文本进行标记化:跨语言转移的文本表示的比较研究
选择一个合适的分词方案通常是低资源跨语言转移的瓶颈。为了理解文本表示选择的后续影响,我们对具有不同文本表示模式的语言模型进行了比较分析,包括 2 个基于分词的模型(BERT,mBERT)、一个基于图像的模型(PIXEL)和一个基于字符级别的 - 当大型语言模型遇见引用:一项调查
本文综述了大语言模型(LLMs)与引文分析之间的相互关系,包括引文分类、基于引文的摘要和引文推荐等任务,以及通过引文预测、网络结构信息和文献间关系等手段来改进 LLMs 的文本表示,并提出了进一步研究 LLMs 和引文分析相结合的潜在方向。
- 通过表示相似性正则化增强音频生成可控性
该论文提出了一种创新的方法来增强对音频生成的控制,通过在模型训练期间强调音频和文本表示之间的对齐。实验结果表明,我们提出的方法在音频和音乐生成的客观指标以及人类感知方面都取得了提升。
- 多语言文本表示
现代自然语言处理的突破包括能够在 100 多种语言中执行任务的大型多语种模型。最先进的语言模型从简单的独热编码词表示开始,能够执行自然语言理解、常识推理或问答等任务,从而捕捉文本的语法和语义。同时,语言模型正在超越我们所知的语言界限,甚至在 - DDNAS: 文本分类离散可微神经构架搜索
本文提出了离散可微分神经架构搜索新方法(DDNAS)进行文本表示和分类的优化,并采用互信息最大化的离散化层来对文本表示中的潜在分层进行建模。实验证明,DDNAS 可显著优于现有的最先进的 NAS 方法。
- 使用可适应的任务特定前缀轻松更新通用文本表示
该论文提出了一种基于前缀的方法来学习固定文本表示,该方法可以通过多次前向传递来更新文本表示。实验结果表明,该方法在更新文本表示时可以比多任务训练更省计算资源。
- 检测虚假生成的科学摘要
本研究基于 GPT-3 模型自动生成科学论文摘要,通过机器学习模型结合多种文本表示方法来辨别机器生成文本,并分析模型性能及讨论相关研究问题,旨在揭示人工智能生成文本的能力和局限性。
- 你们的 Token 是什么?作为词汇分布的密集检索
本文研究了双编码器在稠密检索中的表征方式,并通过词汇分布提供了对其性能解释的见解。最后,我们提出了一种简单的方法,在推理时使用词汇信息来丰富查询和段落的表征,并表明这显著地提高了在跨领域设置下的性能。
- 文本表示方法及其谱系调查
本文通过归纳总结相关研究成果并构建基于谱系和分类学的文本内容表达方法来帮助人工智能研究人员更好地理解和应用自然语言处理技术。
- 基于反向对比学习的中文拼写检查框架
通过提出反向对比学习策略及引入三个模块:语言表示、拼写检查和反向对比学习,构建了一种新的中文拼写检查框架。实验证明,此框架可与现有模型结合,实现最先进的性能。
- KeypartX: 基于图形的感知 (文本) 表示
本研究提出了一种基于图形的 KeypartX 方法,用于通过语言信息(语义、句法和语用)提取文本的知识表示,可适用于大数据且不仅仅是基于词袋 / 向量的机器学习,同时适用于文本最小单元:句子。
- COLING粗到细:自然语言理解的分层多任务学习
通过三种不同的角度(数据属性、手工设计和基于模型的相关性)分析任务相关性,本文提出了一种层次框架并使用粗粒度到细粒度的范式,使模型从所有任务中学习基本语言属性,提高相关任务的性能,并减少不相关任务的负面影响。
- 模糊聚类中的词向量和有效性指标
本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍,通过应用基于计数的单词嵌入在 covid 数据集上,研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能,我们通过比较不同算法变体的不同嵌入精度来评估实验结果。
- SIGIR通过对比跨度预测来预训练用于密集检索的判别性文本编码器
本文介绍了一种新型对比度跨度预测任务,该任务实现了仅训练编码器但仍具备自动编码器的瓶颈能力,在大数据检索的场景中通过组内对比度学习方法能够高效的学习出具有区分度的文本表示,避免了解码器的旁路效应。
- 减少语音训练数据需求以构建口语理解系统
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
- 训练和调整 RNN 转录自动语音识别模型的文本输入整合
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
- EMNLP加强语言表示以利用标签知识进行提取
本研究提出了一种新的模型来加强文本表达,进而实现信息提取中的 span extraction 任务,并在三个任务,flat NER、nested NER、event detection 中达到了最佳表现,显著减少了训练和推理时间。