- LLMZip:使用大语言模型的无损文本压缩
使用大型语言模型 LLaMA-7B,我们给出了一组英文熵的渐进上界估计,并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法,初步结果显示出优于 BSC,ZPAQ 和 paq8h 等现有文本压缩方案的性能。
- 多模态自动事实核查:一项调查
本文调查了自动化事实核查并提出了一个多模式事实核查的框架,其中包含针对多模态误传播的子任务。研究重点在于文字、图像、音频和视频四种在实际事实核查中普遍存在的模态。调查了基准和模型,并讨论了未来研究的局限性和有前途的方向。
- 使用基于图谱的上下文信息增强语言模型以更好地理解文本数据
本研究实验证明在 BERT 模型中加入基于图形的上下文信息会提高模型性能,并在 Pubmed 数据集上取得了 8.51%到 7.96% 的错误率减少,同时仅增加 1.6%的参数。
- ChatGPT 作为文本简化工具去除偏见
对语言模型所训练的某些人群的特定语言信号的存在进行研究,发现这可能导致歧视。本文探讨一种减少偏见的可能技术,即简化文本,实验结果表明,对于简化的数据,预测敏感属性的分类器准确性下降了最多 17%。
- 语音情感识别的实证研究与改进
本文提出了一种通过视角损失来改进的多模态语音情感识别模型,通过融合音频和文本信息来提高多模态任务的性能表现,在 IEMOCAP 数据集上获得了最新的最佳表现。
- 思维推理技巧:增强类型感知在文本泛零样本逻辑推理中的应用
本文探讨了逻辑推理任务中遇到的两个问题:如何提高模型的零样本能力及其推理类型感知能力。作者基于此提出了一个新的基准数据集 ZsLR,并提出了一种类型感知的模型 TaCo,并在多个实验数据集上进行了广泛的实验,证明了 TaCo 比现有方法更为 - TextDescriptives: 一个 Python 包用于从文本中计算各种各样的度量
TextDescriptives 是一个基于 spaCy 的 Python 包,用于计算文本的多种度量标准,已被用于临床文本的语言稳定性分析、神经精神疾病预测特征的创建以及小学生语言目标的分析。
- 文本复杂推理的可追溯和可解释方法
研究复杂推理任务的机器学习模型的问责和透明度方法,通过暴露潜在漏洞和解释模型推理过程来提高利益相关者的信任度和发现模型决策中的错误和不公平性。
- EMNLP1Cademy @ Causal News Corpus 2022: 在社会政治事件数据的因果分类中利用自训练
本文介绍了我们参加 EMNLP 2022 的 CASE 研讨会的情况,利用自我训练方法解决了事件因果关系检测的问题,并验证了在不同训练集数量下模型性能的变化,结果表明自我训练可以显著提高模型性能,代码可在此 https 链接中公开获取。
- 文本丰富化的密集复述
本文提出了 Dense Paraphrasing(DP)这一文本表征转化的过程,即通过对文本表达(词汇或词组)进行重写以减少歧义并使底层语义得到明确的阐述,从而改善推理和问答任务性能。同时,作者介绍了第一个完整的 DP 数据集及注释任务的范 - 交叉编织多模态编码器
本文提出了一种新的多模态语音和文本输入结构,使用多头交叉注意力结合预训练语音和文本编码器,并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测,并高效地捕获声学 - 韵律和词汇信息。
- 带有附加数据的文本主题分析
使用文本数据和其他数据相结合的方式,提出了一种混合生成概率模型,通过神经网络和潜在话题模型相结合,对每篇文档进行话题分类,克服了潜在因素模型存在的问题,包括冷启动问题、不透明性和次优推荐问题。
- 基于双向 LSTM 和时间分布的 CNN 的语调和语义特征预测抑郁症严重程度
提出了一种基于多模态语音和文本表达的关注机制用于预测抑郁症,使用 DAIC-WOZ 数据集训练所提出的模型,分别在音频、文本和多模态情况下进行了实验,并取得了较好的预测效果。
- Music2Video:音频和文本融合的自动生成音乐视频
利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像,进一步实现音乐视频创作,我们提出的方法需要对视频进行自动分段,同时保持时间上的一致性,与以前的方法不同,我们的方法融合了文本和音频两个模态,展示了良好的应用效果
- MM利用注意力机制对文本进行聚类
使用注意力机制聚类文本是自然语言处理中的一个重要问题,该论文探讨了一种使用注意力机制的广义聚类方法。
- ICLR文本生成的逐步展开去噪自编码器
本论文提出了一种新的文本生成模型 SUNDAE,该模型不依赖于自回归模型,在自然语言数据集上具有最先进的表现,并且通过填写模板中的任意空白模式,展示出了超越从左到右促成生成的可能性。
- 多模态摘要综述
本文综述了多模式自动摘要 (MMS) 领域内的现有研究,包括文本、图像、音频和视频等各种模式。除了强调用于 MMS 任务的不同评估指标和数据集之外,我们的工作还讨论了该领域中当前的挑战和未来方向。
- EMNLP使用文本和图像进行兴趣点类型预测
本文提出一种方法,利用文本和图像的多模态信息进行 POI 类型(地点类型)预测,该方法从文本和图像中提取相关信息,有效捕捉文本和图像之间的交互,实现了 47.21 的宏 F1 表现,且在八个类别方面显著优于基于纯文本方法的 POI 类型预测 - ICLRMultiModalQA: 文本、表格和图像的复杂问答
本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集,该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题,并演示了多模态多跳方法在解决这一任务中的必要性。
- 融合声音和文本编码的多模式双语预训练和语音翻译
提出了一个 Fused Acoustic and Text Masked Language Model (FAT-MLM), 它通过多种类型的语料库(包括用于语音识别和机器翻译的并行数据、纯语音和文本数据)联合学习了一个统一的音频和文本输入