不连续成分句法分析作为序列标注

EMNLPOct, 2020

不连续成分句法分析作为序列标注

Discontinuous Constituent Parsing as Sequence Labeling

David Vilares, Carlos Gómez-Rodríguez

TL;DR本文将不连续的解析转化为序列标注，通过对输入序列进行近乎有序的排列来编码树的不连续性，研究了该表征是否可学习，并证明在正确的表征下，模型具有极高的速度和准确性。

Abstract

This paper reduces discontinuous parsing to sequence labeling. It first shows that existing reductions for constituent parsing as labeling

discontinuous parsing sequence labeling constituent parsing tree discontinuities model architecture

发现论文，激发创造

基于原型的联合嵌入方法提升 Softmax 分类器的可解释性

我们提出了一种基于原型的方法来改善 softmax 分类器的可解释性，通过对原型进行随机采样生成可理解的预测置信度，并展示了对于分布外数据的潜在检测能力。通过修改模型架构和训练，使用与训练数据集中任意一组类别示例的相似性进行预测，我们获得了对贡献于预测的典型示例进行采样的能力，从而为模型的决策提供基于实例的解释。此外，通过学习模型潜在空间中图像之间的相对距离，我们获得了一种比 softmax 置信度更能检测分布外数据的不确定性度量。

Jul, 2024

以声音为基础的树生成：评估端到端语音依存句法分析策略

直接依赖语音信号的句法分析被提出作为一种任务，该任务旨在将韵律信息纳入分析系统并绕过使用自动语音识别系统和句法分析器的管道方法的局限性。本文报告了一系列实验，旨在评估两种句法分析范式（基于图的分析和基于序列标注的分析）在语音分析中的性能。我们在一大型的法语口语树库上进行了评估，其中包含真实的自发对话。我们的研究结果表明，（i）基于图的方法在整体上获得了更好的结果，（ii）直接从语音中进行分析优于管道方法，尽管参数量少了 30%。

Jun, 2024

自动化易读文本分割

通过使用遮蔽和生成式语言模型以及组成句法分析，我们研究了自动 Easy Read 文本分割的新方法，并进行了自动化和人工评估，结果表明自动化 ER 分割的可行性以及与专家驱动的人工分割之间的差距。

Jun, 2024

RWKV-CLIP：一个稳健的视觉 - 语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言 - 图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架，该研究提出了 RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024

视频语言理解：模型架构、模型训练和数据视角的综述

本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法，并进行了方法间的性能比较，提出了未来研究的有前景的方向。

Jun, 2024

关于言语自我监督模型的社会偏见

自监督学习（SSL）语音模型在各种任务中取得了显著的成果，然而其偏见及对边缘群体的影响引起了重要关注。本研究揭示了普遍的 SSL 模型无意间获取了有偏见的相关性，并探究了模型架构、大小以及训练方法等因素对社会偏见传播的影响。最后，通过压缩方法，特别是通过行剪枝和训练宽而浅的模型，探索了消除社会偏见的技术的有效性。研究结果表明，在 SSL 模型中采用这些技术可以有效减轻社会偏见。

Jun, 2024

GenBench: 用于对基因组基础模型进行系统评估的基准套件

通过引入 GenBench，我们为评估 Genomic Foundation Models 的功效提供了一个全面的基准测试套件，该套件特别针对包括编码区域、非编码区域、基因组结构等在内的三个最重要的 DNA 任务。我们的研究结果揭示了一个有趣的观察结果：无论参数数量如何，注意力模型和卷积模型在短程和长程任务上的偏好存在显著差异，这可以为未来的 GFM 设计提供启示。

Jun, 2024

推荐系统中的潜在因子模型概述

推荐系统中的潜在因子模型是一种有效的方法，本文通过结构化框架对潜在因子模型在学习数据、模型架构、学习策略和优化技术等方面进行了系统回顾，并分析了学习数据类型、各种模型和学习策略以及优化策略的趋势与潜在研究方向。

May, 2024

YOLOv10：实时端到端物体检测

通过消除非极大值抑制（NMS）的依赖性和综合优化 YOLOs 的各个组件，本研究提出了一种新一代的实时端到端目标检测模型 YOLOv10，其在性能和效率方面均取得了最新的成果。

May, 2024

科学出版物中的流程提取的数据增强技术

我们提出了一种数据增强技术，用于科学出版物中的过程提取任务。我们将过程提取任务视为序列标注任务，通过识别句子中的所有实体并根据其特定于过程的角色标记它们来完成任务。所提出的方法通过利用（1）原始句子中的特定于过程的信息，（2）角色标签相似度和（3）句子相似度来创建有意义的增强句子。我们证明了所提出的方法在化学领域数据集上训练的过程提取模型的性能显著提高，性能准确度提高了 12.3 个百分点（F 分数）。这些方法还可以在训练小数据集或在化学和其他科学领域等低资源环境中减少过拟合的可能性。

May, 2024