利用神经查询翻译进行跨语言信息检索

SIGIROct, 2020

利用神经查询翻译进行跨语言信息检索

Exploiting Neural Query Translation into Cross Lingual Information Retrieval

Liang Yao, Baosong Yang, Haibo Zhang, Weihua Luo, Boxing Chen

TL;DR利用神经机器翻译及数据增强和异步策略，改善跨语言信息检索中的查询翻译问题，提高信息检索质量。

Abstract

As a crucial role in cross-language information retrieval (CLIR), query translation has three main challenges: 1) the adequacy of translation; 2) the lack of in-domain parallel training data; and 3) the requisite of low latency. To this end, existing CLIR systems mainly exploit statist

cross-language information retrieval query translation neural machine translation data augmentation asynchronous strategy

发现论文，激发创造

开放式全景分割

通过使用开放性全景分割任务，以及采用可变形适配器网络和随机全景等距投影数据增强方法，我们提出的 OOOPS 模型在三个全景数据集上均取得了令人瞩目的性能提升，特别是在野外环境 WildPASS 上达到了 + 2.2％，在室内环境 Stanford2D3D 上达到了 + 2.4％的平均交并比（mIoU）

Jul, 2024

使用预训练语言模型和数据增强的集成方法进行阿拉伯推文中的仇恨言论检测

利用集成学习和半监督学习，基于先前手动标记的数据，提出了一种新的方法来解决阿拉伯推文的仇恨言论分类任务，并通过对标记的阿拉伯推文进行分类实验，实验证明：（1）基于预训练语言模型的集成学习优于现有相关工作；（2）我们提出的数据增强方法改进了阿拉伯推文中仇恨言论检测的准确性，并优于现有相关工作。我们的主要贡献是在阿拉伯语仇恨言论检测中取得了鼓舞人心的结果。

Jul, 2024

数据增强方法对命名实体识别是否适用于不确定性估计？

通过数据增强来提高命名实体识别的置信度校准和不确定性估计，在安全关键领域如医疗保健和金融中应用深度神经网络时实现准确的预测非常重要。本研究发现数据增强在跨领域和跨语言的环境中，尤其是在领域内环境中，可以改善命名实体识别的置信度校准和不确定性。此外，研究还表明，当通过数据增强生成的句子的困惑度较低时，命名实体识别的置信度校准更为有效，并且增加增强的规模可以进一步改善置信度校准和不确定性。

Jul, 2024

通过集成合成器（ENSY）改进行程模式选择建模

模态选择数据集的准确分类对交通规划和决策过程至关重要。本研究提出了一种概率分布数据增强模型 ——Ensemble Synthesizer（ENSY），用于提高模态选择数据集的分类准确性，通过实验证明了 ENSY 在增强少数类模式的 F1 分数几乎增加了四倍，并大幅提高了整体分类准确率近 3%。与其他增强技术相比，ENSY 在各种情景下始终表现出色，凸显其稳健性和高效性。

Jul, 2024

ESALE：增强源代码摘要对齐学习的方法

通过多任务学习范式，利用三个以摘要为重点的任务训练编码器，提出了一种新的改进代码摘要的方法，这三个任务包括单向语言建模（ULM）、掩码语言建模（MLM）和动作词预测（AWP）。实验证明，我们的方法 ESALE 在四个数据集上的表现明显优于基线模型，包括 BLEU、METEOR 和 ROUGE-L 三个广泛使用的指标。

Jul, 2024

高低资源语言的开放领域对话中，预训练语言模型的语言可移植策略

本文研究使用大规模预训练语言模型（PLMs）在高资源语言中用于开放领域对话系统的语言可移植性策略，主要以法语作为目标低资源语言，通过不同方法评估在目标语言中使用 PLMs 的性能，包括神经机器翻译和 MAD-X Adapter 架构的应用。

Jul, 2024

增强 AI-CSI 反馈的通道建模辅助数据集生成：进展，挑战与解决方案

该论文提出了一种基于有限数量的现场信道数据的信道建模辅助数据增强方法，通过从现场信道数据中提取主要的随机参数并将其传输给基站，然后使用更新后的信道模型生成数据集，从而综合考虑了数据集采集、模型泛化和模型监控等因素，仿真结果表明，该策略可以显著提高性能。

Jul, 2024

基于大型语言模型的方面情感分析的迭代数据增强

提出了一个名为 IterD 的系统化迭代数据增强框架来提高 ABSA（Aspect-based Sentiment Analysis）的性能，通过利用大型语言模型迭代地产生更加流畅和多样的合成标签数据，从而在 4 个广泛使用的 ABSA 基准测试中带来了稳定且显著的性能提升，并且由 IterD 生成的合成数据可以达到与人工标注数据相媲美甚至更好的性能。

Jun, 2024

LLM 生成的自然语言遵循缩放定律：新探索与数据增强方法

使用大型语言模型进行数据增强的研究中发现了大型语言模型生成的自然语言是否真正符合人类自然语言的基础问题以及增强数据是随机生成的，可能会影响分类器的性能。为了解决这些问题，引入了内在计算大型语言模型生成的自然语言和人类自然语言的标度律。通过广泛的实验，揭示了大型语言模型生成的自然语言与标度律存在轻微的偏差，强调了人类自然语言的复杂性优势，并对语言风格进行了解释性的讨论，为大型语言模型的扩展奠定了坚实的基础。此外，引入了一种新的数据增强方法，称为 ZGPTDA，利用基于标度律的模糊计算机制对 GPT-4 生成的数据进行决策。在真实世界的场景下进行的大量实验证实了 ZGPTDA 的有效性（将 Bert 和 RoBerta 的 F1 值提高了 7-10%）和竞争力（在 DeBerta 上的准确性超过了最近的 AugGPT 和 GENCO 方法约 2%）。此外，揭示了一些有趣的发现，如 Hilberg 的定律和 Taylor 的定律对文本分类可以带来更多的好处等。

Jun, 2024

深度点击率预测的多时期学习与数据增强

本文研究点击率 (CTR) 模型中的单次过拟合现象，通过引入多次训练周期和数据增强的 MEDA 框架，减小嵌入层对数据稀疏性的依赖，实现数据增强，提高性能而避免过拟合，通过实验证明其在深度 CTR 预测模型方面的有效性及在实际在线广告系统中的显著优势。

Jun, 2024