SeqMix: 通过序列混合增强主动序列标记
本文提出了一种序列标注框架,采用辅助训练目标,并通过学习预测数据集中每个词周围的单词进行语言建模,以此学习通用的语义和语法组合模式,并在不需要额外标注或未标注数据的情况下,实现在多个序列标注任务上取得一致的性能提升。
Apr, 2017
本文介绍了一种名为Active² Learning的主动学习策略,该策略可与多种AL策略和NLP任务结合使用,并能减少3-25%的数据要求而无需额外计算开销。
Nov, 2019
该研究提出了一种生成式框架,用于多个序列标记任务和句子级分类。与以往的判别式方法不同,该模型通过共享自然语言输出空间,自然地融合标签语义,并在任务之间共享知识。该框架具有通用性,可在 few-shot、低资源和高资源任务上表现良好,并在命名实体识别、槽位标记和意图分类等基准测试中展示了这些优势。
Sep, 2020
该研究提出了通过自训练和元学习技术解决多个自然语言处理任务中低标注数据带来的挑战的方法,并在六个基准数据集上实验证明了其在标注数据较少的情况下具有良好的效果。
Oct, 2020
本文提出了一种针对seq2seq问题的标签平滑技术,能够克服大量输出的难题,通过充分的n-gram重叠和语义相似性,取得了明显的效果提升,并且在不同的数据集上超越了现有技术的最佳水平。
Oct, 2020
该研究提出了一种简单的数据增强方法SeqMix,用于鼓励神经模型针对序列问题的组合行为,该方法可以使神经网络捕获自然语言中的组合特征,旨在提高机器翻译和语义分析等任务的性能。
Nov, 2020
本文通过超过1000次实验,研究了14种不同的格式,发现其中一个新的格式既简单又有效,在多语言情况下也表现出显著的优势,并且几乎没有幻觉问题。这些发现为我们解决序列标注任务提供了强有力的经验基础。
Mar, 2022
采用FISH-DIP方法,通过在低资源环境下优化模型并在序列标注任务中取得高达40%的性能提升,成功地解决了基于大语言模型的序列标注问题中受限于数据量问题的挑战。
Nov, 2023
提出了一种基于插值的数据增强算法SegMix,该算法在具有任务特定结构的有意义的片段上进行插值,相比之前的方法在命名实体识别(NER)和关系抽取(RE)任务中表现更好,尤其在数据稀缺的情况下性能提升明显。
Nov, 2023