X 标记：通过词汇冗余实现无损水印

Nov, 2023

X 标记：通过词汇冗余实现无损水印

X-Mark: Towards Lossless Watermarking Through Lexical Redundancy

Liang Chen, Yatao Bian, Yang Deng, Shuaiyi Li, Bingzhe Wu...

TL;DR文本水印是一种重要的检测机器生成文本的技术。然而，现有方法可能会因为任意的词汇划分而严重降低文本质量，破坏了语言模型的表达能力并妨碍了文本的连贯性。为了减轻这一问题，我们介绍了一种新颖的方法 XMark，它利用词汇空间中的文本冗余。具体而言，XMark 在语言模型解码过程中引入了一种互相排斥的同义词规则，从而将先前的知识整合到词汇划分中，并保留了语言生成的能力。我们提供了理论分析和实证证据，表明 XMark 在提高文本生成流畅性的同时保持了水印的可检测性。此外，我们还研究了水印对大型语言模型的新能力的影响，包括零样本和少样本知识回忆、逻辑推理和指令跟踪。我们的综合实验证实，XMark 在保留 LLM 的这些关键能力方面始终优于现有方法。

Abstract

text watermarking has emerged as an important technique for detecting machine-generated text. However, existing methods can severely degrade text quality due to arbitrary vocabulary partitioning, which disrupts t

text watermarking xmark language model vocabulary partitioning watermark detectability

发现论文，激发创造

RaP：红 undancy-aware 视 deo-language 预 ning 练词为 Text- 视 deo 检索

通过测量视频补丁和文本单元的冗余度，我们提出了一种针对视觉和文本信息之间互模态冗余问题的视频语言预训练方法，并通过冗余感知对比学习获得了显著的结果提升。

Oct, 2022

大型语言模型的多方面重复抑制和内容调整

本论文提出一种结合精准和非精准重复抑制技术的自然语言生成方法，使用 token 和序列级别的不可能度量进行训练，推理和后处理，从而控制 LLM 的重复和内容质量。经过实验验证，该方法能够有效地抑制重复和确保内容质量。

Apr, 2023

在开放词汇神经语言建模中学习创造和重复使用单词

使用具有缓存机制的分层 LSTM 语言模型在多种语言维基百科文章上进行开放词汇量语言建模，通过字符级别的生成实现不同语言之间的数据共享，进而可以有效解决固定词汇量模型中常见的新词问题。

Apr, 2017

多语言可控变压器模型词汇简化

提出了一种基于 Transformer 的多语言可控词汇简化系统，使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词，该系统在三个公开的词汇简化数据集上优于之前的最先进模型，表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能，且在西班牙语和葡萄牙语中获得性能提升。

Jul, 2023

大型语言模型的语义压缩

本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价，并提出了二元评价指标：是否精确重构 (ERE) 和语义重构有效性 (SRE)，结果表明 GPT-4 可能有效地压缩和重构文本，并保留原始文本的语义要素。

Apr, 2023

关于非自回归翻译中的信息冗余

在这项研究中，我们重新审视了最近提出的全非自回归翻译模型中的多模态问题，并揭示了这些先进模型引入了其他类型的信息冗余错误，无法由传统指标 - 连续重复比率来衡量。通过手动注释非自回归翻译模型的输出，我们确定了与词汇和重新排序的多模式问题相符合的两种信息冗余错误。鉴于人工注释的时间消耗和劳动强度，我们提出了自动度量标准来评估这两种冗余错误类型。我们的度量标准可以让未来的研究评估新方法，并对其有效性有一个更全面的理解。

May, 2024

MultiLS：一个多任务词汇简化框架

自动将难以阅读的词替换为更易理解的替代词，以改善文本可访问性；通过创建多任务的 LS 数据集，MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示，并报告了基于转换器和大型语言模型的模型性能。

Feb, 2024

XL3M：一种基于分段推理的无需训练的 LLM 长度扩展框架

用 XL3M 框架，将上下文分解成多个独立片段并通过衡量其与 “问题” 的相关性来构建一个简明的关键上下文，从而解决了大语言模型在处理超长文本时的泛化失败问题，并在推理任务中展现了卓越的性能。

May, 2024

低资源跨语言迁移的词汇扩展

通过在不同角度研究目标词汇规模、初始化方法以及可用于适应的目标数据量，我们在语料资源有限的环境中发现，基于简单启发式的词向量初始化方法更高效、更稳定，能够在目标词汇规模和适应数据变化时胜过常用的随机初始化和更复杂依赖外部数据和模型的最先进方法。

Jun, 2024

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023