- IJCAI纠缠的 CP 与 NLP:不合理受限句子的生成
约束文本生成问题是一个困难的任务,本文提出了一种以约束为先的框架来解决这个问题,并通过约束编程方法将语言属性与其他经典约束相结合,实现了成功生成高度约束文本的效果。该方法在一个新的高度约束的文本生成问题上展示了潜力。
- 自我监督的语音表征更加语音学而非语义学
本研究通过对自监督语音模型 (S3Ms) 的单词级别语言属性进行细致分析,发现 S3M 表示对于音韵相似性的相似度比语义相似性更高,并提出了对广泛使用的目标分类数据集进行语义能力评估的疑问。实验证明,即使只使用单词自身的信息,也能超越基于 - 微妙之线:通过篇章模式检测机器生成的文本
利用层次化的分析树和递归超图揭示了大语言模型和人类所生成的不同文本的独特语篇模式,并发现了人类写作在不同领域中的结构多样性,强调了在文本分析中加入层次化的语篇特征的重要性。
- EMNLP触发语言:什么语言属性使得提示成功?
在这项研究中,我们调查了不同规模、预训练和指导调优的 LLMs 在在语义上等效但语言结构不同的提示上的性能,发现 LLMs 的性能不能通过困惑度、词频、歧义或提示长度来解释,并提出了对提示研究更健壮和综合的评估标准的建议。
- EMNLP利用人工法语数据理解转换器语言模型中性别偏见的出现
神经语言模型在没有直接监督的情况下学习各种语言属性的能力已被多个研究证明。本研究初步探索神经模型如何发现词语的语言属性(如性别)及其使用规则这一较少研究的主题。我们建议使用基于法语的 PCFG 生成的人工语料库来精确控制训练数据中的性别分布 - EMNLP生成和检测的释义类型
当前的复述生成和检测方法在相似性评分上过于依赖于单一的通用评分,忽视了语言的复杂语言属性。本文引入了两个新的任务来解决这个缺点,通过考虑特定文本位置上的复述类型 - 特定的语言扰动。我们将这些任务命名为复述类型生成和复述类型检测。我们的结果 - EMNLP走向更好的零射神经机器翻译性能变动的理解
通过对涵盖 40 种语言的 1,560 个语言方向进行系统实验,我们发现目标端翻译质量是最具影响力的因素,词汇重叠一直对零射击性能产生影响,此外,语言的家族和书写系统等语言属性对于较小的模型具有一定作用。
- 因果探索的几何概念
大语言模型基于文本的实值表示进行预测,包括从训练数据中学到的语言特性和偏见(如性别)。本研究通过将表示空间的子空间进行正交投影进行了对这些概念的信息分析,并提出了概念受控生成的方法。实证结果表明,在至少一个模型中,R-LACE 返回了包含约 - ICML基于数据的正式感敏感机器翻译方法:语言特异处理和合成数据生成
本文介绍了一种基于数据驱动的方法用于形式感知机器翻译,包括语言特定的数据处理、使用大规模语言模型和实证提示工程产生合成数据等核心策略,该方法在改进了基础框架的基础上获得了显著的改进,突出了数据中心技术的有效性。提示工程策略通过生成优秀的合成 - ACL大规模跨语言研究:视觉限制对语言选择描述的影响
本研究通过对四种语言中的五种语言特征进行大规模、多语言的调查研究,并给出了一种新颖的方法,通过分析 600k 张图像和 3M 张图像的标题,证明了视觉背景对语言使用的影响,并在数字表达的研究中发现了不同视觉条件下语言表达的相似模式,为语言生 - 语言相关性分析:在深度 NLP 模型中发现显著神经元
该研究利用 Linguistic Correlation Analysis 技术,定位和提取能够预测不同语言任务的少量神经元,研究表明深度 NLP 模型中神经元的学习特征高度分布和冗余,预训练模型的微调也会影响学习到的语言知识,同时还发现多 - 抽象性、情感、话语连贯性和语境化词汇表征对隐喻语言使用的负面影响
本文研究如何预测在特定语境下,何时人们使用比喻语言而不是使用字面意思。作者建立了五个简单的模型,通过比较这些模型的成果与人们的判断,发现现有的认知和语言属性不足以系统地解释比喻与字面语言的选择。
- ACL预训练目标如何影响大型语言模型在语言属性方面的学习?
本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响,通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练,并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小,这也对语言信息熵理论的主流观点提出了 - ACL采样、翻译、重组:利用音频对齐进行数据增广的端到端语音翻译
本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法,通过从后缀内存中的文本和音频数据中进行采样,翻译增强后的转录结果,最后重新组合连接的音频段和生成的翻译,不仅训练了机器翻译系统,还使用了基本的现成组件,其资源需求与知识蒸馏相似,但对 - ACLBERT 多语言模型的时间?分离跨语言传输的关键要素
该论文在多语言语言模型上进行了大规模实证研究,并发现词嵌入的对齐程度与零 - shot 迁移的性能密切相关,因此需要在多语言模型中专门改善词嵌入的对齐程度。
- EMNLP一种使用预先训练的自编码器进行跨语言语言转换的简单几何方法
本文研究了在多语言训练中的强大的语句编码器,探讨了是否可以通过几何映射来间接地操纵语言属性,并用预训练的多语言自编码器验证了该方法的有效性。
- ACL通过发现子网络进行低复杂度的探测
提出一种基于减法修剪的探测方法,相较于多层感知机探测方法,该方法在预训练模型上的准确性更高,而在随机模型上的准确性更低,且在探测复杂度上占据优势,通过对不同任务的分析,我们发现较低层次的任务被编码在较低的层数中。
- ACLRuSentEval:语言源,编码器力量!
本研究介绍了 RuSentEval 数据集,包含 14 项探测任务并应用多种探测方法探究 5 个多语言 Transformer 模型在俄语和英语上的语言属性分布,结果表明一些属性尽管在语言差异较大的情况下学习方式相似。
- ACL语言属性的因果效应
本文提出了 TextCause 算法,使用观测数据估计语言属性的因果效应,解决了因果定量的形式化问题以及基于分类器和词库的噪声代理的偏差问题,该算法利用了 distant supervision 和预训练的 BERT 模型。
- EMNLPSIGTYP 2020 共享任务:语言类型特征预测
本篇论文介绍了如何通过预测语言的语言学特征来填充 typological knowledge bases。该任务吸引了 5 支团队的 8 个提交,在最强大的系统中,特征相关性得到了应用。然而,该研究的错误分析表明,即使在一些语言的特征不确定