- 成语处理中的质量、数量和语境:少即是多吗?
通过在公共领域图书文本中替换可能成语化的英语名词复合词的同义词,我们创建了名词复合同义词替换数据集,探讨了用于成语性检测模型训练时数据数量和质量之间的平衡,同时考虑了从周围句子中获取的上下文信息和从语言资源中获取的外部信息。成语性检测任务的 - 生成多语种成语引申语境
测试生成语言模型在理解非组合性的修辞文本中的能力,发现这些模型在生成字面意思上连续性的上下文时稍微好一些,对于成语性上下文的连续性生成能力较为相似,且在不同语言中表现出的性能一致。
- EMNLP非成分和成分表达的统一表示
对非组合性语言的准确处理依赖于生成良好的表达形式。PIER 是一种语言模型,通过建立在 BART 上,可以创造出对英语潜在成语表达(PIEs)进行语义上有意义和上下文适当的表达。PIEs 的特点是非组合性和文字和成语诠释中的上下文歧义。通过 - EMNLP跨越门槛:通过检索增强和损失加权的习语机器翻译
机器翻译的一个挑战是正确翻译习语表达,本研究提供了对习语翻译及相关问题的简单描述,并通过实验找到了适合使用习语翻译的临界点。为了丰富多语种资源,我们编制了一个包含法语、芬兰语和日语中约 4 千个自然句子的数据集,同时引入了两种简单而有效的技 - 翻译意义而非单纯的词语:IdiomKB 在通过语言模型优化成语翻译中的作用
使用大型语言模型开发的多语言习语知识库(IdiomKB)能够提高机器翻译模型的性能,通过检索习语的比喻含义,使较小的模型在翻译过程中得到更全面的理解。
- ACLGPT 是否会产生更少的字面翻译?
本文研究大型语言模型(LLMs)在机器翻译(MT)中的应用,发现使用 GPT-3 等模型的翻译虽然在质量上相当或更好,但在语句的逐字逐句的程度上比标准 NMT 模型的翻译要少。此外,当翻译的句子中包含习语表达时,这种差异尤为明显。
- EMNLPIdEALS: 提高语言技能的惯用表达
本文研究了如何在学生写作中使用惯用表达,并使用真实数据创建了广泛的训练集和专家注释的测试集,最终通过多种方法评估了其性能并将其与人类专家进行比较。
- 神经机器翻译中成语的自动评估和分析
本文探讨了神经机器翻译中存在的习语翻译难题,提出了一个新的自动化量化习语翻译错误的方法,并通过对模型的训练以及不同翻译测试集的测试,探索了单语预训练和习语上下文因素对翻译质量的影响。
- ACL让 BART 乘坐惯用语列车:学习表示惯用表达式
本研究使用适配器作为轻量级非组合式语言专家对具有习惯用语特性的句子进行训练,将习惯用语结合到 BART 中取得了比基线模型 (BART) 更好的性能,包括在嵌入聚类方面提高了 0.19 分的同质化得分和在习惯用语处理任务中提高了高达 25% - OCHADAI 在 SemEval-2022 任务 2 中:针对多语言成语鉴别的对抗训练
本文提出了一种多语言对抗训练模型,以判断一个句子是否包含习语表达。该模型利用不同多语言最先进的基于转换器的语言模型(即多语言 BERT 和 XLM-Roberta)的预训练上下文表示以及对抗性训练,提高模型的泛化能力和鲁棒性,在不依赖于人工 - ACL祸在细节:神经机器翻译中词汇选择的陷阱
本文提出了一种基于神经网络的词汇选择模型,通过对编码器状态的上下文化表示进行预测,来代替传统基于独立对齐模型参数的词汇选择方法,从而更好地处理语言中的词组、成语等非复合的语义现象,从而获得与传统独立对齐选择方法相同甚至更好的翻译质量,并减少 - kpfriends 参加 SemEval-2022 任务二:NEAMER - 命名实体增强的多词表达式识别器
本文介绍了一个名为 NEAMER 的系统,它受到了命名实体和习语表达之间共享非合成特征的启发。作者应用了转移学习和局部特征以增强语言习惯性分类任务,并使用该系统提交到 SemEval 任务 2 中,后期评估阶段达到了 F1 0.9395 的 - 无强监督下的习语表达释义
本文探讨了习语句子改写的任务,提出了无监督和弱监督的方法来解决数据不足的问题,并用自动和手工评估验证了这些方法的有效性,该任务的实际用途是作为 En-De 机器翻译的预处理步骤。
- ACL使用语义兼容性进行惯用语表达式识别
本研究提出了一种多阶段深度神经网络架构,利用注意力机制和上下文信息对句子中的习语表达进行定位,通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果,并具有对未见过的习语表达的识别能力。
- 潜在习语表达(PIE)英语:习语类语料库
本文提供一个大规模的,用于英语自然语言处理的潜在成语表达(Potential Idiomatic Expression,PIE)数据集,其中包括超过 1,200 种逾二十一万个语料库样例,涵盖了十类(或意义)成语及其词义,提供了基准和比较三 - 成语语料库构建的众包游戏化
本文介绍了一种基于游戏化众包方法的语言学习材料收集方法,可以有效地收集各种表达习惯用语的例句,这一方法在语言独立性、数据收集的效率以及成果的可行性等方面都得到了验证。
- COLING选择争论还是保持沉默:探究性别在习语语言使用中的差异
本研究基于大样本语料库,探究男性和女性语言习惯间的差异,发现了字面和隐喻用语中的性别特异性,情感表达及使用环境的微妙差别,为性别化语言研究提供新的实验数据支持。
- EMNLP使用主题模型和情感强度分类习语和字面表达
本文提出了一个用于自动分类习语和字面表达的算法,通过利用 LDA 无监督聚类方法和情感分析技术,采用词袋表示法来提取包含习语和字面表达的段落中的主题,从而实现对习语和字面表达的区分。