面向个人的混合语言生成模型

Sep, 2023

Persona-aware Generative Model for Code-mixed Language

Ayan Sengupta, Md Shad Akhtar, Tanmoy Chakraborty

TL;DR通过发展一种基于个人意识的生成模型，该研究试图生成类似于现实生活中个体的混合语言文本，并且提出了一个重新校准生成的序列以模拟真实混合语言文本的对齐模块，以实现生成的混合语言文本在语义上更有意义和在语言上更有效。

Abstract

code-mixing and script-mixing are prevalent across online social networks and multilingual societies. However, a user's preference toward code-mi

code-mixing script-mixing persona-aware generative model paradox linguistic validity

发现论文，激发创造

协调混合对话：对话中基于个性的混合编码响应生成

该研究探讨了多语言混合对话中的回应生成问题，并介绍了一种利用从对话中无监督获取的大五人格特质来提高回应生成性能的新方法。实验结果表明，将人格融入对话背景可以显著增强生成回应的上下文相关性，并提高模型的整体性能。

Jan, 2024

人物编码多流对话句子打分：以人物为导向

最近机器学习和深度学习的进展已经导致在许多实际应用中广泛使用对话式人工智能。然而，利用能够提供对话背景或个性化调整的辅助信息以改善对话质量仍然非常具有挑战性。本文提出了一种新颖的 Persona-Coded Poly-Encoder 方法，它利用多流编码方案中的个人信息来改善对话回复生成的质量。通过在两个不同的基于个人的对话数据集上评估，并与两种最先进的方法进行对比，我们验证了所提出方法的有效性。我们的实验结果和分析表明，我们的方法在 BLEU 得分和 HR@1 方面相对于基准方法 Poly-Encoder 分别提高了 3.32％和 2.94％。更重要的是，我们的方法为对话任务中多模态数据的更好利用提供了一条途径。最后，我们的研究概述了推进个性化对话式人工智能技术的几个挑战和未来研究方向。

Sep, 2023

基于角色的神经对话模型

本文介绍了基于人物角色的模型来处理神经响应生成中的发言人的一致性问题。这些模型在分布式嵌入中编码人物角色，以捕捉个体特征，如背景信息和口语风格。在两个交流者之间捕捉交互属性的暂态发言人 - 被称呼者模型。我们的模型提高了感性和 BLEU 得分，在发言人的一致性上也有类似的提高。

Mar, 2016

代码混合情感和仇恨言论预测

研究发现，针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳，而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务，这些模型在混合编码数据上的表现稍微优于非混合编码数据。

May, 2024

从人类评判到预测模型：解析混合代码句子的可接受性

当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”，但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本，并实现质量控制的混合文本生成。为此，我们构建了 Cline 数据集，其中含有英语 - 印地语 (en-hi) 混合文本的人工可接受性判断。Cline 是其类别中最大的数据集，包含 16,642 个句子，其中包括两个来源的样本：合成混合文本和从在线社交媒体上收集的样本。我们的分析表明，用于过滤 / 筛选 / 比较混合文本语料库的流行混合代码指标（如 CMI、转换点数、突发度）与人工可接受性判断之间的相关性较低，凸显了我们数据集的必要性。使用 Cline 进行的实验证明，仅基于混合代码指标训练的简单多层感知机 (MLP) 模型被细调的预训练多语言大型语言模型 (MLLMs) 在具有挑战性的数据设置中表现更佳。具体而言，XLM-Roberta 和 Bernice 在不同配置中优于 IndicBERT。与 ChatGPT 的零和几个样本能力的比较表明，基于更大数据集进行细调的 MLLMs 优于 ChatGPT，在混合代码任务中提供了改进的空间。使用我们的模型检查点进行从英语 - 印地语到英语 - 特鲁古语的零样本转移可接受性判断，超过了随机基线，可以应用于其他混合语言对，并提供了进一步的研究方向。我们公开发布了我们的人工标注数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。

May, 2024

代码交替文本的深度生成模型

引入了一种新型的变分自编码器 (VACS)，专门针对混合语言现象，利用合成的混合语料库来提高自然语言处理任务的表现，结果表明使用合成的混合语料库与自然的单语库相比，生成的模型可以显著地减少困惑度 (33.06%)。

Jun, 2019

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024

Persona-Knowledge 对话多上下文检索和增强解码方法

本文通过设计一种数据增强策略，运用神经问答检索模型，探讨了 Persona-Knowledge 的识别和响应生成任务，采用不同的解码技术进行对话生成，最终取得了 93.99% 的平均重合度和 23.62 分的 SacreBLEU 分数，成为当前 SOTA 的最佳实践。

Jul, 2022

探索文本到文本变换器的使用，实现英语到印地语机器翻译的合成混合代码技术

本研究尝试解决单语言和混合编码语言之间的翻译问题，针对单语英文到 Hinglish 的转换，我们提出了多种模型，其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时，我们还提出了一种生成混合编码文本的无依存方法，并采用课程学习方法来提高语言模型性能。在不同的条件下，我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强，在英语 - Hinglish 官方共享任务中我们的模型效果最佳。

May, 2021

利用分层 Transformer 深入理解混合编码语言语义

采用分层变压器的架构（HIT）学习混合代码语言的语义和语法结构，在 17 个数据集和 9 个自然语言处理任务中，HIT 模型都表现出超越最先进的代码混合表示学习和多语言模型的性能。

Apr, 2022