解锁市场:跨市场问题回答的多语言基准
本文提出了一种名为 PAAG 的基于对抗学习的模型来解决电子商务中针对产品相关问题的答案生成问题,其中包括通过大规模未标注的电子商务评论和产品属性生成准确且完整的答案。在一个大规模的真实电子商务数据集上进行的广泛实验验证了我们模型中每个模块的有效性,并且我们的实验表明,我们的模型在自动指标和人工评估方面均实现了最先进的性能。
Jan, 2019
本文提出了一种基于评论的框架,在电子商务中回答有关产品相关问题的研究。我们开发了一种名为 RAGE 的框架,采用多层卷积结构,从评论中提取与问题相关的信息,实现了更快速和准确的回答生成。在两个真实的电子商务数据集上的实验证明了 RAGE 显著优于现有的替代方案,所生成的自然语言回答更准确、更丰富,而且 RAGE 模型的训练和回答生成所需的时间也较少。
Apr, 2019
本文探讨在跨境电商中,通过跨语言信息检索的方式,将源语言中商品属性集与目标语言中的诱人描述相匹配的问题。我们人工收集了一个新的、高质量的配对数据集,通过该数据集构建了一个新的跨语言匹配网络(CLMN),在BERT预训练模型的基础上增强了上下文相关的跨语言映射。实验结果表明,我们的CLMN处理这个具有挑战性的任务的效果非常显著,而针对BERT中上下文相关的跨语言映射则对性能提升明显。
May, 2020
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
通过使用跨语言开放检索问题回答,扩展多语言问答任务,解决信息匮乏和信息不对称问题。在 TyDi QA 上构建了一个大规模数据集,并建立了三个跨语言文档检索任务的基线。利用机器翻译系统和跨语言预训练模型,在实验中得出 XOR QA 是一个具有挑战性的任务,将促进多语言问答技术的开发。
Oct, 2020
本文介绍了一种通用的端到端多语言检索系统,基于图注意力和转换器的多语言语言模型,旨在处理全球电子商务业务中的产品检索,离线实验结果表明,该算法平均超过最先进的基线的35 % 的召回率和25%的平均均方误差。
May, 2021
本论文提出了一种新型的预测产品相关问题答案的方法,该方法基于相似问题以及相似产品的答案来进行判断,并使用专家混合模型框架聚合答案来提高预测准确率。经实证结果表明,该模型在某些问题的表现优于强基线,而且我们还出版了两个大规模数据集用于支持我们的方法。
May, 2021
本文提出了一种利用现有平行语料库进行间接监督的跨语言问答(QA)的合成数据生成方法,并使用词汇约束的机器翻译提高翻译质量,生成了跨越4种语言的662K QA样例数据集,并通过消融研究证明了该方法相对于自动单词对齐的噪声比较稳健。
Apr, 2023
该研究致力于针对电子商务应用中需要支持多语言的情况,建立一种跨语言的产品问答(PQA)系统,为了实现这一目标,它提出了一个包括12种语言在九个领域中的大规模标注跨语言PQA数据集,并评估了包括机器翻译在内的多种方法。作者强调,领域内的数据对跨语言排序任务非常重要,而候选的排序通常更喜欢基于运行时翻译的方法,而答案的生成更倾向于使用多语言方法,但是英语和跨语言测试集之间仍存在明显的性能差距。
May, 2023
通过引入多领域多语言问题回答基准M2QA,并利用其探索经过微调的模型、最新最先进的LLM的跨语言跨领域性能,以及研究模块化方法对领域和语言进行适应,我们发现模型类别内在领域-语言组合上具有相当大的性能差异,并且在所有模型规模上源语言-目标语言/领域组合之间存在显著的性能下降。我们证明了M2QA并未得到完全解决,需要新的方法来有效地传递语言和领域特定信息。
Jul, 2024