Amazon-M2：一个用于推荐和文本生成的多语言多地区购物会话数据集

KDDJul, 2023

Amazon-M2：一个用于推荐和文本生成的多语言多地区购物会话数据集

Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation

Wei Jin, Haitao Mao, Zheng Li, Haoming Jiang, Chen Luo...

TL;DR通过创建 Amazon-M2 数据集，我们提出了一种多语言多地区的购物会话数据集，用于模拟用户行为和偏好，从而帮助提升个性化推荐以及理解用户取向，为进一步的研究和实践带来新的见解。

Abstract

Modeling customer shopping intentions is a crucial task for e-commerce, as it directly impacts user experience and engagement. Thus, accurately understanding customer preferences is essential for providing personalized recommendations. →

customer shopping intentions session-based recommendation multilingual multi-locale shopping session dataset personalization next-product recommendation

发现论文，激发创造

购物查询数据集：用于提升产品搜索的大规模 ESCI 基准

本文介绍了一个大型 Amazon 搜索数据集 —— 购物查询数据集，他包含约 130 万个搜索查询，用于研究如何通过机器学习和数据挖掘技术来提高搜索结果的质量。购物查询数据集被广泛地应用在 KDD Cup '22 挑战赛中，包括如下三个评价任务：排序搜索结果列表、将产品结果分类成相关类别和为给定查询寻找替代产品。购物查询数据集可能会成为未来产品搜索领域的黄金标准。

Jun, 2022

多语种答案句子选择数据集

通过使用大型语言模型，本研究提出了新的高质量数据集，用于五种欧洲语言的答案句子选择（AS2）任务，并通过多个实验证明这些数据集对于生成强大且跨语言的 AS2 模型至关重要，显著缩小了英语和其他语言之间的性能差距。

Jun, 2024

用于多语言回复建议的数据集和基准线

该文介绍了 MRS，一个包含十种语言的多语言回复建议数据集，可用于比较选择模型和生成模型的优劣，并公开了基于此数据集的生成和检索模型。

Jun, 2021

多语言亚马逊评论语料库

该研究介绍了一个包含英文、日文、德语、法语、西班牙语和中文的跨语言 Amazon 评论语料库 (MARC)，并提出了利用多语言 BERT 模型进行文本分类和零样本跨语言迁移学习的方法。研究使用平均绝对误差 (MAE) 代替分类准确率进行了实验，并获得了基准结果。

Oct, 2020

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

主观偏好下的多模式推荐对话：一项新的挑战和基准测试

该研究介绍了一个名为 SURE 的新数据集，其中包含人类主观偏好和销售专家提出的推荐行为，用于评估多模态推荐代理的能力，并提出了一个基于 SURE 的基准模型。

May, 2023

PerSHOP -- 波斯购物对话系统建模的数据集

本文通过众包开发了包含近 22k 个发言、15 个不同领域和 1061 个对话的波斯语对话数据集，并对其进行了标注以训练模型。同时，我们提出了一些用于自然语言理解（NLU）任务的基准模型，其中，意图分类的 F-1 得分约为 91％，实体抽取的 F-1 得分约为 93％，这可作为未来研究的基准。

Jan, 2024

MASSIVE: 一个包含 510 万个来自 51 个不同语言的多语言自然语言理解数据集

本研究介绍了包含 51 种语言、18 种领域、60 个意图和 55 个插槽的 100 万个标注虚拟助手话语的 MASSIVE 数据集，并给出了用于其上的 XLM-R 和 mT5 模型的实验结果。

Apr, 2022

电商搜索中基于图形的多语言产品检索

本文介绍了一种通用的端到端多语言检索系统，基于图注意力和转换器的多语言语言模型，旨在处理全球电子商务业务中的产品检索，离线实验结果表明，该算法平均超过最先进的基线的 35 % 的召回率和 25% 的平均均方误差。

May, 2021

2022 Amazon KDD Cup：面向电子商务产品搜索的多任务预训练模型

本文提出了一种有效的多语言模型，该模型不仅利用已经处理好的类平衡数据集，还通过多任务预训练获得更一般化的表示。作者采用了 mlm 任务、分类任务和对比学习任务，在微调阶段采用自信学习、EMA、FGM 和 R-Drop 等方法提高模型的泛化能力和鲁棒性，采用多粒度语义单元来寻找查询和产品文本元数据，以增强模型的表示能力。该方法在三个任务中排名前八。

Jan, 2023