一份法语多方对话资源
Claire French Dialogue Dataset (CFDD) is a multilingual, open source corpus of roughly 160 million words from transcripts and stage plays in French, created to further the development of language models, with descriptions of its composition, subcorpora breakdown, and standardization process.
Nov, 2023
最近深度学习的进展,特别是编码器 - 解码器架构的发明,极大地改进了抽象摘要系统的性能。大部分研究集中在书面文件上,然而忽视了多方对话摘要的问题。本文提供了一组法国政治辩论的数据集,以增强多语对话摘要资源。我们的数据集包括手工转录和注释的政治辩论,涵盖一系列主题和观点。我们强调高质量的转录和注释对于训练准确有效的对话摘要模型的重要性,并强调支持非英语语言的对话摘要所需的多语资源。我们还使用最先进的方法提供了基准实验,并鼓励在这一领域进行进一步研究。我们的数据集将向研究社区公开提供。
Dec, 2023
本文介绍了 mDIA,这是第一个跨越低至高资源语言的大规模多语言对话生成基准。通过微调 mT5 和 DialoGPT 两种预训练模型,作者对 46 种语言中的真实对话进行了基线测试,结果表明 mT5 模型在 sacreBLEU 和 BertScore 方面表现更好,但在多样性方面表现较差。尽管在少量训练和零样本情况下表现出有希望的结果,但英语和其他语言之间的生成质量仍存在较大差距。作者希望发布 mDIA 可以促进更多有关生成多语言对话的研究,以促进语言多样性。
Aug, 2022
本研究介绍了 CrossDial,它是来自 Web 的包含大多数经典中国相声的首个开源数据集。同时,我们定义了两个新任务,提供了两个基准,并调查了当前对话生成模型在相声生成领域中的能力。实验结果和案例研究表明,相声生成对于直接方法是有挑战性的,同时也是未来工作的有趣研究方向。
Sep, 2022
报告介绍了一种协议以收集跨语言韵律映射和其他改善语音翻译的方法,包括收集语言之间紧密匹配的话语对的、数据收集的描述,以及一些相关的观察和思考。此报告面向使用语料库,扩展语料库和设计类似的双语对话数据收集的人。
Nov, 2022
本文介绍了一个新的跨方言语音数据集,用于英语印度、尼日利亚和美国口音。该数据集通过提示参与者执行一系列短的信息分享任务来平衡开放式对话和面向任务的对话,以促进量化的跨方言比较,并避免对方言特征表现的限制性任务结构的强制性。初步分析表明该数据集在语法和话语标记的使用上有显着差异。该数据集包括超过 20 个小时的音频和超过 200,000 个正字法转录的标记,并已公开发布。
May, 2023
本文介绍了针对非洲语言首次提供的高质量对话数据集,并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模,利用重叠度进行效果分析,同时通过人类评估方法验证其有效性,发现深度单语模型可以学习一些泛化跨语言的抽象,人类得分最高的是奈及利亚皮钦英语。
Apr, 2022
通过提出一个新的英文谈判对话语料库 CaSiNo,研究了不同谈判策略和多任务学习对谈判效果的影响,并在保持闭环条件下实现了丰富和语言学深度的谈判。
Mar, 2021
研究了具有多种可能响应的对话,并使用多元会话数据集平衡高分歧因素 (10) 和若干次对话 (6),通过选择性分支延续。为了评估多样化生成的不同任务,我们提出了一个简单的评分算法,基于二分图匹配来最佳整合一组多样参考。最终任务是理解听众期望反应的可控制生成任务,利用文本属性从预训练分类器自动诱导多层次预测会话深度的多个语言生成任务的研究。
Feb, 2021
本研究提取多语言角色扮演游戏中的劝说对话数据集,并运用自然语言处理模型 BERT 建立劝说检测系统,证明了视频游戏在 NLP 领域中作为数据源的潜力,代码和数据集可在 Zenodo 上获得。
Jul, 2022