为促进语言科技的多样性，构建和维护对话语料库

Mar, 2022

为促进语言科技的多样性，构建和维护对话语料库

Building and curating conversational corpora for diversity-aware language science and technology

Andreas Liesenfeld, Mark Dingemanse

TL;DR提供了分析流程和最佳实践准则来构建和策划日常会话语料库，并开发了质量控制方法。通过两个案例研究展示了会话数据的广泛实用性，并讨论了语言多样性会话语料库对语言科学和语言技术的强有力的经验基础。

Abstract

We present an analysis pipeline and best practice guidelines for building and curating corpora of everyday conversation in diverse languages

conversation corpora languages interactional data asr solutions

发现论文，激发创造

推进跨学科的对话科学：从大型多模态人类语音语料库中获得的洞见

本文介绍了一种跨学科的对话科学，基于一个大型的多模式语料库，通过语音，视频和转录记录了 1656 次对话，利用此实验数据，研究人员提出了新的算法并应用机器学习技术，以分析对话成功或失败的因素，并探讨对话与幸福感之间的关系。

Mar, 2022

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

WikiConv：一个大型在线协作社区完整对话历史的语料库

本文提出了一个包括 Wikipedia 贡献者间全部对话记录的语料库，通过记录评论和回复等中间状态，支持对大规模在线协作过程及挑战的新型研究，其中两个案例研究揭示了人的谈话行为如何与讨论场所相关，以及社区管理对有害行为的调控高于先前估计水平，并且语言无关性强，能够提取高质量的中英文对话数据。

Oct, 2018

日耳曼语系低资源语言和方言语料库调查

这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查，发现手工注释的语言资源稀缺，大多数仅涵盖形态和句法，但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。

Apr, 2023

地理和背景多样化数据源文献：BigScience 语言数据和资源目录

本研究介绍了一个大型数据收集项目的方法论，强调了文档记录和以人为中心的方法，通过在线目录和公共黑客马拉松活动进行元数据的收集，以解决大型语言模型数据收集面临的难题，研究结果分析了所得到的资源元数据分布情况，并总结了在此项目中的经验教训。

Jan, 2022

构建数据驱动对话系统的可用语料库调查

通过调查可用于数据驱动型对话系统学习的公开数据集，讨论了这些数据集的重要特征，如何使用它们学习不同的对话策略以及它们的其他潜在用途。同时还研究了数据集之间的迁移学习方法和外部知识的应用，并讨论了适当的评估指标选择。

Dec, 2015

验证和探索大规模地理文集

本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库，使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量：(i) 独立语言识别系统的一致性，(ii) 基于哈希的去重，以及 (iii) 特定位置的异常检测。然后，通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较，评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响，重点关注代表性不足的语言和人口。评估结果表明，每个清理阶段都提高了子语料库的有效性，但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。

Mar, 2024

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

朝着更好的包容性：一种多样化的英语方言推文语料库

通过采集和分析社交媒体上的英语变种示例，我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集，并提出一个标注框架，通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方（即较不标准）英语变种之间的预训练语言识别器准确性差异，并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。

Jan, 2024

商务对话语料库设计

本文旨在通过引入一个新构建的日英商务会话平行语料库，提高会话文本的机器翻译质量，并分析了该语料库，列举了自动翻译的具有挑战性的实例。同时，本文还试图将语料库添加到机器翻译训练中，并展示了基于该语料库训练的系统的优势。

Aug, 2020