- 谁在内部谁在外部?DataComp 中多模态 CLIP 过滤的案例研究
我们的研究发现,数据过滤方法在图像和文本领域也存在偏见和价值观,并且与一些边缘群体相关的数据更容易被排除。此外,我们还发现现有的数据过滤方法可能加剧数据收集中存在的不平衡问题,并且有必要对数据集的创建和过滤做出根本性的改变。
- ACL多语言新闻框架分析扩展研究
本研究探索了通过众包进行数据集创建的可能性,利用非专家注释员开发训练语料库,扩展了多语种的媒体框架分析并提供了孟加拉语和葡萄牙语的新基准数据集,展示出在众包数据集的基础上与其他现有数据集相结合,从而使基线提高 5.32 个百分点,并发现任务 - 揭示 2022 年 ACL 和 EMNLP 会议数据集的趋势
自从采用 Transformer 架构以来,自然语言处理(NLP)已经显著发展。Transformers 催生了预训练大型语言模型(PLMs)。在多个任务中,NLP 系统的性能有了巨大提升,有些情况下甚至超过了人类。然而,事实仍然是,在预训 - CodeBenchGen: 创建可扩展的基于执行的代码生成基准
用 CodeBenchGen 框架创建可扩展的基于执行的基准测试,利用大型语言模型将任意代码转换为评估示例,并通过 Exec-CSN 数据集展示了人类和模型在代码生成系统上的性能分析。
- 检索增强生成系统:自动数据集创建、评估和布尔代理设置
检索增强生成(RAG)系统在通过领域特定和时间敏感数据增强大型语言模型(LLM)输出方面非常受欢迎。本文提出了一种严格的数据集创建和评估工作流程,从而定量比较了不同的 RAG 策略,用于布尔代理 RAG 设置的开发和评估。我们在线发布了我们 - 通用 NER:金标准多语言命名实体识别基准
介绍了一个名为 Universal NER (UNER) 的开源项目,旨在开发多种语言的黄金标准 NER 基准;UNER 的目标是提供高质量的、跨语言一致的标注,以促进和标准化多语言 NER 研究。UNER v1 包含使用一致的跨语言模式在 - 利用弱监督生成印尼保护数据集
利用弱监督方法快速构建印尼自然语言处理数据集,通过使用标注函数生成软标签数据集,进行多类别分类和情感分类的基准实验,得到了相应的测试性能结果,并提供了数据集和标注函数以供进一步研究和探索。
- 从真实环境到虚拟环境的人机协作中以通信为重点的机器学习模型的系统调整
虚拟现实在多个领域中得到了证明:从游戏、医学和培训到人机协作界面的开发,它能够帮助设计师在超越真实环境限制的情况下探索应用,并开发创新的解决方案和体验。对于在虚拟领域借助自然而直观的手势实现协同机器人操作,需要创建大量的数据集,以便使工作界 - ArPanEmo:一份面向 COVID-19 疫情期间阿拉伯在线内容的细粒度情绪识别开源数据集
本研究通过使用 Python 包采集 COVID-19 相关的在线帖子,并使用情感相关术语的词典将其分类为情感或中性类别,接着进行手动标注以创建 ArPanEmo 数据集,该数据集是用于阿语在线帖子的情感细粒度识别的第一个最大型数据集。
- Open-Domain 会话系统中内存管理的轻松集成
该研究提出了一种简单的方法,通过将记忆管理能力集成到 BlenderBot3 中,并使用自动数据集创建方法来改进 open-domain conversation systems。实验结果表明,多任务培训的 BlenderBot3-M^3 - Taxi1500:1500 种语言文本分类的多语言数据集
通过并行翻译圣经来开发广泛的主题,并利用众包工具收集标记数据,标注英文端的数据,并通过已对齐的诗句将标签映射到其他语言,从而为 1500 多种语言生成文本分类数据集,并对多个现有的多语言语言模型进行广泛基准测试。
- ACLWikiGoldSK:斯洛伐克命名实体识别的注释数据集、基线和少样本学习实验
本研究旨在解决某些语种尚未存在高质量手动标注数据集的现状,并通过引入 WikiGoldSK 数据集,评估了最先进的多语言预训练语言模型在斯洛伐克语上的效果,并与现有的银标准斯洛伐克 NER 数据集进行了比较。我们还进行了几个示范性实验,并显 - 跨模态检索训练中的数据泄露:一项案例研究
本文主要研究声音检索中,数据集的自动获取问题。作者通过分析 SoundDesc 数据集的问题,提出了新的训练、验证和测试集,避免了数据泄漏问题,该数据集的效果更具有挑战性。
- LR-Sum:面向资源匮乏语种的摘要生成
LR-Sum 是一个使用创意共享许可证创建的包含 40 种语言的分别用于多语言新闻概要的数据集,旨在促进对低资源语言自动概括的进一步研究。本文描述了从 Multilingual Open Text 语料库中提取和筛选出该数据集的过程,同时讨 - DialogCC:大规模多模态对话数据集
本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道,使用这个管道,我们提出了一个大规模的多模态对话数据集 DialogCC,并且通过广泛的实验结果表明,使用我们的数据集训练多模态对话模型可以改善泛化性能,与此同时,使用我们的数据 - EMNLP对话式:具有上下文学习的可控对话模拟
这篇论文介绍了一种使用大型语言模型进行对话模拟的方法 —— extsc {Dialogic},它能够自动选择示例并在 GPT-3 的帮助下生成新的对话和注释,快速扩展小型对话数据集,从而实现更高效和省时的数据集创建。同时,该方法可作为一种有 - 故事中角色对话理解和生成的基准测试
这篇论文提出了两个任务,包括对话生成和对话说话者识别,并构建了一个新的数据集 DialStory 以进行评估,同时提出了学习显式角色表示以提高性能,并通过实验和案例研究表明,我们的方法可生成更连贯和信息量更大的对话,并实现了比强基线更高的说 - 有选择性的标注使语言模型更好的少样本学习器
本文提出了一种基于在上下文学习的策略,通过选择少量有代表性的例子来进行标注,进而为新的自然语言任务创建数据集,并证明了此方法在不同场景下都具有良好的效果。
- SPBERTQA:一种基于句子 Transformer 的医学文本两阶段问答系统
本文旨在创建一个提供医疗健康知识问答的越南医疗保健系统,并使用基于 SBERT 的多负面排名损失方法和 BM25 改进的两阶段 QA 系统来评估其性能优于传统方法的表现
- WHU-Stereo:高分辨率卫星图像立体匹配的挑战基准
本研究创建了一份包含超过 1700 个成对高分辨率遥感卫星图像的 WHU-Stereo 数据集,以促进深度学习网络的立体匹配训练和测试,并探究其在遥感应用中的潜力。实验证明,该数据集的性能可与现有的立体匹配数据集可比,并且深度学习模型的性能