nlp tasks | BriefGPT - AI 论文速递

关键词nlp tasks

搜索结果 - 420

经济观察员调查为日本金融领域提供数据集和任务
我们构建了两个大型数据集，使用日本中央政府机构发布的材料，提供了三个日本金融自然语言处理任务，其中包括对句子进行三类和十二类分类，以及用于情感分析的五类分类任务。我们的数据集旨在全面而及时，利用自动更新框架确保最新的任务数据集随时对公众可用
PDF7 days ago
ACL大型语言模型中的数据污染分类
大型语言模型在广泛的网络语料库上进行预训练，展示出在多个下游任务上出色的性能。然而，人们越来越担心数据污染现象，即评估数据集可能包含在预训练语料库中，从而夸大了模型的性能。去污染作为一种检测和移除这些数据的过程，是一个潜在的解决方案；然而，
PDF16 days ago
CharSS: 梵语词分割的字符级 Transformer 模型
利用字符级 Transformer 模型进行梵语词分割 (CharSS) 方法，在三个基准数据集上的实验证明，相对于现有方法，在 UoH+SandhiKosh 数据集上的分割预测准确性绝对改善幅度为 6.72，而在 hackathon 数据
PDF19 days ago
XferBench: 一种基于数据的紧迫语言基准
我们引入了一个用于评估利用数据驱动方法检验新兴语言整体质量的基准，并使用深度学习框架将新兴语言与人类语言的相似性作为其 "质量" 的概念进行解释。通过将新兴语言用作深度学习下游自然语言处理任务的预训练数据，我们通过衡量下游性能来衡量新兴语言
PDF24 days ago
SHADE: 领域特定实体的语义上位词注释工具 – DnD 领域应用案例
手动数据标注是一项重要的自然语言处理任务，但需要大量资源和工作。在数据标注中，保持标注的一致性是一个主要挑战，因此需要一种专门的应用程序来确保标注的一贯性，并减少人为错误。本文介绍了一种名为 SHADE 的专门用于高奇幻文学领域中的实体标注
PDFa month ago
LumberChunker: 长篇叙述文档切割
利用 LumberChunker 方法切割文档，以动态地对文档进行分割，通过将其整合到 RAG 管道中，证明了在检索性能和效果上优于其他切割方法和竞争基准的竞争基准。
PDFa month ago
对大型语言模型的后门攻击和防御调研：对安全措施的影响
该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。
PDF2 months ago
QJL：一位量化的 JL 变换用于带零开销的 KV 缓存量化
通过使用 QJL 方法，我们成功实现了对 LLMs 的服务，将 KV 缓存量化至 3 位，缩减了缓存的内存使用量并提高了运行速度，而同时保持了准确性。
PDF2 months ago
基于统一学习算法形式化的带输出约束的分析
我们对神经网络模型学习算法进行了分类，并提出了一种新的算法来整合主任务信息和约束注入，同时提出了 $Heta$-score 作为度量主任务度量和约束违规的指标，在自然语言推理、合成传导示例和语义角色标记等自然语言处理任务上探索和揭示了各种
PDF2 months ago
将大规模文本嵌入基准扩展至法语
我们扩展了大规模文本嵌入基准（MTEB）以针对法语提出首个句子嵌入大规模基准，通过与 46 个嵌入模型的大规模比较和全面的统计测试，我们发现大型多语言模型在句子相似度上进行预训练的效果尤为出色。
PDF2 months ago
RAGSys：冷启动推荐系统作为 RAG 系统
大语言模型和上下文学习在创建演示检索系统方面具有关键作用，该系统利用检索增强生成为少样本学习任务提供相关演示，通过提出一种新的评估方法，探讨了多样性和质量偏差对有效上下文学习的关键作用，并突出了推荐系统技术在该领域的潜力。
PDF2 months ago
大型语言模型遇上自然语言处理：一项调研
大语言模型在自然语言处理任务中的应用及未来发展潜力的研究，包括 LLMs 的当前进展，应用领域的分类，新研究前沿以及相关挑战。
PDF2 months ago
MM利用翻译和主题嵌入在推文中进行注释检测的 BrainStorm @ iREL 在 SMM4H 2024
在这项共享任务中，我们提出了一种新颖的方法来识别和分类 LLMs 和人类领域专家在 COVID-19 症状检测方面从拉丁美洲西班牙语推文中进行的注释，旨在提高注释数据的可靠性。
PDF2 months ago
PL-MTEB：波兰大规模文本嵌入基准
该研究介绍了波兰大规模文本嵌入基准（PL-MTEB），它是一个包含 28 个不同自然语言处理任务的全面基准，涉及五种任务类型。研究人员通过波兰 NLP 社区先前使用的数据集对这些任务进行了适应。此外，研究人员创建了一个名为 PLSC（波兰科
PDF2 months ago
EmoMix-3L: 孟加拉 - 英 - 印度语情感检测的代码混合数据集
本文介绍了 EmoMix-3L，这是一个包含来自三种不同语言的代码混合数据的新颖多标签情感检测数据集。我们在 EmoMix-3L 上尝试了几种模型，并报告称 MuRIL 在该数据集上的表现优于其他模型。
PDF3 months ago
利用知识图谱为涉及长尾事实的问答任务提供大型语言模型的引导
大型语言模型在各种自然语言处理任务中表现出色，但在处理需要广泛、现实世界知识的任务，特别是那些涉及长尾实体的任务时，仍然存在困难。为了解决这个问题，本研究分析了不同类型的非参数化知识对语言模型的影响，其中包括文本片段和知识图谱。通过创建一个
PDF3 months ago
ICML可切换的决策：动态神经生成网络
通过动态分配计算资源来加速推理，我们的动态神经生成网络在问题回答、摘要和分类基准测试中表现出少量的计算成本，同时保持相同的准确性。
PDF3 months ago
ACL比较 LLM 提示与跨语言转移性能对土著和低资源巴西语言的影响
大型语言模型在低资源语言上的自然语言处理任务上表现较差，并提供了错误分析和实例解释。
PDF3 months ago
COLING模型化正字变化提升尼日利亚商业英语的 NLP 性能
试验展示了将来自其他语料库的真实文本与合成的正字法变异相结合以增强训练数据的益处，在情感分析方面效果提升了 2.1 分，英文翻译方面效果提升了 1.4 BLEU 分。
PDF3 months ago
ChatGPT 真实能力调查
我们在这篇论文中调查了 ChatGPT 在七个自然语言处理任务领域的真实性能水平，回顾了 ChatGPT 的社会影响和安全问题，并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示 ChatGPT 的黑盒特性，以免研究人员被其表面生
PDF3 months ago