multi-task benchmark | BriefGPT

关键词multi-task benchmark

搜索结果 - 6

CrossIn：一种跨语言知识对齐的高效指导优化方法
通过使用 CrossIn 方法，利用跨语言指导调整数据的混合构成，我们有效地提升了大语言模型在多语种任务和多语言能力上的表现，并对跨语言数据量和翻译数据的整合对提高多语言一致性和准确性的影响进行了广泛探讨。
PDF3 months ago
ACLSTORYWARS：协作式故事理解和生成的数据集和指导调优基线
介绍了一个新的 STORYWARS 数据集，由九千多名不同作者在线协作创作了超过 40,000 个协作故事，并在其中设计了 12 种任务类型，共 101 个不同的故事相关任务。此外，展示了针对这些任务的模型 INSTRUCTSTORY。模型
PDFa year ago
READIN：一个包含真实和多样化输入噪音的中文多任务基准
为了确保模型的鲁棒性和公正性，构建一个具有真实输入噪声的中文多任务基准测试 READIN，包含四个不同的任务，使用拼音输入和语音输入，实验表明现有的强大的预训练语言模型即使使用了鲁棒性方法，如数据增强，也会在 READIN 上显著降低性能。
PDFa year ago
ACLNumGLUE：一套基本而具有挑战性的数学推理任务
通过提出多任务基准测试 NumGLUE，检测计算机在数学推理方面的表现。将模型进行联合训练和知识共享可以提高模型性能，NumGLUE 可以激励模型在语言中进行稳健和通用的算术推理，是实现更复杂的数学推理的第一步。
PDF2 years ago
ACLGLGE：一个新的通用的自然语言生成评估基准
本篇论文介绍了新的多任务基准测试 ——GLGE，以综合比较自然语言生成模型在八个语言生成任务上的泛化性能，包括三个难度子任务，并公开数据集及源代码，以促进自然语言生成模型的预训练和迁移学习研究。
PDF4 years ago
KLEJ: 波兰语言理解的全面基准
本研究基于 Transformer 模型提出了一个基于多任务的波兰语言解析的测试基准，并介绍了针对该语言的 Transformer 模型 HerBERT，该模型在 9 个任务中表现最好，其中包括命名实体识别和情感分析等多个领域。
PDF4 years ago