科学文档摘要系统
在长文本任务中,我们提出了一种评估方法,该方法设计了一个合成文本集合来评估语言模型和检索模型的输出质量,并以摘要的形式呈现相关见解和引文。研究结果表明,当前的系统在这种任务上仍存在挑战,并希望未来的系统能够在该任务上取得超越人类的性能。
Jul, 2024
本文介绍了基本的生物力学概念,展示了如何将常见的关键点数据转换为独特描述给定姿势的关节角度,并证明了该方法适用于机器学习应用,特别是在需要与人类专家进行解释和对话的领域,如运动和医疗应用。
Jun, 2024
这项研究通过利用投票算法,提出了一种新的框架 LaMSUM,通过大型语言模型生成用户生成的文本的摘要,结果显示 LaMSUM 优于现有的提取式摘要方法,同时试图解释语言模型生成的摘要产生的原因。
Jun, 2024
我们介绍了 OpenDebateEvidence,这是一个从美国竞争辩论社区收集的全面的论点挖掘和总结数据集。该数据集包括超过 350 万个具有丰富元数据的文档,是最大的辩论证据集之一。OpenDebateEvidence 捕捉了高中和大学辩论中论点的复杂性,为训练和评估提供了宝贵的资源。我们的大量实验证明了对最新大型语言模型进行微调以进行论辩抽象总结的有效性,涵盖了各种方法、模型和数据集。通过提供这一全面的资源,我们旨在推动计算论证的发展,并支持辩论者、教育工作者和研究人员的实际应用。OpenDebateEvidence 已公开可用,以支持计算论证的进一步研究和创新。在此访问:this https URL
Jun, 2024
通过提取自科学文档中的多模态数据,并评估大型模型处理科学文档任务的能力,对科学文档记录的研究发现和有价值的人类知识进行综合性的数据分析是有意义的。我们介绍了 DocGenome,这是一个结构化文档基准,通过我们的自定义自动标注流水线对 arXiv 开放访问社区中的 153 个学科的 50 万份科学文档进行注释,它具有完整性、逻辑性、多样性和正确性等四个关键特征。我们进行广泛的实验证明了 DocGenome 的优势,并客观评估了大型模型在我们的基准上的性能。
Jun, 2024
SciRIFF 是一份包含 137K 个 54 项任务的指示跟随演示的科学资源,涵盖了信息提取、摘要、问题回答、声明验证和分类等五个必要的科学文献理解能力,其长输入上下文、详细任务规范和复杂的结构化输出使其成为瞩目的资源。通过在一般领域和 SciRIFF 演示的混合数据上进行进一步微调,我们使用 SciRIFF 展示了一个在科学领域上适应的样本高效策略,开发出被称为 SciTulu 的模型,在九个科学任务的评估中,相对于强基准模型,它在 7B 和 70B 尺度上分别提高了 28.1% 和 6.5%,同时保持了基线模型与一般指示跟随性能的 2% 之内。我们希望 SciRIFF 能促进 LMM 的发展和评估,帮助研究人员了解不断增长的科学文献资料。我们发布了数据集、模型检查点以及数据处理和评估代码来促进进一步的研究。
Jun, 2024
研究了 8 种大型语言模型对放射学报告印象进行总结的能力,使用 CT、PET-CT 和超声波报告构建零、一、三次扫描提示,并定义了五项人工评价指标以评估印象的语义,结果显示大型语言模型在完整性和正确性方面表现较好,但简洁性和真实性评分不高,并指出少量扫描提示可以提高模型的简洁性和真实性,但临床医师仍认为大型语言模型不能取代放射学家的总结能力。
Jun, 2024
最近,使用深度学习进行软件工程方面的任务,包括代码生成和摘要等,出现了越来越多的活动。尤其是最新的编码大型语言模型在这些问题上表现良好。在本技术报告中,我们旨在回顾这些模型在代码解释 / 摘要方面的性能,同时调查它们基于自然语言描述的代码生成能力。
May, 2024
我们介绍了一种名为 RealitySummary 的混合现实阅读助手,它可以通过按需的文本提取、摘要和增强来提升任何印刷或数字文档。我们探索了通过利用大规模语言模型进行按需文档增强的通用技术,并开发了一个概念验证系统,可以使用谷歌云 OCR 和 GPT-4 自动提取和摘要文本,然后使用 Microsoft Hololens 2 和 Apple Vision Pro 在文档周围嵌入信息。通过可用性研究和实地研究的结果,我们揭示了按需的混合现实文档增强的潜在效益和未来研究的机会。
May, 2024