- 通过对风险的关键评估,以大型语言模型实现强大的隐私保护
本研究探讨将电子病历(EHRs)和自然语言处理(NLP)与大型语言模型(LLMs)相结合,以改善医疗数据管理和患者护理,重点是利用先进模型创建安全的、符合 HIPAA 标准的合成患者笔记用于生物医学研究。
- TAGCOS:面向任务的梯度聚类核心集选择用于指导调优数据
我们提出了一种任务无关的梯度聚类核心集选择方法(TAGCOS),通过使用采样梯度作为数据表示,执行聚类来分组相似数据,并应用高效的贪婪算法进行核心集选择,实验结果表明我们的算法仅选择了 5% 的数据,优于其他无监督方法,并实现了接近完整数据 - PERCORE:基于深度学习的波斯语拼写纠正框架及音标分析
该研究介绍了一种最先进的波斯语拼写纠正系统,将深度学习技术与音标分析完美结合,显著提高了用于波斯语的自然语言处理(NLP)的准确性和效率。该系统通过细调语言表示模型,将深度上下文分析与音标洞察力相结合,巧妙地纠正了非词和真词的拼写错误,并在 - RAG-QA 领域鲁棒性评估:长文检索增强问答
基于检索增强生成的问答(RAG-QA)是自然语言处理中的一个重要研究课题,具有广泛的实际应用。本研究通过创建一个新的数据集 LFRQA,包含了人工编写的长篇答案,将多个文档的摘要性答案合并成一个连贯的叙述,跨领域覆盖了 26K 个查询和七个 - 超越文本:利用多任务学习和认知评估理论进行购后意愿分析
通过评估以认知评估理论为基础的多任务学习框架,预测用户行为从而改进对用户行为的理解和预测,研究表明用户的语言和特征能够提高对用户行为的预测能力,强调将心理构造整合到自然语言处理中的重要性,对于计算心理学中大规模语言模型的未来应用产生了启示。
- ACLIL-TUR:印度法律文本理解与推理基准
这篇论文提出了 IL-TUR:来自印度的法律文本理解和推理基准,它包含英语、印地语和九种印度语言的特定领域任务,旨在处理印度法律文件的不同方面,提供了基准模型和对模型与现实情况之间差距的描述,并创建了一个排行榜供研究界上传和比较法律文本理解 - 突厥中亚语言处理的最新进展与挑战
通过概述土耳其语族中亚语言(包括哈萨克语、乌兹别克语、吉尔吉斯语和土库曼语)研究的语言学特性、已开发技术的当前覆盖和性能、从高资源语言应用迁移学习技术以及每种语言的标注和无标注数据的可用性等,本文总结了当前情况,希望为进一步的研究提供参考。
- 评价自然语言处理中人机决策的解释效用
解释性是否是一个虚假的承诺?从目前不足的证据来看,解释是否有助于人们在介绍的情况下,这场辩论已经出现。需要更多以人为中心、应用为基础的解释评估,以解决这个问题。然而,在 NLP 领域没有建立关于这类研究的指导方针,习惯于标准代理评估的研究人 - 基于搭配的方法应对词级度量差分隐私挑战
应用差分隐私(DP)在自然语言处理中的研究必须区分其操作的句法级别,通常采用单词级或文档级的隐私化形式。最近,已经提出了几种基于 Word Embedding 空间的通用 DP 概念的单词级 Metric Differential Priv - 零样本基于提示的分类:德语推文中的主题标签
基于最新的自然语言处理技术,本研究通过使用基于写作指南的文本对文本界面而无需提供培训样本的方法,评估其在实际应用中自动化注释任务中的效果,结果表明即使受到本地计算资源限制,这种以提示为基础的方法与经过优化的 BERT 模型相当,且无需任何已 - 特权学生:关于多语言知识蒸馏中初始化价值的研究
我们调查了知识蒸馏在多语言环境中的价值和模型初始化方法,发现通过将教师模型的权重直接复制到学生模型来增强初始化对于各种多语言环境中的模型初始化最为重要,并证明了高效的权重初始化在低资源场景下仍能保留多语言能力。
- 利用 LLMs 协助在双相障碍和精神分裂症中进行临床丰富数据的标注和收集
利用当代语言模型在序列到序列任务中的应用来增强心理健康研究,通过小型模型,可以准确高效地进行领域特定临床变量的数据标注和心理健康仪器的数据收集,并表现出比商业大型模型更好的性能。
- 医学基础模型综述
基于自我监督方法使用大规模数据集训练的基础模型(FMs)被广泛应用于各个领域,包括医疗保健领域,特别在自然语言处理、医学图像分析、临床大型语言模型和病理组学数据等方面。该综述论文全面概述了 FMs 在医疗保健领域的历史、学习策略、旗舰模型、 - 使用动态准则改进自回归训练
为解决 NLP 任务中的暴露偏差和指标不匹配问题,本文提出了一种基于动态预示算法的解决方案,并开发了新型的动态预示算法,证明其在类似基于跨度的 F1 指标上保持了 DAgger 的无遗憾保证。作者评估了该算法在命名实体识别、文本摘要和机器翻 - 一种将美国普通核心标准和全国教育进展评估项目规范进行自然语言处理的转换桥梁
利用自然语言处理(NLP)创建基于多变量相似度的混合回归程序,支持学科专家建立题目规范与内容标准的对应关系。在本文中,介绍了一个 NLP 的过程,通过嵌入向量对句子或文本进行相似度计算,并使用混合回归评估数学四年级的《共同核心教育标准》与 - 用于改进文本到图像模型的类条件自奖励机制
通过使用自奖励机制改进自动生成的图像,可以有效提高文本到图像生成模型的性能和图像质量。
- DaVinci 参与 SemEval-2024 第 9 任务:少样本引导 GPT-3.5 进行非常规推理
这篇论文介绍了在 NLP 领域中进行的关于垂直思维的重要工作,随后探讨了对横向思维的研究不足以及 SemEval 2024 引入的 BRAINTEASER 任务,主要涉及句子拼图和词语拼图两种类型的问题,并借助 GPT-3.5 上使用少量提 - 基于语言处理的自动新闻生成与事实核查系统
本文探索了一种基于语言处理的自动新闻生成和事实核查系统,旨在提高新闻生产的效率和质量,同时确保新闻内容的真实性和可靠性。通过整合事实核查技术,该系统可以有效防止虚假新闻的传播,提高新闻的准确性和可信度,而自动新闻生成和事实核查所涉及的关键技 - 自然语言处理中 Transformer 的效率综述
该论文通过对 NLP 的演变及其应用的准确性和效率的评论,以及提出和硬件考虑下对基于 transformer 模型的效率进行改进的研究贡献的调查,旨在确定当前 NLP 技术对可持续社会的贡献,并为未来研究奠定基础。
- SCI 3.0: 基于 Web 的图形事件表示模式策划界面
通过创建结构化的事件模式,可以在全局事件中识别出具有最大影响力的元素,创造了一个可实时编辑事件模式属性的网络应用接口,用于自然语言处理领域。