tmVar 3.0:一种改进的变异体概念识别和归一化工具
通过对 28 种已发布系统的调查,我们在三个公开可用的语料库上深入分析了五种不同实体类型的性能比较,发现 BTM 工具在异构数据集上的性能明显低于同质数据集中的结果,表明在野外应用中 BTM 工具的性能会下降,需要进一步的研究以增强其稳定性。
Feb, 2024
本文介绍了一个包括两种任务的数据集,以及一个名为 TERMinator 的工具,用于从科技文本中提取实体和它们之间的语义关系,并研究语言模型对术语识别的影响和不同方法之间的比较。实验证明,预先训练在目标语言上的语言模型并不总是表现最好。此外,添加一些启发式方法可以提高特定任务的整体质量。
Sep, 2022
PubTator 3.0 是一个使用先进的人工智能技术的生物医学文献资源,提供关于蛋白质、基因变异、疾病和化学品等关键概念的语义和关系搜索。它通过 API 和在线界面提供高级搜索功能和大规模分析,有效地满足多样的信息需求。
Jan, 2024
本文介绍了一个用于 TempEval-3 挑战的时间表达式识别和归一化系统 ManTIME,其中识别阶段结合了条件随机场和后处理识别管道,而规范化阶段则使用 NorMA,探讨了不同特征类型对性能的影响。最好的运行在标识阶段达到 0.95(P),0.85(R)和 0.90(F1),规一化精度分别为 0.84(类型属性)和 0.77(值属性)
Apr, 2013
该论文提出了一种名为 TEVR 的语音识别模型,旨在减少与语言模型相关的令牌熵的差异。我们使用了 9 亿个参数训练了德语 ASR 模型,并展示了在 CommonVoice 德语数据集上,TEVR 获得了非常有竞争力的 3.64% 词错误率,相对于词错误率的最佳报告结果减少了 16.89%。我们希望将我们完全训练好的语音识别管道释放给社区,以期未来实现隐私保护的离线虚拟助手。
Jun, 2022
使用基于变形的测试框架对文本内容审核软件进行了评估,结果显示该框架可以评估商业内容审核软件和基于机器学习的算法,并降低了先前算法无法有效处理含有恶意内容的文本的问题。
Feb, 2023
使用少于 3% 英文数据的量,我们提出了一种新颖的体系结构来促进多种语言的 TTS 文本归一化系统,将 TN 视为一个序列分类问题,并提出了一种细粒度的分词机制,该机制使系统能够从训练数据本身学习大部分类及其归一化,同时结合最少的预先编码的语言知识来处理其他类别,我们发表了 TN 在西班牙语和泰米尔语 TTS 中的首个结果,并证明了该方法的性能与英文上的以前工作相当。
Apr, 2021
本文介绍一种名为 ARTime 的新型时间表达式归一方法,它可以自动从训练数据中生成规则,避免了对领域专家的依赖,并在 Tweets 基准测试上显着超越了 SOTA 方法,并在 TempEval-3 基准测试上实现了与现有专家设计规则方法的竞争性结果。
Aug, 2021
通过研究发现,微任务众包平台能够有效地捕捉 PubMed 文摘中的疾病提及,并通过专家投票方法将多个工作者的注释合并,生成 BioNLP 领域中完全标注的语料库。
Aug, 2014
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022