Sep, 2023

处理口语处理中的盲点

TL;DR本文探讨了非语言线索(包括共语手势和面部表情)在人类交流中的关键但常常被忽视的作用,以及它们对自然语言处理(NLP)的影响。我们提出了发展通用自动手势划分和转录模型以将这些非语言线索转录为文本形式的方法,来加强口语理解的盲点并提升 NLP 模型的适用性。通过激励性例子,我们演示了仅仅依靠基于文本的模型的局限性。我们提出了一种计算高效且灵活的方法,可以与现有的 NLP 流程无缝集成,用于引入非语言线索。最后,我们呼吁研究界为通用转录方法的发展做出贡献,并验证其在捕捉现实中多模态交互的复杂性方面的效果。