Jun, 2024

关于表格问答的语言模型鲁棒性研究

TL;DR通过评估 Large Language Models (LLMs) 在基于维基百科和财务报告的 Tabular Question Answering (TQA) 数据集上的表格理解能力,研究发现指令对性能有显著影响,新模型 Llama3 比之前的版本更具鲁棒性,但 WTQ 数据集存在数据污染和实际可靠性问题,需要通过结构感知自注意机制和更好处理特定领域的表格数据来改进 LLMs 的可靠性。