Reassessing Extractive QA Datasets at Scale: LLM-as-a-Judge and In-Depth Analyses 文章

ArXiv CS.CL2026-06-01NEWSen作者: Xanh Ho, Jiahao Huang, Florian Boudin, Akiko Aizawa