100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? 文章

ArXiv CS.CL2026-06-04NEWSen作者: Wang Yang, Hongye Jin, Shaochen Zhong, Song Jiang, Qifan Wang, Vipin Chaudhary, Xiaotian Han