Pitfalls of Evaluating Language Models with Open Benchmarks 文章

ArXiv CS.CL2026-06-05NEWSen作者: Md. Najib Hasan (Wichita State University), Md Mahadi Hassan Sibat (University of Central Florida), Mohammad Fakhruddin Babar (Washington State University), Souvika Sarkar (Wichita State University), Monowar Hasan (Washington State University), Santu Karmaker (University of Central Florida)