Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation 文章

ArXiv CS.CL2026-06-02NEWSen作者: Junjie Chen, Yuxi Dong, Haitao Li, Weihang Su, Yujia Zhou, Min Zhang, Yiqun Liu, Qinyao Ai