BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents 文章

ArXiv CS.AI2026-05-29NEWSen作者: Jiahao Huang, Fei Cheng, Junfeng Jiang, Zefan Yu, Akiko Aizawa