Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games 文章

ArXiv CS.AI2026-06-02NEWSen作者: Mingyuan Fan, Weiguang Han, Daixin Wang, Cen Chen, Zhiqiang Zhang, Jun Zhou