Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization 文章

ArXiv CS.AI2026-05-29NEWSen作者: Zhihao Liu, Yifan Wu, Jian Lou, Di Wang, Yuxi Zhou, Yuke Hu