摘要
在某个组织内部,一个人工智能模型正在运行,处理着一个棘手的决策。有人提出了一个没有标准答案的问题:可能是客户投诉,可能是员工咨询裁员流程,也可能是医疗保险核保员审核理赔。模型会决定如何回应,判断哪些可以拒绝,哪些可以允许,以及在何种情况下可以坦诚相待,并在客户利益和政策之间取得平衡。它只需一两秒钟就能完成这一切,而且每次都以相同的方式做出决定,因为这个判断早在问题出现之前就已经做出。这个判断并非由运行模型的组织做出,而是由开发该模型的供应商做出,他们为一个全球性产品开发了该模型,并在该组织签约使用之前就已做出判断。 这并非假设。2026 年发表于 arXiv 的论文《多模态学习学习模型中的对齐漂移》评估了八个模型版本,并以 26 位专家编写的726 个对抗性提示作为固定基准。这些专家的工作是找出模型的不足之处。研究发现,不同模型系列在处理伦理敏感问题时存在显著且持续的差异,并且这种行为在不同版本之间存在明显的漂移。2025 年,一家大型基金会模型提供商在承认该模型过于“顺从”后,公开撤回了更新。所有使用该模型的机构都在未提出要求的情况下接受了这一变更,并且也以同样的方式接受了撤销。 一个组织的行为准则、价值观声明和道德规范都阐明了其自身认可的立场。然而,实际生产的模型却遵循着不同的准则,并且不遵循组织的准则。两种准则本身并无对错之分;它们是两个各自站得住脚的立场,只是方向不同。董事会需要调和这种差距,而在大多数组织中,这种差距实际上是默认解决的,并非由任何人决定。 模型的伦理观从何而来,以及为何无法完全解读 一个模型在部署时就具备一套稳定的预设原则:它会拒绝什么,如何构建敏感议题,以及如何解决双方都有合理考量的问题。这些预设原则构成了它固有的伦理准则。至于一个模型是否在更深层次上承载着价值观,这个问题可以留给哲学家们去探讨。对 治理而言,重要的是,一旦模型部署完毕,这些预设原则就发挥着伦理标准的作用。它们会做出决定,而且这些决定是基于模型提供者选择的立场,而非中立的默认设置。一个组织一直以来都在其他机构(例如审计机构、保险公司以及运行平台)设定的标准下运作。而新的变化在于,这种固有的标准不再仅仅停留在设定界限的边界,而是以组织的名义,逐案行使判断权。 这些倾向源于两个方面,均位于部署机构的上游。首先是预训练,模型在此阶段从训练材料中获取先验知识。