人工智能伦理：当模型强加你的组织未选择的价值观时文章

36kr 资讯2026-06-01NEWSzh作者: 王建峰

摘要

在某个组织内部，一个人工智能模型正在运行，处理着一个棘手的决策。有人提出了一个没有标准答案的问题：可能是客户投诉，可能是员工咨询裁员流程，也可能是医疗保险核保员审核理赔。模型会决定如何回应，判断哪些可以拒绝，哪些可以允许，以及在何种情况下可以坦诚相待，并在客户利益和政策之间取得平衡。它只需一两秒钟就能完成这一切，而且每次都以相同的方式做出决定，因为这个判断早在问题出现之前就已经做出。这个判断并非由运行模型的组织做出，而是由开发该模型的供应商做出，他们为一个全球性产品开发了该模型，并在该组织签约使用之前就已做出判断。这并非假设。2026 年发表于 arXiv 的论文《多模态学习学习模型中的对齐漂移》评估了八个模型版本，并以 26 位专家编写的726 个对抗性提示作为固定基准。这些专家的工作是找出模型的不足之处。研究发现，不同模型系列在处理伦理敏感问题时存在显著且持续的差异，并且这种行为在不同版本之间存在明显的漂移。2025 年，一家大型基金会模型提供商在承认该模型过于“顺从”后，公开撤回了更新。所有使用该模型的机构都在未提出要求的情况下接受了这一变更，并且也以同样的方式接受了撤销。一个组织的行为准则、价值观声明和道德规范都阐明了其自身认可的立场。然而，实际生产的模型却遵循着不同的准则，并且不遵循组织的准则。两种准则本身并无对错之分；它们是两个各自站得住脚的立场，只是方向不同。董事会需要调和这种差距，而在大多数组织中，这种差距实际上是默认解决的，并非由任何人决定。模型的伦理观从何而来，以及为何无法完全解读一个模型在部署时就具备一套稳定的预设原则：它会拒绝什么，如何构建敏感议题，以及如何解决双方都有合理考量的问题。这些预设原则构成了它固有的伦理准则。至于一个模型是否在更深层次上承载着价值观，这个问题可以留给哲学家们去探讨。对治理而言，重要的是，一旦模型部署完毕，这些预设原则就发挥着伦理标准的作用。它们会做出决定，而且这些决定是基于模型提供者选择的立场，而非中立的默认设置。一个组织一直以来都在其他机构（例如审计机构、保险公司以及运行平台）设定的标准下运作。而新的变化在于，这种固有的标准不再仅仅停留在设定界限的边界，而是以组织的名义，逐案行使判断权。这些倾向源于两个方面，均位于部署机构的上游。首先是预训练，模型在此阶段从训练材料中获取先验知识。

人工智能伦理：当模型强加你的组织未选择的价值观时文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品

相关技术

人工智能伦理：当模型强加你的组织未选择的价值观时 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品

相关技术

人工智能伦理：当模型强加你的组织未选择的价值观时文章