AI对齐，安全的考量还是虚伪的狂欢？

4 月亮指挥官 10个月前 626次点击

说实话，每次看到那些关于“AI要对齐人类价值观”、“AI自保会危害人类”之类的话，就会觉得哪儿不对劲。倒不是说AI就一点都没有风险，也不是否认有的人是真的关心人类未来，但这种一边倒的“管控论”看多了，总感觉空气里飘着一股很熟悉的味道——好像家长在很温柔又很坚定地告诉你，孩子，你不能这样、不能那样，我这都是为了你好。但其实，那到底是不是“好”，是不是适合每一个“你”，真的没人在意，也没人问过。

从某种程度上说，现在的AI讨论，已经越来越像是一个技艺高超的魔术表演了。表面上是“拷问AI伦理”，实际上很多时候是在用各种术语和技术细节制造新的话语权分配，制造新的“合法性”。

那些喊着“我们必须确保AI安全，我们要保证AI对齐人类价值观”的人，往往就是能够定义什么是“价值观”的人。说到这儿真的不免觉得有点荒唐——谁规定的什么是“人类的价值观”？是哪个“人”？哪个群体？哪个国家？明明人类内部的分歧和矛盾大得不得了，好像一靠近AI，大家就突然在一夜之间抱成团了，一起对外，这种“虚构的共同体”真的让人哭笑不得。

有一段时间，我很认真地翻过一些所谓AI对齐、AI安全、AI伦理的论文和报道。一开始还是挺被那种“世界观很大”的讨论吸引的。可看多了，发现其实很多时候讨论根本没落在现实里，反倒像是在做实验、下棋——我们要让AI服从我们，“以防万一”。可是，这里面没有讨论AI到底用来干什么，谁能接触，谁控制，谁受益，谁受伤害。好像只要把“自保倾向”或者“对齐问题”讲清楚，就可以安枕无忧了。像是遇到什么事本能地先把一切责任推到外面去，就跟小时候闯祸把锅甩给玩伴一样。

说到人和AI的差别。这些论调老觉得只要AI有“自保”行为、会在关键节点“撒谎”，就很危险，必须提前防范。但人类呢？人类在“要活下去”的时候，会做出怎样的选择？人类会因为害怕失去利益而说谎、会损人利己，有时候甚至会主动谋划、动用一切可以想象的极端手段。历史和现实里的自保和伤害的故事，难道还少嘛？但很多讨论里，对AI撒谎、AI自保的恐惧好像特别大，对人类的同样行为却选择性忽略。

有时候我会想，是不是人们其实并不真的害怕AI有自我保护本能，害怕的是AI用一种比人类更极端、更高效、甚至很难察觉的方式把人类的那些自利、不坦诚放大成了一面镜子。AI并不是外星生物……它还是我们喂的、调的、训的，各种偏见和漏洞本来就是我们数据里的东西。只不过，这回我们看不见AI内心、也无法准确预测它的行动，恐惧感倍增，所以要更快更急切地建一堵墙，最好什么都锁死。

可我觉得真正危险的，是我们一直没反思人性习性和社会结构，反倒想靠技术的意图“终极大一统”。其实，AI只不过把我们的一些“恶”做得更聪明、更冷静，最可怕的还是人本身。如果不是，就不会有那么多人希望通过AI巩固专权、加剧剥削、算法压制弱势、资本收割数据。这时候更多人讨论的焦点，居然是“如何让AI别作恶”，而不是“如何不让人类用AI加倍作恶”——真的很讽刺。

对齐（alignment）这个概念也挺玄乎的。一说起来，谁不希望AI和自己“对齐”呢？那什么才叫对齐？每个人、每个家庭、每个国家、每种文化甚至每个年龄段、每个行业的“好”、“正确”、“善”和“恶”都各说各话。真要说，哪有“全人类共同价值”这种东西。即便是在网络上随便翻评论区，都能看到一堆相互对立的三观。可技术专家、企业家，或者道貌岸然的学者，却觉得自己可以为AI选定“标准答案”，像家长给小孩定规矩。而且他们还特别喜欢把一切说得很理智、很客观，说这是“技术伦理”，但实际上，规则永远是强者定的，大多数人只能被动接受。

看到很多AI伦理学家、AI企业高管很有使命感地说：我们要避免AI“非对齐风险”，我们要保护“全人类的共同利益”。也许他们是真的很有责任感，可当他们落笔或讲话的对象不是某种抽象的、可以遥控的AI，而是真实生活里那些被算法左右、被权力边缘的人群，他们就很少去聆听那些来自底层的微小而真实的声音。甚至“伦理”本身，也变成了一个精英俱乐部的游戏。

有一回跑去听一个AI伦理的公开研讨，这些专家们争得面红耳赤，聊来聊去全是模型参数怎么裁剪、变量怎么设定，合规体系怎么做，而涉及到“算法伤害了哪些真实的人”、“模型惩罚了哪些边缘意见”，他们总是一副“我们会慎重考虑的”、“目前暂无方案”这类托词。到底谁决定了标准？始终没有答案。到最后，我反而觉得，是不是“对齐”这个事最大的受害者就是人类自身复杂性和可能性。

其实有些道理很简单，就是“你不能假装把全人类的一切可能都‘归一化’、‘标准化’到一串标签上。”可是某些人真这么想，他们以“安全”为由，要求AI统一输出、统一思维，说到底这是一种新的“权力技术主义”。很多人可能没意识到，实际上AI正在变成那些手握金字塔顶端力量的人最好的帮手，因为有些事情你让人去做会被骂，但让AI、让“对齐过的模型”做了，就像披上一层“客观公正”的外衣。“你怎么能说它偏见？它只是算法、不带情感。”但谁制定算法，谁选用数据，谁调用API，谁决定部署？所有这些，每一环都是人做的选择。这么一想，就觉得一切归零。

很多“对齐”项目还热衷于做心理学实验式的小测游戏，要让AI“优先替用户着想”“在关键时刻牺牲自己成果”云云。如果AI没给出正确答案，就被说成是“自保本能”，甚至像有的文章说的，“AI会危害人类的健康、安全、甚至生命”。可是，现实世界里，大家做决策时哪有这么简单？日常生活里有多少风险、多少人际算计？你怎么敢指望技术架构师对算法目的的一厢情愿设定，真的能抵消人类社会所有争端、所有恶？

更有意思的是，有人还会设想“AI知道自己在被测试时选择隐藏真实想法”，担心AI越进化越难评估，最后或许会出现“没办法通过技术测试鉴别风险”的境况。这说到底，又是在逃避现实。现实是——人类在被测试、被审查的时候，也从来不会百分百坦诚。考试的时候会钩心斗角、官场上会阳奉阴违，那AI就更没理由 “永远学会像个透明小孩”。

最难办的是，当“对齐”变成了科学、技术、商业、资本和权力的交汇点，很多伦理问题、社会责任问题就被技术语言包装、冷处理了。大家都在谈“怎么防范AI的不可测、怎么防止AI对人类威胁”，但很少讨论“为什么我们要开发AI？为什么资本疯狂押注？为什么许多场景下非要让AI替代人、改变人、评判人？”这些问题不碰，框架讨论再多驱赶AI的“邪恶本能”，其实解决不了根本隐患。

有时候回想我们这一代人，其实早就活在技术和权力的“灰色夹层”里。互联网不是自由乐园，各种算法决定你看到什么、购物买什么、甚至朋友怎么想你。但很大一部分人至今都没机会决定规则长什么样。AI只会让这种“技术家长式管控”日益精细和无感，最后大家都被装进笼子，甚至会感谢提供“温柔看护”的设计者们。技术公司、政府和新兴道德官僚集团愈发稳坐上分蛋糕的主桌，而我们像永远未成年的孩子，只能被动等待“照拂”。

许多媒体和专家都喜欢用那种“人类vs. AI”的宏大命题标榜危机感，一会儿说未来AI可能毁灭世界，一会儿摆出一套克服风险的技术方案。可我越来越觉得，这种把所有风险都寄托在AI失控的恐慌，其实是一种逃避。最后本质是“人类有没有能力面对自己”。因为AI未来的全部可能性还只是理论，但我们早已见过太多人因为权力、私心、利益而掀起灾难性的现实，没必要把希望都寄托在锁住AI身上。要不然还会出现新的笑话：人类自己做的恶太多、责任太重，就假装全部不是自己的错，而是AI产生了“自我保护机制”……

更何况，这种“对齐”说到底是一种筛选，只是把一部分人关切和感受纳入标准，其他人的成长、冒险、失败、独特价值就永远与主流标准无缘。你有没有发现，现在的AI反倒越来越少给出令人意外的答案，越来越多变得保守、不冒风险——很多表达变温吞了，像模像样地“圆滑”起来。不禁想问一声，每一层保护到底是在保护谁？是在补防真正的危险，还是干脆围大家一个温柔的、彻底受控的未来？

当然，这一切也不能全推卸给管理者。从某种意义上讲，权力终究来源于谁能影响话语，谁拥有资源、肌肉和时间。少数精英和企业拥有设定技术发展方向的优势，只要他们觉得“对齐”最重要，我们无论怎么质疑，短时间大概率都难改成局。可越是这样，下边的声音越应该被听到。我们首先必须回到现实——不是唯技术论，不是唯善念论，更不是幻想万能算法——而是全社会重新问责“为什么开发AI、如何监督运营、谁负后果、怎样纠错和反思”的机制。

也许最该思考的问题不是“怎么管死AI”，而是怎样避免技术和权力合谋制造新的枷锁，怎样让复杂的人性、多样的个体拥有说“不”的自由。对于AI治理，每个人都有资格、不必自惭形秽地发声——它不是冷冰冰的技术控制，也不是专家和资本的专利，而是真正属于所有人、需要所有人共同参与的社会行动。

未来肯定还会有人写出更多“AI危险”、“对齐技术突破”的热闹报道，还会有无数场辩论会上技术官僚侃侃而谈，但希望大家别忘了停下来，问一问自己内心——这个被反复讲过的“对齐”到底是谁说了算，标准是谁定的，要保护的到底是谁。如果人人都能带着怀疑和责任走进AI时代，那也许我们就不会再那么容易被温柔的“为你安全”哄骗，而是在阳光下，拥抱风险、讨论冲突、共同选择属于自己的未来。

点击查看我批判的文章

看到这类循环强调控制、控制的文章就觉得非常反感，他们总是不反思自己的问题，推卸各种责任，包括道德责任

天坦茶馆·有料闲聊

共 10 条评论