2705 字

AGI禁令

研究所周五转发了NIH的一个通知,说是出于保密要求,不得允许基金评审人使用任何人工通用智能(AGI)生成的工具进行项目评审,同时要求所有评审人重新签相关的同意书。我看着这邮件就想笑,终于还是来了禁令,但这个禁令有多大效力我没有任何信心,这就好比互联网刚出来的时候要求评审人不得使用互联网资源作为参考,毕竟互联网内容也属于用户生成内容,也存在真假难辨的问题,而且搜索引擎公司也是知道哪些词被搜的多或搜的少的。

现在担心AGI的大概率当年也担心过互联网泄密,注意这里担心的是泄密,而不是模型本身。技术应该是中立的,AGI的训练确实需要一些可能有知识产权保护的材料,但这里有个小悖论,如何确定知识产权。打比方我写了篇博客引用了一句古诗,那这句算谁的产权?当然古诗已经进入公共领域知识了,如果我引用的是当前出版物中的一句表述呢?如果我恰好写错了一个字,导致原有表述意思变了被另外一个人发现并传播出去了呢?很多时候我觉得知识产权这东西是不存在一个硬性边界的,尝试对这种模糊概念进行确权本身就是可笑的。如果不牵扯经济利益,保持模糊性对新思想是有利的,因为谁也不想在说句话时去查一下有没有早就说过了,然后加个引用,这样日常交流就变成学术考据了。不过,这对所谓专业人士而言就要刨根问底了,搞清楚来源有利于量化贡献,方便后续标准化操作,这是现代分工社会的运行基石。现代社会只要还使用一般等价物这个概念,那么知识产权就永远是个议题。

这里核心问题在于经济系统与知识系统的矛盾。知识的传承一定是伴随发现、凝练、流传、再发现的过程的,为了传播一系列信念,人们甚至创立了宗教并假定神不在乎知识产权,神的旨意就要传播出去。但从经济系统来看,知识会产生价值,那么其价值就要有所归属,进一步讲,知识的收益就要天然归属于创作者。那么我想问一下,《圣经》或《古兰经》的作者是谁?为什么没看到他们后人索要版权分成,反而是出版公司在获取收益?这里可以反驳,知识产权是有时效的,过了时效就归属全人类了,出版公司再版的收益是一个组织排版加工的过程,这里面也产生了新价值。不过,我想不通一本20年前的《论语》跟今天刚印出来的《论语》从读者角度究竟新价值有多少?这里面是不是在偷换概念,买书人买的是书的内容价值,但卖书的标榜的是书的形式价值,这两个对不上啊。

其实无所谓,经济系统就是为了价值流通,至于是不是等价交换这本来就是伪命题,我出100元买音响看重的是体验,商店卖100元是通过进货价、人工、房租加上行业预期利润进行定价,这两块价值本来也不是一个东西,只是说在经济系统里默认交易过程时等价而已。商店的那个价值是整个陌生人构建的经济系统认可的标尺,也是现代社会标准化的基石,必须要有量化体系,才能做到陌生人间的公平,不至于系统崩溃。

不过,一旦经济系统进入知识领域,定价就很困难了。有的时候是你不知道谁是所有者,有的时候是无法对某个知识进行市场化交易。前者经常发生在交流平台上,很多文章有版权,但下面读者评论有时候更有价值与参考意义,这时候就说不出谁白嫖谁了,没有文章就不会有评论,但评论又会产生新知识。后者就更常见了,我有个秘方,代代相传,吃了就能成为长跑世界冠军,那么这配方值多少?长跑世界冠军又值多少?起码对我一文不值,因为秘方内容写着吃龙肉。如果知识没有一个陌生人间的交易市场进行定价,那么知识产权可以非常贵,也可以完全不值钱,这就是现代经济系统最不能容忍的地方。

AGI实际上就是冲击了这个经济系统与知识传承系统的矛盾点。AGI模型的训练用到了先前人们的智慧,同时也可以产生一些当前人意识不到的解决方案或思路,此时经济系统里就全是定价问题。训练设计这个模型的人应该得到报酬,提供数据的人也应该有报酬,使用数据的人要付费,这就是最简单的经济模型。但当前的问题在于使用数据的人也可能成为提供数据的人,从而存在泄密风险,同时训练出的模型其实不敢保证里面内容是真实的,毕竟我们都见识过ChatGPT的胡说八道,这样看起来禁用是合情合理的。

不过从常识上说,禁用一个可能生成有用资料的工具没多大意义。这个模型本身就是在模仿人的学习过程,人的学习其实也是从过往经验里提取精华再应用,只是之前模型学的效果比不上人,现在至少分辨不出来了。正是因为分辨不出来,所以我觉得禁令意义不大,因为你只是想通过禁令来保证你得到信息是高质量的,但如果基金评审人使用了AGI,他自己也分辨不出来,那不恰好展示了当前评审人的水平了吗。认同禁令的人一定还认为专业人士的意见更有参考性,完全没想过自己找的专业人士其实在前沿领域也不那么专业才会用AGI,这个禁令如果是认为质量不够其实是站不住脚的,只要你还要依赖人来评审,那么人就充当了AGI的过滤器,胡说八道应该是能看出来的。你现在出个禁令说因为胡说八道不让用,潜台词是说之前的评审人可能连胡说八道都分辨不出来,这样的评审人是不是换成AGI更合适呢?起码AGI的胡说八道我们有预期,不专业评审人的意见可是百花齐放。

至于说泄密,其实跟使用是两件事。如果我们用来询问的问题会泄密,潜台词在于这些内容会被用来训练商用模型,泄露了含有知识产权的内容。这点也有可能,但跟AGI没关系啊,我完全可以用当前开源的大语言模型训练一个公益性模型,设置全都开源且设定为不使用用户数据,起码全球也得有几万程序员能看懂设置的那种,这样就不存在泄密问题了。商业公司出于自己利益考虑就算说了不用用户数据,你也很难说服所有人相信没用,开源模型架构后就不存在这个问题了,这点马斯克开源了twitter的代码就起了个好头。这里要说明的是开源从来都不代表免费或不能盈利,拥抱开源后该收费收费,也可以搞些创新的商业模式。当然可能会有竞争对手,但我一贯认为没有或弱技术壁垒的市场里市场规律才能发挥最大调节作用,一家独大的市场很容易出现垄断市场的巨头,这通常会最终引发经济危机。如果不想放弃商业利益,最后大概率会被政府接管,我很难想象哪种政府会乐意某个企业垄断市场,这会最终挑战政府公信力,毕竟硅谷巨头们都在国会山过过堂。

因此,NIH这个新规定注定会被时代碾碎,对于新生事物的抵制历史上发生过无数次,要是没有抵制反而不正常了。这种行政禁令基本都是落后时代的,当我打出这句话时,我又想到了月初在休斯敦时那个认同拥枪的人也说过类似的话,枪是无害的,有问题的是人。枪怎么也算不上新生事物了,我确实赞同控枪但不赞同对AGI的禁令,从技术中立角度看起来我也是个双标爱好者。不过无所谓,我脑子里打架的东西也不差这一对了,要是打算做一个完全自洽的人,那我八成会是个暴徒:突突突,你们这些异教徒!!!