大语言模型坤年记 - Miao Yu

自从chatgpt发布已经一坤年，虽然坤这个计量单位比较随意，但放眼宇宙，拿自己的行星年来衡量全宇宙时间似乎也差不多。所谓纪念日，不过是人类过家家的孩子气行为，那么选什么计量单位其实无所谓。例如，我建议每个人都去庆祝自己的万日生日，你大概率只能在27岁、54岁与82岁庆祝三次，大体对应一个现代人成家立业、中年危机与入土为安三个阶段，虽然绝大多数人长了十个手指，但就是懒得数一千次手指。

这一坤年基本可用五个四字短语来描述：一家独大、百家争鸣、大浪淘沙、一骑当千、分工流水。Chatgpt出现前就已经有很多大公司押注人工智能，当时在深度学习的大背景下，图像处理是最早卷出圈的，彼时国内AI四小龙全是做计算机视觉的，大国叙事里人脸识别也是遥遥领先。但Chatgpt出现后，“生成式”三个字作为定语加在了人工智能上面，而自然语言处理的公众关注度也一下暴涨。不过其实22年下半年，文生图那边stable diffusion模型更符合生成式模型的定义，从噪音里不断去噪生成图像，而transformer构架模型更贴近完形填空的概念，需要上下文指导提示来生成。当然无论如何，在22年年底往后相当长的一段时间，OpenAI就是一家独大的，也大概那个时候，大公司突然意识到大语言模型的重要性，纷纷囤卡炼丹，整个23年下半年到24年上半年，各家第一批丹出货。但OpenAI那个时候已经出了GPT-4，各家新练出来的丹表现也许不错，但跟GPT-4比也就Claude在编程上好一些，大浪淘沙下其实选择并不多。不过此时国内因为用不了海外服务，反而出了不少流行的国产大模型，豆包跟kimi属于能见度比较高的，后者在广告上的投放应该非常可观。不过这个阶段，大模型的宣传语上已经为后来的趋势指明了方向，例如有的宣传可以处理长文本，有的说自己有多模态啥的。但就用户而言，此时大语言模型的主要用户可能还是程序员跟学生，所谓的出圈更多指的是新闻上可见。

24年底推出的DeepSeek可以说一骑当千。很多人认为DeepSeek的大流行是因为表现不逊于主流模型，但其实最核心的原因是开源。前面说的大厂模型几乎都走闭源路线，meta推出的llama跟阿里的qwen在开源大语言模型社区虽然流行，但因为表现相比云端模型有差距一直属于玩具状态。DeepSeek其实在V3发布前的V2在很多程序员那边就已经是本地的外挂了，V3的表现刚开始热度一般，训练成本低也是社区早就知道的了，但R1发布后情况就变了。这里有个小背景，OpenAI在24年推出o1推理模型，因为一开始只对付费用户开放，所以讨论度有限，但当时就已经出现开源复刻了，最简单的版本就是用提示词引导大语言模型进行多轮思考，而推理模型也可以大体看成模型先自言自语搞辩证思考，然后输出答案，相当于多轮对话，这也是为啥token消耗量会暴增，思考部分其实就替代了用户端的反复追问。而推理模型在R1发布那个时间点属于高端货，结果DeepSeek不但开源了自己的R1，还跑去蒸馏了很多小模型，开源用户瞬间吃上了细糠。而开源的另一个优点在于技术平权，24年底到25年初几个月，互联网上出现了大量本地部署R1或蒸馏版R1的需求，开源出的模型本地部署消解掉了很多潜在用户的隐私顾虑并提供了对模型的掌控感，很快从政府到个人都开始自己部署模型的尝试。应该说在DeepSeek之前大语言模型不被广泛应用的一个重要顾虑就是数据隐私与模型表现，开源模型可以保证本地部署的隐私，但在R1之前的表现比云端模型还是有明显差距，现在有了R1，世界上不知道多了多少个角落在跑着各种稀奇古怪需求的本地模型。

不过有一说一，我的使用体验是R1幻觉比较重，有点神经质，V3好一些。而且经过年初的本地部署浪潮，大公司纷纷感受到了危机，毕竟原来这些本地模型都是烧他们API的token的，现在相当于换新能源了。25年初开始，各大厂明显开始发力，而这一轮的重点已经不再是全能型单一模型了，大语言模型一个打十个的古典英雄主义时代已经过去，属于人工智能的分工时代降临了。其实这个苗头很明显，OpenAI炼出GPT-4后GPT-5一直难产，我推测不是他们消极怠工，而是炼出来的几锅丹药不是幻觉严重就是原地返祖，要么是模型构架需要革命，要么就是可以用来训练的数据已经不多了。虽然基础模型上大家的表现相对停滞，但应用市场的反馈其实已经给出了当前版本答案，那就是分工协作。百家争鸣时期，各家的宣传语其实已经有了暗示，甚至MoE的模型架构也从另一方面给了暗示，那就是各家模型开始在自己的小生态系统里找生态位了。

生态位是个神奇的概念，最初见到是在大学学生态学时，当时我绝没想到这个词后来竟然在商界这么流行。当时我理解生态位就是食物网里大家各自找到自己擅长捕食的那一块，这样互相之间少一点杂食性竞争，多一点井水不犯河水。在大语言模型这边，虽然研究侧可能还是想炼全能金丹，但市场侧则发现自己必须有点一技之长才能拿到后面炼丹的柴火。目前看下来，大语言模型的分工应该是“六艺”：编程、推理、多模态、记忆力（长上下文）、端侧与实时。以后我们可能不太容易看到新的全能英雄模型出现，但这六艺只要有一样突出就有明显的市场。编程不多说，cursor或copilot的付费用户体量说明一切；推理其实跟深度研究功能是紧密相连的，需要多轮反馈，这对从事文字工作的人也属于加特林级别；多模态则是照顾那些非文字数据，也是训练下一代模型的孵化器；记忆力对于所有基于agent的应用场景都很重要，RAG也可看作一种记忆；端侧则是部署在本地或机器上的简易交互模型，智能家居摆脱按钮全靠麦克风就要依赖这样的本地模型；实时则是对响应速度要求比较高的场景，例如翻译、会议总结等。其实这六艺也可以结合使用来应对更复杂的场景，不过当前可以说每一样都已经可以赚钱了。

这个分工并不适用于人，因为每一个分工场景里大语言模型都已经超过了人类普通水平或者其产物做图灵测试很难断定是专家还是大语言模型。你招不到一个熟悉各种编程语言的工程师，招不到一个几分钟就能生成一份质量过得去的报告的文员，招不到一个精通各种风格的画师，招不到一个对你特别了解的助理，招不到一堆围着你转的小仆人，也招不到能听懂各国语言的实时翻译。这些都是肉眼可见可被替代的行业或新需求，当然人的角色依然重要，就像即使塑料在绝大多数方面都优于纸与玻璃，人们依然会认为塑料代表了某种廉价感，这种廉价感对大语言模型生成的内容依然会有效。预制菜就算再好吃，也总有人会认为锅气大厨的私房菜全面碾压，但技术平权从来都不会在意这些廉价评价，你得先让大多数人吃到那些平素里被专业壁垒或价格壁垒隔离的菜再说，也得承认当前社会分工给某些职业的光环其实并不存在。举例而言，过去十几二十年程序员与公务员的红利太明显，而在一个人人都会编程写报告的年代，这部分职业溢价就应该自然消退。但不妨碍还是有过来人劝你刻舟求剑，此时要多去关注每一个职业要解决的问题与场景，只要问题与场景还在，职业就在，如果问题已经可以被廉价解决或者产生问题的场景没了，那么这个职业就会自然消亡。

要知道大语言模型虽然有分工，但其本体至少也是GPT-4的知识储备，已经强过普通大学生甚至研究生了，此时高校的专业设计可能要更侧重问题端了，不然产出的学生知识量比不上大语言模型，主动处理识别实际问题又没有训练就尴尬了。大语言模型走向分工协作其实是预示了人的训练要走向全能个体，不是说人要全能，而是有使用人类知识共同体的能力，大语言模型也是其中的一部分。越是面向场景与具体的问题，人的能动性优势就会更体现出来，当然，这也只是一个阶段，能不能持续10000天都不好说。

当前技术背景下，历史明显变短了，几周前的先进技术到今天可能就已经过时了。然而社会上并没有学校可以提供如此短周期的历史回顾，甚至有些阶段我们还没来得及回顾，下一阶段就又结束了。不过也不必惊慌，人的问题始终需要人来解决，放弃一点不必要的掌控欲，人工智能终归是好东西，与其说被担心抢了工作，不如说被担心抢了工资，但如果人工智能在技术平权下降低了生活成本，每个人可能会多一些自由的时间。

当然，现代社会规训下的现代人会不会享受生活，那就是另一个大语言模型也不好意思说的问题了。