有关大模型的一点思考推导（二）

参数，蚁群，大模型

大模型跟蚁群有很多相似之处：

蚁群：

会因为吃的东西不同，基因虽然一致，但个体分化成：蚁后、兵蚁、工蚁
也会因为有特定任务，产生雄蚁这种DNA减半，只负责受精，生命短暂的特种蚁

大模型：

因为训练数据和微调不同，产生不同的有领域侧重的通用模型
也可以通过知识蒸馏/剪枝/遗忘等各种方法，减少参数规模，产生特定领域的“小模型”

相同基因的蚁群之间，会有种内竞争，争夺相同食物和地盘
不同基因的蚁群之间，会有种间竞争，形成不同生态位

架构，商业、云边端

Google、微软、meta、openAI、apple等企业，在大模型领域，已经呈现出AI的三种形态：

云：通用大模型，通过API对外服务
边：在企业和工业场景，私有化部署大模型，数据隐私和安全是核心要求
端：在智能手机、智能汽车等终端，部署参数更少的“端模型”，降低能耗和设备性能要求，实现离线AI，应对个人助手、娱乐、与云+边交互等任务

架构上看，模型的训练和推理，会分开更彻底，集中训练，分布推理

大模型底座的机会，将会被极少数大公司吃掉，他们具有算力、操作系统、人才等各种优势
在推理侧，也就是大模型的“runtime”这一侧，会有更多商业机会
制造“大模型”，会高度集中和不惜成本；使用“大模型”，会考虑更多规模下的性价比

商业上看，机会属于不同资源禀赋的企业

云：属于极少数大模型“生产商”，供给决定消费
边：属于集成商和行业龙头
端：端模型/小模型，机会属于掌握终端入口的大企业，如手机、车、路由器等

TFM还是PFM

王小川说大模型还是技术匹配市场（TFM）的阶段，谈商品化还有点早，这是个演进阶段的问题。

这是一个好的说法，可以细化成两个部分：

1、技术匹配场景：不是拿着大模型去找场景，而是从场景推动大模型迭代
1.1、以智能手机上的端模型为例，

硬件限制：要求端模型能耗要低，能力不能太弱，推理要快，能离线使用
大模型迭代方向：参数规模小，可增加NPU/TPU等特殊芯片，模型可更新，推理成本要低
1.2、以车联网上的端模型为例，
场景限制：车载系统可以理解为两个部分，一是跟车辆驾驶相关实时操作系统，涉及行车安全，要求处理速度极快，瞬时处理数据能极高，也就是上下文可能很长，硬件基本不会更新（一款新车的规划设计周期大概是3-5年，硬件可能出厂就落后，也不会迭代）；二是娱乐相关系统，大致上相当于智能手机，硬件可以更新
大模型迭代方向：驾驶相关的部分，能耗不是第一位，推理速度是第一位；娱乐参考手机

2、产品匹配市场

在工业互联网，大模型的使用，难度在于部署测试的周期很长，且不能中断生产。以冶金为例，存在通过模拟冶炼过程，调整用料、温度和其他流程参数，优化能耗和成品率的可能性，这时候需要的产品，是旁路的，不中断冶炼过程采集分析数据，同时又能接入各类工业传感器和控制器，能调整流程的产品。以前，常常是一个“盒子”，大模型时代，可能会是一个局域网中的计算中心方案。

对于集成商来说，也会存在一个改造企业传统网络架构，增加大模型应用能力的市场，这要求提供能利用企业已有算力和网络架构的大模型产品，也就是要求：

不能依赖高性能GPU，可使用CPU等算力
可以在局域网使用等

也存在一个传统算力中心向大模型推理算力转型的改造市场，以前的大数据中心，有很多CPU算力，即使是地方的小机房，甚至是部署在办公园区的小机房，都有边缘算力闲置，可以利用起来作为推理算力使用，跟PCDN的逻辑一致

大模型的范式迁移

范式迁移是个不好理解的词，抱歉暂时没有想到其他合适的，从上面的分析，大模型在技术上的演化，有这样一些趋势：

训练推理分离，训练算力集中，推理算力分散
大模型的能力与参数规模成正相关，规模会越来越大，训练算力会高端化更严重。推理算力要求性价比更高，这里与参数规模增加趋势有冲突。所以模型在训练时，可接受一定程度的时间和算力要求呈指数增长，但在推理使用时，指数增长是不可接受的，最好是线形增长，非transformer类的模型会有范式迁移的机会

关注RWKV之类的模型，推理成本越低，在端模型时代越有机会

标签：无