参数,蚁群,大模型

大模型跟蚁群有很多相似之处:

蚁群:

  • 会因为吃的东西不同,基因虽然一致,但个体分化成:蚁后、兵蚁、工蚁
  • 也会因为有特定任务,产生雄蚁这种DNA减半,只负责受精,生命短暂的特种蚁

大模型:

  • 因为训练数据和微调不同,产生不同的有领域侧重的通用模型
  • 也可以通过知识蒸馏/剪枝/遗忘等各种方法,减少参数规模,产生特定领域的“小模型”

相同基因的蚁群之间,会有种内竞争,争夺相同食物和地盘
不同基因的蚁群之间,会有种间竞争,形成不同生态位

架构,商业、云边端

Google、微软、meta、openAI、apple等企业,在大模型领域,已经呈现出AI的三种形态:

云:通用大模型,通过API对外服务
边:在企业和工业场景,私有化部署大模型,数据隐私和安全是核心要求
端:在智能手机、智能汽车等终端,部署参数更少的“端模型”,降低能耗和设备性能要求,实现离线AI,应对个人助手、娱乐、与云+边交互等任务

架构上看,模型的训练和推理,会分开更彻底,集中训练,分布推理

  • 大模型底座的机会,将会被极少数大公司吃掉,他们具有算力、操作系统、人才等各种优势
  • 在推理侧,也就是大模型的“runtime”这一侧,会有更多商业机会
  • 制造“大模型”,会高度集中和不惜成本;使用“大模型”,会考虑更多规模下的性价比

商业上看,机会属于不同资源禀赋的企业

  • 云:属于极少数大模型“生产商”,供给决定消费
  • 边:属于集成商和行业龙头
  • 端:端模型/小模型,机会属于掌握终端入口的大企业,如手机、车、路由器等

TFM还是PFM

王小川说大模型还是技术匹配市场(TFM)的阶段,谈商品化还有点早,这是个演进阶段的问题。

这是一个好的说法,可以细化成两个部分:

1、技术匹配场景:不是拿着大模型去找场景,而是从场景推动大模型迭代
1.1、以智能手机上的端模型为例,

  • 硬件限制:要求端模型能耗要低,能力不能太弱,推理要快,能离线使用
  • 大模型迭代方向:参数规模小,可增加NPU/TPU等特殊芯片,模型可更新,推理成本要低
    1.2、以车联网上的端模型为例,
  • 场景限制:车载系统可以理解为两个部分,一是跟车辆驾驶相关实时操作系统,涉及行车安全,要求处理速度极快,瞬时处理数据能极高,也就是上下文可能很长,硬件基本不会更新(一款新车的规划设计周期大概是3-5年,硬件可能出厂就落后,也不会迭代);二是娱乐相关系统,大致上相当于智能手机,硬件可以更新
  • 大模型迭代方向:驾驶相关的部分,能耗不是第一位,推理速度是第一位;娱乐参考手机

2、产品匹配市场

在工业互联网,大模型的使用,难度在于部署测试的周期很长,且不能中断生产。以冶金为例,存在通过模拟冶炼过程,调整用料、温度和其他流程参数,优化能耗和成品率的可能性,这时候需要的产品,是旁路的,不中断冶炼过程采集分析数据,同时又能接入各类工业传感器和控制器,能调整流程的产品。以前,常常是一个“盒子”,大模型时代,可能会是一个局域网中的计算中心方案。

对于集成商来说,也会存在一个改造企业传统网络架构,增加大模型应用能力的市场,这要求提供能利用企业已有算力和网络架构的大模型产品,也就是要求:

  • 不能依赖高性能GPU,可使用CPU等算力
  • 可以在局域网使用等

也存在一个传统算力中心向大模型推理算力转型的改造市场,以前的大数据中心,有很多CPU算力,即使是地方的小机房,甚至是部署在办公园区的小机房,都有边缘算力闲置,可以利用起来作为推理算力使用,跟PCDN的逻辑一致

大模型的范式迁移

范式迁移是个不好理解的词,抱歉暂时没有想到其他合适的,从上面的分析,大模型在技术上的演化,有这样一些趋势:

  • 训练推理分离,训练算力集中,推理算力分散
  • 大模型的能力与参数规模成正相关,规模会越来越大,训练算力会高端化更严重。推理算力要求性价比更高,这里与参数规模增加趋势有冲突。所以模型在训练时,可接受一定程度的时间和算力要求呈指数增长,但在推理使用时,指数增长是不可接受的,最好是线形增长,非transformer类的模型会有范式迁移的机会

关注RWKV之类的模型,推理成本越低,在端模型时代越有机会

标签:无

评论已关闭