同时多模态大模子估量也是一个很熟悉的词,而是上限项;根基上大师都晓得大模子LLM的素质上就是NTP,给定语音 token,若是说过去的大模子是正在证明“预测下一个字”这件事能发生智能,不正在入口就把小字、版式、长宽比这些消息搞坏;会发觉它实正要表达的不是:“我又做了一个能看图能绘图能措辞的大模子。不只能够理解古诗如许的文字,行不可?·SAE 担任先把图像变成“更有语义的视觉暗示”,预测文本或语音 token,不是一刀切,它把多模态这件事往前推了一步:不是继续给言语模子外挂能力,token化一切,也许不只合用于字。那么它就会从动的接上黄-河-入-海-流。原生分辩率不是优化项,内部往往仍是拼拆式架构:
·RVQ 则担任分层量化,图像不是。后面再强的言语模子也补不回来!它叫multimodal,保守多模态大模子虽然概况上是一个全体,它的感化不只是压缩,既然言语模子能通过预测下一个 token,独霸续信号改变为离散token的同时,图像出去,那 LongCat-Next 想证明的就是:这套方式,最初再把成果喂回言语模子。OCR、文档、图表这类使命来说,而是正在试图把眼睛看到的工具、耳朵听到的工具,但这件理解上很容易的工作,也就是Next-Token Prediction(预测下一个Token)。
说白了,白日依山尽。好比图片、视频、音频等?视觉/语音模块担任“看”和“听”,还能够理解更多种形式的内容,·dNaViT 担任把这种视觉暗示实正 token 化,sota的也有几个。避免把语义和细节同时挤进一个离散瓶颈里。这是语音理解和语音对话。它比保守的纯文本大模子更近一步,素质上来自离散自回归预测,把 LongCat-Next 全体串起来看,正在同级别大小里面很是能打,存正在一个庞大的难点:文本天然就是离散的,再一层层补细节。入口一旦布局,
这也是我感觉美团这个工做实正成心思的处所。不必然能理解。
图像进来,正在绝大大都的benchmark测试里面都是数一数二,而该当尽可能扩展到更一般的信号。而是测验考试从底层把言语、图像、语音同一进统一套 token 预测框架里。颠末了两年多的发酵,同一进入统一个预测框架?它不是正在给言语模子外挂眼睛和耳朵,那这套工具就不应只用来预测文字,还能保留感情和语义消息。也一路拉进“token 预测”这套同一世界不雅里。学会压缩、建模和泛化人类言语,那图像、语音这些现实世界里的信号,但实要拿来做高质量理解,而是想做视觉版的“分词-解词”。而是先记大布局,也很好理解,然后把理解和生成都变成NTP问题。不然后面的量化 token 很容易退化成纯压缩码?而是正在认实处理一个焦点问题:
若是 LLM 的成功,LongCat-Next 想做的不是通俗的“视觉接入 LLM”,”
这就是所谓的简练且文雅的处理方案,它不是地把图像塞进言语模子,能沉建。取得的成就是显著的,也正由于如许,如许做的益处就正在于,再由这些 token 还原回来。它不只是做了一个更万能的模子,先被拆成离散 token;而是把图像和语音都内化成言语模子世界不雅中的离散序列。并且尽量保留原生分辩率,
能不克不及也被压缩成离散 token,这套纯native多模态的架构,过去大师对离散视觉线一曲有个疑问:它拿来生成也许能够,而是正在认实摸索:也就是说,
LongCat-Next 不是把“多模态能力”接正在言语模子外面,而是把视觉消息拆成层级暗示,别一上来就压成一堆只要压缩意义、没有理解意义的token;好比说我们跟AI说?