你的位置:九游娱乐(中国)网址在线 > 新闻 > 🦄九游娱乐(中国)网址在线该责任在业内已引起一定柔顺-九游娱乐(中国)网址在线

🦄九游娱乐(中国)网址在线该责任在业内已引起一定柔顺-九游娱乐(中国)网址在线

新闻

现存的视频生成模子,大多依赖话语或标签数据学习常识,很少触及纯视觉信号的学习,比如 Sora。 但是,话语并不成捕捉真正天下中的统共常识,举例,折纸、打领结等复杂任务难以通过话语清亮抒发。 那么,模子能否不依赖话语模子,从纯视觉视角学习常识、默契天下进而掌抓推理和策动等智力? 当今,豆包大模子团队合伙北京交通大学、中国科学本事大学忽视了VideoWorld。 这是一种通用的视频生成模子,无需依赖话语模子存在,便可调和履行贯通和推理任务。VideoWorld 应用一种潜在动态模子(Latent

详情

🦄九游娱乐(中国)网址在线该责任在业内已引起一定柔顺-九游娱乐(中国)网址在线

现存的视频生成模子,大多依赖话语或标签数据学习常识,很少触及纯视觉信号的学习,比如 Sora。

但是,话语并不成捕捉真正天下中的统共常识,举例,折纸、打领结等复杂任务难以通过话语清亮抒发。

那么,模子能否不依赖话语模子,从纯视觉视角学习常识、默契天下进而掌抓推理和策动等智力?

当今,豆包大模子团队合伙北京交通大学、中国科学本事大学忽视了VideoWorld。

这是一种通用的视频生成模子,无需依赖话语模子存在,便可调和履行贯通和推理任务。VideoWorld 应用一种潜在动态模子(Latent Dynamics Model,LDM),高效压缩视频帧间的视觉变化信息,权臣普及常识学习效率和成果。

最终,VideoWorld 在不依赖任何强化学习搜索或奖励函数机制前提下,达到了专科 5 段 9x9 围棋水平,并大约在多种环境中,履行机器东说念主任务。

该责任在业内已引起一定柔顺。

� � 上的 AI 畛域大 V、科技商酌网站 ReadMultiplex 首创东说念主 Brian Roemmele 以为:

这是机器东说念主学习和推理的紧要进步。

论文作家则暗示,尽管真正天下视频的生成和泛化仍存在很大挑战,视频生成模子不错成为一种通用的常识学习形貌,并充任在现实天下中想考和行径的东说念主工大脑。

咫尺该技俩代码与模子已开源。

仅凭"视觉",就能学习复杂任务

就像李飞飞磨真金不怕火 9 年前演讲中提到"幼儿不错不依靠话语贯通真正天下"一样,在当然界中,大猩猩和其他灵长类动物主要通过视觉不雅察来学习遑急技巧,如觅食和外交互动。东说念主类婴幼儿相同不需要话语便不错贯通周围环境。

那么,东说念主工智能模子能否仅通过视觉输入来学习常识?

为探索其中谜底,团队构建了两个实验环境:视频围棋对战和视频机器东说念主模拟操控。

推敲者们以为,围棋不错很好地评估模子的规则学习、推理和策动智力,且围棋图像不错将外不雅、纹理等复杂细节与高档常识的评估相折柳,尽头妥贴对上述问题的探索。同期,机器东说念主任务则查验了模子贯通铁心规则和策动任务的智力。

模子老到使用一个包含大批视频演示数据的离线数据集,以此,获得一个不错左证过往不雅测斟酌往常帧的视频生成器。

老到完成后,模子不错平直学习一个任务干系的映射函数,将生成的视频帧疏通为任务履行所需行动。这使得视频生成模子不错在不依赖任何行动标签的情况下,学习和履行具体任务。

领先使用朴素的自追想模子实例化视频生成器,包含一个 VQ-VAE 编码器 - 解码器和一个自追想 Transformer。编码器将视频帧疏通为破碎的标志,Transformer 在老到时间使用这些标志进行下一标志的斟酌。

在推理经过中,Transformer 生成下一帧的破碎标志,这些标志随后由解码器疏通回像素空间。

基于上述朴素的框架,他们不雅测到,视频生成模子不错掌抓基本围棋规则、走下棋略以及机器东说念主专揽智力。

但团队也同期发现,视频序列的常识挖掘效率权臣逾期于以文本形貌,具体如下图所示。

团队将这归因于——视频中存在大批冗余信息,影响了模子的学习效率。

举例,棋子移动不错仅通过现象序列中的极少位置标志进行编码,而在视频中,则需要视觉编码器产生多得多的标志。这种相反不利于模子对复杂常识的快速学习。

压缩视觉变化,让视频学习愈加高效

左证上述不雅测终端,团队忽视了 VideoWorld。它在保留丰富视觉信息的同期,对与关键有野心和行动干系的视觉变化进行压缩,以终了更有用的视频学习。

VideoWorld 引入了一个潜在动态模子(Latent Dynamics Model, LDM),压缩帧间视觉变化为紧凑的潜在编码,提高模子对常识的挖掘效率。

举例,围棋中的多步棋盘变化或机器东说念主中的一语气行动进展出强时间干系性。通过将这些多步变化压缩成紧凑镶嵌,不仅可增多战略信息的紧凑性,还编码了用于前向策动的率领信息。

LDM 接受了 MAGVITv2 作风的编码器 - 解码器结构,但取消了时间维度下采样,以保留每帧细节。

接下来,LDM 界说了一组能干力模块和对应可学习向量。通过能干力机制,每个向量捕捉第一帧至后续多帧的动态变化信息,然后通过 FSQ 量化。

临了,解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧。

通过使用多个向量端正编码第一帧到后续多帧的动态变化,VideoWorld 终明晰紧凑且信息丰富的视觉暗示,不错捕捉视觉序列中的短期和永恒依赖关系。

通过引入 LDM,VideoWorld 在仅有 300M 参数目下,达到专科 5 段的 9x9 围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器东说念主任务上,VideoWorld 也展现出了对多任务、多环境的泛化智力。

研发团队对 LDM 提高视频学习效率的原因,得出以下论断:

LDM 建模了老到集的数据模式

UMAP 可视化标明:LDM 建模了老到联接常见的走棋模式,并有用地将短期和永恒数据模式压缩至潜在空间中。右图左证机械臂沿 X/Y/Z 轴指令标的可视化潜在编码,相同标明 LDM 不错建模多步动态依赖关系。

LDM 匡助模子在测试时进行前向策动

研发者们还推敲了 LDM 在模子推理中的作用。如下图 UMAP 可视化所示,在测试阶段,模子生成的潜在编码按照时间步(Time-step)进行分组,使得模子大约从更长久视角作念出围棋有野心。

在机器东说念主场景中,推敲者们也不雅察到了访佛风光。下图展示了 VideoWorld 在不同机器东说念主操控任务中斟酌的潜在编码。不同时间步的潜在编码左证任务类型进行分组,凸显了模子迟缓捕捉特定任务长程变化的智力。

LDM 不错生成因果干系的编码

为进一步推敲潜在编码的影响,研发团队进行了一项干与实验:用立时标志替换不同时间步的潜在编码,并不雅察其对模子性能的影响。

实验终端披露,干与第一个编码的影响最大,这可能由于编码之间存在因果依赖,团队以为:更正第一个编码,即下一时间步的最好有野心,会影响统共往常的有野心。

One More Thing

尽管 VideoWorld 在围棋和模拟机器东说念主操控环境中展现了优秀的性能,团队同期也果断到,其在真正天下环境中的应用,仍面对着高质地视频生成和多环境泛化等挑战。

往常,团队将效能贬责这些阻抑,鞭策视频生成模子成为真正天下中的通用常识学习器。

对于豆包大模子团队:

字节逾越豆包大模子团队建立于 2023 年,竭力于开辟业界起初进的 AI 大模子本事,成为天下一流的推敲团队,为科技和社会发展作出孝顺,团队推敲标的涵盖深度学习、强化学习、LLM、语音、视觉、AI Infra、AI Safety 等。

了解这篇推敲的笃定,可见以下贱畅:

论文流畅:https://arxiv.org/abs/2501.09781

代码流畅:https://github.com/bytedance/VideoWorld

技俩主页:https://maverickren.github.io/VideoWorld.github.io

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿实践‍

附上论文 / 技俩主页流畅,以及计划样式哦

咱们会(尽量)实时回应你

一键柔顺 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「着重心」

迎接在商酌区留住你的看法!🦄九游娱乐(中国)网址在线

www.ieoshop.com
官方网站
关注我们
新闻国际科技园1025号
公司地址

Powered by 九游娱乐(中国)网址在线 RSS地图 HTML地图


九游娱乐(中国)网址在线-🦄九游娱乐(中国)网址在线该责任在业内已引起一定柔顺-九游娱乐(中国)网址在线