博客 科技 北京智源研究院发布原生多模态世界模型Emu3

北京智源研究院发布原生多模态世界模型Emu3

本文转自:人民日报海外版

《 人民日报海外版 》( 2024年10月24日 第 09 版)

本报电 (记者刘峣)近日,北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上的潜力。

据了解Emu3只基于下一个token预测,无需扩散模型或组合式方法,把图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。

智源研究院院长王仲远表示,Emu3为构建多模态通用人工智能提供了广阔的技术前景,有机会将基础设施建设收敛到一条技术路线上,为大规模多模态训练和推理提供基础。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。

本文来自网络。 授权转载请注明出处:http://www.dreamwu.com/blog/article/pid-24961.html

发表评论

(快捷键:Ctrl+Enter 或 Alt+Enter)
匿名评论时,请补充填写以下信息:
*以下联系方式请至少填写一种:

评论列表(0)

联系我们

联系我们

QQ:2686930

在线咨询: QQ交谈

邮箱: dwu365@126.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

手机访问
手机扫一扫打开网站

手机扫一扫打开网站

返回顶部