首页 生活常识 百科知识 范文大全 经典语录 家电维修 实时讯息

豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源网友怎么看

2025-07-18 05:07     更新时间:2025-07-18 05:05:09     347次浏览

证券时报e公司讯,据豆包大模型团队消息,视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。正如李飞飞教授9年前TED演讲中提到“幼儿可以不依靠语言理解真实世界”,VideoWorld仅通过“视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅300M参数量下,VideoWorld已取得可观的模型表现。作为一种通用视频生成实验模型,VideoWorld去掉语言模型,实现了统一执行理解和推理任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。

(责任编辑:王治强 HF013)

  • 上一篇 >

相关文章:

“瑞安智造”亮相巴西汽配展:“所有展品组07-18

突发!加拿大一汽车冲撞人群,多人伤亡网友07-18

非洲抗击疟疾形势复杂 多国加紧防控内容具体07-18

“智”造新突破 国内首台硬岩深竖井扩孔式掘07-18

南非学者:非洲国家可借鉴中国治国理政经验07-18

西宁综合保税区完成首单高原特色保税加工农07-18

(c)2008-2028 www.jiazhengayi.com 家政阿姨网 -生活类B2B门户网 SYSTEM All Rights Reserved