比Sora实在多了!Vidu全球上线:视频大模型效果太震撼.Vidu is now globally available: the video modeling effect is too shocking!
这大半年来,小雷已经记不清自己体验过多少视频生成大模型产品了,但有一个名词已经深深印在我的脑海中。因为国内每当有一个新产品出现,就会被无数媒体冠以“国产Sora”的头衔,所以许多不常关注大模型的小伙伴经常云里雾里,搞不清谁才是真正的“国产Sora”。
如果从发布时间角度来看,生数科技联合清华大学在4月底发布的视频大模型Vidu才是Sora全球首个挑战者,也是严格意义上的首个“国产Sora”。
时隔3个月,Vidu终于迎来了正式上线,全面开放文生视频、图生视频两大功能。用户无需申请即可注册体验。生数科技表示,Vidu目前提供4s和8s两种时长选择,分辨率最高达1080P。
小雷认为就算不看生成视频的效果,Vidu也实现了对Sora的超越,毕竟它是一款能用的产品,而不是Demo。
Vidu体验:生成效率加分,拟真度有待优化
官方4月放出的生成视频中,Vidu已经实现了相当程度的“拟真”——模拟真实世界的物理原理,以及主体的一致性,这也是Vidu真正对标Sora的底气。而这次,Vidu带来了角色一致性(Character To Video)、动漫风格、文字与特效画面生成等特色能力。
此外,Vidu号称拥有业界最快的实测推理速度,只需不到30秒即可生成一段4秒的视频。等待时间过长一直是影响用户体验的重灾区,小雷试过某产品苦等2个小时的折磨,如果Vidu真能保持这种生成效率,这也能体现出背后大模型从框架到算力的全链路实力。
Vidu 生成,动图经过压缩。图源:生数科技
不过视频中突然出现的字幕和闪点让我有些绷不住,出戏感太严重了。或许Vidu是想通过字幕来表达角色间在交流,如果嘴部动作更加明显或许效果更佳。
类似的表现还出现在其他生成视频上,比如这段典型西部风格的人物特写,人物面部光线反射细节还是展现出了Vidu的功力,手部在移动过程中保持了一致性,并不像很多扩散模型一样,这一秒和下一秒的主体都可能出现明显的差异。
但还是老问题,自行蠕动的“原力”香烟和略带生硬的肢体动作给作品扣了不少印象分。
Vidu 生成,动图经过压缩。图源:生数科技
保真度方面,小雷认为这是Vidu下阶段考虑重点优化的部分,用比较通俗的话讲,就是背景画面与真实世界存在一定差异,有点油画风。
Vidu 生成,动图经过压缩。图源:生数科技
在人物生成上,Vidu表现比较稳定,充分展示了它的实力,从面部表情、眨眼到抬头,都比较接近实拍镜头。虽然仍存在小瑕疵,但考虑到参与视频内容制作的难度,Vidu算是展示出了相当不错的水平。
Vidu 生成,动图经过压缩。图源:生数科技
Vidu 生成,动图经过压缩。图源:生数科技
总的来说,虽然有快手可灵AI珠玉在前,但从目前体验的生成视频来看,Vidu依然展示了极高的视频生成能力,或者说是模拟物理世界的能力。或许在生成复杂画面、保真度等方面还略微逊色于可灵AI,但有一些镜头完全称得上可用,这已经是一个很大的进步。
此外,小雷认为Vidu辅助创作的设置还是相当人性化的,用户可以自定义视频内容风格(目前仅支持写实和动画),还可以后期修改内容画质和倍速。即使你的描述词太过天马行空,Vidu也能自行优化,让大模型更好地理解描述词。
国产大模型,一股不可忽视的东方力量
从[color=var(--tag-t1)]ChatGPT发布到Sora问世,[color=var(--tag-t1)]OpenAI被无数科技爱好者、专业从业者奉为行业高标准。事实上,生数科技早在2022年9月就提出了融合Diffusion和[color=var(--tag-t1)]Transformer的U-ViT架构,比OpenAI提出DiT架构(Sora的底层架构)还要早。甚至因为发布时间更早,计算机视觉顶会CVPR 2023提前收录了清华大学的U-ViT论文,而以“缺乏创新”为由拒绝了OpenAI DiT论文。