中国首个Sora级视频大模型Vidu发布

07:34, 28 4月 2024

据中国媒体报道，在2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合生数科技27日正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。

该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

据介绍，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

据报道，在当天的论坛上，清华大学教授、生数科技首席科学家朱军表示，与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除了在时长方面的突破外，Vidu在视频效果方面实现显著提升，主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。

2024年4月12日, 13:51