阶跃星辰视频生成模型Step-Video V2版发布支持精准生成基础文字

关注+2025-01-23作者：路西蓝

2025年1月22日，上海阶跃星辰智能科技有限公司宣布其视频生成模型 Step-Video 正式升级至 V2版本。此次升级带来了显著的技术突破和功能提升，使其在真实世界模拟方面更加强大。

Step-Video V2版本在多个核心技术领域进行了优化和创新。首先，该版本采用了压缩比更高的 VAE 模型，通过空间和时间的高效压缩，在保证重构质量的同时，显著降低了计算复杂度，提升了生成效率。其次，Step-Video V2对 DiT 架构进行了深度优化，并引入强化学习算法，进一步提升了视频生成的流畅性和细节表现力。此外，该版本还结合了自研的多模态理解大模型和视频知识库，能够更精准地描述视频内容和镜头语言，生成更贴近真实世界的视频。

截图_20250123090916.png" alt="微信截图_20250123090916.png" style="box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block; margin: 0px auto;"/>

在实际应用中，Step-Video V2展现出了强大的复杂运动生成能力，无论是芭蕾舞、空手道，还是羽毛球等场景，都能流畅地呈现动态画面。同时，该模型在人物表情捕捉方面表现出色，能够细腻地呈现真实人物或虚构角色的神态和光影效果。此外，Step-Video V2还支持丰富的镜头语言，包括推、拉、摇、移等多种运动方式，以及不同景别之间的切换，为视频创作提供了更多可能性。

值得一提的是，Step-Video V2新增了基础文字生成功能，能够将文字自然融入视频内容，生成效果显著优于前代模型。这一功能的加入，进一步拓展了视频生成的应用场景。

目前，Step-Video V2已在跃问网页端（http://yuewen.cn/videos）开放试用申请，用户可以体验这一升级后的强大功能。

此次升级不仅标志着阶跃星辰在视频生成领域的技术进步，也为创作者提供了更强大的工具，推动视频创作进入新的阶段。

阶跃星辰视频生成模型Step-Video V2版发布 支持精准生成基础文字

阶跃星辰视频生成模型Step-Video V2版发布支持精准生成基础文字