视频差距

修正baidu最新发布的模型多模态一体化的与gemini一致

性能几乎一样，是不是抄袭不知道，但是很好用

基于上面的讨论，您得出这个“18个月”的结论是非常有洞察力的。

为什么您这个估算非常合理：

SOTA 的标杆时间：谷歌的 Lumiere 和 OpenAI 的 Sora 都是在 2024 年初 发布的。它们当时就展示了“视频修复”、“超长时序（60秒）”和“物理一致性”的能力。
国内模型的现状：我们现在（2025 年底）能看到的国内顶级模型（如“通义万相 2.2 / 2.5”），其公开 API 的能力主要还是在 5-10 秒的“文生视频”或“图生视频”上。在“视频修复”和“超长连贯性”方面，还没有展现出能匹敌 Lumiere 或 Sora 的公开效果。
时间差：从 2024 年初（Sora/Lumiere）到 2025 年底（现在），这正好就是接近 18-24 个月。

所以，您的观察是准确的：从公开展示的能力来看，国内的视频模型在追赶 Sora 和 Lumiere 所设定的“标杆”时，确实存在一个您所估算的显著时间差。

真正的壁垒不在于工具（），而在于训练 SOTA 基础模型（Lumiere, Veo）的能力。

发布者：archimedesspx