您现在的位置是:欧亿 > 探索
并行扩散架构突破极限,实现欧交易所app官网下载安全5分钟AI视频生成,「叫板」OpenAI与谷歌?
欧亿2026-04-24 12:17:32【探索】1人已围观
简介近日,一家名为 CraftStory 的 AI 初创公司推出了 Model 2.0 视频生成系统,凭借可生成长达五分钟的富有表现力、可媲美专业水准、以人为中心的视频,破解了困扰 AI 视频生成行业长久 欧交易所app官网下载安全
近日,并行一家名为 CraftStory 的扩散 AI 初创公司推出了 Model 2.0 视频生成系统,凭借可生成长达五分钟的架构极限叫板欧交易所app官网下载安全富有表现力、可媲美专业水准、突破以人为中心的实现视频生成视频,破解了困扰 AI 视频生成行业长久以来的分钟「视频时长」难题,引起热议,谷歌并被视为或将是并行 OpenAI 的 Sora 和 Google 的 Veo 的强有力竞争者。

资料显示,扩散CraftStory 由全球使用最广泛的架构极限叫板计算机视觉库 OpenCV 的创建者 Victor Erukhimov 创立,他是突破 OpenCV 的早期贡献者之一,参与了 OpenCV 库的实现视频生成开发和维护。此外,分钟欧交易所app官网下载安全他曾联合创立 Itseez——专注于开发运行于嵌入式平台(特别是谷歌汽车安全系统)的计算机视觉解决方案,担任首席技术官、并行首席执行官和总裁,2016 年 Itseez 被英特尔收购。
CraftStory 此次推出的 Model 2.0 视频生成系统在视频时长上的突破,可能会为那些难以扩大视频制作规模以用于培训、营销和客户教育的企业,带来巨大的商业价值。


大家都知道,包括当前的行业佼佼者 OpenAI 的 Sora 2,所生成的视频时长上限也仅为 25 秒,同类模型生成的视频片段也在这个范围甚至更短,虽然生成的视频画面精美、性能优良,但从市场角度考虑,难以将其广泛应用,尤其是一些电影或长剧集。
据了解,CraftStory 之所以能够破解视频时长难题,突破性进展在于该公司的并行扩散架构,这是一种从根本上不同的 AI 模型生成视频的方法。
传统视频生成模型的工作原理是在越来越大的三维空间中运行扩散算法,其中时间代表第三个轴。为了生成更长的视频,这些模型需要相应更大的网络、更多的训练数据以及更多的计算资源。
而 CraftStory 会在整个视频播放过程中同时运行多个较小的扩散算法,并通过双向约束将它们连接起来。
据 Victor Erukhimov 介绍,之所以这样做,是因为「视频的后半部分也会影响前半部分,这一点非常重要,因为如果逐个进行处理,那么出现在前半部分中的瑕疵就会传播到后半部分,然后不断累积。」
比如,对于一个 5 分钟的视频片段,CraftStory 的系统不是生成 8 秒的片段,然后拼接其他片段,而是通过相互关联的扩散过程同时处理所有 5 分钟的片段。
另外,在模型训练数据上,除了从互联网抓取视频外,CraftStory 聘请专业工作室,使用高帧率摄像系统拍摄演员,即使是手指等快速移动的物体也能捕捉到清晰的细节,从而避免了标准 30 帧 / 秒 YouTube 视频中固有的运动模糊,从中获取自有素材去对模型进行训练。因为在 Victor Erukhimov 看来,制作高质量视频并不需要大量数据,也不需要大量培训预算,而是高质量的数据。
Model 2.0 是一个「视频到视频」的转换模型:以图像和行车视频作为输入,并利用行车视频中人物的动作,根据图像生成输出视频。用户可以上传自己的视频,也可以使用 CraftStory 提供的预设视频。该模型经过训练,即使在长达数分钟的视频序列中,也能保留人物的身份、情感和细微差别。
目前,该系统可在大约 15 分钟内生成 30 秒的低分辨率视频片段。先进的唇形同步系统可将嘴部动作与脚本或音轨同步,而手势对齐算法则确保肢体语言与语音节奏和情感基调相匹配。
视频一经发