如何使用Sora文生视频大模型?

2024年2月16日凌晨,OpenAl公司发布最新“文生视频”大模型Sora,并附带发布了多条由Sora生成的视频,相较于目前“文生视频”业内主流的数秒钟版本,此次发布的Sora可以一次性生成一分钟的视频,OpenAl继ChatGPT爆火之后,Sora再一次将人工智能推到一个新的高度。

Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。

从OpenAI在官网展示的Sora生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!特别是可以生成最长1分钟的视频!生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。超过Gen-2、SVD-XT、Pika等主流产品,一出手就是王炸。

如何使用Sora

在了解了Sora的强大能力后,很多朋友都在问Sora应该如何使用?这里站长给大家讲几句!目前呢,Sora还未对外开放!所以啊,所有让你付费使用Sora来生成视频的网站都是假的,都是骗钱的!官网是这么说的:

如何使用Sora文生视频大模型?

也就是,Sora目前只开放给下面两类人:

●第一类是:网络安全红队。用于测试,测试Sara的安全性,可以理解成他们特意找了一批黑客来攻击自己的系统,确认自己的系统是安全可靠的!
●第二类是:艺术工作者。比如需要制作视频的视觉艺术家、设计师、电影制作人等,这也明确了Sora的野心,剑指创意行业!

不过,按照他们的更新速度,估计几个月后普通人就能用上Sora了,届时跟GPT4、Dalle一样,Sora预计也会出现在ChatGPT的官网中,整合在ChatGPT All Tools里面,可以让我们在对话的过程中,无缝调用所有工具!

那么,你可能要问,国内的文心一言、通义千问,这些什么时候能拥有类似的能力呢?什么时候可以国产替代呢!

很遗憾!大多数人对此持悲观态度,可能得一年起步!不过,如果Stable Diffusion追上了相关技术并且要开源,那么国内追赶的时间就可以大大缩短,毕竟我们的优良传统是国外一开源,我们就遥遥领先!

针对Sora,360创始人周鸿祎发表评论认为,这意味着AGI实现将从10年缩短到1年。他指出,这次Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。

以下为周鸿祎评论全文:

年前我在风马牛演讲上分享了大模型十大趋势预测,没想到年还没过完,就验证了好几个,从Gemini、英伟达的Chat With RTX到OpenAl发布Sora,大家都觉得很炸裂。朋友问我怎么看Sora,我谈几个观点,总体来说就是我认为AGI很快会实现,就这几年的事儿了!

第一,科技竞争最终比拼的是让人才密度和深厚积累。很多人说Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。

第二,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。今天很多人谈到Sora对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。

第三,我一直说国内大模型发展水平表面看已经接近GPT-3.5了,但实际上跟4.0比还有一年半的差距。而且我相信OpenAl手里应该还藏着一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,包括AIGC。奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。

第四,大语言模型最牛的是,它不是填空机,而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析Sora,强调它能输出60秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象,最重要的是Sora的技术思路完全不一样。因为这之前我们做视频做图用的都是Diffusion,你可以把视频看成是多个真实图片的组合,它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在2D平面上对图形元素进行操作,并没有适用物理定律。但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。所以我理解这次OpenAI利用它的大语言模型优势,把LLM和Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。这都是大模型的功劳。

这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具,比如生物医学、蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。这次Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样,能否发生碰撞,碰撞严重性如何,如果没有对世界的理解就很难做出一个真正的无人驾驶。

所以这次Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。

第五,Open AI训练这个模型应该会阅读大量视频。大模型加上Diffusion技术需要对这个世界进行进一步了解,学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。

✅来源:十一张博客
© 版权声明
THE END
如果觉得这篇文章对您有帮助,不妨考虑请我喝杯奶茶😄
点赞0赞赏 分享
评论 抢沙发
头像
评论人工审核通过显示,请勿重复提交!
提交
头像

昵称

取消
昵称表情代码

    暂无评论内容