丝袜 porn 潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证

发布日期:2025-01-03 10:06    点击次数:100

丝袜 porn 潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证

奥特曼说丝袜 porn,Sora 代表了视频生成大模子的 GPT-1 时刻。

从开年到咫尺,国表里、初创独角兽到互联网大厂,都纷繁参加视频生成限制,带来一个个崭新模子的同期,视频、影视行业也随之发生剧变。

不可否定,当下的视频生成模子还遭受诸多问题,比如对空间、对物理规定的贯通,咱们都期待着视频生成的 GPT-3.5/4 时刻到来。

在国内,有这么一家从加快磨练启程的初创公司,正在为此勤快。

它即是潞晨科技,首创东说念主尤洋博士毕业于 UC 伯克利,后赴新加坡国立大学担任校长后生老师。

本年潞晨科技在加快计较限制以外,建树视频生成模子 VideoOcean,为行业带来更具性价比的遴荐。

在 MEET 2025 现场,尤洋博士也向咱们共享这一年关于视频生成限制的贯通与贯通。

MEET 2025 智能异日大会是由量子位足下的行业峰会,20 余位产业代表与会无间。线下参会不雅众 1000+,线上直播不雅众 320 万 +,得到了主流媒体的庸俗存眷与报说念。

中枢不雅点梳理

视频生成模子应该结果轮廓化文本适度、纵情机位 / 纵情角度、扮装一致性、作风定制化

3 年后大略就能迎来视频生成的 GPT-3.5/GPT-4 时刻

视频生成大模子的一个平直诈欺价值即是松弛试验的结果,极大裁汰简直场景复现难度。

(为更好呈现尤洋的不雅点,量子位在不蜕变首肯的基础上作念了如下梳理)

3 年后或是视频大模子的 GPT-3.5 时刻

今天相等振作来到量子位大会,相等振作和群众换取,今天讲一下咱们在视频大模子限制作念的一些责任。

领先是我和我的创业公司潞晨科技的先容。我从 UC 伯克利毕业到新加坡国立大学任教,很侥幸创办了潞晨科技。

咱们之前是作念算力优化的。2018 年谷歌打造了寰宇上第一个千卡集群 TPU Pod,那时寰宇上最大的模子仍是 BERT。咱们匡助谷歌,将(那时)寰宇上最大模子的磨练时候从 3 天压缩到 76 分钟。

也很侥幸,昨年华为盘古大模子的一个责任亦然咱们沿途来作念的,并得到了 ACL 最好论文。咱们的手艺匡助华为盘古大模子在磨练中更高效。微软、英伟达等公司团队也使用了咱们的手艺作念一些漫衍式磨练,咱们但愿让大模子磨练更快、老本更低。

步入今天的话题,来要点先容一下视频生成大模子。

咱们打造了一个家具叫Video Ocean,咫尺正处在测试阶段。先来先容一下家具,背面再有计划我以为视频大模子将会如何发展。

领先,我以为视频大模子第一个蹙迫的方面是,它应该能够结果轮廓化的文本适度。

其实咱们今天都在用 AI 去生成大模子了,咱们细目但愿它能够精确反应出念念要的东西。但很缺憾,比如咫尺用文生图 APP 去生成图片时,仍是会发现许多图片本体无法作念到精确适度,是以我认为这方面还有很大的发展空间。

在 Video Ocean 模子磨练进程中,咱们作念了一些初步探索。一个比拟好的例子,咱们能够精确地提供一些刻画,戴着墨镜,长的胡茬的欧洲男东说念主。可想而知这个视频内部如实是咱们念念要的阿谁嗅觉,蓝天、海岸、沙滩、背光、单手抓相机、玄色 T 恤,也有对着镜头话语。

我认为 AI 视频大模子异日 3 年可能最蹙迫的仍是结果视频大模子的 Scaling Law。

这个进程不需要相等炫酷的家具才气,最蹙迫的是把它的模子与试验寰宇的无间才气作念到极致。我以为最终形态即是东说念主们说一段话、给一段刻画,它能精确地把刻画以视频的阵势展示出来。

是以我以为异日 3 年,AI 视频大模子就像山姆 · 奥特曼说的那样,今天是 Video 的 GPT-1 时刻,可能 3 年后到视频大模子的 GPT-3.5、GPT-4 时刻。

这里展示一下 Video Ocean 的 Demo,咫尺咱们作念到了这么的水平。

第二点是异日视频大模子若何能够结果纵情机位、纵情角度。

咫尺拍电影、拍记录片可以拿入部下手机、录像机不断地晃,念念若何晃就若何晃,这么是对镜头有简直适度的。异日 AI 视频大模子,领先应该作念到这少许,不异的刻画,换一下角度、换一个镜头,它的形象是不应该蜕变的,它即是不异一个物体。

更进一步讲,异日 AI 视频大模子还能颠覆许多行业。比如咫尺看足球、看篮球赛,咱们看到的镜头是现场编导给咱们看的镜头。他给咱们看前景、近景。

异日能不成依靠 AI 视频大模子,东说念主来适度镜头,决定念念要看哪,绝顶于在通顺场里可以一忽儿迁移,迁移到教师席、终末一行、第一行。纵情机位、纵情角度的适度。我以为异日 AI 视频大模子在这方面也长短常环节的,天然天然 Video Ocean 咫尺作念了一些尝试,初步后果仍是可以的。

我以为第三点蹙迫的是扮装一致性。

因为作念出 AI 视频大模子,最终细目是需要产生营收、结果变现的。谁会风光为这个付费,比如告白责任室、告白商、电商博主、影视行业。要是长远这些行业的话,一个环节点是扮装一致性。

比如一个家具的告白,细目从新到尾这个视频中的衣裳、鞋、车,神态不成有太大变化,物体扮装保抓一致性。

拍一部电影,从来源到结果,主演的神态、环节副角的神态细目也不成变化,在这方面 Video Ocean 也作念一些很好的探索。

再一个是作风的定制化。咱们知说念咫尺演员东说念主工老本长短常贵的,说念具老本也很高。

异日 3 年之内,要是 AI 视频大模子泛泛发展,我嗅觉会有一种需求,比如一个导演可以让一个演员在游池塘里拍一段戏,然后拿到素材通过 AI 将它转成泰坦尼克场景下的游水,转成阿凡达场景下的游水,这种才气反而是 AI 最擅长的。赋予电影感、艺术感的画面。

总之大模子一个平直的诈欺价值即是松弛试验的结果,能够极大裁汰简直场景复现的难度。

可能之前群众听过一个段子,好莱坞导演念念制造一个爆炸镜头,他算了一下预算,第一种决策是盖一个城堡把它炸掉,第二个决策是用计较机模拟这个画面。老本算下来之后,发现这两种决策的老本都很高,那时用计较机模拟的老本更高,咫尺 AI 即是要大幅裁汰大模子关于生成电影的老本。

要是这少许结果后,咱们可以不受神气、天气等外部要素的结果,并减少对简直演员的依赖。这倒不是抢演员的饭碗,因为一些环节镜头长短常危境的,比如演员跳飞机、跳楼,演员去维持行将引爆的炸弹之类,这种镜头异日只需要演员的身份和肖像权,AI 可以把这么的镜头作念好,是以对电影行业能够极大作念到降本增效。

犀利人妻

正如昆仑万维方汉老师刚才说的,天然咱们的计较资源有限,然而咱们发现通过更好的算法优化如实能够训出更好的后果,比如 Meta 使用 6000 多个 GPU 磨练 30B 的模子,最近咱们会在一个月内发一个 10B 版的模子,咱们仅用了 256 卡。

Video Ocean 前身是咱们团队先打造了一个Open-Sora的开源家具,这个开源家具是都备免费的,在 Github 上,后果相等可以,比如好意思国独角兽 Lambda labs 作念了一个火爆的诈欺数字乐高,其实这个数字乐高即是基于 Open-Sora 作念的。

本年龄首 Sora 出来之后,各式短视频巨头都对视频大模子这一块比拟深爱,比如中国的快手、抖音,好意思国即是 Instagram、TikTok、SnapChat,这可以看到 SnapChat 的视频模子也在早些时候发布了,叫 Snap Video,这是它的官方论文,他们就援用了咱们磨练视频大模子的手艺,是以说这些手艺也匡助一些巨头信得过把视频大模子训得更快,精度更高,智能进度更高。

谢谢群众!





Powered by 泰国人妖 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024