Description
过去一周,OpenAI 的首个文生视频模型 Sora 占据了各大媒体的头条,特别是他们号称是物理世界模拟器,让许多人惊掉下巴。本期节目,我们邀请到了在 Diffusion 模型领域有多年研究经验的中国人民大学副教授李崇轩、AI 连续创业者和成,从学界和业界的角度聊聊 Sora 背后硬核的技术原理、他们的瓶颈、商业化的想象空间,以及这是否是代表着人类离 AGI 又进了一大步。
短短一年时间内,Sora 为什么能在视频生成效果上实现质的飞跃?Sora 所采取的技术路线,其背后的原理是什么?和其他文生视频模型相比,Sora 的模型又有哪些优势和劣势?未来,Sora 的落地应用场景可能会有哪些?Sora 会继续沿用 ChatGPT 的商业模式吗?OpenAI 对 Sora「物理世界模拟器」的定位是否准确? Sora 横空出世后,我们距离 AGI 还有多远?
这期节目我们聊了很多技术,在所难免很多的专业术语都是英文的表达,如果有没有听清楚的术语或者词汇可以在评论区和我们讨论。
全新付费播客「不止金钱」早鸟优惠价截止到元宵节!
我们在春节前推出的全新付费播客「不止金钱」上线仅四周就收获了相当多听友的认可,销量也大大超出了我们的预期,感谢大家!
新年新气象,我们也将原计划到 2 月 18 日结束的早鸟优惠价 99 元延长到元宵节,2 月 26 日再恢复到原价 129 元。希望「不止金钱」在新年的一年里也能帮助大家更好的应对工作和学习中的变化,让钱包和生活都变得确定。
点击链接查看「不止金钱」的节目简介、收听节目预告。
本期人物
李崇轩,中国人民大学高瓴人工智能学院副教授、博士生导师
和成,AI 连续创业者,Newcast.ai 创始人、YC Alumni
主要话题
[02:23] 聊聊看到 Demo 视频后的意料之外与情理之中
[03:58] Diffusion 和 Transformer 大家都在用,为什么只有 Sora 能生成 60s 的视频?
[10:53] Sora 训练用的数据可能部分来自游戏引擎生成?
[15:08] Sora 训练参数大猜测
[16:33] 文生视频领域不同技术路线的优劣对比
[20:41] 国内外大厂想要追赶 Sora,有哪些壁垒需要突破?
[24:18] Sora 模型的无奈:原理局限与数据瓶颈
[32:56] 对话生成还是新的 UI 界面: Sora 可能的商业化模式
[34:24] 文生视频消灭中间环节,渲染引擎结合 Sora 的想象空间?
[36:34] 距离用户端大规模用上 Sora 还有多久?
[39:03] 为什么说「Sora 是世界模拟器」不够准确?
[41:38] 融入传感器和检索,畅想「世界模拟器」的其他可能性
[44:13] Sora 让我们与 AGI 的距离更近一步?
关联阅读
通用人工智能离我们多远,大模型专家访谈 |S7E11 硅谷徐老师 x OnBoard!
- Sora 的演示视频和技术报告
被认为是 Sora 技术基础的一篇论文,由谢赛宁与 Sora 研发负责人合著
Patch 的技术论文
Pika 创始人回应 Sora 发布
彭博对 Sora 如何改变未来的猜想
Diffusion Transformer(DiT),是一种基于Transformer模型的扩散模型架构。扩散模型是一种生成模型,通过模拟数据的逐步去噪过程来生成新的样本。DiT架构采用了Transformer模型作为扩散模型的核心架构,而不是传统的卷积神经网络(如U-Net)。
W.A.L.T. ,Vision-Augmented Language Transformer是李飞飞教授和她的团队与谷歌合作开发的 基于Transformer的潜在视频扩散模型,中文可以翻译为“视觉增强语言Transformer”。
隐空间(latent space)或者潜在空间(potential space),是机器学习模型中一个重要的概念,它指的是模型学习到的数据特征的抽象表示。在潜在空间中,每个数据点都对应着一个向量,该向量表示该数据点的特征。潜在空间的维度通常比原始数据