S8Bonus | 抱歉,Sora 还不能称为「世界模拟器」
Listen now
Description
过去一周,OpenAI 的首个文生视频模型 Sora 占据了各大媒体的头条,特别是他们号称是物理世界模拟器,让许多人惊掉下巴。本期节目,我们邀请到了在 Diffusion 模型领域有多年研究经验的中国人民大学副教授李崇轩、AI 连续创业者和成,从学界和业界的角度聊聊 Sora 背后硬核的技术原理、他们的瓶颈、商业化的想象空间,以及这是否是代表着人类离 AGI 又进了一大步。 短短一年时间内,Sora 为什么能在视频生成效果上实现质的飞跃?Sora 所采取的技术路线,其背后的原理是什么?和其他文生视频模型相比,Sora 的模型又有哪些优势和劣势?未来,Sora 的落地应用场景可能会有哪些?Sora 会继续沿用 ChatGPT 的商业模式吗?OpenAI 对 Sora「物理世界模拟器」的定位是否准确? Sora 横空出世后,我们距离 AGI 还有多远? 这期节目我们聊了很多技术,在所难免很多的专业术语都是英文的表达,如果有没有听清楚的术语或者词汇可以在评论区和我们讨论。 全新付费播客「不止金钱」早鸟优惠价截止到元宵节! 我们在春节前推出的全新付费播客「不止金钱」上线仅四周就收获了相当多听友的认可,销量也大大超出了我们的预期,感谢大家! 新年新气象,我们也将原计划到 2 月 18 日结束的早鸟优惠价 99 元延长到元宵节,2 月 26 日再恢复到原价 129 元。希望「不止金钱」在新年的一年里也能帮助大家更好的应对工作和学习中的变化,让钱包和生活都变得确定。 点击链接查看「不止金钱」的节目简介、收听节目预告。 本期人物 李崇轩,中国人民大学高瓴人工智能学院副教授、博士生导师 和成,AI 连续创业者,Newcast.ai 创始人、YC Alumni 主要话题 [02:23] 聊聊看到 Demo 视频后的意料之外与情理之中 [03:58] Diffusion 和 Transformer 大家都在用,为什么只有 Sora 能生成 60s 的视频? [10:53] Sora 训练用的数据可能部分来自游戏引擎生成? [15:08] Sora 训练参数大猜测 [16:33] 文生视频领域不同技术路线的优劣对比 [20:41] 国内外大厂想要追赶 Sora,有哪些壁垒需要突破? [24:18] Sora 模型的无奈:原理局限与数据瓶颈 [32:56] 对话生成还是新的 UI 界面: Sora 可能的商业化模式 [34:24] 文生视频消灭中间环节,渲染引擎结合 Sora 的想象空间? [36:34] 距离用户端大规模用上 Sora 还有多久? [39:03] 为什么说「Sora 是世界模拟器」不够准确? [41:38] 融入传感器和检索,畅想「世界模拟器」的其他可能性 [44:13] Sora 让我们与 AGI 的距离更近一步? 关联阅读 通用人工智能离我们多远,大模型专家访谈 |S7E11 硅谷徐老师 x OnBoard! - Sora 的演示视频和技术报告 被认为是 Sora 技术基础的一篇论文,由谢赛宁与 Sora 研发负责人合著 Patch 的技术论文 Pika 创始人回应 Sora 发布 彭博对 Sora 如何改变未来的猜想 Diffusion Transformer(DiT),是一种基于Transformer模型的扩散模型架构。扩散模型是一种生成模型,通过模拟数据的逐步去噪过程来生成新的样本。DiT架构采用了Transformer模型作为扩散模型的核心架构,而不是传统的卷积神经网络(如U-Net)。 W.A.L.T. ,Vision-Augmented Language Transformer是李飞飞教授和她的团队与谷歌合作开发的 基于Transformer的潜在视频扩散模型,中文可以翻译为“视觉增强语言Transformer”。 隐空间(latent space)或者潜在空间(potential space),是机器学习模型中一个重要的概念,它指的是模型学习到的数据特征的抽象表示。在潜在空间中,每个数据点都对应着一个向量,该向量表示该数据点的特征。潜在空间的维度通常比原始数据
More Episodes
4 月初,美国知名创业加速器 Y Combinator 举办了 24 年冬季班的 DEMO DAY,毕业了 248 家初创公司。毫无意外的,今年大概有 76% 的毕业公司都或多或少提到了 AI,但和去年毕业不一样的是,今年这批毕业生大多都是在 AI 应用层创业。 本期节目我们邀请到 Amino Capital 的管理合伙人徐霄羽博士,Amino 在这次的毕业公司里投了近 20 家,他们最看好哪一类公司?为什么?以及 AI 到底泡沫了吗?除此之外,我们还留意到近几年从 YC 毕业的公司数量正在减少,YC 本身的结构也有所调整。新 CEO...
Published 04/24/24
Published 04/24/24
继 Open AI 发布了视频生成模型 Sora 之后,Google 最近又发布了 Vlogger,一个能通过一张照片生成 10 秒视频的模型。在我们惊叹 AIGC 技术快速发展的同时,网络黑产的攻击也依托技术迭代爆发式提效。自去年以来,线上深度伪造(Deepfake)技术攻击案例指数级上升,特别是在东南亚等基础设施与监管薄弱的地区,案发占比由不到百分之零点五飙升至五。 本期节目我们邀请到蚂蚁数科 ZOLOZ 的技术负责人姚伟斌(文景)来聊聊后 Sora 时代下我们普通人如何能够降低被攻击的风险,整个行业在 Sora...
Published 04/17/24