编码人声：OpenAI Realtime API 一手体验和 Voice AI - Listen - 津津乐道中国版

编码人声：OpenAI Realtime API 一手体验和 Voice AI

Listen now

Description

OpenAI Realtime API 发布了，你准备好了么？Realtime API 让开发者可以构建近乎实时的「语音到语音」的体验，无需将多个模型拼接在一起进行转录、推理和文本到语音的转换，实现更流畅的打断体验，还可以无缝切换多种语言。本期节目请来了第一批接入并体验 OpenAI Realtime API 的开发者，为你解析背后的技术和开发者的新机会。两位嘉宾分别是在实时多模态 AI 领域深耕多年的专家——开源实时多模态 AI 框架 TEN Framework 的联合发起人 Plutoless ，以及拾象科技的 AI Research Lead 钟凯祺 Cage。节目深度分析了 OpenAI Realtime API 的优势与挑战，讨论了实时多模态 AI 如何实现语音进、语音出的端到端交互，大幅降低延迟，提升用户体验，使得与 AI 的对话更加自然流畅。也谈到了目前存在的高昂成本和技术集成的复杂性，以及这些问题对开发者意味着什么。此外，嘉宾们还深入探讨了实时多模态 AI 的定义，什么才是真正的实时多模态？他们分享了自己在实践中遇到的挑战和最佳实践，探讨了在 OpenAI Realtime API 的背景下，开发者如何抓住新的机遇。他们也展望了 AI 在未来实时互联网中的角色，讨论了 AI 安全、人与 AI 的协作、多模态交互等话题。节目中提到的 Voice Agent 象限图：X 轴为「准确优先」到「创造力优先」，Y 轴为「实时不敏感」到「实时敏感」（「海外独角兽」制图）：

More Episodes

See all »

科技乱炖：数码爱好者去反电诈，不小心弄成了降维打击

本期节目有些特别，我们邀请到了一位从电脑爱好者“转型”成为反诈警察的神秘嘉宾。他将在节目中分享他在日常工作中遇到的那些趣事和怪事，从一个独特的视角带大家了解诈骗背后的套路和手段。或许有时候，你被诈骗了，并不是因为你不够聪明，而是因为骗子早已盯上了你。。。【听友福利】拼多多百亿补贴：进入拼多多搜索“【津津乐道】”或点击评论区置顶链接，直达活动会场，iphone16系列至高直降1100，搜索词长期有效，大家可以经常搜搜看，经常有活动更新。

Published 11/21/24

编码人声：空间计算、物理计算、实时仿真与创造拥有「自主行为」的小狗

虚拟世界与现实世界的界限逐渐模糊，已然成为不争的事实。但究竟哪些曾经的幻想已然照进现实，又有哪些挑战依然横亘眼前？本期节目，我们邀请三位来自不同领域的嘉宾，从 2024 年底的当下出发，共同审视虚拟与现实融合的真实图景。 InSpaze 的易明分享了在全新的硬件生态 Vision Pro 上开发社交应用的挑战与机遇，并展望了虚拟社交的未来；Motphys 的崔汉青深入剖析了实时物理引擎如何赋予虚拟世界更真实的物理规律，以及在游戏、具身智能、数字孪生领域的应用；MicroBlocks 的邵悦展示了物理计算平台 MicroBlocks...

Published 11/17/24

津津乐道中国版

Published 11/17/24