Description
本期的 6 篇论文如下:
[00:28] 🧠 LLaVA-o1: Let Vision Language Models Reason Step-by-Step(LLaVA-o1:让视觉语言模型逐步推理)
[01:14] 🎨 Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement(区域感知文本到图像生成:硬绑定与软优化)
[01:51] 🌐 GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation(高斯任意:交互式点云潜在扩散用于3D生成)
[02:25] 🌅 The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use(GUI代理的黎明:基于Claude 3.5计算机使用的初步案例研究)
[03:00] 📖 Number it: Temporal Grounding Videos like Flipping Manga(像翻阅漫画一样进行视频时间定位)
[03:45] 🌍 Xmodel-1.5: An 1B-scale Multilingual LLM(Xmodel-1.5:一个10亿参数的多语言大型语言模型)
【关注我们】
您还可以在以下平台找到我们,获得播客内容以外更多信息
小红书: AI速递