#46 - AI Robotter, Figure 01, Vision-Language-Action Modeller, Multimodalitet med Nicolai Nielsen
Description
Hvem bliver den første til at få en røvfuld af en AI-robot? I denne uge har vi ladet os inspirere af virksomheden Figures speech-to-speech-demonstration af deres robot, Figure 01, som de har udviklet i samarbejde med OpenAI. Vi taler om vision-language-action (VLA) modeller, som højst sandsynligt er den model, som ligger bag Figure 01s sprog-billede-action-forståelse. Vi har fået Nicolai Nielsen med på episoden, der har en solid baggrund i computer vision og også ved en hel del om robotter, og derfor kan hjælpe os med at forstå, hvad der sker i forskningen på dette område!
Shownote Links:
Figure 01 speech-to-speech demo: https://youtu.be/Sq1QZB5baNw?si=OxcqQU_9tCjFuXU0
3D-VLA: A 3D Vision-Language-Action Generative World Model: https://arxiv.org/abs/2403.09631
Find Nicolai Nielsen her:
YouTube: https://www.youtube.com/@NicolaiAI
LinkedIn: https://www.linkedin.com/in/nicolaiai/