על למידה חיזוקית באימון מודלי שפה RLHF עם מייק
Listen now
Description
קשה לעבור ברחוב היום בלי לשמוע מישהו מספר לחברו על צ'אט ג'י פי טי אוLLM אחד החידושים באימון שלו, למעשה בInstructGPTהיו השימוש בלמידה חיזוקית על בסיס דאטא מתויג אנושי בתהליך הדגימה נספר על אלגוריתם הRLHFושילובו בתוך מודלי השפהLLM
More Episodes
למודלי שפה (גדולים) יש שלושה תת-מודלים: הטוקנייזר, הטרנספורמר, ואלגוריתם הפענוח.אלגוריתם הפיענוח בדרך כלל אינו נלמד, אלא הוא איזה שהיא יוריסטיקה סדרתית של חיפוש בעץ על סמך ההסתברויות של הטרנספורמר. אבל מי מבטיח שהיוריסטיקה הזו היא הדבר האידיאלי לעשות בהנתן הפלט של הטרנספורמר. Consistency LLMs...
Published 06/23/24
Published 06/23/24