Description
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי Replay Bufferסוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policyאו למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policyבגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודליRL