על פרטיות דיפרנציאלית עם משה שנפלד
Listen now
Description
יש הרבה עיסוק בסכנות הכרוכות בהדלפה של פרטים מזהים בדאטאסטים או בתוך משקולות של מודלים מאומנים.בפרק זה משה שנפלד, חוקר בתחום, יספר לנו כמה זה מורכב להפוך דאטאסט אנונימי ונדבר על כמה פדיחות שקרו בתחום.נדבר על האתגרים של אימון מודלים בצורה פרטית, והאם מדובר בסוג חדש של רגולרזיציה.נכסה אלגוריתמים כמו k-annonimity ונדבר על Differential privacy שהיא הסטנדרט היום בתחום.הרעיון המרכזי בפרטיות דיפרנציאלית הוא הכנסת רעש מבוקר, כזה שיפריע לזהות אינדיבידואלית אבל לא יפריע למודל להתאמן.נדבר על שיטות כמו DP-SGD שמכניסים את הרעיון הזה לתוך צעדי הגרדיאנט באימון רשתות.קישורים: The netflix prize Very recent example from the pentagon How one man’s pay-to-use toilet gag revealed Google Maps can be used to track people Sweeney’s attack  
More Episodes
למודלי שפה (גדולים) יש שלושה תת-מודלים: הטוקנייזר, הטרנספורמר, ואלגוריתם הפענוח.אלגוריתם הפיענוח בדרך כלל אינו נלמד, אלא הוא איזה שהיא יוריסטיקה סדרתית של חיפוש בעץ על סמך ההסתברויות של הטרנספורמר. אבל מי מבטיח שהיוריסטיקה הזו היא הדבר האידיאלי לעשות בהנתן הפלט של הטרנספורמר. Consistency LLMs...
Published 06/23/24
Published 06/23/24
ערכים חסרים הם נחלתו של כל מי שעוסק בעיבוד מידע טבלאי, הפעם נתמקד בהשלמת ערכים רציפים עם Predictive mean matching. אחת השיטות הנפוצות MICE, לא היתה זמינה עד לאחרונה למשתמש פייתון - וכעת נמצאת במודול הexperimental של scikit learn.נעשה סקירה קצרה על מתי כדאי להשלים ערכים חסרים ומתי לא, ונדבר על...
Published 06/14/24