שלטו במושגי למידת חיזוק. יישמו פתרון RL שלם והבינו כיצד להפעיל כלים של AI כדי לפתור בעיות מהעולם האמיתי.
שלטו במושגי למידת חיזוק. יישמו פתרון RL שלם והבינו כיצד להפעיל כלים של AI כדי לפתור בעיות מהעולם האמיתי.
מוצע על ידי: קורסרה (מה זה קורסרה?)
סדרה של 4 קורסים
לא נדרש ידע מוקדם
ללא סיכונים מיותרים
התמחות בלמידת חיזוק כוללת 4 קורסים שחוקרים את הכוח של מערכות למידה מותאמות ואינטליגנציה מלאכותית (AI). כדי לנצל את מלוא הפוטנציאל של אינטיליגנציה מלאכותית, יש צורך במערכות למידה מותאמות. תלמדו כיצד פתרונות של למידת חיזוק (RL) עוזרים לפתור בעיות מהעולם האמיתי באמצעות אינטראקציה של ניסיון וטעות, על ידי יישום פתרון RL מלא מההתחלה ועד הסוף.
עד סיום ההתמחות, הלומדים יבינו את היסודות של רבות מהטכנולוגיות המודרניות באינטליגנציה מלאכותית (AI) ויהיו מוכנים להמשיך לקורסים מתקדמים יותר או ליישם כלי רעיונות של AI על בעיות מהעולם האמיתי. התוכן יתמקד בבעיות "בעל להיקף קטן" כדי להבין את יסודות למידת החיזוק, תוך הלימוד של מומחים בעלי שם עולמי מאוניברסיטת אלברטה, פקולטה למדעים.
באמצעות משימות תכנות וקוויזים, התלמידים:
בקורס זה תלמדו על מספר אלגוריתמים שיכולים ללמוד מדיניות כמעט אופטימלית על סמך אינטראקציה עם הסביבה – למידה מניסיון אישי של האגנט. למידה מניסיון מעשי היא מרשימה מכיוון שאינה דורשת ידע קודם על הדינמיקה של הסביבה, אך עדיין יכולה להשיג התנהגות אופטימלית. נדון בשיטות מונטה קרלו הפשוטות אך החזקות, ובשיטות למידת הפרש הזמן כולל Q-learning. נסיים את הקורס בחקירת איך נוכל לשלב בין שני העולמות: אלגוריתמים שיכולים לשלב תכנון מבוסס מודל (בדומה לתכנות דינמי) ולעדכונים של הפרש זמן כדי להאיץ באופן דרמטי את הלמידה.
בקורס זה תלמדו כיצד לפתור בעיות עם מרחבי מצבים גדולים, רבי-מימדיים ואפשריים אינסופיים. תראו שהערכת פונקציות ערך יכולה להיות מוצגת כבעיה של למידה מפוקחת – אופטימיזציית פונקציות – המאפשרת לכם לבנות אגנטים שמאזנים בזהירות בין הכללה להבחנה כדי למקסם את התגמול. נתחיל את המסע הזה על ידי חקר כיצד שיטות הערכת מדיניות או חיזוי כמו מונטה קרלו ו-TD יכולות להימשך להגדרת אופטימיזציית פונקציות. תלמדו על טכניקות בניית תכונות עבור RL ולמידת ייצוגים באמצעות רשתות נוירונים וחזרת. נסיים את הקורס הזה בדילוג מעמיק על שיטות גרדיאנט מדיניות; דרך ללמוד מדיניות באופן ישיר מבלי ללמוד פונקציית ערך. בקורס זה תפתרו שתי משימות שליטה עם מצב רציף ותחקור את היתרונות של שיטות גרדיאנט מדיניות בסביבת פעולה רציפה. דרישות מקדימות: קורס זה מתבסס חזק על יסודות הקורסים 1 ו-2, ולומדים צריכים להשלים את אלו לפני תחילת קורס זה. לומדים צריכים גם להיות נוחים עם הסתברויות וציפיות, אלגברה ליניארית בסיסית, חישוב בסיסי, Python 3.0 (לפחות שנה אחת), ויישום אלגוריתמים מקוד-שקר.
בקורס האחרון הזה, תשלבו את הידע שלכם מהקורסים 1, 2 ו-3 כדי ליישם פתרון RL שלם לבעיה. קאפסטון זו תאפשר לכם לראות כיצד כל רכיב – ניסוח הבעיה, בחירת אלגוריתם, בחירת פרמטרים ועיצוב ייצוג – מתאים יחד לפתרון שלם, וכיצד לעשות בחירות מתאימות כאשר מיישמים RL בעולם האמיתי. הפרויקט הזה ידרוש מכם ליישם גם את הסביבה לסטימולציה של הבעיה שלכם, וגם אגנט שליטה עם אופטימיזציית פונקציות של רשת נוירונים. בנוסף, תבצעו מחקר מדעי של מערכת הלמידה שלכם כדי לפתח את היכולת שלכם להעריך את החוסן של אגנטי RL. כדי להשתמש ב-RL בעולם האמיתי, זה קריטי (א) לנסח את הבעיה כראוי כתהליך קבלת החלטות של מארקוב, (ב) לבחור את האלגוריתמים המתאימים, (ג) לזהות אילו בחירות במימוש שלכם יהיו בעלות השפעה גדולה על הביצועים, ו-(ד) לאמת את ההתנהגות הצפויה של האלגוריתמים שלכם. קאפסטון זו מועילה לכל מי שמתכנן להשתמש ב-RL כדי לפתור בעיות אמיתיות. כדי להצליח בקורס הזה, תצטרכו להשלים את הקורסים 1, 2, ו-3 של ההתמחות הזו או את המקבילה שלהם.