Coursera · סדרה של 4 קורסים

קורס אונליין – תעודה מקצועית מוסמכת בלמידת חיזוק של אוניברסיטת אלברטה

התמחות בלמידת חיזוק כוללת 4 קורסים שחוקרים את הכוח של מערכות למידה מותאמות ואינטליגנציה מלאכותית (AI). כדי לנצל את מלוא הפוטנציאל של אינטיליגנציה מלאכותית, יש צורך במערכות למידה מותאמות. תלמדו כיצד פתרונות של למידת חיזוק (RL) עוזרים לפתור בעיות מהעולם האמיתי באמצעות אינטראקציה של ניסיון וטעות, על ידי יישום פתרון RL מלא מההתחלה ועד הסוף.

רמת בינייםרמת קושי
סדרה של 4 קורסיםתעודה
להרשמה בקורסרה ← הקורס הראשון חינם · audit · ללא כרטיס אשראי
קורס אונליין – תעודה מקצועית מוסמכת בלמידת חיזוק של אוניברסיטת אלברטה
למד מיומנויות נדרשות מעורכי אוניברסיטה ומומחים בתעשייה שלוט בנושא או כלי עם פרויקטים מעשיים פיתח הבנה מעמיקה של מושגים מרכזיים הרוויח תעודת קריירה מאוניברסיטת אלברטה

למי הקורס מתאים

4 מסלולי קריירה

  • למד מיומנויות נדרשות מעורכי אוניברסיטה ומומחים בתעשייה
  • שלוט בנושא או כלי עם פרויקטים מעשיים
  • פיתח הבנה מעמיקה של מושגים מרכזיים
  • הרוויח תעודת קריירה מאוניברסיטת אלברטה

מה תלמדו

4 תחומי ידע

  • בנה מערכת למידת חיזוק לקבלת החלטות סדרתיות.
  • הבנה של עולם האלגוריתמים של למידת חיזוק (למידת הבדל זמני, מונטה קרלו, סרסה, למידת Q, מעבר מדיניות, דינא ועוד).
  • הבנה כיצד לגבש את המשימה שלך כבעיה של למידת חיזוק, וכיצד להתחיל ליישם פתרון.
  • הבנה כיצד למידת חיזוק משתלבת תחת הגג הרחב של למידת מכונה, וכיצד היא משלימה למידה עמוקה, למידה מפוקחת ולמידה לא מפוקחת.

מיומנויות שתרכשו

5 כישורים מעשיים

  • אומדני פונקציה
  • בינה מלאכותית (AI)
  • למידה ממוחשבת
  • למידה מחיזוק
  • מערכות אינטליגנטיות
§ סקירת הקורס
01

תיאור הקורס

התמחות - סדרת קורסים בת 4 חלקים

התמחות בלמידת חיזוק כוללת 4 קורסים שחוקרים את הכוח של מערכות למידה מותאמות ואינטליגנציה מלאכותית (AI). כדי לנצל את מלוא הפוטנציאל של אינטיליגנציה מלאכותית, יש צורך במערכות למידה מותאמות. תלמדו כיצד פתרונות של למידת חיזוק (RL) עוזרים לפתור בעיות מהעולם האמיתי באמצעות אינטראקציה של ניסיון וטעות, על ידי יישום פתרון RL מלא מההתחלה ועד הסוף.

עד סיום ההתמחות, הלומדים יבינו את היסודות של רבות מהטכנולוגיות המודרניות באינטליגנציה מלאכותית (AI) ויהיו מוכנים להמשיך לקורסים מתקדמים יותר או ליישם כלי רעיונות של AI על בעיות מהעולם האמיתי. התוכן יתמקד בבעיות "בעל להיקף קטן" כדי להבין את יסודות למידת החיזוק, תוך הלימוד של מומחים בעלי שם עולמי מאוניברסיטת אלברטה, פקולטה למדעים.

הכלים שנלמדו בהתמחות זו יכולים להתאים ל:

  • פיתוח משחקים (AI)
  • אינטראקציה עם לקוחות (כיצד אתר אינטרנט אינטראקטיבי עם לקוחות)
  • עוזרים חכמים
  • מערכות המלצה
  • ניהול שרשרת אספקה
  • בקרה תעשייתית
  • פיתוח פיננסי
  • קווי נפט וגז
  • מערכות בקרה תעשייתיות

פרויקט למידה יישומית

באמצעות משימות תכנות וקוויזים, התלמידים:

  • יבנו מערכת למידת חיזוק שיודעת לקבל החלטות אוטומטיות.
  • יבינו כיצד RL מתייחס ומתאים תחת הכובע הרחב יותר של למידת מכונה, למידה עמוקה, למידה מפוקחת ולא מפוקחת.
  • יבינו את מרחב האלגוריתמים של RL (למידה באמצעות הפרש זמני, מונטה קרלו, סרסה, Q-learning, Policy Gradient, דינה ועוד).
  • יבינו כיצד לנסח את המשימה שלכם כבעיה של RL, וכיצד להתחיל ליישם פתרון.
§ תוכן עניינים
02

מבנה הקורס

יסודות הלמידה המוחזקת

קורס 1

  • 15 שעות
  • 4.8 (2,771 דירוגים)

פרטי הקורס

מה תלמדו
  • לתאר בעיות כתהליכי קבלת החלטות של מארקוב
  • להבין שיטות חקר בסיסיות ומאזן חקר/ניצול
  • להבין פונקציות ערך, ככלי כללי לקבלת החלטות אופטימליות
  • לדעת כיצד ליישם תכנות דינמי כגישת פתרון יעילה לבעיית שליטה תעשייתית
הכישורים שתרכשו
  • קטגוריה: אופטימיזציית פונקציות
  • קטגוריה: אינטיליגנציה מלאכותית (AI)
  • קטגוריה: למידה חוזרת
  • קטגוריה: למ machine
  • קטגוריה: מערכות חכמות

שיטות למידה מבוססות דוגמאות

קורס 2

  • 22 שעות
  • 4.8 (1,228 דירוגים)

פרטי הקורס

מה תלמדו

בקורס זה תלמדו על מספר אלגוריתמים שיכולים ללמוד מדיניות כמעט אופטימלית על סמך אינטראקציה עם הסביבה - למידה מניסיון אישי של האגנט. למידה מניסיון מעשי היא מרשימה מכיוון שאינה דורשת ידע קודם על הדינמיקה של הסביבה, אך עדיין יכולה להשיג התנהגות אופטימלית. נדון בשיטות מונטה קרלו הפשוטות אך החזקות, ובשיטות למידת הפרש הזמן כולל Q-learning. נסיים את הקורס בחקירת איך נוכל לשלב בין שני העולמות: אלגוריתמים שיכולים לשלב תכנון מבוסס מודל (בדומה לתכנות דינמי) ולעדכונים של הפרש זמן כדי להאיץ באופן דרמטי את הלמידה.

בסוף הקורס הזה תוכל:
  • להבין למידת הפרש הזמן ומונטה קרלו כשתיים מהאסטרטגיות להערכה של פונקציות ערך מניסיון מדוגם
  • להבין את החשיבות של חקר בעת שימוש בניסיון מדוגם ולא במסלולים של תכנות דינמי בתוך מודל
  • להבין את הקשרים בין מונטה קרלו, תכנות דינמי ולמידת הפרש זמן
  • ליישם וליישם את אלגוריתם TD, להערכת פונקציות ערך
  • ליישם וליישם את Sarsa הצפויה ו-Q-learning (שתי שיטות TD לשליטה)
  • להבין את ההבחנה בין שליטה על מדיניות (on-policy) לשליטה לא על מדיניות (off-policy)
  • להבין תכנון עם ניסיון סימולציה (בניגוד לאסטרטגיות תכנון מסורתיות)
  • ליישם גישה מבוססת מודל ל-RL, הנקראת Dyna, שמשתמשת בניסיון סימולציה
  • לבצע מחקר אמפירי כדי לראות את השיפורים ביעילות הדוגמאות בעת שימוש ב-Dyna
הכישורים שתרכשו
  • קטגוריה: אופטימיזציית פונקציות
  • קטגוריה: אינטיליגנציה מלאכותית (AI)
  • קטגוריה: למידה חוזרת
  • קטגוריה: למ machine
  • קטגוריה: מערכות חכמות

חיזוי ושליטה עם אופטימיזציית פונקציות

קורס 3

  • 21 שעות
  • 4.8 (820 דירוגים)

פרטי הקורס

מה תלמדו

בקורס זה תלמדו כיצד לפתור בעיות עם מרחבי מצבים גדולים, רבי-מימדיים ואפשריים אינסופיים. תראו שהערכת פונקציות ערך יכולה להיות מוצגת כבעיה של למידה מפוקחת - אופטימיזציית פונקציות - המאפשרת לכם לבנות אגנטים שמאזנים בזהירות בין הכללה להבחנה כדי למקסם את התגמול. נתחיל את המסע הזה על ידי חקר כיצד שיטות הערכת מדיניות או חיזוי כמו מונטה קרלו ו-TD יכולות להימשך להגדרת אופטימיזציית פונקציות. תלמדו על טכניקות בניית תכונות עבור RL ולמידת ייצוגים באמצעות רשתות נוירונים וחזרת. נסיים את הקורס הזה בדילוג מעמיק על שיטות גרדיאנט מדיניות; דרך ללמוד מדיניות באופן ישיר מבלי ללמוד פונקציית ערך. בקורס זה תפתרו שתי משימות שליטה עם מצב רציף ותחקור את היתרונות של שיטות גרדיאנט מדיניות בסביבת פעולה רציפה. דרישות מקדימות: קורס זה מתבסס חזק על יסודות הקורסים 1 ו-2, ולומדים צריכים להשלים את אלו לפני תחילת קורס זה. לומדים צריכים גם להיות נוחים עם הסתברויות וציפיות, אלגברה ליניארית בסיסית, חישוב בסיסי, Python 3.0 (לפחות שנה אחת), ויישום אלגוריתמים מקוד-שקר.

בסוף הקורס הזה תוכל:
  • להבין כיצד להשתמש בגישות למידה מפוקחת להעריך פונקציות ערך
  • להבין מטרות לחיזוי (הערכת ערך) תחת אופטימיזציית פונקציות
  • ליישם TD עם אופטימיזציית פונקציות (אגרגציה מצב), בסביבה עם מרחב מצב אינסופי (מרחב מצב רציף)
  • להבין גישות בסיס קבוע ורשתות נוירונים לבניית תכונות
  • ליישם TD עם אופטימיזציית פונקציות בעזרת רשתות נוירונים בסביבת מצב רציף
  • להבין את הקשיים החדשים בחקר בעת המעבר לאופטימיזציית פונקציות
  • להשוות בין הצגות בעיות דיסקונטיות לשליטה מול הצגה של בעיות תמריצים ממוצעים
  • ליישם את Sarsa הצפויה ו-Q-learning עם אופטימיזציית פונקציות במשימת שליטה עם מצב רציף
  • להבין מטרות להערכת מדיניות ישירות (מטרות גרדיאנט מדיניות)
  • ליישם שיטת גרדיאנט מדיניות (נקראת Actor-Critic) בסביבה עם מצב דיסקרטי
הכישורים שתרכשו
  • קטגוריה: אופטימיזציית פונקציות
  • קטגוריה: אינטיליגנציה מלאכותית (AI)
  • קטגוריה: למידה חוזרת
  • קטגוריה: למ machine
  • קטגוריה: מערכות חכמות

מערכת למידה מוחזקת שלמה (קאפסטון)

קורס 4

  • 15 שעות
  • 4.7 (627 דירוגים)

פרטי הקורס

מה תלמדו

בקורס האחרון הזה, תשלבו את הידע שלכם מהקורסים 1, 2 ו-3 כדי ליישם פתרון RL שלם לבעיה. קאפסטון זו תאפשר לכם לראות כיצד כל רכיב - ניסוח הבעיה, בחירת אלגוריתם, בחירת פרמטרים ועיצוב ייצוג - מתאים יחד לפתרון שלם, וכיצד לעשות בחירות מתאימות כאשר מיישמים RL בעולם האמיתי. הפרויקט הזה ידרוש מכם ליישם גם את הסביבה לסטימולציה של הבעיה שלכם, וגם אגנט שליטה עם אופטימיזציית פונקציות של רשת נוירונים. בנוסף, תבצעו מחקר מדעי של מערכת הלמידה שלכם כדי לפתח את היכולת שלכם להעריך את החוסן של אגנטי RL. כדי להשתמש ב-RL בעולם האמיתי, זה קריטי (א) לנסח את הבעיה כראוי כתהליך קבלת החלטות של מארקוב, (ב) לבחור את האלגוריתמים המתאימים, (ג) לזהות אילו בחירות במימוש שלכם יהיו בעלות השפעה גדולה על הביצועים, ו-(ד) לאמת את ההתנהגות הצפויה של האלגוריתמים שלכם. קאפסטון זו מועילה לכל מי שמתכנן להשתמש ב-RL כדי לפתור בעיות אמיתיות. כדי להצליח בקורס הזה, תצטרכו להשלים את הקורסים 1, 2, ו-3 של ההתמחות הזו או את המקבילה שלהם.

בסוף הקורס הזה תוכל:
  • להשלים פתרון RL לבעיה, החל מניסוח הבעיה, בחירת אלגוריתם מתאים ויישום, ועד מחקר אמפירי על אפקטיביות הפתרון.
הכישורים שתרכשו
  • קטגוריה: אופטימיזציית פונקציות
  • קטגוריה: אינטיליגנציה מלאכותית (AI)
  • קטגוריה: למידה חוזרת
  • קטגוריה: למ machine
  • קטגוריה: מערכות חכמות

ראיתם את הקורס. מוכנים להירשם?

מעבר לקורסרה · הקורס הראשון פתוח לצפייה חינם · ביטול בכל שלב

לפרטים נוספים והרשמה בקורסרה ←
§ עוזרים להתחיל

3 וידאוים קצרים לפני שנרשמים לקורס.

לפני שאתם מוציאים כרטיס אשראי — קחו 6 דקות. סבר על Coursera, איך נרשמים, ואיך התעודה משתלבת בלינקדאין שלכם.

צפו · 2 דק'

מה זה Coursera?

סקירה קצרה של פלטפורמת הלימוד הגדולה בעולם — מי מאחוריה, איך התעודות מוכרות, ומה ההבדל מ-Udemy ו-edX.

צפו בסרטון ←
צפו · 2 דק'

איך נרשמים ב-2 דקות

הדגמה ויזואלית של תהליך ההרשמה — מהקלקה על "להרשמה" ועד תחילת הקורס הראשון. כולל אופציית audit חינמי.

צפו בסרטון ←
צפו · 2 דק'

איך מכניסים את התעודה ל-LinkedIn

הוספת התעודה כ-License & Certification בפרופיל לינקדאין, עם קישור ל-Coursera שמעלים את הקרדיביליות.

צפו בסרטון ←

מוכנים להתחיל?

הקורס מחכה. התעודה מחכה.

הקורס זמין ב-Coursera. הקורס הראשון בסדרה פתוח לצפייה ללא תשלום.

⚠ MSL הוא קטלוג קורסים — לא ספק הקורס. הקורס מתפרסם ומנוהל דרך פלטפורמת Coursera. תוכן הקורס, עלויות, תעודות, ותנאי שימוש — באחריות Coursera והמרצים. MSL מציג את המידע מתוך מטרה לעזור לגולש לבחור, ולא מספק את הקורס עצמו.