בפרק הזה
הפתיחה
בישראל 2024 משתכר בעל תואר ראשון בממוצע כ-70% יותר ממי שסיים רק בגרות. זו לא טריוויה — זה מספר שמכוון החלטות של מיליוני אנשים: האם ללמוד, במה, כמה שנים. אבל מאיפה הגיע ה-70%? מישהו לקח נתוני שכר וסיים-לימודים של אלפי אנשים, ציירציר ביניהם קו, ושאל: מה שיפועו?
הכלי שעשה את זה נקרא רגרסיה ליניארית. ואנחנו עכשיו הולכים ללמוד אותו.
הבעיה המצחיקה? רוב האנשים כבר עושים רגרסיה — בלי לדעת. "הוסף קו מגמה" ב-Excel הוא בדיוק רגרסיה. ה"קו" שמצייר ה-Excel הוא לא ציור שרירותי — זהו הקו שממזער את סכום הריבועים של הפערים בין הנקודות לקו. זה בדיוק מה שנלמד בפרק הזה.
קשרים בין משתנים — שלושה טיפוסים
לפני שנגיע לרגרסיה, נבין מה בכלל "קשר". המחקר הכלכלי מחלק קשרים לשלושה:
קשר חד-ערכי — לכל ערך X מתאים ערך Y אחד ויחיד, בלי חריגים. בפיזיקה: מהירות = מרחק / זמן. תמיד, ב-100% מהמקרים. בכלכלה — כמעט לא קיים.
קשר סטטיסטי — לכל ערך X מתאים ממוצע של Y, אבל ערכי Y האמיתיים מתפזרים סביב אותו ממוצע. כמעט כל קשר כלכלי הוא כזה: שכר ↔ השכלה, מחיר ↔ ביקוש, צמיחה ↔ ריבית.
ללא קשר — X ו-Y בלתי-תלויים.
רגרסיה עוסקת בקשרים מהסוג השני — הסטטיסטי. הסטייה מהממוצע? זה גורם-המקריות (u) שהכרנו בפרק 1.
הדוגמה שתלמד אותנו: דגים
נניח שאנחנו חוקרים את הקשר בין אורך הדג ((X), בס"מ) למשקלו ((Y), בגרמים). ידוע שדגים ארוכים יותר שוקלים יותר — אבל לא כל דג של 20 ס"מ שוקל בדיוק אותו הדבר. נאסוף נתונים על 20 דגים:
| אורך (ס"מ) | משקל (גרם) |
|---|---|
| 15 | 48 |
| 18 | 68 |
| 20 | 72 |
| 22 | 85 |
| 25 | 101 |
| … | … |
בתרשים-פיזור (scatter plot) — כל דג הוא נקודה. ניתן לראות מגמה ברורה: ככל שהאורך גדל, המשקל עולה. הנקודות אינן על קו ישר — יש פיזור סביב המגמה. אבל המגמה ניכרת.
המשוואה שנרצה לאמוד:
[Y = alpha + beta X + u]
כלומר: משקל = קבוע + שיפוע × אורך + מקריות.
מה זה בעצם OLS?
OLS — Ordinary Least Squares — הוא השיטה שמוצאת את (hatalpha) ו-(hatbeta) (האומדים) כך שסכום ריבועי-השאריות הוא מינימלי.
הסבר פשוט: לכל אחת מ-20 הנקודות שלנו, יש "שגיאת חיזוי" — (u_i = Y_i – hat{Y}_i). OLS מוצא את הקו שממקסם את הדיוק, במובן הזה: (sum_{i=1}^{n} u_i^2) מינימלי.
למה ריבועים ולא ערכים מוחלטים? כי ריבועים מקנסים שגיאות גדולות בחומרה יתרה — ומאפשרים פתרון אנליטי נקי. זו לא גחמה — זו עבודה מתמטית של 200 שנה.
האומדנים המתקבלים:
[hatbeta = frac{sum_{i=1}^n (X_i – bar X)(Y_i – bar Y)}{sum_{i=1}^n (X_i – bar X)^2}]
[hatalpha = bar Y – hatbeta bar X]
כשמחשבים מהנתונים שלנו מקבלים — לדוגמה — (hatalpha = 5.7), (hatbeta = 3.8). כלומר: כל סנטימטר נוסף מוסיף 3.8 גרם.
שני קווים: אוכלוסייה ומדגם
חשוב להבחין בין שני דברים שונים:
קו-האוכלוסייה — הקשר האמיתי ב"עולם": (Y = alpha + beta X + u). (alpha) ו-(beta) הם פרמטרים אמיתיים שלא ניתן לצפות בהם — רק לאמוד.
קו-המדגם — מה שמחשבים מהנתונים שלנו: (hat Y = hatalpha + hatbeta X). (hatalpha) ו-(hatbeta) הם אומדנים — ערכים שחישבנו מנתוני המדגם כדי להתקרב לפרמטרים האמיתיים.
| אוכלוסייה | מדגם | |
|---|---|---|
| משוואה | (Y = alpha + beta X + u) | (hat Y = hatalpha + hatbeta X) |
| פרמטרים | (alpha), (beta) — אמיתיים, לא ידועים | (hatalpha), (hatbeta) — מחושבים מנתונים |
| שגיאה | (u) — אמיתי | (e = Y – hat Y) — שארית מחושבת |
הפרדה זו היא הבסיס לכל הסקה סטטיסטית — בפרקים 4 ו-5 נחזור אליה בהרחבה.
החצילים: דוגמה נוספת
תארו לכם חקלאי שבודק: כמה מים ((X), ליטר/שבוע) משפיעים על יבול החצילים ((Y), ק"ג/שבועה)? הנתונים שאסף:
| מים (ליטר) | יבול (ק"ג) |
|---|---|
| 100 | 8.2 |
| 120 | 9.5 |
| 140 | 10.1 |
| 150 | 11.3 |
| 160 | 11.8 |
אמידת-OLS נותנת: (hat Y = 1.5 + 0.065X). כלומר: כל 10 ליטר מים נוספים מוסיפים כ-0.65 ק"ג יבול בממוצע.
שימו לב: לא כל שבועה מניבה בדיוק כפי שהמשוואה חוזה — יש שאריות ((e_i)). אבל המודל מצא את הקשר הממוצע הטוב ביותר בנתוני המדגם.
והדוגמה הישראלית: השכלה ↔ שכר
אחרי הדגים והחצילים — הדוגמה שחשובה לכם:
נניח שאספנו נתוני שכר ושנות-לימוד על 10 עובדים (נתונים להמחשה):
| שנות-לימוד | שכר (₪ לחודש) |
|---|---|
| 12 | 6,500 |
| 12 | 7,000 |
| 13 | 7,200 |
| 14 | 8,000 |
| 14 | 8,500 |
| 16 | 10,000 |
| 16 | 10,500 |
| 17 | 12,000 |
| 18 | 14,000 |
| 18 | 15,000 |
אמידת-OLS (בפרק 3 נחשב את זה בפועל) תניב משהו בסדר גודל של: שכר = -4,000 + 1,100 × שנות-לימוד. כלומר: כל שנת-לימוד מוסיפה בממוצע כ-₪1,100 לחודש. ה-R² (מדד-ההתאמה, פרק 5) — גבוה.
זה בדיוק הפרק שלנו: OLS מצא את הקו הזה. בפרק הבא נלמד לחשב אותו עם Excel — ובפרק 5 נבין כמה לסמוך על מה שחישבנו.
מה זה אומר עבורכם. כשתקראו בעיתון "בעלי תואר מרוויחים X% יותר" — מאחורי הטענה הזו עומד מחקר שאמד רגרסיה. מעכשיו אתם יודעים מה שאלו, איך חישבו, ומה מניחים. שאלה טובה לשאול: "בעל-תואר מרוויח יותר — או אנשים חכמים יותר לומדים יותר ומרוויחים יותר מכל סיבה?" ה-u הזה לא נעלם.
סיכום
קשר סטטיסטי מתאר מגמה עם פיזור. קו-הרגרסיה (hat Y = hatalpha + hatbeta X) הוא הקו שממזער את (sum u_i^2) (OLS). (hatalpha) ו-(hatbeta) הם אומדנים של הפרמטרים האמיתיים — הם מחושבים מהמדגם. בפרק הבא: כיצד לחשב את זה בפועל עם Excel, Python ו-R.
פרק זה הוא חינוך פיננסי-כלכלי — הסבר של מנגנונים, לא ייעוץ. כל ניתוח כלכלי אמיתי דורש בדיקת נתונים עדכניים ושיקול דעת מקצועי.