אקונומטריקה · פרק 2 מ-7

קשר בין משתנים

הכלי שמצייר את הקו — ומחשב את השיפוע שלו

הפתיחה

בישראל 2024 משתכר בעל תואר ראשון בממוצע כ-70% יותר ממי שסיים רק בגרות. זו לא טריוויה — זה מספר שמכוון החלטות של מיליוני אנשים: האם ללמוד, במה, כמה שנים. אבל מאיפה הגיע ה-70%? מישהו לקח נתוני שכר וסיים-לימודים של אלפי אנשים, ציירציר ביניהם קו, ושאל: מה שיפועו?

הכלי שעשה את זה נקרא רגרסיה ליניארית. ואנחנו עכשיו הולכים ללמוד אותו.

הבעיה המצחיקה? רוב האנשים כבר עושים רגרסיה — בלי לדעת. "הוסף קו מגמה" ב-Excel הוא בדיוק רגרסיה. ה"קו" שמצייר ה-Excel הוא לא ציור שרירותי — זהו הקו שממזער את סכום הריבועים של הפערים בין הנקודות לקו. זה בדיוק מה שנלמד בפרק הזה.


קשרים בין משתנים — שלושה טיפוסים

לפני שנגיע לרגרסיה, נבין מה בכלל "קשר". המחקר הכלכלי מחלק קשרים לשלושה:

קשר חד-ערכי — לכל ערך X מתאים ערך Y אחד ויחיד, בלי חריגים. בפיזיקה: מהירות = מרחק / זמן. תמיד, ב-100% מהמקרים. בכלכלה — כמעט לא קיים.

קשר סטטיסטי — לכל ערך X מתאים ממוצע של Y, אבל ערכי Y האמיתיים מתפזרים סביב אותו ממוצע. כמעט כל קשר כלכלי הוא כזה: שכר ↔ השכלה, מחיר ↔ ביקוש, צמיחה ↔ ריבית.

ללא קשר — X ו-Y בלתי-תלויים.

רגרסיה עוסקת בקשרים מהסוג השני — הסטטיסטי. הסטייה מהממוצע? זה גורם-המקריות (u) שהכרנו בפרק 1.


הדוגמה שתלמד אותנו: דגים

נניח שאנחנו חוקרים את הקשר בין אורך הדג ((X), בס"מ) למשקלו ((Y), בגרמים). ידוע שדגים ארוכים יותר שוקלים יותר — אבל לא כל דג של 20 ס"מ שוקל בדיוק אותו הדבר. נאסוף נתונים על 20 דגים:

אורך (ס"מ) משקל (גרם)
15 48
18 68
20 72
22 85
25 101

בתרשים-פיזור (scatter plot) — כל דג הוא נקודה. ניתן לראות מגמה ברורה: ככל שהאורך גדל, המשקל עולה. הנקודות אינן על קו ישר — יש פיזור סביב המגמה. אבל המגמה ניכרת.

אורך (cm)משקל (g)פיזור: אורך ומשקל של דגים
20 נקודות: אורך (cm) לעומת משקל (g). קשר חיובי ברור — ארוך יותר = כבד יותר · ספרות סטנדרטית · הגרף מיועד להמחשה בלבד ואינו ייעוץ השקעות.

המשוואה שנרצה לאמוד:

[Y = alpha + beta X + u]

כלומר: משקל = קבוע + שיפוע × אורך + מקריות.


מה זה בעצם OLS?

OLS — Ordinary Least Squares — הוא השיטה שמוצאת את (hatalpha) ו-(hatbeta) (האומדים) כך שסכום ריבועי-השאריות הוא מינימלי.

הסבר פשוט: לכל אחת מ-20 הנקודות שלנו, יש "שגיאת חיזוי" — (u_i = Y_i – hat{Y}_i). OLS מוצא את הקו שממקסם את הדיוק, במובן הזה: (sum_{i=1}^{n} u_i^2) מינימלי.

למה ריבועים ולא ערכים מוחלטים? כי ריבועים מקנסים שגיאות גדולות בחומרה יתרה — ומאפשרים פתרון אנליטי נקי. זו לא גחמה — זו עבודה מתמטית של 200 שנה.

האומדנים המתקבלים:

[hatbeta = frac{sum_{i=1}^n (X_i – bar X)(Y_i – bar Y)}{sum_{i=1}^n (X_i – bar X)^2}]

[hatalpha = bar Y – hatbeta bar X]

כשמחשבים מהנתונים שלנו מקבלים — לדוגמה — (hatalpha = 5.7), (hatbeta = 3.8). כלומר: כל סנטימטר נוסף מוסיף 3.8 גרם.

X (אורך)Y (משקל)Y=5.7+3.8Xקו-הרגרסיה: Y=5.7+3.8X
OLS ממזער סכום-ריבועי-שארית. b=3.8: כל cm אורך = +3.8g. a=5.7 = חיתוך-y · ספרות סטנדרטית · הגרף מיועד להמחשה בלבד ואינו ייעוץ השקעות.

שני קווים: אוכלוסייה ומדגם

חשוב להבחין בין שני דברים שונים:

קו-האוכלוסייה — הקשר האמיתי ב"עולם": (Y = alpha + beta X + u). (alpha) ו-(beta) הם פרמטרים אמיתיים שלא ניתן לצפות בהם — רק לאמוד.

קו-המדגם — מה שמחשבים מהנתונים שלנו: (hat Y = hatalpha + hatbeta X). (hatalpha) ו-(hatbeta) הם אומדנים — ערכים שחישבנו מנתוני המדגם כדי להתקרב לפרמטרים האמיתיים.

אוכלוסייה מדגם
משוואה (Y = alpha + beta X + u) (hat Y = hatalpha + hatbeta X)
פרמטרים (alpha), (beta) — אמיתיים, לא ידועים (hatalpha), (hatbeta) — מחושבים מנתונים
שגיאה (u) — אמיתי (e = Y – hat Y) — שארית מחושבת

הפרדה זו היא הבסיס לכל הסקה סטטיסטית — בפרקים 4 ו-5 נחזור אליה בהרחבה.


החצילים: דוגמה נוספת

תארו לכם חקלאי שבודק: כמה מים ((X), ליטר/שבוע) משפיעים על יבול החצילים ((Y), ק"ג/שבועה)? הנתונים שאסף:

מים (ליטר) יבול (ק"ג)
100 8.2
120 9.5
140 10.1
150 11.3
160 11.8

אמידת-OLS נותנת: (hat Y = 1.5 + 0.065X). כלומר: כל 10 ליטר מים נוספים מוסיפים כ-0.65 ק"ג יבול בממוצע.

שימו לב: לא כל שבועה מניבה בדיוק כפי שהמשוואה חוזה — יש שאריות ((e_i)). אבל המודל מצא את הקשר הממוצע הטוב ביותר בנתוני המדגם.


והדוגמה הישראלית: השכלה ↔ שכר

אחרי הדגים והחצילים — הדוגמה שחשובה לכם:

נניח שאספנו נתוני שכר ושנות-לימוד על 10 עובדים (נתונים להמחשה):

שנות-לימוד שכר (₪ לחודש)
12 6,500
12 7,000
13 7,200
14 8,000
14 8,500
16 10,000
16 10,500
17 12,000
18 14,000
18 15,000

אמידת-OLS (בפרק 3 נחשב את זה בפועל) תניב משהו בסדר גודל של: שכר = -4,000 + 1,100 × שנות-לימוד. כלומר: כל שנת-לימוד מוסיפה בממוצע כ-₪1,100 לחודש. ה-R² (מדד-ההתאמה, פרק 5) — גבוה.

שנות-לימודשכר (K)b=4.8רגרסיה: שנות-לימוד –> שכר (ישראל)
שנת-לימוד נוספת = +4.8K שכר (ממוצע). הפיזור סביב הקו = גורמים נוספים · ספרות סטנדרטית · הגרף מיועד להמחשה בלבד ואינו ייעוץ השקעות.

זה בדיוק הפרק שלנו: OLS מצא את הקו הזה. בפרק הבא נלמד לחשב אותו עם Excel — ובפרק 5 נבין כמה לסמוך על מה שחישבנו.


מה זה אומר עבורכם. כשתקראו בעיתון "בעלי תואר מרוויחים X% יותר" — מאחורי הטענה הזו עומד מחקר שאמד רגרסיה. מעכשיו אתם יודעים מה שאלו, איך חישבו, ומה מניחים. שאלה טובה לשאול: "בעל-תואר מרוויח יותר — או אנשים חכמים יותר לומדים יותר ומרוויחים יותר מכל סיבה?" ה-u הזה לא נעלם.


סיכום

קשר סטטיסטי מתאר מגמה עם פיזור. קו-הרגרסיה (hat Y = hatalpha + hatbeta X) הוא הקו שממזער את (sum u_i^2) (OLS). (hatalpha) ו-(hatbeta) הם אומדנים של הפרמטרים האמיתיים — הם מחושבים מהמדגם. בפרק הבא: כיצד לחשב את זה בפועל עם Excel, Python ו-R.

פרק זה הוא חינוך פיננסי-כלכלי — הסבר של מנגנונים, לא ייעוץ. כל ניתוח כלכלי אמיתי דורש בדיקת נתונים עדכניים ושיקול דעת מקצועי.


גילוי נאות: התוכן באתר אינו ייעוץ פיננסי, פנסיוני, מסים או השקעות. החלטות פיננסיות אישיות מומלץ לקבל בליווי בעל מקצוע מוסמך.