קשר בין משתנים: מתאם, סיבתיות ומה שביניהם

הפתיחה

בישראל 2024 משתכר בעל תואר ראשון בממוצע כ-70% יותר ממי שסיים רק בגרות. זו לא טריוויה — זה מספר שמכוון החלטות של מיליוני אנשים: האם ללמוד, במה, כמה שנים. אבל מאיפה הגיע ה-70%? מישהו לקח נתוני שכר וסיים-לימודים של אלפי אנשים, ציירציר ביניהם קו, ושאל: מה שיפועו?

הכלי שעשה את זה נקרא רגרסיה ליניארית. ואנחנו עכשיו הולכים ללמוד אותו.

הבעיה המצחיקה? רוב האנשים כבר עושים רגרסיה — בלי לדעת. "הוסף קו מגמה" ב-Excel הוא בדיוק רגרסיה. ה"קו" שמצייר ה-Excel הוא לא ציור שרירותי — זהו הקו שממזער את סכום הריבועים של הפערים בין הנקודות לקו. זה בדיוק מה שנלמד בפרק הזה.

קשרים בין משתנים — שלושה טיפוסים

לפני שנגיע לרגרסיה, נבין מה בכלל "קשר". המחקר הכלכלי מחלק קשרים לשלושה:

קשר חד-ערכי — לכל ערך X מתאים ערך Y אחד ויחיד, בלי חריגים. בפיזיקה: מהירות = מרחק / זמן. תמיד, ב-100% מהמקרים. בכלכלה — כמעט לא קיים.

קשר סטטיסטי — לכל ערך X מתאים ממוצע של Y, אבל ערכי Y האמיתיים מתפזרים סביב אותו ממוצע. כמעט כל קשר כלכלי הוא כזה: שכר ↔ השכלה, מחיר ↔ ביקוש, צמיחה ↔ ריבית.

ללא קשר — X ו-Y בלתי-תלויים.

רגרסיה עוסקת בקשרים מהסוג השני — הסטטיסטי. הסטייה מהממוצע? זה גורם-המקריות (u) שהכרנו בפרק 1.

הדוגמה שתלמד אותנו: דגים

נניח שאנחנו חוקרים את הקשר בין אורך הדג ((X), בס"מ) למשקלו ((Y), בגרמים). ידוע שדגים ארוכים יותר שוקלים יותר — אבל לא כל דג של 20 ס"מ שוקל בדיוק אותו הדבר. נאסוף נתונים על 20 דגים:

אורך (ס"מ)	משקל (גרם)
15	48
18	68
20	72
22	85
25	101
…	…

בתרשים-פיזור (scatter plot) — כל דג הוא נקודה. ניתן לראות מגמה ברורה: ככל שהאורך גדל, המשקל עולה. הנקודות אינן על קו ישר — יש פיזור סביב המגמה. אבל המגמה ניכרת.

20 נקודות: אורך (cm) לעומת משקל (g). קשר חיובי ברור — ארוך יותר = כבד יותר · ספרות סטנדרטית · הגרף מיועד להמחשה בלבד ואינו ייעוץ השקעות.

המשוואה שנרצה לאמוד:

[Y = alpha + beta X + u]

כלומר: משקל = קבוע + שיפוע × אורך + מקריות.

מה זה בעצם OLS?

OLS — Ordinary Least Squares — הוא השיטה שמוצאת את (hatalpha) ו-(hatbeta) (האומדים) כך שסכום ריבועי-השאריות הוא מינימלי.

הסבר פשוט: לכל אחת מ-20 הנקודות שלנו, יש "שגיאת חיזוי" — (u_i = Y_i – hat{Y}_i). OLS מוצא את הקו שממקסם את הדיוק, במובן הזה: (sum_{i=1}^{n} u_i^2) מינימלי.

למה ריבועים ולא ערכים מוחלטים? כי ריבועים מקנסים שגיאות גדולות בחומרה יתרה — ומאפשרים פתרון אנליטי נקי. זו לא גחמה — זו עבודה מתמטית של 200 שנה.

האומדנים המתקבלים:

[hatbeta = frac{sum_{i=1}^n (X_i – bar X)(Y_i – bar Y)}{sum_{i=1}^n (X_i – bar X)^2}]

[hatalpha = bar Y – hatbeta bar X]

כשמחשבים מהנתונים שלנו מקבלים — לדוגמה — (hatalpha = 5.7), (hatbeta = 3.8). כלומר: כל סנטימטר נוסף מוסיף 3.8 גרם.

OLS ממזער סכום-ריבועי-שארית. b=3.8: כל cm אורך = +3.8g. a=5.7 = חיתוך-y · ספרות סטנדרטית · הגרף מיועד להמחשה בלבד ואינו ייעוץ השקעות.

שני קווים: אוכלוסייה ומדגם

חשוב להבחין בין שני דברים שונים:

קו-האוכלוסייה — הקשר האמיתי ב"עולם": (Y = alpha + beta X + u). (alpha) ו-(beta) הם פרמטרים אמיתיים שלא ניתן לצפות בהם — רק לאמוד.

קו-המדגם — מה שמחשבים מהנתונים שלנו: (hat Y = hatalpha + hatbeta X). (hatalpha) ו-(hatbeta) הם אומדנים — ערכים שחישבנו מנתוני המדגם כדי להתקרב לפרמטרים האמיתיים.

	אוכלוסייה	מדגם
משוואה	(Y = alpha + beta X + u)	(hat Y = hatalpha + hatbeta X)
פרמטרים	(alpha), (beta) — אמיתיים, לא ידועים	(hatalpha), (hatbeta) — מחושבים מנתונים
שגיאה	(u) — אמיתי	(e = Y – hat Y) — שארית מחושבת

הפרדה זו היא הבסיס לכל הסקה סטטיסטית — בפרקים 4 ו-5 נחזור אליה בהרחבה.

החצילים: דוגמה נוספת

תארו לכם חקלאי שבודק: כמה מים ((X), ליטר/שבוע) משפיעים על יבול החצילים ((Y), ק"ג/שבועה)? הנתונים שאסף:

מים (ליטר)	יבול (ק"ג)
100	8.2
120	9.5
140	10.1
150	11.3
160	11.8

אמידת-OLS נותנת: (hat Y = 1.5 + 0.065X). כלומר: כל 10 ליטר מים נוספים מוסיפים כ-0.65 ק"ג יבול בממוצע.

שימו לב: לא כל שבועה מניבה בדיוק כפי שהמשוואה חוזה — יש שאריות ((e_i)). אבל המודל מצא את הקשר הממוצע הטוב ביותר בנתוני המדגם.

והדוגמה הישראלית: השכלה ↔ שכר

אחרי הדגים והחצילים — הדוגמה שחשובה לכם:

נניח שאספנו נתוני שכר ושנות-לימוד על 10 עובדים (נתונים להמחשה):

שנות-לימוד	שכר (₪ לחודש)
12	6,500
12	7,000
13	7,200
14	8,000
14	8,500
16	10,000
16	10,500
17	12,000
18	14,000
18	15,000

אמידת-OLS (בפרק 3 נחשב את זה בפועל) תניב משהו בסדר גודל של: שכר = -4,000 + 1,100 × שנות-לימוד. כלומר: כל שנת-לימוד מוסיפה בממוצע כ-₪1,100 לחודש. ה-R² (מדד-ההתאמה, פרק 5) — גבוה.

שנת-לימוד נוספת = +4.8K שכר (ממוצע). הפיזור סביב הקו = גורמים נוספים · ספרות סטנדרטית · הגרף מיועד להמחשה בלבד ואינו ייעוץ השקעות.

זה בדיוק הפרק שלנו: OLS מצא את הקו הזה. בפרק הבא נלמד לחשב אותו עם Excel — ובפרק 5 נבין כמה לסמוך על מה שחישבנו.

מה זה אומר עבורכם. כשתקראו בעיתון "בעלי תואר מרוויחים X% יותר" — מאחורי הטענה הזו עומד מחקר שאמד רגרסיה. מעכשיו אתם יודעים מה שאלו, איך חישבו, ומה מניחים. שאלה טובה לשאול: "בעל-תואר מרוויח יותר — או אנשים חכמים יותר לומדים יותר ומרוויחים יותר מכל סיבה?" ה-u הזה לא נעלם.

סיכום

קשר סטטיסטי מתאר מגמה עם פיזור. קו-הרגרסיה (hat Y = hatalpha + hatbeta X) הוא הקו שממזער את (sum u_i^2) (OLS). (hatalpha) ו-(hatbeta) הם אומדנים של הפרמטרים האמיתיים — הם מחושבים מהמדגם. בפרק הבא: כיצד לחשב את זה בפועל עם Excel, Python ו-R.

פרק זה הוא חינוך פיננסי-כלכלי — הסבר של מנגנונים, לא ייעוץ. כל ניתוח כלכלי אמיתי דורש בדיקת נתונים עדכניים ושיקול דעת מקצועי.

קשר בין משתנים

הפתיחה

קשרים בין משתנים — שלושה טיפוסים

הדוגמה שתלמד אותנו: דגים

סוגי-נכסים במיטב-טרייד — מניות, קרנות, אג"ח, אופציות-מעו"ף ושורטים

נטל הביטחון בהשוואה בינלאומית: איפה ישראל מול העולם

איפה האתר שלך בגוגל

מה זה בעצם OLS?

שני קווים: אוכלוסייה ומדגם

החצילים: דוגמה נוספת

והדוגמה הישראלית: השכלה ↔ שכר

סיכום

האם האינפלציה בישראל מעל היעד? המספר בכותרות בן שנתיים

איך קוראים נתון כלכלי: 4 מבחנים לפני שאתה מתרגש

ריבית בנק ישראל — מה זה, איך נקבעת, ואיך היא נוגעת למשכנתא שלך