אקונומטריקה · פרק 4 מ-7

תכונות האומדים וההנחות הקלאסיות

OLS מחשב — אבל מתי כדאי לסמוך עליו?

הפתיחה

הצמיחה בישראל ב-1950 הייתה כ-12%, ב-1985 כ-3%, ב-1995 כ-6.8%. נניח שתרצו לאמוד את הקשר בין השקעה-ממשלתית (%GDP) לצמיחה על בסיס 46 שנות-נתונים אלה. OLS נותן לכם (hatalpha) ו-(hatbeta). שאלה: האם תוצאות אלה ניתנות לאמון?

כאן נכנסות תכונות האומדים. OLS הוא כלי — אבל הוא "עובד כמו שצריך" רק אם מספר תנאים מתקיימים. שם לתנאים האלה: הנחות גאוס-מרקוב.


מה אנחנו רוצים מאומד?

שלוש תכונות בסיסיות שהיינו רוצים שיהיו לאומד (hatbeta):

1. חוסר-הטיה (Unbiasedness)

אומד נקרא לא-מוטה אם תוחלתו שווה לפרמטר האמיתי:

[E[hatbeta] = beta]

פירוש: אם נחזור על הניסוי שלנו (נאסוף מדגמים שונים שוב ושוב), הממוצע של כל (hatbeta)-ים שנקבל יהיה (beta) האמיתי. לא שכל אומד יהיה בדיוק (beta) — אבל הם לא יטו שיטתית לכיוון אחד.

2. יעילות (Efficiency)

מבין כל האומדים הלא-מוטים הקיימים, (hatbeta) יהיה יעיל אם השונות שלו היא הנמוכה ביותר:

[Var(hatbeta) text{ מינימלי}]

יעילות = אחוז ה"ייצוג" של המדגם שנמצא בשימוש מלא. (hatbeta) עם שונות נמוכה הוא (hatbeta) שמתנדנד פחות בין מדגם למדגם.

3. עקביות (Consistency)

ככל שגדל מספר-התצפיות (n), האומד מתקרב לפרמטר האמיתי:

[hatbeta xrightarrow{p} beta text{ כאשר } n to infty]

OLS מקיים את שלוש התכונות — בתנאי שחמש ההנחות הבאות מתקיימות.


חמש הנחות גאוס-מרקוב

אלה ההנחות שגאוס ומרקוב הוכיחו שאם מתקיימות — OLS הוא האומד הלא-מוטה היעיל ביותר (BLUE: Best Linear Unbiased Estimator):

הנחה 1 — לינאריות. המודל לינארי בפרמטרים: (Y = alpha + beta X + u). X יכול להיות ריבועי, לוגריתמי — אבל (alpha) ו-(beta) עצמם לינאריים.

הנחה 2 — תוחלת-אפס של u. (E[u_i] = 0) לכל (i). גורם-המקריות אינו מוטה שיטתית — "לא מוצמד" לאף ערך X.

הנחה 3 — שונות קבועה (הומוסקדסטיות). (Var(u_i) = sigma^2) — קבוע לכל (i). הפיזור של u סביב הקו זהה לאורך כל טווח X. (כשהנחה זו נשברת — הטרוסקדסטיות — ראה להלן.)

הנחה 4 — אי-מתאם בין u-ים. (Cov(u_i, u_j) = 0) לכל (i neq j). ידע על שגיאה אחת לא עוזר לחזות שגיאה אחרת. (כשנשברת — מתאם-עצמי/autocorrelation — ראה להלן.)

הנחה 5 — X לא אקראי. (X) נתון-קבוע (בהרחבה: X אי-מתואם עם u). X לא גורם המקריות עצמו.


כשהנחות נשברות — בשפה פשוטה

הטרוסקדסטיות (הנחה 3 נשברת): הפיזור של השגיאות משתנה עם X. דוגמה ישראלית: בנתוני-שכר, שגיאת-החיזוי של שכרים גבוהים (200K-300K/שנה) גדולה בהרבה מזו של שכרים ממוצעים. OLS עדיין לא-מוטה — אבל לא יעיל, ושגיאות-התקן שחישב שגויות.

מתאם-עצמי (הנחה 4 נשברת): בסדרות-זמן שגיאת-היום "יורשת" חלק משגיאת-אמש. צמיחת-ה-GDP של ישראל ב-1985 מושפעת לא רק מהמשתנים שכללנו — אלא גם מה-GDP של 1984. כשלא מכניסים תלות-זמן למודל, השגיאות מתואמות. OLS מפיק אומדנים, אבל מרווחי-הסמך שגויים — לרוב צרים מדי (פסימי יתר-על-המידה).

הומוסקדסטי (שונות קבועה)הטרוסקדסטי (שונות גדלה)XeXeהומוסקדסטיות = הנחת-הרגרסיה. הטרוסקדסטיות = הפרה = OLS לא יעיל
שמאל: ענן-שאריות אחיד (תנאי OLS). ימין: ענן מתרחב = הטרוסקדסטיות = טעות-תקן שגויה · ספרות סטנדרטית · הגרף מיועד להמחשה בלבד ואינו ייעוץ השקעות.

הנתונים הישראליים שכבר בספר: GDP 1950–1995

הספר המקורי מכיל טבלת נתוני GDP ישראלי 1950–1995 — עובדה ראויה לציון. אין צורך לייבא נתונים: הם כבר כאן, ומאפשרים לתרגל את ההנחות על נתוני-ממשלה ישראליים אמיתיים.

סדרת התוצר הישראלי 1950–1995 — הנתונים שעליהם נבדקת הנחת אי-המתאם

בין 1950 ל-1995 גדל התוצר המקומי הגולמי של ישראל מ-12,901 מיליון ש"ח ל-268,442 מיליון ש"ח (במחירי 1995) — פי כ-20.8 בתוך 45 שנה. הסדרה הזו, של הלשכה המרכזית לסטטיסטיקה (למ"ס), היא דוגמה נקייה לסוג הנתונים שבו הנחה (4) — היעדר מתאם בין השגיאות — נשברת בקלות. כשמסדרים תצפיות לפי הזמן, השגיאה של שנה אחת כבר לא בלתי-תלויה בשגיאה של השנה שלפניה. כדי לראות את זה במו העיניים צריך את הנתונים עצמם, אז הנה הם — אותם 46 מספרים שעליהם אפשר להריץ את הרגרסיה ולבדוק את השאריות.

תוצר מקומי גולמי, ישראל 1950–1995 (מיליוני ש"ח, מחירי 1995). מקור: הלשכה המרכזית לסטטיסטיקה (למ"ס).
שנה תמ"ג שנה תמ"ג
1950 12,901 1973 108,723
1951 16,788 1974 114,722
1952 17,527 1975 119,116
1953 17,273 1976 120,996
1954 20,624 1977 123,446
1955 23,439 1978 128,517
1956 25,529 1979 134,588
1957 27,786 1980 139,378
1958 29,821 1981 145,961
1959 33,624 1982 148,040
1960 35,844 1983 151,868
1961 39,750 1984 155,225
1962 43,720 1985 162,134
1963 48,327 1986 167,891
1964 53,122 1987 178,209
1965 57,383 1988 184,560
1966 57,957 1989 187,180
1967 59,293 1990 199,595
1968 68,408 1991 211,760
1969 77,108 1992 226,911
1970 83,020 1993 235,468
1971 92,373 1994 251,977
1972 103,677 1995 268,442

למה דווקא נתוני-זמן שוברים את הנחת אי-המתאם

נניח שאנחנו אומדים רגרסיה פשוטה של התוצר כפונקציה של הזמן, כאשר t_i הוא השנה: Y_i = alpha + beta, t_i + u_i. קו-הרגרסיה הוא קו ישר, אבל הסדרה האמיתית אינה קו ישר — היא צומחת בקצב משתנה. התוצאה: לאורך קטעים שלמים התצפיות נמצאות כולן מעל הקו, ובקטעים אחרים כולן מתחתיו. במלים אחרות, השגיאה u_i אינה קופצת באקראי בין חיובי לשלילי — היא נדבקת לסימן שלה לאורך רצפים.

זה בדיוק מה שהנחה (4) אוסרת. ההנחה דורשת שהשגיאות לא יהיו מתואמות ביניהן: לדעת את u_i של תצפית אחת לא אמורה לתת שום מידע על u_{i+1} של התצפית הסמוכה. בנתוני-זמן ההנחה הזו כמעט תמיד נשברת, והתופעה נקראת מתאם-עצמי (autocorrelation) — קשר בין שגיאה לשגיאה הסמוכה לה בזמן.

איך לראות את זה בעין — מבחן הריצות (runs)

הדרך הפשוטה ביותר לזהות מתאם-עצמי היא לצייר את הנקודות מול קו-הרגרסיה ולספור ריצות (runs): רצפים של נקודות באותו צד של הקו. בנתונים אקראיים באמת, הסימן של השגיאה מתחלף תכופות — מעל, מתחת, מעל, מתחת — והריצות קצרות. כשהשגיאות מתואמות, נוצרות ריצות ארוכות: עשר נקודות רצופות מעל הקו, ואז עשר רצופות מתחתיו.

בסדרת התוצר רואים את התבנית הזו היטב. בעשורים הראשונים, כשהצמיחה הייתה מהירה במיוחד, נקודות שלמות נופלות בצד אחד של הקו הישר; בהמשך, כשהקצב מתמתן, הן עוברות לצד השני. אם u_i של שנה אחת חיובי, ה-u_i של השנה הבאה נוטה להיות חיובי גם הוא — וזו, בדיוק, ההפרה של הנחה (4).

מה זה אומר עבורכם כשאתם אומדים את הסדרה הזו בעצמכם

אין צורך לייבא נתונים מבחוץ — הם כבר כאן בטבלה. אמדו את הרגרסיה של התוצר על השנה, שמרו את השאריות, וציירו אותן לפי סדר הזמן. אם תראו רצפים ארוכים של שאריות חיוביות ואז רצפים של שליליות במקום החלפה אקראית של סימנים — זיהיתם מתאם-עצמי. המשמעות המעשית: מרווחי-הסמך ומבחני-המובהקות שתקבלו יהיו אופטימיים מדי. הם יציגו את האומד כיציב ומדויק יותר ממה שהוא באמת, פשוט מפני שהמודל "סופר" תצפיות תלויות כאילו היו בלתי-תלויות. זו הסיבה שמתאם-עצמי אינו פרט טכני — הוא משנה את מידת האמון שאפשר לתת בתוצאה.

תרגיל: אמוד רגרסיה של צמיחה על שנה. בדוק את השאריות: האם יש מתאם-עצמי? (בסדרת-זמן — כמעט תמיד יש.) האם השונות קבועה? (ב-46 שנה עם שינויי-מבנה ישראליים כבדים — כנראה שלא.)

זה בדיוק הטעם בנתוני-הספר: ללמוד על הנחות על ידי בדיקת ספציפית שלהן על נתונים ממשיים.


מה זה אומר עבורכם. בכל פעם שמישהו מציג לכם תוצאות-רגרסיה, שאלה טובה לשאול היא: "האם בדקת את ההנחות?" בפרטיקה — רוב המחקרים הכלכליים עם סדרות-זמן סובלים מאוטוקורלציה. זה לא פוסל את המחקר — אבל ידיעה על כך מסייגת את האמון בדיוק שגיאות-התקן.


סיכום

OLS הוא BLUE — הטוב ביותר מבין האומדים הלינאריים הלא-מוטים — בתנאי שחמש הנחות גאוס-מרקוב מתקיימות. כשהנחות נשברות (הטרוסקדסטיות, אוטוקורלציה) — OLS עדיין ניתן לחישוב, אבל מסקנות שגיאות-התקן עלולות להיות מוטות. בפרק הבא: ניתוח סטטיסטי של תוצאות האמידה — מרווחי-סמך ובדיקת-מובהקות.

פרק זה הוא חינוך פיננסי-כלכלי — הסבר של מנגנונים, לא ייעוץ. כל ניתוח כלכלי אמיתי דורש שיקול-דעת מקצועי.


הפניה צולבת לאשכול

תכונות האומדים (תוחלת, שונות, עקביות) מרחיבות על הגדרות ממספר-ספר-האחות: סטטיסטיקה למתקדמים — הגדרת-תוחלת ומושגי-הסקה. ה-BLUE ו-UMVUE שם הם מקרים כלליים של הנטען כאן.


גילוי נאות: התוכן באתר אינו ייעוץ פיננסי, פנסיוני, מסים או השקעות. החלטות פיננסיות אישיות מומלץ לקבל בליווי בעל מקצוע מוסמך.