תכונות האומדים וההנחות הקלאסיות

הפתיחה

הצמיחה בישראל ב-1950 הייתה כ-12%, ב-1985 כ-3%, ב-1995 כ-6.8%. נניח שתרצו לאמוד את הקשר בין השקעה-ממשלתית (%GDP) לצמיחה על בסיס 46 שנות-נתונים אלה. OLS נותן לכם (hatalpha) ו-(hatbeta). שאלה: האם תוצאות אלה ניתנות לאמון?

כאן נכנסות תכונות האומדים. OLS הוא כלי — אבל הוא "עובד כמו שצריך" רק אם מספר תנאים מתקיימים. שם לתנאים האלה: הנחות גאוס-מרקוב.

מה אנחנו רוצים מאומד?

שלוש תכונות בסיסיות שהיינו רוצים שיהיו לאומד (hatbeta):

1. חוסר-הטיה (Unbiasedness)

אומד נקרא לא-מוטה אם תוחלתו שווה לפרמטר האמיתי:

[E[hatbeta] = beta]

פירוש: אם נחזור על הניסוי שלנו (נאסוף מדגמים שונים שוב ושוב), הממוצע של כל (hatbeta)-ים שנקבל יהיה (beta) האמיתי. לא שכל אומד יהיה בדיוק (beta) — אבל הם לא יטו שיטתית לכיוון אחד.

2. יעילות (Efficiency)

מבין כל האומדים הלא-מוטים הקיימים, (hatbeta) יהיה יעיל אם השונות שלו היא הנמוכה ביותר:

[Var(hatbeta) text{ מינימלי}]

יעילות = אחוז ה"ייצוג" של המדגם שנמצא בשימוש מלא. (hatbeta) עם שונות נמוכה הוא (hatbeta) שמתנדנד פחות בין מדגם למדגם.

3. עקביות (Consistency)

ככל שגדל מספר-התצפיות (n), האומד מתקרב לפרמטר האמיתי:

[hatbeta xrightarrow{p} beta text{ כאשר } n to infty]

OLS מקיים את שלוש התכונות — בתנאי שחמש ההנחות הבאות מתקיימות.

חמש הנחות גאוס-מרקוב

אלה ההנחות שגאוס ומרקוב הוכיחו שאם מתקיימות — OLS הוא האומד הלא-מוטה היעיל ביותר (BLUE: Best Linear Unbiased Estimator):

הנחה 1 — לינאריות. המודל לינארי בפרמטרים: (Y = alpha + beta X + u). X יכול להיות ריבועי, לוגריתמי — אבל (alpha) ו-(beta) עצמם לינאריים.

הנחה 2 — תוחלת-אפס של u. (E[u_i] = 0) לכל (i). גורם-המקריות אינו מוטה שיטתית — "לא מוצמד" לאף ערך X.

הנחה 3 — שונות קבועה (הומוסקדסטיות). (Var(u_i) = sigma^2) — קבוע לכל (i). הפיזור של u סביב הקו זהה לאורך כל טווח X. (כשהנחה זו נשברת — הטרוסקדסטיות — ראה להלן.)

הנחה 4 — אי-מתאם בין u-ים. (Cov(u_i, u_j) = 0) לכל (i neq j). ידע על שגיאה אחת לא עוזר לחזות שגיאה אחרת. (כשנשברת — מתאם-עצמי/autocorrelation — ראה להלן.)

הנחה 5 — X לא אקראי. (X) נתון-קבוע (בהרחבה: X אי-מתואם עם u). X לא גורם המקריות עצמו.

כשהנחות נשברות — בשפה פשוטה

הטרוסקדסטיות (הנחה 3 נשברת): הפיזור של השגיאות משתנה עם X. דוגמה ישראלית: בנתוני-שכר, שגיאת-החיזוי של שכרים גבוהים (200K-300K/שנה) גדולה בהרבה מזו של שכרים ממוצעים. OLS עדיין לא-מוטה — אבל לא יעיל, ושגיאות-התקן שחישב שגויות.

מתאם-עצמי (הנחה 4 נשברת): בסדרות-זמן שגיאת-היום "יורשת" חלק משגיאת-אמש. צמיחת-ה-GDP של ישראל ב-1985 מושפעת לא רק מהמשתנים שכללנו — אלא גם מה-GDP של 1984. כשלא מכניסים תלות-זמן למודל, השגיאות מתואמות. OLS מפיק אומדנים, אבל מרווחי-הסמך שגויים — לרוב צרים מדי (פסימי יתר-על-המידה).

שמאל: ענן-שאריות אחיד (תנאי OLS). ימין: ענן מתרחב = הטרוסקדסטיות = טעות-תקן שגויה · ספרות סטנדרטית · הגרף מיועד להמחשה בלבד ואינו ייעוץ השקעות.

הנתונים הישראליים שכבר בספר: GDP 1950–1995

הספר המקורי מכיל טבלת נתוני GDP ישראלי 1950–1995 — עובדה ראויה לציון. אין צורך לייבא נתונים: הם כבר כאן, ומאפשרים לתרגל את ההנחות על נתוני-ממשלה ישראליים אמיתיים.

סדרת התוצר הישראלי 1950–1995 — הנתונים שעליהם נבדקת הנחת אי-המתאם

בין 1950 ל-1995 גדל התוצר המקומי הגולמי של ישראל מ-12,901 מיליון ש"ח ל-268,442 מיליון ש"ח (במחירי 1995) — פי כ-20.8 בתוך 45 שנה. הסדרה הזו, של הלשכה המרכזית לסטטיסטיקה (למ"ס), היא דוגמה נקייה לסוג הנתונים שבו הנחה (4) — היעדר מתאם בין השגיאות — נשברת בקלות. כשמסדרים תצפיות לפי הזמן, השגיאה של שנה אחת כבר לא בלתי-תלויה בשגיאה של השנה שלפניה. כדי לראות את זה במו העיניים צריך את הנתונים עצמם, אז הנה הם — אותם 46 מספרים שעליהם אפשר להריץ את הרגרסיה ולבדוק את השאריות.

תוצר מקומי גולמי, ישראל 1950–1995 (מיליוני ש"ח, מחירי 1995). מקור: הלשכה המרכזית לסטטיסטיקה (למ"ס).
שנה	תמ"ג	שנה	תמ"ג
1950	12,901	1973	108,723
1951	16,788	1974	114,722
1952	17,527	1975	119,116
1953	17,273	1976	120,996
1954	20,624	1977	123,446
1955	23,439	1978	128,517
1956	25,529	1979	134,588
1957	27,786	1980	139,378
1958	29,821	1981	145,961
1959	33,624	1982	148,040
1960	35,844	1983	151,868
1961	39,750	1984	155,225
1962	43,720	1985	162,134
1963	48,327	1986	167,891
1964	53,122	1987	178,209
1965	57,383	1988	184,560
1966	57,957	1989	187,180
1967	59,293	1990	199,595
1968	68,408	1991	211,760
1969	77,108	1992	226,911
1970	83,020	1993	235,468
1971	92,373	1994	251,977
1972	103,677	1995	268,442

למה דווקא נתוני-זמן שוברים את הנחת אי-המתאם

נניח שאנחנו אומדים רגרסיה פשוטה של התוצר כפונקציה של הזמן, כאשר $t_i$ הוא השנה: $Y_i = alpha + beta, t_i + u_i$ . קו-הרגרסיה הוא קו ישר, אבל הסדרה האמיתית אינה קו ישר — היא צומחת בקצב משתנה. התוצאה: לאורך קטעים שלמים התצפיות נמצאות כולן מעל הקו, ובקטעים אחרים כולן מתחתיו. במלים אחרות, השגיאה $u_i$ אינה קופצת באקראי בין חיובי לשלילי — היא נדבקת לסימן שלה לאורך רצפים.

זה בדיוק מה שהנחה (4) אוסרת. ההנחה דורשת שהשגיאות לא יהיו מתואמות ביניהן: לדעת את $u_i$ של תצפית אחת לא אמורה לתת שום מידע על $u_{i+1}$ של התצפית הסמוכה. בנתוני-זמן ההנחה הזו כמעט תמיד נשברת, והתופעה נקראת מתאם-עצמי (autocorrelation) — קשר בין שגיאה לשגיאה הסמוכה לה בזמן.

איך לראות את זה בעין — מבחן הריצות (runs)

הדרך הפשוטה ביותר לזהות מתאם-עצמי היא לצייר את הנקודות מול קו-הרגרסיה ולספור ריצות (runs): רצפים של נקודות באותו צד של הקו. בנתונים אקראיים באמת, הסימן של השגיאה מתחלף תכופות — מעל, מתחת, מעל, מתחת — והריצות קצרות. כשהשגיאות מתואמות, נוצרות ריצות ארוכות: עשר נקודות רצופות מעל הקו, ואז עשר רצופות מתחתיו.

בסדרת התוצר רואים את התבנית הזו היטב. בעשורים הראשונים, כשהצמיחה הייתה מהירה במיוחד, נקודות שלמות נופלות בצד אחד של הקו הישר; בהמשך, כשהקצב מתמתן, הן עוברות לצד השני. אם $u_i$ של שנה אחת חיובי, ה- $u_i$ של השנה הבאה נוטה להיות חיובי גם הוא — וזו, בדיוק, ההפרה של הנחה (4).

מה זה אומר עבורכם כשאתם אומדים את הסדרה הזו בעצמכם

אין צורך לייבא נתונים מבחוץ — הם כבר כאן בטבלה. אמדו את הרגרסיה של התוצר על השנה, שמרו את השאריות, וציירו אותן לפי סדר הזמן. אם תראו רצפים ארוכים של שאריות חיוביות ואז רצפים של שליליות במקום החלפה אקראית של סימנים — זיהיתם מתאם-עצמי. המשמעות המעשית: מרווחי-הסמך ומבחני-המובהקות שתקבלו יהיו אופטימיים מדי. הם יציגו את האומד כיציב ומדויק יותר ממה שהוא באמת, פשוט מפני שהמודל "סופר" תצפיות תלויות כאילו היו בלתי-תלויות. זו הסיבה שמתאם-עצמי אינו פרט טכני — הוא משנה את מידת האמון שאפשר לתת בתוצאה.

תרגיל: אמוד רגרסיה של צמיחה על שנה. בדוק את השאריות: האם יש מתאם-עצמי? (בסדרת-זמן — כמעט תמיד יש.) האם השונות קבועה? (ב-46 שנה עם שינויי-מבנה ישראליים כבדים — כנראה שלא.)

זה בדיוק הטעם בנתוני-הספר: ללמוד על הנחות על ידי בדיקת ספציפית שלהן על נתונים ממשיים.

מה זה אומר עבורכם. בכל פעם שמישהו מציג לכם תוצאות-רגרסיה, שאלה טובה לשאול היא: "האם בדקת את ההנחות?" בפרטיקה — רוב המחקרים הכלכליים עם סדרות-זמן סובלים מאוטוקורלציה. זה לא פוסל את המחקר — אבל ידיעה על כך מסייגת את האמון בדיוק שגיאות-התקן.

סיכום

OLS הוא BLUE — הטוב ביותר מבין האומדים הלינאריים הלא-מוטים — בתנאי שחמש הנחות גאוס-מרקוב מתקיימות. כשהנחות נשברות (הטרוסקדסטיות, אוטוקורלציה) — OLS עדיין ניתן לחישוב, אבל מסקנות שגיאות-התקן עלולות להיות מוטות. בפרק הבא: ניתוח סטטיסטי של תוצאות האמידה — מרווחי-סמך ובדיקת-מובהקות.

פרק זה הוא חינוך פיננסי-כלכלי — הסבר של מנגנונים, לא ייעוץ. כל ניתוח כלכלי אמיתי דורש שיקול-דעת מקצועי.

הפניה צולבת לאשכול

תכונות האומדים (תוחלת, שונות, עקביות) מרחיבות על הגדרות ממספר-ספר-האחות: סטטיסטיקה למתקדמים — הגדרת-תוחלת ומושגי-הסקה. ה-BLUE ו-UMVUE שם הם מקרים כלליים של הנטען כאן.