בדיקת השערות מורכבות במבחן Wald, צעד אחר צעד

הפתיחה

בנק ישראל לא שואל רק "האם הריבית משפיעה על אינפלציה". הוא שואל: "האם גם גודל-הריבית וגם מהירות-השינוי שלה — שניהם יחד — מסבירים את האינפלציה?" זו שאלה על שני פרמטרים בו-זמנית.

מבחן-t מפרק 5 מסוגל לבדוק פרמטר אחד. כשצריך לבדוק אילוצים על כמה פרמטרים יחד — צריך כלי אחר: מבחן Wald.

מתי בכלל צריך Wald?

מבחן Wald מיועד לשאלות מהסוג:

"האם (beta = 0) וגם (gamma = 0)?" — שני המשתנים יחד לא מועילים.
"האם (beta = gamma)?" — שני המשתנים משפיעים באותו גודל.
"האם (beta + gamma = 1)?" — אילוץ ליניארי על הסכום.

במלים אחרות: Wald בודק השערה-מורכבת (composite hypothesis) — כזו שכוללת יותר מאילוץ אחד, או אילוץ לינארי על כמה פרמטרים.

המודלים: מוגבל ולא-מוגבל

מודל לא-מוגבל (Unrestricted): המודל המלא שאמדנו בפרק 6:

[Y = alpha + beta X + gamma Z + u]

מודל מוגבל (Restricted): המודל שמתאים לאילוץ. לדוגמה, אם (H_0: beta = 0, gamma = 0), המודל המוגבל הוא:

[Y = alpha + u]

(כי השארנו רק את הקבוע.)

בניית המודל המוגבל כשההשערה אינה טריוויאלית

הראינו את המודל המוגבל למקרה הפשוט: כשבודקים אם $beta = 0$ וגם $gamma = 0$ , פשוט מוחקים את שני המשתנים ונשארים עם $Y = alpha + u$ . אבל רוב ההשערות המעניינות אינן "מחק את המשתנה". שאלות כמו "האם שני המשתנים משפיעים באותו גודל?" ( $beta = gamma$ ) או "האם הסכום שלהם שווה ל-1?" דורשות מודל מוגבל שצריך לבנות, לא רק לקצץ. בלי המהלך הזה, מבחן Wald נשאר כותרת ללא דרך ביצוע.

נדגים על המקרה שהפרק עצמו מציב. חוקר אמד מודל מלא על 15 תצפיות:

Y_i = alpha + beta X_i + gamma Z_i + u_i

ויש לו מידע מוקדם כפול: שהחותך שווה ל-5 ( $alpha = 5$ ) וששני השיפועים שווים זה לזה ( $beta = gamma$ ). זוהי השערה מורכבת — שני אילוצים בבת-אחת — ולכן Wald, לא מבחן-t. האמידה החופשית נתנה $hatalpha = 6.34$ (ולא 5) ו- $hatbeta$ קרוב ל- $hatgamma$ אך לא שווה לו בדיוק. השאלה אם הפערים האלה הם סטייה אקראית סבירה או הפרכה של ההשערה — וכדי לענות צריך לבנות את המודל המוגבל.

שלושה צעדים: שינוי פני המודל

צעד 1 — מציבים את ההשערה במודל המקורי. מחליפים את $alpha$ ב-5 ואת $gamma$ ב- $beta$ (כי לפי ההשערה הם שווים):

Y_i = 5 + beta X_i + beta Z_i + u_i

צעד 2 — מעבירים לאגף שמאל כל איבר שאין בו פרמטר לאמידה. המספר 5 אינו פרמטר לאמידה, ולכן עובר לאגף שמאל. הגורם המקרי $u_i$ תמיד נשאר באגף ימין:

Y_i - 5 = beta X_i + beta Z_i + u_i

צעד 3 — דואגים שכל פרמטר יופיע פעם אחת בלבד, על-ידי הוצאתו כגורם משותף. הפרמטר $beta$ מופיע פעמיים — מוציאים אותו החוצה:

Y_i - 5 = beta (X_i + Z_i) + u_i

זהו המודל המוגבל (Restricted Model). שימו לב לשתי תכונות שיהיו חשובות לאמידה: המשתנה המוסבר אינו עוד $Y_i$ אלא $Y_i - 5$ , המשתנה המסביר אינו עוד שני משתנים נפרדים אלא הסכום $X_i + Z_i$ — ואין בו חותך כלל. המודל המקורי, לשם השוואה, מכונה המודל הלא-מוגבל (Unrestricted) או המודל החופשי.

אמידת המודל המוגבל — והמיומנות של אמידה ללא חותך

כדי לאמוד את המודל המוגבל יוצרים שני משתנים חדשים בגיליון. את המשתנה המוסבר $Y_i - 5$ בונים בעמודה נפרדת על-ידי הורדת 5 מכל ערכי $Y_i$ המקוריים. את המשתנה המסביר $X_i + Z_i$ בונים בעמודה נוספת על-ידי חיבור ערכי $X_i$ ו- $Z_i$ שורה-שורה. ואז אומדים — אבל עם שינוי קטן וקריטי בפקודה: =LINEST(F2:F16, E2:E16, 0, 1).

הארגומנט השלישי, שעד עכשיו תמיד היה 1, הוא כאן 0 — וזו בדיוק ההוראה "אל תכלול חותך במודל". כשהארגומנט הזה 1, האמידה כוללת חותך ( $alpha$ ); כשהוא 0, האמידה כופה מעבר של הקו דרך הראשית, בלי חותך — בדיוק מה שהמודל המוגבל דורש. שכחה של ההבדל הזה היא טעות נפוצה: אם תשאירו 1, תאמדו מודל אחר לגמרי, עם חותך מיותר, וכל מבחן Wald שייבנה עליו יהיה שגוי.

מכאן — חזרה לנוסחת Wald

עכשיו יש בידינו שתי אמידות: של המודל הלא-מוגבל (החופשי) ושל המודל המוגבל. מכל אחת שולפים את סכום ריבועי-השגיאות שלה, ומציבים בנוסחת Wald. הרעיון פשוט: המודל המוגבל "כבול" — הוא חייב לציית להשערה — ולכן יתאים לנתונים פחות טוב, ושגיאותיו יהיו גדולות לפחות כמו של המודל החופשי. השאלה היחידה היא בכמה. אם האילוץ אמיתי, ההפרש בשגיאות יהיה קטן; אם האילוץ שגוי, השגיאות של המודל המוגבל יזנקו. את גודל הקפיצה הזו, מתוקנן לדרגות-החופש, משווים לערך-קריטי מטבלת-F — וכך מתקבלת ההחלטה לדחות את ההשערה המורכבת או לקבל אותה.

ערך-הקריטי הזה נשלף מטבלת-F לפי שני מספרי דרגות-חופש: מספר האילוצים (כאן 2) ודרגות-החופש של המודל החופשי. בעבודה מעשית אין צורך לשלוף אותו ידנית מהטבלה — אותה פונקציית f_test שראינו בפרק הזה מחזירה את התוצאה ואת ההסתברות הנלווית (p-value) ישירות, ומחליפה את החיפוש הידני בטבלת-F.

סטטיסטיקת Wald

[W = frac{(SSE_{restricted} – SSE_{unrestricted}) / (df_{restricted} – df_{unrestricted})}{SSE_{unrestricted} / df_{unrestricted}}]

שבה:
– (SSE_{restricted}) = סכום ריבועי-שגיאות במודל המוגבל
– (SSE_{unrestricted}) = סכום ריבועי-שגיאות במודל הלא-מוגבל
– (df) = דרגות-חופש של כל מודל ((n) מינוס מספר הפרמטרים)

פירוש: הסטטיסטיקה מודדת: כמה "עלות" (בשגיאות) שילמנו בגלל האילוץ? אם האילוץ נכון — (SSE_{restricted}) לא יהיה גדול בהרבה מ-(SSE_{unrestricted}). אם שגוי — (SSE_{restricted}) גדל משמעותית.

התפלגות: תחת (H_0), (W) מתפלג כ-(F(m, n-k)) — כאשר (m) = מספר האילוצים, (n-k) = דרגות-חופש של המודל הלא-מוגבל.

כלל-ההחלטה

[W > F_{critical}(m, n-k) Rightarrow text{דוחים } H_0]

טבלת-F (כמו טבלת-t, אך ב-2 מימדים) מספקת את הערך-הקריטי. בד"כ (alpha = 0.05).

דוגמה: מדיניות-כלכלית

נניח שמדינה מיישמת רפורמה שמשנה גם את שיעור-המס וגם את הסבסוד הממשלתי. הכלכלן שואל: "האם הרפורמה שינתה משהו? כלומר, האם (hatbeta_{tax} = 0) וגם (hatgamma_{subsidy} = 0)?"

זו בדיקה על שני פרמטרים — Wald.

מהלך:
1. אמוד את המודל הלא-מוגבל: (Y = alpha + beta X_{tax} + gamma Z_{subsidy} + u). שמור (SSE_{unrestricted}).
2. אמוד את המודל המוגבל (ב-(H_0)): (Y = alpha + u). שמור (SSE_{restricted}).
3. חשב (W) ובדוק מול טבלת-F.

Wald בPython (בשתי שורות)

from scipy import stats

# results מהרגרסיה המלאה (ch06)
wald_result = results.f_test("area = 0, rooms = 0")
print(wald_result)

statsmodels מחשב את (W) ומחזיר p-value ישיר — אין צורך לחפש בטבלת-F ידנית.

הקשר ל-t-test

שימו לב: כשיש אילוץ אחד בלבד, Wald שווה ל-(t^2) (ממבחן-t פרק 5). הנוסחאות שקולות. Wald הוא הכלליזציה של t לכמה-אילוצים בו-זמנית.

הקשר למבחן-F: מבחן Wald כאן שקול למבחן-F של השוואת-מודלי-רגרסיה — אותה נוסחה, ואת הערך-הקריטי שולפים מטבלת-F (ראו ההסבר על טבלת-F בסעיף בניית-המודל-המוגבל למעלה).

מה זה אומר עבורכם. כשאתם קוראים מחקר מדיניות שאומר "הרפורמה לא הצליחה" — שאלה מפתח: "בדקו את (beta) של כל פרמטר לחוד, או בדקו יחד?" בדיקה לחוד עלולה לפספס השפעה כוללת של שני משתנים קשורים. Wald בודק את האפקט המשותף.

סיכום

מבחן Wald בודק השערות מורכבות — אילוצים על כמה פרמטרים בו-זמנית. מחשבים SSE של המודל המוגבל ושל הלא-מוגבל, מחשבים את (W), ומשווים לטבלת-F. בPython: f_test. זהו הפרק האחרון — יחד, שבעת הפרקים כיסו את הכלים הבסיסיים של אקונומטריקה: הנחות, אמידה, תכונות, ניתוח, הרחבה, ובדיקת-השערות.

פרק זה הוא חינוך פיננסי-כלכלי — הסבר של מנגנונים, לא ייעוץ. כל ניתוח כלכלי אמיתי דורש בדיקת נתונים עדכניים ושיקול דעת מקצועי.

הפניה צולבת לאשכול

הבסיס הסטטיסטי — מבחן-t, מרווחי-סמך והשערה-אפסית — מפורט באשכול סטטיסטיקה למתקדמים (פרקים 6–7). מבחן-F ו-Wald עצמם, על דרגות-החופש וה-SSE, מוסברים כאן בפרק זה בסעיף בניית-המודל-המוגבל למעלה.

גילוי נאות: התוכן באתר אינו ייעוץ פיננסי, פנסיוני, מסים או השקעות. החלטות פיננסיות אישיות מומלץ לקבל בליווי בעל מקצוע מוסמך.