אקונומטריקה · פרק 5 מ-7

ניתוח סטטיסטי של תוצאות האמידה

מובהקות, רווחי סמך ומבחני השערות על תוצאות הרגרסיה.

הקדמה

בפרק זה נעסוק ב 3-נושאים:

  • חישוב רווחי סמך
  • בדיקת השערות (מבחן )t
  • משמעות מקדם ההסבר (איכות הרגרסיה)

חישוב רווחי סמך לפרמטרים \(\alpha\) ו-\(\beta\)

איור

נסביר על חישוב רווח סמך לפרמטר \(\beta\), אך באותו אופן ניתן לחשב רווח סמך גם ל-\(\alpha\). אנו מעוניינים לגלות את \(\beta\) האמיתי, אך אנו יכולים רק לאמוד אותו ולקבל את האומדן \(\hat\beta\). אנחנו מעוניינים להגדיר את תחום המספרים שבו אנו צופים שיהיה \(\beta\) האמיתי. תחום זה יהיה סימטרי סביב \(\hat\beta\), כלומר \(\hat\beta\) יהיה בדיוק באמצע התחום. ככל שנגדיל את התחום כך רמת הבטחון שלנו ש-\(\beta\) האמיתי נמצא בתחום תגדל. מקובל לחשב רווחי סמך ברמת בטחון של 95%. כדי לחשב רווח סמך ל-\(\beta\) יש צורך בשני נתונים מטבלת האמידה )שחושבה ע"י אקסל או ע"י כל תוכנה מתאימה אחרת(. שני הנתונים שאנו צריכים הם:

  • הפרמטר הנאמד \(\hat\beta\)
  • סטיית התקן של הפרמטר הנאמד \(\hat\sigma_{\hat\beta}\)

חישוב קל של רווח הסמך (תוך ויתור מסויים על הדיוק)

איור

כדי לחשב את רווח הסמך באופן מהיר ופשוט (אך לא כל כך מדוייק) משתמשים בנוסחא הבאה: \[\hat\beta – 2\hat\sigma_{\hat\beta} \le \beta \le \hat\beta + 2\hat\sigma_{\hat\beta}\]

הסבר: כדי לחשב את הגבול התחתון של רווח הסמך, יש להכפיל את סטיית התקן ב-2 ולהפחית את התוצאה מ-\(\hat\beta\). כדי לחשב את הגבול העליון של רווח הסמך, יש להכפיל את סטיית התקן ב-2 ולהוסיף את התוצאה ל-\(\hat\beta\). רווח הסמך ל-\(\beta\) האמיתי (ברמת בטחון של 95%). דוגמא: באמידה התקבל כי \(\hat\beta = 4.5\) ו-\(\hat\sigma_{\hat\beta} = 0.6\). הגבול התחתון של רווח הסמך יהיה \(4.5 – 2 \cdot 0.6 = 3.3\); הגבול העליון יהיה \(4.5 + 2 \cdot 0.6 = 5.7\). לסיכום: לפי תוצאות האמידה ניתן לקבוע ברמת בטחון של 95% ש-\(\beta\) האמיתי נמצא בתחום שבין 3.3 לבין 5.7 דוגמא נוספת: אם בדוגמת החצילים נקבל באמצעות חישוב באקסל ש-\(\hat\beta = 3\,\text{Kg}\) ו-\(\hat\sigma_{\hat\beta} = 0.08\,\text{Kg}\), אזי בהסתברות של 95% \(\beta\) האמיתי נמצא בין 2.84 ק"ג (\(3 – 2 \cdot 0.08\)) ל-3.16 ק"ג

חישוב מדוייק של רווח הסמך (תוך שימוש בטבלה )t

איור

כדי לחשב את רווח הסמך באופן יותר מדוייק עלינו להכפיל את סטיית התקן \(\hat\sigma_{\hat\beta}\) במקום ב-2 במספר אחר שנסמנו ב-\(t\). הנוסחא לרווח הסמך תהיה: \[\hat\beta – t \cdot \hat\sigma_{\hat\beta} \le \beta \le \hat\beta + t \cdot \hat\sigma_{\hat\beta}\] רווח הסמך ל-\(\beta\) האמיתי (ברמת בטחון של 95%) טבלת t כיצד יודעים מהו ?t t מתקבל מטבלת t והוא משתנה לפי גודל המדגם. בטבלת 2 t טורים: טור – 1 מספר דרגות החופש (בקיצור: ד"ח). טור – 2 ערך ה t. – לכל דרגת חופש (טור 1) מתאים ערך t שונה (טור.2) מספר דרגות החופש הוא הפער בין מספר התצפיות במדגם (סימול \(n\)) לבין מספר הפרמטרים במודל (סימון \(k\)). בדוגמת החצילים, המודל מבוסס על קו ישר שמכיל 2 פרמטרים (\(\alpha\) ו-\(\beta\)), ובמדגם יש 21 תצפיות. לפיכך, מספר דרגות החופש הוא \(n – k = 21 – 2 = 19\). ערך ה-\(t\) המתאים ל-19 ד"ח הוא 2.093.

אם קיבלנו בדוגמת החצילים באמצעות חישוב באקסל ש-\(\hat\beta = 3\,\text{Kg}\) ו-\(\hat\sigma_{\hat\beta} = 0.08\,\text{Kg}\): הגבול התחתון של רווח הסמך יהיה \(\hat\beta – t \cdot \hat\sigma_{\hat\beta} = 3 – 2.093 \cdot 0.08 = 2.83256\); הגבול העליון יהיה \(\hat\beta + t \cdot \hat\sigma_{\hat\beta} = 3 + 2.093 \cdot 0.08 = 3.16744\). לסיכום: לפי תוצאות האמידה ניתן לקבוע ברמת בטחון של 95% ש-\(\beta\) האמיתי נמצא בתחום שבין 2.83256 לבין 3.16744 רווח הסמך של \(\beta\) בשיטה המדוייקת יותר (שימוש ב-\(t\)) הוא בין 2.83256 ק"ג לבין 3.16744 ק"ג, לעומת רווח הסמך שקיבלנו בדרך הראשונה (הכפלה ב, 2) -שהוא בין 2.84 ק"ג לבין 3.16 ק"ג. ההבדל איננו גדול.

בדיקת מובהקות באמצעות רווח סמך

איור

פעמים רבות ישאלו אותנו": האם האומד שקיבלנו הוא מובהק?" משמעות השאלה היא": האם יתכן (בסבירות מספקת) ש-\(\beta\) האמיתי הוא 0?" אם התשובה לשאלה זו היא "כן" (כלומר, יתכן ש-\(\beta = 0\)) אז המודל שלנו לא נכון. הסבר: המודל שלנו הוא \(Y = \alpha + \beta X + u\), כאשר \(\beta\) מייצגת את מידת ההשפעה של \(X\) על \(Y\). אם \(\beta = 0\), אז \(X\) כלל לא משפיע על \(Y\), ו-\(X\) איננו משתנה מסביר. במקרה כזה מומלץ למצוא משתנה מסביר אחר. כיצד נענה על שאלה זו באמצעות רווח הסמך? אם המספר 0 נמצא בתוך רווח הסמך של \(\beta\), הרי שיתכן ש-\(\beta = 0\) והאומד איננו מובהק. אם המספר 0 לא נמצא בתוך רווח הסמך של \(\beta\), האומד מובהק. דוגמא: באמידה התקבל כי \(\hat\beta = 1.3\) ו-\(\hat\sigma_{\hat\beta} = 0.8\). האם האומד מובהק?

פתרון: נחשב את רווח הסמך בדרך הפשוטה יותר. הגבול התחתון של רווח הסמך יהיה \(\hat\beta – 2\hat\sigma_{\hat\beta} = 1.3 – 2 \cdot 0.8 = -0.3\); הגבול העליון יהיה \(1.3 + 2 \cdot 0.8 = 2.9\). רווח הסמך הוא בין \(-0.3\) לבין 2.9. המספר 0 נמצא בתחום של רווח הסמך ולכן האומד איננו מובהק.

בדיקת השערות (מבחן )t

איור

לחוקר מתחום החקלאות יש מידע מוקדם לגבי גידול עגבניות. לפי מידע זה לגידול עגבניות דרוש מזג אוויר חם, וכל עליה של הטמפרטורה במעלה אחת מעלה את כמות העגבניות הגדלות בערוגה סטנדרטית ב 3.1 -ק"ג. החוקר חושד שהמידע הנ"ל איננו נכון והוא מעוניין לבצע בדיקה שבסופה הוא יוכל לאמת את המידע או לסתור אותו. לשם כך, הכין החוקר 10 ערוגות לניסוי (בחממות בתנאי מעבדה).בכל ערוגה הוא זרע אותה כמות של זרעים והשקה באותה כמות של מים, אבל לכל ערוגה הוא סיפק חימום שונה. בסוף הניסוי הוא קטף את העגבניות מכל ערוגה ושקל אותן. הניסוח האקונומטרי של המודל יהיה \(Y_i = \alpha + \beta X_i + u_i\), כאשר: האינדקס \(i\) מייצג את מספר התצפית (מספר הערוגה) ומקבל את הערכים 1 עד 10; \(Y_i\) מייצג את כמות העגבניות שנקטפו בסוף תקופת הגידול בערוגה ה-\(i\); \(X_i\) מייצג את הטמפרטורה שסיפק החוקר לעגבניות שבערוגה ה-\(i\). המשמעות של \(\beta\) היא תוספת כמות העגבניות שתגדל בכל ערוגה בעקבות העלאה של הטמפרטורה במעלה אחת. החוקר רוצה לבדוק האם באמת יתכן ש-\(\beta = 3.1\) (בהתאם למידע המוקדם), או שהמידע המוקדם איננו נכון ו-\(\beta \ne 3.1\). את המידע המוקדם אנו מכנים השערת האפס ומסמנים אותה כך: \(H_0:\ \beta = 3.1\). אם לא נוכל לאשר את נכונות המידע המוקדם נקבל את ההשערה האלטרנטיבית שנסמן כך: \(H_1:\ \beta \ne 3.1\)

לאחר שהחוקר קטף ושקל את העגבניות הכניס את כל הנתונים לתוכנת האמידה (אקסל או תוכנה אחרת). הוא קיבל ש-\(\hat\beta = 3\) ו-\(\hat\sigma_{\hat\beta} = 0.084861\). כעת, החוקר צריך לבדוק עד כמה התוצאה שהתקבלה ( 3) רחוקה מהמידע המוקדם (.3.1) את המרחק מודדים בסטיות תקן (במקרה הזה.0.084861) למרחק הזה קוראים \(t\) סטטיסטי (\(t_{stat}\)). החוקר חישב את ה-\(t\) הסטטיסטי: \(t_{stat} = -1.178\). החישוב נעשה ע"י מציאת ההפרש בין האומד לבין אגף ימין של השערת האפס וחלוקתו בסטית התקן של האומד. התוצאה שהתקבלה ( 3) נמצאת במרחק של 1.178 סטיות תקן מתחת למידע המוקדם (.3.1) כעת נשאלת השאלה: האם זהו מרחק גדול או קטן? התשובה המקובלת היא: אם ה-t הסטטיסטי (בערך מוחלט) קטן מ,2 -המרחק הוא קטן ותוצאת האמידה שקיבלנו קרובה למידע המוקדם. אם ה-t הסטטיסטי (בערך מוחלט) גדול מ,2 -המרחק הוא גדול ותוצאת האמידה שקיבלנו רחוקה מהמידע המוקדם. ומה המסקנה? אם תוצאת האמידה קרובה למידע המוקדם, לא ניתן לסתור את המידע המוקדם, ואנו מחליטים שהמידע המוקדם נכון (מקבלים את השערת האפס). אם תוצאת האמידה רחוקה מהמידע המוקדם, הדבר סותר את המידע המוקדם, ואנו מחליטים שהמידע המוקדם לא נכון )דוחים את השערת האפס, ומקבלים את ההשערה האלטרנטיבית(. לסיכום: אם \(t_{stat} < 2\) ⇐ התוצאה הנאמדת קרובה למידע המוקדם ⇐ לא דוחים את \(H_0\); אם \(t_{stat} > 2\) ⇐ התוצאה הנאמדת רחוקה מהמידע המוקדם ⇐ דוחים את \(H_0\). במקרה שלנו, הערך המוחלט של ה-\(t\) הסטטיסטי שקיבל החוקר הוא 1.178, והוא קטן מ-2. לא נוכל לדחות את השערת האפס, ונחליט שהמידע המוקדם ש-\(\beta = 3.1\) נכון. כפי שניתן לראות, הערך שאליו משווים את ה-t הסטטיסטי הוא.2 אם משתמשים בערך זה, הסיכוי לטעות בהחלטה הוא בערך.5%אם רוצים שהסיכוי לטעות בהחלטה יהיה

בדיוק 5%צריך להשתמש בערך המופיע בטבלה t לפי מספר דרגות החופש כפי שלמדנו בחישוב רווחי סמך. דוגמא נוספת בפני חוקר אחר עמד מידע מוקדם אחר, שההשערות הנובעות ממנו הן: \(H_0:\ \beta = 3.3\), \(H_1:\ \beta \ne 3.3\). תוצאות האמידה היו: \(\hat\beta = 3\), \(\hat\sigma_{\hat\beta} = 0.084861\). נחשב את ה-\(t\) הסטטיסטי: \(t_{stat} = -3.535\). במקום להשתמש להשוואה בערך 2 נשתמש בערך המדויק מהטבלה: במדגם יש 10 תצפיות ובמודל 2 פרמטרים, ולכן מספר דרגות החופש הוא.(10-2 =) 8 הערך בטבלה המתאים ל 8 – דרגות חופש הוא.2.306 מכיוון ש-\(|{-}3.535| = 3.535 > 2.306\), אנו דוחים את \(H_0\) ומחליטים שהמידע המוקדם איננו נכון. השערה המנוסחת באופן לא מפורש: אם יציבו בפנינו לבדיקה את ההשערה \(H_0:\ 2\beta + 1.4 = 8\), נטפל תחילה בביטוי באמצעות אלגברה, עד שנגיע למצב שבו הפרמטר \(\beta\) מבודד באגף שמאל: ורק במצב זה (כאשר הפרמטר מבודד באגף שמאל) נחשב את ה-t הסטטיסטי, נשווה אותו ל( 2 -או לערך מדוייק יותר מטבלה, )t ונקבל החלטה. את ההשערה הזו כבר בדקנו בדוגמא שלעיל, ודחינו אותה.

תצפית מס׳ Y X Z
1 23 1 11
2 16 2 6
3 5 3 1
4 32 4 14
5 15 5 5
6 30 6 12
7 21 7 7
8 12 8 2
9 35 9 13
10 18 10 4
11 41 11 15
12 28 12 8
13 33 13 10
14 20 14 3
15 33 15 9

בדיקת מובהקות האומד

חוקר אמד מודל וקיבל את התוצאות \(\hat\beta = 0.5\) ו-\(\hat\sigma_{\hat\beta} = 0.357\).

האם האומד מובהק? למדנו לענות על שאלה זו באמצעות רווח סמך. כעת נלמד לענות עליה באמצעות מבחן.t את השאלה "האם האומד מובהק?" ניתן לתרגם לנוסח הבא: \(H_0:\ \beta = 0\) (המשמעות של \(H_0\) היא שהאומד איננו מובהק); \(H_1:\ \beta \ne 0\) (המשמעות של \(H_1\) היא שהאומד מובהק). בהתאם לכך ניתן לחשב את ה-\(t\) הסטטיסטי: \(t_{stat} = 1.4006\). מכיוון ש-\(1.4006 < 2\), לא נוכל לדחות את השערת האפס, ונסיק שהאומד איננו מובהק. במקרה כזה נצטרך לתקן את המודל, כי המשתנה המסביר ש-\(\beta\) הוא המקדם שלו איננו משפיע על המשתנה המוסבר, ויש להשמיטו מהמודל. דוגמא נוספת: חוקר אמד את המודל \(Y_i = \alpha + \beta X_i + u_i\) באמצעות מדגם בן 22 תצפיות. הוא קיבל כי \(\hat\beta = 0.1\) ו-\(\hat\sigma_{\hat\beta} = 0.02\). האם האומד מובהק? האם לפי ההחלטה לגבי מובהקות האומד יש צורך לשנות את המודל? ההשערות הן: \(H_0:\ \beta = 0\), \(H_1:\ \beta \ne 0\). נחשב את ה-\(t\) הסטטיסטי: \(t_{stat} = 5\). במדגם יש 22 תצפיות ובמודל יש 2 פרמטרים, לכן מספר דרגות החופש הוא 20. הערך המתאים בטבלה \(t\) הוא 2.086. מכיוון ש-\(5 > 2.086\), אנו דוחים את השערת האפס, ומחליטים שהאומד מובהק. לפיכך, אין צורך לשנות את המודל.

איור

\(R^2\) — מקדם ההסבר או איכות הרגרסיה

כפי שלמדנו בפרק ( 3 אמידה בתוכנת אקסל), אם באמידה באמצעות תוכנת אקסל, נסמן 5 שורות במקום,2 נקבל מידע נוסף על האמידה. בפרק זה נתמקד בערך הראשון המופיע בשורה השלישית (ראו דוגמאות בהמשך).ערך זה נקרא \(R^2\) והוא תמיד מספר בין 0 ל-1. \(R^2\) מרמז על איכות הרגרסיה, והוא עונה על השאלה: באיזו עוצמה מסביר המשתנה המסביר את המשתנה המוסבר? במודל \(Y_i = \alpha + \beta X_i + u_i\), ככל ש-\(R^2\) קרוב יותר ל-1 הרגרסיה איכותית יותר, דהיינו \(X\) מסביר את \(Y\) באופן טוב יותר. ככל ש-\(R^2\) קרוב יותר ל-0 הרגרסיה פחות איכותית, דהיינו יכולת ההסבר שיש ל-\(X\) לגבי \(Y\) קטנה יותר. דוגמה חוקר א' מאמין ש-X מסביר את, Y ואילו חוקר ב' מאמין כי Z מסביר את.Y המודל של חוקר א' הוא \(Y_i = \alpha + \beta X_i + u_i\). המודל של חוקר ב' הוא \(Y_i = \alpha + \beta Z_i + u_i\). נתוני התצפיות מופיעים בטבלה הבאה:

תצפית מס׳ · \(Y\) · \(X\) · \(Z\)

איור

לאחר האמידה התקבלו הגרפים הבאים: חוקר א' חוקר ב מכיוון שבגרף של חוקר ב' הנקודות מרוכזות יותר סביב הקו, הרגרסיה שלו היא באיכות גבוהה יותר. רגרסיה באיכות גבוהה יותר פרושה שהמודל מסביר טוב יותר את המדגם.

נבדוק מהו ערך ה-\(R^2\) בכל אחת מהאמידות (הערך של \(R^2\) מסומן במשבצת כתומה): \(R^2\) באמידה של חוקר א' הוא 0.2087 \(R^2\) באמידה של חוקר ב' הוא 0.8145 \(R^2\) של חוקר ב' גדול מ-\(R^2\) של חוקר א', ולכן אנו יכולים לטעון כי Z מסביר את Y טוב יותר מאשר.X הערה: מותר להשוות בין שני מודלים באמצעות \(R^2\) רק אם מתקיימים שני תנאים: ( 1) לשני המודלים אותו משתנה מוסבר ( 2) לשני המודלים אותו מספר של משתנים מסבירים (כולל חותך). המודלים של החוקרים הנ"ל עומדים בתנאים אלה. בשניהם המשתנה המוסבר הוא, Y ובשניהם יש משתנה מסביר אחד וחותך. ערכי הקצה של \(R^2\): \(R^2 = 1\), ההסבר הוא מושלם, וכל הנקודות של המדגם נמצאות על קו הרגרסיה. כאשר \(R^2 = 0\), הרגרסיה איננה מסבירה דבר.

גילוי נאות: התוכן באתר אינו ייעוץ פיננסי, פנסיוני, מסים או השקעות. החלטות פיננסיות אישיות מומלץ לקבל בליווי בעל מקצוע מוסמך.