דוגמא א': מחקר דמיוני
במדינה קטנה, השוכנת לחוף ים, חוקר ערך מחקר לגבי הקשר בין אורך הדגים לבין משקלם. לצורך המחקר הוא ערך מדגם שבמסגרתו הוא דג 100 דגים ורשם את אורכו ומשקלו של כל דג. תוצאות המדגם נרשמו בטבלה 1 ושורטטו בתרשים.2 טבלה 1 המיספור משקל אורך הסידורי (גרמים) (מילימטרים) של הדגים הסבר לטבלה 1 החוקר סידר את הדגים בסדר עולה לפי האורך. אורך 3 הדגים הראשונים הוא 500 מילימטר כל אחד, ומשקלו של כל אחד מהם הוא בדיוק 1,600 גרם. אורך 2 הדגים הבאים הוא 501 מילימטר כל אחד, ומשקלו של כל אחד מהם הוא בדיוק 1,602 גרם. אורך 4 הדגים הבאים הוא 502 מילימטר כל אחד, ומשקלו של כל אחד מהם הוא בדיוק 1,604 גרם. החוקר הסיק שלכל הדגים בעלי אותו אורך יש משקל זהה.
תרשים 2 הסבר לתרשים 2 כל נקודה בתרשים 2 מייצגת דג שנתוני האורך והמשקל שלו הם בהתאם למיקום הנקודה במישור הצירים: נקודה a מייצגת דג שאורכו 500 מ"מ ומשקלו 1,600 גרם. היות וישנם 3 דגים בעלי אותם נתונים 3, הנקודות המייצגות אותם מתלכדות. הספרה 3 מתחת לנקודה a מציינת שהיא מתייחסת ל-3 דגים. נקודה b מייצגת דג שאורכו 501 מ"מ ומשקלו 1,602 גרם. היות וישנם 2 דגים בעלי אותם נתונים 2, הנקודות המייצגות אותם מתלכדות. הספרה 2 מתחת לנקודה b מציינת שהיא מתייחסת ל-2 דגים. נקודה c מייצגת דג שאורכו 502 מ"מ ומשקלו 1,604 גרם. היות וישנם 4 דגים בעלי אותם נתונים 4, הנקודות המייצגות אותם מתלכדות. הספרה 4 מתחת לנקודה c מציינת שהיא מתייחסת ל-4 דגים.
| המספר הסידורי של הדגים | אורך (מ״מ) | משקל (גרם) |
|---|---|---|
| 1 | 500 | 1,600 |
| 2 | 500 | 1,600 |
| 3 | 500 | 1,600 |
| 4 | 501 | 1,602 |
| 5 | 501 | 1,602 |
| 6 | 502 | 1,604 |
| 7 | 502 | 1,604 |
| 8 | 502 | 1,604 |
| 9 | 502 | 1,604 |
לאחר שהצבנו את כל הנקודות, חיברנו ביניהן קו, ולהפתעתנו קבלנו קו ישר. אם נמשיך את הקו עד לציר ה-y הוא יחתוך אותו בנקודה 600 גרם. שיפוע הקו הוא 2. את הקו ניתן להציג באמצעות המשוואה הבאה: \(y = 600 + 2x\) (במשוואה \(x\) מייצג את
אורך הדג במ"מ, ו-\(y\) מייצג את משקל הדג בגרמים). גורם המקריות בדוגמא בדוגמא זו גורם המקריות לא קיים. כל הדגים בעלי אותו אורך הם גם בעלי אותו משקל. במילים אחרות, ה-\(u\) בכל התצפיות הוא 0. לפיכך, גם הממוצע וגם ס"ת (סטיית תקן) של \(u\) הם אפס. המסקנות המעשיות מהקו לאחר שהחוקר שרטט את הקו, הוא הצהיר שבהתבסס על משוואת הקו יש באפשרותו לקבוע במדוייק את משקלו של כל דג על פי אורכו. לדוגמה, אם אורכו של דג הוא 520 מ"מ, אזי משקלו יהיה במדוייק 1,640 גרם
מונחים וסימולים

מונחים .I בהתייחס לדוגמת הדגים תצפית – כל דג במדגם מהווה תצפית אחת. משתנה – בכל תצפית נמדדו גם האורך וגם המשקל. כל אחד מהם מהווה משתנה (כי תוצאות המדידה משתנות מתצפית לתצפית). משתנה מסביר ומשתנה מוסבר במחקר על הדגים אנו רואים שיש קשר בין שני המשתנים. אורך הדג ומשקל הדג קשורים זה בזה. ככל שהדג ארוך יותר, משקלו גדול יותר. כפי שראינו, גם קיימת משוואה שמתארת בדיוק את הקשר בין אורך הדג למשקלו. האורך משפיע על המשקל, או במילים אחרות, האורך מסביר את המשקל, והמשקל מוסבר ע"י האורך. את אורך הדג נכנה המשתנה המסביר. את משקל הדג נכנה המשתנה המוסבר.
.II המונחים בהתייחסות כללית תצפית -פריט מתוך אוכלוסייה כלשהי, שנבחר בצורה אקראית לצורך מדידת נתונים שונים לגביו. משתנה -הנתונים שאותם מודדים בתצפית. את המשתנה המסביר מציבים על ציר ה x. – את המשתנה המוסבר מציבים על ציר ה y. – למשתנה על ציר ה x -נקרא בקיצור: משתנה ה–.X למשתנה על ציר ה y -נקרא בקיצור: משתנה ה–.Y חד ערכי כאשר ניתן לחזות במדויק את נתוני ה( Y -המשתנה המוסבר) על פי נתוני ה X – (המשתנה המסביר), אנו אומרים שהקשר בין המשתנים הוא חד ערכי. במקרה שיש קשר חד ערכי בין המשתנה המסביר למשתנה המוסבר, לא קיים גורם מקריות. סימולים
- \(X_1\) — תוצאת משתנה ה-X בתצפית הראשונה ]= אורך הדג הראשון שדגמנו[.
- \(X_2\) — תוצאת משתנה ה-X בתצפית השנייה ]= אורך הדג השני שדגמנו[.
- \(X_{20}\) — תוצאת משתנה ה-X בתצפית ה =] 20 -אורך הדג העשרים שדגמנו[.
- \(X_i\) — תוצאת משתנה ה-X בתצפית i כלשהי )סימול כללי, שאינו מתייחס לתצפית ספציפית(.
- \(Y_1\) — תוצאת משתנה ה-Y בתצפית הראשונה ]=משקל הדג הראשון שדגמנו[.
- \(Y_i\) — תוצאת משתנה ה-Y בתצפית i כלשהי )סימול כללי, שאינו מתייחס לתצפית ספציפית(.

דוגמא ב': מחקר אמיתי
חוקר ערך מחקר לגבי הקשר בין אורך של דגים ומשקלם. הוא דג 100 דגים ורשם את נתוני האורך והמשקל שלהם. תוצאות המדגם נרשמו בטבלה (במתכונת טבלה 1) שאינה מוצגת כאן ומקביל הן הוצבו בתרשים 3 המוצג להלן. בכל מידת אורך נמצאו בין 2 ל-4 דגים, כשמשקלם שונה זה מזה. לדוגמא, באורך 500 מ"מ נמצאו 3 דגים, האחד במשקל 1,001 גרם, השני במשקל 1,003 גרם והשלישי במשקל 980 גרם. בתרשים 3 אין נקודות שהתלכדו. ישנן בו 100 נקודות כמספר הדגים במדגם. תרשים 3 בסידור הנוכחי של הנקודות אין אפשרות לשרטט קו ישר שיחבר את כולן כפי שקרה במחקר הדמיוני. עם זאת גם במבט חטוף ניתן להבחין שבאופן כללי ככל שאורך הדגים עולה, עולה גם משקלם. החוקר ביקש משלושת עוזרי המחקר שלו להעביר קו ישר שיחצה את "ים הנקודות" כך שהקו ישקף טוב ככל האפשר את הקשר בין האורך למשקל.
שלושת העוזרים שרטטו 3 קווים שונים, די קרובים זה לזה )בתרשים משורטט רק אחד הקווים(. לאור ההבדלים בקווים החוקר פנה לעזרת סטטיסטיקאי. הסטטיסטיקאי סיפר לו שכבר לפני שנים רבות הסטטיסטיקאים פיתחו נוסחה לשרטט קו ישר בתוך מצבור של נקודות, שמשקף בצורה הטובה ביותר את הקשר בין 2 המשתנים. הקו מכונה: קו הרגרסיה.

הסברים על קו הרגרסיה
בתרשים 4 מוצג מדגם בעל 4 תצפיות וקו רגרסיה המתאים למדגם (הקו שמשקף את המדגם בצורה הטובה ביותר). עבור כל תצפית מוצגת הסטיה שלה מקו הרגרסיה (הסימול \(u_i\)). בתרשים 4: \(u_1 = 2,\ u_2 = 2,\ u_3 = 2,\ u_4 = 2\). בקו הרגרסיה סכום כל ה-\(u_i\) בריבוע (\(u_i^2\)) הוא הקטן ביותר מבין כל הקווים האפשריים. בסימול מתמטי: \(\sum_{i=1}^{n} u_i^2\) הוא הקטן ביותר האפשרי. בתרשים: \(\sum_{i=1}^{n} u_i^2 = 16\) (\(4 \times 2^2 = 16\)). בכל קו אחר סכום ריבועי הסטיות מהקו יעלה על 16. קו הרגרסיה נקרא גם קו הריבועים הפחותים.
השם של הקו נגזר מהמאפיין שלו, שלפיו סכום ריבועי הסטיות של תצפיות המדגם מהקו הוא הפחוּת (הקטן) ביותר. הייעוד של קו הרגרסיה קו הרגרסיה אמור לתת אינדיקציה לגבי סוג הקשר ועוצמת הקשר שבין המשתנה המוסבר למשתנה המסביר. ככל שפיזור התצפיות לאורך קו הרגרסיה קטן יותר כך עוצמת הקשר ביניהם גדולה יותר. כאשר כל התצפיות נמצאות על גבי קו הרגרסיה כמו בדוגמא של המחקר הדמיוני הקשר בין המשנה המסביר למשתנה המוסבר מושלם. 2 הפרמטרים של קו הרגרסיה (תרשים ) 5 קו הרגרסיה, כמו כל קו ישר, מאופיין ב 2-פרמטרים:

- שיפוע הקו – הסימול \(\hat\beta\) (צורת הגג מעל ה-\(\beta\) מציינת שהערך התקבל ממדגם).
- נקודת החיתוך – הסימול \(\hat\alpha\) (צורת הגג מעל ה-\(\alpha\) מציינת שהערך התקבל ממדגם). נוסחת קו הרגרסיה מסומלת \(\hat Y = \hat\alpha + \hat\beta X\) (צורת הגג מעל ה-Y מציינת שמדובר בערך החזוי של \(Y\) לפי קו הרגרסיה). תרשים 5
הבחנה בין קו הרגרסיה המבוסס על מדגם לבין "הקו האמיתי"
ההסבר מתייחס לדוגמא של הדגים בים. אילו החוקר היה יכול לדגום במחקר שלו את כל אוכלוסיית הדגים בים, התוצאה הייתה נותנת תמונת מצב מדוייקת לגבי הקשר הקיים בין אורך ומשקל באוכלוסיית הדגים. אילו היינו מחשבים קו על בסיס נתוני כלל אוכלוסיית הדגים היינו יכולים לקרוא לו הקו האמיתי, ולסמלו \(Y = \alpha + \beta X\): אך החוקר מתבסס במחקר שלו רק על מדגם של 100 דגים, ולפיכך הקו שקיבל הוא קו רגרסיה שמהווה רק אומדן לקו האמיתי. אילו החוקר יחזור על הניסוי עוד פעמיים הוא יקבל, קרוב לוודאי, נתוני תצפיות שונים ובעקבותיהם יתקבלו 2 קווי רגרסיה שונים זה מזה. בתום 3 המחקרים יהיו בידי החוקר 3 קווי רגרסיה שונים זה מזה, שכל אחד מהווה אומדן לקו האמיתי. ההבחנה בין הסימולים המתייחסים למדגם לבין אלה המתייחסים לכלל האוכלוסייה מסוכמת בטבלת הסימולים שלמעלה.
דוגמאות נוספות
נציג בהמשך תוצאות מחקרים שנעשו ב-2 ענפים, ענף הדגים וענף החצילים. בכל ענף בוצעו 3 מחקרים זהים בידי 3 מדענים שונים.
| החוקרים | β̂ — שיפוע הקו (גר׳ למ״מ) | α̂ — נקודת החיתוך (גרמים) |
|---|---|---|
| חוקר א' | 5.70 | 300 |
| חוקר ב' | 6.04 | 303 |
| חוקר ג' | 5.65 | 298 |
- ענף הדגים -נבדק הקשר בין אורך הדגים (בס"מ) ומשקלם (בגרמים).
- ענף החצילים -נבדק הקשר בין כמות ההשקייה ותנובת החצילים.
- ענף הדגים -היקף המחקר והתוצאות חוקרים שונים ערכו את אותו מחקר. כל מחקר התבסס על מדגם של 1,000 דגים. לכל דג נרשמו אורכו במ"מ ומשקלו בגרמים. מהמדגם נאמד קו רגרסיה. טבלה 2 מציגה את אומדני הפרמטרים של קו הרגרסיה שהתקבלו אצל כל אחד מ 3 – החוקרים.
מסקנות ממבט ראשון ההבדלים באומדנים אינם גדולים. הסיבה לכך היא שגורם המקריות באוכלוסייה אינו גדול. בשפת הסטטיסטיקה אומרים שהשונות של u קטנה. ככל שהשונות של u קטנה, התצפיות תתקרבנה לקו הרגרסיה.
- ענף החצילים -מסגרת המחקר והתוצאות כל אחד מ-3 החוקרים גידל חצילים ב-21 ערוגות, שיח אחד בכל ערוגה. כל ערוגה הושקתה בכמות יומית שונה של מים: ערוגה 0 לא הושקתה כלל. ערוגה 1 הושקתה ב-1 ליטר מים כל יום. ערוגה 2 הושקתה ב-2 ליטר מים כל יום. ערוגה 3 הושקתה ב-3 ליטר מים כל יום, וכך הלאה. בתום תקופת הגידול נקטפו החצילים, ועבור כל ערוגה נרשם משקל החצילים שגדלו בה. לכל חוקר היו 21 תצפיות כאשר כל תצפית כללה משתנה מסביר )כמות המים היומית בליטרים( ומשתנה מוסבר (משקל החצילים בק"ג).עבור כל אחד משלושת המדגמים נאמד קו רגרסיה. טבלה 3 מציגה את אומדני הפרמטרים של קו הרגרסיה שהתקבלו אצל כל אחד מ-3 החוקרים.
| החוקרים | β̂ — שיפוע הקו | α̂ — נקודת החיתוך |
|---|---|---|
| חוקר א' | 2.49 | 15.74 |
| חוקר ב' | 2.95 | 5.36 |
| חוקר ג' | 3.19 | 3.16 |
מסקנות ממבט ראשון קיימים הבדלים גדולים באומדנים, והסיבה לכך היא שבאוכלוסיית החצילים גורם המקריות גדול מאוד. בשפת הסטטיסטיקה, השונות של u גדולה. אנו נשוב ונעזר בדוגמת החצילים בהמשך. זכרו אותה!
מהו מודל? (בהקשר האקונומטריה)
מודל הוא נוסחה מתמטית שמתארת, לדעת החוקר, את צורת הקשר בין המשתנה המסביר לבין המשתנה המוסבר באוכלוסייה הנחקרת. לפני כל מחקר בוחר לעצמו החוקר את המודל (הנוסחה) שעליו הוא מעוניין לבסס את מחקרו. המודל הלינארי מודל פופולרי בקרב החוקרים הוא המודל הלינארי שצורתו \(Y = \alpha + \beta X\) (קו ישר). החוקר מוסיף לפונקציית הקו הישר את גורם המקריות שכן לא סביר שכל התצפיות באוכלוסייה תתמקמנה בדיוק על הקו הישר. הפרמטרים של המודל הלינארי הם, כאמור, השיפוע \(\beta\) ונקודת החיתוך עם ציר ה-\(Y\), \(\alpha\), המכונה "החותך". בעקבות תוספת גורם המקריות המודל מקבל את הצורה \(Y = \alpha + \beta X + u\): זה המודל שלדעת החוקר מייצג בצורה הטובה ביותר את הקשר בין המשתנים באוכלוסיה כולה. חישוב הערכים של הפרמטרים \(\alpha\) ו-\(\beta\) וחישוב סטיות התקן שלהם. היות וחישוב הפרמטרים \(\alpha\) ו-\(\beta\) מתבסס על מדגם, גם הם משתנים )התוצאות משתנות ממדגם למדגם(.

הסטטיסטיקאים פיתחו מערכת נוסחאות שמאפשרת לנו לחשב את \(\alpha\) ו-\(\beta\) ובמקביל לחשב מתוך המדגם גם את סטיית התקן שלהם. אנו לא נציג את הנוסחאות, שהן די מורכבות, אך נלמד בהמשך כיצד להפיק בקלות מתוכנת אקסל הן את הפרמטרים והן את סטיית התקן שלהם. השימוש בסטיות התקן בעזרת סטיות התקן יש באפשרותנו להעריך, בהסתברות של,90%או בכל הסתברות אחרת שנבחר, מהם גבולות הסמך שבהם נמצאים הפרמטרים "האמיתיים" \(\alpha\) ו-\(\beta\) באוכלוסייה. בהמשך נתייחס רק לגבולות סמך בהסתברות של 95%שכן זו ההסתברות המועדפת על הסטטיסטקאים, ותוכנת האקסל מותאמת להסתברות זו. משמעות השיפוע \(\beta\): השיפוע מציין בכמה יחידות יעלה (או ירד) \(Y\) (המשתנה המוסבר) בעקבות תוספת של יחידה אחת ל-\(X\) (המשתנה המסביר). בדוגמת החצילים, אם \(\beta = 3\), המשמעות היא שכל ליטר נוסף של מים (המשתנה המסביר) מניב 3 ק"ג נוספים של חצילים. בדוגמת הדגים, אם \(\beta = 5.1\), המשמעות היא שתוספת של מ"מ אחד לאורך הדג תגדיל את משקלו ב-5.1 גרם. \(\beta\) הוא בדר"כ הפרמטר המעניין של המחקר.
האמינות של \(\beta\): צריך לזכור ש-\(\beta\) הוא רק אומדן ל-"\(\beta\) האמיתי" באוכלוסייה, שאותו אנו לא יודעים. בהמשך נלמד כיצד לחשב את גבולות הסמך של \(\beta\) האמיתי בהסתברות של 95%, בהתבסס על הערך של \(\beta\). אם בדוגמא של הדגים קיבלנו ש-\(\beta = 5.1\), ולאחר חישוב גבולות הסמך מצאנו כי הגבול התחתון הוא 4.5 והגבול העליון הוא,5.7 אזי בהסתברות של 95%כל מ"מ נוסף באורך של הדג מוסיף למשקלו בין 4.5 ל 5.7 -גרם. המשמעות של \(\alpha\) ואמינותו: \(\alpha\) מציין את מיקום נקודת החיתוך עם ציר ה-\(Y\). בדוגמת החצילים המשמעות היא שהחלקה שלא הושקתה כלל תניב \(\alpha\) ק"ג חצילים. גם \(\alpha\) הוא רק אומדן ל-\(\alpha\) האמיתי. בהמשך נלמד איך לחשב את גבולות הסמך של \(\alpha\) ונוכל להסיק, בהסתברות של,95%לגבי כמות החצילים שתניב ערוגה לא מושקית.