סטיית תקן
סטיית תקן היא תכונה של התפלגות (הפיזור של ההתפלגות סביב המרכז שלה). אם נתון לנו באופן מפורט המשתנה המקרי ניתן לחשב בדיוק את הפיזור של ההתפלגות. אבל אם נתון רק מדגם ניתן לחשב את פיזור של המדגם.
סטיית תקן היא הנתון שהיה מתקבל אילו החישוב היה מתבסס על נתוני כל האוכלוסיה.
דוגמה
ניקח לדוגמא את המשתנה המקרי המוגדר ע"י התוצאה המתקבלת בזריקת קוביה הוגנת. המשתנה המקרי יכול לקבל את הערכים 1,2,3,4,5,6, וההסתברות לקבלת כל ערך היא 1/6.
השונות (לפי הנוסחא שלמדנו) תהיה: (6^2-1)/12=35/12=2.9167
ולכן סטיית התקן תהיה sqrt(2.9167)=1.708.
טעות תקן
טעות תקן היא חישוב של פיזור המבוסס על מדגם.
דוגמה
ניקח לדוגמא מדגם של הערכים המתקבלים בזריקת קוביה 60 פעמים.
- הערך 1 התקבל 11 פעמים
- הערך 2 התקבל 7 פעמים
- הערך 3 התקבל 10 פעמים
- הערך 4 התקבל 8 פעמים
- הערך 5 התקבל 11 פעמים
- הערך 6 התקבל 13 פעמים
נחשב את הממוצע: (1*11+2*7+3*10+4*8+5*11+6*13)/60=3.5
כעת, נבנה טבלה חדשה שתכלול את הפער של כל ערך מהממוצע וגם את הפער הזה בריבוע:
- הערך 1: פער מהממוצע = -2.5, פער בריבוע = 6.25
- הערך 2: פער מהממוצע = -1.5, פער בריבוע = 2.25
- הערך 3: פער מהממוצע = -0.5, פער בריבוע = 0.25
- הערך 4: פער מהממוצע = 0.5, פער בריבוע = 0.25
- הערך 5: פער מהממוצע = 1.5, פער בריבוע = 2.25
- הערך 6: פער מהממוצע = 2.5, פער בריבוע = 6.25
מכיוון שאנו לא מסתפקים בחישוב השונות של המדגם, אלא רוצים להשתמש בה כדי לאמוד את השונות של האוכלוסיה החישוב יעשה באופן הבא:
מכפילים את ריבוע הפער בשכיחות, סוכמים, ומחלקים בגודל המדגם פחות 1:
נחשב את השונות הנאמדת: (6.25*11 + 2.25*7 + 0.25*10 + 0.25*8 + 2.25*11 + 6.25*13) / (60-1) = 3.2768
טעות התקן תהיה sqrt(3.2768) = 1.8102
טעות התקן משמשת כאומדן לסטיית התקן
כאשר איננו יודעים את סטיית התקן, ואין לנו דרך למצוא אותה באופן מדוייק, אנחנו יכולים לאמוד אותה ע"י חישוב טעות התקן של מדגם שאותו נבחר. טעות התקן של המדגם היא האומדן לסטיית התקן באוכלוסיה.
בדוגמא שלעיל סטיית התקן (של האוכלוסיה) הינה בדיוק 1.708. כאשר חישבנו את טעות התקן מתוך המדגם התקבל 1.8102. אילו היינו לוקחים מדגם בגודל 600 ולא בגודל 60, היינו יכולים לקבל תוצאה קרובה יותר ל-1.708.
שאלות נפוצות
- מה ההבדל בין סטיית תקן לשגיאת תקן?
- סטיית תקן (SD) מודדת כמה ערכים בודדים מפוזרים סביב הממוצע — פיזור הנתונים. שגיאת תקן (SE), נקראת גם טעות תקן, מודדת כמה ממוצע המדגם צפוי לסטות מממוצע האוכלוסייה — דיוק האומדן. SD = על הנתונים. SE = על הממוצע.
- איך מחשבים שגיאת תקן?
- SE = SD / √n, כאשר n = גודל המדגם. ככל שהמדגם גדול יותר, שגיאת התקן קטנה יותר. דוגמה: SD = 10, מדגם 25 → SE = 10/5 = 2. מדגם 100 → SE = 10/10 = 1. פי 4 יותר נתונים = חצי שגיאה.
- מתי משתמשים בסטיית תקן ומתי בשגיאת תקן?
- סטיית תקן: כשרוצים לתאר פיזור של נתונים (שכר ממוצע 12,000 ₪ עם SD של 4,000 ₪). שגיאת תקן: כשרוצים להגיד כמה אפשר לסמוך על ממוצע מדגם (הממוצע 12,000 ₪ ± 800 ₪ ברמת ביטחון 95%). אם מדווחים על אומדן → SE. אם מתארים שונות → SD.
- למה שגיאת תקן קטנה כשהמדגם גדל?
- כי ככל שיש יותר נתונים, הממוצע שלהם מתייצב קרוב יותר לממוצע האמיתי (חוק המספרים הגדולים). סקר 100 אנשים → SE גדול. סקר 10,000 → SE קטן. אבל התשואה פוחתת — מ-100 ל-10,000 (×100) מקטין SE רק פי 10 (√100).
