בפרקים הקודמים ניתחנו התפלגויות (משתנים מקריים) מסוגים שונים. אבל בכל המקרים היה לנו מידע מלא על המשתנה המקרי, ויכולנו לחשב במדוייק את התוחלת ואת סטיית התקן של ההתפלגות (או שהיא היתה נתונה לנו במקרה של התפלגות נורמלית). מפרק זה ובפרקים הבאים המצב מתהפך: יהיה חוסר מידע על ההתפלגויות ואנו ננסה לגלות את המידע החסר באמצעות מדגמים. הבעיה שבפניה נעמוד היא שהתפלגות מתייחסת לכלל האוכלוסיה, ואילו מדגם מתייחס רק לחלק מהאוכלוסיה ולכן לא יכול לשקף באופן מדוייק את ההתנהגות של האוכלוסיה כולה. דוגמא נניח כי יש בידנו מטבע לא הוגנת, כך שאם אנו זורקים אותה ההסתברות לקבל "עץ" היא 0.55 ואילו ההסתברות לקבל "פלי" היא 0.45 ההסתברויות משקפות את ההתפלגות של אינסוף זריקות (כל האוכלוסיה). אם היתה לנו אפשרות לזרוק את המטבע אינסוף פעמים, אז בדיוק ב 55%-מהמקרים היה מתקבל "עץ" ובדיוק ב 45%-מהמקרים היה מתקבל "פלי". אבל אם נסתכל רק על מדגם, למשל על מדגם של 100 זריקות, יכול להיות שנקבל 60 פעמים "עץ" (שזה לא בדיוק 55%אלא רק קרוב ל 55)%- מסקנה: מדגם משקף באופן לא מדוייק את האוכלוסיה, אבל בכל זאת ניתן ללמוד ממנו משהו על האוכלוסיה. כמו כן, ככל שהמדגם יותר גדול, הוא משקף את האוכלוסיה באופן מדוייק יותר.
הבחנה בין תוחלת לממוצע
תוחלת היא תכונה של התפלגות (מרכז ההתפלגות) והיא למעשה הממוצע של כל האוכלוסיה. אם נתון לנו באופן מפורט המשתנה המקרי ניתן לחשב את התוחלת. אבל אם נתון רק מדגם ניתן לחשב את הממוצע של המדגם. דוגמא נתייחס למשתנה המקרי "הגובה של ילד בישראל". תוחלת תוחלת היא הנתון שהיה מתקבל אילו יכולנו למדוד בו זמנית את הגובה של כל אחד מילדי ישראל (כ 2,000,000 -ילדים) ולחשב את הממוצע. ממוצע ממוצע הינה תוצאה המתבססת על מדגם (מדגם של 500 ילדים מכל רחבי הארץ). הממוצע הוא אומדן לתוחלת כאשר איננו יודעים את התוחלת, ואין לנו דרך למצוא אותה באופן מדוייק, אנחנו יכולים לאמוד אותה (לאמוד = להעריך). נגדיר מדגם לפי בחירתנו, נחשב את הממוצע של המדגם, והממוצע יהיה האומדן שלנו לתוחלת. על גודל המדגם שנבחר נחליט לפי מידת הדיוק שנרצה. ככל שנרצה להיות מדוייקים יותר, נצטרך לקחת מדגם גדול יותר.
הבחנה בין סטיית תקן לטעות תקן
סטיית תקן היא תכונה של התפלגות (הפיזור של ההתפלגות סביב המרכז שלה). אם נתון לנו באופן מפורט המשתנה המקרי ניתן לחשב את בדיוק את הפיזור של ההתפלגות. אבל אם נתון רק מדגם ניתן לחשב את פיזור של המדגם.
סטיית תקן
סטיית תקן היא הנתון שהיה מתקבל אילו החישוב היה מתבסס על נתוני כל האוכלוסייה. דוגמא ניקח לדוגמא את המשתנה המקרי המוגדר ע"י התוצאה המתקבלת בזריקת קוביה הוגנת. המשתנה המקרי יכול לקבל את הערכים,1,2,3,4,5,6 וההסתברות לקבלת כל ערך היא. 1 המשתנה המקרי משקף מה יקרה בזריקה של קוביה אינסוף פעמים ולפיכך הוא משקף את כל האוכלוסיה. השונות (לפי הנוסחא שלמדנו) תהיה= = 2: . 2 ולכן סטיית התקן תהיה = 1.708
טעות תקן
טעות תקן היא חישוב של פיזור המבוסס על מדגם. דוגמא ניקח לדוגמא מדגם של הערכים המתקבלים זריקת קוביה 60 פעמים. להלן תוצאות המדגם: השכיחות הערך (מספר הפעמים שהערך התקבל) שהתקבל
נחשב את הממוצע= 3: כעת, נבנה טבלה חדשה שתכלול את הפער של כל ערך מהממוצע וגם את הפער הזה בריבוע: הפער מהממוצע השכיחות הפער בריבוע הערך שהתקבל (הממוצע =32)/3 60 סה"כ מכיוון שאנו לא מסתפקים בחישוב השונות של המדגם, אלא רוצים להשתמש בה כדי לאמוד את השונות של האוכלוסיה החישוב יעשה באופן הבא: מכפילים את ריבוע הפער בשכיחות, סוכמים, ומחלקים בגודל המדגם פחות:1 9 9 9 9 9 9 = נחשב את השונות הנאמדת 3 = 3.276836: טעות התקן תהיה. 3.276836 = 1.8102 טעות התקן משמשת כאומדן לסטיית התקן כאשר איננו יודעים את סטיית התקן, ואין לנו דרך למצוא אותה באופן מדוייק, אנחנו יכולים לאמוד אותה ע"י חישוב טעות התקן של מדגם שאותו נבחר. טעות התקן של המדגם היא האומדן לסטיית התקן באוכלוסיה. בדוגמא שלעיל סטיית התקן (של האוכלוסיה) הינה בדיוק 1.708 כאשר חישבנו את טעות התקן מתוך המדגם התקבל 1.8102 אילו היינו לוקחים מדגם בגודל 600 ולא בגודל,60 היינו יכולים לקבל תוצאה קרובה יותר ל 1..708-
הקשר בין משתנים מאותה משפחה
3 בדוגמא שלעיל מצאנו כי לפי המדגם אנו מעריכים כי התוחלת של המשתנה המקרי היא וסטיית התקן היא 1.8102 הנתונים האלה תקפים למשתנה הבסיס שהוא זריקה בודדת של קוביה. 3 ועם סטיית תקן 1.8102 ולכן: משתנה הבסיס מתפלג עם תוחלת (המספרים הם אומדנים מהמדגם) את התוחלת הערכנו לפי הממוצע שחושב ממדגם בגודל 60 הממוצע עצמו הוא משתנה מקרי מורכב (מורכב מ 60-משתני בסיס). כפי שלמדנו בפרקים הקודמים, כדי להעריך את סטיית התקן של הממוצע נצטרך לחלק את סטיית התקן של משתנה הבסיס בשורש של . גודל המדגם= 0.2337: ולכן: משתנה הממוצע מתפלג עם תוחלת 3 ועם סטיית תקן 0.2337 (המספרים הם אומדנים מהמדגם)