У статистиці термін вибірки відноситься до вибору частини сукупних статистичних даних з метою отримання відповідної інформації про ціле. Сукупність або ціла статистична інформація про певний характер усіх членів, охоплених дослідженням, називається «населення» або «всесвіт». (Дас, Н.Г., 2010). Вибрана частина населення, яка використовується для отримання характеристик населення або Всесвіту, називається "вибіркою". Сукупність вважається складеною з окремих одиниць або членів, а частина одиниць включається до вибірки. Загальна кількість одиниць сукупності називається чисельністю сукупності, а кількість вибірки - величиною вибірки. Населення та вибірки можуть бути кінцевими або нескінченними, і вони можуть бути існуючими або гіпотетичними.
Варіант: Варіант - це числове значення, яке показує, наскільки широко окремі фігури в наборі даних поширюються про середнє значення. Ось наскільки кожне число знаходиться від середнього значення, а отже, і від одного. Варіант нульового значення означає, що всі дані однакові. Чим більше дисперсія, тим більше значення розкидаються середнього значення, отже, одна від одної. Чим менше дисперсія, тим менше значень, розкинутих середнє значення, отже, одна від одної, і дисперсія не може бути негативною.
Основна різниця між дисперсією сукупності та дисперсією вибірки стосується обчислення дисперсії. Варіантність обчислюється в п'ять кроків. Спочатку обчислюється середнє значення, потім обчислюємо відхилення від середнього, по-третє відхилення складаються у квадрат, по-четверте відхилення у квадраті підсумовуються і, нарешті, ця сума ділиться на кількість елементів, на які розраховується дисперсія. Таким чином, дисперсія = Σ (xi-x -) / n. Де xi = i. Кількість, x- = середнє значення і n = кількість предметів…
Тепер, коли дисперсію слід обчислити з даних про сукупність, n дорівнює кількості елементів. Таким чином, якщо дисперсія артеріального тиску всіх 1000 осіб повинна бути обчислена за даними про тиск крові у всіх 1000 осіб, то n = 1000. Однак коли дисперсія обчислюється за даними вибірки 1, слід вирахувати з n перед діленням сума відхилень у квадраті. Таким чином, у наведеному вище прикладі, якщо дані вибірки мають 100 предметів, знаменником буде 100 - 1 = 99.
Завдяки цьому значення дисперсії, обчислені за вибірковими даними, є вищими за значення, які можна було б дізнатись за допомогою даних сукупності. Логіка цього полягає в тому, щоб компенсувати брак інформації про населення. Неможливо виявити різницю висот у людських істот, оскільки ми абсолютно не маємо інформації про висоту всіх живих людей, а не говорити про майбутнє. Навіть якщо ми візьмемо один помірний приклад, як, наприклад, дані про населення про висоту всіх живих людей у США, це фізично можливо, але вартість та час, пов'язані з цим, переможуть мету його обчислення. Це є причиною того, що вибіркові дані беруться для більшості статистичних цілей, і це супроводжується відсутністю інформації про більшість даних. Для того, щоб компенсувати це, значення дисперсії та стандартного відхилення, яке має квадрат кореня дисперсії, є вищими у випадку вибіркових даних, ніж відхилення від даних про сукупність.
Це діє як автоматичний щит для аналітиків та осіб, які приймають рішення. Логіка застосовується для прийняття рішень щодо капітального бюджетування, персональних та бізнес-фінансів, будівництва, управління трафіком та багатьох застосовних областей. Це допомагає власнику акцій бути в безпечній стороні під час прийняття рішення або для інших висновків.
Підсумок: Дисперсія популяції відноситься до значення дисперсії, яка обчислюється за даними популяції, а дисперсія вибірки - дисперсія, обчислена на основі вибіркових даних. У зв'язку з цим значенням знаменника у формулі для дисперсії у випадку вибіркових даних є «n-1», і це «n» для даних сукупності. В результаті і дисперсія, і стандартне відхилення, отримані на основі вибіркових даних, більше, ніж ті, що з'ясували з даних популяції.