Стандартне відхилення і дисперсія - це статистичні заходи розсіювання
Формула стандартного відхилення та дисперсії часто виражається за допомогою:
Варіантність набору н однаково вірогідні значення можуть бути записані як:
Стандартне відхилення - це квадратний корінь дисперсії:
Формули з грецькими літерами виглядають приголомшливо, але це менш складно, ніж здається. Щоб зробити це простими кроками:
Це дає дисперсію. Візьміть квадратний корінь дисперсії, щоб знайти стандартне відхилення.
Це чудове відео з Академії Хана пояснює поняття дисперсії та стандартного відхилення:
Скажімо, набір даних включає висоту шести кульбаб: 3 дюйма, 4 дюйма, 5 дюймів, 4 дюйма, 11 дюймів і 6 дюймів.
Спочатку знайдіть середнє значення точок даних: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Так середня висота становить 5,5 дюйма. Тепер нам потрібні відхилення, тому знаходимо різницю кожної рослини від середнього: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Тепер квадратне кожне відхилення і знайди їх суму: 6,25 + 2,25 + .25 + 2,25 + 30,25 + 2,25 = 43,5
Тепер ділимо суму квадратів на кількість точок даних, у цьому випадку рослини: 43,5 / 6 = 7,25
Отже, дисперсія цього набору даних становить 7,25, що є досить довільним числом. Щоб перетворити його в вимірювання реального світу, візьміть квадратний корінь 7,25, щоб знайти стандартне відхилення в дюймах.
Стандартне відхилення становить приблизно 2,69 дюйма. Це означає, що для зразка будь-який кульбаба в межах 2,69 дюйма від середнього (5,5 дюйма) є "нормальним".
Відхилення розміщуються у квадраті, щоб запобігти скасуванню позитивних значень (відхилення нижче середнього). Це працює, тому що від’ємне число у квадраті стає позитивним значенням. Якщо у вас був простий набір даних із відхиленнями від середнього значення +5, +2, -1 і -6, сума відхилень вийде як нуль, якщо значення не будуть розміщені у квадраті (тобто 5 + 2 - 1 - 6 = 0).
Варіантність виражається математичною дисперсією. Оскільки це довільне число відносно оригінальних вимірювань набору даних, його важко візуалізувати та застосувати в реальному розумінні. Пошук дисперсії, як правило, є лише останнім кроком, перш ніж знайти стандартне відхилення. Значення варіацій іноді використовуються у фінансових та статистичних формулах.
Стандартне відхилення, яке виражається в оригінальних одиницях набору даних, набагато інтуїтивніше і ближче до значень вихідного набору даних. Він найчастіше використовується для аналізу демографічних даних чи вибірки населення, щоб зрозуміти, що є нормальним у популяції.
При нормальному розподілі близько 68% населення (або значень) потрапляє в межах 1 стандартного відхилення (1σ) від середнього значення і приблизно 94% - в межах 2σ. Значення, що відрізняються від середнього на 1,7σ або більше, зазвичай вважаються переживаючими.
На практиці такі системи якості, як Six Sigma, намагаються знизити кількість помилок, щоб помилки перетворилися на сторонність. Термін "шість сигма-процес" походить від поняття, що якщо в одному з шести стандартних відхилень між середнім процесом і найближчим обмеженням специфікації, практично жоден елемент не буде відповідати технічним умовам.[1]
У реальних програмах використовувані набори даних представляють зазвичай вибірки населення, а не цілі популяції. Трохи модифікована формула застосовується для висновків для загальної кількості населення з часткової вибірки.
"Стандартне відхилення вибірки" використовується, якщо все, що у вас є, є вибіркою, але ви хочете зробити заяву про стандартне відхилення сукупності, з якого береться вибірка
Єдиною формулою стандартного відхилення вибірки, що відрізняється від стандартної формули відхилення, є «-1» у знаменнику.
На прикладі кульбаби ця формула знадобиться, якби ми відібрали лише 6 кульбаб, але хотіли використати цей зразок, щоб вказати стандартне відхилення для всього поля із сотнями кульбаб..
Сума квадратів тепер ділиться на 5 замість 6 (n - 1), що дає дисперсію 8,7 (замість 7,25), а вибіркове стандартне відхилення 2,95 дюйма замість 2,69 дюйма для початкового стандартного відхилення. Ця зміна використовується для пошуку похибки у вибірці (9% у цьому випадку).