Центральна тенденція проти дисперсії
У описовій та інфекційній статистиці для опису набору даних, що відповідають його центральній тенденції, дисперсності та косості, використовуються кілька показників: три найважливіші властивості, що визначають відносну форму розподілу набору даних.
Що є центральною тенденцією?
Центральна тенденція стосується і локалізує центр розподілу значень. Середнє значення, режим та медіана є найбільш часто використовуваними показниками для опису центральної тенденції набору даних. Якщо набір даних симетричний, то і медіана, і середнє набір даних збігаються один з одним.
Враховуючи набір даних, середнє значення обчислюється шляхом взяття суми всіх значень даних, а потім діленням його на кількість даних. Наприклад, ваги 10 осіб (у кілограмах) вимірюються як 70, 62, 65, 72, 80, 70, 63, 72, 77 і 79. Тоді середня вага десяти чоловік (у кілограмах) може бути розраховується наступним чином. Сума ваг - 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Середнє = (сума) / (кількість даних) = 710/10 = 71 (у кілограмах). Зрозуміло, що люди, що відпадають (точки даних, які відхиляються від нормальної тенденції), як правило, впливають на середню. Таким чином, у присутності залишків середній спосіб не дасть правильної картини про центр набору даних.
Медіана - це точка даних, яка знаходиться в точній середині набору даних. Один із способів обчислити медіану - це впорядкувати точки даних у порядку зростання, а потім розташувати точку даних посередині. Наприклад, якщо один раз замовлений попередній набір даних виглядає так, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Тому (70 + 72) / 2 = 71 знаходиться посередині. З цього видно, що медіана не повинна бути в наборі даних. На медіану не впливає присутність переживаючих. Отже, медіана буде слугувати кращим показником центральної тенденції за наявності людей, що споживаються.
Режим - це найбільш часто зустрічається значення у наборі даних. У попередньому прикладі значення 70 і 72 виникають двічі, і тому обидва є режимами. Це показує, що в деяких дистрибутивах є більше одного модального значення. Якщо існує лише один режим, набір даних називається одномодальним, у цьому випадку набір даних є бімодальним.
Що таке дисперсія?
Дисперсія - це кількість розповсюдження даних про центр розподілу. Діапазон і стандартне відхилення - це найчастіше використовувані заходи дисперсії.
Діапазон - це просто найвище значення за мінусом. У попередньому прикладі найвище значення - 80, а найнижче - 62, тому діапазон - 80-62 = 18. Але діапазон не дає достатньої картини про дисперсію.
Для обчислення стандартного відхилення спочатку обчислюються відхилення значень даних від середнього. Середнє значення відхилень кореневого квадрата називається стандартним відхиленням. У попередньому прикладі відповідні відхилення від середнього значення становлять (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 і (79 - 71) = 8. Сума квадрати відхилення дорівнює (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Стандартне відхилення √ (366/10) = 6,05 (у кілограмах). Якщо набір даних не сильно перекошений, з цього можна зробити висновок, що більшість даних знаходиться в інтервалі 71 ± 6,05, і це дійсно так у цьому конкретному прикладі.
Яка різниця між центральною тенденцією та дисперсією? • Центральна тенденція стосується і локалізує центр розподілу значень • Дисперсія - це кількість розповсюдження даних про центр набору даних.
|