Что показывает дисперсия случайной величины
Что такое дисперсия в статистике
Статистика, в частности, оперирует рядами данных, характеризующих какой-либо признак, явление. Интересует их изменение.
Вариация представляет собой отличие величин одинакового показателя у разных предметов. Ее изучение позволит понять причины отклонений от нормы, анализировать их и в какой-то мере прогнозировать. Также станет возможным выявить факторы, влияющие на значения, отсеяв случайные.
Характеристики равномерного распределения представлены на картинке:
При значительном объеме статистики, средняя величина очевидно близка к нормальной. Об этом говорят и законы распределения. Отклонения от нее будут являться объективной характеристикой.
Только вот отрицательные значения этих разбросов будут сбивать с толку при расчетах, погашая положительные. А оставлять лишь модули – для математика не корректно. Напрашивается возвести в четную степень, а именно – во вторую.
Решение оказалось не только удобным. Оно открыло бо́льшие возможности в изучении отклонений. А важны именно они, поскольку сама по себе средняя мало что дает.
В качестве одного из важных показателей вариации, вводится понятие «дисперсия» – усредненный квадрат отклонений численных значений каких-либо событий от средней величины.
Никакого наглядного смысла величина не несет. Другое дело, среднее квадратическое отклонение – корень квадратный из дисперсии.
Виды дисперсии дискретной случайной величины
Для анализа данных цифр в таком виде недостаточно. Гораздо больше можно выжать из последовательности, если разбить ее на группы по определенному признаку.
Общая дисперсия
Как можно заметить, вычисленная по приведенному выше определению величина характеризует отклонения в целом. Без учета определяющих вариацию факторов. Вернее, с учетом всех, включая совершенно случайные. Поэтому и называется «общей» и рассчитывается по формулам, указанным ниже.
Простая дисперсия, без разделения на группы:
Или в несколько преобразованном виде:
Взвешенная дисперсия, для вариационного ряда:
где xi – значение из ряда;
fi – частота, количество повторений;
n – число вариантов.
Черта сверху указывает на среднюю величину.
Межгрупповая дисперсия
Характеризует систематическое отклонение, возникающее из-за фактора, по которому производилось выделение признаков в группы. Поэтому также называется «факторной».
Как найти данную дисперсию? По формуле:
где k – количество групп;
nj – элементов в группе с индексом j.
Внутригрупповая дисперсия
Возникает по хаотичной причине, не связанной с причиной сделанной выборки. Неучтенный фактор. Еще обозначается как «остаточная».
Например, рассматривается количество выпущенных деталей за месяц каждым фрезеровщиком цеха.
В качестве критерия отбора в группу выбираем возраст оборудования. Он-то и не будет влиять на производительность внутри подборки: там станки у всех практически одинаковые.
Если вычислить среднюю величину от всех групповых,
то получим характеристику случайного разброса. Иными словами, составляющую вариации, зависящую от чего угодно, кроме фактора отбора.
Взаимосвязь
В соответствии с правилом сложения, общая D[X] включает средние выражения остаточной и факторной. И это логично, поскольку учитывает и случайное изменение в группе, и систематическое в факторной.
Свойства дисперсии
Если последовательность состоит из одинаковых чисел, то D[X] будет нулевой.
Уменьшение всех значений на постоянную величину на дисперсию не влияет. Иначе говоря, рассчитать σ 2 можно по отклонениям от фиксированного числа.
Уменьшение всех цифр в k раз приведет к падению D[X] в k 2 раз. Можно, например, иметь в виду значения в метрах, а результат вычислить в футах. Достаточно учесть один раз то, на что следует умножить.
Показатели вариаций
Кроме размаха (разницы максимального и минимального значений), среднего линейного и дисперсии, изменения описываются коэффициентом вариации:
Оценить масштаб разброса проще по относительной величине. Тем более, что измеряются в одних единицах.
Пример расчета дисперсии
Компания объявила конкурсный отбор для приема сотрудников. В качестве критерия принят стаж работы по специальности. Приведем исходные данные и расчеты.
По альтернативной формуле:
Заключение
Статистика оперирует значительными объемами данных. Вариация, как одно из основных понятий – не исключение. И дисперсия в качестве основной характеристики.
Для упрощения расчетов существует масса онлайн калькуляторов. Имеется упомянутый инструмент в MS Excel.
Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации в Excel
Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. В этой статье изучим дисперсию, среднеквадратичное отклонение и коэффициент вариации.
Дисперсия
Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.
Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.
Формула дисперсии в теории вероятностей имеет вид:
То есть дисперсия — это математическое ожидание отклонений от математического ожидания.
На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое. Расчет дисперсии производят по формуле:
s 2 – выборочная дисперсия, рассчитанная по данным наблюдений,
X – отдельные значения,
X̅– среднее арифметическое по выборке.
Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. Однако при увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной.
Простыми словами дисперсия – это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Теперь вы знаете, как найти дисперсию.
Расчет дисперсии в Excel
Генеральную и выборочную дисперсии легко рассчитать в Excel. Есть специальные функции: ДИСП.Г и ДИСП.В соответственно.
В чистом виде дисперсия не используется. Это вспомогательный показатель, который нужен в других расчетах. Например, в проверке статистических гипотез или расчете коэффициентов корреляции. Отсюда неплохо бы знать математические свойства дисперсии.
Свойства дисперсии
Свойство 1. Дисперсия постоянной величины A равна 0 (нулю).
Свойство 2. Если случайную величину умножить на постоянную А, то дисперсия этой случайной величины увеличится в А 2 раз. Другими словами, постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат.
Свойство 3. Если к случайной величине добавить (или отнять) постоянную А, то дисперсия останется неизменной.
Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.
Свойство 5. Если случайные величины X и Y независимы, то дисперсия их разницы также равна сумме дисперсий.
Среднеквадратичное (стандартное) отклонение
Если из дисперсии извлечь квадратный корень, получится среднеквадратичное (стандартное) отклонение (сокращенно СКО). Встречается название среднее квадратичное отклонение и сигма (от названия греческой буквы). Общая формула стандартного отклонения в математике следующая:
На практике формула стандартного отклонения следующая:
Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.
Расчет cреднеквадратичного (стандартного) отклонения в Excel
Для расчета стандартного отклонения достаточно из дисперсии извлечь квадратный корень. Но в Excel есть и готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).
Среднеквадратичное отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными.
Коэффициент вариации
Значение стандартного отклонения зависит от масштаба самих данных, что не позволяет сравнивать вариабельность разных выборках. Чтобы устранить влияние масштаба, необходимо рассчитать коэффициент вариации по формуле:
По нему можно сравнивать однородность явлений даже с разным масштабом данных. В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. В реальности, если коэффициент вариации превышает 33%, то специально ничего делать по этому поводу не нужно. Это информация для общего представления. В общем коэффициент вариации используют для оценки относительного разброса данных в выборке.
Расчет коэффициента вариации в Excel
Расчет коэффициента вариации в Excel также производится делением стандартного отклонения на среднее арифметическое:
Коэффициент вариации обычно выражается в процентах, поэтому ячейке с формулой можно присвоить процентный формат:
Коэффициент осцилляции
Еще один показатель разброса данных на сегодня – коэффициент осцилляции. Это соотношение размаха вариации (разницы между максимальным и минимальным значением) к средней. Готовой формулы Excel нет, поэтому придется скомпоновать три функции: МАКС, МИН, СРЗНАЧ.
Коэффициент осцилляции показывает степень размаха вариации относительно средней, что также можно использовать для сравнения различных наборов данных.
Таким образом, в статистическом анализе существует система показателей, отражающих разброс или однородность данных.
Ниже видео о том, как посчитать коэффициент вариации, дисперсию, стандартное (среднеквадратичное) отклонение и другие показатели вариации в Excel.
Дисперсия дискретной случайной величины.
Среднее квадратическое отклонение
Итак, продолжаем. В предыдущей статье мы выяснили, насколько полезно знать математическое ожидание, однако только этой характеристики ещё не достаточно для исследования случайной величины. Представим двух стрелков, которые стреляют по мишени. Один стреляет метко и попадает близко к центру, а другой… просто развлекается и даже не целится. Но что забавно, его средний результат будет точно таким же, как и у первого стрелка! Эту ситуацию условно иллюстрируют следующие случайные величины:
«Снайперское» математическое ожидание равно , однако и у «интересной личности»:
– оно тоже нулевое!
Таким образом, возникает потребность количественно оценить, насколько далеко рассеяны пули (значения случайной величины) относительно центра мишени (математического ожидания). Ну а рассеяние с латыни переводится не иначе, как дисперсия.
Посмотрим, как определяется эта числовая характеристика на одном из примеров 1-й части урока:
Там мы нашли неутешительное математическое ожидание этой игры, и сейчас нам предстоит вычислить её дисперсию, которая обозначается через
.
Выясним, насколько далеко «разбросаны» выигрыши/проигрыши относительно среднего значения. Очевидно, что для этого нужно вычислить разности между значениями случайной величины и её математическим ожиданием:
–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5
Теперь вроде бы нужно просуммировать результаты, но этот путь не годится – по той причине, что колебания влево будут взаимоуничтожаться с колебаниями вправо. Так, например, у стрелка-«любителя» (пример выше) разности составят ,
и при сложении дадут ноль, поэтому никакой оценки рассеяния его стрельбы мы не получим.
Чтобы обойти эту неприятность можно рассмотреть модули разностей, но по техническим причинам прижился подход, когда их возводят в квадрат. Решение удобнее оформить таблицей:
И здесь напрашивается вычислить средневзвешенное значение квадратов отклонений. А это ЧТО такое? Это их математическое ожидание, которое и является мерилом рассеяния:
– определение дисперсии. Из определения сразу понятно, что дисперсия не может быть отрицательной – возьмите на заметку для практики!
Вспоминаем, как находить матожидание. Перемножаем квадраты разностей на соответствующие вероятности (продолжение таблицы):
– образно говоря, это «сила тяги»,
и суммируем результаты:
Не кажется ли вам, что на фоне выигрышей результат получился великоватым? Всё верно – мы возводили в квадрат, и чтобы вернуться в размерность нашей игры, нужно извлечь квадратный корень. Данная величина называется средним квадратическим отклонением и обозначается греческой буквой «сигма»:
Иногда это значение называют стандартным отклонением.
В чём его смысл? Если мы отклонимся от математического ожидания влево и вправо на среднее квадратическое отклонение:
– то на этом интервале будут «сконцентрированы» наиболее вероятные значения случайной величины. Что мы, собственно, и наблюдаем:
Однако так сложилось, что при анализе рассеяния почти всегда оперируют понятием дисперсии. Давайте разберёмся, что она означает применительно к играм. Если в случае со стрелками речь идёт о «кучности» попаданий относительно центра мишени, то здесь дисперсия характеризует две вещи:
Во-первых, очевидно то, что при увеличении ставок, дисперсия тоже возрастает. Так, например, если мы увеличим в 10 раз, то математическое ожидание увеличится в 10 раз, а дисперсия – в 100 раз (коль скоро, это квадратичная величина). Но, заметьте, что сами-то правила игры не изменились! Изменились лишь ставки, грубо говоря, раньше мы ставили 10 рублей, теперь 100.
Второй, более интересный момент состоит в том, что дисперсия характеризует стиль игры. Мысленно зафиксируем игровые ставки на каком-то определённом уровне, и посмотрим, что здесь к чему:
Игра с низкой дисперсией – это осторожная игра. Игрок склонен выбирать самые надёжные схемы, и в ситуации неопределённости не ставит слишком большие деньги. Например, система «красное/чёрное» в рулетке (см. Пример 4 статьи Случайные величины).
Игра с высокой дисперсией. Её часто называют дисперсионной игрой. Это авантюрный или агрессивный стиль игры, где игрок выбирает «адреналиновые» схемы. Вспомним хотя бы «Мартингейл», в котором на кону оказываются суммы, на порядки превосходящие «тихую» игру предыдущего пункта.
То же самое происходит на Форексе, других биржах и так далее – примеров масса.
Причём, во всех случаях не важно – на копейки ли идёт игра или на тысячи долларов. На любом уровне есть свои низко- и высокодисперсионные игроки. Ну а за средний выигрыш, как мы помним, «отвечает» математическое ожидание.
Наверное, вы заметили, что нахождение дисперсии – есть процесс длительный и кропотливый. Но математика щедрА:
Формула для нахождения дисперсии
Данная формула выводится непосредственно из определения дисперсии, и мы незамедлительно пускаем её в оборот. Скопирую сверху табличку с нашей игрой:
и найденное матожидание .
Вычислим дисперсию вторым способом. Сначала найдём математическое ожидание – квадрата случайной величины
. По определению математического ожидания:
В данном случае:
Таким образом, по формуле:
Как говорится, почувствуйте разницу. И на практике, конечно, лучше применять формулу (если иного не требует условие).
Осваиваем технику решения и оформления:
Дискретная случайная величина задана своим законом распределения:
Найти её математическое ожидание, дисперсию и среднее квадратическое отклонение.
Эта задача встречается повсеместно, и, как правило, идёт без содержательного смысла.
Можете представлять себе несколько лампочек с числами, которые загораются в дурдоме с определёнными вероятностями 🙂
Решение: Основные вычисления удобно свести в таблицу. Сначала в верхние две строки записываем исходные данные. Затем рассчитываем произведения , затем
и, наконец, суммы в правом столбце:
Собственно, почти всё готово. В третьей строке нарисовалось готовенькое математическое ожидание: .
Дисперсию вычислим по формуле:
И, наконец, среднее квадратическое отклонение:
– лично я обычно округляю до 2 знаков после запятой.
Все вычисления можно провести на калькуляторе, а ещё лучше – в Экселе:
вот здесь уже трудно ошибиться 🙂
Ответ:
Желающие могут ещё более упростить свою жизнь и воспользоваться моим калькулятором (демо), который не только моментально решит данную задачу, но и построит тематические графики (скоро дойдём). Программа доступна за символическую плaтy. Спасибо за поддержку проекта!
Пара заданий для самостоятельного решения:
Вычислить дисперсию случайной величины предыдущего примера по определению.
И аналогичный пример:
Дискретная случайная величина задана своим законом распределения:
Найти
Да, значения случайной величины бывают достаточно большими (пример из реальной работы), и здесь по возможности используйте Эксель. Как, кстати, и в Примере 7 – это быстрее, надёжнее и приятнее.
Решения и ответы внизу страницы.
В заключение 2-й части урока разберём ещё одну типовую задачу, можно даже сказать, небольшой ребус:
Дискретная случайная величина может принимать только два значения:
и
, причём
. Известна вероятность
, математическое ожидание
и дисперсия
.
Найти .
Решение: начнём с неизвестной вероятности. Так как случайная величина может принять только два значения, то сумма вероятностей соответствующих событий:
и поскольку , то
.
Осталось найти …, легко сказать 🙂 Но да ладно, понеслось. По определению математического ожидания:
– подставляем известные величины:
– и больше из этого уравнения ничего не выжать, разве что можно переписать его в привычном направлении:
ОК, едем дальше. По формуле вычисления дисперсии:
– подставляем известные данные:
или:
О дальнейших действиях, думаю, вы догадываетесь. Составим и решим систему:
Десятичные дроби – это, конечно, полное безобразие; умножаем оба уравнения на 10:
и делим на 2:
Вот так-то лучше. Из 1-го уравнения выражаем:
(это более простой путь) – подставляем во 2-е уравнение:
Возводим в квадрат и проводим упрощения:
Умножаем на :
В результате получено квадратное уравнение, находим его дискриминант:
– отлично!
и у нас получается два решения:
1) если , то
;
2) если , то
.
Условию удовлетворяет первая пара значений. С высокой вероятностью всё правильно, но, тем не менее, запишем закон распределения:
и выполним проверку, а именно, найдём матожидание:
и дисперсию:
В результате получены исходные значения, что и требовалось проверить.
Ответ:
Следует отметить, что это технически трудное задание, и поэтому в нём следует проявлять повышенное внимание. Потренируйтесь самостоятельно:
Случайная величина принимает только два значения:
и
, причём
. Найти эти значения, если
.
Тут вычисления попроще.
Жду вас в третьей, заключительной части урока, где мы познакомимся с многоугольником и функцией распределения. Её лучше изучить как можно скорее!
Пример 7. Решение: вычислим математическое ожидание:
Вычислим дисперсию по определению:
Заполним расчётную таблицу:
Таким образом:
Ответ:
Пример 8. Решение: случайная величина может принять только 5 значений, поэтому:
Заполним расчётную таблицу:
Математическое ожидание: .
Дисперсию вычислим по формуле:
Среднее квадратическое отклонение:
Ответ:
Пример 10. Решение: т.к. случайная величина может принимать только 2 значения, то:
.
По определению математического ожидания:
По формуле вычисления дисперсии:
Составим и решим систему:
Умножим оба уравнения на 5:
Из первого уравнения выразим: – подставим во второе:
Решим полученное квадратное уравнение:
Условию удовлетворяет первая пара.
Ответ:
Проверка:
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам