Что обозначают параметры v1 v2 ka и k12 на модели распределения
Параметры распределений
Параметром распределения называется величина, вычисляемая по множеству наблюдений и дающая определенную информацию о середине или других свойствах распределения: разбросе значений, асимметрии, эксцессе и др. Различные параметры можно свести в следующие группы.
Параметры центра распределения
1) Мода. Как уже говорилось, модой называется абсцисса вершины графика распределения. Мода обозначается символом M(Signet Roundhand ATT) или .
Если данные группированы и построена гистограмма, то группа с наибольшим значением частоты называется модальной группой (например, девятая группа в табл.2.5 и на рис.2.3). Середина модальной группы приблизительно соответствует значению моды.
Пример 2.5. Найти медиану выборки: S1=<9,3,5,8,4,11,13>.
После упорядочения: S1у=<3,4,5,8,9,11,13>. Медиана для нечетного числа наблюдений: = 8.
Пример 2.6. Дана выборка: S2=<20,9,13,1,4,11>. Найти медиану.
Упорядоченная выборка: S2у=<1,4,9,11,13,20>. Медиана для четного числа наблюдений:
3) Арифметическое среднее . Арифметическое среднее множества из N наблюдений получается суммированием всех значений и делением этой суммы на N.
Для группированных данных сначала составляется частотная таблица, а затем вычисляется по формуле взвешенного среднего:
Пример 2.7. Дана частотная таблица:
среднее группы xi |
Частота группы mi |
Для вычисления арифметического среднего применяем формулу:
4) Взаимосвязь между модой, медианой и средним. Если распределение симметрично, то:
=
=`X, (2.14)
т.е все они совпадают. Для унимодального и не очень асимметричного распределения существует приближенная формула связи:
Рис.2.7. Взаимное расположение среднего арифметического, моды и медианы в
картинах симметричного и слабо асимметричных распределений.
= xmax— xmin (2.16)
Пример 2.8. Дана выборка: S=<8,3,1,20,15,5,12>. Рассчитать вариацию. Воспользуемся формулой (2.16):
= 20-1 = 19.
Вариацией пользуются при работе с малыми выборками. Например, при контроле качества, состоящем в проверке величины отклонений размеров массовой продукции от определенных границ.
2) Отклонение от средней d(центрированная случайная величина).
Этот параметр является более эффективной мерой разброса,т.к. опирается не на два крайних значения, как предыдущий, а на все наблюдения:
Для выборки X=<1,5,8,6>, имеющей =5, множество d:
Неудобство этого параметра состоит в том, что он определяется большим числом значений (равным величине выборки N).
|
S(xi— ) 2
N
s= ¾¾¾¾¾¾ (2.18)
Параметр s называют также среднеквадратическим отклонением (с.к.о.).
Квадрат стандартного отклонения называется дисперсией (т.е. рассеянием):
Пример 2.9. Для выборки Y=<4,8,6,3,7,2>:
n центрированная выборка (отклонение от средней):
3) Соотношение между , б и распределением. Значение
приближенно указывает, где расположен центр распределения, а б несет информацию о его разбросе около
. Для большинства унимодальных распределений выполняются следующие соотношения:
n 95% распределения лежит между значениями: ( -2б) и (
+2б), т.е. в среднем менее 1 наблюдения из выборки объемом N=20 лежит за пределами этого интервала;
n более 99% распределения заключено между: ( -3б) и (
+3б), иначе говоря, за пределами интервала
±б лежит в среднем менее одного наблюдения из выборки объемом N=100). На этом свойстве распределений основано правило трех сигм: при статистической обработке наблюдений значения выборки, выходящие за пределы интервала «трех сигм», отбрасываются, как маловероятные, т.е. относящиеся к промахам измерений.
Эти свойства можно проиллюстрировать следующим примером. Если рост учащихся L распределен нормально (распределение имеет строго симметричную форму) и при этом`L=178 cм и s=8, то приближенные 95% и 99%-ные границы распределения будут: (178±16) и (178±24) см.
Из соотношения между средней и модой видно, что для распределения с положительной асимметрией >
,а с отрицательной
>
.Чем больше асимметрия, тем больше разность между этими величинами, т.е. разность (
—
) можно рассматривать как меру асимметрии. Для получения безразмерной величины в качестве такой меры рассчитывают 1-й коэффициент Пирсона:
( —
)
Второй коэффициент Пирсона приблизительно равен первому, если при расчете вместо моды взять медиану:
3( —
)
Оба коэффициента асимметрии равны нулю для симметричных распределений, положительны для положительных и отрицательны для отрицательных асимметрий (ср. формулы 2.20 и 2.21 с кривыми на рис.2.7).
Островершинность или туповершинность картины распределения оценивается показателем Линдберга:
Нормальное распределение (Гаусса) в Excel
В статье подробно показано, что такое нормальный закон распределения случайной величины и как им пользоваться при решении практически задач.
Нормальное распределение в статистике
История закона насчитывает 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал аппроксимацию биномиального распределения еще 1733 году. Через много лет Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.) вывели математические функции.
Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение.
Нормальный закон не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. Конкретная форма распределения задается специальными параметрами. Например, у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами.
Кривая нормального распределения Гаусса имеет следующий вид.
График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая. У графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.
На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.
Формула нормального распределения (плотности) следующая.
Формула состоит из двух математических констант:
е – основание натурального логарифма 2,718;
двух изменяемых параметров, которые задают форму конкретной кривой:
m – математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);
ну и сама переменная x, для которой высчитывается плотность вероятности.
Конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии ( σ 2 ). Кратко обозначается N(m, σ 2 ) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ 2 характеризует размах вариации, то есть «размазанность» данных.
Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности.
А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса концентрируется у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.
Плотность распределения не имеет прямого практического применения. Для расчета вероятностей нужно проинтегрировать функцию плотности.
Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:
Используя математические свойства любого непрерывного распределения, несложно рассчитать и любые другие вероятности, так как
P(a ≤ X 0 =1 и остается рассчитать только соотношение 1 на корень из 2 пи.
Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные. Последнее свойство широко известно под названием правило трех сигм для нормального распределения.
Функция стандартного нормального распределения позволяет рассчитывать вероятности.
Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.
Таблица нормального распределения
Таблицы нормального распределения встречаются двух типов:
— таблица плотности;
— таблица функции (интеграла от плотности).
Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1, т.е. плотность значения, отстоящего от матожидания на 1 сигму. Ниже показан кусок таблицы.
В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец 0, т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен).
Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z), т.е. плотность для 1 тождественна плотности для -1, что отчетливо видно на рисунке.
Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.
На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z.
В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения.
Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:
Это факт показан на картинке:
Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z). Получится равенство, указанное чуть выше.
Если нужно отыскать вероятность попадания в интервал (0; z), то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:
Для наглядности можно взглянуть на рисунок.
На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z.
Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:
Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.
Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу.
Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:
Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.
Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z: 1,64, 1,96 и 3.
Как понять смысл этих чисел? Начнем с z=1,64, для которого табличное значение составляет 0,4495. Проще всего пояснить смысл на рисунке.
То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от 0 до 1,64, равна 0,4495. При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.
Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64, т.к. окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для проверки статистических гипотез и расчета доверительных интервалов. Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).
Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).
Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.
Еще одно интересное и часто используемое табличное значение соответствует z=3, оно равно по нашей таблице 0,4986. Умножим на 2 и получим 0,997. Значит, в рамках ±3σ от средней арифметической заключены почти все значения.
Так выглядит правило 3 сигм для нормального распределения на диаграмме.
С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.
Нормальное распределение в Excel
В Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения.
Функция НОРМ.СТ.РАСП
Функция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ( z ) или вероятности Φ(z) по нормированным данным (z).
z – значение стандартизованной переменной
интегральная – если 0, то рассчитывается плотность ϕ( z ) , если 1 – значение функции Ф(z), т.е. вероятность P(Z