Что показывает дисперсия выборки

Конспект курса «Основы статистики»

1. Введение

Что показывает дисперсия выборки

Способы формирования репрезентативной выборки:

Простая случайная выборка (simple random sample)

Стратифицированная выборка (stratified sample)

Групповая выборка (cluster sample)

Типы переменных:

непрерывные (рост в мм)

дискретные (количество публикаций у учёного)

Ранговые (успеваемость студентов)

Гистограмма частот:

Позволяет сделать первое впечатление о форме распределения некоторого количественного признака.

Что показывает дисперсия выборки

Описательные статистики:

Меры центральной тенденции (узкий диапазон, высокие значения признака):

( Что показывает дисперсия выборкииспользуется для среднего значения из выборки, а для генеральной совокупности латинская буква Что показывает дисперсия выборки)

Свойства среднего:

Что показывает дисперсия выборки

Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.

Что показывает дисперсия выборки

Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.

Что показывает дисперсия выборки

Если для каждого значения выборки, рассчитать такой показатель как его отклонение от среднего арифметического, то сумма этих отклонений будет равняться нулю.

Меры изменчивости (широкий диапазон, вариативность признака):

Что показывает дисперсия выборки

При добавлении сильно отличающегося значения данные меняются сильно и могут быть некорректные.

Дисперсия генеральной совокупности:

Что показывает дисперсия выборки

Что показывает дисперсия выборки(среднеквадратическое отклонение генеральной совокупности)

Что показывает дисперсия выборки

Что показывает дисперсия выборки(среднеквадратическое отклонение выборки)

Свойства дисперсии:

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Квартили распределения и график box-plot

Что показывает дисперсия выборки Что показывает дисперсия выборки

Нормальное распределение

Отклонения наблюдений от среднего подчиняются определённому вероятностному закону.

Стандартизация

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Правило «двух» и «трёх» сигм

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Центральная предельная теорема

Что показывает дисперсия выборки

Есть признак, распределенный КАК УГОДНО* с некоторым средним и некоторым стандартным отклонением. Тогда, если выбирать из этой совокупности выборки объема n, то их средние тоже будут распределены нормально со средним равным среднему признака в ГС и стандартным отклонением Что показывает дисперсия выборки.

Что показывает дисперсия выборки

30″ alt=»SE = \frac<\sqrt>, n>30″ src=»https://habrastorage.org/getpro/habr/upload_files/20c/135/3bc/20c1353bcfedf2ff8851752cf7f49f37.svg»/>

Доверительные интервалы для среднего

Что показывает дисперсия выборки

Доверительный интервал является показателем точности измерений. Это также показатель того, насколько стабильна полученная величина, то есть насколько близкую величину (к первоначальной величине) вы получите при повторении измерений (эксперимента).

Идея статистического вывода

Что показывает дисперсия выборки

Что показывает дисперсия выборки

2. Сравнение средних

T-распределение

Если число наблюдений невелико и \sigma неизвестно (почти всегда), используется распределение Стьюдента (t-distribution).

Унимодально и симметрично, но: наблюдения с большей вероятностью попадают за пределы Что показывает дисперсия выборкиот Что показывает дисперсия выборки

Что показывает дисперсия выборки

«Форма» распределения определяется числом степеней свободы (Что показывает дисперсия выборки).

С увеличением числа Что показывает дисперсия выборкираспределение стремится к нормальному.

Что показывает дисперсия выборки

t-распределение используется не потому что у нас маленькие выборки, а потому что мы не знаем стандартное отклонение в генеральной совокупности.

Сравнение двух средних; t-критерий Стьюдента

Критерий, который позволяет сравнивать средние значения двух выборок между собой, называется t-критерий Стьюдента.

Условия для корректности использования t-критерия Стьюдента:

Две независимые группы

Формула стандартной ошибки среднего:

Что показывает дисперсия выборки

Формула числа степеней свободы:

Что показывает дисперсия выборки

Формула t-критерия Стьюдента:

Что показывает дисперсия выборки

Переход к p-критерию:

Проверка распределения на нормальность, QQ-Plot

Что показывает дисперсия выборки

Однофакторный дисперсионный анализ

Часто в исследованиях необходимо сравнить несколько групп между собой. В таком случае применятся однофакторный дисперсионный анализ.

Группы:

Нулевая гипотеза:

Что показывает дисперсия выборки

Альтернативная гипотеза:

Среднее значение всех наблюдений:

Что показывает дисперсия выборки

Общая сумма квадратов (Total sum of sqares):

Что показывает дисперсия выборки

Показатель, который характеризует насколько высока изменчивость данных, без учёта разделения их на группы.

Число степеней свободы:

Что показывает дисперсия выборки

Что показывает дисперсия выборки— Межгрупповая сумма квадратов (Sum of sqares between groups)

Что показывает дисперсия выборки— Внутригрупповая сумма квадратов (Sum of sqares within groups)

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Что показывает дисперсия выборки

F-значение (основной статистический показатель дисперсионного анализа):

Что показывает дисперсия выборки

При делении значения межгрупповой суммы квадратов на число степеней свободы, полученный показатель усредняется.

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Поэтому формула F-значения часто записывается:

Что показывает дисперсия выборки

Множественные сравнения в ANOVA

Проблема множественных сравнений:

Поправка Бонферрони

Самый простой (и консервативный) метод: P-значения умножаются на число выполненных сравнений.

Критерий Тьюки

Критерий Тьюки используется для проверки нулевой гипотезы Что показывает дисперсия выборкипротив альтернативной гипотезы Что показывает дисперсия выборки, где индексы Что показывает дисперсия выборкии Что показывает дисперсия выборкиобозначают любые две сравниваемые группы.

Указанные сравнения выполняются при помощи критерия Тьюки, который представляет собой модифицированный критерий Стьюдента:

Что показывает дисперсия выборки

Что показывает дисперсия выборки

где Что показывает дисперсия выборки— рассчитываемая в ходе дисперсионного анализа внутригрупповая дисперсия.

Многофакторный ANOVA

При применении двухфакторного дисперсионного анализа исследователь проверяет влияние двух независимых переменных (факторов) на зависимую переменную. Может быть изучен также эффект взаимодействия двух переменных.

Исследуемые группы называют эффектами обработки. Схема двухфакторного дисперсионного анализа имеет несколько нулевых гипотез: одна для каждой независимой переменной и одна для взаимодействия.

Условия применения двухмерного дисперсионного анализа:

Генеральные совокупности, из которых извлечены выборки, должны быть нормально распределены.

Выборки должны быть независимыми.

Дисперсии генеральных совокупностей, из которых извлекались выборки, должны быть равными.

Группы должны иметь одинаковый объем выборки.

АБ тесты и статистика

Что показывает дисперсия выборки

3. Корреляция и регрессия

Понятие корреляции

Что показывает дисперсия выборки

Коэффициент корреляции – это статистическая мера, которая вычисляет силу связи между относительными движениями двух переменных.

Принимает значения [-1, 1]

Что показывает дисперсия выборки

Что показывает дисперсия выборки— показатель силы и направления взаимосвязи двух количественных переменных.

Знак коэффициента корреляции показывает направление взаимосвязи.

Коэффициент детерминации

Что показывает дисперсия выборки— показывает, в какой степени дисперсия одной переменной обусловлена влиянием другой переменной.

Равен квадрату коэффициента корреляции.

Принимает значения [0, 1]

Условия применения коэффициента корреляции

Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:

Сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений.

Распределения переменных Что показывает дисперсия выборкии Что показывает дисперсия выборкидолжны быть близки к нормальному.

Число варьирующих признаков в сравниваемых переменных Что показывает дисперсия выборкии Что показывает дисперсия выборкидолжно быть одинаковым.

Коэффициент корреляции Спирмена

Что показывает дисперсия выборки

Регрессия с одной независимой переменной

Что показывает дисперсия выборки

Уравнение прямой:

Что показывает дисперсия выборки

Что показывает дисперсия выборки(intersept) отвечает за то, где прямая пересекает ось y.

Что показывает дисперсия выборки(slope) отвечает за направление и угол наклона, образованный с осью x.

Метод наименьших квадратов

Что показывает дисперсия выборки

Формула нахождения остатка:

Что показывает дисперсия выборки

Что показывает дисперсия выборки— остаток

Что показывает дисперсия выборки— реальное значение

Что показывает дисперсия выборки— значение, которое предсказывает регрессионная прямая

Сумма квадратов всех остатков:

Что показывает дисперсия выборки

Параметры линейной регрессии:

Что показывает дисперсия выборки

Что показывает дисперсия выборки

Гипотеза о значимости взаимосвязи и коэффициент детерминации

Коэффициенты линейной регрессии

Коэффициенты регрессии (β) — это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой.

Коэффициент детерминации

Что показывает дисперсия выборки— доля дисперсии зависимой переменной (Y), объясняем регрессионной моделью.

Что показывает дисперсия выборки

Что показывает дисперсия выборки— сумма квадратов остатков

Что показывает дисперсия выборки— сумма квадратов общая

Условия применения линейной регрессии с одним предиктором

Линейная взаимосвязь Что показывает дисперсия выборкии Что показывает дисперсия выборки

Нормальное распределение остатков

Регрессионный анализ с несколькими независимыми переменными

Множественная регрессия (Multiple Regression)

Множественная регрессия позволяет исследовать влияние сразу нескольких независимых переменных на одну зависимую.

Требования к данным

линейная зависимость переменных

нормальное распределение остатков

проверка на мультиколлинеарность

нормальное распределение переменных (желательно)

Источник

Дисперсия и стандартное отклонение в EXCEL

history 4 октября 2016 г.

Вычислим в MS EXCEL дисперсию и стандартное отклонение выборки. Также вычислим дисперсию случайной величины, если известно ее распределение.

Дисперсия выборки

Что показывает дисперсия выборки

Все 3 формулы математически эквивалентны.

Дисперсия случайной величины

Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна математическому ожиданию квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]

Что показывает дисперсия выборки

где x i – значение, которое может принимать случайная величина, а μ – среднее значение ( математическое ожидание случайной величины ), р(x) – вероятность, что случайная величина примет значение х.

Что показывает дисперсия выборки

Некоторые свойства дисперсии :

Стандартное отклонение выборки

По определению, стандартное отклонение равно квадратному корню из дисперсии :

Что показывает дисперсия выборки

Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ) =КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)) =КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))

Другие меры разброса

Что показывает дисперсия выборки

Вычисления в функции СРОТКЛ () производятся по формуле:

Источник

Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации в Excel

Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. В этой статье изучим дисперсию, среднеквадратичное отклонение и коэффициент вариации.

Дисперсия

Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.

Формула дисперсии в теории вероятностей имеет вид:

Что показывает дисперсия выборки

То есть дисперсия — это математическое ожидание отклонений от математического ожидания.

На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое. Расчет дисперсии производят по формуле:

Что показывает дисперсия выборки

s 2 – выборочная дисперсия, рассчитанная по данным наблюдений,

X – отдельные значения,

– среднее арифметическое по выборке.

Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. Однако при увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной.

Простыми словами дисперсия – это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Теперь вы знаете, как найти дисперсию.

Расчет дисперсии в Excel

Генеральную и выборочную дисперсии легко рассчитать в Excel. Есть специальные функции: ДИСП.Г и ДИСП.В соответственно.

Что показывает дисперсия выборки

В чистом виде дисперсия не используется. Это вспомогательный показатель, который нужен в других расчетах. Например, в проверке статистических гипотез или расчете коэффициентов корреляции. Отсюда неплохо бы знать математические свойства дисперсии.

Свойства дисперсии

Свойство 1. Дисперсия постоянной величины A равна 0 (нулю).

Свойство 2. Если случайную величину умножить на постоянную А, то дисперсия этой случайной величины увеличится в А 2 раз. Другими словами, постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат.

Свойство 3. Если к случайной величине добавить (или отнять) постоянную А, то дисперсия останется неизменной.

Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.

Свойство 5. Если случайные величины X и Y независимы, то дисперсия их разницы также равна сумме дисперсий.

Среднеквадратичное (стандартное) отклонение

Если из дисперсии извлечь квадратный корень, получится среднеквадратичное (стандартное) отклонение (сокращенно СКО). Встречается название среднее квадратичное отклонение и сигма (от названия греческой буквы). Общая формула стандартного отклонения в математике следующая:

Что показывает дисперсия выборки

На практике формула стандартного отклонения следующая:

Что показывает дисперсия выборки

Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.

Расчет cреднеквадратичного (стандартного) отклонения в Excel

Для расчета стандартного отклонения достаточно из дисперсии извлечь квадратный корень. Но в Excel есть и готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).

Что показывает дисперсия выборки

Среднеквадратичное отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными.

Коэффициент вариации

Значение стандартного отклонения зависит от масштаба самих данных, что не позволяет сравнивать вариабельность разных выборках. Чтобы устранить влияние масштаба, необходимо рассчитать коэффициент вариации по формуле:

Что показывает дисперсия выборки

По нему можно сравнивать однородность явлений даже с разным масштабом данных. В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. В реальности, если коэффициент вариации превышает 33%, то специально ничего делать по этому поводу не нужно. Это информация для общего представления. В общем коэффициент вариации используют для оценки относительного разброса данных в выборке.

Расчет коэффициента вариации в Excel

Расчет коэффициента вариации в Excel также производится делением стандартного отклонения на среднее арифметическое:

Коэффициент вариации обычно выражается в процентах, поэтому ячейке с формулой можно присвоить процентный формат:

Что показывает дисперсия выборки

Коэффициент осцилляции

Еще один показатель разброса данных на сегодня – коэффициент осцилляции. Это соотношение размаха вариации (разницы между максимальным и минимальным значением) к средней. Готовой формулы Excel нет, поэтому придется скомпоновать три функции: МАКС, МИН, СРЗНАЧ.

Что показывает дисперсия выборки

Коэффициент осцилляции показывает степень размаха вариации относительно средней, что также можно использовать для сравнения различных наборов данных.

Таким образом, в статистическом анализе существует система показателей, отражающих разброс или однородность данных.

Ниже видео о том, как посчитать коэффициент вариации, дисперсию, стандартное (среднеквадратичное) отклонение и другие показатели вариации в Excel.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *