Что показывает коэффициент вариации в статистике
Тема 9 Показатели вариации
Показатели вариации в анализе взаимосвязей
Для измерения степени колеблемости отдельных значений признака относительно средней исчисляют основные показатели вариации.
Информация о средних уровнях исследуемых показателей обычно бывает недостаточной для полного анализа изучаемого процесса или явления. Иногда совершенно непохожие по своему внутреннему строению совокупности могут иметь равные средние величины. Поэтому для более детального изучения того или иного явления необходимо учитывать разброс или вариацию значений отдельных единиц совокупности. Измерение вариации признаков имеет как теоретическое, так и практическое значение.
Так, например, для выявления наиболее стабильно работающего коллектива или предприятия наравне с другими показателями рассчитывают и основные показатели вариации. Эти показатели дают возможность количественно определить размеры устойчивости производительности труда, уровня квалификации, цен на основные виды выпускаемой продукции и т.п. Измерение размеров вариации такого показателя, как «выполнение работ в срок» имеет важное значение для принятия решений заказчиками и инвесторами, т.к. ситуация, в которой присутствует изменчивость признака, часто содержит риск. Особое значение показатели вариации приобретают в анализе рынка ценных бумаг, где мера колеблемости отождествляется с мерой рискованности вложения денежных средств.
Основными показателями, характеризующими вариацию, являются:
1) Размах вариации
2) Среднее линейное отклонение исчисляют для того, чтобы дать обобщающую характеристику распределению отклонений:
где –абсолютные значения отклонений отдельных вариантов xi от средней арифметической ; fi – частота.
3. Дисперсия – это средняя арифметическая квадратов отклонений отдельных значений признака от их средней арифметической:
4. Среднее квадратическое отклонение – корень квадратный из дисперсии:
5. Коэффициент вариации – используется для сравнительной оценки вариации, а также для характеристики однородности совокупности:
Пример. Для иллюстрации расчетов воспользуемся данными нижеприведенной табл. 9.1:
Таблица 9.1 ‑ Данные о продаже основных марок холодильников:
Рассчитаем размах вариации.
R= 1200-460=740$
Пример вычисления размаха вариации
Размах вариации служит незаменимой мерой разброса экстремальных значений признака. Кроме характеристики границ разброса признака, размах вариации может быть использован для выявления ошибок. При наличии очень больших (или очень малых) ошибочно записанных значений признака размах вариации сразу резко возрастает, что требует проверки и корректировки исходных данных.
Недостатком данного показателя является то, что он оценивает только границы варьирующего признака и не отражает его колеблемость внутри этих границ. Вследствие этого размах вариации может неправильно характеризовать общую колеблемость признака.
Этого недостатка лишен другой показатель – дисперсия, рассчитываемый как средний квадрат отклонений значений признака от их средней величины.
Между индивидуальными отклонениями от средней и колеблемостью признака существует прямая зависимость: чем сильнее колеблемость признака, тем больше отклонения его значений от средней величины и менее устойчив изучаемый показатель.
Как и средняя величина этот показатель может быть рассчитан в двух формах: взвешенной и невзвешенной
По приведенным выше данным определим средневзвешенную цену холодильника:
Далее рассчитаем дисперсию:
. Следует отметить, что дисперсия еще не дает представления об однородности совокупности, и этому показателю трудно дать экономическую интерпретацию, т.к. он рассчитан в квадратных единицах. Поэтому следующим шагом в исследовании однородности совокупности является расчет среднего квадратического отклонения, показывающего, насколько в среднем отклоняются конкретные варианты признака от его среднего значения. Оно определяется как квадратный корень из дисперсии и имеет ту же размерность что и изучаемый признак. .
Рассчитаем среднее квадратическое отклонение
Рассмотренные показатели позволяют получить абсолютное значение вариации признака. Однако для сравнения разных совокупностей с точки зрения устойчивости какого-либо одного признака или для определения однородности совокупности рассчитывают относительные показатели.
Эти показатели вычисляются как отношение размаха вариации, среднего линейного отклонения или среднего квадратического отклонения к средней арифметической или медиане. Чаще всего эти показатели выражаются в процентах.
Определим значение показателя вариации по вышеприведенным данным таблицы
Совокупность считается однородной, если V не превышает 33%.
Если V 25% – вариация сильная.
Вывод: Рассчитанная величина свидетельствует о неоднородности цен на холодильники, т.к. однородной совокупность считается, если коэффициент вариации меньше 33% (для распределений близких к нормальному).
!! Следует отметить, что коэффициент вариации может быть более 100%, что, в частности, может быть при наличии значений сильно отличающихся от средней величины. Такой результат означает, что в исследуемой совокупности сильна вариация признаков по отношению к средней величине.
Изучая вариацию интересующего нас признака в пределах исследуемой совокупности и опираясь на общую среднюю в расчетах, трудно оценить степень воздействия на него какого-либо отдельного признака.
При проведении такого анализа исходная совокупность должна представлять собой множество единиц, каждая из которых характеризуется двумя признаками – факторным (оказывающим влияние на взаимосвязанный с ним признак) и результативным (подверженным влиянию).
Для выявления взаимосвязи исходная совокупность делится по факторному признаку на группы. Выводы о степени взаимосвязи базируются на анализе вариации результативного признака. Если статистическая совокупность разбита на группы по какому-либо признаку, то для оценки влияния различных факторов, определяющих вариацию индивидуальных значений признака, используют правило сложения дисперсий.
Общая дисперсия представляет собой сумму средней из виутригрупповой и межгрупповой и дисперсий:
Общая дисперсия характеризует вариацию признака по всей совокупности как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности.
Межгрупповая дисперсия характеризует вариацию, обусловленную влиянием фактора, положенного в основу группировки.
Средняя из внутригрупповых дисперсий отражает ту часть вариации результативного признака, которая обусловлена действием всех прочих неучтенных факторов, кроме фактора, по которому осуществлялась группировка. Другими словами внутригрупповая дисперсия отражает случайную вариацию. Внутригрупповая дисперсия рассчитывается отдельно по каждой j-ой группе.
Для всех групп в целом вычисляется средняя из внутригрупповых дисперсий, взвешенных на частоты соответствующих групп по формуле:
Взаимосвязь между тремя видами дисперсий получила название правила сложения дисперсий. Таким образом, зная два вида дисперсий всегда можно определить третий:
Из этого равенства следует, что общая дисперсия, как правило, будет больше средней из групповых дисперсий. Это обусловлено тем, что при расчленении общей совокупности единиц на части по какому-либо признаку образуются более или менее однородные группы, в результате чего сокращается колеблемость признаков в пределах каждой группы. Это приводит к тому, что средняя из групповых дисперсий оказывается меньше дисперсии признака по всей совокупности единиц, причем разница между этими показателями будет тем больше, чем однороднее получаются группы в результате расчленения общей совокупности.
Теснота связи между факторным и результативным признаками оценивается на основе эмпирического корреляционного отношения:
Данный показатель может принимать значения от 0 до 1. Чем ближе к 1 будет его величина, тем сильнее взаимосвязь между рассматриваемыми признаками.
Пример. На следующем условном примере исследуем зависимость объема выполненных работ от формы собственности проектно-изыскательских организаций.
Таблица 9.2. Выполнение работ проектно-изыскательскими организациями разной формы собственности
Форма собственности | Количество предприятий | Итого | |
Государственная | 4 | 10,30,20,40 | 100 |
Негосударственная | 6 | 20, 40, 60, 20, 50, 50 | 240 |
Итого | 10 | 340 |
1) Определим средний объем работ для предприятий двух форм собственности.
2) Определим средний объем работ для каждой формы собственности.
3) Рассчитаем общую и внутригрупповые (т.е. для каждой группы) дисперсии.
4) Определим среднюю из внутригрупповых и межгрупповую дисперсию. Для этого полученные ранее данные заносятся в таблицу расчета.
Таблица 9.3. – Вспомогательная таблица
Пример. Средняя из внутригрупповых дисперсий
Пример. Межгрупповая дисперсия
На последнем этапе решения задачи необходимо проверить тождество, отражающее закон сложения дисперсий:
Проверка закона сложения дисперсий: 54,0+189,8=243,8
Вывод: Таким образом, можно сделать вывод о том, что объем работ, выполненных проектно-изыскательскими организациями на 22% [(54,0/243,8) х 100%] зависит от фактора, положенного в основание группировки, т.е. от формы собственности, а на 78% [(189,8/243,8)х100%)] ‑ от прочих факторов.
Вывод о том, что объем выполненных работ в гораздо большей степени зависит от каких-либо других факторов, чем от формы собственности предприятий подтверждается и величиной эмпирического корреляционного отношения:
Вывод: Величина этого показателя свидетельствует о том, что зависимость объема работ от формы собственности предприятия невелика
Контрольные задания
Вычислить: а) размах вариации; б)среднее линейное отклонение; в) дисперсию; г) среднее квадратическое отклонение; относительные показатели вариации возраста студентов.
2. По данным статистических ежегодников постройте таблицу с рядом показателей и определите показатели вариации: а) размах; б) среднее линейное отклонение; в) среднее квадратическое отклонение; г) коэффициент вариации. Оцените количественную однородность совокупности.
Коэффициент вариации: для чего нужен, расчет, примеры, упражнения
Содержание:
В коэффициент вариации (CV) выражает стандартное отклонение относительно среднего. То есть он пытается объяснить, насколько велико значение стандартного отклонения по отношению к среднему.
Например, переменный рост четвероклассников имеет коэффициент вариации 12%, что означает, что стандартное отклонение составляет 12% от среднего значения.
Обозначается CV, коэффициент вариации является безразмерным и получается делением стандартного отклонения на среднее значение и умножением на сто.
Чем меньше коэффициент вариации, тем меньше отклонение данных от среднего. Например, в переменной со средним значением 10 и другой со средним значением 25, обе со стандартным отклонением 5, их коэффициенты вариации составляют 50% и 20% соответственно. Конечно, первая переменная более изменчива (дисперсия), чем вторая.
Рекомендуется работать с коэффициентом вариации для переменных, измеряемых в шкале пропорций, то есть шкалах с абсолютным нулем независимо от единицы измерения. Примером может служить переменная расстояния, которая не имеет значения, измеряется она в ярдах или метрах, ноль ярдов или ноль метров означает одно и то же: нулевое расстояние или смещение.
Для чего нужен коэффициент вариации?
Коэффициент вариации служит для:
— Коэффициент вариации часто используется как показатель надежности в научных экспериментах. Говорят, что если коэффициент вариации составляет 30% или больше, результаты эксперимента следует отбросить из-за их низкой надежности.
— Это позволяет предсказать, насколько сгруппированы вокруг среднего значения изучаемой переменной, даже не зная ее распределения. Это очень помогает при оценке ошибок и вычислении размеров выборки.
Предположим, что переменные вес и рост людей измеряются в совокупности. Вес с CV 5% и рост с CV 14%. Если вы хотите взять выборку из этой совокупности, размер выборки должен быть больше для оценок роста, чем для веса, поскольку существует большая вариативность в измерении роста, чем в измерении веса.
Важное наблюдение за полезностью коэффициента вариации заключается в том, что он теряет смысл, когда значение среднего близко к нулю. Среднее значение является делителем вычисления CV, и, следовательно, очень маленькие его значения приводят к тому, что значения CV будут очень большими и, возможно, не поддающимися вычислению.
Как рассчитывается?
Расчет коэффициента вариации относительно прост, достаточно знать среднее арифметическое и стандартное отклонение набора данных, чтобы рассчитать его по формуле:
Если они неизвестны, но данные доступны, можно предварительно рассчитать среднее арифметическое и стандартное отклонение, используя следующие формулы:
Примеры
Пример 1
Были измерены веса в кг группы из 6 человек: 45, 62, 38, 55, 48, 52. Мы хотим знать коэффициент вариации переменной веса.
Он начинается с вычисления среднего арифметического и стандартного отклонения:
Ответ: коэффициент вариации переменного веса 6 человек в выборке составляет 16,64%, при среднем весе 50 кг и стандартном отклонении 8,32 кг.
Пример 2
В отделении неотложной помощи больницы измеряют температуру тела в градусах Цельсия у 5 детей, находящихся на лечении. Результаты 39-е, 38-е, 40-е, 38-е и 40-е. Какой коэффициент вариации переменной температуры?
Он начинается с вычисления среднего арифметического и стандартного отклонения:
Теперь он подставляется в формулу для коэффициента вариации:
Ответ: коэффициент вариации температурной переменной для 5 детей в выборке составляет 2,56%, при средней температуре 39 ° C и стандартном отклонении 1 ° C.
Что касается температуры, то следует проявлять осторожность при обращении с весами, поскольку, будучи переменной, измеряемой в интервальной шкале, она не имеет абсолютного нуля. В рассматриваемом случае, что бы произошло, если бы температуры были преобразованы из градусов Цельсия в градусы Фаренгейта:
Рассчитываются среднее арифметическое и стандартное отклонение:
Теперь он подставляется в формулу для коэффициента вариации:
Ответ: коэффициент вариации температурной переменной у 5 детей в выборке составляет 1,76%, при средней температуре 102,2 ° F и стандартном отклонении 1,80 ° F.
Решенные упражнения
Упражнение 1
Вес в кг 10 сотрудников почтового отделения был измерен: 85, 62, 88, 55, 98, 52, 75, 70, 76, 77. Мы хотим знать коэффициент вариации переменной веса.
Рассчитываются среднее арифметическое и стандартное отклонение:
Теперь он подставляется в формулу для коэффициента вариации:
Ответ: коэффициент вариации переменного веса 10 человек в почтовом отделении составляет 19,74%, при среднем весе 73,80 кг и стандартном отклонении 14,57 кг.
Упражнение 2.
В одном городе измеряется рост 9 465 детей во всех школах первого класса, средний рост составляет 109,90 см со стандартным отклонением 13,59 см. Рассчитайте коэффициент вариации.
Ответ: коэффициент вариации переменного роста первоклассников города составляет 12,37%.
Упражнение 3.
Смотритель парка подозревает, что популяции черных и белых кроликов в его парке не имеют одинаковой изменчивости в размерах. Чтобы продемонстрировать это, он взял образцы по 25 кроликов из каждой популяции и получил следующие результаты:
— Белые кролики: средний вес 7,65 кг и стандартное отклонение 2,55 кг.
-Черные кролики: средний вес 6,00 кг и стандартное отклонение 2,43 кг.
Смотритель парка прав? Ответ на гипотезу смотрителя парка можно получить с помощью коэффициента вариации:
Ответ: коэффициент вариации веса черных кроликов почти на 7% больше, чем у белых кроликов, поэтому можно сказать, что смотритель парка прав в своем подозрении, что вариабельность веса двух популяций кроликов не равны.
Ссылки
Эффект кросса: что это такое и как влияет на восприятие
Маркетинг для психологов: команда «Психология и разум» к услугам вашей клиники
Тема 6 Показатели вариации
Информация о средних уровнях исследуемых показателей обычно бывает недостаточной для глубокого анализа изучаемого процесса или явления. Необходимо учитывать и разброс или вариацию значений отдельных единиц.
Основными показателями, характеризующими вариацию, являются: размах, дисперсия, среднее квадратическое отклонение и коэффициент вариации.
Размах вариации – простейший показатель, разность между максимальным и минимальным значениями признака.
\[ \begin
Дисперсия – средний квадрат отклонений значений признака от их средней величины и определяется по формулам простой
Если коэффициент вариации не превышает 33%, то совокупность по рассматриваемому признаку можно считать однородной.
Показатели вариации могут быть использованы не только в анализе изменчивости изучаемого признака, но и для оценки степени воздействия одного признака на вариацию другого признака, т.е.е в анализе взаимосвязей между показателями.
При проведении такого анализа совокупность должна представлять собой множество единиц, каждая из которых характеризуется двумя признаками – факторным и результативным.
Для выявления взаимосвязи исходная совокупность делится на две или более групп по факторному признаку. Выводы о степени взаимосвязи базируются на анализе вариации результативного признака. При этом применяется правило сложения дисперсий:
Межгрупповая дисперсия отражает ту часть вариации результативного признака, которая обусловлена воздействием факторного признака. Это воздействие проявляется в отклонении групповых средних от общей средней:
Если факторный признак, по которому производится группировка, не оказывает никакого влияния на результативный признак, то групповые средние будут равны между собой и совпадут с общей средней. В этом случае межгрупповая средняя будет равна нулю.
Средняя из внутригрупповых дисперсий отражает ту часть вариации результативного признака, которая обусловлена действием всех прочих неучтенных факторов, кроме фактора, по которому осуществлялась группировка:
Теснота связи между факторным и результативным признаком оценивается на основе эмпирического корреляционного отношения:
\[ \begin
Среди множества варьирующих признаков, изучаемых статистикой, существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными. Альтернативный признак принимает всего два значения – 0 и 1 с весами соответственно p и q. Поэтому среднее значение альтернативного признака равно р. А дисперсия альтернативного признака равна pq. Дисперсия альтернативного признака равна произведению доли признака, обладающего характеристикой на долю признака, не обладающего характеристикой. Предельное значение дисперсии для альтернативного признака равно 0,25 при р=0,5.
Дисперсия альтернативного признака широко применяется в выборочном обследовании.
Изменения частот в вариационных рядах изменяются закономерно в связи с изменением варьирующего признака. Такие закономерности называются закономерностями распределения.
Основная задача анализа вариационных рядов заключается в выявлении подлинной закономерности распределения путем исключения влияния второстепенных, случайных для данного распределения факторов.
Если увеличить объем совокупности и уменьшить интервал в группах, то графическое изображение приближается к некоторой плавной кривой, которая называется кривой распределения.
Кривая распределения – графическое изображение в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением вариант.
Теоретическая кривая распределения – кривая, выражающая общую закономерность данного типа распределения в чистом виде, исключающего влияние случайных для него факторов.
Выяснение общего характера распределения предполагает оценку его однородности, а также расчет показателей асимметрии и эксцесса.
При сравнительном изучении асимметрии нескольких распределений с разными единицами измерения вычисляется относительный показатель асимметрии:
Его величина может быть положительной (для правосторонней асимметрии) и отрицательной (для левосторонней асимметрии).
Применение данного показателя дает возможность определить не только величину асимметрии, но и проверить ее наличие в генеральной совокупности. Принято считать, что асимметрия выше 0,5 (независимо от знака) считается значительной. Если асимметрия меньше 0,25, она считается незначительной.
Если коэффициент асимметрии находится в интервале от 0,25 до 0,5, то наличие асимметрии в генеральной совокупности проверяется с помощью определения оценки существенности на основе средней квадратической ошибки:
Для симметричных распределений может быть рассчитан показатель эксцесса, который показывает, насколько резкий скачок имеет изучаемое явление. Показатель эксцесса определяется на основе центрального момента четвертого порядка по формуле:
Если показатель эксцесса больше нуля, то распределение островершинное и скачок считается значительным, если коэффициент эксцесса меньше нуля, то распределение считается плосковершинным и скачок считается незначительным. Среднеквадратическая ошибка эксцесса показывает, насколько существенен скачок в явлении и рассчитывается по формуле:
\[ \begin
Квартили представляют собой значение признака, делящее ранжированную совокупность на четыре равновеликие части. Различают квартиль первого порядка (нижний квартиль) и квартиль третьего порядка (верхний квартиль). Каждый из них отсекает соответственно ¼ и ¾ совокупности. Для расчета квартилей используются следующие формулы:
Децили – варианты, делящие ранжированный ряд на десять равных частей. Первый дециль отсекает 1/10 часть совокупности, а девятый дециль отсекает 9/10 частей. Рассчитываются децили по аналогичным формулам:
Перцентили – варианты, которые делят ранжированную совокупность на 100 частей.