Что показывает коэффициент детерминации в статистике

Пример нахождения коэффициента детерминации

Коэффициент детерминации рассчитывается для оценки качества подбора уравнения регрессии. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50%. Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими. Значение коэффициента детерминации R 2 = 1 означает функциональную зависимость между переменными.

В случае нелинейной регрессии коэффициент детерминации рассчитывается через этот калькулятор. При множественной регрессии, коэффициент детемрминации можно найти через сервис Множественная регрессия

Уравнение имеет вид y = ax + b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая.
Уравнение регрессии

Анализ точности определения оценок коэффициентов регрессии

S a = 3.3432
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-557.64;913.38)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (6.95>1.812).

Статистическая значимость коэффициента регрессии b не подтверждается (0.96 Fkp, то коэффициент детерминации статистически значим

Источник

Коэффициент вариации и коэффициент детерминации

Понятие коэффициента вариации

Коэффициент вариации — это отношение среднего квадратического отклонения к средней арифметической, выраженное в процентах. Он применяется для сравнений колеблемости одного и того же признака в нескольких совокупностях с различным средним арифметическим.

Расчет коэффициента осуществляется по формуле:

Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистике

Коэффициент вариации используют не только для сравнительной оценки единиц совокупности, но и также для характеристики однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%.

Пример решения задачи на нахождение коэффициента вариации Вы можете посмотреть здесь

Вариация признака определяется различными факторами, часть этих факторов можно выделить, если статистическую совокупность разделить на группы по определенному признаку. Тогда, наряду с изучением вариации признака по совокупности в целом, можно изучить вариацию для каждой из составляющих ее группы и между этими группами. В простом случае, когда совокупность разделена на группы по одному фактору, изучение вариации достигается посредством вычисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Эмпирический коэффициент детерминации

Эмпирический коэффициент детерминации широко применяется в статистическом анализе и является показателем, представляющим долю межгруппопой дисперсии в дисперсии результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистике

Коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х, он связан с коэффициентом корреляции квадратичной зависимостью. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи — единице.

Например, когда изучается зависимость производительности труда рабочих от их квалификации коэффициент детерминации равен 0,7, то на 70% вариация производительности труда рабочих обусловлена различиями в их квалификации и на 30% — влиянием прочих факторов.

Если связь функциональная, то корреляционное отношение равняется единице. В таком случае дисперсия групповых средних равна общей дисперсии, т.е. внутригрупповой вариации нет. Это значит, что группировочный признак полностью определяет вариацию результативного признака.

Чем ближе значение корреляционного отношения к единице, тем сильнее и ближе к функциональной зависимости связь между признаками. Для качественной оценки силы связи на основе показателя эмпирического коэффициента корреляции можно использовать соотношение Чэддока.

Источник

Коэффициент детерминации: формулы, расчет, интерпретация, примеры

Содержание:

Если 100% данных находятся на линии функции регрессии, то коэффициент детерминации будет равен 1.

Напротив, если для набора данных и некоторой функции настройки коэффициент R 2 оказывается равным 0,5, то можно сказать, что посадка на 50% удовлетворительна или хороша.

Аналогично, когда регрессионная модель возвращает значения R 2 ниже 0,5, это означает, что выбранная функция настройки не адаптируется удовлетворительно к данным, поэтому необходимо искать другую функцию настройки.

И когда ковариация или коэффициент корреляции стремится к нулю, то переменные X и Y в данных не связаны, и поэтому R 2 он также будет стремиться к нулю.

Как рассчитать коэффициент детерминации?

В предыдущем разделе было сказано, что коэффициент детерминации рассчитывается путем нахождения частного между дисперсиями:

-Оценено функцией регрессии переменной Y

-То переменной Yi, соответствующей каждой переменной Xi из N пар данных.

Математически это выглядит так:

Из этой формулы следует, что R 2 представляет собой долю дисперсии, объясняемую регрессионной моделью. В качестве альтернативы R можно рассчитать 2 используя следующую формулу, полностью эквивалентную предыдущей:

Дисперсия набора данных Yi, где i от 1 до N, рассчитывается следующим образом:

А затем поступаем аналогичным образом для Sŷ или для Sε.

Иллюстративный случай

Чтобы показать детали того, как расчет коэффициент детерминации Мы возьмем следующий набор из четырех пар данных:

Для этого набора данных предлагается линейная регрессия, полученная с помощью метода наименьших квадратов:

Применяя эту функцию регулировки, крутящие моменты получаются:

Затем мы вычисляем среднее арифметическое для X и Y:

= (1 + 3 + 6 + 7) / 4 = 4.25

Дисперсия Sy

Sy = [(1–4,25) 2 + (3 – 4.25) 2 + (6 – 4.25) 2 +…. ….(7 – 4.25) 2 ] / (4-1)=

= [(-3.25) 2 + (-1.25) 2 + (1.75) 2 + (2.75) 2 ) / (3)] = 7.583

Дисперсия Sŷ

= [(-3.25) 2 + (-1.25) 2 + (1.75) 2 + (2.75) 2 ) / (3)] = 7.35

Коэффициент детерминации R 2

р 2 = Sŷ / Sy = 7,35 / 7,58 = 0,97

Интерпретация

Коэффициент детерминации для иллюстративного случая, рассмотренного в предыдущем сегменте, оказался равным 0,98. Другими словами, линейная регулировка через функцию:

Он на 98% надежен в объяснении данных, с которыми он был получен с использованием метода наименьших квадратов.

Помимо коэффициента детерминации, есть коэффициент линейной корреляции или также известный как коэффициент Пирсона. Этот коэффициент, обозначаемый какр, рассчитывается по следующей зависимости:

Следует отметить, что коэффициент детерминации совпадает с квадратом коэффициента Пирсона, только если первый был рассчитан на основе линейной аппроксимации, но это равенство не действует для других нелинейных аппроксимаций.

Примеры

— Пример 1

Группа старшеклассников решила определить эмпирический закон для периода маятника в зависимости от его длины. Для достижения этой цели они проводят серию измерений, в которых измеряют время колебания маятника на разной длине, получая следующие значения:

Длина (м)Период (ы)
0,10,6
0,41,31
0,71,78
11,93
1,32,19
1,62,66
1,92,77
33,62

Требуется построить диаграмму рассеяния данных и выполнить линейную аппроксимацию через регрессию. Также покажите уравнение регрессии и его коэффициент детерминации.

Решение

Наблюдается довольно высокий коэффициент детерминации (95%), поэтому можно подумать, что линейная аппроксимация является оптимальной. Однако, если рассматривать точки вместе, оказывается, что они имеют тенденцию изгибаться вниз. Эта деталь не рассматривается в линейной модели.

— Пример 2

Для тех же данных в Примере 1 сделайте диаграмму рассеяния данных.В этом случае, в отличие от примера 1, требуется корректировка регрессии с использованием потенциальной функции.

Решение

На предыдущем рисунке показана потенциальная функция и ее параметры, а также коэффициент детерминации с очень высоким значением 99%. Обратите внимание на то, что данные соответствуют кривизне линии тренда.

— Пример 3

Используя те же данные из примера 1 и примера 2, выполните полиномиальную аппроксимацию второй степени. Показать график, подобрать полином и коэффициент детерминации R 2 корреспондент.

Решение

При подборе полинома второй степени вы можете увидеть линию тренда, которая хорошо соответствует кривизне данных. Кроме того, коэффициент детерминации выше линейного соответствия и ниже потенциального соответствия.

Сравнение пригодности

Из трех показанных подгонок тот, у которого самый высокий коэффициент детерминации, является потенциальным подгонкой (пример 2).

Этот тип потенциального соответствия не только имеет самый высокий коэффициент детерминации, но и показатель степени и константа пропорциональности соответствуют физической модели.

Выводы

— Регулировка регрессии определяет параметры функции, которая направлена ​​на объяснение данных с использованием метода наименьших квадратов. Этот метод состоит в минимизации суммы квадратов разницы между значением Y настройки и значением Yi данных для значений Xi данных. Это определяет параметры функции настройки.

-Как мы видели, наиболее распространенной функцией настройки является линия, но она не единственная, поскольку настройки также могут быть полиномиальными, потенциальными, экспоненциальными, логарифмическими и другими.

-В любом случае коэффициент детерминации зависит от данных и типа корректировки и является показателем качества примененной корректировки.

-Наконец, коэффициент детерминации указывает процент общей изменчивости между значением Y данных по отношению к значению соответствия для данного X.

Ссылки

Эффект кросса: что это такое и как влияет на восприятие

Оцелот: характеристики, опасность исчезновения, еда

Источник

Коэффициент детерминации

Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистике

Коэффициент детерминации (R2)— это доля объяснённой дисперсии отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных, в частном случае является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.

Формула для вычисления коэффициента детерминации:

Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистике

где yi — наблюдаемое значение зависимой переменной, а fi — значение зависимой переменной предсказанное по уравнению регрессии Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистике-среднее арифметическое зависимой переменной.

Содержание

· 1 Проблемы и общие свойства R2

o 1.1 Интерпретация

o 1.2 Общие свойства для МНК регрессии

o 1.3 Общие свойства для МНК регрессии со свободным членом (единичным фактором)

o 1.4 Мнимая регрессия

· 2 Решение проблем или модификации R2

o 2.1 R2-скорректированный (adjusted)

o 2.2 R2-распространённый (extended)

o 2.3 R2-истинный (несмещённый)

· 3 Прочие используемые критерии

[править]Проблемы и общие свойства R2

[править]Интерпретация

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока):

Количественная мера тесноты связи

Качественная характеристика силы связи

Функциональная связь возникает при значении равном 1, а отсутствие связи — 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

[править]Общие свойства для МНК регрессии

Линейная множественная МНК регрессия имеет следующие общие свойства [1]:

1. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

2. С увеличением количества объясняющих переменных увеличивается R2.

[править]Общие свойства для МНК регрессии со свободным членом (единичным фактором)

Для случая наличия в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами: [2]

1. принимает значения из интервала (отрезка) [0;1].

2. в случае парной линейной регрессионной МНК модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R2 = r2. А в случае множественной МНК регрессии R2 = r(y;f)2. Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.[3]

4. R2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистикеимеет F-распределение с (k-1) и (n-k) степенями свободы.

[править]Мнимая регрессия

Значения R2, Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистике, Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистикетакже могут быть манипулированы, с помощью включения фиктивных факторов. Например, если два показателя имеют возрастающую динамику, то их коэффициент корреляции (который входит в факторное разложение) будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Только качество модели может быль проверено или сопоставлено с использованием R2 и его модификаций.

[править]Решение проблем или модификации R2

[править]R2-скорректированный (adjusted)

[править]R2-распространённый (extended)

Что показывает коэффициент детерминации в статистике. Смотреть фото Что показывает коэффициент детерминации в статистике. Смотреть картинку Что показывает коэффициент детерминации в статистике. Картинка про Что показывает коэффициент детерминации в статистике. Фото Что показывает коэффициент детерминации в статистикес условием небольшой модификации, также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

[править]R2-истинный (несмещённый)

[править]Прочие используемые критерии

[править]См. также

§ Дисперсия случайной величины

§ Метод группового учета аргументов

[править]Примечания

2. ↑ 1 2 Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) //ЦЕМИ РАН Экономика и математические методы. — Москва: ЦЕМИ РАН, 2002. — В. 3. — Т. 38. — С. 107-120.

4. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Прикладная эконометрика. — Москва: Маркет ДС, 2008. — В. 4. — Т. 12. — С. 71-83.

Источник

Коэффициент детерминации

Материал из MachineLearning.

Содержание

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины от признаков определяется следующим образом:

где — условная (по признакам ) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

— сумма квадратов регрессионных остатков, — общая дисперсия, — соответственно, фактические и расчетные значения объясняемой переменной, — выборочное вреднее.

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

Недостатки и альтернативные показатели

Основная проблема применения (выборочного) заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted)

Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

который даёт штраф за дополнительно включённые признаки, где — количество наблюдений, а — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.

Обобщённый (extended)

Для случая регрессии без свободного члена:

При некоторой модификации также подходит для сравнения между собой регрессионных моделей, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *