Что показывает доверительный интервал

Доверительный интервал за 15 минут

Добрый день, уважаемые читатели!

Меня зовут Кирилл Мильчаков. Сегодня мы продолжаем наш разговор о биостатистике. Тема сегодняшней нашей беседы будет «Доверительный интервал». Что такое доверительный интервал? Вы наверняка встречались с ним в научной литературе. Доверительный интервал 95 %, либо сочетание символов ДИ и CI (confidence interval) 95 %. Что же означают эти 95 %? Какие он еще может принимать значения? И как его рассчитывать самостоятельно? Об этом обо всем сегодня мы и поговорим в этой статье.

Видео-версия статьи о доверительном интервале

Генеральная совокупность и выборочная совокупность

Прежде чем углубляться в тайны доверительного интервала, хотел бы вспомнить с вами 2 основных понятия статистической совокупности, с которыми чаще всего работают – это генеральная совокупность или выборочная совокупность или выборка.

Генеральная совокупность – это тот массив данных, о которых вы хотите сделать выводы.

Выборка является частью генеральной совокупности, которая участвует непосредственно в вашем эксперименте. Есть такое понятие как репрезентативность, сегодня мы не будем его касаться, главное запомнить, что выборка должна быть репрезентативной.

Если привести небольшой пример относительно генеральной совокупности и выборки, то можно вспомнить о простом случае из вашей жизни. Когда вы хотите узнать, достаточно ли посолен суп, вы берете ложку супа и пробуете его. Вам необязательно есть весь суп, чтобы понять, насколько он посолен. Ложка в данном случае является выборкой, по которой вы делаете вывод обо всей кастрюле супа. В данном случае кастрюля супа является генеральной совокупностью, а ложка супа является выборкой.

Итак, мы вспомнили с вами о 2 ключевых статистических совокупностях – о генеральной совокупности и выборочной совокупности. Теперь нужно вспомнить, что типы исследования, которые проводятся над генеральной совокупностью и выборочной совокупностью, называют по-разному. Над генеральной совокупностью проводятся так называемые сплошные исследования, над выборочной совокупностью – выборочные.

Теперь вспомним небольшие отличия между параметрами этих 2 совокупностей. Сегодня для того, чтобы понять, что такое доверительный интервал, нам понадобятся следующие вещи: во-первых, отличие средней арифметической в генеральной совокупности и в выборочной совокупности. В генеральной совокупности она имеет значок µ (мю), в выборочной – это x̅ (х с чертой) — это средние арифметические по каждому виду совокупности.
Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Далее нужно знать, что стандартное отклонение имеет значок выборочной – либо S, либо SD (standard deviation), а в случае генеральной совокупности оно носит название среднеквадратичного отклонения и обозначается буквой σ (сигма).

Приведем пример расчета доврительного интервала

Представьте чисто гипотетическую ситуацию, когда перед нами стоит задача исследований среднего роста марсианина. Для того, чтобы его узнать, было отправлено 3 экспедиции. Первой из них повезло больше всего: они смогли поймать каждого из 200 марсианин и померить его рост.

Как мы помним, по закону нормального распределения по оси Х находится величина изучаемого признака, либо варианта (в данном случае это рост в сантиметрах), а по оси Y – частота встречаемости какого-то признака (мы его обозначаем буквой П.

Итак, оказалось, что у всех 200 марсиан средний рост составил 40 сантиметров. Таким образом, первая экспедиция смогла провести так называемое сплошное исследование, так как поработала со всеми единицами наблюдения генеральной совокупности. Поэтому мы имеем право назвать этот параметр µ.

Однако, второй и третьей экспедиции повезло гораздо меньше. Они попали в самые плохо населенные участки Марса и смогли отобрать только 10 марсиан. В данном случае оказалось, что средний рост по их выборке составил всего 38 сантиметров в первом случае и 41 сантиметр во втором случае.

Что же делать? Да, у нас есть данные из самого полного исследования, которое относится к первой экспедиции. Но представьте, что ни одна бы из них не смогла бы поработать со всей совокупностью полностью, и у нас были бы данные только от второй и третьей экспедиции. Что же в этой ситуации делать? Видно, что никто 40 сантиметров в действительности не достиг: во второй экспедиции Б она равна 38 сантиметрам, а в экспедиции В – 41 сантиметр. То есть в реальности никто не достиг 40 сантиметров. Что же делать в данном случае?

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

И вот здесь на помощь к нам приходит доверительный интервал, точнее оценка параметра. Доверительный интервал является вторым этапом оценки параметра. Прежде чем строить доверительный интервал, нам нужно понять, насколько в принципе этот параметр наша средняя (x̅б, x̅в) может отличаться, ошибаться от реального параметра в генеральной совокупности. Насколько?

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Итак, предположим, мы нашли нашу ошибку репрезентативности mr. В данном случае она составила 2,7 сантиметра. Но что же это нам дает? А дает нам это уже достаточно много. Теперь мы, зная, насколько в принципе наша выборка может ошибаться относительно генеральной совокупности, можем составить определенное предположение о том, где же находится реальный параметр – реальные 40 сантиметров генеральной совокупности на основании данных лишь нашей выборки.

Для того, чтобы не залезать в критерий Стьюдента сегодня, я скажу лишь, что:

для доверительного интервала 95 % используется t=2,

для доверительного интервала 99 % используется t=3

и для доверительного интервала 68 % используется t=1.

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Итак, после того, как мы нашли нашу предельную ошибку, мы можем построить доверительный интервал. Но для этого нам нужно самим задать тот доверительный интервал, который для нас подходит больше всего. Чаще всего в медицине используется вероятность ошибки 5 %, то есть доверительный интервал 95 % или вероятность ошибки 5 % (р=0,05, р=5 %).

Что же значат эти 95 %? А значат они следующее, что с 95%-ной вероятностью в нашем интервале лежит реальное значение, и лишь в 5 % случаев мы ошибаемся. То есть в нашем конкретном случае наша ошибка репрезентативности составила 2,7 сантиметра. Предельная ошибка отсюда будет равна чему? Именно 5,4 сантиметра, то есть доверительный интервал, так как здесь и плюс, и минус, то есть нам нужно ошибку умножить на 2, составил 10,8 сантиметров. А именно наши 38 см±5,4 см. Ширина всего доверительного интервала составляет 10,8 см. Напомню, что он складывается из положительной и отрицательной предельных ошибок вокруг нашей выборочной средней.

Итак, говоря о доверительном интервале, нужно сделать ряд важных выводов.

Если это видео оказалось Вам полезным, оно хотя бы немного раскрыло тайны доверительного интервала, ставьте лайки, подписывайтесь на наши рассылки и в комментариях пишите, какие темы по биостатистике вам бы были интересны для следующих выпусков. На этом я с вами прощаюсь. Меня зовут Кирилл. Пока!

Источник

Доверительные интервалы

Общий обзор

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI – Confidence Interval, ДИ – Доверительный интервал) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

Доверительный интервал для среднего

Использование нормального распределения

Выборочное среднее Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервалимеет нормальное распределение, если объем выборки большой, поэтому можно применить знания о нормальном распределении при рассмотрении выборочного среднего.

В частности, 95% распределения выборочных средних находится в пределах 1,96 стандартных отклонений (SD) среднего популяции.

Когда у нас есть только одна выборка, мы называем это стандартной ошибкой среднего (SEM) и вычисляем 95% доверительного интервала для среднего следующим образом:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Если повторить этот эксперимент несколько раз, то интервал будет содержать истинное среднее популяции в 95% случаев.

Обычно это доверительный интервал как, например, интервал значений, в пределах которого с доверительной вероятностью 95% находится истинное среднее популяции (генеральное среднее).

Хотя это не вполне строго (среднее в популяции есть фиксированное значение и поэтому не может иметь вероятность, отнесённую к нему) таким образом интерпретировать доверительный интервал, но концептуально это удобнее для понимания.

Использование t-распределения

Можно использовать нормальное распределение, если знать значение дисперсии в популяции. Кроме того, когда объем выборки небольшой, выборочное среднее отвечает нормальному распределению, если данные, лежащие в основе популяции, распределены нормально.

Если данные, лежащие в основе популяции, распределены ненормально и/или неизвестна генеральная дисперсия (дисперсия в популяции), выборочное среднее подчиняется t-распределению Стьюдента.

Вычисляем 95% доверительный интервал для генерального среднего в популяции следующим образом:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

где Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал— процентная точка (процентиль) t-распределения Стьюдента с (n-1) степенями свободы, которая даёт двухстороннюю вероятность 0,05.

Вообще, она обеспечивает более широкий интервал, чем при использовании нормального распределения, поскольку учитывает дополнительную неопределенность, которую вводят, оценивая стандартное отклонение популяции и/или из-за небольшого объёма выборки.

Когда объём выборки большой (порядка 100 и более), разница между двумя распределениями (t-Стьюдента и нормальным) незначительна. Тем не менее всегда используют t-распределение при вычислении доверительных интервалов, даже если объем выборки большой.

Обычно указывают 95% ДИ. Можно вычислить другие доверительные интервалы, например 99% ДИ для среднего.

Вместо произведения стандартной ошибки и табличного значения t-распределения, которое соответствует двусторонней вероятности 0,05, умножают её (стандартную ошибку) на значение, которое соответствует двусторонней вероятности 0,01. Это более широкий доверительный интервал, чем в случае 95%, поскольку он отражает увеличенное доверие к тому, что интервал действительно включает среднее популяции.

Доверительный интервал для пропорции

Выборочное распределение пропорций имеет биномиальное распределение. Однако если объём выборки n разумно большой, тогда выборочное распределение пропорции приблизительно нормально со средним Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал.

Оцениваем Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервалвыборочным отношением p=r/n (где r– количество индивидуумов в выборке с интересующими нас характерными особенностями), и стандартная ошибка оценивается:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

95% доверительный интервал для пропорции оценивается:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Если объём выборки небольшой (обычно когда np или n(1-p) меньше 5), тогда необходимо использовать биномиальное распределение для того, чтобы вычислить точные доверительные интервалы.

Заметьте, что если p выражается в процентах, то (1-p) заменяют на (100-p).

Интерпретация доверительных интервалов

При интерпретации доверительного интервала нас интересуют следующие вопросы:

Насколько широк доверительный интервал?

Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.

Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.

Включает ли ДИ какие-либо значения, представляющие особенный интерес?

Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение.

Источник

Доверительный интервал

Опубликовано 15.06.2021 · Обновлено 16.06.2021

Что такое Доверительный интервал?

Ключевые моменты

Понимание доверительного интервала

Статистики используют доверительные интервалы для измерения неопределенности переменной выборки. Например, исследователь случайным образом выбирает разные образцы из одной и той же совокупности и вычисляет доверительный интервал для каждой выборки, чтобы увидеть, как она может представлять истинное значение переменной совокупности. Все полученные наборы данных разные; некоторые интервалы включают параметр истинной популяции, а другие нет.

Краткая справка

Доверительный интервал и доверительный уровень взаимосвязаны, но не одно и то же.

Расчет доверительного интервала

Предположим, группа исследователей изучает рост баскетболистов средней школы. Исследователи выбирают случайную выборку из населения и устанавливают средний рост в 74 дюйма.

Среднее значение в 74 дюйма – это точечная оценка среднего значения для населения. Точечная оценка сама по себе имеет ограниченную полезность, потому что она не выявляет неопределенности, связанной с оценкой; у вас нет четкого представления о том, насколько далеко это среднее значение выборки в 74 дюйма может быть от среднего значения генеральной совокупности. Чего не хватает, так это степени неопределенности в этом единственном образце.

Доверительные интервалы предоставляют больше информации, чем точечные оценки. Установив 95% доверительный интервал с использованием среднего и стандартного отклонения по выборке и предположив нормальное распределение, представленное колоколообразной кривой, исследователи пришли к верхней и нижней границе, которая содержит истинное среднее значение в 95% случаев.

Предположим, что интервал составляет от 72 до 76 дюймов. Если исследователи возьмут 100 случайных выборок из популяции баскетболистов средней школы в целом, среднее значение должно быть от 72 до 76 дюймов в 95 из этих выборок.

Примеры доверительного интервала

Если исследователи хотят еще большей уверенности, они могут расширить интервал до 99% уверенности. Это неизменно приводит к более широкому диапазону, поскольку освобождает место для большего числа выборочных средних. Если они установят 99% доверительный интервал как от 70 до 78 дюймов, они могут ожидать, что 99 из 100 оцененных образцов будут содержать среднее значение между этими числами.

С другой стороны, уровень достоверности 90% означает, что мы ожидаем, что 90% интервальных оценок будут включать параметр генеральной совокупности и т. Д.

Особые соображения

Самое большое заблуждение относительно доверительных интервалов заключается в том, что они представляют собой процент данных из данной выборки, который попадает между верхней и нижней границами.

Источник

Доверительные интервалы

Определение

Доверительные интервалы (англ. Confidence Intervals) одним из типов интервальных оценок используемых в статистике, которые рассчитываются для заданного уровня значимости. Они позволяют сделать утверждение, что истинное значение неизвестного статистического параметра генеральной совокупности находится в полученном диапазоне значений с вероятностью, которая задана выбранным уровнем статистической значимости.

Нормальное распределение

Когда известна вариация (σ 2 ) генеральной совокупности данных, для расчета доверительных пределов (граничных точек доверительного интервала) может быть использована z-оценка. По сравнению с применением t-распределения, использование z-оценки позволит построить не только более узкий доверительный интервал, но и получить более надежные оценки математического ожидания и среднеквадратического (стандартного) отклонения (σ), поскольку Z-оценка основывается на нормальном распределении.

Формула

Для определения граничных точек доверительного интервала, при условии что известно среднеквадратическое отклонение генеральной совокупности данных, используется следующая формула

где X – математическое ожидание выборки, α – уровень статистической значимости, Zα/2 – Z-оценка для уровня статистической значимости α/2, σ – среднеквадратическое отклонение генеральной совокупности, n – количество наблюдений в выборке. При этом, σ/√ n является стандартной ошибкой.

Таким образом, доверительный интервал для уровня статистической значимости α можно записать в виде

Пример

Предположим, что размер выборки насчитывает 25 наблюдений, математическое ожидание выборки равняется 15, а среднеквадратическое отклонение генеральной совокупности составляет 8. Для уровня значимости α=5% Z-оценка равна Zα/2=1,96. В этом случае нижняя и верхняя граница доверительного интервала составят

А сам доверительный интервал может быть записан в виде

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности попадет в диапазон от 11,864 до 18,136.

Методы сужения доверительного интервала

Допустим, что диапазон [11,864; 18,136] является слишком широким для целей нашего исследования. Уменьшить диапазон доверительного интервала можно двумя способами.

Снизив уровень статистической значимости до α=10%, мы получим Z-оценку равную Zα/2=1,64. В этом случае нижняя и верхняя граница интервала составят

А сам доверительный интервал может быть записан в виде

В этом случае, мы можем сделать предположение, что с вероятностью 90% математическое ожидание генеральной совокупности попадет в диапазон [12,376; 17,624].

Если мы хотим не снижать уровень статистической значимости α, то единственной альтернативой остается увеличение объема выборки. Увеличив ее до 144 наблюдений, получим следующие значения доверительных пределов

Сам доверительный интервал станет иметь следующий вид

Таким образом, сужение доверительного интервала без снижения уровня статистической значимости возможно только лишь за счет увеличения объема выборки. Если увеличение объема выборки не представляется возможным, то сужение доверительного интервала может достигаться исключительно за счет снижения уровня статистической значимости.

Построение доверительного интервала при распределении отличном от нормального

В случае если среднеквадратичное отклонение генеральной совокупности не известно или распределение отлично от нормального, для построения доверительного интервала используется t-распределение. Это методика является более консервативной, что выражается в более широких доверительных интервалах, по сравнению с методикой, базирующейся на Z-оценке.

Формула

Для расчета нижнего и верхнего предела доверительного интервала на основании t-распределения применяются следующие формулы

где X – математическое ожидание выборки, α – уровень статистической значимости, tα – t-критерий Стьюдента для уровня статистической значимости α и количества степеней свободы (n-1), σ – среднеквадратическое отклонение выборки, n – количество наблюдений в выборке.

Сам доверительный интервал может быть записан в следующем виде

Распределение Стьюдента или t-распределение зависит только от одного параметра – количества степеней свободы, которое равно количеству индивидуальных значений признака (количество наблюдений в выборке). Значение t-критерия Стьюдента для заданного количества степеней свободы (n) и уровня статистической значимости α можно узнать из справочных таблиц.

Пример

Предположим, что размер выборки составляет 25 индивидуальных значений, математическое ожидание выборки равно 50, а среднеквадратическое отклонение выборки равно 28. Необходимо построить доверительный интервал для уровня статистической значимости α=5%.

В нашем случае количество степеней свободы равно 24 (25-1), следовательно соответствующее табличное значение t-критерия Стьюдента для уровня статистической значимости α=5% составляет 2,064. Следовательно, нижняя и верхняя граница доверительного интервала составят

А сам интервал может быть записан в виде

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне [38,442; 61,558].

Использование t-распределения позволяет сузить доверительный интервал либо за счет снижения статистической значимости, либо за счет увеличения размера выборки.

Снизив статистическую значимость с 95% до 90% в условиях нашего примера мы получим соответствующее табличное значение t-критерия Стьюдента 1,711.

В этом случае мы можем утверждать, что с вероятностью 90% математическое ожидание генеральной совокупности окажется в диапазоне [40,418; 59,582].

Если мы не хотим снижать статистическую значимость, то единственной альтернативой будет увеличение объема выборки. Допустим, что он составляет 64 индивидуальных наблюдения, а не 25 как в первоначальном условии примера. Табличное значение t-критерия Стьюдента для 63 степеней свободы (64-1) и уровня статистической значимости α=5% составляет 1,998.

Это дает нам возможность утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне [43,007; 56,993].

Выборки большого объема

К выборкам большого объема относятся выборки из генеральной совокупности данных, количество индивидуальных наблюдений в которых превышает 100. Статистические исследования показали, что выборки большего объема имеют тенденцию быть нормально распределенными, даже если распределение генеральной совокупности отличается от нормального. Кроме того, для таких выборок применение z-оценки и t-распределения дают примерно одинаковые результаты при построении доверительных интервалов. Таким образом, для выборок большого объема допускается применение z-оценки для нормального распределения вместо t-распределения.

Подведем итоги

В таблице собраны рекомендации по выбору методики построения доверительных интервалов для различных ситуаций.

Источник

О формуле Байеса, прогнозах и доверительных интервалах

На Хабре много статей по этой теме, но они не рассматривают практических задач. Я попытаюсь исправить это досадное недоразумение. Формула Байеса применяется для фильтрации спама, в рекомендательных сервисах и в рейтингах. Без нее значительное число алгоритмов нечеткого поиска было бы невозможно. Кроме того, это формула явилась причиной холивара среди математиков.

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Введение

Начнем издалека. Если наступление одного события увеличивает или уменьшает вероятность наступления другого, то такие события называются зависимыми. Тервер не изучает причинно-следственные связи. Поэтому зависимые события не обязательно следствия друг-друга, связь может быть не очевидной. Например, «у человека голубые глаза» и «человек знает арабский» — зависимые события, поскольку у арабов голубые глаза встречаются крайне редко.

Давайте подумаем чему равно вероятность наступления двух событий одновременно. P(AB). Вероятности наступления первого события умноженной на вероятность наступления второго события, в случае наступления первого. P(AB)=P(A)P(B|A). Теперь, если вспомнить, что P(AB)= P(BA). Получим, P(A)P(B|A)=P(B)P(A|B). Перенесем P(B) влево и получим формулу Байеса:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Все настолько просто, что 300 лет тому назад эту формулу вывел простой священник. Но это не уменьшает практической ценности этой теоремы. Она позволяет решать «обратную задачу»: по данным испытаний оценить ситуацию.

Прямая и обратная задачи

Прямую задачу можно описать так: по причине найти вероятность одного из следствий. Например, дана абсолютно симметричная монета (вероятность выпадения орла, как и решки, равны 1/2). Нужно посчитать вероятность того, что если мы дважды подкинем монету, оба раза выпадет орел. Очевидно, что она равна 1/2 * 1/2 =1/4.

Но проблема в том, что мы знаем вероятность того или иного события только в меньшинстве случаев, почти все их которых искусственные, например, азартные игры. При этом в природе нет ничего абсолютного, вероятность выпадения орла у реальной монеты равна 1/2 только приблизительно. Можно сказать, что прямая задача изучает некоторых сферических коней в вакууме.

На практике, важнее обратная задача: оценить ситуацию по данным испытаний. Но проблема обратной задачи в том, что ее решение сложнее. Главным образом из-за того, что наше решения будет не точкой P=С, а некоторой функцией P=f(x).

Например, у нас есть монета, нужно оценить с помощью опытов вероятность выпадения решки. Если мы подкинули монету 1 раз и выпал орел, то это не значит, что всегда выпадают орлы. Если 2 раза подкинули и получили 2 орла, то опять это не значит, что выпадают только орлы. Чтобы получить абсолютно точно вероятность выпадения решки, мы должны подкинуть монету бесконечное число раз. На практике это не возможно и мы всегда вычисляем вероятность события с некоторой точностью.

Мы вынуждены использовать некоторую функцию. Обычно ее принято обозначать как P(p=x|s решек, f орлов) и называть плотностью вероятности. Читается это так вероятность, того, что вероятность выпадения орла равна x, если по данным эксперимента выпало s решек и f орлов. Звучит сложно звучит из-за тафтологии. Проще считать p некоторым свойством монетки, а не вероятностью. И читать: так вероятность того, что p=x…

Забегая вперед скажу, что если в первую монетку подкинем 1000 раз и получим 500 орлов, а вторую 10000 и получим 5000 орлов, то плотности вероятности будут выглядеть так:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Из-за того, что у нас не точка, а кривая мы вынуждены использовать доверительные интервалы. Например, если говорят 80% доверительный интервал для p равен 45% до 55%, то это значит с 80% вероятностью p находиться между 45% и 55%.

Биномиальное распределение

Для простоты будем рассматривать биномиальное распределение. Это распределение количества «успехов» в последовательности из некоторого числа независимых случайных экспериментов, таких, что вероятность «успеха» в каждом из них постоянна. Оно наблюдается практически всегда, когда у нас есть последовательность испытаний с двумя возможными исходами. Например, когда мы несколько раз подкидываем монету, или оцениваем CTR банера, или конверсию на сайте.

Для примера будем считать, что нам нужно оценить вероятность выпадения решки у монеты. Мы подкинули монету некоторое число раз и получили f орлов и s решек. Обозначим это событие как [s,f] и подставим это в формулу Байеса вместо B. Событие когда p равно некоторому числу будем обозначать как p=x и подставим вместо события А.

P([s,d]|p=x), Вероятность получить [s,d], если p=x, при условии, что p=x нам известна P([s,f]|p=x)=K(f,s) * x^s (1-x)^f. Где K(f,s) биномиальный коэффициент. Получаем:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Нам неизвестна P([s,f]). Да и биномиальный коэффициент вычислить проблематично: там факториалы. Но эти проблемы можно решить: суммарная вероятность всех возможных x должна быть равна 1.

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

С помощью простых преобразований мы получим формулу:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Программируется это просто, всего 10 строк:

Однако, у нас остается неизвестной P(p=x). Она выражает, насколько вероятно, что p=x, если данных по эксперименту у нас нет. Эту функцию принято называть априори. Из-за нее и произошел холивар в теории вероятностей. Вычислить априори строго математически мы не можем, только задать субъективно. А без априори мы не можем решить обратную задачу.

Холивар

Сторонники классической интерпретации (частотного подхода, ЧП), считают, что все возможные p равновероятны до начала эксперимента. Т.е. перед экспериментом нужно «забыть» те данные, которые нам известны до него. Их оппоненты, сторонники байесовского подхода (БП), считают, что нужно задать какую-то априори исходя из наших знаний до начала эксперимента. Это фундаментальное отличия, даже определение понятия вероятности у этих групп разное.

Кстати, создатель этой формулы, Томас Баейс умер лет на 200 раньше холивара и отношение к этому спору имеет только косвенное. Формула Байеса часть обоих конкурирующих теорий.

Частотный подход(ЧП) лучше подходит для науки, где нужно объективно доказать какую-то гипотезу. Например, то что смертность от препарата меньше определенного порога. Если же вам нужно, учитывая всю доступную информацию, принять решение, то лучше использовать БП.

ЧП не подходит для прогнозирования. Кстати, формулы доверительных интервалов, считают доверительные интервал по ЧП. Сторонники БП, обычно, в качестве априори для биномиального распределения используют Бета распределение, при a=1 и b=1 оно вырождается в непрерывное распределение, которое используют их противники. В итоге формула принимает вид:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

Это универсальная формула. При использовании ЧП нужно задать b=a=1. Сторонники БП некоторым образом должны выбрать эти параметры, так чтобы получилось правдоподобное бета-распределение. Зная a и b можно использовать формулы ЧП, например для расчета доверительного интервала. Например, мы выбрали a=4.5, b=20, у нас есть 50 успехов и 100 неудач, чтобы вычислить доверительный интервал в БП нам нужно в обычную формулу ввести 53.5 (50+4.5-1) успеха и 119 неудачу.

Однако, у нас нет никаких критериев выбора a и b. Следующая глава расскажет как их выбрать по статическим данным.

Прогноз

Логичнее всего в качестве прогноза использовать мат. ожидание. Его формулу легко получить из формулы мат. ожидания бета-рапределения. Получим:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал.

Например, у нас есть сайт, со статьями. На каждой из них есть кнопка «лайк». Если мы будем сортировать по числу лайков, то у новых статей мало шансов перебить старых. Если мы будем сортировать по соотношению лайков к посещениям, то статьи с одном заходом и одним лайком будут перебивать статью с 1000 заходами и с 999 лайками. Разумнее всего сортировать по последней формуле, но нужно каким-то образом определить a и b. Самый простой способ через 2 основных момента бета-распределения: мат. ожидание (сколько в среднем будет) и дисперсию (каково в среднем отклонение от среднего).

Пусть L средняя вероятность лайка. Из матожидания бета-распределения L=a/(a+b) =>a+b=a/L=> aL+bL=a => b=a(1/L — 1). Подставим в формулу дисперсии:

Что показывает доверительный интервал. Смотреть фото Что показывает доверительный интервал. Смотреть картинку Что показывает доверительный интервал. Картинка про Что показывает доверительный интервал. Фото Что показывает доверительный интервал

На псевдокоде это будет выглядеть так:

Не смотря на то, что данный выбор a и b кажется объективным. Это не строгая математика. Прежде всего не факт, что лайкабельность статей подвержена Бета-распределению, в отличии от биномиального это распределение «не физично», оно введено для удобства. Мы по сути подогнали кривую к статистическим данным. Причем вариантов подгонки есть несколько.

Шанс побить всех

Например, мы провели А/B тест нескольких вариантов дизайна сайта. Получили некоторые результаты и думаем, нужно ли его останавливать. Если мы остановимся слишком рано мы можем выбрать не верный вариант, но остановиться когда-то все-таки нужно. Мы можем оценивать доверительные интервалы, но их анализ сложен. Как минимум, поскольку в зависимости от коэффициента значимости у нас получаются разные доверительные интервалы. Сейчас я покажу как посчитать вероятность того, что один вариант лучше всех остальных.

Кроме зависимых событий существуют и независимые события. Для таких событий P(A|B)=P(A). Поэтому P(AB)=P(B)P(A|B)=P(A)P(B). Для начала нужно показать что варианты независимы. Кстати сравнивать доверительные интервалы корректно, только в случае когда варианты независимы. Как уже было сказано, сторонники ЧП отбрасывают все данные кроме самого эксперимента. Варианты это отдельные эксперименты, поэтому каждый из них зависит только от своих результатов. Поэтому они независимы.

Для БП доказательство сложнее, основной момент, что априори «изолирует» варианты друг от друга. Например, события «голубые глаза» и «знает арабский» зависимы, а события «араб знает арабский» и «у араба голубые глаза» нет, поскольку взаимосвязь между первыми двумя событиями исчерпывается событием «человек араб». Более верная запись P(p=x) в нашем случае следующая: P(p=x|apriori=f(x)). Поскольку все зависит от выбора функции априори. А события P(pi=x|apriori=f(x)) и P(pj=x|apriori=f(x)) независимы, поскольку единственная взаимосвязь между ними это функция априори.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *