Что означает знак в статистике

Как легко понять знаки Σ и П с помощью программирования

Для тех, кто подзабыл матешу

Вот говорят, что если ты не закончил Физтех, ФПМ или Бауманку, тебе в программировании делать нечего. Почему так говорят? Потому что, дескать, ты не учил сложную математику, а в программировании без неё никуда.

Это всё чушь, конечно. Если вы плохо знаете математику, вы можете быть блестящим разработчиком. Вы вряд ли напишете драйверы для видеокарты, но вы запросто сделаете мобильное приложение или веб-сервис. А это — основные деньги в этой среде.

Но всё же, чтобы получить некоторое интеллектуальное превосходство, вот вам пара примеров из страшного мира математики. Пусть они покажут вам, что не все закорючки в математике — это ад и ужас. Вот две нестрашные закорючки.

Знак Σ — сумма

Когда математикам нужно сложить несколько чисел подряд, они иногда пишут так:

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Σ (читается «сигма») — это знак алгебраической суммы, который означает, что нам нужно сложить все числа от нижнего до верхнего, а перед этим сделать с ними то, что написано после знака Σ.

На картинке выше написано следующее: «посчитать сумму всех чисел от 5 до 15, умноженных на два». То есть:

Давайте для закрепления ещё один пример. На картинке ниже будет сказано «Найди сумму квадратов чисел от 5 до 10». То есть «возьми все числа от 5 до 10, каждое из них возведи в квадрат, а результаты сложи».

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Но мы с вами как программисты видим, что здесь есть повторяющиеся действия: мы много раз складываем числа, которые меняются по одному и тому же правилу. А раз мы знаем это правило и знаем, сколько раз надо его применить, то это легко превратить в цикл. Для наглядности мы показали, какие параметры в Σ за что отвечают в цикле:

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Произведение П

С произведением в математике работает точно такое же правило, только мы не складываем все элементы, а перемножаем их друг на друга:

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

А если это перевести в цикл, то алгоритм получится почти такой же, что и в сложении:

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Что дальше

Сумма и произведение — простые математические операции, пусть они и обозначаются страшными символами. Впереди нас ждут интегралы, дифференциалы, приращения и бесконечные ряды. С ними тоже всё не так сложно, как кажется на первый взгляд.

Источник

7 базовых статистических понятий, необходимых дата-сайентисту

Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

У статистики есть несколько различных определений. Одно из самых простых и точных — это «наука о сборе и классификации цифровых данных». А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:

Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

С некоторых пор утверждает, что он data scientist. В предыдущих сезонах выдавал себя за математика, звукорежиссёра, радиоведущего, переводчика, писателя. Кандидат наук, но не точных. Бесстрашно пишет о Data Science и программировании на Python.

1. Меры описательной статистики

Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, мерами центральной тенденции), — это:

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.

Кроме трёх перечисленных, есть и другие статистические показатели — например, меры рассеяния. Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.

2. Распределение

Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о распределении.

Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое «раздаёт» им эти вероятности.

В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про математику для джунов.

Возможно, вы уже слышали про колокол нормального распределения, или гауссиану: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии — все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.

Распределение Пуассона тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени — при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.

Существуют и другие распределения, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.

3. Семплирование

Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Но тут сразу же возникают вопросы:

Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.

Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.

В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.

4. Смещение

Прочитайте нашу статью о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.

Смещение происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж — независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра «Город проживания».

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Чаще всего причиной смещения являются:

Когда мы неверно собираем данные, говорят о систематической ошибке отбора. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, — впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Другая ошибка — ошибка меткого стрелка — происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.

Причин, вызывающих смещение, так много, что Марк Твен заметил: «Существует три вида лжи: ложь, наглая ложь и статистика». Например:

Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.

Если пить «Боржоми» уже поздно (датасет уже сформирован), обязательно спросите себя: «Не смещены ли мои данные?» — а они наверняка смещены, «Куда и почему они смещены?» и «Можно ли с этим жить?»

5. Дисперсия

Дисперсия — это величина, показывающая, как именно и насколько сильно разбросаны значения — например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.

Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:

(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5

Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка — это случайное целое значение от 1 до 10.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Изрешечённая пулями мишень — отличная иллюстрация распределения. Дисперсия здесь — величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.

6. Дилемма (компромисс) смещения и дисперсии

Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в дилемму: уменьшение одной из величин неизбежно приводит к росту другой.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Если не вдаваться в детали, обучение модели — это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.

Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже — так и получается смещение.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.

Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.

Простые модели, напротив, упускают важные параметры и «бьют кучно, но мимо». Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.

Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В исследовании 2009 года утверждается, что люди используют эвристику «высокое смещение + низкая дисперсия»: мы заблуждаемся, зато очень уверенно.

Учтите это, если захотите сделать свой ИИ более похожим на человека.

7. Корреляция

Когда изменения одной величины сопутствуют изменениям другой, говорят о корреляции. Главное, что необходимо о ней знать: корреляция не означает причинно-следственную связь.

Линейная корреляция — это когда изменения одной величины пропорциональны изменениям другой. Она может быть:

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Статистическую связь между переменными исследуют с помощью корреляционного анализа. Его основная задача — оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.

И ещё раз, потому что действительно важно: корреляция ни в коем случае не означает причинно-следственную связь. Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.

Кстати, проект Spurious Correlations («Ложные корреляции») публикует графики корреляций между совершенно неожиданными статистическими показателями — например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС — синдрома поиска глубинной связи.

Заключение

Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.

Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.

В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!

Polina Vari для Skillbox

Для отличия статистического термина от терминов из других отраслей (музыки, биологии) часто пишут этот термин через «е», а не через «э».

Описательная статистика (англ. descriptive statistics) занимается обработкой опытных данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.

Тренировочный набор, или обучающая выборка (англ. train set, training sample), — часть данных из датасета, по которой производится настройка или оптимизация модели машинного обучения.

Рекомендательные системы — программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб-сайты и др.) будут интересны пользователю.

Разницу между наблюдаемым значением и значением, предсказанным моделью.

Источник

Что означает знак в статистике

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

МАТЕМАТИЧЕСКИЕ СИМВОЛЫ И ЗНАКИ ДЛЯ ПРИМЕНЕНИЯ В СТАНДАРТАХ

Statistical methods. Mathematical symbols and signs to be used in the standards

Дата введения 2012-12-01

Предисловие

1 ПОДГОТОВЛЕН Автономной некоммерческой организацией «Научно-исследовательский центр контроля и диагностики технических систем» (АНО «НИЦ КД») на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 125 «Статистические методы в управлении качеством продукции»

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5)

6 ПЕРЕИЗДАНИЕ. Июнь 2020 г.

Введение

Описание знаков, символов, выражений в настоящем стандарте приведено в форме таблиц (таблицы 4.1-19.1), структура которых, за исключением таблицы 16.1, одинакова.

В первой колонке этих таблиц приведен номер знака, символа, выражения.

Во второй колонке таблицы («Знак, символ, выражение») приведено изображение рассматриваемых знака, символа, выражения. Если более одного знака, символа или выражения приведено для одного объекта, они являются одинаково применимыми и эквивалентными.

В некоторых случаях рекомендуется применять единственное выражение.

В третьей колонке таблицы («Значение, устный эквивалент») приведено описание значения объекта и его устный эквивалент. Значение приведено для идентификации соответствующего понятия и не является полным математическим определением.

В четвертой колонке таблицы («Примечания, примеры») приведена полезная дополнительная информация. Приведенные определения являются достаточно краткими. Определения с математической точки зрения не являются полными.

Структура таблицы 16.1 несколько иная.

1 Область применения

В стандарте приведены общие сведения о математических символах и знаках, их значениях, устных эквивалентах и применении.

Рекомендуемые в стандарте символы и знаки предназначены главным образом для использования в стандартах, но могут быть использованы также и в других областях. Приведенные в настоящем стандарте математические символы соответствуют требованиям [1], ГОСТ 1.5.

2 Нормативные ссылки

В настоящем стандарте использована нормативная ссылка на следующий стандарт:

ГОСТ 1.5 Межгосударственная система стандартизации. Стандарты межгосударственные, правила и рекомендации по межгосударственной стандартизации. Общие требования к построению, изложению, оформлению, содержанию и обозначению.

3 Переменные, функции и операторы

Числа, представленные цифрами, всегда изображают прямым шрифтом (вертикально), например 351204; 1,32; 7/8.

Если существует возможность ошибки, необходимо использовать круглые скобки. Например, Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистикелучше записать в виде Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике, чтобы исключить ошибочное понимание этой формулы.

Запятая, точка с запятой или другой соответствующий символ могут быть использованы для разделения чисел или выражений. Предпочтительно использование запятой, кроме тех случаев, когда ее используют при записи десятичных дробей.

Если выражение или уравнение должно быть записано в две или более строк, следует применять правила, установленные в ГОСТ 1.5.

По возможности разрыв формулы не следует использовать внутри выражения в круглых скобках.

Общепринято использование различных букв (греческого, латинского или других алфавитов) для различных объектов. Это делает формулы более удобными и помогает в восприятии соответствующего текста. При использовании нескольких шрифтов необходимо приводить соответствующие пояснения (при необходимости).

4 Математическая логика

Знаки, символы, выражения, используемые в математической логике, приведены в таблице 4.1.

Источник

Уровень значимости в статистике

Уровень значимости в статистике является важным показателем, отражающим степень уверенности в точности, истинности полученных (прогнозируемых) данных. Понятие широко применяется в различных сферах: от проведения социологических исследований, до статистического тестирования научных гипотез.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Определение

Уровень статистической значимости (или статистически значимый результат) показывает, какова вероятность случайного возникновения исследуемых показателей. Общая статистическая значимость явления выражается коэффициентом р-value (p-уровень). В любом эксперименте или наблюдении существует вероятность, что полученные данные возникли из-за ошибок выборки. Особенно это актуально для социологии.

То есть статистически значимой является величина, чья вероятность случайного возникновения крайне мала либо стремится к крайности. Крайностью в этом контексте считают степень отклонения статистики от нуль-гипотезы (гипотезы, которую проверяют на согласованность с полученными выборочными данными). В научной практике уровень значимости выбирается перед сбором данных и, как правило, его коэффициент составляет 0,05 (5 %). Для систем, где крайне важны точные значения, этот показатель может составлять 0,01 (1 %) и менее.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

История вопроса

Понятие уровня значимости было введено британским статистиком и генетиком Рональдом Фишером в 1925 году, когда он разрабатывал методику проверки статистических гипотез. При анализе какого-либо процесса существует определенная вероятность тех либо иных явлений. Трудности возникают при работе с небольшими (либо не очевидными) процентами вероятностей, подпадающими под понятие «погрешность измерений».

При работе со статистическими данными, недостаточно конкретными, чтобы их проверить, ученые сталкивались с проблемой нулевой гипотезы, которая «мешает» оперировать малыми величинами. Фишер предложил для таких систем определить вероятность событий в 5 % (0,05) в качестве удобного выборочного среза, позволяющего отклонить нуль-гипотезу при расчетах.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Введение фиксированного коэффициента

В 1933 году ученые Ежи Нейман и Эгон Пирсон в своих работах рекомендовали заранее (до сбора данных) устанавливать определенный уровень значимости. Примеры использования этих правил хорошо видны во время проведения выборов. Предположим, есть два кандидата, один из которых очень популярен, а второй – малоизвестен. Очевидно, что первый кандидат выборы выиграет, а шансы второго стремятся к нулю. Стремятся – но не равны: всегда есть вероятность форс-мажорных обстоятельств, сенсационной информации, неожиданных решений, которые могут изменить прогнозируемые результаты выборов.

Нейман и Пирсон согласились, что предложенный Фишером уровень значимости 0,05 (обозначаемый символом α) наиболее удобен. Однако сам Фишер в 1956 году выступил против фиксации этого значения. Он считал, что уровень α должен устанавливаться в соответствии с конкретными обстоятельствами. Например, в физике частиц он составляет 0,01.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Значение p-уровня

Термин р-value впервые использован в работах Браунли в 1960 году. P-уровень (p-значение) является показателем, находящимся в обратной зависимости от истинности результатов. Наивысший коэффициент р-value соответствует наименьшему уровню доверия к произведенной выборке зависимости между переменными.

Данное значение отражает вероятность ошибок, связанных с интерпретацией результатов. Предположим, p-уровень = 0,05 (1/20). Он показывает пятипроцентную вероятность того, что найденная в выборке связь между переменными – всего лишь случайная особенность проведенной выборки. То есть, если эта зависимость отсутствует, то при многократных подобных экспериментах в среднем в каждом двадцатом исследовании можно ожидать такую ​​же либо большую зависимость между переменными. Часто p-уровень рассматривается в качестве «допустимой границы» уровня ошибок.

Кстати, р-value может не отражать реальную зависимость между переменными, а лишь показывает некое среднее значение в пределах допущений. В частности, окончательный анализ данных будет также зависеть от выбранных значений данного коэффициента. При p-уровне = 0,05 будут одни результаты, а при коэффициенте, равном 0,01, другие.

Что означает знак в статистике. Смотреть фото Что означает знак в статистике. Смотреть картинку Что означает знак в статистике. Картинка про Что означает знак в статистике. Фото Что означает знак в статистике

Проверка статистических гипотез

Уровень статистической значимости особенно важен при проверке выдвигаемых гипотез. Например, при расчетах двустороннего теста область отторжения разделяют поровну на обоих концах выборочного распределения (относительно нулевой координаты) и высчитывают истинность полученных данных.

Предположим, при мониторинге некоего процесса (явления) выяснилось, что новая статистическая информация свидетельствует о небольших изменениях относительно предыдущих значений. При этом расхождения в результатах малы, не очевидны, но важны для исследования. Перед специалистом встает дилемма: изменения реально происходят или это ошибки выборки (неточность измерений)?

Эффективность

Необходимо учитывать, что коэффициенты α и р-value не являются точными характеристиками. Каким бы ни был уровень значимости в статистике исследуемого явления, он не является безусловным основанием для принятия гипотезы. Например, чем меньше значение α, тем больше шанс, что устанавливаемая гипотеза значима. Однако существует риск ошибиться, что уменьшает статистическую мощность (значимость) исследования.

Исследователи, которые зацикливаются исключительно на статистически значимых результатах, могут получить ошибочные выводы. При этом перепроверить их работу затруднительно, так как ими применяются допущения (коими фактически и являются значения α и р-value). Поэтому рекомендуется всегда, наряду с вычислением статистической значимости, определять другой показатель – величину статистического эффекта. Величина эффекта – это количественная мера силы эффекта.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *