Что показывает квартиль в статистике
Что показывает квартиль в статистике
Предоставляют важную информацию о структуре вариационного ряда к-л признака. Вместе с медианой они делят вариационный ряд на 4 равные части. Квартилей две, их обозначают символами Q, верхняя и нижняя квартиль. 25% значений меньше, чем нижняя квартиль, 75% значений меньше, чем верхняя квартиль.
Для расчёта квартили надо поделить вариационный ряд медианой на две равные части, а затем в каждой из них найти медиану. К примеру, если выборка состоит из 6 элементов, тогда за начальную квартиль выборки принимается второй элемент, а за нижнюю квартиль пятый элемент.
В случае, если вариационный ряд состоит к примеру, из 9 элементов, тогда за верхнюю квартиль принимают арифм. среднее 2-го и 3-го элеметов, а за нижнюю арифм. среднее 7-го и 8-го элементов.
Пример 1
Две стат. совокупности имеют след. частотные таблицы:
Для обеих совокупностей кол-во членов 28, арифм. среднее 10, медиана 10. Но у первой совокупности значения признака более плотно расположены около арифм. среднего, а у второй более редко. В первом случае значения признака имеют меньшее рассеяние, а во втором большее. Но рассмотренные до сих пор характеристики этого не показывают Одно или несколько ненормально больших или малых значений признака могут существенно увеличить протяжённость области значений признака, то от начала и конца вариационного ряда отбрасывают некоторые члены. Это и происходит с помощью квартилей.
В нашем примере для первой совокупности нижняя квартиль 9, верхняя 11 (отличие равно 2)
Для второй совокупности ниняя квартиль 8, верхняя 12 (отличие равно 4), так как в обеих совокупностях надо отбросить по четверти, то есть по 7 членов от обоих концов ряда.
Видим, что у второй совокупности рассеяние больше, чем у первой.
Пример 2
Фирма по продаже сувениров желает узнать рабочую выработку. В данном списке представлено количество сувениров, сделанных каждым рабочим за какой-то день:
92, 100, 89, 98, 101, 84, 113, 93, 81, 14, 113, 86, 98, 99, 105, 88, 101, 89, 93, 102, 101, 99, 87, 109, 92, 99, 111, 98, 102, 95
Найдём верхнюю и нижнюю квартили. В вариационном ряду 30 значений: 14, 81 84, 86, 87, 88, 89, 89, 92, 92, 93, 93, 95, 98, 98, 98, 99, 99, 99, 100, 101, 101, 101, 102, 102, 105, 109, 111, 113, 113.
Квартиль 2021
Table of Contents:
Что такое «квартиль»
Старайтесь не путать четверть с квартикой.
BREAKING DOWN ‘Quartile’
В то время как медиана является надежной оценкой местоположения, она ничего не говорит о том, как данные по обе стороны от ее значения распространяются или распределяются. Квартал измеряет распространение значений выше и ниже среднего, разделив распределение на четыре группы. Точно так же, как медиана делит данные на половину, так что 50% измерения лежит ниже медианы и 50% лежит над ней, квартиль разбивает данные на четверти, так что 25% измерения меньше, чем нижняя квартиль, 50 % меньше среднего, а 75% меньше, чем верхний квартиль.
Каждый квартиль содержит 25% от общего количества наблюдений. Как правило, данные распределяются от самых маленьких до крупнейших, причем эти наблюдения падают ниже 25% от всех проанализированных данных, выделенных в 1-м квартиле, наблюдения падают между 25. 1% и 50% и распределяются во 2-м квартиле, тогда наблюдения падают между 51% и 75% выделены в 3-м квартиле и, наконец, остальные наблюдения, выделенные в 4-м квартиле.
Пример квартили
Давайте работать с примером.Предположим, что распределение математических баллов в классе из 19 учеников в порядке возрастания:
Если существует четное количество точек данных, медиана будет средним числом средних двух чисел. В нашем примере выше, если бы у нас было 20 учеников вместо 19, медиана их баллов будет средним арифметическим для десятого и одиннадцатого чисел.
Для больших наборов данных Microsoft Excel может использоваться для вычисления квартилей с помощью функции QUARTILE.
Статистика — это грамматика науки о данных. Часть 3
Mar 30, 2019 · 4 min read
Повторение статистики для начала путешествия по науке о данных
Меры расположения
Процентили
Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки.
50-й процентиль — это медиана.
Например, на графике ниже показано развитие ребенка от рождения до 2 лет. Получается, что 98% развития ребенка за первый год жизни составляет в весе меньше 11,5 кг.
Другим примером является ра с пределение доходов в стране. 99-й процентиль — это уровень дохода, при котором 99% населения зарабатывают меньше этого значения и 1% — больше. Так в Великобритании, как показано на графике ниже, 99-й процентиль составляет 75.000 фунтов стерлингов.
Квартили
Квартили — это процентили, которые делят набор данных на четверти. Первый квартиль, Q1, равен 25-ому процентилю, третий квартиль, Q3, равен 75-ому процентилю. Медиана может быть обозначена либо вторым квартилем, Q2, либо 50-ым процентилем.
Интерквартильный размах (IQR)
IQR — число, которое показывает разброс средней половины (т.е. средние 50%) набора данных и помогает определить выбросы. IQR — это разница между Q3 и Q1.
Выбросы — это, проще говоря, те значения данных, которые находятся за пределами следующих интервалов: Q1–1.5 x IQR и Q3 + 1.5 x IQR.
Диаграмма «ящик с усами»
Диаграмма «ящик с усами» показывает:
Ящик с усами имеет горизонтальную и вертикальную оси и прямоугольный ящик.
«Усы» (выделенные фиолетовым цветом) начинаются с концов ящика и заканчиваются на самом минимальном или максимальном значениях данных. Также бывают ящики с усами, у которых есть отмеченные значения выбросов (выделены красным цветом). В таких случаях, усы не достигают минимального и максимального значений.
Ящики с усами на графике нормального распределения Ящики с усами на нормальных распределениях имеют некоторые особенности: Несмотря на то, что первый и третий квартили (Q1 и Q3) имеют такие названия, они, на самом деле, не составляют 25% от числа данных! Они показывают 34,135%. Также второй квартиль (Q2) составляет не 50%, а 68,27%.
Моменты случайной величины
Моменты случайно величины описывают различные аспекты характера и формы нашего распределения.
#1 — первый момент случайной величины — среднее значение данных, которое показывает место распределения.
#2 — второй момент случайной величины — дисперсия, которая показывает разброс распределения. Большие значения имеют больший размах, чем маленькие.
#3 — третий момент случайной величины — коэффициент асимметрии — мера того, насколько неравномерным является распределение. Коэффициент асимметрии положителен, если распределение наклонено влево и левый хвост короче правого. То есть среднее значение находится правее. И наоборот:
#4 — четвертый момент случайной величины — коэффициент эксцесса, который описывает то, насколько толстый хвост и насколько острый пик распределения. Этот коэффициент показывает, насколько вероятно найти точки экстремума в данных. Чем выше значение, тем вероятнее выбросы. Это похоже на разброс (дисперсию), но между ними есть отличия.
Как видно на графике, чем выше значение пики, тем выше коэффициент эксцесса, т.е. у верхней кривой коэффициент эксцесса выше, чем у нижней.
Б) Квартили
Квартили представляют собой значения признака, делящие упорядоченную по возрастанию совокупность на четыре равные по количеству элементов части.
Различают квартиль первого порядка (нижний квартиль) , квартиль второго порядка (совпадает с медианой)
, квартиль третьего порядка (верхний квартиль)
. Первый (нижний) квартиль отсекает от совокупности ¼ часть единиц с минимальными значениями, а третий (верхний) отсекает ¼ часть единиц с максимальными значениями, второй квартиль является медианой.
Для расчёта квартилей можно поделить вариационный ряд медианой на две равные части, а затем в каждой из них найти медиану.
К примеру, если выборка состоит из 6 элементов, тогда за начальную квартиль выборки принимается второй элемент, а за нижнюю квартиль пятый элемент.
1 квар | 2 квартиль |
В случае, если вариационный ряд состоит к примеру, из 9 элементов, тогда за верхнюю квартиль принимают арифметическое среднее 2-го и 3-го элементов, а за нижнюю арифметическое среднее 7-го и 8-го элементов.
1 квартиль 3 квартиль
Расчет квартилей для дискретного ряда:
1. В дискретном ряду сначала определяют номера квартилей :
номер 1-го квартиля
позиция 3-го квартиля
2. Если номер квартиля – целое число, то значение квартиля будет равно величине элемента ряда, которое обладает накопленной частотой равной номеру квартиля. Например, номер квартиля равен 20, его значение будет равно значению признака с S =20 (накопленной частотой равной 20).
Если номер квартиля – нецелое число, то квартилем будет условное число между двумя наблюдениями. Значением квартиля будет сумма, состоящая из значения элемента, для которого накопленная частота равна целому значению номера квартиля, и указанной части (нецелая часть номера квартиля) разности между значением этого элемента и значением следующего элемента.
Например, если номер квартиля равна 20,25, квартиль попадает между 20-м и 21-м наблюдениями, и его значение будет равно значению 20-го наблюдения плюс 1/4 (0,25) разности между значением 20-го и 21-го наблюдений.
Пример. Найти третий квартиль
Заработная плата рабочего, тыс.руб; | бригада 1 | бригада 2 | |
| | | |
| |||
| |||
Итого: |
1) Определяем номер 3-го квартиля
для первой бригады ;
для второй бригады ,75;
2) Для первой бригады номер квартиля – целое число. Следовательно, нужно найти элемент совокупности, для которого накопленная частота S равна номеру квартиля. Для этого определяем самую первую накопленную частоту, которая больше или равна номеру квартиля. Это накопленная частота второго значения признака Хi=18, Si=57.
Определяем значение третьего квартиля для первой бригады :Q3 = x57 = 18 тыс.руб.
Это значит, что заработная плата 75% рабочих 1-ой бригады менее 18 тыс.руб
Определяем их значение с помощью самой первой накопленной частоты большей или равной порядковым номерам элементов (57 и 58). Х57= 18, х58= 20.
Теперь определяем значение 3-го квартиля для второй бригады:
Это значит, что заработная плата 75% рабочих второй бригады менее 19,5 тыс.руб.
Расчет квартилей для интервального ряда:
Для расчета квартилей для интервального ряда
1. Определяем номер квартиля по тем же формулам, что и для дискретного ряда,
2. Определяем квартильный интервал по накопленной частоте. Это первый интервал, для которого накопленная частота будет больше или равна номеру квартиля.
3. Рассчитываем квартиль по формуле:
— нижняя граница интервала, содержащего квартиль. Интервал определяется по накопленной частоте интервалов,
— ширина интервала, содержащего квартиль,
— накопленная частота интервала, предшествующего интервалу, содержащему квартиль,
— частота интервала, содержащего квартиль.
Пример. Найти первый квартиль для интервального ряда.
Возрастные группы | Число студентовf | Накопленная частота S |
До 20 лет | ||
20 — 25 | ||
25 — 30 | ||
30 — 35 | ||
35 — 40 | ||
40 — 45 | ||
45 лет и более | ||
Итого |
1. Определяем номер первого квартиля по формуле
2. Первый квартиль находится в возрастной группе 20-25 лет, так как это первый интервал, для которого накопленная частота больше (или равна) номера квартиля (346 865,75).
3. Определяем первый квартиль по формуле
4.
Это значит, что четверть студентов младше 22,98 лет.
Что такое квартиль и где его искать: навигация по базам данных Web of Science и Scopus
Квартиль — это категория научных журналов, определяемая библиометрическими показателями, отражающими уровень цитируемости, то есть востребованности журнала научным сообществом. В результате ранжирования каждый журнал попадает в один из четырёх квартилей: от Q1 (самого высокого) до Q4 (самого низкого). Наиболее авторитетные журналы принадлежат, как правило, к первым двум квартилям — Q1 и Q2. Для определения квартиля журнала используются следующие показатели: импакт-фактор Journal Citation Reports (JCR) — для базы данных Web of Science (WoS), индексирующей около 12500 журналов, и SCIMago Journal Rank (SJR) — для базы данных Scopus, индексирующей около 21000 журналов, в том числе подавляющее большинство журналов, индексируемых WoS.
Импакт-фактор, или JCR — показатель цитируемости, рассчитываемый на основе годового количества ссылок на статьи, опубликованные в журнале за предшествующие два года. Например, импакт-фактор журнала за 2012 год определяется как отношение числа ссылок из всех публикаций во всех индексируемых WoS журналах, вышедших в 2012 году, на публикации, вышедшие в данном журнале в 2010–2011 годах, к числу публикаций в данном журнале за 2010–2011 годы. Официальное определение и принцип расчёта импакт-фактора приведены на сайте Web of Knowledge. Рейтинг журналов по импакт-фактору публикуется ежегодно в базе отчётов Journal Citation Reports (JCR), входящей в состав системы Web of Knowledge (доступна со всех компьютеров ВШЭ по адресу isiknowledge.com).
Импакт-фактор был разработан в 1960-е годы американским Институтом научной информации (Institute for Scientific Information, ныне Thomson Scientific в составе медиакомпании Thomson Reuters) для сопоставления близких по тематике журналов и не даёт возможности сравнивать журналы из разных научных областей. Для многих журналов из области гуманитарных наук официальный импакт-фактор не публикуется; для оценки публикаций в таких журналах будет применяться SJR.
SCIMago Journal Rank (SJR) (сегодня используется вторая версия этого индикатора, известная как SJR2) — значительно более сложно рассчитываемый по сравнению с импакт-фактором показатель, учитывающий наряду с цитируемостью степень авторитетности журналов, ссылающихся на данный журнал (так, ссылка из Nature «весит» больше, чем аналогичная ссылка из малоизвестного издания), а также близость их тематики. Официальное определение и порядок расчёта SJR приведены здесь. Рейтинг журналов по SJR публикуется ежегодно на интернет-платформе SCIMago Journal Ranking.
SJR был разработан в 2000-х годах исследовательской группой SCImago испанского Университета Гранады на основе базы данных Scopus, принадлежащей одному из крупнейших издательских домов мира — Elsevier. В отличие от импакт-фактора SJR охватывает более широкий спектр журналов и публикуется в открытом доступе (доступен с любых компьютеров по адресу scimagojr.com).
Импакт-фактор и SJR рассчитываются только для тех журналов, которые индексируются в базах достаточное время для их расчёта. Журналы, включённые в базы недавно (менее четырёх лет назад — для Web of Science и один-два года назад — для Scopus), этих показателей ещё не имеют.
Тематические категории
Все журналы в Web of Science и Scopus приписаны к тематическим категориям (научным областям). В Web of Science их около 250, в Scopus — около 350; при этом классификаторы баз по некоторым позициям не совпадают. Журналы в пределах одной тематической категории ранжируются по величине импакт-фактора или SJR, в результате чего попадают в тот или иной квартиль.
И в той, и в другой базе один журнал может быть приписан одновременно к нескольким тематическим категориям. В обеих базах возможна ситуация, когда журнал с несовпадающими значениями импакт-фактора JCR или SJR в разных тематических категориях попадает в разные квартили по разным категориям.
Как найти импакт-фактор, SJR и квартиль журнала?
В SCImago JR (Scopus):
В Journal Citation Reports (Web of Science):
Как найти ведущие журналы в своей тематической категории?
Для того чтобы найти ведущие журналы в своей тематической категории, нужно предпринять следующие шаги:
В SCImago JR (Scopus):
В Journal Citation Reports (Web of Science):
Материал предоставлен Управлением академических исследований и Управлением академической экспертизы.