Elettracompany.com

Компьютерный справочник
95 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Квартиль в excel

Квартили и интерквартильный интервал (IQR) в EXCEL

Для вычисления квартилей в MS EXCEL существует специальная функция КВАРТИЛЬ() . В этой статье дадим определение квартилей и научимся их вычислять для выборки и для непрерывного распределения. Также вычислим интерквартильный интервал.

Квартили (Quartiles) — значения, которые делят выборку (набор значений) на четыре части, содержащие приблизительно равное количество наблюдений (по 25%).

Поясним определение квартиля на примере. Пусть имеется выборка , состоящая из 50 значений в ячейках А7:А56 (см. файл примера , лист Квартиль-выборка). Для наглядности отсортируем значения по возрастанию и построим гистограмму .

Чтобы разделить выборку на 4 части достаточно 3-х квартилей .

Первый квартиль (или нижний квартиль , Q1) делит выборку , на 2 части: примерно 25% значений в выборке меньше Q1, остальные 75% — больше. Для вычисления 1-го квартиля используйте формулу =КВАРТИЛЬ.ВКЛ(A7:A56;1) . Для нашей выборки формула вернет значение 224. Значения 224 нет в выборке , формула произвела интерполяцию на основе 2-х соседних значений 223 и 227.

Примечание : Функция КВАРТИЛЬ.ВКЛ() появилась в MS EXCEL 2010. В более ранних версиях использовалась аналогичная ей функция КВАРТИЛЬ() .

Чтобы убедиться, что примерно 25% значений меньше, чем 224, используем формулу =СЧЁТЕСЛИ(A7:A56;» 2 ), получим, что медиана (2-й квартиль ) вычисляется по формуле e μ или в MS EXCEL =EXP(μ). При μ=1, медиана равна 2,718.

Обратите внимание на точку Функции распределения , для которой F(х)=0,5 (см. картинку выше или файл примера , лист Квартиль-распределение) . Абсцисса этой точки равна 2,718. Это и есть значение 2-го квартиля ( медианы ), что естественно совпадает с ранее вычисленным значением по формуле e μ .

Примечание : Напомним, что интеграл от функции плотности вероятности по всей области задания случайной величины равен единице:

Поэтому, линии квартилей ( х=квартиль ) делят площадь под графиком функции плотности вероятности на 4 равные части.

Квартили в MS EXCEL

Чтобы вычислить в MS EXCEL квартили заданного распределения необходимо использовать соответствующую обратную функцию распределения .

При вычислении квартилей в MS EXCEL используются обратные функции распределения : НОРМ.СТ.ОБР() , ЛОГНОРМ.ОБР() , ХИ2.ОБР() , ГАММА.ОБР() и т.д. Подробнее о распределениях, представленных в MS EXCEL, можно прочитать в статье Распределения случайной величины в MS EXCEL .

Например, в MS EXCEL 1-й квартиль для логнормального распределения LnN(1;1) можно вычислить по формуле =ЛОГНОРМ.ОБР(0,25;1;1) , а 3-й квартиль для стандартного нормального распределения по формуле =НОРМ.СТ.ОБР(0,75) .

КВАРТИЛЬ: какие формулы расчета использует Excel

Квартиль — одна из статистик, используемая при описании выборок (подробнее о различных статистиках см. Определение среднего значения, вариации и формы распределения. Описательные статистики). В то время как медиана разделяет упорядоченный массив пополам, квартили разбивают набор данных на четыре части. Первый квартиль – это число, разделяющее выборку на две части: 25% элементов меньше, а 75% — больше значения первого квартиля. Третий квартиль — это число, разделяющее выборку также на две части: 75% элементов меньше, а 25% — больше третьего квартиля.

Рис. 1. 5-числовые сводки: М – медиана, Н1 и Н2 – сгибы (они же квартили)

Скачать заметку в формате Word или pdf, примеры в формате Excel (файл содержит код VBA).

Для расчета квартилей в Excel2007 и более ранних версиях использовалась функция КВАРТИЛЬ. Начиная с версии Excel2010 применяются две функции: КВАРТИЛЬ.ВКЛ и КВАРТИЛЬ.ИСКЛ (функция КВАРТИЛЬ оставлена для совмещения с более ранними версиями Excel; эта функция возвращает те же значения, что и КВАРТИЛЬ.ВКЛ). Эти две функции возвращают различные значения, но я нигде не нашел, какой алгоритм они используют при расчетах. Замечу, что для корректной работы функций данные можно не упорядочивать.

Изучение литературы показало, что в отличие от большинства других статистик, единодушия в методике расчета квартилей нет)) Я нашел упоминание о девяти различных подходах…

Начнем с метода Джона Тьюки, описанного им в, уже ставшем классическом, труде Анализ результатов наблюдений. Разведочный анализ, изданном в 1977 г. Он начинает с введения трех сводок, характеризующих выборку: минимальное, максимальное значения и медиана. Далее он продолжает: «Если мы хотим добавить еще два числа, чтобы образовать 5-числовую сводку, то естественно определять их подсчетом до половины расстояния от каждого из концов к медиане. Процесс нахождения медианы, а затем и этих новых значений можно представить себе, как складывание листа бумаги. Поэтому эти новые значения естественно назвать сгибами» (англ. – hinge; рис. 1). Мы их называем квартилями.

Такие рисунки выглядят очень аккуратно, если число элементов выборки N = 4k + 1, например, 9, 13, 17… Но как быть, если в выборке 12 или 19 элементов? Наглядную картину представил Jon Peltier в серии заметок в своем блоге. Упорядочим элементы случайной выборки и разместим их над линейкой (рис. 2; случайная выборка, элементы которой упорядочены называется вариационным рядом). Серые числа под линейкой – индекс ряда (Джон зачем-то в качестве выборки – над линейкой – взял ряд целых чисел; наверное, чтобы запутать нас). Красное число над рядом – значение сводки; если оно дробное, значит полученное значение является интерполяцией между соседними значениями. Мы определяем медиану, как среднее значение набора данных, а первую квартиль – как медиану нижней половины данных.

Рис. 2. Инклюзивные квартили

Когда Джон Тьюки впервые предложил такой подход, он решил, что медиана (если число элементов в выборке нечетное) должна быть включена как в нижнюю (левую на рисунке), так и в верхнюю половинку данных при определении медиан этих половинок, то есть сгибов. Поэтому такой подход и называется инклюзивным (с включением).

Эксклюзивный подход. Некоторым статистикам не нравится, что медиана учитывается дважды. Они решили, что сгибы должны быть определены как медианы верхней и нижней половин набора данных, из которых срединное значение исключено (рис. 3). Такой взгляд отстаивали Moore и McCabe, или кратко M&M. Если набор данных содержит четное количество значений, инклюзивные и эксклюзивные квартили равны, так как нет элемента выборки (соответствующего центральной медиане), который можно было бы включить или исключить из рассмотрения. Для нечетного числа элементов, инклюзивные сгибы всегда ближе к медиане.

Рис. 3. Эксклюзивные квартили

Третий подход – компромисс между Тьюки и М&M – называется Эмпирическая функции распределения или Интегральная функция распределения (английская аббревиатура CDF). В случае нечетного числа значений в наборе данных, следует включить или исключить медиану, ориентируясь на то, чтобы оставшиеся половинки содержали нечетное число элементов. Например, если в выборке 9 элементов, медиану следует включить, а при 11 элементах – исключить. В обоих случаях половинки будут содержать по 5 элементов. Преимущество этого компромисса заключается в том, что в качестве значения квартиля всегда получается один из элементов набора данных (а не среднее значение двух соседних элементов). CDF является методом по умолчанию в статистическом пакете SAS.

Читать еще:  Excel vba вызов формы

Все возможные случаи N. Мы не всегда можем изобразить данные в W-образной форме, как на рис. 1, поэтому удобнее пользоваться линейкой. В общем случае возможны четыре варианта по числу элементов в выборке: N = 4k, N = 4k + 1, N = 4k + 2, N = 4k + 3… и три подхода к расчету квартилей: Тьюки, M&M, CDF (рис. 4–7).

Рис. 4. Число элементов в выборке N = 4k; все три метода дают одинаковые значения квартилей

Рис. 5. Число элементов в выборке N = 4k + 1; M&M дает значения, отстоящие дальше от медианы

Рис. 6. Число элементов в выборке N = 4k + 2; все три метода дают одинаковые значения квартилей

Рис. 7. Число элементов в выборке N = 4k + 3

Методы интерполяции. Помимо трех описанных выше методов, применяют и целый ряд индексных алгоритмов. Мы рассмотрим три из них. Первый индекс во всех методах равен 0, а последний – N–1, N, N + 1. Например, для N=8 индексированные ряды представлены на рис. 8.

Рис. 8. Индексные ряды на основе N–1, N и N + 1 для N = 8

Положение перцентиля р – доля длины индексной линии, или р(N–1), рN, р(N+1), соответственно. р = 0,25 соответствует первому квартилю, а р = 0,75 – третьему. Ниже наглядно представлен расчет квартилей при различном числе элементов в выборке и трех методах интерполяции на основе N–1, N и N + 1 (рис. 9, 11–13). Обратите внимание, что рассчитанные числа (по формулам справа от линеек) являются не значениями квартилей, а значениями индексов квартилей. Над линейками показано значение квартилей для ряда значений <1, 2, 3, 4, 5, 6, 7, 8>.

Рис. 9. Число элементов в выборке N = 4k

Если, например, наша выборка <2, 3, 5, 8, 11, 12, 14, 17>, то расчет квартилей на основе N–1-метода даст индексы 1,75, 3,5 и 5,25, и значения квартилей 4,5, 9,5 и 12,5 (рис. 10).

Рис. 10. От индексов к значениям квартилей для N–1-метода и N = 4k

Рис. 11. Число элементов в выборке N = 4k + 1

Рис. 12. Число элементов в выборке N = 4k + 2

Рис. 13. Число элементов в выборке N = 4k + 3

Какой алгоритм считать стандартным для вычисления квартилей?

В 1996 году Роб Дж. Хиндман и Янан Фан опубликовали статью в American Statistician под названием Квантили выборок в статистических пакетах. В ней они рассматривали различные алгоритмы расчета квантилей (квартили – это частный случай квантилей). Их целью было указать методологию, которая могла бы стать стандартом для поставщиков статистического программного обеспечения, чтобы расчет квартилей не зависел от типа пакета. В статье они описали девять методов для расчета квантилей. Таблица показывает некоторые статистические пакеты и используемые в них алгоритмы (рис. 14; таблица, этот раздел заметки и код VBA ниже базируются на тексте с сайта Bacon Bits). Обратите внимание, что R и Maple применяют весь спектр алгоритмов.

Рис. 14. Алгоритмы, используемые в статистических пакетах

Кстати, Хиндман и Фан в завершении своей статьи рекомендовали метод 8 в качестве стандарта для статистических пакетов. По их мнению, этот метод оценки квантиля не зависит от распределения, что делает его наиболее приемлемым для расчета.

Расчет квартилей в Excel

Функция Excel КВАРТИЛЬ.ИСКЛ использует следующую формулу для расчета квартилей:

где Qpp-й квантиль: p = 0 – для минимального значения, 0,25 – для первого квартиля, 0,5 – для медианы, 0,75 – для третьего квартиля, 1 – для максимального значения;

x – индекс квантиля (может быть дробным); x = (n+1)p, где n – число элементов в выборке; обратите внимание на (n+1), поэтому метод и называется N+1-интерполяция;

i – индекс элемента в упорядоченной выборке; самое большое целое всё еще меньшее, чем x;

Формула для КВАРТИЛЬ.ВКЛ отличается только методом расчета х: x = (n-1)p+1; обратите внимание на (n–1), поэтому метод называется N–1-интерполяция. Подробнее с работой формул можно ознакомиться в приложенном Excel-файле на листе Формулы.

Расчет квартилей в R и SAS

Функция quantile в R использует все девять алгоритмов расчета квантилей, в соответствии с нумерацией, предложенной Hyndman and Fan в работе 1996 г. (рис. 15; если вы не знакомы с R, рекомендую начать с Алексей Шипунов. Наглядная статистика. Используем R!). Квантиль при i-м методе расчета:

где i – номер метода, 1 ≤ i ≤ 9, (j–m)/n ≤ p = 0 And i

Квартиль в excel

Математическая статистика подразделяется на две основные области: описательную и аналитическую статистику. Описательная статистика охватывает методы описания статистических данных, представления их в форме таблиц, распределений.

Аналитическая статистика или теория статистических выводов ориентирована на обработку данных, полученных в ходе эксперимента, с целью формулировки вы­водов, имеющих прикладное значение для самых различных областей человече­ской деятельности.

1. Характеристика пакета Excel

Пакет Excel оснащен средствами статистической обработки данных. И хотя Excel существенно уступает специализированным статистическим пакетам обработки данных, тем не менее этот раздел математики представлен в Excel наиболее полно. В него включены основные, наиболее часто используемые статистические проце­дуры: средства описательной статистики, критерии различия, корреляционные и другие методы, позволяющие проводить необходимый статистический анализ эко­номических, психологических, педагогических и медико-биологических типов данных.

Каждая единица информации занимает свою собственную ячей­ку (клетку) в создаваемой рабочей таблице. В каждой рабочей таблице 256 столбцов (из которых в новой рабочей таблице на экране видны, как правило, только первые 10 или 11 (от А до J или К) и 65 536 строк (из которых обычно видны только первые 15-20). Каждая новая рабочая книга содержит три чистых листа рабочих таблиц.

Вся помещаемая в электронную таблицу информация хранится в от­дельных клетках рабочей таблицы. Но ввести информацию можно только в текущую клетку. С помощью адреса в строке формул и табличного курсора Excel ука­зывает, какая из клеток рабочей таблицы является те­кущей. В основе системы адресации клеток рабочей таблицы лежит комбинация буквы (или букв) столбца и номера строки, например A 2, B 12.

При рассмотрении применения методов обработки статистических данных в данной лабораторной работе огра­ничимся только простейшими и наиболее часто описательными статистиками, реали­зованными в мастере функций Excel .

2 Использование специальных функций

В мастере функций Excel имеется ряд специальных функций, предназначенных для вычисления выборочных характеристик.

Функция СРЗНАЧ вычисляет среднее арифметическое из нескольких массивов (аргументов) чисел. Аргументы число1, число2, . — это от 1 до 30 массивов для которых вычисляется среднее.

Функция МЕДИАНА позволяет получать медиану заданной выборки. Медиана — это элемент выборки, число элементов выборки со значениями больше которого и меньше которого равно.

Функция МОДА вычисляет наиболее часто встречающееся значение в выборке.

Функция ДИСП позволяет оценить дисперсию по выборочным данным.

Функция СТАНДОТКЛОН вычисляет стандартное отклонение.

Функция ЭКСЦЕСС вычисляет оценку эксцесса по выборочным данным.

Функция СКОС позволяет оценить асимметрию выборочного распределения.

Функция КВАРТИЛЬ вычисляет квартили распределения. Функция имеет формат КВАРТИЛЬ(массив, значение), где массив – интервал ячеек, содержащих значения СВ; значение определяет какая квартиль должна быть найдена (0 – минимальное значение, 1 – нижняя квартиль, 2 – медиана, 3 – верхняя квартиль, 4 – максимальное значение распределения).

Читать еще:  Размер ячеек в excel

Пример 1. Провести статистический анализ методом описательной статистики доходов населения в регионе 1 и регионе 2.

Задания для самостоятельной работы

1. Наблюдение посещаемости четырех внеклассных мероприятий в экспериментальном (20 человек) и контрольном (30 человек) классах дали значения (соответственно): 18, 20, 20, 18 и 15, 23, 10, 28. Требуется найти среднее значение, стандартное отклонение, медиану и квартили этих данных.

2. Найти среднее значение, медиану, стандартное отклонение и квартили результатов бега на дистанцию 100 м у группы студентов (с): 12,8; 13,2; 13,0; 12,9; 13,5; 13,1.

3. Определите верхнюю и нижнюю квартиль, выборочную асимметрию и эксцесс для данных измерений роста групп студенток: 164, 160, 157, 166, 162, 160, 161, 159, 160, 163, 170, 171.

4. Найти наиболее популярный туристический маршрут из четырех реализуемых фирмой, если за неделю последовательно были реализованы следующие маршруты: 1, 3, 3, 2, 1, 1, 4, 4, 2, 4, 1, 3, 2, 4, 1, 4, 4, 3, 1, 2, 3, 4, 1, 1, 3.

3. Использование инструмента Пакет анализа

В пакете Excel помимо мастера функций имеется набор более мощных инструментов для работы с несколькими выборками и углубленного анализа данных, называемый Пакет анализа, который может быть использован для решения задач статистической обработки выборочных данных.

Для установки пакета Анализ данных в Excel сделайте следующее:

— в меню Сервис выберите команду Надстройки;

— в появившемся списке установите флажок Пакет анализа.

Для использования статистического пакета анализа данных необходимо:

  • указать курсором мыши на пункт меню Сервис и щелкнуть левой кнопкой мыши;
  • в раскрывающемся списке выбрать команду Анализданных (если команда Анализ данных отсутствует в меню Сервис, то необходимо установить в Excel пакет анализа данных);
  • выбрать строку Описательнаястатистика и нажать кнопку Оk
  • в появившемся диалоговом окне указать входной интервал, то есть ввести ссылки на ячейки, содержащие анализируемые данные;
  • указать выходной интервал, то есть ввести ссылку на ячейку, в которую будут выведены результаты анализа;
  • в разделе Группирование переключатель установить в положение по столбцам или по строкам;
  • установить флажок в поле Итоговая статистика и нажать Ок.

Задание для самостоятельной работы

1. В рабочей зоне производились замеры концентрации вредного вещества. Получен ряд значений (в мг./м 3 ): 12, 16, 15, 14, 10, 20, 16, 14, 18, 14, 15, 17, 23, 16. Необходимо определить основные выборочные характеристики.

Квартиль 2020

Table of Contents:

Что такое «квартиль»

Квартал — это статистический термин, описывающий разделение наблюдений на четыре определенных интервала, основанные на значениях данных и их сравнении со всем набором наблюдений ,

Старайтесь не путать четверть с квартикой.

BREAKING DOWN ‘Quartile’

Чтобы понять квартиль, важно понять медиану как меру центральной тенденции. Медиана в статистике — это среднее значение набора чисел. Это точка, в которой ровно половина данных лежит ниже и выше центрального значения. Итак, учитывая набор из 13 чисел, медиана будет седьмым числом. Шесть чисел, предшествующих этому значению, являются наименьшими числами в данных, а шесть чисел после медианы являются наивысшими числами в приведенном наборе данных. Поскольку медиана не зависит от экстремальных значений или выбросов в распределении, иногда это бывает предпочтительнее среднего.

В то время как медиана является надежной оценкой местоположения, она ничего не говорит о том, как данные по обе стороны от ее значения распространяются или распределяются. Квартал измеряет распространение значений выше и ниже среднего, разделив распределение на четыре группы. Точно так же, как медиана делит данные на половину, так что 50% измерения лежит ниже медианы и 50% лежит над ней, квартиль разбивает данные на четверти, так что 25% измерения меньше, чем нижняя квартиль, 50 % меньше среднего, а 75% меньше, чем верхний квартиль.

Квартал делит данные на три точки — более низкий квартиль, медианный и верхний квартиль — для формирования четырех групп набора данных. Нижняя квартиль или первый квартиль обозначаются как Q1, а среднее число находится между наименьшим значением набора данных и медианной. Второй квартиль Q2 также является медианным. Верхний или третий квартиль, обозначенный как Q3, является центральной точкой, которая находится между медианным и наибольшим числом распределения. Теперь мы можем отобразить четыре группы, сформированные из квартилей. Первая группа значений содержит наименьшее число до Q1; вторая группа включает Q1 в медиану; третий набор является медианным для Q3; и четвертая категория включает Q3 в самую высокую точку данных всего набора.

Каждый квартиль содержит 25% от общего количества наблюдений. Как правило, данные распределяются от самых маленьких до крупнейших, причем эти наблюдения падают ниже 25% от всех проанализированных данных, выделенных в 1-м квартиле, наблюдения падают между 25. 1% и 50% и распределяются во 2-м квартиле, тогда наблюдения падают между 51% и 75% выделены в 3-м квартиле и, наконец, остальные наблюдения, выделенные в 4-м квартиле.

Пример квартили

Давайте работать с примером.Предположим, что распределение математических баллов в классе из 19 учеников в порядке возрастания:

59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84 , 87, 90, 95, 98

Сначала отметьте медианную Q2, которая в этом случае будет десятым значением — 75.

Q1 — это центральная точка между наименьшим и средним. В этом случае Q1 падает между первым и девятым баллами — 68. [Обратите внимание, что медиана также может быть включена при вычислении Q1 или Q3 для нечетного набора значений. Если бы мы включили медиану по обе стороны от средней точки, то Q1 будет средним значением между первым и десятым баллами, что является средним значением пятого и шестого балла — (пятый + шестой) / 2 = (68 + 69) / 2 = 68. 5].

Q3 — среднее значение между Q2 и самым высоким счетом — 84. [Или если вы включаете медиану, Q3 = (82 + 84) / 2 = 83].

Теперь, когда у нас есть наши квартили, давайте интерпретировать их числа. Оценка 68 (Q1) представляет первый квартиль и является 25 th процентилем. 68 — медиана нижней половины балла, установленного в доступных данных i. е. медиана баллов от 59 до 75. Q1 говорит нам, что 25% баллов меньше 68 и 75% баллов в классе больше. Q2 (медиана) — это 50 th процентиль и показывает, что 50% баллов меньше 75, а 50% баллов выше 75. Наконец, Q3, 75 th Если точка данных для Q1 находится дальше от медианной, чем Q3, от медианной, то можно сказать, что существует большая дисперсия среди меньших значений набора данных, чем среди больших значений. Такая же логика применяется, если Q3 находится дальше от Q2, чем Q1 от медианы.

Читать еще:  Виды ссылок в excel

Если существует четное количество точек данных, медиана будет средним числом средних двух чисел. В нашем примере выше, если бы у нас было 20 учеников вместо 19, медиана их баллов будет средним арифметическим для десятого и одиннадцатого чисел.

Квартилы используются для расчета межквартильного диапазона, который является мерой изменчивости вокруг медианы. Межквартильный диапазон просто вычисляется как разница между первым и третьим квартилями: Q3 — Q1. По сути, это диапазон средней половины данных, который показывает, насколько распространены данные.

Для больших наборов данных Microsoft Excel может использоваться для вычисления квартилей с помощью функции QUARTILE.

CFA — Квартили, квинтили, децили и процентили.

Рассмотрим квантили (т.е. квартили, квинтили, децили и процентили), — наиболее часто используемые меры положения данных в распределении, — в рамках изучения количественных методов по программе CFA.

Обсудив меры центральной тенденции, рассмотрим подход к описанию положения статистических данных, который включает в себя определение пороговых значений, в пределах которых лежат указанные пропорции данных.

Например, установление того, что 25, 50 и 75% годовой доходности портфеля лежат в пределах (то есть не выше) значений -0,05, 0,16 и 0,25 соответственно, дает краткую информацию о распределении доходности портфеля.

Статистики используют слово квантиль (или фрактиль от англ. ‘quantile’, ‘fractile’) как наиболее общий термин для порогового значения не выше которого (то есть равно или ниже) которого лежит указанная часть данных. Далее мы опишем наиболее часто используемые квантили — квартили, квинтили, децили и процентили — и их применение в инвестициях.

Мы знаем, что медиана делит распределение пополам. Мы можем определить другие разделительные линии, которые разбивают распределение на меньшие части.

Квартили (англ. ‘quartiles’) делят распределение на четверти, квинтили (англ. ‘quintiles’) — на 5 частей, децили (англ. ‘deciles’) — на 10 частей и процентили (англ. ‘percentiles’) — на 100.

При заданном наборе наблюдений y-й процентиль — это значение, не выше которого лежит у процентов наблюдений. Процентили используются часто, и на основе их могут быть определены другие меры.

Например, первый квартиль (Q1) делит распределение так, что 25 процентов наблюдений лежат не выше него; следовательно, 1-й квартиль также является 25-м процентилем.

Второй квартиль (Q2) представляет 50-й процентиль, а третий квартиль (Q3) представляет 75-й процентиль, потому что 75 процентов наблюдений лежат не выше него.

Имея дело с фактическими данными, мы часто обнаруживаем, что нам нужно найти приблизительное значение процентиля. Например, если нас интересует значение 75-го процентиля, мы можем обнаружить, что ни одно наблюдение не разделяет выборку так, что ровно 75 процентов наблюдений лежат не выше этого значения.

Следующая процедура, однако, может помочь нам определить или оценить процентиль. Процедура включает в себя сначала определение положения процентиля в наборе наблюдений, а затем определение (или оценку) значения, связанного с этой позицией.

Пусть Py будет значением, не выше которого лежит y-процент распределения, или y-й процентиль. (Например, P18 — это точка, не выше которой лежат 18% наблюдений).

Формула для позиции процентиля в массиве из n записей, отсортированных по возрастанию:

Ly = (n + 1) y / 100 (формула 8)

где y — это процентная точка, в которой мы делим распределение на части, а Ly — местоположение (L) процентиля (Py) в массиве, отсортированном в порядке возрастания. Значение Ly может быть или не быть целым числом. Как правило, по мере увеличения размера выборки результат расчета положения в процентилях становится более точным; в небольших выборках он может быть весьма приблизительным.

В качестве примера случая, когда Ly не является целым числом, предположим, что мы хотим определить 3-ий квартиль доходности за 2012 год (Q3 или P75) для 16 европейских фондовых рынков, представленных в Таблице 8.

В соответствии с Формулой 8 позиция третьего квартиля имеет вид L75 = (16 + 1) (75/100) = 12.75 или между 12-м и 13-м позициями в Таблице 9, в которой доходность представлена в порядке возрастания.

12-й пункт в Таблице 9 — это доходность рынка акций Франции в 2012 году: 15.90%.

13-й пункт — это доходность акций в Австрии в 2012 году: 20.72%.

Определив «0.75» как «12.75», мы пришли бы к выводу, что P75 находится на 75% расстояния между 15.90% и 20.72%.

Подведем итоги:

1) Когда позиция Ly представляет собой целое число, она соответствует фактическому наблюдению. Например, если бы Дания не была включена в выборку, то n + 1 было бы равно 16, а при L75 = 12 третий квартиль был бы P75 = X12, где Xi определяется как значение наблюдения в i-й (i = L75) позиции данных, отсортированных в порядке возрастания (т. е. P75 = 15.90).

2) Когда Ly не является целым числом, Ly лежит между двумя ближайшими целыми числами (одно сверху и одно снизу), и мы используем линейную интерполяцию между этими двумя положениями для определения Py. Интерполяция означает оценку неизвестного значения на основе двух известных значений, которые его окружают (лежат над и под ним); термин «линейный» относится к линейной оценке.

Возвращаясь к расчету P75 для доходности капитала, мы обнаружили, что Ly = 12.75; следующее более низкое целое число равно 12, а следующее более высокое целое число равно 13.

Используя линейную интерполяцию, находим:

Как указано выше, на 12-й позиции находится доходность акций Франции, поэтому X12 = 15.90%; X13 = 20.72%, что соответствует доходности акций Австрии.

Таким образом, наша оценка методом линейной интерполяции составит:

P75 ≈ X12 + (12.75 — 12)(X13 — X12) = 15.90 + 0.75 [20.72 — 15.90] = 15.90 + 0.75(4.82) = 15.90 + 3.62 = 19.52%.

Значения 15,90 и 20,72 ограничивают Р75 снизу и сверху соответственно. Поскольку 12.75 — 12 = 0.75, используя линейную интерполяцию, мы смещаем 75 процентов в диапазоне от 15,90 до 20,72 при нашей оценке P75.

Мы следуем этой схеме всякий раз, когда Ly не является целым числом: ближайшие целые числа ниже и выше Ly устанавливают позиции наблюдений, которые ограничивают Py, а затем используются для интерполяции.

Пример, приведенный ниже иллюстрирует расчет различных квантилей для дивидендной доходности компонентов основного европейского индекса акций.

Пример расчета процентилей, квартилей и квинтилей.

EURO STOXX 50 — это индекс 50 публичных компаний, который образуют «голубую фишку» лидеров суперсекторов экономики в еврозоне. Таблица 17 показывает рыночную капитализацию акций для 50 компонентов индекса STOXX Ltd. в сентябре 2013 года.

Рыночная капитализация ранжируется в порядке возрастания.

Ссылка на основную публикацию
ВсеИнструменты 220 Вольт
Adblock
detector
×
×