Вычисление среднего, медианы и моды в Python

Введение Когда мы пытаемся описать и обобщить выборку данных, мы, вероятно, начинаем с нахождения среднего [https://en.wikipedia.org/wiki/Mean] (или среднего), медианы [https: // en .wikipedia.org / wiki / Median] и режим [https://en.wikipedia.org/wiki/Mode_(statistics)] данных. Это центральная тенденция [https://en.wikipedia.org/wiki/Central_tendency] меры и часто первый взгляд на набор данных. В этом руководстве мы узнаем, как найти или вычислить среднее значение, медиану,

Вступление

Когда мы пытаемся описать и обобщить выборку данных, мы, вероятно, начинаем с нахождения среднего (или среднего), медианы и режима данных. Это основные меры тенденций, которые часто являются нашим первым взглядом на набор данных.

В этом руководстве мы узнаем, как найти или вычислить среднее значение, медиану и режим в Python. Сначала мы закодируем функцию Python для каждой меры, а затем воспользуемся statistics Python для выполнения той же задачи.

Обладая этими знаниями, мы сможем быстро взглянуть на наши наборы данных и получить представление об общей тенденции данных.

Оглавление

Расчет среднего значения выборки

Если у нас есть выборка числовых значений, то ее среднее или среднее

  • это общая сумма значений (или наблюдений), деленная на количество значений.

Допустим, у нас есть образец [4, 8, 6, 5, 3, 2, 8, 9, 2, 5] . Мы можем вычислить его среднее значение, выполнив операцию:

(4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10 = 5,2

Среднее арифметическое - это общее описание наших данных. Предположим, вы купили 10 фунтов помидоров. Если пересчитать дома помидоры, получится 25 помидоров. В этом случае вы можете сказать, что средний вес помидора составляет 0,4 фунта. Это было бы хорошее описание ваших помидоров.

Среднее также может быть плохим описанием выборки данных. Допустим, вы анализируете группу собак. Если вы возьмете совокупный вес всех собак и разделите его на количество собак, то это, вероятно, будет плохим описанием веса отдельной собаки, поскольку разные породы собак могут иметь очень разные размеры и вес.

Насколько хорошо или плохо среднее значение описывает выборку, зависит от того, насколько разбросаны данные. В случае помидоров, они почти одинакового веса, и среднее значение является хорошим их описанием. В случае с собаками нет актуальных собак. Они могут варьироваться от крошечного чихуахуа до гигантского немецкого мастифа. Итак, среднее само по себе в данном случае не очень хорошее описание.

Теперь пора приступить к делу и узнать, как вычислить среднее значение с помощью Python.

Расчет среднего с помощью Python

Чтобы вычислить среднее значение выборки числовых данных, мы будем использовать две встроенные функции Python. Один для вычисления общей суммы значений, а другой для вычисления длины выборки.

Первая функция - это sum() . Эта встроенная функция принимает итерацию числовых значений и возвращает их общую сумму.

Вторая функция - len() . Эта встроенная функция возвращает длину объекта. len() может принимать в качестве аргумента последовательности (строка, байты, кортеж, список или диапазон) или коллекции (словарь, набор или замороженный набор).

Вот как мы можем вычислить среднее значение:

 >>> def my_mean(sample): 
 ... return sum(sample) / len(sample) 
 ... 
 
 >>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5]) 
 5.2 

Сначала мы суммируем значения в sample используя sum() . Затем мы делим эту сумму на длину sample , которая является результирующим значением len(sample) .

Использование Python mean ()

Поскольку вычисление среднего - это обычная операция, Python включает эту функцию в модуль statistics Он предоставляет некоторые функции для расчета базовой статистики по наборам данных. Функция statistics.mean() берет образец числовых данных (любых итерируемых) и возвращает их среднее значение.

Вот как работает функция mean() Python:

 >>> import statistics 
 
 >>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5]) 
 5.2 

Нам просто нужно импортировать statistics а затем вызвать mean() с нашим образцом в качестве аргумента. Это вернет среднее значение выборки. Это быстрый способ найти среднее значение с помощью Python.

Нахождение медианы выборки

Медиана выборки числовых данных - это значение, которое находится посередине при сортировке данных. Данные могут быть отсортированы по возрастанию или убыванию, медиана остается прежней.

Чтобы найти медиану, нам необходимо:

  1. Отсортировать образец
  2. Найдите значение в середине отсортированного образца

При нахождении числа в центре отсортированной выборки мы можем столкнуться с двумя типами ситуаций:

  1. Если в выборке есть нечетное количество наблюдений , то среднее значение в отсортированной выборке - это медиана.
  2. Если в выборке есть четное количество наблюдений , нам нужно вычислить среднее из двух средних значений в отсортированной выборке.

Если у нас есть выборка [3, 5, 1, 4, 2] и мы хотим найти ее медиану, то сначала мы сортируем выборку по [1, 2, 3, 4, 5] . Медиана будет равна 3 поскольку это значение посередине.

С другой стороны, если у нас есть выборка [1, 2, 3, 4, 5, 6] , то ее медиана будет (3 + 4) / 2 = 3.5 .

Давайте посмотрим, как мы можем использовать Python для вычисления медианы.

Поиск медианы с помощью Python

Чтобы найти медиану, нам сначала нужно отсортировать значения в нашей выборке . Этого можно добиться с помощью встроенной функции sorted() sorted() принимает итерацию и возвращает отсортированный list содержащий те же значения, что и исходная итерация.

Второй шаг - найти значение, которое находится в середине отсортированной выборки. Чтобы найти это значение в выборке с нечетным количеством наблюдений, мы можем разделить количество наблюдений на 2. Результатом будет индекс значения в середине отсортированной выборки.

Поскольку оператор деления ( / ) возвращает число с плавающей запятой, нам нужно использовать оператор деления этажа ( // ), чтобы получить целое число. Итак, мы можем использовать его как индекс в операции индексации ( [] ).

Если в выборке есть четное количество наблюдений, нам нужно найти два средних значения. Скажем, у нас есть образец [1, 2, 3, 4, 5, 6] . Если мы разделим его длину ( 6 ) на 2 с помощью деления пола, то получим 3 . Это индекс нашего верхнего среднего значения ( 4 ). Чтобы найти индекс нашего нижнего среднего значения ( 3 ), мы можем уменьшить индекс верхнего среднего значения на 1 .

Давайте объединим все это в функцию, которая вычисляет медиану выборки. Вот возможная реализация:

 >>> def my_median(sample): 
 ... n = len(sample) 
 ... index = n // 2 
 ... # Sample with an odd number of observations 
 ... if n % 2: 
 ... return sorted(sample)[index] 
 ... # Sample with an even number of observations 
 ... return sum(sorted(sample)[index - 1:index + 1]) / 2 
 ... 
 
 >>> my_median([3, 5, 1, 4, 2]) 
 3 
 
 >>> my_median([3, 5, 1, 4, 2, 6]) 
 3.5 

Эта функция берет образец числовых значений и возвращает их медиану. Сначала мы находим длину образца n . Затем мы вычисляем индекс среднего значения (или верхнего среднего значения) путем деления n на 2 .

Оператор if проверяет, есть ли в имеющейся выборке нечетное количество наблюдений. Если да, то медиана - это значение index .

Окончательный return выполняется, если в выборке есть четное количество наблюдений. В этом случае мы находим медиану, вычисляя среднее из двух средних значений.

Обратите внимание, что операция нарезки [index - 1:index + 1] получает два значения. Значение в index - 1 и значение в index поскольку операции нарезки исключают значение в конечном индексе ( index + 1 ).

Использование медианы Python ()

Функция Python statistics.median() берет выборку данных и возвращает ее медиану. Вот как работает метод:

 >>> import statistics 
 
 >>> statistics.median([3, 5, 1, 4, 2]) 
 3 
 
 >>> statistics.median([3, 5, 1, 4, 2, 6]) 
 3.5 

Обратите внимание, что median() автоматически обрабатывает вычисление медианы для выборок с нечетным или четным числом наблюдений.

Поиск режима образца

Режим - это наиболее частое наблюдение (или наблюдения) в выборке. Если у нас есть образец [4, 1, 2, 2, 3, 5] , то его режим равен 2 потому что 2 появляется в образце два раза, тогда как другие элементы появляются только один раз.

Режим не обязательно должен быть уникальным. Некоторые образцы имеют более одного режима. Скажем, у нас есть образец [4, 1, 2, 2, 3, 5, 4] . В этом примере есть два режима - 2 и 4 потому что эти значения появляются чаще и оба появляются одинаковое количество раз.

Этот режим обычно используется для категориальных данных. Распространенными категориальными типами данных являются:

  • логическое значение - может принимать только два значения, например true или false , male или female
  • номинальный - может принимать более двух значений, например, American - European - Asian - African
  • порядковый - может принимать более двух значений, но значения имеют логический порядок, например, few - some - many

Когда мы анализируем набор категориальных данных, мы можем использовать этот режим, чтобы узнать, какая категория является наиболее распространенной в наших данных.

Мы можем найти образцы, у которых нет режима. Если все наблюдения уникальны (нет повторяющихся наблюдений), то в вашей выборке не будет режима.

Теперь, когда мы знаем основы режима, давайте посмотрим, как его найти с помощью Python.

Поиск режима с помощью Python

Чтобы найти режим с помощью Python, мы начнем с подсчета количества вхождений каждого значения в рассматриваемом примере. Затем мы получим значения с большим количеством вхождений.

Поскольку подсчет объектов - обычная операция, Python предоставляет класс collections.Counter Этот класс специально разработан для подсчета предметов.

Класс Counter предоставляет метод, определенный как .most_common([n]) . Этот метод возвращает list кортежей из двух элементов с n более общими элементами и их соответствующими счетчиками. Если n опущено или None , то .most_common() возвращает все элементы.

Давайте воспользуемся Counter и .most_common() чтобы закодировать функцию, которая берет образец данных и возвращает свой режим.

Вот возможная реализация:

 >>> from collections import Counter 
 
 >>> def my_mode(sample): 
 ... c = Counter(sample) 
 ... return [k for k, v in c.items() if v == c.most_common(1)[0][1]] 
 ... 
 
 >>> my_mode(["male", "male", "female", "male"]) 
 ['male'] 
 
 >>> my_mode(["few", "few", "many", "some", "many"]) 
 ['few', 'many'] 
 
 >>> my_mode([4, 1, 2, 2, 3, 5]) 
 [2] 
 
 >>> my_mode([4, 1, 2, 2, 3, 5, 4]) 
 [4, 2] 

Сначала мы подсчитываем наблюдения в sample с помощью объекта Counter c ). Затем мы используем составление списка, чтобы создать list содержащий наблюдения, которые встречаются в выборке одинаковое количество раз.

Поскольку .most_common(1) возвращает list с одним tuple формы (observation, count) , нам нужно получить наблюдение с индексом 0 в list а затем элемент с индексом 1 во вложенном tuple . Это можно сделать с помощью выражения c.most_common(1)[0][1] . Это значение является первым режимом нашего образца.

Обратите внимание, что условие понимания сравнивает счетчик каждого наблюдения ( v ) со счетчиком наиболее распространенного наблюдения ( c.most_common(1)[0][1] ). Это позволит нам получить несколько наблюдений ( k ) с одним и тем же подсчетом в случае многомодовой выборки.

Использование режима Python ()

Python statistics.mode() принимает некоторые data и возвращает свой (первый) режим. Посмотрим, как это можно использовать:

 >>> import statistics 
 
 >>> statistics.mode([4, 1, 2, 2, 3, 5]) 
 2 
 
 >>> statistics.mode([4, 1, 2, 2, 3, 5, 4]) 
 4 
 
 >>> st.mode(["few", "few", "many", "some", "many"]) 
 'few' 

В одномодовом примере функция Python mode() возвращает наиболее распространенное значение 2 . Однако в следующих двух примерах он вернул 4 и few . В этих образцах были другие элементы, встречающиеся такое же количество раз, но они не были включены.

Начиная с Python 3.8 мы также можем использовать statistics.multimode() который принимает итерацию и возвращает list режимов.

Вот пример использования multimode() :

 >>> import statistics 
 
 >>> statistics.multimode([4, 1, 2, 2, 3, 5, 4]) 
 [4, 2] 
 
 >>> statistics.multimode(["few", "few", "many", "some", "many"]) 
 ['few', 'many'] 
 
 >>> st.multimode([4, 1, 2, 2, 3, 5]) 
 [2] 

Примечание . Функция всегда возвращает list , даже если вы передаете одномодовый образец.

Заключение

Среднее (или среднее), медиана и мода обычно являются нашим первым взглядом на выборку данных, когда мы пытаемся понять центральную тенденцию данных.

В этом руководстве мы узнали, как найти или вычислить среднее значение, медиану и режим с помощью Python. Сначала мы пошагово рассмотрели, как создавать наши собственные функции для их вычисления, а затем как использовать statistics Python как быстрый способ найти эти показатели.

comments powered by Disqus