Допустим, у нас есть набор данных о продажах товаров в интернет-магазине за последний год. Мы хотим выявить аномалии в ценах продуктов, которые могут указывать на ошибки в данных или наличие выбросов.
Для этого мы можем использовать Z-оценку. Предположим, у нас есть столбец данных, содержащий цены продуктов. Мы можем вычислить Z-оценку для каждой цены, используя формулу:
После вычисления Z-оценок мы можем увидеть, что только цена 30 имеет Z-оценку превышающую 2, следовательно, она считается аномальной. Это может указывать на возможную ошибку в данных или наличие выброса в цене продукта,
Рассмотрим пример кода на Python, который вычисляет Z-оценку для набора данных и идентифицирует аномальные значения:
```python
import numpy as np
# Пример данных о ценах продуктов
prices = [10, 12, 15, 9, 11, 30, 13, 14, 8, 11]
# Вычисляем среднее значение и стандартное отклонение
mean_price = np.mean(prices)
std_dev = np.std(prices)
# Определяем порог Z-оценки
threshold = 2
# Вычисляем Z-оценку для каждой цены
z_scores = [(price – mean_price) / std_dev for price in prices]
# Идентифицируем аномальные значения
anomalies = [price for price, z_score in zip(prices, z_scores) if abs(z_score) > threshold]
# Выводим аномальные значения
print("Аномальные цены:", anomalies)
```
Этот код использует библиотеку NumPy для вычисления среднего значения и стандартного отклонения, а затем вычисляет Z-оценку для каждой цены в наборе данных. После этого он определяет аномальные значения, превышающие заданный порог Z-оценки, и выводит их на экран.
Диаграмма ящика с усами (или boxplot) – это важный инструмент в анализе данных, который позволяет визуализировать распределение и основные статистические характеристики набора данных. Этот график состоит из "ящика", представляющего межквартильный размах данных, "усов", которые указывают на минимальное и максимальное значение в пределах определенного расстояния от квартилей, а также отдельных точек, которые могут быть выбросами.
"Ящик" диаграммы является прямоугольником, ограниченным верхним и нижним квартилями. Вертикальная линия внутри ящика обозначает медиану данных. "Усы" диаграммы обычно находятся на расстоянии, равном 1.5 межквартильным размахам от верхнего и нижнего квартилей. Это расстояние определяет "усы" как участок данных, который считается разумным или "нормальным", не считая выбросов.
Точки или значения, которые находятся за пределами "усов", считаются выбросами и могут указывать на потенциальные аномалии в данных. Они могут быть либо статистическими выбросами, то есть значениями, которые сильно отклоняются от общего распределения данных, либо реальными аномалиями, требующими дополнительного анализа.
Использование диаграммы ящика с усами позволяет исследователям быстро оценить распределение данных, выявить наличие выбросов и провести предварительный анализ данных перед более подробным исследованием. Это важный инструмент в исследовании данных и статистическом анализе, который помогает выявить важные паттерны и аномалии в данных.
Оба метода – Z-оценка и диаграмма ящика с усами – имеют свои уникальные преимущества и недостатки, и выбор между ними зависит от конкретной ситуации и требований анализа данных.
Z-оценка позволяет количественно оценить аномальность наблюдения путем вычисления стандартизированного значения отклонения от среднего. Это позволяет точно определить, насколько данное наблюдение отличается от среднего значения и измерить это отклонение в стандартных единицах. Этот метод особенно полезен, когда требуется численная оценка аномальности и сравнение различных переменных на одной шкале.