Блог Science for you

Графическое представление данных

В данной статье мы поговорим об основе основ работы с любыми количественными данными в статистике, а именно - проверке количественного признака на нормальность распределения.
Без данного этапа невозможно корректно выбрать способ для описания количественного признака, невозможно выбрать метод анализа для сравнения признаков между собой, а также определиться с видом графика для визуализации результата исследования.
Первоочередная задача, которая решается при работе с любыми количественными данными — выявление типа распределения признака, и только после ее выполнения можно приступать к дальнейшему анализу признака.
Существует 2 типа распределения количественных данных:
1. Нормальное распределение характеризуется тем, что крайние значения (самое маленькое и самое большое значение) встречаются достаточно редко, а чем ближе значения расположены к средней величине, тем чаще они встречаются. Если представить такой признак графически, то график будет иметь характерную колоколообразную форму.

  • Если перед нами переменная с нормальным распределением, то описывать ее мы будем в виде средней арифметической со стандартным отклонением и 95% доверительным интервалом: M±SD (95% ДИ).
  • Для анализа будем применять методы параметрической статистики: t-критерий Стьюдента, дисперсионный анализ, парный t-критерий, корреляционный анализ по Пирсону.
  • Для графического представления таких данных применяются столбчатые диаграммы (Bar chart).

2. Распределение, отличное от нормального, характеризуется тем, что среднее значение признака не является самым часто встречаемым в выборке.


  • При графическом изображении такого признака диаграмма будет иметь форму, отличную от колокола.
  • При работе с переменными, имеющими распределение отличного от нормального, мы будем пользоваться для их описания медианой с интревквартильным размахом: Ме (Q1 – Q3).
  • Для анализа таких переменных применяются методы непараметрической статистики: критерии Манна-Уитни, Краскела-Уоллиса, Уилкоксона, Фридмана, корреляционный анализ по Спирмену.
  • Графически количественные признаки с распределением, отличным от нормального, мы будем представлять в виде ящиков с усами.
Графики и диаграммы, которые вы можете встретить при чтении научных статей:
Часто встречающаяся диаграмма - кривая Каплана-Майера (Kaplan-Maier curve).

Кривая Каплана-Майера необходима для визуализации анализа выживаемости. Свое название анализ выживаемости получил за счет особо широкого распространения в медицинских исследованиях. Однако, когда мы пишем выживаемость, то имеем ввиду не обязательно смерть, но также и любой другой дихотомический исход, который случается лишь однажды (или учитывается только первое событие) за период наблюдения (случай нового заболевание и пр.)

  • На данной диаграмме по оси Х будет отмечаться временной промежуток, а на оси У количество случившихся событий.
  • Изначально, в 0 точке все в наблюдаемой популяции «живы» и соответственно показатель выживаемости в 0 точке будет равен 100% (1,0). Каждое событие (смерть), будет отображаться на графике шагом/ступенькой вниз.
  • 2 (или более) кривые на диаграмме могут отображать сравнение разных методов лечения или групп терапии.
  • В случае если кривая отображает риск развития события, тогда кривая будет начинаться от 0 в начале наблюдения (0 произошедших событий) и с каждым случившимся событием будет возрастать.

Также на данной диаграмме могут быть отмечены:
  • Number at risk или число наблюдаемых пациентов в определенные временные точки. Эта часть диаграммы отражает сколько пациентов продолжает наблюдаться в исследовании, причем число пациентов постепенно уменьшается (за счет того, что происходят события, или же пациенты могут выбыть из исследования по другим причинам).
  • Вертикальные линии на кривой могут отображать границы 95% доверительного интервала.
  • Отметка медианы – то есть точка, где выживаемость снижается до 50%.
Классический график для представления количественных данных с распределением, отличным от нормального – «ящик с усами» (диаграмма размаха, англ. box-and-whiskers diagram or plot, box plot). Данному графику около 50 лет (разработан в 1970-х годах), и появился он благодаря американскому математику Джону Тьюки.

Для начала рассмотрим, какую информацию может показать нам каждая из частей этого графика. Как мы помним, количественные данные с распределением, отличным от нормального, мы описываем в виде медианы и интреквартильного размаха, как раз их мы и отображаем в виде ящика. Усы дают нам информацию о верхней и нижней границах количественного признака. Помимо этого, данный график позволяет нам визуализировать и «выбросы», т.е. результаты, явно выделяющиеся из общей выборки.

Ящик с усами можно построить не только в большинстве статистических программ, но и в Excel.

Ниже мы рассмотрим несколько примеров «ящиков с усами»:
На первом графике отображен уровень холестерина, измеренный в день госпитализации, для пациентов с различными заболеваниями.

При исследовании уровня холестерина в день госпитализации среди пациентов с различными заболеваниями было получено следующее распределение: уровень холестерина среди пациентов с ишемической болезнью сердца составил 6,6 ммоль/л (Q1 = 5,9; Q3 = 7,2), в группе пациентов с сахарным диабетом — 6,4 ммоль/л (Q1 = 5,9; Q3 = 6,6), среди пациентов с хронической болезнью почек — 6,2 ммоль/л (Q1 = 5,6; Q3 = 6,6), в группе пациентов с гипотиреозом — 6,0 ммоль/л (Q1 = 5,4; Q3 = 6,5). В группе пациентов с СД мы обращаем внимание на наличие «выброса», который говорит нам о том, что у одного пациента, по-видимому, самого ответственного, уровень холестерина был явно ниже, чем у всей выборки и составил 4,8 ммоль/л.

Также мы можем построить кластеризованную диаграмму и отобразить, например, динамику количественного показателя. Рассмотрим пример.

На втором графике представлен уровень холестерина в группе пациентов с ишемической болезнь сердца и с сахарным диабетом в день госпитализации и спустя 2 месяца статинотерапии. В группе пациентов с ИБС уровень холестерина в день госпитализации составил 6,3 ммоль/л (Q1 = 5,8; Q3 = 6,6), а через 2 мес — 5,4 (Q1 = 4,9; Q3 = 6,0), в группе пациентов с СД в день госпитализации — 6,3 ммоль/л (Q1 = 5,6; Q3 = 6,9), а через 2 месяца — 5,2 ммоль/л (Q1 = 4,4; Q3 = 5,8).

Ящик с усами поможет Вам информативно и компактно представить в графическом формате Ваши количественные данные. Несмотря на зрелый возраст, он до сих пор остается одним из самых распространенных помощников в диссертациях, публикациях и выступлениях.
Если у вас остались вопросы, я и моя команда поможем их решить. Записывайтесь на бесплатную консультацию здесь
Статистика
Made on
Tilda