Главная
Новости
Строительство
Ремонт
Дизайн и интерьер
Полезные советы



















Яндекс.Метрика





Поправка на множественную проверку гипотез

Поправка на множественную проверку гипотез (англ. multiple comparisons, multiplicity, multiple testing problem) — способ устранения эффекта множественных сравнений, возникающего при необходимости построения семейства статистических выводов. Во время проверки статистических гипотез при отвержении основной гипотезы (H0) возможна ошибка (ложное отклонение гипотезы, ошибка первого рода). Вероятность такого события ограничивается неким малым предварительно выбранным значением — уровнем значимости α alpha (обычно α = 0 , 05 {displaystyle alpha =0{,}05} ). Тогда при построении m m выводов верхняя оценка вероятности того, что хотя бы один из них будет неверным, равна 1 − ( 1 − α ) m 1-(1-alpha )^{m} , что достаточно велико уже при небольших m m (например, при m = 5 m=5 , α = 0 , 05 {displaystyle alpha =0{,}05} она равна ≈ 22 , 6 % {displaystyle approx 22{,}6%} ). Для устранения этого эффекта было разработано несколько подходов.

История

Первым упоминанием о проблеме множественных сравнений можно считать рассуждение Антуана Августина Курно в работе Exposition de La Theorie Des Chances Et Des Probabilites (1843) о том, что при разделении популяции на как можно большее число групп рано или поздно найдется группа, значимо отличная от остальной совокупности. Тогда проблема была сочтена нерешаемой.

Следующая после работы Бонферрони (Teoria statistica delle classi e calcolo delle probabilità, 1936) волна интереса к проблеме множественного тестирования возникла в 1950-х годах в связи с работой Джона Тьюки и Генри Шеффе. Последующие работы были направлены на увеличение мощности поправок. Так, более мощная поправка Холма-Бонферрони была разработана в 1979 году. В 1995 году со статьи Бенджамини и Хохберга начались работы по FDR (доле ложных отклонений гипотез), что дало возможность тестировать большое количество гипотез.

В 1996 была проведена первая конференция по множественной проверке гипотез в Израиле, после чего она проходила каждые два года по всему миру.

Обозначения

  • m m — общее число гипотез
  • m 0 m_{0} — число верных гипотез, неизвестный параметр
  • m − m 0 {displaystyle m-m_{0}} — число неверных гипотез
  • V V — число ложноположительных результатов false positives (ошибок первого рода)
  • S S — число истинно положительных результатов (true positives)
  • T T — число ложноотрицательных результатов false negatives (ошибок второго рода)
  • U U — число истинно отрицательных результатов (true negatives)
  • R R — число отвергнутых нулевых гипотез. R R и W W — наблюдаемые величины, а S S , T T , U U и V V — ненаблюдаемые.

Методы решения проблемы множественных сравнений

При слишком большом количестве испытаний увеличивается вероятность получить ложно-положительный результат (увеличение числа совершенных ошибок первого рода V V ). Задача состоит в том, чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез V V и ложных принятий T T . Для этого необходимо выбрать другое правило отвержения гипотез. Для задачи множественной проверки гипотез существует большое количество величин, обобщающих определение ошибки первого рода. Наиболее известны следующие:

  • FWER — family-wise error rate, групповая вероятность ошибки первого рода: FWER = P ( V ≥ 1 ) {displaystyle { ext{FWER}}=P(Vgeq 1)} ;
  • FDP — false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений): FDP = { V R , R > 0 0 , R = 0 {displaystyle { ext{FDP}}={egin{cases}{frac {V}{R}},R>0,R=0end{cases}}} ;
  • FDR — false discovery rate, средняя доля ложных отклонений гипотез (среди всех отклонений): FDR = E [ FDP ] {displaystyle { ext{FDR}}=E[{ ext{FDP}}]} .

Для каждой из приведенных мер существует свой способ ужесточения порога на значимость.

Групповая вероятность ошибки первого рода

Одна из мер, обобщающих ошибку первого рода, рассматриваемую при проверке статистических гипотез. Величина определяется как вероятность совершения хотя бы одной ошибки первого рода. По определению: FWER = P ( V ≥ 1 ) {displaystyle { ext{FWER}}=P(Vgeq 1)} . Контроль над FWER на фиксированном уровне значимости α alpha означает, что выполняется неравенство FWER ≤ α {displaystyle { ext{FWER}}leq alpha } .

Существует несколько методов контроля FWER.

Поправка Бонферрони

Метод поправки Бонферрони утверждает, что для уменьшения ложноположительных результатов необходимо отклонить те гипотезы, для которых p-value по критерию p i < α / m {displaystyle p_{i}<alpha /m} . Данная поправка позволяет получить FWER ≤ α {displaystyle { ext{FWER}}leq alpha } , потому что

из неравенства Буля следует, что для конечного или счетного набора событий, вероятность того, что произойдет хотя бы одно не больше, чем сумма вероятностей индивидуальных событий. Таким образом, если каждый индивидуальный тест будет проверяться на уровне значимости α m {displaystyle {frac {alpha }{m}}} , где m m - количество рассматриваемых гипотез, то для всего семейства гипотез уровень значимости фиксируется на уровне α alpha :

FWER = P ( V ≥ 1 ) = P { ⋃ i = 1 m ( p i ≤ α m ) } ≤ ∑ i = 1 m P ( p i ≤ α m ) ≤ m α m = α {displaystyle { ext{FWER}}=P(Vgeq 1)=Pleft{igcup _{i=1}^{m}left(p_{i}leq {frac {alpha }{m}} ight) ight}leq sum _{i=1}^{m}Pleft(p_{i}leq {frac {alpha }{m}} ight)leq m{frac {alpha }{m}}=alpha } ,

где V V — количество отвергнутых истинных гипотез .

Замечания

При увеличении m m в результате применения поправки Бонферрони мощность статистической процедуры резко уменьшается — шансы отклонить неверные гипотезы падают.

Метод Холма (поправка Холма — Бонферрони)

Метод Холма (поправка Холма — Бонферрони) равномерно более мощный, чем поправка Бонферрони, и решает проблему падения мощности при росте числа гипотез. Нисходящий метод.

Пусть p ( 1 ) ≤ . . . ≤ p ( m ) {displaystyle p_{(1)}leq ,...,leq p_{(m)}} — p i p_{i} , упорядоченные от наименьшего к наибольшему. H ( 1 ) , . . . , H ( m ) {displaystyle H_{(1)},...,H_{(m)}} — соответствующие p ( i ) {displaystyle p_{(i)}} нулевые гипотезы. Процедура Холма определена следующим образом.

  • Шаг 1. Если p ( 1 ) ≥ α m − 1 + 1 {displaystyle p_{(1)}geq {frac {alpha }{m-1+1}}} , принять гипотезы H ( 1 ) , . . . , H ( m ) {displaystyle H_{(1)},...,H_{(m)}} и остановиться. Иначе, если p ( 1 ) < α m − 1 + 1 {displaystyle p_{(1)}<{frac {alpha }{m-1+1}}} , отвергнуть гипотезу H ( 1 ) {displaystyle H_{(1)}} и продолжить проверку оставшихся гипотез на уровне значимости α m − 2 + 1 {displaystyle {frac {alpha }{m-2+1}}} .
  • Шаг 2. Если p ( 2 ) ≥ α m − 2 + 1 {displaystyle p_{(2)}geq {frac {alpha }{m-2+1}}} , принять гипотезы H ( 2 ) , . . . , H ( m ) {displaystyle H_{(2)},...,H_{(m)}} и остановиться. Иначе, если p ( 2 ) < α m − 2 + 1 {displaystyle p_{(2)}<{frac {alpha }{m-2+1}}} , отвергнуть гипотезу H ( 2 ) {displaystyle H_{(2)}} и продолжить проверку оставшихся гипотез на уровне значимости α m − 3 + 1 {displaystyle {frac {alpha }{m-3+1}}} .
  • И т. д.

Процедура обеспечивает FWER ≤ α {displaystyle { ext{FWER}}leq alpha } . Она равномерно мощнее метода Бонферрони.

Пример

Рассмотрим проверку 4-х гипотез при α = 0 , 05 {displaystyle alpha =0{,}05} . Пусть для них получены p-value: 0,01; 0,04; 0,03 и 0,005. Расставим их по возрастанию: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Будут проверены следующие неравенства:

  • 0,005 < 0 , 05 4 {displaystyle 0{,}005<{frac {0{,}05}{4}}} → отклоняем данную нулевую гипотезу, двигаемся дальше.
  • 0 , 01 < 0 , 05 4 − 1 {displaystyle 0{,}01<{frac {0{,}05}{4-1}}} → отклоняем данную нулевую гипотезу, двигаемся дальше.
  • 0 , 03 ≥ 0 , 05 4 − 2 {displaystyle 0{,}03geq {frac {0{,}05}{4-2}}} → принимаем эту и следующую нулевые гипотезы, останавливаемся.
  • Метод Шидака

    Уровень значимости для m m гипотез задаются следующим образом: α m = 1 − ( 1 − α ) 1 / m {displaystyle alpha _{m}=1-(1-alpha )^{1/m}} . Метод дает FWER ≤ α {displaystyle leq alpha } при условии, что статистики T i T_{i} независимы или выполнено свойство «положительной зависимости»:

    P ( T 1 ≤ t 1 , . . . , T m ≤ t m ) ≥ ∏ i = 1 m P ( T i ≤ t i ) {displaystyle mathrm {P} (T_{1}leq t_{1},...,T_{m}leq t_{m})geq prod _{i=1}^{m}mathrm {P} (T_{i}leq t_{i})} , ∀ t forall t

    Составим вариационный ряд p-значений: p ( 1 ) ≤ . . . ≤ p ( m ) {displaystyle p_{(1)}leq ,...,leq p_{(m)}} , где H ( 1 ) , . . . , H ( m ) {displaystyle H_{(1)},...,H_{(m)}} - соответствующие гипотезы. Процедура выглядит так:

  • Если p ( 1 ) ≥ α 1 {displaystyle p_{(1)}geq alpha _{1}} , то принимаем все гипотезы H ( 1 ) , . . . , H ( m ) {displaystyle H_{(1)},...,H_{(m)}} и останавливаемся, иначе отвергаем H ( 1 ) {displaystyle H_{(1)}} и продолжаем;
  • Если p ( 2 ) ≥ α 2 {displaystyle p_{(2)}geq alpha _{2}} , то принимаем все гипотезы H ( 2 ) , . . . , H ( m ) {displaystyle H_{(2)},...,H_{(m)}} и останавливаемся, иначе отвергаем H ( 2 ) {displaystyle H_{(2)}} и продолжаем;
  • … и т. д.
  • Метод Шидака-Холма

    Нисходящая процедура. Уровни значимости для m m гипотез задаются следующим образом: α 1 = 1 − ( 1 − α ) 1 / m , … , α i = 1 − ( 1 − α ) 1 m − i + 1 , … , α m = α {displaystyle alpha _{1}=1-(1-alpha )^{1/m},dots ,alpha _{i}=1-(1-alpha )^{frac {1}{m-i+1}},dots ,alpha _{m}=alpha }

    Контролирует FWER на уровне значимости α alpha , если статистики независимы в совокупности. Если статистики независимы в совокупности, нельзя построить контролирующую FWER на уровне α alpha процедуру мощнее, чем метод Шидака-Холма. При больших m m мало отличается от метода Холма.

    Средняя доля ложных отклонений

    Данная величина определяется как математическое ожидание доли ошибок среди отвергнутых гипотез.

    Определим Q Q как отношение числа неверно отвергнутых гипотез V V ко всем отвергнутым гипотезам R R : Q = V / R {displaystyle Q=V/R} . Таким образом, FDR:

    FDR = Q e = E [ Q ] = E [ V V + S ] = E [ V R ] {displaystyle { ext{FDR}}=Q_{ extrm {e}}=E[Q]=Eleft[{frac {V}{V+S}} ight]=Eleft[{frac {V}{R}} ight]} при R > 0 {displaystyle R>0} .

    Контроль над FDR на уровне α alpha означает, что:

    FDR = E ( V R ) ≤ α {displaystyle { ext{FDR}}=Eleft({frac {V}{R}} ight)leq alpha } .

    Метод Беньямини — Хохберга

    Это восходящая процедура со следующими уровнями значимости:

    α 1 = α m ,   . . . ,   α i = i α m ,   . . . ,   α m = α {displaystyle alpha _{1}={frac {alpha }{m}}, ..., alpha _{i}={frac {ialpha }{m}}, ..., alpha _{m}=alpha } .

    Пусть p ( 1 ) ≤ . . . ≤ p ( m ) {displaystyle p_{(1)}leq ,...,leq p_{(m)}} — уровни значимости p i p_{i} , упорядоченные от наименьшего к наибольшему. H ( 1 ) , . . . , H ( m ) {displaystyle H_{(1)},...,H_{(m)}} — соответствующие p ( i ) {displaystyle p_{(i)}} гипотезы. Процедура Беньямини — Хохберга определена следующим образом.

    • Шаг 1. Если p ( 1 ) ≥ α m {displaystyle p_{(1)}geq {frac {alpha }{m}}} , принять гипотезы H ( 1 ) , . . . , H ( m ) {displaystyle H_{(1)},...,H_{(m)}} и остановиться. Иначе, если p ( 1 ) < α m {displaystyle p_{(1)}<{frac {alpha }{m}}} , отвергнуть гипотезу H ( 1 ) {displaystyle H_{(1)}} и продолжить проверку оставшихся гипотез на уровне значимости 2 α m {displaystyle {frac {2alpha }{m}}} .
    • Шаг 2. Если p ( 2 ) ≥ 2 α m {displaystyle p_{(2)}geq {frac {2alpha }{m}}} , принять гипотезы H ( 2 ) , . . . , H ( m ) {displaystyle H_{(2)},...,H_{(m)}} и остановиться. Иначе, если p ( 2 ) < 2 α m {displaystyle p_{(2)}<{frac {2alpha }{m}}} , отвергнуть гипотезу H ( 2 ) {displaystyle H_{(2)}} и продолжить проверку оставшихся гипотез на уровне значимости 3 α m {displaystyle {frac {3alpha }{m}}} .
    • И т. д.

    Если статистики T i T_{i} независимы, этот метод контролирует FDR на уровне α alpha .

    Масштабное множественное тестирование

    Во многих исследованиях, к примеру в области геномики, требуется проверять тысячи или даже значительно больше гипотез. В области исследований генетических ассоциаций существует проблема невоспроизводимости результатов: результат, сильно значимый в одном исследовании, не повторяется в следующем. Причиной этого являются в том числе и последствия множественного тестирования.

    В разных областях науки отношение к множественному тестированию неоднозначное. Есть мнение, что использование поправки на множественное сравнение, когда есть серьезные основания считать, что результаты будут правдивыми, не обязательно. Также утверждается, что поправка на множественное тестирование — неэффективный метод проведения эмпирических исследований, потому что, контролируя ложно-положительные результаты, он приводит к появлению большого количества ложно-отрицательных. Однако с другой стороны утверждается, что усовершенствования в методах измерения и информационных технологиях облегчили появление больших наборов данных для разведочного анализа, что приводит к тестированию большого числа гипотез без предварительного предположения о том, что большинство из них правдивы. А это означает большое количество ложно положительных результатов, если поправка на множественное тестирование не проводится.

    В масштабных тестированиях, если надо получить точные результаты, то лучше всего использовать FWER, однако если исследование разведочное и значимые результаты будут проверяться в независимом исследовании, предпочитают использовать FDR. FDR, определяемое как ожидаемая доля ложно-положительных результатов среди всех положительных (значимых), позволяет определять набор «положительных кандидатов», которых можно рассматривать в дальнейших исследованиях.

    Практика проводить много сравнений без поправки в надежде найти что-то значимое, применяемая сознательно или нет, иногда называется «p-hacking».

    Применение в биоинформатике

    Проблема множественного сравнения в биологии встречается повсеместно при анализе омиксных данных, так как одновременно происходит анализ множества переменных. Так, в полногеномных исследованиях ассоциаций и анализе дифференциальной экспрессии генов тестируется одновременно от сотен тысяч до миллионов гипотез. В большинстве случаев используется поправка Бонферрони или общепринятый для GWAS порог p-value 5 ⋅ 10 − 8 {displaystyle 5cdot 10^{-8}} , однако при этом происходит падение мощности исследования с сопутствующим ростом риска ложно-отрицательных результатов. Также нарушается предположение поправки Бонферрони о независимости проводимых сравнений, поскольку существует неравновесное сцепление генов, когда частоты сочетаний SNP отличаются от ожидаемых при условии отсутствия сцепления, поэтому встает вопрос, сколько проведено реальных независимых сравнений. Можно определить число независимых сравнений в таких условиях как число главных компонент, совокупно покрывающих более 99 , 5 % {displaystyle 99,5%} дисперсии исследуемых данных, тогда порог p-value, обеспечивающий статистическую значимость на уровне α alpha , пересчитывается следующим образом:

    α G W A S = α n c o m p o n e n t s {displaystyle alpha _{GWAS}={frac {alpha }{n_{components}}}}

    Также для решения проблемы множественных сравнений используются пермутационные тесты, такие как Rank product. Предположение пермутационных тестов заключается в том, что если сравниваемые выборки пришли из одной совокупности, то обмен элементами между выборками не должен привести к значительному изменению тестовой статистики. Примерный общий алгоритм пермутационных тестов выглядит следующим образом:

  • Рассчитывается значение тестовой статистики для выборок экспериментальных данных
  • Выборки объединяются в единый пул
  • Из пула данных формируются случайным образом выборки такого же размера
  • Рассчитывается значение тестовой статистики для нового набора выборок
  • Многократным повторением пунктов 2-4 строится распределение тестовой статистики
  • Исходя из построенного распределение и экспериментального значения тестовой статистики определяется p-value
  • При применении пермутационных тестов не требуется собственно коррекция уровня значимости или тестовых p-value. Пермутационные тесты не чувствительны к несбалансированности выборок, что полезно при анализе биологических данных.


    Имя:*
    E-Mail:
    Комментарий: