Введение
Выборочный метод при сравнительном изучении широко применяется в биологии, медицине, социологии и других науках для оценки рисков, оценки эффективности воздействия, оценке эффективности тестов. Результаты простейшего исследования по методу «case–control» [1—3], либо «case–base» [3, 5], записываются в так называемую четырехпольную таблицу сопряженности (contingency epidemiological table), которая позволяет выполнить оценку показателей отношения шансов (odds ratio) и отношения правдоподобий (likelihood ratio) при группировке по событиям; либо возможна оценка отношения шансов и относительного риска (relative risk) при группировке по исследуемому признаку. Так как всякая выборка является случайной даже при работе с некоторыми однородными большими группами, эти показатели будут случайными, обладающими некоторой неопределенностью, которая дополнительно маскируется дискретным характером наблюдений (шум дискретизации). Однако вероятность наблюдения эффекта или относительного эффекта непрерывна, поэтому неопределенность величин OR или RR должна получить непрерывную оценку.
Материалы и методы
Разрешить противоречие между дискретностью
наблюдений и непрерывностью показателей OR и RR можно
лишь приближенно, выбирая частотный аппроксимационный метод [1—3, 6] и,
соответственно, доверительное (confidence)
оценивание, либо байесовский подход [7] с использованием некоторой доступной
априорной информации о возможных распределениях выборочных и измеряемых величин
(credible estimation). Заметим, что в данном случае частотный метод не имеет никаких преимуществ перед
байесовским, так как тоже опирается на априорное предположение о существовании
постоянных, но неизвестных популяционных частот в каждой из сравниваемых
выборок; вместо них при построении областей неопределенности фактически
используются центральные (точечные) оценки, не имеющие даже однозначного
толкования для однократных выборок. Каждая из таких задач в конкретном
исследовании всегда может быть решена численно, благодаря чему те или иные
методики оценки нашли реализацию в ряде известных приближенных компьютерных алгоритмов,
например, в открытой среде программирования «R» [8], пакете «LePAC» [9] и др. Как оказалось, байесовский подход также допускает
строгое аналитическое представление непрерывной плотности распределения величин
OR и RR, а значит, возможность получения сравнительно
точных оценок, как для интервалов неопределенности и их центров, так и для связанных
с этими распределениями вторичных характеристик (показатель согласованности «каппа
Коуэна»
Например, пусть при сравнении двух случайных выборок с объемами N (экспонированные) и L (интактные) наблюдалось M и K
специфических «случаев», соответственно. Тогда при априорном (до выборки)
предположении, что каждый индивидуум одной выборки имеет одинаковые шансы
попасть в свою группу «случаев» этой же выборки, возможно строгое интегральное
представление плотности вероятности наблюдения неизвестных показателей OR и RR, которое
может быть выражено через известные специальные функции. Априорное
предположение о наличии равных шансов соответствует одинаковой вероятности наблюдения
целочисленных M среди M=0; 1; … N и K среди K=0;
1; … L, а также — равномерному распределению ожидаемых
частот непрерывных параметров доли «случаев» в каждой из двух выборок до их
формирования (группирование событий по методу
Таким предположениям соответствуют условные
в выборках, где
—
Таким образом, апостериорная плотность вероятности основного показателя сравнительного исследования — относительного риска — может быть вычислена точно (в рамках сделанных априорных предположений). В частности, можно показать, что
Здесь однократно наблюдаемые эмпирические значения M, N, K, L выступают в роли параметров распределения; F(a, b; c; z) — гипергеометрическая функция Гаусса. В области малых значений относительного риска плотность нарастает пропорционально ~RRM, а в области больших значений — убывает пропорционально ~1/RRK+2. Иными словами, асимптотическое поведение распределения зависит в большей мере от наблюдаемого числа «случаев», чем от объемов выборок. Обнаруженный характер асимптотик противоречит ранее найденным приближениям [1—3, 6], имевшим приемлемую пригодность только для описания центральной части распределения.
Найденное распределение допускает точное вычисление математических ожиданий и дисперсий показателя относительного риска, а также его логарифма в предположении независимости выборок:
Последние две величины могут быть использованы при записи логнормального приближения при описании распределения величины относительного риска в качестве аппроксимации вблизи своего центра.
По аналогии можно показать, что отношению шансов соответствует величина (β·(1–α)/(α·(1–β)). Для нее условное распределение плотности вероятности дается выражением
.
Однако оно шире распределения отношения рисков, и в области сравнительно частых специфических событий имеет хорошо различимое систематическое смещение относительно распределения RR. Таким образом, оценка OR, используемая в качестве приближения к искомой величине показателя RR во многих исследованиях, менее предпочтительна для применения. Замечено, что в ряде вычислительных пакетов программ гипергеометрическая функция, представленная в виде ряда, неверно табулируется в области отрицательного аргумента, поэтому для организации вычислений за основу было принято ее интегральное представление. Примеры наблюдаемой формы распределений g(RR| M, N, K, L) и f(OR| M, N, K, L) приведены на рисунке, из которого следует, что в центральной части они напоминают логнормальные распределения, но отклоняются от них при очень малых и очень больших значениях показателей. В качестве центра распределений более уместно использовать медиану или среднегеометрическое значение.
Рисунок 1 — Пример плотности распределения вероятности наблюдения относительных оценок RR и OR при сравнении двух случайных выборок. Интактные: 5 «случаев» из 50. Экспонированные: 13 «случаев» из 25
Результаты и обсуждение
Сопоставление байесовских интервальных оценок отношения рисков с частотными показало, что байесовский подход дает более узкие интервалы неопределенности для RR при малом количестве наблюдаемых случаев M и K, что представляется понятным в силу использования дополнительной информации об априорных распределениях, а также в силу большей математической строгости. Для исследований с «богатой» статистикой, когда N, L>100; M, K> 5 и (N–M), (L–K) > 5, частотные и байесовские оценки практически совпадают. Сопоставление графиков распределения их отношения (с использованием непрерывной аппроксимации Анскомб [6]) для случая более редких наблюдений показано на рисунке 2 и рисунке 3.
Рисунок 2 — Пример сопоставления распределений оценок относительного риска, полученных по байесовской и частотной методологии. Интактные: 5 «случаев» из 50. Экспонированные: 13 «случаев» из 25
Рисунок 3 — Тоже, что и на рисунке 2, но в двойных логарифмических координатах
Условные распределения g(RR| M, N, K, L) и f(OR| M, N, K, L) не могут быть асимптотически правильно описаны общепринятым логнормальным приближением. Тем не менее, вид функции f(OR| M, N, K, L) частично оправдывает практику применения двухпараметрического логнормального приближения в качестве аппроксимации центральной части распределения Альбомом и Норрелом ([1], стр. 87—89; оценка
Серьезным преимуществом байесовского оценивания отношения рисков и возможности построения
распределения по однократному наблюдению является возможность непосредственного
описания альтернатив исследуемой гипотезы через распределение её показателей в сопоставлении с граничными величинами, свойственными нулевой гипотезе. Это открывает возможность прямого вычисления величины наблюдаемых ошибок II рода. Кроме того, изучение распределения,
характеризующего нулевую гипотезу H0 об отсутствии связи между маркерами и эффектами
вместе с границами неопределенности показателя, оцененного для гипотезы H1,
позволяет также вычислить величину ошибки I рода с точностью, превышающей традиционное
использование асимптотического критерия
Пример применения
В качестве примера применения байесовского подхода к интервальным оценкам основных показателей, а также к оценке их значимости, рассмотрим результаты исследования относительного пожизненного риска смерти от рака легкого в двух взаимоисключающих группах мужчин — работников химического комбината «МАЯК». Одна из групп характеризуется наличием документированных техногенных ненулевых эквивалентных доз на легкие от смешанного (альфа + гамма) облучения за 15 лет до момента наступления смерти. В другой группе облучение отсутствовало совсем (органные дозы меньше предела детектирования), либо оно произошло за меньший интервал времени до момента смерти работника (условно необлученного). В каждой из исследуемых групп часть работников умерла от рака легкого. Сводные результаты заимствованы из опубликованного описания когорты работников [4] и представлены в таблице 1. Требуется установить связь повышенного риска смерти от рака легкого с облучением ионизирующей радиацией, а также оценить достоверность выводов.
Таблица 1 — Сопряженность эффекта с облучением при наличии связи
|
Рак легкого |
|
||
Есть |
Нет |
∑ |
||
Маркёр |
Облученные |
590 |
5718 |
6308 |
Лагированнаянулевая доза |
77 |
2721 |
2798 |
Этой таблице, построенной в соответствии с гипотезой о наличии связи между облучением и выходом рака легкого, соответствует таблица ожиданий (Таблица 2), полученная в предположении об отсутствии такой связи (гипотеза H0).
Таблица 2 — Ожидаемая смертность от рака легкого при отсутствии связи
|
Рак легкого |
|
||
Есть |
Нет |
∑ |
||
Маркёр |
Облученные |
462 |
5846 |
6308 |
Лагированнаянулевая доза |
205 |
2593 |
2798 |
Байесовские распределения показателя относительного риска для обеих гипотез приведены на
рисунке 4. Им соответствуют следующие оценки показателя: в рамках гипотезы H1 — RR=3,38 (95 % CI:
2,68…4,27); в рамках гипотезы H0 — RR=1,00
(95 % CI: 0,85…1,17). За центральную оценку принята среднегеометрическая
величина. Интервалы неопределенности не пересекаются, что указывает на значительно
меньшую величину действительных ошибок I и II рода по
сравнению с априорно установленным уровнем значимости 5 %. Это обстоятельство хорошо заметно из рисунка 4, что с огромным запасом указывает на высокую степень достоверности вывода о связи
техногенного облучения с повышенным выходом рака легкого среди работников
комбината. Заметим, что речь идет не только о высоких уровнях облучения, но и о дозах, близких к пределу детектирования, то есть о столь актуальных «малых
дозах». Отсюда также ясно, что в облученной группе достоверно может быть
оценена атрибутивная доля избыточных (техногенных) раков легкого: AR=(RR−1)/RR=0,704 (95 % CI: 0,627…0,766), что соответствует примерно 370…452 случаям.
При этом «фоновая» специфическая смертность во всей когорте должна была бы наблюдаться
на уровне ~250 событий. Важно указать,
что линейная беспороговая теория, построенная на идее использования годовых
показателей смертности, при средней эквивалентной дозе около 1—Зв [4] и уровне
избыточной смертности от рака легкого около 20—40 %·Зв—1 [10] приводит к ожиданию
приблизительно 50—100 избыточных событий в когорте ПО «Маяк». Линейный участок
зависимости
Рисунок 4 — Распределения оценок относительного риска для гипотез H0 и H1
Выводы
Найдено явное непрерывное выражение для распределения эпидемиологических оценок
отношения рисков в четырехпольных методах исследования, которое можно считать
точным при довольно общих априорных предположениях. Новое распределение может
считаться эталонным при выполнении интервального оценивания. При сопоставлении
однородных групп распределение работоспособно в широких условиях при изучении
как редких, так и частых событий. Рекомендуемые интервальные оценки несколько
отличаются от
Литература
- Альбом, А., Норелл, С. Введение в современную эпидемиологию // Таллинн: RNE, 1996. — 122 c.
- Гланц, С.
Медико-биологическая статистика // Пер. с англ. — М.: Практика, 1998. — 459 с. - Эпидемиологический словарь // Под ред. Дж. М. Ласта для Международной эпидемиологической ассоциации. — М.: ОИЗ, 2009. — 316 с.
- Обеснюк, В. Ф. Прямые кумулятивные оценки дозового тренда пожизненного радиогенного риска смерти от рака легкого в когорте ПО «Маяк». // В сборнике «Источники и эффекты облучения работников ПО «Маяк» и населения, проживающего в зоне влияния предприятия. Часть III « / ФМБА, ЮУрИБФ. — Челябинск: ЧДП, 2011. — С. 98—117.
- Kupper, I. L., McMichael, A. J., Spirtas, R. A Hybrid epidemiologic study design useful in estimating relative risk // Journal of the American Statistical Association. — 1975. — V. 70. — P. 524—528.
- Anscombe, F. J. Transformations of Poisson, binomial and negative binomial data. // Biometrika, 1948, 35, P. 246—254.
- Hey, J. D. Data in doubt: An Introduction to Bayesian Statistical Inference for Economists // Oxford: Martin Robertson, 1983. — 316 p.
- Agresti, A. URL: http://www.stat.ufl.edu/~aa/cda/R/bayes/index.html, дата обращения
07.02.2013 . - Lecoutre, B., Poitevineau, J. LePAC version
2.0.41 (Program for the Analysis of Comparisons) URL: http://www.univ-rouen .fr/LMRS/Persopage/Lecoutre/PAC.htm, дата обращения07.02.2013 . - Effects of Ionizing Radiation. UNSCEAR 2006 Report., Vol. 1A // NY: United Nations Publication, 2008. — 383 P.