Введение

Изучение молекулярно-генетических механизмов, отвечающих за правильное протекание сперматогенеза, является одной из актуальных проблем в современной медицине. На сегодняшний день многие полиморфные локусы, ассоциируемые с нарушением процесса сперматогенеза, хорошо изучены и являются диагностическими маркерами бесплодия, например мутации генов SRY, AMG, AMGL, микроделеция в гене AZF.   В GWAS каталоге зарегистрировано 138 генетических вариантов, обнаруженных в 34  полногеномных исследованиях ассоциированных с мужским бесплодием.   Однако, во всех 34 исследованиях регистрируются различные  полиморфные локусы в различных генах (https://www.ebi.ac.uk/gwas).  При этом все эти хорошо изученные мутации и  полиморфные локусы  ассоциированные  в полногеномных исследованиях не диагностируют все возможные генетические нарушения процесса сперматогенеза, которые приводят к мужскому бесплодию. Доля идиопатического мужского бесплодия остается достаточно значительной.  Для «открытия» новых генетических вариантов ассоциированных с процессами нарушения регуляции сперматогенеза и функции сперматозоидов, мы с помощью биоинформатических подходов, изучили функциональную значимость ранее не исследованных генетических вариантов, которые локализуются в генах, приводящих к развитию 15 редких моногенных заболеваний, в сиптомокомплексе которых  регистрируются нарушения процесса сперматогенеза. Из анализа были исключены мутации приводящие к моногенным заболеваниям. С широким  внедрением секвенирования нового поколения (NGS), появился поток больших данных о последовательностях ДНК, и  становится всё более важным уметь определять приоритетность вариантов с потенциальным функциональным эффектом. Для выявления «вредных» генетических вариантов по принципу «кодон-кодон» было разработано множество биоинформатических инструментов. Современные биоинформационные инструменты, предназначенные для оценки влияния генетических вариаций на функцию белка, используют различные подходы, поэтому мы использовали в своей работе несколько инструментов, прогнозирующих уровень значимости генетических вариантов:  в том числе SIFT, PolyPhen2, MutPred,  PROVEAN, Meta SVM/LR, PredictSNP2 и   Revel.

Материал и методы

Из базы данных наследственных болезней OMIM было отобрано 15 генов, обладающих плейотропным эффектом в сиптомокомплексе которых  регистрируются нарушения процесса сперматогенеза (таблица 1).  Для каждого из 15  генов мы изучили уровень экспрессии, представленный в базе данных NCBI, выполненный в международном проекте при анализе транскриптомного уровня всех белок кодирующих генов человека в 27 тканях (BioProject: PRJNA270632; https://www.ncbi.nlm.nih.gov/gene).  Уровень экспрессии генов в тестикулярной ткани  относительно их транскрипционной активности во всех  других тканях  организма варьировал в пределах от 98,72 % до 4,76 % .  В этих генах был проведен анализ функциональной значимости генетических вариантов (таблица 2).   Из анализа были исключены мутации приводящие к моногенным заболеваниям. В работе использованы следующие инструменты, прогнозирующие уровень значимости генетических вариантов: Как видно из таблицы 2, использую базы данных международного проекта 1000 геномов, геномного браузера UCSC (Университета Калифорнии Санта Круз, США ) и NCBI (Национального центра биотехнологической информации, США)  мы обнаружили 6227 SNP в исследуемых генах . 

Таблица 1.

  Панель исследуемых генов, мутации в которых вызывают моногенные болезни и вмести с ними нарушают регуляцию сперматогенеза

Ген

Полное название гена

Функция в сперматогенезе

DMRT1

Doublesex and mab-3 related transcription factor 1

Tранскрипционный регулятор, работает как для активации, так и для подавления генов, способствуя формированию тестикул и подавляя развития яичников.

DAZL

Deleted in azoospermia like

Регуляция пролиферации и дифференциации герминативных клеток

TEX11

Testis expressed 11

Контролирует процесс спаривания пар гомологичных хромосом в профазе 1 мейоза

SYCP3

Synaptonemal complex protein 3

Фрагмент синапонемального комплекса. Этот комплекс участвует в процессе образования синапса.

CATSPER2

Cation channel sperm associated 2

Один из генов который кодирует катионный канал, локализующийся в жгутике сперматозоидов

BUB1B

BUB1 mitotic checkpoint serine/threonine kinase B

Кодирует киназу отвечающую за контрольную точку перед анафазой

POC1A

POC1 centriolar protein A

Участие в формировании базального телца и жгутика

GPX4

Glutathione peroxidase 4

Поддержание функции митохондрий и подавление апоптоза

NPHP4

Nephrocystin 4

Контроль функционирования микротрубочек в жгутике

ABCD1

ATP binding cassette subfamily

 D member 1

Транспорт жирных кислот в пероксисомы, уменьшение окислительного стресса на делящийся клетки

DAZAP1

DAZ associated protein 1

Участие в транскрипции, сплайсинге и трансляции РНК в поздних сперматоцитах и ранних сперматидах

DNAH1

Dynein axonemal heavy chain 1

Ген кодирует тяжелую цепь внутренней динеиновой ручки, которая обеспечивает структурную поддержку хвоста сперматозоида. Нарушения структуры аксонемы (отсутствие наружных и/или внутренних динеиновых ручек). Астенозооспермия

DCAF17

DDB1 and CUL4 associated factor 17

Образование каркаса для образования ДНК-лигазного комплекса. Снижение подвижности и дефекты морфологии сперматозоидов

SMN1

Survival of motor neuron 1

Сборка малых ядерных рибонуклеопротеинов, компонетов сплайсосомы. В предпубертатный период происходит нарушение сплайсинга в процессе сперматогенеза.

PKD1

Polycystin 1, transient receptor potential channel interacting

Кистоз тестикулярной ткани, синдром «только клетки Сертоли», азооспермия. 

Талица 2.  

Уровень экспрессии в тестикулах относительно других тканей  организма  и число генетических вариантов

Ген

 Число генетических вариантов

Уровень экспрессии в тестикулах относительно других тканей  организма (%)

DAZL

166

98,40%

TEX11

1783

44,63%

SYCP3

40

42,21%

CATSPER2

123

35,61%

BUB1B

278

29,27%

POC1A

201

21,96%

GPX4

26

12,79%

NPHP4

863

12,14%

ABCD1

76

9,67%

DAZP1

100

9,42%

DNAH1

205

8,05%

DCAF17

320

6,41%

SMN1

5

5,99%

PKD1

3

5,52%

CLPP

87

4,76%

 

PROVEAN (https://www.jcvi.org/research/provean) был разработан для прогнозирования  изменений последовательности белка на функцию белка. PROVEAN способен предоставлять прогнозы для любого типа вариаций последовательности белка, включая: одиночные или множественные аминокислотные замены; одиночные или множественные вставки аминокислот; делеции одной или нескольких аминокислот. Если показатель PROVEAN равен или ниже заранее определенного порогового значения (например, -2,5), прогнозируется, что вариант белка окажет "вредный" эффект. Если оценка PROVEAN превышает пороговое значение, прогнозируется, что вариант будет иметь "нейтральный" эффект (Choi, Y., Chan, A.,2015).

SIFT - Sorting Intolerant From Tolerant (https://sift.bii.a-star.edu.sg)  — это основанный на гомологии последовательностей инструмент, сортирующий не толерантные и толерантные аминокислотными замены и прогнозирует будет ли аминокислотная замена в белке будут иметь фенотипический эффект. SIFT способен предсказать какие единичные аминокислотные замены оказывать фенотипический эффект. Прогнозируется, что позиции с нормализованной вероятностью менее 0,05 будут вредными, прогнозируется, что позиции, превышающие или равные 0,05, будут допустимыми (Ng, P., Henikoff, S. , 2001)

PolyPhen-2 - Polymorphism Phenotyping v2, (http://genetics.bwh.harvard.edu/pph2) доступный в виде программного обеспечения и через веб-сервер, предсказывает возможное влияние аминокислотных замен на стабильность и функционирование белков человека, используя структурные и сравнительные эволюционные исследования. (Adzhubei et al., 2010).

MutPred —   http://mutdb.org/mutpredsplice. это биоинформатический инструмент использует машинное обучение для анализа различных функциональных эффектов генной мутации, включая изменения доменной структуры, изменения связывания белков, изменения аминокислотных замен (Pejaver et al., 2020).

Проверка предсказанных значимых  генетических вариантов далее определась в программах PredictSNP2  и Revel, основанных на комбинациях различных предсказательных методах.

PredictSNP2 (https://loschmidt.chemi.muni.cz/predictsnp2)— это инструмент для прогнозирования влияния единичных нуклеотидных полиморфизмов (SNP) на функцию белков. PredictSNP использует публичные базы данных геномных вариаций, такие как dbSNP и Ensembl, в качестве исходных материалов для предсказания функциональных последствий SNP. Инструмент анализирует различные признаки, такие как расположение SNP в гене, характер аминокислотной замены и существующие аналоги у других видов, чтобы определить вероятность, что ENP относится к классу патогенных мутаций (Bendl et al., 2016).

Revel (https://genome.ucsc.edu/cgi-bin/hgTrackUi?db=hg19&g=revel) В программе  использует алгоритм, основанный на комбинации показателей 13 отдельных инструментов: MutPred, FATHMM v2.3, VEST 3.0, PolyPhen-2, SIFT, PROVEAN, MutationAssessor, MutationTaster, LRT, GERP++, SiPhy, phyloP и phastCons, что позволяет получить наиболее точную оценку патогенности. Инструмент также использует базу данных ClinVar, содержащую клинически значимые генетические варианты, и сравнивает обнаруженные варианты с этой базой данных. Revel позволяет пользователям анализировать данные экзомного секвенирования и оценивать патогенность генетических вариантов. Инструмент также использует базу данных ClinVar, содержащую клинически значимые генетические варианты, и сравнивает обнаруженные варианты с этой базой данных (Ioannidis et al., 2016).

Meta SVM  —(Meta Support Vector Machine) —позволяет разделять данные на две категории и строить границу между ними, что делает его полезным для классификации белков на основе их структуры и последовательности аминокислот (Dong et al., 2015).

Meta LR (Meta Logistic Regression) — это метод классификации белков, использующий логистическую регрессию. В биоинформатике он очень полезен для анализа белков, поскольку позволяет изучать, какие факторы могут влиять на функцию белка и свойства его структуры (Dong et al., 2015).

 

 

Результаты исследований

 Для получения массивов данных об однонуклеотидных заменах для отобранных нами по уровню транскрипционной активности 15 генов был задействован геномный браузер UCSC, при помощи него из базы данных dbSNP были получены массивы данных, по каждому анализируемому гену.  При помощи пакета «Pandas» для «Python» массивы были отформатированы в таблицы со следующими столбцами: «хромосома», «позиция на хромосоме», «рефересная аллель», «альтернативная аллель»; пример подобного массива представлен в таблице 3.

Таблица 3

 Фрагмент отсортированного массива по гену DNAH1

Хромосома

Позиция на хромосоме

Рефересная аллель

Альтернативная аллель

3

52316729

G

A

3

52317537

T

G

3

52318283

C

T

 

Следующим этапом нашей работы был биоинформационный анализ 6227 генетических локусов в генах.  Анализ разделен на два этапа — это анализ влияния исследуемых SNP на функцию гена, при помощи различных программ работающих с аминокислотной последовательностью продукта гена, на втором этапе производился анализ нуклеотидной последовательности.   

В таблице 4 приведены результаты запроса из базы данных dbNSFP по соответствующим программам. SIFT, PROVEAN и Polyphen2 – интерпретируют свои результаты в виде буквенных диагнозов для SIFT это «D» и «T», deleterious (вредный) и tolerance (нейтральная) соответственно, PROVEAN аналогично SIFT интерпретирует свой результат в бинарном формате, мутации не имеющие существенного влияния помечены как «N» neutral (нейтральный), у Polyphen2 диагноз немного расширен «B» означает синонемическую замену (benign), «P» возможно повреждающую.

Таблица 4

Данные расчетов по программам  SIFT, Polyphen2, PROVEAN и MutPred.

Ген

rs ID

SIFT

Polyphen2

PROVEAN

MutPred

ABCD1

rs76637913

D

P

D

0,661

BUB1B

rs56079734

D

D

N

 

BUB1B

rs1801376

T

B

N

 

BUB1B

rs1017842

T

B

N

0,205

BUB1B

rs1801528

T

B

N

 

BUB1B

rs35611758

T

B

N

0,369

CATSPER2

rs143154095

T

B

N

 

CATSPER2

rs8042868

T

B

N

0,376

DAZL

rs139840516

T

B

D

0,369

DAZL

rs11710967

T

B

N

0,145

DAZAP1

rs575023279

D

D

N

0,209

DCAF17

rs3731983

T

P

D

0,696

DMRT1

rs3739583

T

B

N

 

DMRT1

rs35846503

T

B

N

 

DNAH1

rs55931436

T

 

N

 

DNAH1

rs13060192

T

 

N

 

DNAH1

rs61734654

D

 

D

 

DNAH1

rs74363541

T

 

N

 

DNAH1

rs61734640

D

 

D

 

DNAH1

rs17052095

D

 

D

 

DNAH1

rs74498533

T

 

N

0,712

DNAH1

rs61739896

T

 

D

 

DNAH1

rs56002041

T

 

N

 

DNAH1

rs28434358

T

 

N

 

DNAH1

rs61731638

D

 

D

 

DNAH1

rs61734628

T

 

N

0,288

DNAH1

rs419050

D

 

D

 

DNAH1

rs419752

D

 

D

 

DNAH1

rs12163565

T

 

N

 

GPX4

rs8178967

T

B

N

0,385

GPX4

rs73507255

T

B

D

 

NPHP4

rs555164

D

D

N

0,395

NPHP4

rs12084067

D

B

D

 

NPHP4

rs12120967

T

D

N

0,666

NPHP4

rs12093500

T

B

N

 

NPHP4

rs547378389

T

P

N

 

NPHP4

rs12142270

D

P

N

 

POC1A

rs35898691

T

B

N

 

D-deleterius – значимые, несинонимические мутации; вредные

T-tollerance – незначимые мутации, толерантные, нейтральные мутации;

P – пограничные мутации;

N- нейтральные, синонемичные, незначимые, толерантные мутации;

B – benign – доброкачественная, синонимичные, возможно значимые.

Как видно из представленных результатов прогнозы фенотипического проявления SNP в разных программах не всегда совпадают.

Для дальнейших исследований мы отобрали генетические варианты прогнозы, для которых совпали в двух или больше программ и провели оценку прогностической значимости генетических вариантов с помощью программ Meta SVM/LR, REVEL и Predictsnp2. Результат вычислений представлен в таблице 5.

Таблица 5

 Оценка прогностической значимости SNP с помощью программ Meta SVM/LR и REVEL.

Ген

rs ID

Meta SVM/LR

REVEL

ABCD1

rs76637913

D

0,579

BUB1B

rs56079734

T

0,125

BUB1B

rs1801376

T

0,061

BUB1B

rs1017842

T

0,007

BUB1B

rs1801528

T

0,066

BUB1B

rs35611758

T

0,037

CATSPER2

rs8042868

T

0,068

DAZL

rs139840516

T

0,072

DAZL

rs11710967

T

0,04

DAZAP1

rs575023279

T

0,302

DCAF17

rs3731984

T

0,023

DCAF17

rs3731983

T

0,263

DMRT1

rs3739583

T

0,013

DMRT1

rs35846503

T

0,068

DNAH1

rs55931436

T

0,071

DNAH1

rs13060192

T

0,04

DNAH1

rs61734654

T

0,086

DNAH1

rs74363541

T

0,117

DNAH1

rs61734640

T

0,132

DNAH1

rs17052095

T

0,41

DNAH1

rs74498533

T

0,154

DNAH1

rs61739896

T

0,167

DNAH1

rs56002041

T

0,059

DNAH1

rs28434358

T

0,065

DNAH1

rs61731638

T

0,525

DNAH1

rs61734628

T

0,239

DNAH1

rs419050

D

0,496

DNAH1

rs419752

T

0,245

DNAH1

rs12163565

T

0,041

GPX4

rs8178967

T

0,029

GPX4

rs73507255

T

0,135

NPHP4

rs555164

D

0,364

NPHP4

rs12084067

D

0,597

NPHP4

rs12120967

D

0,367

NPHP4

rs12093500

T

0,252

NPHP4

rs547378389

T

0,478

NPHP4

rs12142270

T

0,248

POC1A

rs35898691

T

0,141

SLC39A4

rs75920625

T

0,151

SLC39A4

rs7823979

T

0,344

SLC39A4

rs17855765

T

0,059

SLC39A4

rs117535951

T

0,025

SLC39A4

rs2280839

T

0,028

SLC39A4

rs115637224

T

0,029

SLC39A4

rs2280838

T

0,077

TEX11

rs4844247

T

0,16

TEX11

rs6525433

T

0,073

 

Meta SVM/LR – имеет бинарную интерпретацию своего результата «D» и «Т» что означает deleterious (вредный) и tolerance (нейтральная) соответственно. REVEL по аналогии с MutPred выдает свои результаты в цифровом виде в диапазоне от 0 до 1, где значение ближе к 1 означает большее влияние на функцию гена, с 0 обратная ситуация, для наглядности уровень значимости промаркирован цветом.

Следующим этапом были произведены расчеты прогностической значимости SNP при помощи программы Predictsnp2.  Отличительной особенностью данного инструмента является то, что он в качестве анализируемых данных использует нуклеотидную последовательность что позволяет узнать не только как мутация влияет непосредственно на сам ген, но и место, где произошла мутация и ее тип. В таблице 6 ниже приведены расчеты для SNP обнаруженными при помощи методов, указанных выше. Predictsnp2 интерпретирует свои результаты в бинарном формате «N» и «D» нейтральная (neutral) и (deleterious)   «вредная» соответственно.

 

 

Таблица 6.

Оценка прогностической значимости генетических вариантов с помощью программы Predictsnp2

Ген

rs ID

REF

ALT

Регион гена

Тип мутации

Влияние мутации

ABCD1

rs76637913

C

G

Exon

NS

N

BUB1B

rs56079734

C

T

Exon

NS

D

BUB1B

rs1801376

G

A

Exon

NS

N

BUB1B

rs1017842

G

C

Exon

NS

N

BUB1B

rs1801528

T

C

Exon

NS

N

BUB1B

rs35611758

A

C

Exon

NS

D

CATSPER2

rs8042868

C

T

Exon

NS

N

DAZL

rs139840516

A

T

Exon

NS

N

DAZL

rs11710967

T

C

Exon

NS

N

DCAF17

rs3731983

A

G

Exon

S

N

DMRT1

rs3739583

T

A

Exon

NS

N

DMRT1

rs35846503

A

G

Exon

NS

N

DNAH1

rs55931436

G

A

Exon

NS

N

DNAH1

rs13060192

G

C

Exon

NS

D

DNAH1

rs61734654

C

T

Exon

NS

N

DNAH1

rs74363541

C

G

Exon

NS

N

DNAH1

rs61734640

C

T

Exon

NS

D

DNAH1

rs17052095

G

A

Exon

NS

D

DNAH1

rs74498533

A

G

Exon

NS

N

DNAH1

rs61739896

C

T

Exon

NS

D

DNAH1

rs56002041

A

G

Exon

NS

N

DNAH1

rs28434358

A

G

Exon

NS

N

DNAH1

rs61731638

C

T

Exon

NS

D

DNAH1

rs61734628

C

G

Exon

NS

N

DNAH1

rs419050

C

G

Exon

NS

N

DNAH1

rs419752

C

T

Exon

NS

D

DNAH1

rs12163565

G

A

Exon

NS

N

GPX4

rs8178967

G

A

Exon

S

N

GPX4

rs73507255

A

G

Exon

NS

D

NPHP4

rs555164

T

A

Exon

NS

D

NPHP4

rs12084067

C

T

Exon

NS

D

NPHP4

rs12120967

C

T

Exon

S

N

NPHP4

rs12093500

G

C

Exon

NS

N

NPHP4

rs547378389

G

A

Exon

NS

N

NPHP4

rs12142270

G

A

Exon

NS

N

POC1A

rs35898691

C

A

Exon

NS

N

 

 Таким образом, в результате биоинформационного анализа  из 6227 SNP в исследуемых генах, нами отобрано 11 генетических вариантов для дальнейших верификационных исследований :   rs56079734;  rs35611758; rs13060192; rs74363541; rs17052095; rs61739896; rs419752; rs73507255; rs555164;  rs12084067.

Все найденные 11  генетических вариантов находятся в экзонах и согласно полученным прогнозам влекут за собой снижение функциональности белка.

Работа была выполнена при финансовой поддержке Министерства науки и высшего образования РФ в рамках государственного задания в сфере научной деятельности № FENW-2023-0018.

 

Список литературы (References)

  1. Adzhubei, I. A., Schmidt, S., Peshkin, L., Ramensky, V. E., Gerasimova, A., Bork, P., ... & Sunyaev, S. R. (2010). A method and server for predicting damaging missense mutations. Nature methods7(4), 248-249.
  2. Bendl, J., Musil, M., Štourač, J., Zendulka, J., Damborský, J., & Brezovský, J. (2016). PredictSNP2: a unified platform for accurately evaluating SNP effects by exploiting the different characteristics of variants in distinct genomic regions. PLoS computational biology, 12(5), e1004962.
  3. Choi, Y., & Chan, A. P. (2015). PROVEAN web server: a tool to predict the functional effect of amino acid substitutions and indels. Bioinformatics31(16), 2745-2747.
  4. Dong, C., Wei, P., Jian, X., Gibbs, R., Boerwinkle, E., Wang, K., & Liu, X. (2015). Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies. Human molecular genetics24(8), 2125-2137.
  5. Ioannidis, N. M., Rothstein, J. H., Pejaver, V., Middha, S., McDonnell, S. K., Baheti, S., ... & Sieh, W. (2016). REVEL: an ensemble method for predicting the pathogenicity of rare missense variants. The American Journal of Human Genetics, 99(4), 877-885.
  6. Ng, P. C., & Henikoff, S. (2001). Predicting deleterious amino acid substitutions. Genome research11(5), 863-874.
  7. Pejaver, V., Urresti, J., Lugo-Martinez, J., Pagel, K. A., Lin, G. N., Nam, H. J., ... & Radivojac, P. (2020). Inferring the molecular and phenotypic impact of amino acid variants with MutPred2. Nature communications11(1), 5918.
  8. Sherchkova, T. A., Grigoryan, N. A., Amelina, M. A., Lomteva, S. V., Alexandrova, A. A., Mashkina, E. V., & Shkurat, T. P. (2021). Role of XRCC1, XPC, NBN gene polymorphisms in spermatogenesis. Gene Reports24, 101238.

 

 

Статья поступила в редакцию 25 марта 2025 г.

Принята к печати 31  марта 2025 г.

Received 25, March, 2025

Accepted 31, March, 2025