Протеогеномика

22.10.2021

Протеогеномика — это область биологических исследований, в которой используется сочетание протеомики, геномики и транскриптомики, с целью обнаружения и идентификации пептидов. Протеогеномика применяется для идентификации новых пептидов путем сравнения спектров МС/МС (англ. Tandem mass spectrometry) с базой данных белков, которая была получена из геномной и транскриптомной информации. Протеогеномика часто относится к исследованиям, использующим протеомную информацию, полученную, например, методом масс-спектрометрии, для улучшения аннотаций генома (англ. DNA annotation). Геномика изучает ДНК и генетический код целых организмов, в то время как транскриптомика имеет дело с последовательностями РНК и транскриптов. Протеомика использует тандемную масс-спектрометрию и жидкостную хроматографию для определения и изучения функций белков. Протеомика используется для обнаружения всех белков, экспрессируемых в организме, известных как его протеом. Нерешённая проблема протеомики заключается в том, что она основывается на предположении, что современные модели генов верны и что правильные последовательности белка можно найти с помощью базы данных эталонных последовательностей; Однако это не всегда так, поскольку некоторые пептиды не могут быть найдены в базах данных. Кроме того, новые белковые последовательности могут возникать в результате мутаций. Данная проблема может быть решена с использованием протеомных, геномных и транскриптомных данных. Совместное использование методов протеомики и геномики привело к появлению протеогеномики, которая выделилась в самостоятельную область в 2004 году.

Методология

Основная идея протеогеномного подхода заключается в идентификации пептидов путем сравнения данных МС / МС с белковыми базами данных, которые содержат предсказанные белковые последовательности. Базы данных белков создается различными способами с использованием геномных и транскриптомных данных. Ниже приведены некоторые способы создания баз данных белков:

Шестирамочные трансляции

Для создания базы данных, которая предсказывает белковые последовательности, могут быть использованы шесть возможных трансляций двухцепочечной молекулы ДНК. Ограничением этого метода является то, что базы данных будут очень большими из-за количества генерируемых последовательностей, большинство из которых не существуют в природе.

Предсказание генов ab initio

В этом методе белковая основа генерируется с помощью алгоритмов предсказания генов, которые позволяют идентифицировать области, кодирующие белок. База данных, созданная таким образом, похожа на базу данных, созданную с помощью шестирамочной транскрипции, тем, что может иметь очень большой размер.

Другие методы

Белковые БД могут также быть созданы с использованием данных РНК-секвенирования, аннотированных РНК транскриптов, и вариантов белковых последовательностей. Кроме того, существуют другие более специализированные базы данных белков, которые могут быть созданы для корректной идентификации конкретных пептидов.

К другому методу идентификации белков в протеогеномике относится сравнительная протеогеномика, которая основана на сравнении протеомных данных нескольких связанных видов одновременно и использует гомологию между их белками для улучшения аннотаций с более высокой статистической достоверностью.

Применения

Среди многообразных применений протеогеномики улучшение аннотации генов у различных организмов. Как известно, генная аннотация включает в себя обнаружение генов и их функций. Особенно полезной протеогеномика стала в области создания и улучшения аннотаций геномов различных прокариотических организмов. Протеогеномный подход использовался в исследованиях по аннотации геномов различных микроорганизмов: Escherichia coli, различные виды бактерий родов Mycobacterium и Shewanella.

Помимо улучшения аннотаций генов, протеогеномные исследования могут также предоставить ценную информацию о наличии запрограммированных сдвигов рамок считывания, удаление N-концевого остатка метионина, сигнальных пептидов, протеолиза и других посттрансляционных модификаций.

Трудности

Протеогеномика может предложить методы идентификации пептидов, не имея проблемы в виде неполных и неточных белковых баз данных, с которой сталкивается протеомика; однако при использовании протеогеномного подхода возникают другие трудности. Одна из самых больших проблем протеогеномики — размер генерируемых баз данных белков. Статистически, большая база данных белков с большей вероятностью приведет к неправильному сопоставлению данных из базы данных белков с данными МС/МС, эта проблема может помешать идентификации новых пептидов. Большое количество ложноположительных результатов идентификации также представляет трудность при протеогеномном подходе. Ложноположительные результаты могут возникать в результате формирования очень больших баз данных белков, где несоответствующие данные приводят к неправильной идентификации. Другой проблемой является неправильное сопоставление спектров МС/МС с данными белковой последовательности, которые соответствуют аналогичному пептиду вместо фактически присутствующего. Возможно получение данных о пептиде, расположенном в нескольких сайтах, в результате чего эти данные могут быть интерпретированы различными способами. Несмотря на эти проблемы, существуют способы уменьшить количество возникающих ошибок. Например, при работе с очень большой базой данных белков можно сравнить идентифицированные новые пептидные последовательности со всеми последовательностями в базе данных, а затем сравнить посттрансляционные модификации. Затем можно определить, представляют ли две последовательности один и тот же пептид или это два разных пептида.


Имя:*
E-Mail:
Комментарий: