Научно-технологическое развитие Российской Федерации

Генетические ассоциации от ученых из Новосибирска

Генетические ассоциации от ученых из Новосибирска

Ученые из Новосибирского государственного университета совместно с со специалистами нидерландской компании PolyKnomics за несколько лет собрали информацию об ассоциациях, полученных в генетических ассоциативных исследованиях. В рамках исследования они также занимались развитием вычислительной инфраструктуры и разработкой вычислительных методов унификации, контроля качества и анализа. В общей сложности они собрали и обработали десятки терабайт исходных данных, которые вошли в одну из самых больших в мире баз данных генетических ассоциаций. Итог их работы опубликован в журнале Nucleic Acids Research

«Мы надеемся, что разработанная нами база данных генетических ассоциаций будет полезна для решения широкого круга задач – от фундаментальных исследований генетики человека до разработки предсказательных моделей и поиска кандидатных терапевтических воздействий», – поясняет младший научный сотрудник лаборатории теоретической и прикладной функциональной геномики Факультета естественных наук НГУ Татьяна Шашкова.

Собранная база хранит результаты ассоциативных исследований более чем 7 тысяч признаков. В их число входят и количественные признаки, распространенные заболевания, уровни метаболитов, белков и гликанов. Также база содержит результаты нескольких крупномасштабных исследований контроля транскрипции генов. Общая сумма генетических ассоциаций - более чем 75 миллиардах. Специалисты создали веб-интерфейс PheLiGe, который позволяет получить доступ к базе данных.  А система GWAS-MAP открывает доступ к базе данных и широкому спектру анализа, благодаря интерфейсу командной строки.

«Разработанное нами совместно с НГУ технологическое решение является многоцелевым. Например, оно может быть шкалировано для хранения и обработки информации о миллионах геномов. Такие большие данные возникают в контексте национальных программ биобанкинга или программ геномной селекции», - говорит генеральный директор компании PolyKnomics Леннарт Карссен.

Схема, иллюстрирующая обработку данных. Модуль интеграции отвечает за преобразование суммарных статистик полногеномных исследований ассоциаций в универсальный формат и контроль качества данных. Референтная таблица используется для проверки и фильтрации аллельных вариантов. Если суммарные статистики проходят контроль качества, они вместе с метаданными выгружаются в базы данных (модуль БД). Наконец, данные становятся доступными для внешнего пользователя через веб-интерфейс», - говорит генеральный директор компании PolyKnomics Леннарт Карссен.

Схема, иллюстрирующая обработку данных. Модуль интеграции отвечает за преобразование суммарных статистик полногеномных исследований ассоциаций в универсальный формат и контроль качества данных. Референтная таблица используется для проверки и фильтрации аллельных вариантов. Если суммарные статистики проходят контроль качества, они вместе с метаданными выгружаются в базы данных (модуль БД). Наконец, данные становятся доступными для внешнего пользователя через веб-интерфейс

Напомним, что на количественные признаки и риск развития различных заболеваний человека оказывают влияние генетические факторы. Для их выявления использует полногеномные исследования ассоциаций (ПГИА). ПГИА помогают изучать этиологию заболеваний человека, разрабатывать модели предсказаний риска. Кроме того, такая информация может быть полезной в поиске кандидатных биомаркеров, терапевтических воздействий и мишеней таких воздействий. Генетических ассоциаций, которые исследовали ученые, становится все больше, их использование имеет ограничения, связанные с количеством и отсутствием единых стандартов формата и качества.

Источник