Где ДНК складывается в «переключатели»: исследователи составили полногеномную карту квадруплексов
При слове «ДНК» обычно вспоминают двойную спираль. Но эта молекула может принимать и другие формы. Некоторые участки нити ДНК способны расплетаться, изгибаться и образовывать небольшой узел. Если в таком фрагменте много гуанина (в записи ДНК обозначается буквой G), нить может сложиться в квадруплекс — объемную структуру, в которой несколько слоев гуанина укладываются друг над другом. Для белков, управляющих работой генов, это заметный ориентир: по таким структурам они находят нужный участок ДНК.
Квадруплексы существуют недолго: эти структуры быстро появляются, выполняют свою работу и исчезают, поэтому эксперименты успевают зафиксировать только часть из них. При этом разные методы ловят разные типы структур. Из-за этого не удавалось создать полногеномную карту квадруплексов, включающую все участки ДНК, где они формируются.
Чтобы решить эту проблему, команда ВШЭ дообучила языковую геномную модель DNABERT на данных о квадруплексах и на основе ее предсказаний восстановила, где в геноме возникают такие структуры. Исследование опубликовано в журнале Nucleic Acids Research.
«В своей работе мы дообучили DNABERT на крупнейшей в мире базе экспериментально подтвержденных квадруплексов EndoQuad и получили модель GQ-DNABERT. Она по последовательности ДНК оценивает, где с высокой вероятностью может образоваться квадруплекс», — комментирует один из авторов статьи, директор Центра биомедицинских исследований и технологий ФКН НИУ ВШЭ Мария Попцова.
В отличие от простых алгоритмов, которые ищут только подходящую последовательность для квадруплекса, GQ-DNABERT учитывает и окружение этого участка в ДНК, от которого зависит, складывается ли участок в квадруплекс. Благодаря этому модели удалось предсказать около 360 тысяч квадруплексов — намного больше, чем находили отдельные экспериментальные методы.
Модель подтвердила уже известный факт, что квадруплексы часто возникают в промоторах — участках ДНК перед генами, где запускается считывание гена. Неожиданным результатом было то, что много квадруплексов оказалось и в ближних энхансерах — элементах генома, которые ускоряют считывание гена и тем самым влияют на то, сколько белка образуется. Исследователи обнаружили, что квадруплексы часто одновременно формируются и в промоторе, и в энхансере и образуют пары, которые совместно регулируют активность гена.
Чтобы проверить роль этих пар в клетке, исследователи использовали данные одноклеточного секвенирования, полученные из экспериментов. В таких наборах заранее рассчитано, какие участки ДНК статистически связаны с активностью конкретных генов. Наложив на эти данные карту GQ-DNABERT для шести типов тканей, ученые выяснили, что пары промотор — энхансер чаще связаны с генами, отвечающими за тканеспецифичные функции: в мозге — за развитие и работу нейронов, в крови — за функции иммунных клеток, в кишечнике — за работу эпителия. Затем исследователи изучили такие пары в опухолевых тканях и сравнили их с парами в здоровых тканях. По числу промоторно-энхансерных комбинаций с квадруплексами заметных различий не оказалось. Зато резко различались функции генов.
«В нормальных клетках эти пары были связаны с программами, характерными для конкретной ткани, а в раковых — с универсальными процессами клеточного деления и роста, которые обеспечивают размножение опухолевых клеток вне зависимости от исходной ткани, — комментирует Мария Попцова. — Иначе говоря, в нормальных клетках такие пары поддерживают специализацию ткани, а в раке включены в общие программы быстрого деления клеток».
Биологические процессы, связанные с генами, с которыми связаны пары промотор — энхансер, в нормальных и раковых тканях: мозга (D), молочной железы (E) и поджелудочной железы (F). Каждая строка соответствует группе генов с общей функцией, а цвет показывает, к какому состоянию ткани относится этот процесс: голубой — нормальная ткань, красный — раковая / © Dmitry Konovalov, Dmitry Umerenkov, Alan Herbert, Maria Poptsova, GQ-DNABERT reveals GQ proximal enhancer–promoter interactions associated with tissue-specific transcription, Nucleic Acids Research, Volume 53, Issue 19, 28 October 2025, gkaf1007
Отдельный анализ с использованием данных проекта Zoonomia показал, что многие элементы с квадруплексами консервативны у разных видов млекопитающих. Это говорит о том, что механизм возник давно, оказался полезным и сохранялся в ходе эволюции.
Полученная карта квадруплексов помогает лучше понять, как эти структуры регулируют работу генов в нормальных и опухолевых клетках. В перспективе такие данные можно использовать для разработки новых противоопухолевых препаратов, которые будут избирательно взаимодействовать с квадруплексами.