Джозефсоновская микросхема научила квантовую память предсказывать будущее
С виду задача звучит почти буднично: есть ряд чисел, которые меняются во времени, и нужно угадать, каким будет следующий шаг. Так устроены и давление в атмосфере, и нагрузка в электросети, и температура, и бесчисленные «сигналы» в физике, биологии, экономике. Однако за этой простотой скрывается ключевой вызов современной обработке данных. Классические рекуррентные нейросети научились извлекать закономерности, которые не видны при поверхностном взгляде. Вопрос последних лет состоит в том, может ли квантовый процессор предложить для таких задач что-то практически работающее уже сейчас, в эпоху так называемых NISQ-устройств, «шумных» квантовых машин промежуточного масштаба.
В сверхпроводниковом квантовом компьютере информация хранится в состояниях искусственных атомов, которые представляют собой электрический контур из сверхпроводящего материала с джозефсоновскими переходами, рисунок которого задается на кремниевой подложке методами литографии. Информация может быть искажена: окружающая среда, взаимодействующая с информационными состояниями, несовершенство управляющих импульсов, ошибки считывания — все это постепенно пагубно влияет на квантовую память. Отсюда рождается необходимость тонкой настройки: сделать схему достаточно сложной, чтобы она умела выражать нужные зависимости, и одновременно достаточно простой, чтобы квантовые состояния не распадались до того, как из них извлекут информацию.
В качестве квантового аналога рекуррентной сети исследователи выбрали архитектуру QRNN — квантовую рекуррентную нейросеть. Логика здесь похожа на классическую: модель получает на вход отрезок временного ряда и на его основе предсказывает следующий элемент. Но способ «запоминания» и «переваривания» информации совсем другой. Вместо привычных матриц весов и нелинейностей используют параметризованные квантовые схемы — цепочки квантовых операций, в которых часть углов поворотов и параметры запутывающих элементов подбираются обучением. Результаты опубликованы в JETP Letters.
Авторы исследования решили выяснить, насколько обучаемой оказывается QRNN на реальном сверхпроводниковом чипе, какие настройки действительно улучшают качество предсказания, и где проходит граница, за которой усложнение схемы перестает приносить выигрыш. Для этого они построили полный «конвейер» — от подготовки данных и симуляции на классическом компьютере до переноса оптимальных гиперпараметров на квантовое оборудование и обучения уже на микросхеме.
Входной ряд сначала привели к удобному масштабу: значения масштабируются в диапазон от –1 до 1, чтобы их было проще кодировать в квантовые состояния. Затем из последовательности вырезали обучающие примеры: фрагмент из T последовательных точек и «ответ» — следующий элемент, который модель должна предсказать. Но напрямую скормить квантовому процессору длинный временной отрезок трудно: чем больше шагов нужно «пропустить» через схему, тем длиннее становятся цепочки квантовых операций и тем сильнее накапливаются ошибки.
Поэтому исследователи использовали классический прием из обработки сигналов — свертку. Из исходного отрезка длиной T сформировали более короткую последовательность признаков длиной τ методом скользящего окна; эти значения затем по одному, последовательно, подавались на вход квантовой схемы.
Как временной ряд превращают в прогноз: фрагмент данных сворачивается в компактную последовательность признаков, затем каждый шаг проходит через повторяющийся квантовый блок; измерение дает предсказание следующего значения / © JETP Letters (2025)
Сама квантовая часть устроена как повторяющийся блок операций. Половина кубитов играет роль «регистра»: туда непосредственно записываются текущие входные значения, а затем эти кубиты можно возвращать в базовое состояние, чтобы снова использовать для записи. Другая половина работает как память: будучи запутанной с регистром, она несет в себе след прошедших входов.
Кодирование данных происходит через вращения кубита, в которых угол поворота зависит от входного числа и пары обучаемых коэффициентов. После кодирования идут параметризованные однокубитные вращения вокруг разных осей — квантовый аналог набора «весов», который меняет внутреннее состояние системы. Затем применяется запутывание — серия двухкубитных операций, организованных в циклическую «лестницу», чтобы кубиты обменивались возбуждением и коррелировали друг с другом.
Отдельный прием, на который авторы делают ставку, называется data reuploading — повторная «перезагрузка» одних и тех же входных данных в схему несколько раз. Это делается для того, чтобы построить более богатые представления входного сигнала, не увеличивая число кубитов. Авторам исследования удалось показать в своей работе, что reuploading действительно снижает ошибку предсказания, а в некоторых режимах настройки параметров можно уменьшить ее даже на порядок.
Чтобы обучить сеть, исследователи использовали стандартный для регрессии критерий — среднеквадратичную ошибку, и оптимизацию по градиенту. Для вычисления градиента для каждого обучаемого угла выполнили измерения при двух значениях, сдвинутых на ±π/2, и по разности восстановили производную.
Прежде чем ставить эксперимент на чипе, команда тщательно исследовала модель в симуляторе, перебирая ключевые гиперпараметры: число кубитов, длину входного окна T, параметры свертки до τ элементов и число повторных загрузок данных. Результаты симуляции позволили сразу понять общие закономерности.
Увеличение числа кубитов улучшало качество обучения и снижало ошибку на тестовом сегменте временного ряда, но после шести кубитов проявлялось насыщение: выигрыш становился минимальным, а стоимость усложнения — ощутимой. При слишком маленьком T модель не превосходила наивный прогноз «завтра будет как сегодня», потому что входной фрагмент был слишком короток и не нес информации о динамике.
При слишком большом T время выполнения схемы росло, а качество обучения либо не улучшалось, либо обучение становилось медленнее. Оптимальным оказалось окно T = 10 с последующей сверткой до τ = 4 признака.
Для работы на сверхпроводниковом квантовом процессоре авторы выбрали задачу прогнозирования атмосферного давления, реальный набор данных из тестового пула. Они взяли конфигурацию, показавшую себя оптимальной в эмуляции: четыре кубита, свертка из T = 10 в τ = 4 и троекратный reuploading.
В таком режиме квантовая схема содержала 71 обучаемый параметр и глубину 99 слоев операций. На уровне аппаратуры это означало тщательно выстроенную последовательность микроволновых импульсов, которые последовательно реализовывали вращения и запутывающие iSWAP на выбранных трансмонах.
Сам чип представлял собой массив трансмонов с квазидвумерной топологией связей: на кристалле разведены линии управления, резонаторы для дисперсионного считывания и элементы обвязки.
Фрагмент компоновки сверхпроводникового процессора: выбранные трансмоны (пронумерованы), линии управления и считывания, резонатор дисперсионного чтения / © JETP Letters (2025)
Выбранные четыре кубита имели частоты перехода порядка нескольких гигагерц и времена релаксации и дефазировки в диапазоне от нескольких до десятков микросекунд, что задавало тот самый «дедлайн», в который нужно было уложить вычисление.
Один прогон параметризованной схемы занял около 5 микросекунд, считывание — около 0,5 микросекунды, а затем системе потребовалось порядка 100 микросекунд, чтобы вернуться в основное состояние. Чтобы оценить один выход сети при фиксированных параметрах, измерение повторили тысячу раз и усреднили. А чтобы посчитать градиент по правилу сдвига параметра, пришлось выполнять сотни таких измерений для разных углов (авторы указали среднее число 343). При изменении угла однокубитного вращения нужно порядка 100 микросекунд, и именно это существенно увеличило полное время на один элемент обучающей последовательности. В статье приводится оценка: на обработку одного элемента обучающей последовательности уходит примерно 71 секунда, а одна эпоха обучения занимает около пяти часов. За 25 эпох суммарное время экспериментального обучения превышает 100часов, и это при том что отдельные квантовые операции выполняются за десятки наносекунд.
Тем не менее главное в этой истории не скорость, а то, что обучение на реальном процессоре вообще сохраняет «смысл». Авторы показывают, что на чипе кривая обучения становится более шумной и смещается по сравнению с эмуляцией из-за конечной когерентности и ошибок операций, однако общий тренд остается нисходящим: модель учится. Ученые сравнили ход обучения на симуляторе и на квантовом железе, и показали, что даже в условиях аппаратных ограничений обучение не разваливается в хаос, а сохраняет направленность к меньшей ошибке.
Сергей Самарин, инженер лаборатории искусственных квантовых систем МФТИ, прокомментировал: «В эпоху шумных квантовых процессоров времена когерентности кубитов могут оказаться сопоставимыми со временем, необходимым для выполнения квантовых операций в цепочке, поэтому приходится балансировать между глубиной алгоритма и сохранностью квантового состояния».
Олег Астафьев, заведующий лабораторией искусственных квантовых систем МФТИ, добавил: «Мы показали, что свертка при кодировании и многократная перезагрузка данных повышают эффективность обучения, а дальнейшее ускорение возможно, если сократить время релаксации системы за счет безусловного сброса кубитов».
Чтобы понять, насколько хорошо работает квантовая модель, исследователи сравнили лучшие достигнутые значения ошибки с классическими рекуррентными архитектурами RNN, LSTM и GRU, причем число параметров в сравниваемых моделях не превышало сотни. На одних рядах QRNN проигрывает лучшим классическим вариантам, на других оказывается сопоставимым, а на некоторых даже показывает лучший результат среди компактных моделей.
Исследователям удалось свести воедино три трудносочетаемые вещи: рекуррентную обработку временных рядов, вариационные квантовые схемы и реальные аппаратные ограничения сверхпроводникового процессора. Во многих работах квантовое машинное обучение остается лишь на уровне симуляций. Здесь же архитектура подстроена под набор реально реализуемых вентилей, а анализ «обучаемости» проведен с прицелом на то, что модель должна переноситься на чип.
Важной частью исследования стала разработка методики по сочетанию классической свертки и квантовой обработки: свертка уплотняет информацию и сокращает глубину квантовой части, что помогает бороться с декогеренцией. Систематическое исследование reuploading показало, что эффективность обработки временного ряда можно наращивать, не увеличивая число кубитов, а всего лишь повторно вводя данные в схему.
Прогнозирование временных рядов — универсальная подзадача в инженерии: от мониторинга состояния оборудования и предиктивного обслуживания до оценки нагрузки в энергосетях и фильтрации шумных измерений в экспериментальной физике. Если квантовые устройства научатся выполнять такие задачи хотя бы на уровне компактных классических моделей, это откроет путь к гибридным системам, где часть вычислений делается квантовым модулем, а часть — классическим, и выигрыш будет определяться разумной архитектурой всего конвейера.
Кроме того, исследование дает фундаментальный вклад в понимание того, как именно учатся параметризованные квантовые схемы на реальном железе: где наступает насыщение от добавления кубитов, как выбирать длину входа, чем платить за глубину.
Сколько кубитов «имеет смысл»: при росте числа кубитов ошибка прогноза падает, но после определенного порога выигрыш насыщается; показана также планка наивного прогноза «завтра будет как вчера» / © JETP Letters (2025) Обучение в реальности: на сверхпроводниковом чипе кривая более шумная и смещена относительно эмулятора, но общий тренд одинаковый — модель обучается, ошибка уменьшается / © JETP Letters (2025)
Перспективы дальнейших исследований здесь растут из тех же ограничений, которые сейчас тормозят прогресс. Авторы указывают очевидный следующий шаг: радикально ускорить обучение за счет сокращения времени релаксации системы, например применяя безусловный сброс кубитов, который может уменьшить паузу ожидания до микросекунды. Это изменит экономику эксперимента: если не нужно ждать сотни микросекунд между прогонами, число эпох и объем данных, доступных для обучения на железе, резко возрастут.
Другой путь — расширение выходного пространства модели: нынешняя схема предсказывает один признак, считывая один кубит, но при мультиплексированном считывании нескольких кубитов можно увеличить размерность выходного вектора и перейти к более сложным прогнозам. Наконец, остается большой пласт вопросов о том, какие схемы кодирования данных лучше подходят для сверхпроводниковых платформ, как оптимально сочетать классическую предобработку и квантовую часть и где проходит граница, после которой квантовая рекуррентная архитектура начнет выигрывать не только «по качеству при малом числе параметров», но и по эффективности на реальных прикладных задачах.