Сколтех | Школьники поставили нейросеть в тупик

В недавно опубликованной в журнале PLOS One статье учёные из Сколтеха и их коллеги описывают, как образовательный проект для школьников вылился в новую главу противостояния искусственного интеллекта и человека в биоинформатике. Согласно исследованию, ранее совершившая прорыв в предсказании структур белков программа, разработанная подразделением Google DeepMind, оказалась неспособна решить другую задачу структурной биоинформатики. При этом было получено свидетельство, которое всерьёз ставит под вопрос гипотезу о том, что ИИ смог «выучить физику» белков.

Постер проекта «Игры с Альфафолд2» на Школе молекулярной и теоретической биологии Сколтеха, которая прошла в онлайн-формате в 2021 году. Источник: Дмитрий Иванков

Структурная биоинформатика — научная область, в которой предсказываются структуры белков, РНК, ДНК и их взаимодействия с другими молекулами. Полученные знания ложатся в основу разработки лекарств или, например, белков — катализаторов реакций, не встречающихся в живой природе.

Последние годы в структурной биоинформатике развернулось противостояние человека и машины: вызов учёным бросил игровой искусственный интеллект компании DeepMind. С тех пор как в 2014 году её приобрёл Google, программы DeepMind показали выдающиеся результаты в числе прочего в шахматах, го и StarCraft II и в итоге добрались до вполне реальной задачи предсказания структуры белков по аминокислотной последовательности. Искусственный интеллект AlphaFold оказался столь успешен в решении этой проблемы, что к 2021 году многие стали всерьёз пророчить конец структурной биоинформатики. Казалось, машине удалось выучить саму фундаментальную физику белка, и теперь ей должны автоматически покориться остальные задачи в этой области.

«Мы решили проверить, так ли это, и применили AlphaFold к другой типичной для нашей науки задаче — предсказанию изменения стабильности белка вследствие одиночной мутации. То есть вы берёте некоторый известный белок, вносите в него минимально возможное изменение и хотите знать, полученный мутант будет стабильнее или нестабильнее и насколько. Так вот, с этой задачей AlphaFold не справился: предсказания никак не согласуются с известными экспериментальными данными. Собственно, его создатели и не утверждали, что AlphaFold пригоден для чего-то кроме предсказания структуры белков по аминокислотной последовательности, но ряд оптимистов ожидали прорыва и здесь — мы же показали обратное», — прокомментировал исследование его научный руководитель, старший преподаватель Центра молекулярной и клеточной биологии Сколтеха Дмитрий Иванков.

С практической точки зрения предсказывать изменение стабильности белка после мутации важно, например, для того, чтобы перебором мутаций находить устойчивые к высоким температурам варианты белков с полезными свойствами. Это может быть, например, белок для стирального порошка, который будет расщеплять разного рода загрязнения — другие белки, жиры, крахмал, микроворсинки — или сладкий белок, который можно было бы положить в горячий чай вместо сахара.

Но здесь важно в том числе само по себе заключение авторов статьи, что в существующем сегодня виде искусственный интеллект не панацея, и хотя он отлично справился с важнейшей проблемой структурной биоинформатики, которая занимала учёных больше полувека, остаётся ещё с десяток нерешённых проблем. Например, предсказание структур комплексов белков с малыми молекулами, ДНК или РНК, мутаций в белке и их влияния на энергию связывания с другими молекулами, белковый дизайн: какая нужна последовательность, чтобы сделать белок с некоторыми желаемыми свойствами, допустим катализатор, который может стать элементом крошечной «молекулярной фабрики».

Помимо очевидного вывода, что структурную биологию рано «закрывать», исследование косвенно опровергает гипотезу, что AlphaFold не просто усвоил все накопленные человечеством структуры белков и ловко ими оперирует, но и смог каким-то образом выучить саму фундаментальную физику белков. Этим порой объясняли его успех, однако, будь это так, программе бы не составило труда сопоставить две очень похожие структуры с точки зрения стабильности, а именно это оказалось ИИ не под силу.

Этот довод дополняет два ранее озвученных сомнения касательно «знания физики». Во-первых, AlphaFold предсказывает некоторые структуры, у которых боковые группы ориентированы так, как будто к ним привязан ион цинка. Но программа получает на вход только аминокислотную последовательность белка, то есть «незримый цинк» в результатах ощущается лишь постольку, поскольку в обучающих данных были аналогичные структуры белков, связанные с этим ионом. Без него предсказанная ориентация боковых групп физически некорректна. Во-вторых AlphaFold предсказывает одиночную структуру витиеватой цепи, которая выглядит для учёного правдоподобно, но лишь если мысленно достроить ещё две такие же цепи и переплести их вместе, иначе эта конструкция опять же несостоятельна с точки зрения физики. То есть программа запомнила и воспроизвела соответствующую структуру, которую вычленила из составной конструкции — законами физики она себя при этом не ограничивает.

«Занятно, что наше исследование выросло из „игрушечного“ проекта с участниками Школы молекулярной и теоретической биологии. Проект так и назывался: „Игры с АльфаФолд“. Как только AlphaFold был выложен в открытый доступ, мы в нашей лаборатории установили его на сколтеховский суперкомпьютер „Жорес“. Одна из игр заключалась в сопоставлении эффекта мутации с предсказаниями AlphaFold для структуры исходного и мутантного белка. Так и получилось исследование, в котором школьники соприкоснулись с суперкомпьютером и передовым искусственным интеллектом», — рассказала первый автор статьи, аспирант Сколтеха Марина Пак.

Помимо биоинформатиков из Сколтеха, в исследовании принимали участие учёные из Института науки и технологий Австрии и Окинавского института науки и технологий (Япония), а также школьники, которые сейчас учатся в Российском университете дружбы народов, Уральском федеральном университете и Западноамериканском колледже объединённого мира имени Арманда Хаммера (США).

Контакты:
Skoltech Communications
+7 (495) 280 14 81