Новости

Нейросеть научилась распознавать химические формулы из научных статей

21 февраля 2022

Исследователи из основанного в Сколтехе стартапа «Синтелли», МГУ им. Ломоносова и Университета «Сириус» разработали нейронную сеть для автоматического распознавания химических формул на сканах научных статей. Метод станет важным шагом на пути к химической системе искусственного интеллекта, которая будет способна «читать» и «понимать» статьи не хуже высококвалифицированного специалиста. Статья опубликована в журнале Chemistry-Methods.

Химические научные данные не устаревают: если какое-то соединение было синтезировано в прошлом веке, информация о его структуре, свойствах и методах синтеза остается актуальной по сей день. Однако сейчас не все печатные источники переведены в цифровой формат, что иногда усложняет задачу современных исследований. Кроме того, не существует единого стандарта представления химических формул. Химики привыкли использовать множество приемов сокращения записи известных химических групп.

Однако у исследователей уже был опыт решения схожих задач — нейросеть «Трансформер», предложенная компанией Google для машинного перевода с одного языка на другой. Теперь ученые решили «переводить» изображение молекулы или молекулярного шаблона в специально разработанное текстовое представление этого шаблона. Это представление исследователи назвали Functional-Group-SMILES.

Нейросеть оказалась способна выучить практически все, если выбранный стиль отображения был представлен в обучающем наборе данных. Однако «Трансформер» сам по себе требует десятки миллионов примеров для обучения. Вручную вырезать из журналов столько химических формул просто невозможно. Тогда исследователи решили посмотреть на проблему под другим углом: сделать генератор данных, который будет создавать случайные молекулярные шаблоны, комбинируя различные фрагменты молекул и стили отрисовки.

«Наше исследование наглядно демонстрирует сдвиг парадигмы в области оптического распознавания химических структур. Если раньше исследователи работали над тем, как распознать молекулярные структуры, то благодаря уникальной производительности нейросетей типа “Трансформер” возможно полностью сфокусироваться именно на создании генератора искусственных примеров, имитирующих большинство возможных стилей отрисовки молекулярных шаблонов. Наш алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и т. п. Даже химику будет тяжело сказать, была ли молекула взята из существующей статьи, или ее рисунок создан нашим генератором», — говорит руководитель исследования Сергей Соснин.