WWW.LIBRUS.DOBROTA.BIZ
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - собрание публикаций
 

«НАУЧНО-ТЕХНИЧЕСКИЙ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ ноябрь–декабрь 2018 Том 18 № 6 ISSN 2226-1494 SCIENTIFIC AND TECHNICAL ...»

ПОДКРЕПЛЕННЫЙ ПОСЛЕДОВАТЕЛЬНОСТЬ-К-ПОСЛЕДОВАТЕЛЬНОСТИ КОНКУРЕНТНЫЙ …

НАУЧНО-ТЕХНИЧЕСКИЙ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ

ноябрь–декабрь 2018 Том 18 № 6 ISSN 2226-1494 http://ntv.ifmo.ru/

SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS

November–December 2018 Vol. 18 No 6 ISSN 2226-1494 http://ntv.ifmo.ru/en УДК 004.855.5: 004.032.26

ПОДКРЕПЛЕННЫЙ ПОСЛЕДОВАТЕЛЬНОСТЬ-К-ПОСЛЕДОВАТЕЛЬНОСТИ

КОНКУРЕНТНЫЙ АВТОЭНКОДЕР ДЛЯ ГЕНЕРАЦИИ МАЛЫХ

ОРГАНИЧЕСКИХ МОЛЕКУЛЯРНЫХ СТРУКТУР

Е.О. Путинa Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация a Адрес для переписки: putin.evgeny@gmail.com Информация о статье Поступила в редакцию 20.09.18, принята к печати 25.10.18 doi: 10.17586/2226-1494-2018-18-6-1084-1090 Язык статьи – русский Ссылка для цитирования: Путин Е.О. Подкрепленный последовательность-к-последовательности конкурентный автоэнкодер для генерации малых органических молекулярных структур // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 6. С. 1084–1090. doi: 10.17586/2226-1494-2018-18-6-1084-1090 Аннотация Исследованы современные модели глубокого обучения для генерации целевых малых органических молекулярных структур. Исследования проводились на двух выборках размером в 250 000 лекарственно-подобных молекулярных соединений из базы ZINC и 23 000 активных ингибиторов киназ, собранных вручную из открытой базы ChemBL .

Предложена модель глубокой нейронной сети, основанная на концепциях конкурентного обучения и обучения с учителем. Модель контролирует молекулярную восстанавливаемость генерируемых структур за счет использования конкурентный seq2seq автоэнкодера и внешнего генератора. Наличие внешнего генератора обеспечивает гибкость модели в выборе архитектуры, а также позволяет подавать на вход условия для генерации. Сравнительные эксперименты показали, что предложенная модель превзошла ближайших конкурентов в экспериментах с предобучением и дообучением с точки зрения генерации валидных и уникальных молекулярных структур .

Дополнительный химический анализ генерируемых структур демонстрирует лучшее качество генерации предлагаемой модели в сравнении с другими моделями конкурентами. Практическая значимость. Предложенная модель может быть использована для разработки новых лекарственных препаратов медицинскими химиками в качестве умного помощника .

Ключевые слова машинное обучение, глубокое обучение, обучение с подкреплением, генеративные конкурентные нейронные сети, дизайн и разработка лекарств Благодарности Работа выполнена при финансовой поддержке Правительства Российской Федерации, грант 074-U01 и РФФИ, грант 16-37-60115-мол_а_дк .

REINFORCED SEQ2SEQ ADVERSARIAL AUTOENCODER

FOR DE NOVO MOLECULAR DESIGN

E.O. Putina a ITMO University, Saint Petersburg, 197101, Russian Federation Corresponding author: putin.evgeny@gmail.com Article info Received 20.09.18, accepted 25.10.18 doi: 10.17586/2226-1494-2018-18-6-1084-1090 Article in Russian For citation: Putin E.O. Reinforced seq2seq adversarial autoencoder for de novo molecular design. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2018, vol .




18, no. 6, pp. 1084–1090 (in Russian). doi: 10.17586/2226-1494-2018-18-6-1084-1090 Abstract Subject of Research. The modern models of deep training for generation of target small organic molecules are studied. The studies were carried out on two datasets of 250,000 drug-like molecular compounds from the ZINC database and 23,000 kinase molecular structures collected manually from the open accessed ChemBL database. Method. We propose the model of a deep neural network based on the concepts of adversarial learning and reinforcement learning. The model controls the molecular validity of the generated structures through the use of a recurrent seq2seq autoencoder and an external generator .

The presence of an external generator gives the model flexibility in the choice of architecture, and also allows for the input Научно-технический вестник информационных технологий, механики и оптики, 1084 2018, том 18, № 6 Е.О. Путин conditions for the generation. Main Results. Comparative experiments have shown that the proposed model is better than its closest competitors in experiments with pre- and post-training in terms of generating valid and unique molecular structures .

Additional chemical analysis of generated structures demonstrates the best quality of the introduced model in comparison with the other competitor models. Practical Relevance. The proposed model can be used by medical chemists as an intelligent assistant for development of new drugs .

Keywords machine learning, deep learning, reinforcement learning, generative adversarial networks, drug design and development Acknowledgements This work was financially supported by the Government of the Russian Federation, Grant 074-U01, and the Russian Foundation for Basic Research, Grant 16-37-60115 mol_a_dk .

Введение Ранние этапы разработки новых лекарственных препаратов (drug design and discovery, DDD) основаны на трех важнейших научных дисциплинах: in silico-моделировании, которое включает в себя дизайн лекарства и его виртуальную оценку, комбинаторном органическом синтезе и высокопроизводительном биологическом скрининге (high throughput screening, HTS) [1]. Огромное количество новых лекарственных молекул с разнообразной структурой было обнаружено с помощью этого кумулятивного подхода .

Однако DDD-процесс крайне долгий и дорогой. Так, например, от разработки до вывода препарата на рынок может потребоваться 10 лет и 2,6 млрд долларов [2]. Более того, по оценкам [3], запатентовано до 70 % всех возможных структурных модификаций молекулы-кандидата (соединение, предназначенное для тестирования на животных или людях), поэтому, как правило, медицинский химик обычно сталкивается с очень узким химическим пространством вокруг запатентованной молекулы-кандидата .

Помимо этого, пространство всех органических синтетически доступных лекарственно-подобных молекул оценивается от 1060 до 10100 соединений [4]. Поэтому обход такого пространства с его виртуальной оценкой, и тем более с выполнением HTS, является вычислительно невозможной задачей .

Таким образом, возникает потребность в разработке новых компьютерных моделей и методов, способных создавать молекулярную структуру лекарства и проводить ее виртуальную оценку, обеспечивая необходимое разнообразие и новизну генерируемых структур .

В последнее время методы машинного обучения, и в частности глубокие нейронные сети, достигли значительного прогресса в распознавании образов, обработке естественного языка [5], биомедицине [6], биоинформатике [7, 8] и во многих процессах современного DDD [9–14]. Так, задача генерации новых молекулярных соединений с заданными структурами и свойствами может быть адаптирована как подход, основанный на данных (data-driven) для порождения новых качественных молекул, нацеленных на конкретную белковую мишень или класс мишеней .

Однако современные модели должны иметь возможность порождать интересные и привлекательные по структупе молекулярные соединения, быть легко синтезируемыми и удовлетворять целевым закономерностям и критериям медицинской химии. К таким критериям можно отнести разработку лекарственно-подобных молекул, не содержащих токсичные подфрагменты .

Цель настоящей работы заключается в разработке новой модели Reinforced Seq2seq Adversarial Autoencoder (RSAAE) глубокой нейронной сети, основанной на объединении конкурентного обучения и обучения с подкреплением [15–17] для генерации малых молекулярных органических структур .

Предлагаемая архитектура использует рекуррентный автокодировщик на основе парадигмы seq2seq [18], это позволяет отображать молекулярное соединение в латентное пространство (скрытый слой нейронной сети), а также получать молекулярную структуру по точке в латентном пространстве. Такой подход дает возможность контролировать долю валидных с точки зрения валентности молекулярных структур, накладывать на латентное пространство дополнительные ограничения (такие как условие [19]), выполнять предобучение и перенос знаний на небольшие выборки целевых молекулярных структур. Более того, возможно проводить анализ (интерполировать, кластеризовать, оптимизировать) латентного пространства, что может привести к повышению эффективности генерируемых молекулярных структур .

Модель RSAAE Архитектура предлагаемой модели представлена на рисунке (f(x) слева обозначает гауссиану, а справа – сигмоиду, x – переменная). Модель состоит из пяти компонентов: энкодера Э, декодера Де, генератора Г, дискриминатора Ди и блока обучения с подкреплением. Энкодер и декодер образуют seq2seq автоэнкодер, который предобучается с использованием функции награды, а генератор и дискриминатор реализуют парадигму конкурентного обучения. Совместно генератор и декодер задают процесс генерации новых молекулярных структур .

Энкодер отображает оригинальные молекулярные структуры, представленные в строковом формате SMILES (Simplified Molecular-Input Line-Entry System) [20], в точки латентного пространства. Декодер, в свою очередь, отображает точки из латентного пространства в молекулы. Обучаясь вместе, энкодер и декодер Научно-технический вестник информационных технологий, механики и оптики, 2018, том 18, № 6

ПОДКРЕПЛЕННЫЙ ПОСЛЕДОВАТЕЛЬНОСТЬ-К-ПОСЛЕДОВАТЕЛЬНОСТИ КОНКУРЕНТНЫЙ …

–  –  –

Латентное SMILES пространство SMILES Архитектура модели RSAAE В случае RSAAE генератор по входному шуму из стандартного нормального распределения порождает точки латентного пространства. Дискриминатор, принимая точки латентного пространства от энкодера или генератора, определяет, является ли точка (молекула) реальной или сгенерированной .

Пятый компонент RSAAE отвечает за то, чтобы генерируемые молекулярные структуры обладали конкретными целевыми свойствами (заданными пользователем при запуске обучения модели). Это достигается за счет использования обучения с подкреплением, при котором по выходным молекулам с декодера вычисляется объектная функция награды (ФН) [16, 17]. Примером такой функции может быть какой-либо критерий медицинской химии, например, критерий того, что молекула является лекарственноподобной. За счет использования ФН, которой должны соответствовать генерируемые молекулярные структуры в процессе обучения модели, достигается возможность генерировать молекулы с заданными свойствами .

Так как выход с декодера является дискретным (SMILES-строка), то стандартный метод распространения ошибки не может быть использован. В таких случаях применяются методы policy gradient, а именно в модели RSAAE используется алгоритм REINFORCE [21] .

Необходимо отметить, что в генеративных конкурентных автоэнкодерах (adversarial autoencoder, AAE) [22] декодер и генератор – это одно и то же, в то время как RSAAE разделяет декодер и генератор, т.е. использует внешний генератор, что обеспечивает гибкость выбора архитектуры генератора, а также позволяет подавать на вход генератору помимо шума некоторое условие [19] .

С другой стороны, RSAAE отличается от моделей ORGANIC [15], RANC [16], ATNC [17] использованием рекуррентного seq2seq автоэнкодера, что дает возможность контролировать восстанавливаемость, проводить эффективное предобучение на больших наборах данных и дообучение на небольших выборках (что крайне актуально для DDD), осуществлять перенос знаний, анализировать латентное пространство и накладывать на него различные ограничения .

Эффективное предобучение – крайне важное преимущество модели RSAAE перед ORGANIC, RANC, ATNC. Оно позволяет обучить RSAAE на огромном наборе молекулярных соединений, например, на всей базе ZINC в 35 млн молекул и выучить общие молекулярные зависимости для разных хемотипов молекулярных структур с контролируемой точностью валидности, т.е. покрыть все возможное молекулярное пространство. Далее можно предобученную модель дообучить на специфической задаче (например, генерации различных активных ингибиторов киназ) .

Для модели RSAAE может быть реализовано несколько алгоритмов обучения. Например, можно обучать все компоненты модели совместно с нуля либо делать это поочередно. Однако самый лучший с точки зрения стабильности обучения модели алгоритм представляет собой предобучение seq2seq автоэнкодера с подкрепляющим блоком, и далее – обучение генератора и дискриминатора .

Экспериментальное исследование модели RSAAE Так как RSAAE расширяет и развивает модели ORGANIC, RANC, ATNC, целью экспериментов было сравнение этих моделей. Эксперименты выполнялись на NVIDIA Titan X Pascal с 256 RAM с Научно-технический вестник информационных технологий, механики и оптики, 1086 2018, том 18, № 6 Е.О. Путин одинаковыми настройками и гиперпараметрами [16, 17].

Всего было проведено два эксперимента с функцией награды по правилу пяти Липинского [15]:

1) Kin – обучение моделей осуществлялось «с нуля» на небольшой целевой выборке молекул, в качестве которой использовалось собранное вручную подмножество (набор данных Kin) из 23 000 лекарственно-подобных молекул, относящихся к классу киназной химии, доступных в базе ChemBL [23]. При этом средняя длина SMILES-строк молекул в наборе данных Kin составила 54 символа;

2) ZINC+Kin – предобучение моделей в этом случае осуществлялось на большой выборке молекулярных структур, а дообучение – на целевой выборке Kin. При этом в качестве набора тренировочных образцов для экспериментов с предобучением использовалось подмножество лекарственноподобных молекул из базы ZINC [24]. Обучающая выборка составила 250 000 молекулярных структур, средняя длина SMILES-строк молекул в наборе данных ZINC составила 44 символа .

Для оценки качества генеративных моделей в работе применены следующие математические статистики: процент валидных (valid) молекул из общего числа сгенерированных SMILES-строк (валидность проверялась функцией MolFromSmiles из библиотеки RDKit ), процент уникальных (Unique) молекулярных структур из общего числа валидных молекул, средняя длина (Length) сгенерированных SMILES-строк из числа валидных молекул (табл. 1) .

Чтобы охарактеризовать генерируемые наборы молекулярных структур, каждая модель определяла [16, 17]:

1) внутреннее разнообразие (diversity) молекулярного пространства;

2) число молекулярных структур, не прошедших медицинские химические фильтры (MCF);

3) число уникальных гетероциклов (hetero). Кроме того, был проведен кластерный анализ каждого сгенерированного набора молекул [16, 17], в ходе которого рассчитывались число кластеров (Clusters) и средний размер кластера (Cluster size). При этом очевидно, что чем больше число кластеров, тем меньше средний размер кластера, а чем больше внутреннее разнообразие, тем больше число кластеров .

Kin ZINC+Kin Модель Valid, % Unique, % Length Valid, % Unique, % Length ORGANIC 82 16 31 80 19 28 RANC 68 48 52 63 42 50 ATNC 65 68 50 RSAAE 70 73 50 82(+12) 87(+14) 53 Таблица 1. Сравнение моделей по валидности, уникальности и средней длине генерируемых молекул Как видно из табл. 1, модель ORGANIC показала себя хуже всех: средняя длина генерируемых молекул почти в два раза меньше по обоим экспериментам, чем средняя длина в тренировочном наборе Kin, число полученных уникальных молекул в три раза меньше, чем у ее ближайшего конкурента RANC .

Кроме того, из табл. 1 видно, что в обоих экспериментах средняя длина генерируемых молекулярных структур у RANC и ATNC одинакова. Однако ATNC опередила RANC по проценту валидности и уникальности генерируемых молекул. Очевидно, это произошло из-за того, что в RANC отсутствует механизм фильтрации и предварительной оценки молекул, который есть в ATNC .

Также стоит отметить, что в первом эксперименте, обучаясь с нуля, модель RSAAE уступала модели ATNC (вероятнее всего, из-за небольшого числа тренировочных примеров). Однако в эксперименте с дообучением RSAAE существенно превзошла все остальные модели, достигая 82 % валидности и 87 % уникальности генерируемых молекулярных структур, и при этом почти полностью соответствуя средней длине SMILES-строк в наборе данных Kin .

Более того, во втором эксперименте другие модели теряли в метриках (по сравнению с первым), в то время как RSAAE достигла прироста 12 и 14 % по валидности и уникальности генерируемых молекулярных структур. Очевидно, это происходило за счет контролируемого (благодаря использованию seq2seq автоэнкодера) латентного пространства, с которым оперировала данная модель (в частности, выучивая общие закономерности построения SMILES-строк молекул RSAAE, может эффективно переносить знания и дообучаться на более специфических выборках). При этом стоит заметить, что наборы данных Kin и ZINC сильно различаются (во-первых, средняя длина SMILES-строк в Kin на 10 больше чем в ZINC, а во-вторых, в Kin содержится исключительно киназная химия, которой в наборе ZINC всего 10–15 %) .

Таким образом, эксперимент с дообучением демонстрирует преимущества RSAAE перед другими моделями и показывает возможность модели RSAAE обобщать знания и переносить их на новые специфические наборы данных .

Химические статистики по двум экспериментам представлены в табл. 2 .

http://www.rdkit.org Научно-технический вестник информационных технологий, механики и оптики, 2018, том 18, № 6

ПОДКРЕПЛЕННЫЙ ПОСЛЕДОВАТЕЛЬНОСТЬ-К-ПОСЛЕДОВАТЕЛЬНОСТИ КОНКУРЕНТНЫЙ …

–  –  –

Научно-технический вестник информационных технологий, механики и оптики, 2018, том 18, № 6

ПОДКРЕПЛЕННЫЙ ПОСЛЕДОВАТЕЛЬНОСТЬ-К-ПОСЛЕДОВАТЕЛЬНОСТИ КОНКУРЕНТНЫЙ …

Автор Author Путин Евгений Олегович – инженер-программист, Evgeniy O. Putin – software engineer, ITMO University, Saint Университет ИТМО, Санкт-Петербург, 197101, Российская Petersburg, 197101, Russian Federation, Scopus ID: 57189310406, Федерация, Scopus ID: 57189310406, ORCID ID: 0000-0002- ORCID ID: 0000-0002-3012-9708, putin.evgeny@gmail.com 3012-9708, putin.evgeny@gmail.com



Похожие работы:

«Journal of Siberian Federal University. Engineering & Technologies, 2018, 11(4), 481-487 ~~~ УДК 621.777 Analysis of Energy and Power Parameters on the Extruding of Copper Installation Conform with Prechamber Yuriy V. Gorokhov*, Sergey V. Belyaev, Ivan Yu. Gubanov, Igor V. Usko...»

«АСЛАНОВ АРСЕН РУСЛАНОВИЧ СОВЕРШЕНСТВОВАНИЕ МЕХАНИЗМА ГОСУДАРСТВЕННОЙ ПОДДЕРЖКИ И РЕГУЛИРОВАНИЯ АНК РЕГИОНА (на примере Республики Дагестан) Специальность 08,00.05 Экономика и управление народным хозяйством; эко...»

«Министерство образования и науки Российской Федерации федеральное государственное автономное образовательное учреждение высшего образования "НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ" Институт природных ресурсов Направление подготовки: 15.03.02 "Технологические машины и оборудование" Профиль...»

«Электронное периодическое издание № 1 (12) 2018 Издается с 2011 года Редакционная коллегия: Свидетельство Роскомнадзора: Махов Станислав Юрьевич – гл . редактор ЭЛ № ФС77 – 44650 Бойко Валерий Вячеславович Ветков Николай Ефимович ISSN 2225-4447 Гуров Павел Иванович Елисеев Дмитр...»

«Министерство образования и науки Российской Федерации федеральное государственное автономное образовательное учреждение высшего образования "НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ" Школа Инженерная школа информационных технологий и робототехники Направление подготовк...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И УТВЕРЖДЕНО НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Приказом ФГБОУ ВО "БГУ"ФГБОУ ВО "БУРЯТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ" от "^ " -// 2016 г. № ПОЛОЖЕНИЕ ОБ ОТДЕЛЕ КАПИТАЛЬНОГО СТРОИТЕЛЬСТВА г. Улан-Удэ 1. ОБЩИЕ ПОЛОЖЕНИЯ 1.1. Отдел капитального строительства (далее ОКС) федерального государственного бюджетного обра...»

«DAILY ЭКСПЛУАТАЦИЯ И ТЕХНИЧЕСКОЕ ОБСЛУЖИВАНИЕ АВТОМОБИЛЯ ГРУЗОВИКИ ЛЕГКИЕ IVECO Автомобиль Iveco похож на своего во Если возникнут проблемы, лучший путь Автомобиль Iveco — это удачный выбор, дителя: это тщательно продуманная ло к...»

«– 2018 БУЛАТОВСКИЕ ЧТЕНИЯ СБОРНИК СТАТЕЙ УДК 550.8.05 ТЕЛЕСИСТЕМА ДЛЯ НАВИГАЦИОННОГО ОБЕСПЕЧЕНИЯ ПРОВОДКИ НАКЛОННЫХ И ГОРИЗОНТАЛЬНЫХ СКВАЖИН С БЕСКАБЕЛЬНЫМ ЭЛЕКТРОМАГНИТНЫМ КАНАЛОМ СВЯЗИ ––––––– TELEMETRY SYSTEM FOR NAVIGATIONAL SUPPORT OF DRILLING OF DIRECTIONAL AND HORIZONTAL WELLS WITH WIRELESS ELECTROMAGNETIC COMMUNICATIO...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ ХАРЬКОВСКИЙ ПОЛИТЕХНИЧЕСКИЙ ИНСТИТУТ Гринберг Г.Л., Дунаевская О.И . МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ЛАБОРАТОРНЫМ РАБОТА...»







 
2019 www.librus.dobrota.biz - «Бесплатная электронная библиотека - собрание публикаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.