Снятся ли роботам алгоритмы?

 

Робот за решением сложной задачи

По мере того как искусственный интеллект становится стандартным исследовательским инструментом, ученые быстро обнаруживают как перспективы, так и опасности алгоритмически управляемых изысканий.

Искусственный интеллект (ИИ) в наши дни появляется повсюду, согласно основным

источникам новостей, которые сами все больше управляются компьютерными алгоритмами. Маркетологи используют ИИ для таргетинга рекламы, инженеры используют его для прогнозирования сбоев устройств, а управляемые ИИ платформы социальных сетей оказывают огромное влияние на все, от моды до политики.

В то время как все типы искусственного интеллекта с так называемым машинным обучением предполагают программирование компьютера для обучения на примерах и выводах, практики обозначают его различные формы. В более широкой области ИИ подмножество стратегий использует искусственные нейронные сети. Они имитируют биологический мозг, а элементы программы соединяются друг с другом, как нейроны. Алгоритмы машинного обучения, работающие на нейронных сетях, часто называют системами глубокого обучения, чтобы отличить их от других подходов, таких как статистическая корреляция.

Сегодня ученые используют все типы ИИ для поиска огромных объемов данных, начиная от высокопроизводительного секвенирования ДНК и РНК и заканчивая массивными коллекциями электронных медицинских записей. Выборка этих усилий раскрывает широкий спектр стратегий и приложений и подчеркивает как потенциал, так и проблемы использования ИИ в исследованиях.

Новое лицо генетики

Некоторые разработчики программного обеспечения, которые сейчас применяют машинное обучение к научным проблемам, начали работать в социальных сетях. Например, создатели алгоритмов, которые теперь используют функции автоматической маркировки фотографий Facebook, провели последние несколько лет, сосредоточившись на несколько иной проблеме обработки изображений: выявлении редких генетических нарушений по чертам лица.

"Около половины генетических расстройств на самом деле характеризуются очень уникальными чертами лица", - говорит Декель Гелбман, главный исполнительный директор (CEO) FDNA, компании по применению фенотипирования в Бостоне, штат Массачусетс. В то время как большинство людей могут распознать отличительные черты человека с синдромом Дауна, генетики человека со специальной подготовкой могут определить тысячи других, менее частых состояний по внешнему виду. Этот тип диагностики опирается на большой опыт, который трудно получить из-за редкости многих генетических нарушений. "Горстка очень опытных генетиков, которые также иногда называют себя дисморфологами, способны очень быстро взглянуть на пациента и сказать: "Я видел что-то подобное раньше", - говорит Гелбман.

Используя тщательно отобранные коллекции фотографий, Гелбман и его коллеги обучили алгоритм машинного обучения группировать лица в соответствии с диагностическими характеристиками. Текущая итерация технологии использует систему глубокого обучения, и FDNA создала несколько приложений для смартфонов на одной и той же платформе для разных пользователей. Врачи могут взять одно приложение в клинику, где они могут сфотографировать пациента камерой телефона и немедленно получить диагностические рекомендации от приложения. Приложение форума позволяет им обсуждать эти диагнозы с экспертами, в то время как приложение библиотеки предоставляет соответствующую литературу. Дополнительные приложения позволяют медицинским преподавателям и исследователям получить доступ к одному и тому же алгоритму.

Хотя большинство индивидуальных генетических заболеваний редки, их коллективное воздействие велико: по оценкам, 10% детей рождаются с редким генетическим заболеванием, достаточно серьезным, чтобы повлиять на качество их жизни. -В среднем пациент с редким заболеванием ждет семь с половиной лет, прежде чем ему поставят диагноз ... просто невообразимо", - говорит Гелбман. Он надеется, что автоматизация работы дисморфолога ускорит диагностику.

Однако для этого FDNA должна преодолеть два связанных между собой препятствия: (1) нежелание врачей полагаться на технологию, которую они не понимают, и (2) строгие стандарты государственных регулирующих органов в отношении медицинской диагностики. Оба борются с непроницаемостью современных систем машинного обучения. "Очень трудно доверять системам искусственного интеллекта, потому что даже программистам очень трудно понять логику результата", - говорит Гелбман. Разработчики тренируют и тестируют алгоритм до тех пор, пока он не даст правильные ответы, но рассуждения, лежащие в основе этих ответов, часто остаются непостижимыми.

Чтобы решить эту проблему, Гелбман выступает за большую прозрачность в отношении того, как алгоритмы обучаются и тестируются. "В будущем организации будут более внимательно относиться к источникам данных и политике кураторства и валидации данных, а также к предоставлению контрольных показателей для аудита", - говорит он. Со своей стороны, Управление по контролю за продуктами и лекарствами США (FDA) наращивает ИИ, и Гелбман говорит, что их понимание технологии значительно возросло в прошлом году. Тем не менее, FDNA до сих пор держала свои приложения вне поля зрения регулирующих органов, четко обозначая их как предоставление советов и рекомендаций, а не окончательных диагнозов.

Если бы Дарвин был компьютерным ученым

Это не просто медицинские диагностические инструменты, которые нуждаются в большей прозрачности. "Многие из этих методов в машинном обучении являются подходами черного ящика, и это проблема, когда вы работаете с биологами, которые действительно хотят понять, как работает система, а не просто получить правильный ответ; для них возникает вопрос:" Почему модель улавливает это конкретное решение?" - говорит Гэри Фогель, генеральный директор Natural Selection, консалтинговой компании по искусственному интеллекту в Сан-Диего, штат Калифорния.

Компания Фогеля строит системы искусственного интеллекта, используя тип машинного обучения, который, по крайней мере в принципе, должен понравиться биологам: эволюционные алгоритмы. В этом подходе кандидаты на решение проблемы рассматриваются как отдельные лица в популяции, а функция пригодности определяет их качество. Система избирательно усиливает более качественные решения и подавляет или устраняет менее качественные до тех пор, пока не появится оптимальное решение. Естественный отбор использовал этот подход для всего-от анализа геномных данных и скрининга молекул лекарств-кандидатов до оптимизации промышленных процессов. Однако, как упоминалось ранее, внутреннюю логику каждого решения может быть так же трудно понять, как сложный организм.

Компания компенсирует это, создавая алгоритмы, которые идентифицируют характерные особенности в системе. "[Мы пытаемся найти], какие функции важны для болезни или для результатов ... постарайтесь свести эти функции к чему-то значимому, чтобы биологи...поняли биологию системы", - говорит Фогель.

Однако для некоторых исследовательских приложений непрозрачные алгоритмы не являются проблемой. Это особенно верно, когда исследователи используют ИИ в качестве инструмента для выявления перспективных результатов, которые они затем проверяют с помощью лабораторных экспериментов. "Если вы просто пытаетесь понять геномику, возможно, нет необходимости иметь что-то, что является открытой коробкой", - говорит Фогель, добавляя, что "если он все еще точно предсказывает, где находятся гены микроРНК, вам действительно все равно, почему он делает это правильно, пока он получает это правильно.

Тем не менее, даже исследователи, надеющиеся использовать ИИ только в качестве лабораторного инструмента, должны тщательно выбирать свои алгоритмы. "Многие люди новички в этой области и хватают любые инструменты с открытым исходным кодом, которые они могут", - говорит Фогель, добавляя, что "они не обязательно знают, как настроить эти алгоритмы на проблему, и они не понимают, что важно, как вы представляете саму проблему". Он призывает ученых, находящихся в таком положении, обратиться за помощью к компьютерщикам, многие из которых стремятся применить свои навыки проектирования алгоритмов в других областях.

Векторное исчисление

Такое сотрудничество может возникнуть просто при обсуждении своей работы с коллегами. Именно это побудило Дэниела Стрейкера, старшего научного сотрудника Университета Глазго в Шотландии, применить машинное обучение к одной из старейших проблем эпидемиологии: идентификации вирусных векторов и резервуарных хозяев.

Многие из самых смертоносных человеческих вирусов в мире являются зоонозными, большую часть времени размножаясь незамеченными в животных резервуарах-хозяевах и лишь изредка попадая к людям. Когда эти инфекции переносятся между хозяевами переносчиками членистоногих, эпидемиологи могут потратить десятилетия на выявление соответствующих нечеловеческих резервуаров и переносчиков. Однако в последние годы исследователи обнаружили, что РНК-вирусы, группа, наиболее подходящая для прыжков между хозяевами, оптимизируют различные особенности своих геномов, включая использование аминокислот, кодонов и динуклеотидов, для хозяина, которого они преимущественно заражают. Это означает, что в последовательности генома вируса должны быть подсказки, которые намекали бы на личность его хозяина и вектора.

Как биолог, Стрейкер нашел эту идею дразнящей, но не знал, как ее реализовать. "Мой коллега по офису Симон Бабаян провел неформальный семинар в нашем институте, рассказывая о различных проектах, к которым он применял методы машинного обучения, и мне просто показалось, что это может быть идеальным способом решения этой проблемы", - говорит Стрейкер. Они объединились с Ричардом Ортоном, биоинформатиком из Медицинского исследовательского совета-Центра вирусных исследований Университета Глазго, и начали создавать алгоритмы для поиска вирусных хозяев и векторов.

Команда обучила свою систему машинного обучения последовательностям генома вирусов с хорошо охарактеризованными жизненными циклами, позволив ей идентифицировать корреляции между различными признаками последовательности и конкретными видами хозяина и вектора. "Вы действительно просто пытаетесь найти некоторую комбинацию взвешивания этих функций, которая позволяет эффективно сопоставлять функции генома с хозяином, от которого он исходит", - говорит Стрейкер.

После фазы обучения они протестировали его на другом наборе вирусов с известными хостами, чтобы проверить его надежность. Наконец, они дали системе набор геномов для вирусов с плохо понятной этиологией и позволили ей предсказать их схемы передачи.

Многие результаты подтвердили существующие теории, но система также обнаружила некоторые сюрпризы. Например, вирусологи думали, что вирус крымско–конголезской геморрагической лихорадки распространяется в основном через клещевой вектор, но компьютер предсказал, что прямая передача между домашними животными также может быть основным путем заражения. Алгоритм также предсказал, что в дополнение к летучим мышам нечеловеческие приматы могут быть важными резервуарами для вирусов Эболы (1).

Чтобы расставить приоритеты в своих исследованиях, группа Стрейкера теперь надеется применить тот же подход к потоку новых последовательностей вирусного генома, поступающих из проектов метагеномики. "Мы думаем о том, как мы можем использовать подобные подходы, чтобы попытаться предсказать, будут ли люди заражены вирусом", - говорит Стрейкер, добавляя, что "это, очевидно, вопрос, который имеет отношение к надзору и общественному здравоохранению, потому что сейчас происходит так много открытий вирусов". Хотя их первоначальная работа была сосредоточена исключительно на одноцепочечных РНК-вирусах, они также надеются расширить проект, чтобы охватить другие типы вирусных геномов.

Сделай все исследования, ХЭЛ

В то время как последовательности генома стали одним из основных направлений исследований, основанных на алгоритмах, другие массивные наборы данных также созрели для машинного обучения. Например, за последние несколько лет исследователи из Медицинского центра Ирвинга Колумбийского университета (CUIMC) в Нью-Йорке использовали различные вычислительные подходы для анализа огромных сокровищ электронных медицинских записей, а также для изучения самой биомедицинской литературы.

Последнее усилие осветило то, что многие назвали кризисом воспроизводимости, в котором различные исследования с, казалось бы, действительными проектами приходят к противоположным выводам. Особенно проблематичны обсервационные исследования, когда исследователи берут существующие медицинские записи и задним числом классифицируют пациентов на контрольную и экспериментальную группы. В последние годы такие исследования дали результаты, показывающие, что, например, антидепрессанты либо увеличивают, либо уменьшают риск самоубийства, в зависимости от того, какому исследованию верить. "Никакие две группы не выбирают одни и те же переменные для коррекции, а затем настаивают на том, что вы должны выбрать именно те переменные, которые вам нужны", - говорит Джордж Рипчак, заведующий кафедрой биомедицинской информатики CUIMC.

Связанная с этим проблема заключается в том, что журналы предпочитают статьи, показывающие положительные результаты, часто основанные на произвольном статистическом стандарте. Собственный анализ литературы Hripcsak показывает, что смещение резко, с резким срезом опубликованных значений p (вероятности)—меры статистической значимости—при 0,05. Поэтому исследователи сталкиваются с сильным давлением, чтобы выбрать переменные и статистические методы, которые дадут публикуемые значения p, что может привести к смещению их анализа.

Чтобы решить эту проблему, Рипчак и его коллеги передали работу по проектированию исследований компьютеру. В одном недавнем проекте они подключились к нескольким базам данных, охватывающим сотни миллионов отдельных медицинских записей пациентов, и использовали алгоритм для разработки и выполнения всех разумных наблюдательных исследований данных одновременно. Сосредоточившись на депрессии, алгоритм определил 6000 потенциальных исследовательских гипотез и более 55 000 контрольных гипотез, охватывающих 17 методов лечения, 272 пары комбинированных методов лечения и 22 результата. Алгоритм работал около месяца на мощном компьютере и сгенерировал 5984 оценки эффектов от различных методов лечения. Каждый из результатов соответствует современным методологическим стандартам для публикации в качестве статьи в ведущем рецензируемом журнале. Тем не менее, команда увидела обнадеживающее распределение как положительных, так и отрицательных результатов, указывая на то, что они избежали обычной предвзятости публикации (2).

Однако устранение человеческих предубеждений автоматически не решает проблему. "Когда мы проводим исследования в этой новой области, мы этого не хотим ... будьте виновны в том же, что мы пытаемся предотвратить, так что именно здесь мы смотрим на особые вещи, которые ИИ, возможно, привносит, которые вызывают предвзятость", - говорит Рипчак. Как и другие в этой области, он беспокоится, что непрозрачность многих алгоритмов машинного обучения может скрыть тревожные ошибки. Например, "экономические факторы или другие вещи могут привести к тому, что какая-то расовая группа не преуспеет в лечении, и тогда система рекомендует не давать им такого лечения, хотя на самом деле это не имеет ничего общего с их расой", - говорит Рипчак.

Несмотря на препятствия, он и другие в этой области с оптимизмом смотрят на будущее ИИ в исследованиях. "Я вижу, как происходит революция, и это здорово", - говорит Фогель.


Комментарии

Популярные сообщения