Copyright © 2020 Авторы. Клиническая фармакология и терапия опубликовано Wiley Periodicals, Inc. от имени Американского общества клинической фармакологии и терапии.
Это статья в открытом доступе в соответствии с условиями лицензии http://creativecommons.org/licenses/by-nc-nd/4.0/, которая разрешает использование и распространение на любом носителе при условии правильного цитирования оригинальной работы, использования является некоммерческим, и никакие модификации или адаптации не вносятся.
Абстрактные
За последние несколько лет машинное обучение (МО) и искусственный интеллект стали свидетелями новой волны огласки, вызванной огромным и постоянно растущим объемом данных и вычислительной мощностью, а также открытием улучшенных алгоритмов обучения. Тем не менее, идея компьютера, изучающего некоторые абстрактные понятия из данных и применяющего их к еще неизвестным ситуациям, не нова и существует по крайней мере с 1950-х годов. Многие из этих основных принципов хорошо знакомы специалистам в области фармакометрии и клинической фармакологии. В этой статье мы хотим представить этому сообществу основополагающие идеи машинного обучения, чтобы читатели получили необходимые инструменты для понимания публикаций по этой теме. Хотя мы не будем вдаваться в подробности и теоретические основы, мы стремимся указать читателям на соответствующую литературу и рассмотреть приложения ML в молекулярной биологии, а также в областях фармакометрии и клинической фармакологии.
Появление доступных данных и рост вычислительной мощности в сочетании с появлением новых методов обучения привели к ряду прорывов во многих научных областях. Это включает в себя биологические и клинические исследования, где приложения варьируются от молекулярной биологии1 до анализа данных изображений2 и клинической практики.3 Однако идея о том, что компьютер изучает некоторые абстрактные понятия — как это постоянно делают люди — существует по крайней мере с 1950-х годов, когда впервые были разработаны нейронные сети4. Еще до этого другие методы, такие как байесовская статистика и цепи Маркова, использовались с аналогичной идеей. Многие из этих методов известны специалистам по фармакометрии и клинической фармакологии под разными названиями. Слева указываем терминологию машинного обучения, а справа обычное наименование статистики (на основе Тибширани https://statweb.stanford.edu/~tibs/stat315a/glossary.pdf):
Основное отличие от более традиционных подходов заключается во многом в двух разных культурах статистического моделирования. Брейман ускользнул от этого почти два десятилетия назад. Здесь мы расширим его определение, включив физиологические модели в одну из культур. В частности, культура 2 включает в себя определение модели для описания наблюдаемых данных, а культура 5 направлена на решение проблемы с использованием алгоритмического подхода к моделированию, что по своей сути приводит к моделям с большим количеством свободных параметров и сложными взаимодействиями. Эта сложность может создать проблемы для интерпретации модели (так называемая проблема «черного ящика»). Подходы, обычно используемые в фармакометрических приложениях, попадают в культуру 1, где предполагается, что базовая модель основана на фармакологических принципах и понимании свойств лекарств. Такие модели обычно физиологически интерпретируемы. Большинство подходов к машинному обучению (ML) попадают в культуру 2, где не указана явная модель, а компьютер отвечает за выявление ассоциаций в наблюдаемых данных. Эти модели, как правило, трудно интерпретировать физиологически, однако за прошедшие годы был достигнут значительный прогресс в интерпретируемости моделей машинного обучения.1, 2 Сегодня многие аспекты модели черного ящика можно интерпретировать с помощью соответствующих инструментов.6
В этой статье мы стремимся помочь читателям развить интуицию, необходимую для понимания того, как компьютеры могут обучаться или помогать людям выявлять закономерности в данных. Основные идеи машинного обучения освещены, но мы не описываем детали и теоретические предпосылки доступных методов машинного обучения. Мы отсылаем заинтересованных читателей к другим статьям или книгам, таким как «Элементы статистического обучения»9 (называемой ESL), и приводим примеры их применения в молекулярной биологии, открытии лекарств, разработке лекарств и клинической фармакологии.
Сначала мы вводим понятия точек данных, признаков, пространств признаков и мер подобия, а затем углубляемся в две основные области машинного обучения, а именно обучение без учителя и обучение с учителем, затрагивая ключевые аспекты и примеры. В случае обучения без учителя перед компьютерами ставится задача идентифицировать еще неизвестные закономерности в данных без ранее существовавших знаний, таких как группы или классы, тогда как в случае обучения с учителем перед компьютерами ставится задача научиться предсказывать класс или значение еще ненаблюдаемые точки данных, основанные на концепции (часто также называемой «моделью»), полученной из обучающего набора данных. фигура 1 показана таксономия различных методов, описанных в этой статье, и ее можно использовать в качестве справки, хотя и не исчерпывающей, в отношении того, какой сценарий подходит для применения того или иного инструмента машинного обучения. Обратите внимание, что все неконтролируемые методы применимы и в случае наличия меток.
Таксономия и обзор основных алгоритмов машинного обучения (ML). (a) Таксономия различных представленных методов. (b) Обзор методов машинного обучения. Спектр доступных методов варьируется от более простых и интерпретируемых до более сложных алгоритмов с потенциально более высокой производительностью за счет меньшей интерпретируемости. Положение методов на рисунке является качественным и на практике зависит от количества свободных параметров, сложности модели, типа данных и точного определения используемой интерпретируемости. 8PCA, анализ главных компонент; SVM, метод опорных векторов; tSNE, t-распределенное стохастическое встраивание соседей; UMAP, аппроксимация и проекция равномерного многообразия.
ДАННЫЕ И ХАРАКТЕРИСТИКИ
В ML мы имеем дело с данными и наборами данных. Набор данных состоит из нескольких точек данных (иногда также называемых образцами), где каждая точка данных представляет объект, который мы хотим проанализировать. Следовательно, точка данных может представлять что угодно, например пациента или образец, взятый из раковой ткани. Многие вопросы, связанные с данными, универсальны и затрагивают не только подходы МО, но и любую количественную дисциплину, включая фармакометрию.
Чтобы составить набор данных, нужно измерить и собрать ряд характеристик (т. е. данные, описывающие свойства точек данных). Эти характеристики могут быть категориальными (предопределенные значения без определенного порядка, такие как мужские и женские), порядковыми (предопределенные значения, которые имеют внутренний порядок, например стадия заболевания) или числовыми (например, реальные значения). Для пациента в клинических условиях это могут быть (комбинации) демографические данные пациента, история болезни, результаты анализов крови или более сложные и многомерные показатели, такие как профили экспрессии генов в конкретной ткани или все однонуклеотидные полиморфизмы, которые представляют уникальный геном пациента.
Каждый признак представляет одно измерение пространства признаков, и конкретное значение признака для конкретной точки данных помещает точку в определенное место в этом измерении пространства. В совокупности все значения всех признаков точки данных называются вектором признаков. Чем больше признаков мы собрали для набора данных, тем выше размерность результирующего вектора признаков и пространства признаков. Очевидно, что по мере увеличения размерности визуализация всех измерений пространства признаков становится затруднительной, и нам приходится полагаться на компьютер для определения соответствующих шаблонов или применять методы уменьшения размерности, как описано ниже в разделе «Уменьшение размерности».
Клинические фармакологи обычно знакомы с продольными данными, такими как фармакокинетические (ФК) и фармакодинамические (ФД) профили, где зависимость от времени играет центральную роль. На самом деле, модели, используемые в фармакометрии, основаны на уравнениях, которые можно обосновать с точки зрения физиологии и фармакологии, что дает представление об эволюции системы во времени. Это похоже, например, на физические задачи, такие как прогнозы погоды, где воздушный поток и температура приводят к определенному временному поведению системы. В машинном обучении включение времени в качестве выделенной непрерывной переменной в соответствующие алгоритмы остается сложной задачей и является областью активных исследований. На данный момент существует несколько вариантов включения данных, зависящих от времени, в наборы данных машинного обучения: либо непосредственно, когда каждая временная точка представляет функцию, либо с помощью преобразований, таких как преобразование Фурье или B-сплайны, в результате чего получаются коэффициенты базовых функций, которые можно учитывать. как особенности. В качестве альтернативы рекуррентные нейронные сети (RNN) могут использоваться для обработки продольных данных, как описано в разделе «Рекуррентные нейронные сети». Однако все эти подходы имеют ограничение — прямо или косвенно — дискретизацию измерения времени.
Большинство алгоритмов машинного обучения предназначены для обработки многомерных наборов данных. Следовательно, часто включаются производные функции из существующих данных, такие как логарифмически преобразованные данные, продукты и соотношения функций или более сложные комбинации. Такое преобразование данных является важным этапом предварительной обработки, который может сильно повлиять на производительность модели. Поэтому всегда полезно использовать имеющиеся знания и опыт в предметной области для разработки соответствующих функций, процесс, который иногда называют проектированием функций.
Качество данных играет решающую роль в машинном обучении. Тщательно подобранные методы машинного обучения и визуальный осмотр защищают от экстремальных значений или выбросов. Однако отсутствие данных может стать проблемой. Не все методы поддерживают отсутствующие данные, и снова в таких случаях может потребоваться преобразование данных в качестве шага предварительной обработки. Существуют различные способы импутации отсутствующих данных, эффективность которых зависит от набора данных и используемого метода.10 Самый простой подход к импутации состоит в замене отсутствующего значения средним значением признака по всем выборкам, где оно определено. Однако иногда это может привести к переобучению11 (см. также раздел «Показатели эффективности и проблема переобучения»).
Также важно тщательно изучить любую систематическую ошибку в данных (например, систематическую ошибку отбора). Желательно, чтобы выборки для ML представляли собой несмещенное случайное подмножество населения. На практике это бывает редко, и в данных есть некоторая погрешность. Эти предубеждения могут повлиять на способность модели обобщать данные за пределами обучающего набора данных (и даже тестового набора данных, если оба имеют одинаковую предвзятость). Примером такой проблемы обобщения является модель, которая должна научиться отличать волка от хаски по характеристикам животных, но в итоге оказывается, что она просто идентифицирует пятна снега на фотографии6. Существуют различные подходы к смягчению предвзятости ( например, можно уменьшить или полностью исключить предвзятые выборки или признаки)12. В частности, показатели склонности полезны при оценке эффекта терапевтического вмешательства.13 Анализ важности признака дает ценную информацию о величине и эффекте терапевтического вмешательства. смещения,6, 7, который рекомендуется использовать для проверки достоверности моделей машинного обучения.
Многие наборы данных клинической классификации несбалансированы, что означает недопредставленность одного или нескольких классов. Это может создать трудности для многих алгоритмов машинного обучения, включая искусственные нейронные сети и методы повышения градиента. Одним из способов смягчения этой проблемы является недостаточная/избыточная выборка класса большинства/меньшинства, соответственно, или корректировка стоимости ошибочной классификации в целевой функции.14
Наконец, для многих приложений важно определить меру сходства или расстояния между двумя точками данных в пространстве признаков. Простейшей мерой расстояния будет евклидово расстояние:
между векторами числовых признаков двух точек данных A и B, для признаков i = 1 … n , но в зависимости от типа данных, с которыми мы имеем дело, может быть много других, а иногда и гораздо более сложных мер расстояния или сходства, таких как косинусное сходство15 или оценки сходства двух биологических последовательностей.16