среда, 13 декабря 2023 г.

Об алгоритмах машинного обучения

Если отбросить мифы, искусственный интеллект так же склонен к предвзятости, как и человек. Хорошей новостью является то, что ошибки в алгоритмах можно диагностировать и лечить.

Компании начинают применять машинное обучение для принятия бизнес-решений. Постоянно запускаются новые программы со сложными алгоритмами для работы с большими, часто обновляемыми наборами данных. Скорость, с которой это происходит, свидетельствует о привлекательности технологии, однако отсутствие опыта в применении технологии создает реальные риски. Алгоритмическая предвзятость — один из самых больших рисков, поскольку она ставит под угрозу саму цель машинного обучения. Этот дефект может вызвать дорогостоящие ошибки и может повести проекты и организации в неправильном направлении. Эффективные усилия по решению этой проблемы с самого начала окупятся сторицей, позволяя максимально эффективно реализовать потенциал машинного обучения.

Прогнозное моделирование - одно из применений машинного обучения. У этой технологии есть бизнес-приложение: от автоматизированных рекомендаций клиентам до процессов утверждения кредита. Машинное обучение увеличивает возможности прогнозирующих моделей за счет огромных вычислительных мощностей.

Сохранение предвзятости


В автоматизированных бизнес-процессах алгоритмы машинного обучения принимают решения быстрее, чем люди. И с меньшими затратами. Машинное обучение также обещает улучшить качество решений из-за предполагаемого отсутствия человеческих предубеждений. Например, лица, принимающие решения, могут быть склонны придавать дополнительный вес своему личному опыту. Это форма предвзятости, известная как привязка, одна из многих, которые могут повлиять на бизнес-решения. Предвзятость доступности — еще одно. Это мысленный ярлык (эвристика), с помощью которого люди делают знакомые предположения, когда сталкиваются с решениями. Эти предположения сослужили адекватную службу в прошлом, но могут оказаться неоправданными в новых ситуациях. Предвзятость подтверждения — это тенденция выбирать доказательства, подтверждающие предвзятые убеждения, в то время как предвзятость неприятия потерь налагает чрезмерный консерватизм на процессы принятия решений.

Выгоды от устранения вредных предубеждений на базе технологий машинного обучения очевидны и весьма желательны, будь то в финансовой, медицинской или какой-либо другой форме.

Некоторые виды машинного обучения предназначены для имитации механики человеческого мозга. Если предубеждения влияют на человеческий интеллект, то как насчет искусственного интеллекта? Являются ли машины предвзятыми? Ответ положительный. Во-первых, алгоритмы машинного обучения склонны учитывать предубеждения своих создателей. Алгоритмы могут формализовать необъективные параметры, созданные, например, специалистами по продажам или кредитными специалистами. Там, где машинное обучение прогнозирует поведенческие результаты, опора на исторические данные лишь усилит прошлые предубеждения, включая предвзятость стабильности. Серьезность этой предвзятости может быть усилена алгоритмами машинного обучения, которые должны предполагать, что все будет продолжаться более или также, как и прежде. Еще одним основным фактором, порождающим предвзятость, являются неполные данные. Алгоритмы машинного обучения работают на моделях, которые построены на калибровочных данных. Искажения и пропуски в наборах данных будут искажать модель и результаты, поучаемые на основе ее модели. И иногда очень сильно.

Прогнозирование поведения: «Победитель получает все»


Машинное обучение может закреплять и даже усиливать поведенческие предубеждения. По своей конструкции сайт социальной сети, фильтрующий новости на основе предпочтений пользователей, усиливает у читателей естественную предвзятость подтверждения. Сайт, возможно, даже систематически предотвращает оспаривание других точек зрения. Самоисполняющееся пророчество — это побочный продукт работы алгоритмов. Финансово устойчивые компании могут нарушить скоринговые алгоритмы банков и оказаться без оборотного капитала если они не смогут убедить кредитных специалистов фактами. Так кризис ликвидности может уничтожить целый класс предприятий. Эти примеры демонстрируют определенный результат «победитель получает все», который влияет на алгоритмы машинного обучения, предназначенные для копирования процесса принятия решений человеком.

Ограничения данных


Машинное обучение может дать ценную информацию о сложных наборах данных, но аномалии и ошибки данных могут сбить с пути алгоритмы. Точно так же, как травматический несчастный случай в детстве может вызвать длительные искажения поведения у взрослых, так и нерепрезентативные события могут привести к тому, что алгоритмы машинного обучения сойдут с курса. Если, например, серия чрезвычайных погодных явлений или мошеннических действий вызовет резкий рост уровня дефолтов, кредитные карты могут поставить региону «высокий риск», несмотря на отсутствие постоянной структурной причины. В таких случаях неадекватные алгоритмы будут закреплять предвзятость.

Компании, стремящиеся преодолеть предвзятости в процессах принятия статистических решений, могут обнаружить, что ученые, работающие с данными и контролирующие алгоритмы машинного обучения, также подвержены предубеждениям. Например, предвзятость стабильности может привести к тому, что ученые, работающие с данными, будут отдавать предпочтение те же данным, которые используются лицами, принимающими решения. В то же время нехватка средств и времени может удержать их от сбора других типов данных, которые отражают истинные факторы, влияющие на явления.

Проблема смещения стабильности


Смещение стабильности — тенденция к инерции в неопределенной среде — на самом деле является серьезной проблемой для алгоритмов машинного обучения. Прогнозные модели работают на основе закономерностей, обнаруженных в исторических данных. Если наблюдаемые ранее закономерности перестанут существовать, то модель будет сродни старому расписанию железных дорог — ценному для историков, но бесполезному для путешествий здесь и сейчас. Удручающе сложно сформировать алгоритмы машинного обучения распознавания закономерностей, которых нет в данных, даже если аналитики знают, что они могут проявиться в какой-то момент. Чтобы преодолеть разрыв между имеющимися данными и самоочевидной реальностью, можно создавать синтетические данные. Однако, поскольку алгоритмы машинного обучения пытаются фиксировать закономерности на очень детальном уровне, каждый атрибут таких синтетических данных должен тщательно прорабатываться.

Устранение предвзятости в алгоритмах машинного обучения


Компании могут принимать меры для устранения предвзятости или защиты от ее разрушительного воздействия на процесс принятия решений.

Три фильтра, лежащие в основе контрмер по защите от  алгоритмической предвзятости имеют первостепенное значение.
  1. Пользователи должны понимать недостатки алгоритма и воздерживаться от задавания вопросов, ответы на которые будут признаны недействительными из-за алгоритмической предвзятости. Использование модели машинного обучения больше похоже на вождение автомобиля, чем на лифт - чтобы добраться из точки А в точку Б, пользователи не могут просто нажать кнопку.
  2. Ученые, работающие с данными, разрабатывающие алгоритмы, должны формировать выборки данных таким образом, чтобы свести к минимуму систематические ошибки. Этот шаг является жизненно важной и сложной частью процесса и заслуживает глубокого рассмотрения. Имеющиеся исторические данные часто недостаточны, и свежие, объективные данные должны быть получены посредством контролируемого эксперимента.
  3. Руководители должны знать, когда использовать, а когда не использовать алгоритмы машинного обучения. Они должны понимать истинную ценность компромисса: алгоритмы обеспечивают скорость и удобство, в то время как модели, созданные вручную, такие как деревья решений или логистическая регрессия обладают большей гибкостью и прозрачностью.

Что в твоем черном ящике?


С точки зрения пользователя алгоритмы машинного обучения — это черные ящики. Они предлагают быстрые и простые решения для тех, кто мало или вообще ничего не знает о предмете. Алгоритмы следует применять осмотрительно, но что поступать так, нужны соответствующие знания. А для этого нужно затратить соответствующие усилия. Руководителям и практикам придется изучить алгоритмы, лежащие в основе их бизнеса, и проблемы, которые они призваны решать. Тогда они смогут понимать отчеты мониторинга алгоритмов, задавать правильные вопросы и оспаривать предположения.

Устранение предвзятости из выборки разработки


Тесты могут гарантировать, что нежелательные предубеждения людей, принимающих решения в прошлом, такие как, например, гендерные предубеждения, не были случайно встроены в алгоритмы машинного обучения. Задача заключается в корректировке данных для уменьшения систематических ошибок.

Один из опасных мифов о машинном обучении: машинное обучение не требует постоянного вмешательства человека. Бизнес-пользователям было бы лучше рассматривать машинное обучение как создание сада и уход за ним: необходим контроль человека. Эксперты с глубокими знаниями в области машинного обучения и хорошим деловым суждением подобны опытным садовникам, тщательно ухаживающим за растениями. Специалист по данным знает, что в машинном обучении ответы могут быть полезными, только если мы задаем правильные вопросы.

Борясь с вредными предубеждениями, ученые, работающие с данными, стремятся усилить алгоритмы машинного обучения там, где это важно. Обучение алгоритму машинного обучения немного похоже на наращивание мышечной массы. Используя стратифицированную выборку и оптимизированные веса наблюдений, ученые, работающие с данными, гарантируют, что алгоритм будет наиболее эффективным для тех решений, в которых влияние ошибки прогнозирования на бизнес является наибольшим. Это невозможно сделать автоматически, даже с помощью продвинутых алгоритмов машинного обучения, например таких как бустинг (алгоритм, предназначенный для уменьшения алгоритмической предвзятости). Усовершенствованные алгоритмы могут корректировать статистически определенную ошибку, но они не могут отличить ошибки, имеющие большое влияние на бизнес, от ошибок незначительной важности. Еще одним примером статистических методов, которые специалисты по данным могут использовать для защиты алгоритмов от систематических ошибок, является тщательный анализ пропущенных значений. Определяя, систематически ли отсутствуют значения, ученые, работающие с данными, вносят «предвзятость ретроспективного взгляда». Такое использование предвзятости для борьбы с предвзятостью позволяет алгоритму выйти за пределы ограничений, определенных данными, и найти правильный ответ. Затем специалисты по данным могут решить, следует ли и как устранить недостающие значения или необходимо скорректировать структуру выборки.

Когда использовать алгоритмы машинного обучения


Организация, рассматривающая возможность использования алгоритма для решения бизнес-задачи, должна сделать явный выбор, основанный на соотношении затрат и выгод. Алгоритм машинного обучения будет быстрым и удобным, но более привычные традиционные процессы принятия решений будет легче выстроить под конкретную цель. И притом традиционные процессы будут более прозрачными. Традиционные подходы включают принятие решений человеком или использование созданных вручную моделей, такие как деревья решений или модели логистической регрессии — аналитические рабочие лошадки, которые десятилетиями использовались в бизнесе и государственном секторе для определения вероятности исходов. Тем не менее, лучшие исследователи данных могут использовать алгоритмы машинного обучения для повышения эффективности моделей, созданных вручную. Так можно построить продвинутые модели логистической регрессии с предсказательной силой, приближающейся к мощности алгоритма машинного обучения.

При принятии решения об использовании алгоритмов машинного обучения стоит учитывать следующее:

  • Как скоро нам понадобится решение? Фактор времени зачастую имеет первостепенное значение при решении бизнес-задач. Оптимальная статистическая модель может устареть к моменту ее завершения. Когда бизнес-среда быстро меняется, алгоритм машинного обучения, разработанный в одночасье, может значительно превзойти превосходную традиционную модель, на создание которой уходят месяцы. По этой причине для борьбы с мошенничеством предпочтительны алгоритмы машинного обучения. Мошенники обычно действуют быстро, чтобы обойти новейшие механизмы обнаружения, с которыми они сталкиваются. Чтобы победить мошенничество, организациям необходимо внедрить алгоритмы, которые мгновенно адаптируются, как только мошенники меняют свою тактику.
  • Какие идеи у нас есть? Превосходство созданной вручную модели зависит от бизнес-идеи, заложенной в нее специалистом по данным. Если у организации нет знаний, то при решении проблем придется руководствоваться данными. На этом этапе алгоритм машинного обучения может быть предпочтительнее из-за его скорости и удобства. Однако вместо того, чтобы слепо доверять алгоритму, организация в этой ситуации может решить, что лучше привлечь консультанта для разработки ценных бизнес-идей.
  • Какие проблемы стоит решать? Одно из обещаний машинного обучения заключается в том, что оно может решать проблемы, которые когда-то были нераспознаваемы или считались слишком дорогостоящими для решения с помощью модели, созданной вручную. Принятие решений по этим проблемам до сих пор было случайным или неосознанным. При повторном рассмотрении таких проблем организациям следует выявить те, которые оказывают существенное влияние на бизнес, а затем поручить своим лучшим специалистам по обработке данных поработать над ними.

В дополнение к этим соображениям компании, реализующие крупномасштабные программы машинного обучения, должны внести соответствующие организационные и культурные изменения для поддержки проектов разработки моделей машинного обучения. Все участники проектов машинного обучения должны понимать суть моделей машинного обучения и доверять им.

Внедрение: стандарты, валидация, знания.


Как бизнес будет выполнять эти рекомендации? Практическое применение и устранение предвзятости алгоритмов машинного обучения должно регулироваться сознательным и, в конечном итоге, систематическим процессом в организации. Хотя этот подход и не столь строгий и формальный, он связан со зрелыми процессами разработки и проверки моделей, с помощью которых крупные учреждения получают стратегический контроль над распространением моделей и рисками. Для реализации критически важны следующие основные блоки:
  • Бизнес-стандарты процессов машинного обучения. Следует разработать шаблон документации модели, стандартизирующий процесс приема запросов на моделирование. Он должен включать бизнес-контекст и побуждать задавать конкретные вопросы о влиянии на бизнес, о данных и о соотношении затрат и выгод. Этот процесс должен требовать активного участия пользователя в поиске наиболее подходящего решения бизнес-проблем. Обычно пассивные контрольные списки или рекомендации игнорируются. Должны быть определены ключевые параметры модели, включая стандартный набор выводов, которые будут формироваться на основе входных необработанных данных, обработанной выборки и результатов моделирования. Модель следует подвергнуть проверкам в ходе обсуждения с бизнес-пользователями.
  • Профессиональная валидация алгоритмов машинного обучения. Для проверки и утверждения алгоритмов машинного обучения необходим явный процесс верификации. В зависимости от отрасли и бизнес-контекста, особенно в силу экономических последствий ошибок, она может быть не такой строгой, как формальная проверка банковских моделей риска внутренними группами проверки и регулирующими органами. Однако этот процесс должен установить стандарты проверки и программу постоянного мониторинга новой модели. Стандарты должны учитывать характеристики моделей машинного обучения, такие как автоматическое обновление алгоритма при сборе свежих данных. Например, если алгоритмы обновляются еженедельно, процедуры проверки должны выполняться за часы и дни, а не за недели и месяцы. Тем не менее, чрезвычайно важно также внедрить средства контроля, которые предупреждают пользователей о потенциальной предвзятости в свежих данных.
  • Культура постоянного развития знаний. Учреждения должны инвестировать в развитие и распространение знаний в области науки о данных и бизнес-приложений. Приложения машинного обучения должны постоянно отслеживаться на предмет появления новых идей и лучших практик, чтобы создать культуру расширения знаний и держать людей в курсе как трудностей, так и успехов, связанных с использованием таких приложений.

Создание сознательной, основанной на стандартах системы разработки алгоритмов машинного обучения потребует от лидеров принятия многих решений, основанных на суждениях. По этой причине необходимы методы устранения предвзятости для максимизации результатов. Эффективным методом в этом контексте является предварительное исследование, призванное выявить ограничения предлагаемой модели и помочь руководителям оценить бизнес-риски, связанные с новым алгоритмом.

Иногда в шумихе вокруг машинного обучения забывается тот факт, что искусственный интеллект так же склонен к предвзятости, как и имитируемая реальность. Хорошая новость заключается в том, что предубеждения можно понять и управлять ими, если мы честны в их отношении. Мы не можем позволить себе верить в миф о машинном интеллекте. Люди должны осозновать вполне реальные ограничения машинного обучения.

Источник


https://www.mckinsey.com/capabilities/risk-and-resilience/our-insights/controlling-machine-learning-algorithms-and-their-biases

Тобиас Баер, Вишну Камалнатх. Управление алгоритмами машинного обучения и их предвзятостью. 10.11.2017.

Комментариев нет:

Отправить комментарий