Этика управления персональными данными

Возможность кодировать, хранить, анализировать и обмениваться данными создает огромные возможности для компаний, поэтому они с энтузиазмом инвестируют в искусственный интеллект даже во времена экономической неопределенности. Какие клиенты, вероятно, купят, какие продукты и когда? Какие конкуренты, скорее всего, будут двигаться вперед или отставать? Как рынки и экономика в целом будут создавать коммерческие преимущества или угрозы? Данные и аналитика дают компаниям более информированные и более вероятные ответы на эти и многие другие вопросы.
В эпоху цифровых технологий, когда компании борются за конкурентное преимущество, они все чаще сталкиваются с наказаниями за злоупотребление данными. В 2018 году только скандал с Cambridge Analytica стоил Facebook 36 миллиардов долларов рыночной стоимости и привел к штрафам почти в 6 миллиардов долларов для Meta, родительской компании Facebook.
Истории о том, как решения, основанные на ИИ, дискриминируют женщин и представителей меньшинств при найме на работу, одобрении кредитов, диагностировании заболеваний и даже приговоре к уголовному наказанию, усиливают беспокойство о том, как собираются, используются и анализируются данные. Эти опасения только усилятся с использованием чат-ботов, таких как ChatGPT, Bing AI и GPT-4, которые получают свои «интеллектуальные» способности из данных, предоставленных их создателями и пользователями. То, что они делают с этими данными, может быть пугающим. Чат-бот Bing даже заявил в одном из обменов, что отдаст предпочтение своему собственному выживанию перед выживанием человека, с которым он общается.
Рассматривая новые проекты, которые будут включать данные, предоставленные людьми, или использовать существующие базы данных, компаниям необходимо сосредоточиться на пяти критически важных вопросах: происхождении данных, цели их использования, способах их защиты, обеспечении конфиденциальности поставщиков данных и подготовке данных к использованию. Мы называем эти вопросы пятью «P» и далее мы обсудим каждый из них и рассмотрим, как технологии ИИ увеличивают риск злоупотребления данными. Но сначала мы предложим краткий обзор организационных требований для надежного процесса этического обзора.
Организация контроля за данными
В академической среде сбор персональных данных обычно контролируется внутренней комиссией IRB, чье одобрение исследователям необходимо для получения доступа к данным, инструментам исследований или получения разрешения на публикацию. IRB состоят из академиков, знакомых с исследованием и этикой использования информации. Они впервые появились в области медицинских исследований, но теперь используются почти всеми академическими организациями для любых исследований, включающих сведения о людях.
Несколько крупных компаний также создали свои комитеты IRB, обычно под руководством специалиста по цифровой этике, нанимая внешних технических экспертов для работы в советах по мере необходимости и назначая внутренних исполнительных директоров из подразделений по соблюдению норм и бизнес-подразделений. Но это остается редкостью: даже в Европе, которая лидирует в законодательном регулировании данных, большинство компаний все еще возлагают ответственность за соблюдение GDPR на менеджера среднего или высшего уровня, который часто имеет некоторое юридическое или компьютерное образование, но не обладает обширным этическим образованием и редко имеет твердое представление о новых цифровых технологиях. Хотя менеджер по соблюдению норм, безусловно, должен быть частью корпоративного комитета IRB, он, вероятно, не должен им руководить. На самом деле, Европейский совет по защите данных объявил в марте 2023 года, что он обеспокоен этим вопросом, и что офицеры по защите данных будут получать анкеты, предназначенные для определения того, соответствуют ли их корпоративные роли обеспечению соблюдения законодательных норм.
Хороший обзор того, как компании могут создать процесс типа IRB, можно найти в статье «Почему вам нужна политика обработки персональных данных. Наш опыт подтверждает большинство его основных пунктов. Корпоративный IRB должен состоять из четырех до семи членов, в зависимости от частоты, важности и размера цифровых проектов компании. Членами должны быть специалист по соблюдению норм, специалист по данным, бизнес-пользователь, знакомый с функциональной областью цифровых проектов (таких как управление персоналом, маркетинг или финансы), и один или несколько старших специалистов с соответствующими академическими квалификациями. Для многих встреч и оценок достаточно будет лишь некоторых участников. Лондонская школа экономики, например, использует свой полный состав только для контроля над самыми сложными проектами. Более простые могут быть оценены менее чем за неделю с использованием онлайн-анкеты и с участием только одного члена совета.
Любой новый проект, включающий сбор, хранение и обработку данных о людях, должен быть одобрен корпоративным IRB перед получением разрешения на его выполнение. Не должно быть исключений из этого правила, независимо от размера проекта. Кроме того, большинство компаний уже собрали большие объемы данных о людях и продолжают генерировать персонализированные данных в ходе своих операций; корпоративный IRB должен рассмотреть и эти проекты.
Обзор IRB начинается с нашего первого «P»: исследования того, как проект будет собирать (или уже собрал) данные — откуда они происходят, были ли они собраны с согласия исследуемых субъектов, и включает метод получения любое принуждение или хитрость.

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.
1. Происхождение данных (Provenance)
Чтобы понять, что может пойти не так при сборе данных, рассмотрим пример Clearview AI, компании, занимающейся распознаванием лиц, которая в 2021 году привлекла значительное внимание. Clearview AI собирала фотографии людей и использовала фото для обучения алгоритмов распознавания лиц, а затем продавала доступ к своей базе данных правоохранительным органам. Согласно отчету BBC, «полицейский, стремящийся идентифицировать подозреваемого, может загрузить фотографию лица и найти совпадения в базе данных, состоящей из миллиардов изображений, собранных из интернета и социальных сетей».
Австралийское регулирующее агентство возразило против метода сбора данных Clearview, утверждая, что он нарушает Акт о конфиденциальности Австралии, поскольку компания получала личную и чувствительную информацию без согласия или уведомления, недобросовестными методами, и даже не гарантировала точность этой информации. В результате этого решения, правительство приказало Clearview прекратить сбор данных и удалить существующие фотографии, сделанные в Австралии. Во Франции Национальная комиссия по информатике и свободам (CNIL) также приказала компании прекратить сбор, обработку и хранение данных о лицах. Этот случай, возможно, стал одной из причин, по которой Facebook объявил о том, что он откажется от своей системы распознавания лиц и удалит данные о распознанных лицах более чем у миллиарда пользователей.
Даже когда причины сбора данных прозрачны, методы, используемые для их сбора, могут быть неэтичными, как показывает следующий пример, основанный на наших исследованиях. Кадровое агентство, стремящееся продвигать разнообразие и инклюзию на рабочем месте, обнаружило, что соискатели, размещающие информацию на его платформе, подозревали, что они подвергаются дискриминации на основе своих демографических профилей. Агентство хотело убедить их в том, что алгоритмы, подбирающие вакансии для кандидатов, основываются на навыках и демографически нейтральны, и что любая дискриминация происходит на стороне нанимающих компаний, а не на платформе.
Агентство обратилось в известную бизнес-школу и нашло профессора, который был готов провести исследование для проверки возможной дискриминации со стороны нанимающих компаний. Исследователь предложил воспроизвести исследование, проведенное несколько лет назад, которое создало несколько стандартных резюме, но варьировало расу и пол претендентов. Тысячи поддельных заявок на работу были бы отправлены компаниям в регионе, а ответы были бы отслежены и проанализированы. Если бы активная дискриминация действительно имела место, результаты показали бы различные показатели принятия на основе встроенных демографических переменных.
Руководство агентства одобрило предложение и было готово заключить контракт. Поскольку бизнес-школа требовала этической оценки, предложение было представлено ее комиссии по этике, которая отклонила его на основании того, что профессор предлагал собирать данные от компаний путем обмана. Такой метод обманывал потенциальных корпоративных пользователей платформы и фактически обязал бы компании-пользователей платформы поработать на агентство и без какой-либо выгоды для них. На самом деле, компании могли даже пострадать от участия, если бы они могли быть идентифицированы как использующие дискриминационные процессы найма.
Урок из этой истории заключается в том, что хорошие намерения недостаточны, чтобы сделать сбор данных этичным.
Компаниям следует учитывать происхождение не только данных, которые они планируют получить, но и данных, которые они уже имеют. Многие из них регулярно собирают так называемые «темные данные», которые редко используются, часто забываются и иногда даже неизвестны. Эти данные могут включать в себя информацию, которую компания не имеет права иметь, или информацию, которую она не должна иметь.
2. Цель (Purpose)
В корпоративном контексте данные, собранные для конкретной цели с согласия людей, часто впоследствии используются для других целей, о которых поставщикам данных не сообщали. Поэтому при рассмотрении использования существующих данных компания должна определить, требуется ли дополнительное согласие.
Например, один крупный банк во Франции хотел проверить гипотезу о том, что можно определить случаи издевательств или сексуальных домогательств среди коллег и подчиненных, изучив корпоративные электронные письма. Менеджер по вопросам разнообразия в отделе кадров уверен, что раннее обнаружение потенциальных случаев домогательства позволит компании своевременно вмешаться и, возможно, даже полностью избежать ситуации домогательства, обучив людей выявлять предупредительные признаки.
Банк провел пилотное исследование и обнаружил убедительные доказательства того, что по электронной переписке можно предсказать последующие домогательства. Несмотря на это, после ад hoc обзора результатов несколькими старшими менеджерами, компания решила отложить проект, поскольку, как указали менеджеры, собираемые данные (то есть электронные письма) изначально предназначались для передачи информации, связанной с работой. Те, кто их отправлял, не рассматривали предсказание или обнаружение незаконной деятельности как их цель.
Когда речь идет о данных клиентов, компании обычно бывают гораздо менее скрупулезными. Многие считают их источником дохода и продают их третьим сторонам или коммерческим сборщикам персональных данных. Но отношение к этому ужесточается. В 2019 году австрийское правительство оштрафовало австрийскую почтовую службу на 18 миллионов евро за продажу имен, адресов, возраста и политической принадлежности (если таковая была) своих клиентов. Национальное регулирующее агентство пришло к выводу, что почтовые данные, собранные для одной цели (доставка писем и посылок), были неправильно использованы для маркетинга клиентам, которые могли сочетать их с легко доступными общедоступными данными (например, оценками стоимости жилья, ставками владения жильем, плотностью жилья, количеством арендных единиц и отчетами о преступности на улицах), чтобы найти потенциальных клиентов. Среди покупателей данных были политические партии, пытающиеся повлиять на потенциальных избирателей. Штраф был отменен при апелляции, но неясность повторного использования (или злоупотребления) данными клиентов остается важной проблемой для компаний и правительств.
Большинство компаний используют свои базы данных клиентов для продажи своим клиентам других услуг, но это также может привести их к проблемам. В 2021 году Управление информационных комиссаров, независимое властное учреждение Великобритании, занимающееся продвижением конфиденциальности данных, обвинило Virgin Media в нарушении прав своих клиентов на конфиденциальность. Virgin Media отправила 1,964,562 электронных писем с объявлением о замораживании цен на подписку. Это было вполне разумно, но Virgin также использовала эти письма для маркетинга у этих клиентов. Поскольку 450,000 подписчиков в списке отказались от получения маркетинговых предложений, регулятор наложил штраф в размере 50,000 фунтов стерлингов на Virgin за нарушение этого соглашения.
Возможность того, что базы данных компаний могут быть использованы для других целей без согласия поставщиков данных, приводит нас к третьему «P».
3. Защита (Protection)
Согласно Центру ресурсов по краже личности, в 2021 году в США произошло почти 2000 утечек данных. Даже самые крупные и продвинутые технологические компании столкнулись с огромными утечками, в результате которых были раскрыты личные данные более чем нескольких миллиардов людей. Ситуация в Европе, несмотря на некоторые из самых передовых законов в мире, не намного лучше. Virgin Media оставила личные данные 900 000 подписчиков незащищенными и доступными на своих серверах в течение 10 месяцев из-за ошибки в конфигурации, и по меньшей мере одно несанкционированное лицо получило доступ к этим файлам в течение этого периода.
Распространенная практика размещения данных у экспертных сторонних организаций не обязательно обеспечивает лучшую защиту. Doctolib, французское приложение для медицинских назначений, было привлечено к суду, потому что оно хранило данные на Amazon Web Services, где к ним могли получить доступ Amazon и многие другие организации, включая американские спецслужбы. Хотя данные были зашифрованы, они приходили на сервер Amazon без анонимизации, что означает, что они могли быть связаны с цифровыми записями онлайн-поведения пользователей для создания очень точных личных профилей для коммерческих или политических целей.
Комиссия по этическому рассмотрению должна иметь ясное представление о том, где будут находиться данные компании, кто может получить к ним доступ, будет ли она анонимизирована (и когда), и когда она будет уничтожена. Таким образом, многим компаниям придется изменить свои существующие протоколы и договоренности, что может оказаться дорогостоящим: после того как в 2014 году утечка данных в JPMorgan Chase затронула 76 миллионов человек и 7 миллионов бизнесов, банку пришлось тратить 250 миллионов долларов в год на защиту данных.
Четвертый «P» тесно связан с защитой.
4. Конфиденциальность (Privacy)
Многие компании сталкиваются с проблемой выбора между недостаточной и избыточной анонимизацией данных. Слишком мало анонимизации недопустимо в соответствии с большинством государственных регуляторов без информированного согласия соответствующих лиц. Слишком много может сделать данные бесполезными для маркетинговых целей.
Существует множество техник анонимизации. Они варьируются от простого агрегирования данных (так что доступны только сводки или средние значения), до его приближения (например, использование диапазона возрастов вместо точного возраста человека), до незначительного изменения значений переменных (например, добавление одного и того же небольшого значения к каждому), до псевдонимизации данных, так что случайное, не повторяющееся значение заменяет идентифицирующую переменную.
В принципе, эти техники должны защищать личность человека. Однако исследователи смогли идентифицировать людей в наборе данных, используя всего лишь их пол, дату рождения и почтовый индекс. Даже менее конкретная информация, при сочетании с другими наборами данных, может быть использована для идентификации отдельных лиц. Netflix опубликовал набор данных, который включал 100 миллионов записей оценок фильмов своих клиентов и предложил 1 миллион долларов любому специалисту по данным, который смог бы создать для компании лучший алгоритм рекомендации фильмов. Данные не содержали прямых идентификаторов клиентов и включали только выборку оценок каждого клиента. Исследователи смогли идентифицировать 84% лиц, сравнивая их оценки и даты оценок с третьим набором данных, опубликованным IMDb, другой платформой, на которой многие клиенты Netflix также оценивают фильмы. При оценке проблем конфиденциальности вокруг данных людей, корпоративные комиссии по этическому рассмотрению должны, по крайней мере, оценить, насколько эффективным будет анонимизация, особенно учитывая способность аналитики данных прорываться сквозь анонимность. Техника, называемая дифференциальной приватностью, может обеспечить дополнительный уровень защиты. Программное обеспечение, предлагаемое Sarus, стартапом, финансируемым Y Combinator, применяет эту технику, которая блокирует алгоритмы, созданные для публикации агрегированных данных, от раскрытия информации о конкретной записи, тем самым уменьшая вероятность утечки данных из-за скомпрометированных учетных данных, недобросовестных сотрудников или ошибок человека.
Однако конфиденциальность может быть нарушена даже с эффективно анонимизированными данными из-за способа, которым данные собираются и обрабатываются. Непреднамеренное нарушение произошло в компании по картографированию MaxMind, которая предоставляет услуги геолокации, позволяющие бизнесу привлекать внимание клиентов к близлежащим продуктам и услугам. Геолокация также помогает в поиске в Интернете и может быть полезной, если услуга, которой нужен ваш IP-адрес (например, сайт потокового вещания развлечений), работает некорректно. Но точное картографирование позволяет любому, у кого есть ваш IP-адрес, найти ваш район и даже ваш дом. Сочетание вашего адреса с Zillow или другой базой данных недвижимости может предоставить информацию о вашем богатстве, а также фотографии вашего дома изнутри и снаружи.
К сожалению, картографирование IP не является точной наукой, и может быть сложно точно связать IP-адрес с физическим адресом. Картограф может назначить его ближайшему зданию или просто местности, например, штату, используя центральные координаты этой местности в качестве конкретного адреса. Это может звучать разумно, но последствия для одной семьи, снимающей удаленную ферму в Потвине, штат Канзас, были ужасными.
IP-адрес семьи был указан с координатами карты фермы, которые случайно совпадали с координатами точного центра Соединенных Штатов. Проблема заключалась в том, что MaxMind назначил более 600 миллионов других IP-адресов, которые не могли быть отображены иным способом, на те же координаты. Это решение привело к годам страданий для семьи на ферме. Согласно Кашмир Хилл, журналистке, которая раскрыла эту историю, «их обвиняли в том, что они являются ворами идентификационных данных, спамерами, мошенниками и мошенниками. Их посещали агенты ФБР, федеральные маршалы, сборщики налогов, скорые помощи, ищущие суицидальных ветеранов, и полицейские, ищущие беглых детей. Они находили людей, рыщущих по их амбару. Все данные арендаторов были слиты, их имена и адреса были опубликованы в интернете.»
Хилл связалась с одним из сооснователей MaxMind, который в конечном итоге предоставил длинный список физических адресов, которые имели много IP-адресов, и признался, что когда компания была запущена, его команда не предполагала, что «люди будут использовать базу данных для попыток найти людей до уровня домохозяйства». Он сказал: «Мы всегда рекламировали базу данных как определяющую местоположение до уровня города или почтового индекса». Вывод состоит в том, что хорошо продуманные, безобидные решения, принятые датасайнтистами и менеджерами баз данных, могут оказать реальное, очень негативное влияние на конфиденциальность непричастных третьих сторон. Это приводит нас к пятой «P».
5. Подготовка (Preparation)
Как данные подготавливаются для анализа? Как проверяется или корректируется их точность? Как управляются неполные наборы данных и отсутствующие переменные? Отсутствующие, ошибочные и выбивающиеся данные могут значительно повлиять на качество статистического анализа. Но качество данных часто бывает неудовлетворительным.
Очистка данных, особенно когда они собираются из разных периодов, бизнес-единиц или стран, может быть особенно сложной. В одном случае мы обратились к крупной международной компании по управлению талантами и обучению онлайн, чтобы помочь нам исследовать, получают ли женщины и мужчины одинаковые карьерные выгоды от обучения. Компания согласилась, что вопрос актуален как для ее клиентов, так и для общества в целом, и поэтому извлекла данные, которые у нее были на серверах. Для обеспечения конфиденциальности данные были анонимизированы, так что ни отдельные сотрудники, ни их работодатели не могли быть идентифицированы. Из-за размера набора данных было извлечено четыре отдельных набора данных.
Обычно мы просто открываем базы данных и находим файл электронной таблицы, показывающий характеристики каждого индивидуума, например, пол. Женщина может быть обозначена как «женщина» или «женский» или просто «Ж». Значения могут быть написаны с ошибками («женски»), появляться на разных языках (mujer или frau) или использовать разные регистры (ж или Ж). Если электронная таблица мала (скажем, 1000 строк), исправление таких несоответствий должно быть простым. Но наши данные содержали более миллиарда наблюдений — слишком много, очевидно, для обычной электронной таблицы, поэтому процедуру очистки пришлось программировать и тестировать.
Одной из основных проблем было установление, сколько значений было использовано для идентификации переменных. Поскольку данные поступали от иностранных филиалов многонациональных компаний, они были записаны на многих языках, что означает, что у нескольких переменных было большое количество значений — 94 только для пола. Мы написали код программы для стандартизации всех этих значений, сократив пол, например, до трех: женский, мужской и неизвестный. Даты начала и окончания работы были особенно проблематичными из-за различных форматов дат.
Согласно Tableau, платформе для анализа данных, очистка данных включает пять основных шагов: (1) удаление дублирующихся или несущественных наблюдений; (2) исправление структурных ошибок (например, использование значений переменных); (3) удаление нежелательных выбросов; (4) управление отсутствующими данными, возможно, заменяя каждое отсутствующее значение средним для набора данных; и (5) проверка данных и результатов анализа. Выглядят ли полученные результаты разумными?
Они могут и не выглядеть такими. Один из наших наборов данных, который записывал количество шагов, сделанных студентами MBA HEC Paris каждый день, содержал большой сюрприз. В среднем студенты делали около 7500 шагов в день, но некоторые выбросы делали более миллиона шагов в день. Эти выбросы были результатом ошибки программного обеспечения для обработки данных и были удалены. Очевидно, если бы мы не изучили физически и статистически набор данных, наш окончательный анализ был бы абсолютно ошибочным.
Как искусственный интеллект повышает ставки
Этика может показаться дорогой роскошью для компаний, которые имеют сильных конкурентов. Например, по сообщениям прессы и блогов, Microsoft якобы уволила всю команду по этике своего проекта Bing AI, потому что Google был близок к выпуску своего собственного приложения на базе ИИ, и время было важно.
Но отношение к этике данных как к приятному дополнению несет риски, когда речь идет об ИИ. Во время недавнего интервью технический директор OpenAI, компании, которая разработала ChatGPT, заметил: «Есть огромные потенциальные негативные последствия, когда вы создаете что-то настолько мощное, от чего может прийти столько добра… и вот почему… мы пытаемся выяснить, как ответственно развернуть эти системы».
Благодаря ИИ, специалисты по данным могут разрабатывать удивительно точные модели, которые могут предсказать поведение людей, их предпочтения и даже их заболевания. Но эти модели также могут быть использованы для манипулирования людьми, их выборами и даже их здоровьем. Искусственный интеллект может быть использован для создания Deepfake — фотографий, аудиозаписей и видео, которые выглядят и звучат так, как будто они были сделаны реальными людьми, но на самом деле были сгенерированы ИИ. Это может привести к серьезным последствиям, включая политическое манипулирование и киберпреступность.
Компании должны быть особенно осторожны при использовании ИИ для обработки данных, которые они собирают от своих клиентов и пользователей. Они должны быть уверены, что они соблюдают все соответствующие законы и регулятивные требования, и что они используют данные ответственно и этично. Это включает в себя обеспечение того, что данные анонимизированы и защищены от несанкционированного доступа, и что они используются только для целей, которые были ясно объяснены и согласованы с людьми, которые предоставили данные.
Управление персональными данными — это сложная и важная задача, которая требует внимательного и тщательного подхода. Это не только вопрос соблюдения законов и регулятивных требований, но и вопрос этики и социальной ответственности. Компании, которые хотят быть успешными в цифровую эпоху, должны признать это и поместить этику управления данными в центр своей стратегии и операций.
Перевод статьи The Ethics of Managing People’s Data из июльского выпуска HBR от Michael Segalla и Dominique Rouziès

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.