Конфиденциальность и безопасность в эпоху ChatGPT

Если вы сталкиваетесь с разработкой программных продуктов, вряд ли вы пропустили новые достижения в области продуктов и платформ, которые были произведены за последние два года, такие как LLMs (большие языковые модели), и практически невозможно было пропустить шумиху вокруг выпуска новейших моделей искусственного интеллекта GPT-3.5 и GPT-4.
И даже если на их создание ушли годы, успеха они достигли почти мгновенно.
Тот самый переломный момент произошел, когда мы увидели способности таких моделей обобщать и вести беседу подобно нам. С тех пор началась всемирная гонка программных технологий вокруг них.
Как обычно, есть и те, кто продает пустышки и подделки, но создаются и невероятные новые продукты, и развиваются уже существующие. Улучшение взаимодействия человека и машины, используя человеческий язык, ещё никогда не было таким простым, точным и управляемым.
Кроме того, существует два лагеря, первый — где призывают хотя бы временно притормозить, а во втором хотят максимально нажать на педаль газа на этом пути.
Тем не менее, если мы поддержим повальное увлечение искусственным интеллектом и будем создавать продукты, используя относительно новые платформы и инфраструктуру, основанную на ИИ, то как насчет конфиденциальности, безопасности и этических рисков, с которыми мы сталкиваемся, и что с ними делать?
В нашем случае, мы разрабатываем современную платформу аналитики кадров (People Analytics platform), которая, как мы надеемся, будет самой передовой и простой в использовании.
Работая с данными по сотрудникам мы вступаем на территорию тонких вопросов конфиденциальности и безопасности информации. Хотелось бы поделиться тем, как мы справляемся с такими рисками с помощью ИИ инструментов в довольно практичной и приземленной манере.

Мой Telegram-канал Ready.2HR.Tech.

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.

Насколько важна конфиденциальность для нас

Большое количество наших технических команд разработчиков продуктов потрудились в биомедицинском пространстве, создавая платформы, использующие целые петабайты биомедицинских данных, в первую очередь информацию по геномике рака, и конфиденциальные данные пациентов. Поэтому мы очень серьезно относимся к вопросу неразглашения и безопасности информации.
Мы надеемся, что этот простой рецепт поможет вам справиться с маркетинговой тактикой FAD (Fear, uncertainty and doubt = страх, неопределенность и сомнение) и манией вокруг ИИ платформ и инструментов, которые вы разрабатываете.

Сначала главное

Во-первых, никогда-никогда не пересылайте частные и конфиденциальные данные через платформу открытого ИИ или другого подобного разработчика, если у них нет SOC 2 Type 2, или у вас нет четкого соглашения о нерасторжении (NDA/DPA), или если вы не знаете как ваша информация будет обработана и использована.
Недавний взлом данных компании Samsung четко показывает, что они ещё не научились защищать информацию, и что при необходимости обобщения или другой обработки данных каким-либо внешним провайдером относиться к этому процессу следует, как любой услуге, о которой вы не все знаете и которую не можете полноценно контролировать.
Ни в коем случае не пересылайте частную и конфиденциальную информацию. Даже если вы обобщаете какие-либо моменты, касающиеся больших демографических групп, а не работаете с персональными данными, все равно используйте так называемую анонимизацию.

Как работать с конфиденциальной информацией

Если вам нужно иметь дело с приватными данными, у вас есть невероятные альтернативы подобные GPT-3.5. Например:

  • GPT4All если вы создаете некоммерческий продукт (поскольку он использует модель LLaMA в качестве основы, которая не допускает коммерческого использования)
  • Bloom если вы создаете коммерческий продукт. Убедитесь, что вы соответствуете замечательной этической лицензии AI RAIL от Bloom.

Кроме того, если вы задействуете автономные модели, то получите в качестве преимущества возможность дополнительно оптимизировать и настраивать их для специфического домена и использования, что пока недоступно для некоторых ведущих моделей, таких как GPT-3.5 и GPT-4.
Если же вы работаете с общедоступным контентом, не содержащим конфиденциальных или личных данных, например, блог постов, публикаций, документов и т.д., которые находятся во всеобщем доступе, вы вполне можете использовать его при помощи GPT-3.5/4 и подобных сервисов. Существует вероятность, что их уже используют с самого начала для подготовки некоторых крупных моделей, а вы можете их применить для обобщения и калибровки преобразователя.
Если это возможно, старайтесь быть честным интернет пользователем и делайте ссылки на первоначальный источник или авторов, если пользуетесь их работой для создания своего контента.

Разработка семантического поиска

Если вы разрабатываете семантический поиск с использованием встраивания LLM в выдачу, вы скорее всего будете пользоваться либо открытыми источниками, либо такими сервисами, как Pinecone. Если это так, следите, чтобы метаданные, используемые для создания ваших векторных данных, не содержали частную информацию.
Важно помнить одну важную вещь: не используйте LLM ни для чего на критическом пути.
Вместо этого, используйте ИИ в качестве помощника или гида для получения нужной вам информации (так как современные модели не готовы для полной замены человека) или уже существующих проверенных на опыте методов автоматизации. В этом плане можно привести аналогию: большие языковые модели — это скорее что-то типа экзоскелета, а не полностью автономного робота.
Легко обмануться результатами от использования LLM и позабыть, что им не хватает точности и системности для выполнения некоторых задач.
Таково краткое изложение рекомендаций, что делать и чего не делать. Все это позволяет нам никогда не раскрывать сенситивную информацию тем разработчикам, у которых еще нет правильного контроля, но в то же время они выдавать интерфейс естественного языка в поиске и обобщение актуального контента.
Но, несмотря на свои впечатляющие возможности, LLМ далеко не самые сложные и невероятные изобретения человека. Даже будучи невероятной вехой в исследованиях и нереально полезными для многих продуктов, они ещё далеки от общего интеллекта (general intelligence). Я верю, что машины не собираются нас уничтожить или похитить нашу информацию.
Нам, людям разрабатывающим продукты, следует просто продолжить работать с программными стеками и инфраструктурой, при этом использовать рассудительность и оценивать риски для безопасности и конфиденциальности, и разбираться с ними по одному. Нам необходимо следить за тем, как мы используем ИИ инструменты, и понимать, что они на самом деле делают.
И даже помимо этого, каковы этические последствия продуктов, которые мы создаем?
Они не тривиальны, но вполне управляемы.
Я ожидаю, что по мере взросления инструментов и поставщиков ИИ платформы, такие как API/плагины GPT, размещенные на OpenAI, станут более удобными для предприятий и обеспечат приемлемые уровни конфиденциальности вместе с традиционными средствами контроля.

Вспомните, где были поставщики облачных систем еще 10 лет назад?

Перевод статьи Privacy & Security in Times of AI в блоге компании Orgnostic от 11.04.2023, Автор Igor Bogicevic

Как вам статья?

Поставьте оценку!

Средняя оценка 5 / 5. Количество оценок: 1

Оценок пока нет. Оцените первым

😔 Сожалеем, что вы поставили низкую оценку!

🙏 Позвольте нам стать лучше!

Расскажите, что не понравилось?

Мой Telegram-канал Ready.2HR.Tech.

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.

  • 19.05.2023