Как обучить генеративный ИИ, используя данные компании

Многие компании экспериментируют с ChatGPT и другими крупными языковыми и воспроизводящими изображения моделями, которые восхитительны благодаря их способности выражать сложные идеи четко и ясно. Однако, большинство пользователей осознают, что такие системы обучаются на информации из интернета и не в состоянии отвечать на запросы по частному контенту.

Выгодное применение собственной информации необходимо для способности компании конкурировать и создавать инновации в современном изменчивом мире. Инновациям внутри организации способствует эффективная креативность, управление, применение, перестройка и внедрение информационных активов и ноу-хау. Тем не менее, внутренняя информация обычно накапливается в различных источниках и формах, включающих мысли сотрудников, процессы, политику, отчеты, деловые сделки, доски обсуждений, онлайн чаты и встречи. Получается так, что всесторонняя информация о компании часто не учитывается, с трудом организуется и не применяется эффективно.

Новые технологии в виде языковых моделей генеративного искусственного интеллекта (LLM) предлагают уникальные возможности для управления информацией, таким образом улучшая работу компании, учебные и инновационные возможности. Например, в компании из списка Fortune 500, производящей программы для бизнес процессов, система, основанная на генеративном ИИ, помогла увеличить производительность специалистов по поддержке клиентов, улучшила удержание сотрудников на рабочем месте и принесла много положительных отзывов со стороны покупателей. Система также ускорила обучение и развитие навыков новых сотрудников.

Мой Telegram-канал Ready.2HR.Tech.

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.

Технология управления информацией на основе генеративного ИИ

Технология внедрения специфической информации компании в LLM (большие языковые модели) быстро развивается. В настоящий момент есть три основных подхода к внедрению частного контента в генеративную модель.

Настройка LLM с нуля

Один их таких подходов — создать и настроить свою собственную специфическую модель с нуля. Он не особо популярен, так как требует огромное количество высококачественных данных для настройки LLM, и у большинства организаций просто этого нет. Также здесь нужен доступ к мощным компьютерам и хорошо подготовленные специалисты в области науки о данных.   

Одной из компаний, применивших такой подход, является Bloomberg, которая недавно объявила о создании BloombergGPT для работы со специфическим финансовым контентом и интерфейса на естественном языке со своим терминалом данных. У этой организации есть финансовые данные за последние 40 лет, новости и документы в сочетании с большим объемом финансовых текстов и интернет данных. В общей сложности, компания задействовала  700 миллиардов символов, около 350 миллиардов слов, 50 миллиардов параметров и 1,3 миллионов часов обработки графических единиц. Немногие компании располагают подобными ресурсами.

Точная настройка уже имеющейся LLM

Второй подход заключается в точной подстройке уже существующей LLM добавлением специфического содержимого в систему, уже настроенную на общую информацию и языковое взаимодействие. Такой подход предполагает калибровку некоторых параметров базовой модели и обычно требует значительно меньше данных — всего лишь сотни или тысячи вместо миллионов или миллиардов. Для обучения такой системы требуется меньше компьютерного времени, чем для создания новой модели с нуля.

Подобный подход, например, применил Google для своей модели  Med-PaLM2 для обработки медицинских данных. В ходе исследовательского проекта  их общая модель  PaLM2 LLM получила тщательно отобранную медицинскую информацию из разных общественных медицинских баз данных. Модель смогла ответить на 85% вопросов американского экзамена на получение медицинской лицензии, это на 20% лучше их первой версии системы. Несмотря на быстрые успехи, после её тестирования  на научную достоверность, точность, медицинский консенсус, логику, предвзятость и вред, а также проверки экспертами из разных стран команда разработчиков посчитала необходимым провести значительные поправки до её применения в клинической практике.

Однако, данный подход точной настройки имеет несколько ограничений. Хотя он и требует меньшей компьютерной мощности и времени на подстройку, это все равно довольно дорого. Для компании Google этот момент не был проблемой, чего нельзя сказать о многих других. Кроме того, такая настройка LLM также нуждается в надежных знаниях науки о данных. Например, в проекте Google был задействован 31 специалист в этой области. Среди ученых бытует мнение, что лучше добавлять не новое содержимое в модель, а новый формат и стиль (например, как запрос к ChatGPT — «Пиши как написал бы Шекспир»). Кроме того, некоторые производители LLM (к примеру, OpenAI) не позволяют дополнительно настраивать свои новейшие языковые модели, такие как GPT-4.

Быстрая настройка имеющейся LLM

Пожалуй наиболее распространенным подходом к изменению содержания LLM для компаний, занимающихся non-cloud технологиями, является настройка через prompt-запросы. Здесь предполагается оставить первоначальную модель в неизменном виде, а модификации проводить лишь в контекстном окне со специфической информацией через промпты. После такой подстройки модель может отвечать на вопросы, касающиеся этой информации. Этот подход самый эффективный в плане сбережения компьютерной мощности и не требует большого количества данных для обучения на новой информации.

Компания Morgan Stanley, например, применила быструю настройку на своей модели OpenAI’s GPT-4. Они использовали тщательно отобранные 100 000 документов по важному инвестированию, бизнесу и процессу инвестирования. Их целью было снабдить финансовых советчиков компании точной и легкодоступной информацией по ключевым вопросам, с которыми они сталкивались при передаче рекомендаций клиентам. Такая система работает на частном облаке, доступ к которому есть только у сотрудников Morgan Stanley.

Хотя этот подход и кажется самым простым из трех, он тоже не лишен трудностей. При использовании неструктурированных данных, таких как текст, для ввода в LLM, можно заметить, что такие данные слишком объемные для непосредственного введения в контекстное окно LLM. Альтернативой может быть создание сложения векторов (vector embeddings) — массивы числовых значений, полученные из текста с помощью другой предварительно обученной модели машинного обучения (Morgan Stanley использует одну от OpenAI под названием Ada). Метод сложения векторов является более компактным представлением этих данных, которое сохраняет контекстные отношения в тексте. Когда пользователь вводит запрос в систему, алгоритм сходства определяет, какие векторы должны быть отправлены модели GPT-4. Хотя некоторые компании и предлагают инструменты, чтобы сделать этот процесс быстрой настройки проще, он все еще остается усложненным, поэтому компаниям, применяющим данный подход нужно значительное количество специалистов по данным.

Тем не менее,  этот процесс не обязательно требует больших трат времени или денег, если нужное содержимое уже есть. Компания  Morningstar, специализирующаяся на инвестиционных исследованиях, использовала быструю настройку и сложение векторов для своего исследовательского инструмента Mo на основе генеративного ИИ. Спустя примерно месяц работы они выдали систему в пользование своим финансовым советчикам и независимым инвестиционным клиентам. Mо даже добавили цифровой аватар, который мог произносить ответы вслух. Такой технический подход оказался недорогим. В первый месяц работы Мо ответил на 25 000 вопросов при средней стоимости одного ответа в 0,002 доллара, а общей сумме в 3 000 долларов. Это копейки!

Отбор и управление контентом

Как и в традиционном управлении знаниями, где документы загружались в платформы для обсуждений, например, Microsoft Sharepoint, в случае с генеративным ИИ, важно обеспечить высокое качество контента перед любой настройкой LLM. В некоторых случаях, как с системой Google Med-PaLM2, существуют широко доступные базы данных медицинских знаний, которые уже отобраны. В противном случае, компании должны полагаться на отбор контента человеком, чтобы гарантировать его точность, актуальность и отсутствие дубликатов. Например, в Morgan Stanley работает группа из 20 менеджеров по знаниям на Филиппинах, которые постоянно оценивают документы по различным критериям; их оценки определяют, можно ли интегрировать материал в систему GPT-4. Большинство компаний, не располагающих хорошо отобранным контентом, столкнутся с проблемами при попытке сделать это для такой цели.

Morgan Stanley также выяснил, что сохранить высокое качество знаний гораздо легче, когда авторы контента осведомлены о том, как создавать эффективные документы. Им предлагается пройти два курса: один по инструменту управления знаниями, а другой — по составлению и разметке документов. Это является частью стратегии компании по управлению контентом — систематического метода фиксации и управления ключевым цифровыми знаниями.

В Morningstar авторы контента учатся различать, какой контент эффективно взаимодействует с системой Mo, и какой нет. Они загружают свой контент в систему управления контентом, откуда он напрямую переходит в векторную базу данных, обслуживающую модель OpenAI.

Обеспечение качества и оценка

Ключевым моментом управления контентом, генерируемым ИИ, является уверенность в его качестве. Широко известно, что генеративный ИИ иногда «галлюцинирует», уверенно сообщая неверные или несуществующие факты. Ошибки такого рода могут создать проблемы для бизнеса, но они могут быть смертельными в медицинских приложениях. Хорошие новости в том, что компании, настроившие свои LLM на специфическую для домена информацию, обнаружили, что галлюцинации менее проблематичны, чем у стандартных LLM, по крайней мере, если нет продолжительных диалогов или запросов, не относящихся к бизнесу.

Компании, принимающие эти подходы к управлению знаниями на базе генеративного ИИ, должны разработать стратегию оценки. Например, для BloombergGPT, предназначенного для ответа на финансовые и инвестиционные вопросы, система была проверена на публичных финансовых задачах, распознавании именованных сущностей, анализе сентиментов и ряде задач по рассуждению и обработке естественного языка. У системы Google Med-PaLM2, в конечном итоге нацеленной на ответы на медицинские вопросы пациентов и врачей, имела гораздо более обширную стратегию оценки, отражая критичность точности и безопасности в медицинской области.

Жизнь или смерть не является проблемой в Morgan Stanley, но создание высокоточных ответов на финансовые и инвестиционные вопросы важно для компании, ее клиентов и регуляторов. Ответы, предоставленные системой, были тщательно оценены человеческими рецензентами, прежде чем она была предложена каким-либо пользователям. Затем она была протестирована в течение нескольких месяцев 300 финансовыми советниками. В качестве основного подхода к постоянной оценке Morgan Stanley имеет набор из 400 «золотых вопросов», на которые известны правильные ответы. Каждый раз, когда в системе происходят какие-либо изменения, сотрудники тестируют ее с помощью золотых вопросов, чтобы увидеть, произошел ли «регресс», или менее точные ответы.

Юридические и управленческие аспекты

Сложные и динамичные юридические и управленческие вопросы, связанные с внедрением LLM, порождают риски в области интеллектуальной собственности, конфиденциальности и безопасности данных, предвзятости и этики, а также возможности возникновения ложных или неточных результатов. На данный момент юридический статус выводов LLM остается неопределенным. Поскольку LLM не генерируют точные копии текстов, использованных для обучения, многие юристы склонны считать, что на них распространяются положения о «справедливом использовании» законов об авторских правах, хотя это еще не подтверждалось в судах (при этом не во всех странах в законах об авторских правах есть такие положения). В любом случае, компаниям, активно применяющим генеративный ИИ для управления знаниями (или для большинства других целей), рекомендуется вовлекать юридических представителей в процесс создания и управления настроенными LLM. Например, в Morningstar юристы компании помогли разработать серию «предварительных запросов», указывающих системе генеративного ИИ, на какие вопросы следует отвечать, и какие лучше вежливо обходить.

Пользовательские запросы в общедоступных LLM используются для обучения будущих версий системы, поэтому некоторые компании (например, Samsung), опасаясь распространения конфиденциальной информации, запретили использование LLM своими сотрудниками. Однако большинство усилий компаний по настройке LLM с помощью специфического для домена контента выполняются на частных экземплярах моделей, недоступных для публичных пользователей, поэтому это не должно быть проблемой. К тому же некоторые системы генеративного ИИ, такие как ChatGPT, позволяют пользователям отключать сбор истории чата, что может решить проблемы конфиденциальности даже в публичных системах.

Для решения проблем конфиденциальности и приватности некоторые поставщики предлагают расширенные и улучшенные функции безопасности для LLM, включая удаление пользовательских запросов, ограничение определенных тем и предотвращение ввода исходного кода и собственных данных в общедоступные LLM. Более того, поставщики корпоративных программных систем вводят «Слой доверия» в свои продукты и услуги. Например, Salesforce интегрировала функцию Einstein GPT в свой комплект AI Cloud для преодоления «проблемы доверия к ИИ» между компаниями, желающими быстро развернуть возможности LLM, и вышеупомянутыми рисками, которые эти системы представляют в деловой среде.

Дизайн поведения пользователей

Простота использования, широкая общедоступность и полезные ответы в различных областях знаний привели к быстрому, несколько бесконтрольному и естественному внедрению систем управления знаниями на основе генеративного ИИ среди сотрудников. Например, недавний опрос показал, что более трети опрошенных сотрудников использовали генеративный ИИ в своей работе, но 68% респондентов не сообщили своим руководителям о том, что они используют этот инструмент. Чтобы реализовать возможности и управлять потенциальными рисками применения генеративного ИИ в управлении знаниями, компаниям нужно развивать культуру прозрачности и ответственности, которая сделает успешными системы управления знаниями на основе генеративного ИИ.

Помимо внедрения политик и рекомендаций, пользователям необходимо понимать, как безопасно и эффективно интегрировать возможности генеративного ИИ в свои задачи для улучшения производительности и продуктивности. Возможности генеративного ИИ, в том числе понимание контекста и истории, создание нового контента путем агрегации или объединения знаний из различных источников, а также прогнозирование на основе данных, могут оказать мощную поддержку в работе. Системы управления знаниями на основе генеративного ИИ могут автоматизировать процессы интенсивного поиска информации (например, юридические исследования) и выполнять задачи с высоким объемом и низкой сложностью, такие как ответы на рутинные письма клиентов. Такой подход повышает эффективность сотрудников, освобождая их для более тщательного анализа сложных вопросов принятия решений и решения проблем в рамках их обязанностей.

Пользователям следует развивать конкретные навыки:

  • Знание о том, какие типы контента доступны через систему;
  • Как создавать эффективные запросы;
  • Какие типы запросов и диалогов разрешены, а какие нет;
  • Как запросить добавление дополнительного контента в систему;
  • Как использовать ответы системы при общении с клиентами и партнерами;
  • Как создавать новый контент полезным и эффективным способом.

Как мы видели выше, Morgan Stanley и Morningstar обучали создателей контента, в частности, как лучше всего создавать и маркировать контент, а также какие типы контента хорошо подходят для использования генеративного ИИ.

«Все движется очень быстро»

Один из опрошенных нами руководителей сказал: «Я могу рассказать вам, как обстоят дела сегодня. Но в этой области все движется очень быстро». Новые LLM и новые подходы к настройке их контента объявляются ежедневно, как и новые продукты от поставщиков с конкретным контентом или задачами. Любая компания, решившая внедрить свои знания в систему генеративного ИИ, должна быть готова к тому, что в течение следующих нескольких лет ей придется регулярно пересматривать свой подход к этому вопросу.

Несмотря на множество сложных вопросов, связанных с созданием и использованием систем генеративного ИИ, обученных на собственном контенте компании, мы уверены, что общая выгода для компании стоит затраченных усилий для решения этих задач. Долгосрочная перспектива предоставления возможности любому сотруднику — и также клиентам — легко получать доступ к важным знаниям как внутри, так и за пределами компании для повышения продуктивности и инноваций представляет собой мощный стимул. Кажется, генеративный ИИ — это технология, которая наконец делает это возможным.

Источник — статья How to Train Generative AI Using Your Company’s Data из HBR от 06.07.2023 от Tom Davenport и Maryam Alavi.

Как вам статья?

Поставьте оценку!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Оцените первым

😔 Сожалеем, что вы поставили низкую оценку!

🙏 Позвольте нам стать лучше!

Расскажите, что не понравилось?

Мой Telegram-канал Ready.2HR.Tech.

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.

  • 15.10.2023