Качественная разметка — залог успеха анализа текстов в People Analytics

Большинство команд People Analytics пришли к решению, что им нужно анализировать текстовые данные. У многих будут большие объемы текста и они понимают, что это самый богатый источник данных, который у них есть, и что текст может дать информацию, которую трудно эффективно собрать где-либо еще.
Специалисту по данным, не занимающемуся текстовыми сообщениями, и, конечно же, HR-командам, которые работать с ними, это кажется технологической проблемой. Но мы уже живем в эпоху, когда многие из самых мощных моделей Искусственного интеллекта имеют открытый исходный код и реализуются в нескольких строках кода. Легко ли выбрать базовую модель, чтобы выполнить свою задачу?

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.
Модели классификации
Большинство вариантов использования текстовой аналитики в HR представляют собой модели классификации. Для обучения моделей классификации нужен набор примеров данных и разметка. Таким образом, в текстовой модели вам может понадобиться найти предложение «Я хотел бы повысить зарплату» и соответствующую метку «повышение зарплаты».
Во многих случаях, когда вы создаете множество моделей классификации в HR, у вас есть размеченные данные. Для модели анализа увольнений вам нужен набор данных о людях и метка — уволились они или нет в определенный момент времени. Вероятно, у вас уже есть эта информация, поэтому построение моделей увольнения является таким популярным вариантом старта в использовании People Analytics.
При анализе текстовых документов у вас нет легкодоступного набора размеченных данных. Вы должны создать его. И тут не обойтись без участия человека.
Закон Ципфа
Закон Ципфа, названный в честь американского лингвиста George Kingsley Zipf, представляет собой утверждение о том, что частоты (f) определенных событий — в нашем случае слов в текстовом источнике — обратно пропорциональны их рангу (r). На английском языке соотношение примерно f (r) = 0,1 / r. Таким образом, наиболее часто встречающееся слово (в английском «the») встречается примерно в каждом 10-м слове, а второе наиболее часто встречающееся слово (в английском «of») встречается примерно в каждом 20-м слове. То, что описывает закон Ципфа — верно для наиболее часто встречающихся слов в любом наборе связанных документов и является экспоненциальным распределением. Мы видим что-то подобное на каждом из наших частотных графиков анализа текстов.

Источник — блог компании Organization View
Темы — это не единичные слова, а, скорее, обобщение по смыслу: существует множество слов для описания «зарплаты», а в некоторых предложениях о зарплате вообще не упоминается слово о зарплате — например, «дайте мне прибавку!», и тогда более ярко возникает экспоненциальное распределение.
Каковы последствия этого?
Давайте представим эксперимент. Допустим, у вас есть набор из 1000 ответов на опрос. Для простоты, предположим, что каждый ответ состоит из одного предложения, и каждое предложение имеет одну тему (это, конечно, нереалистично).
Вы получили задание рассортировать предложения по темам. Вы берете первое предложение и, поскольку темы в настоящее время не существует, вы создаете новую тему.
Затем вы берете следующее предложение. Это относится к существующей теме? Если да, отнесите его к этой теме. Если нет, создайте новую тему.
Что вы видите, когда закончите задание? Ваша самая большая тема, вероятно, покроет 7-15% предложений. У вас появляется «длинный хвост».
Предположим, что для того, чтобы быть темой, вам нужно «n» примеров, скажем, 5. Затем вы можете объединить все темы ниже этого порога в группу «Прочее».
Как бы вы нашли 5 упоминаний редкой темы, попавшей в прочее? Вам, вероятно, понадобится набор данных в 5 раз больше. Однако, если бы вы сейчас провели эксперимент для 5000 ответов, большее число тем могли превысить порог в 5 упоминаний, а также вы бы новый набор тем ниже этого порога в группе «Прочее». Но у вас всегда будет длинный хвост тем с всего одним упоминанием.
Строим разметку для классификации текста
Приведенный выше пример представляет собой простой подход к созданию меток, необходимых для реализации алгоритма машинного обучения, чтобы научиться классифицировать текст. Сколько примеров вам нужно, чтобы модель классификации текста начала предсказывать метку? Очень приблизительный ориентир, основанный на нашем опыте: начиная от 100 примеров, чтобы начать получать хорошие результаты. На практике нам удобнее использовать 500 примеров каждой темы в качестве отправной точки, хотя 1000, вероятно, еще лучше.
Если мы считаем, что самая большая тема встречается в 10% случаев, то просмотр наших первых 1000 примеров должен предоставить достаточно примеров только для самой большой темы. Но вам не нужна только самая большая тема, ваши внутренние клиенты наверняка захотят большего, поэтому вам нужно будет просмотреть и разметить больше данных.
Согласно одной оценке времени, необходимого для маркировки текстовых данных из опросов, ручная разметка 1000 ответов займет примерно 27 часов. В реальной жизни у вас нет простых предложений c одной темой.
Классификаторы будут связаны с задачами
Спросите любого исследователя, занимающегося качественными исследованиями: для создания высокоэффективной модели кодирования вам необходимо построить модель, которая зависит не только от заданного вопроса, но и от цели исследования.
Простой пример: вместо того, чтобы задавать общий вопрос сотрудникам, подумайте, какие темы были бы уместны, если бы вы задали вопрос, например, конкретно о DEI (Разнообразие-равенство-инклюзивность). Общем случае, вероятно, правильно было бы сначала выделить ответы, в которых упоминается тема DEI. В исследовании самого DEI вы, вероятно, больше заинтересованы в объяснении того, что именно о DEI говорят сотрудники.
Даже по одному вопросу разные аудитории, скорее всего, будут иметь разные потребности. Что касается вашего общего вопроса опроса сотрудников, то, что будет интересовать команду HR, вероятно, будет отличаться от того, что будет представлять интерес для ИТ-команд или группы бизнес-стратегии.
Информационная ценность
Конечно, есть подвох (не всегда!). Не каждый помеченный пример одинаково полезен для машинного обучения. Если у вас есть одно предложение, говорящее «заплатите мне больше», добавление второго не добавит много новой информации. На самом деле наличие большого количества идентичных или почти идентичных примеров, вероятно, даже ухудшит производительность модели, поскольку ваша система будет думать, что она должна искать именно это предложение. Вам нужен и объем, и разнообразие ответов.
Здесь в игру снова вступает экспоненциальное распределение. Наиболее распространенные фразы каждой темы, вероятно, будут встречаться во много раз чаще, чем наименее частые. Поиск 100 примеров, конечно же, не даст вам 100 уникальных или почти уникальных значений. Что нужно для разнообразия? Просто добавьте еще примеров!
Каковы пограничные случаи?
Ответы, связанные с наибольшим информационным риском, которые следует включить в данные обучения, находятся на границе принятия решений. Это те, в которых модель будет иметь наибольшую вероятность неправильного кодирования или просто не будет уверена в результате.
У каждой модели будут разные примеры, которые кажутся ей трудными. Следовательно, вы захотите найти примеры, которые вам не трудно отнести к теме, но которые сложны для определения моделью. Эти два множества случаев могут не совпадать.
Если вы перешли к использованию ансамбля моделей, то у разных моделей могут быть разные пограничные случаи. Конечно, вы можете использовать эту информацию, чтобы либо выделить больше примеров, которые вам нужно пометить, либо использовать какие-то правила голосования и ранжирования, чтобы снизить неопределенность.
Маркировать данные с умом
На этом этапе, вы, возможно, задавались вопросом, нужно ли маркировать все, дает ли подход случайной выборки наибольшее преимущество или вместо этого вам следует попробовать использовать модели машинного обучения, чтобы определить, какие темы или ответы следует маркировать. Ответ, наверное, очевиден.
Использование моделей машинного обучения с целью формирования для аналитиков выборки примеров с наибольшей информативностью называется «активным обучением». Это подход, который используем мы и почти все опытные команды. Исторически это было недостаточно исследовано в сообществе машинного обучения, хотя сейчас это начинает меняться, благодаря таким практикам, как мы.
Кто ваша команда по разметке данных?
Спросите любого в команде прикладного машинного обучения, с какой самой сложной задачей они сталкиваются, и они ответят, что это получение набора надежных обучающих данных, предоставленных аналитиками со знанием предметной области. Для большинства корпораций аутсорсинг для такой платформы, как Mechanical Turk, невозможен. Юридическое приложение, вероятно, нуждается в юристах для кодирования. Финансовой системе потребуются люди с финансовым образованием. Нам нужны люди, которые действительно могут понять ответы на опросы сотрудников.
Большинство компаний часто по умолчанию используют свои команды датасаентистов. Это не долгосрочное решение. Маркировка — это квалифицированная роль, и использование специалистов по данным для маркировки (которые часто не имеют знаний в предметной области) отвлекает этих людей от других задач Data Science.
Мы все чаще наблюдаем, как корпорации создают in-house команды по маркировке данных. Другие решили отдать эту деятельность на аутсорсинг. Нам еще предстоит увидеть, как внутренние HR-команды создают специальные группы кодирования, но, учитывая потребность в больших объемах данных для обучения, поскольку компании изучают более сложные или высокопроизводительные варианты использования, это будет неизбежным.
Несколько вещей, которые следует учитывать
При создании качественных обучающих данных вы довольно быстро дойдете до стадии, когда вам нужно формализовать процесс.
- Вам нужно будет создать документацию по кодированию, чтобы сообщить более широкой команде, как принимать определенные решения.
- Вам нужно будет создать некоторую форму процесса управления, чтобы справиться с неизбежными разногласиями, особенно в отношении двусмысленных комментариев и крайних случаев.
- Вам необходимо рассмотреть вопрос об обслуживании и обновлении обучающих данных. Мы видим, что существующие темы постоянно развиваются, появляются новые. По моим оценкам, треть из наших новых тематических категорий представляет собой действительно новые темы по мере развития использования языка, треть связана с новыми вопросами или сменой акцента, а остальные приводят к разделению старых широких тем на подтемы.
Вам нужно приобрести технологию маркировки для использования кодировщиками?
Как и большинство команд, мы начали с набора сценариев и электронных таблиц для создания и уточнения наших моделей разметки. Как только этот подход стабилизировался, мы построили внутренние системы, которые не только копировали или улучшали то, что делалось в этих электронных таблицах, но и позволяли нам расширять и измерять эффективность разметки текстов. Мы совершенствовали нашу систему около 4 лет, и теперь все усилия по созданию, тонкой настройке и поддержке наших текстовых моделей могут выполняться нашими специалистами в предметной области, а не специалистами по данным.
Наша внутренняя технология очень специализирована для нашего варианта использования и очень специфична для подхода к кодированию, который мы разработали.
Мы строили сами частично потому, что было мало доступных коммерческих или систем с открытым исходным кодом, которые предлагали то, что мы хотели. Теперь все изменилось, и существует множество доступных платформ разметки, таких как labelbox и LightTag . Эти инструменты имеют гораздо более широкие варианты использования, чем наши внутренние инструменты, но я бы сказал, что они менее сфокусированы на конкретных задачах, которые нам нужно выполнить. Если бы мы начинали сейчас, мы бы, вероятно, использовали один из них, но теперь я не вижу необходимости переезжать в общедоступные платформы.
Резюме: наиболее важным фактором успеха анализа текста, вероятно, является не то, что вы думаете.
В этой статье я попытался показать, что создание качественного анализа текста является не столько технической задачей, сколько зависит от кропотливой и трудоемкой задачи по созданию больших объемов высококачественных обучающих данных.
Если бы кто-то спросил меня, как улучшить свои модели анализа текста, моей первой рекомендацией было бы улучшить их обучающие данные. Этот подход к машинному обучению, ориентированный на данные, который мы применяли в течение последних 7 лет, позволил нам добиться наибольшего повышения производительности.
Команды с самыми эффективными текстовыми моделями на сегодняшний день, скорее всего, вложили больше всего средств в обучающие данные. В настоящее время мы работаем с более чем 2 миллионами размеченных вручную примеров предложений, которые мы используем в качестве отправной точки для любой новой части клиентской работы. Наша технология разметки позволяет нам быстро распознать известные нам модели для новых запросов наших клиентов.
Хотя многие считают, что производительность анализа текста зависит от того, какие модели вы используете, мы видим наше конкурентное преимущество в двух аспектах:
- Большой объем высококачественных данных для обучения в предметной области
- Промышленный процесс (с вспомогательными системами) для быстрого развития и создания этих обучающих данных для удовлетворения потребностей клиентов.
Если у вас есть соблазн самостоятельно построить это внутри вашей компании, это возможно, но потребует много ресурсов, потому что качественная текстовая модель, в основном, связана с большим объемом работы.
Перевод статьи Why great training data is the key to text analysis success in People Analytics в блоге компании Organization View от 19.12.2022

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.