Можно ли автоматизировать обработку hr-данных?

Одно из обещаний полезности ИИ заключается в выполнении за нас обыденных, ненужных задач, которые нам так не нравится выполнять. Если копнуть поглубже, то становится понятно, почему специалисты по данным и их аналитике верят, что искусственный интеллект способен выполнить их нелюбимую задачу чистки данных.
Повсеместно считается, что аналитики тратят 80% своего времени на скучную и ненавистную работу с неочищенными данными. Честно говоря, я не знаю, где цифра доходит до 80%. Полагаю, это просто фраза, которую мы слышим от кого-то и считаем правильной исходя из собственного опыта. Очень сомнительно, что можно вообще здесь говорить о точной цифре. Тем не менее, достаточно сказать, что очищение информации — это что-то, что занимает много времени по всеобщему мнению.
Можно ли сделать что-то для уменьшения этого времени? Можно ли полностью автоматизировать очистку данных и позволить аналитику тратить свое время только на сам анализ? Вряд ли. Если вы хотите знать причины, давайте углубимся в этот вопрос.
Для начала необходимо определиться, что значит очистка данных. Основываясь на собственном опыте, могу сказать, что очищение данных — работа, проделываемая с сырой информацией из её источника для её подготовки к нужному анализу. Ниже приводятся некоторые возможные элементы такого процесса с примерными касающимися их вопросами.
1. Форматирование или перекодирование данных
Нужно ли удалить неправильно читаемые символы? Написаны ли заголовки колонок заглавными буквами? Есть ли в информации сокращения или акронимы непонятные обычным пользователям? Соответствуют ли типы данных анализу? Правильно ли были переданы типы данных?
2. Преобразования данных
Нужно ли преобразовать значения? Нужно ли защитить конфиденциальную личную информацию, чтобы её не распознали в результатах? Есть ли необходимость изменить масштаб информации? Последовательны ли даты для использования их в анализе?
3. Определение и переработка результата
Имеется ли релевантный ответ на данную модель? Какой метод использовать для подсчета? Какой ответ относится именно к моей бизнес проблеме?
4. Дополнение данных
Остались ли незаполненные колонки и ряды? Стоит ли удалить итоговые строки или ненужную информацию заголовков? Есть ли колонки с постоянной значимостью? Есть ли бесполезные колонки? Надо ли убрать нерелевантные колонки и ряды, чтобы стало легче анализировать информацию? Какие именно ряды соответствуют интересующему нас бизнес вопросу?
5. Определение объема анализа
Как перевести обширный бизнес вопрос в статистический? Выполнен ли пробный анализ данных? Понятен ли контекст данных и способ их получения? Как способ сбора информации влияет на анализ?
6. Разделение данных на группы
Есть ли необходимость объединить числовые данные в категории? Не слишком ли много категорий, что снижает эффективность анализа? Нужно ли объединить некоторые категории на основе аналитических целей?
7. Выбросы
Что делать с этими необычными величинами? Может их просто удалить? Не обращать на них внимание? Может их стоит проверить? Являются ли выбросы репрезентативными? Существует ли объяснение необычных величин?
8. Недостающие или дублирующие значения данных
Удалены ли дублирующие значения данных? Что делать с недостающими? Стоит ли их удалить, проигнорировать или исследовать? Необходимо ли воспользоваться методами условного исчисления для восполнения пробелов?
9. Объединение данных
Как соединить некоторую информацию из одной таблицы с другой из второй? Как связать источники данных, которые могут быть в разных базах данных и требовать разное соединение? Какой тип соединения выбрать? Как лучше всего интегрировать несопоставимые источники информации, которые также могут создать ещё больше недостающих значений?
Элементов может быть и больше, но это самые типичные, с которыми я сталкивался в процессе очистки данных. Итак, можно ли их автоматизировать? Некоторые проще, чем остальные. Но прошу заметить, сколько из них требуют некоторой рассудительности.
Например, нельзя удалять каждый найденный выброс, потому что там может оказаться действительная и достоверная информация. Некоторые выбросы содержат самые информативные данные и становятся показателями того, что происходит что-то необычное. Естественно, если они возникают из-за ошибок при вводе данных, их нужно исправлять. Поэтому надо с осторожностью относиться к алгоритмам, находящим выбросы, которые удаляют данные на основе статистических закономерностей или расстояния до других точек в наборе данных.
Как еще один пример с выбросами: давайте рассмотрим данные о сроках пребывания в должности работников организации. Предположим, вы находите одного сотрудника, который проработал в компании дольше остальных. Изучив ситуацию, вы понимаете, что это первый основатель компании. Если делать анализ выслуги лет по отношению к оплате труда, чтобы проследить изменения последней, я бы исключил основателя, чья зарплата меняется не так, как у среднего сотрудника. Если же основатель решит уйти на пенсию, я бы включил эту информацию в подсчет уровня добровольных увольнений для определения необходимости искать нового человека на замену. Выбор, включать значение выброса в анализ или нет, зависит от типа последнего.
Некоторые элементы очистки данных не требуют особой рассудительности по сравнению с другими. Некоторые из них можно предотвратить использованием высококачественных данных. Для уменьшения необходимого объема очистки данных есть два потенциальных решения:
Первое из них часто недооценивают, это управление данными. Это значит, что даются четкие определения данных, определяются согласованные способы расчета, устанавливаются границы, информация контролируется, так же как и её сбор и хранение. Эти меры сокращают уровень нужного реформатирования и деления на группы.
Второе решение — инженерия данных. Любая задача, повторяемая повторно, становится кандидатом для автоматизации. Стремление проанализировать информацию иногда заставляет аналитиков искать короткие пути в очистке тех данных, которые не повторяются. Так, мы сами виноваты в необходимости чистить некоторые данные. Хорошая инженерия данных с автоматизацией потока информации призвана упрощать интеграцию данных и уменьшать количество времени на их очистку.
Однако, даже наличие этих мер не исключает необходимость в некоторой очистке информации. Требуемое для этого время может быть меньше 80%, о которых было сказано ранее. Но даже все возможности ИИ не смогут свести его к нулю.
Почему? Если объяснять кратко, очистка данных — процесс, состоящий из нескольких рассуждений и умозаключений, касающихся вашей информации. Он всегда разный. Здесь не существует четкого универсального ответа. Поэтому автоматизировать этот процесс можно в такой степени, в какой возможно автоматизировать рассуждения и умозаключения в целом. Сумеет ли машина или искусственный интеллект произвести подобные умозаключения? Честно говоря, даже не знаю. Не думаю, что у современных ИИ технологий достаточно таких способностей. И пока они не появятся, меня не покинет скептицизм по поводу значительного сокращения времени на очистку данных.
Новичка в аналитике данных легко заметить по количеству выполняемой очистки информации. Он этим вообще не занимается, а попросту забрасывает любую имеющуюся информацию в программу и начинает интерпретировать замусоренные результаты. Аналитик с опытом понимает, что анализ может оказаться неверным, если информацию не очистить и не подготовить предварительно. Именно очистка и подготовка делают инсайты эксперта такими ценными. Очищенный набор данных — это тот, в котором гипотезы четко сформулированы и тщательно проверены.
Поэтому не жалейте усилий на очистку информации и улучшайте процесс грамотным управлением данными и инженерию данных. Для сокращения времени на этот процесс обратитесь к специалистам IT сферы, управления данными и в области качества данных. Они зачастую не знают, как используется информация, и рады тому, что поможет её подготовить и максимально увеличить её ценность.
И когда вы уже автоматизировали всё, что возможно, помните, что в оставшейся части должен блистать своими умениями специалист по аналитике. Воспользуйтесь умозаключениями и навыками эксперта. Возможно, нам не стоит считать такую важную задачу обыденной или повседневной.
Представьте, как скульптор смотрит на грубо отесанный кусок мрамора. Он знает, что внутри спрятано произведение искусства, поэтому кропотливая работа по откалыванию всего лишнего не является потерей времени. Может быть, хорошие инструменты и упростят такую работу, но все равно откалывать и убирать лишние кусочки нужно человеку. В этом и заключается работа скульптора.
Подобным образом, очистка данных и их подготовка — ключ к хорошему анализу. Хотя некоторые инструменты и помогут упростить этот процесс, всегда будет необходимость в умозаключениях эксперта. И подобно скульптору аналитик может увидеть красоту, скрывающуюся в глыбе информационного камня.
Перевод статьи Can Data Cleaning Be Automated? от Willis Jensen, 13.03.2024

Исследуем будущее работы вместе! HR-Tech, автоматизация, HR-Аналитика, digital EJM.