В России начали применять технологии искусственного интеллекта для поиска неучтенных персональных данных в крупных корпоративных архивах. Один из таких проектов был реализован командой ИТ-компании ARTW для клиента из телеком-отрасли: требовалось проверить архив объемом около 80 ГБ, включавший порядка 30 тыс. документов различных форматов. По объему такой массив сопоставим с небольшой библиотекой примерно из 100 книг. Об этом CNews сообщили представители ARTW.
Как сообщили в компании, в архив входили PDF-файлы, сканы, изображения и офисные документы. Часть из них могла содержать персональные данные, в том числе сканы удостоверяющих документов. При этом ручная проверка такого объема потребовала бы от 250 до 500 часов в зависимости от качества файлов и глубины анализа.
Для решения задачи команда ИТ-компании ARTW развернула локальный контур обработки, что позволило анализировать документы в контролируемой среде. В основе решения использовалась комбинация нескольких технологий: OCR, анализа изображений, языковых моделей, vLLM и инструментов поиска характерных признаков документа.
OCR — это технология оптического распознавания текста, которая позволяет извлекать текст из сканов, фотографий и PDF-файлов. Однако в больших архивах одного OCR недостаточно: документы могут быть размыты, обрезаны, сохранены в низком качестве или сфотографированы под углом. В таких случаях требуется дополнительная обработка и анализ визуальных признаков.
Поэтому проверка была выстроена как многоступенчатый процесс. На первом этапе из массива отсекались нерелевантные файлы. Затем документы проходили предварительную подготовку к анализу: корректировались масштаб, контраст и качество изображения. После этого подключались более ресурсоемкие этапы — OCR, анализ структуры документа, поиск типовых шаблонов и обработка языковыми моделями. Финальная ручная верификация применялась только к спорным случаям.
Такой подход позволил отказаться от сплошной обработки всего архива и сосредоточить вычислительные ресурсы на файлах, которые с большей вероятностью могли содержать персональные данные. По итогам проекта заказчик получил перечень документов, требующих дополнительной проверки.
В ARTW отмечают, что подобные проекты становятся все более актуальными на фоне роста корпоративных архивов, сформированных после миграций, выгрузок из CRM, длительного хранения документов и накопления исторических данных. По мере увеличения объема таких массивов ручная проверка становится все менее эффективной, а автоматизированный анализ — более востребованным инструментом контроля.