Почему простые способы обезличивания данных не подходят для тестирования
Не подходит для дат и чисел. Телефон из набора цифр превращается в символы,
из-за чего системы могут работать
некорректно.
Слабо защищает популярные имена и адреса. Данные обезличиваются не полностью, можно угадать имена, города и даже улицы.
Из данных пропадает контекст. По имени больше нельзя определить пол, связи и домохозяйства, а по городу или району — географию клиента.
Понижает качество данных. Действующие паспорта становятся недействующими. Телефоны превращаются в набор цифр,
с регионом.
Из данных убирается контекст.
По имени больше нельзя определить пол, невозможно определить связи
и домохозяйства. Из-за замены цифр
в дате рождения меняется возрастная группа клиента.
Поддается обратной расшифровке
для простых алгоритмов.
«Маскировщик» обезличивает данные, сохраняя смысл
Наталья не превратится в Юлианну,
а Анжелика — в Петра.
Это позволяет сохранить
социально-демографические признаки
клиента.
Знаем, что важно сохранить
для форматно-логического контроля,
а что можно поменять.
Это поможет маркетингу в составлении рекламных бюджетов.
Заменим улицу и дом на другие,
но тоже существующие.
Маскировка не потеряет домохозяйства
Модуль «Вуаль» — обезличивание данных в текстах, чатах и документах
Работает с любыми текстами и документами: договорами, медкартами, перепиской, отчетами и другими неструктурированными материалами.
Учитывает контекст: понимает, что болезнь Паркинсона — диагноз, а Роза ― или имя, или цветок.
Подменяет чувствительные данные на синтетические — похожие по формату и свойствам. Модель получает правдоподобный текст и возвращает релевантный ответ без риска утечки.
Извлекает максимум полезной информации из документов и текстов без использования персональных данных.