Privacy Filter — AI для автоматического скрытия персональных данных
Privacy Filter — это умная AI-модель, разработанная для поиска и скрытия личных данных. Она обладает 1,5 миллиарда параметров, из которых 50 миллионов — активные. Модель способна обрабатывать большие объемы текста, до 128 тысяч токенов, и работает под лицензией Apache 2.0. Она продемонстрировала высокую эффективность в тесте PII-Masking-300k. Модель распознает имена, адреса, email, телефоны, ссылки, даты, номера счетов и конфиденциальные данные.
Как это работает?
Для работы с Privacy Filter используется gradio.Server. Он связывает ваш интерфейс с системой очередей. Сервер самостоятельно распределяет нагрузку, что позволяет использовать его даже без мощных видеокарт. За работу с очередями и распределение ресурсов при сложных задачах отвечает атрибут `@server.api`. Простые элементы и статические страницы управляются через `@server.get` и `@server.post`.
Практические примеры
Document Privacy Explorer (https://huggingface.co/spaces/ysharma/OPF-Document-PII-Explorer) позволяет безопасно просматривать документы, например, контракты или переписки. Ваши личные данные подсвечиваются прямо в тексте, не требуя предварительного форматирования или разбивки. Модель обрабатывает весь текст целиком, до 128 тысяч токенов, сохраняя форматирование. Вы можете гибко настраивать, какие данные нужно скрывать, что значительно ускоряет процесс по сравнению с ручной обработкой.
Image Anonymizer (https://huggingface.co/spaces/ysharma/OPF-Image-Anonymizer) скрывает личные данные на изображениях, таких как скриншоты или чеки. Сначала AI распознает текст на картинке, затем Privacy Filter идентифицирует и скрывает личные данные. После этого данные закрываются черными плашками, положение которых можно корректировать. Редактирование происходит локально, что гарантирует конфиденциальность ваших данных.
SmartRedact Paste (https://huggingface.co/spaces/ysharma/OPF-SmartRedact-Paste) — это безопасный сервис для обмена текстовой информацией. После вставки текста создаются две ссылки: одна для общего доступа с заменой личных данных, другая — приватная, подсвечивающая скрытые данные. Сервис поддерживает работу с разными языками. Чтобы обеспечить безопасность, ненужные записи автоматически удаляются каждые 30 секунд, что делает его идеальным для временного обмена информацией.
Цифры и результаты
Модель Privacy Filter обрабатывает тексты объемом до 128 тысяч токенов и имеет 1,5 миллиарда параметров. Сервис SmartRedact Paste удаляет старые записи каждые 30 секунд. Код каждой программы лаконичен — около 200 строк. Высокая производительность модели подтверждена тестом PII-Masking-300k.
Больше новостей в нашем Телеграм. Подпишись!
Ссылка на источник тык.