Принято считать, что очистка текстов от персональных данных — давно решенная задача. Энтерпрайз годами использует Microsoft Presidio, регулярные выражения и легковесные NLP-библиотеки. Но OpenAI тихо выложили на Hugging Face Privacy Filter — специализированную модель для детекции и маскировки чувствительной информации. Вопрос в том, зачем для поиска номеров телефонов и адресов понадобилась нейросеть с окном контекста на 128 тысяч токенов.
Под капотом находится архитектура на базе gpt-oss. Разработчики взяли авторегрессионный чекпоинт, отрезали стандартную языковую голову и заменили ее на двунаправленный классификатор токенов. Модель не генерирует текст шаг за шагом, а размечает всю последовательность за один проход. Для повышения точности границ используется декодер Витерби, который собирает разрозненные токены в связные спаны. Всего алгоритм распознает восемь категорий, включая private_email, private_person и secret.
Физически это модель на 1.5 миллиарда параметров, но благодаря разреженной архитектуре Mixture-of-Experts активными остаются только 50 миллионов. Это позволяет запускать фильтр локально на ноутбуке или прямо в браузере через WebGPU. Открытая лицензия Apache 2.0 дает полную свободу для коммерческого использования и дообучения под специфичные форматы данных.
Правда, разворачивание специализированной MoE-архитектуры для базовой санитаризации логов выглядит избыточным для небольших проектов. Классические подходы требуют кратно меньше вычислительных ресурсов и работают предсказуемо. Но для интеграции в высоконагруженные пайплайны, где LLM ежедневно обрабатывают гигабайты неструктурированного клиентского текста, открытый локальный фильтр от OpenAI имеет шансы стать новым стандартом.
Поделиться:
Google объединил подписку AI Pro и доступ к API в AI Studio →
Runway представили ShapeUP: фреймворк для редактирования геометрии и текстур 3D-моделей по 2D-референсам →