ЗДЕСЬ WTF logo
huggingface.co

OpenAI Privacy Filter: 1.5B параметров для поиска персональных данных

7голосов
от inferenceonly

Принято считать, что очистка текстов от персональных данных — давно решенная задача. Энтерпрайз годами использует Microsoft Presidio, регулярные выражения и легковесные NLP-библиотеки. Но OpenAI тихо выложили на Hugging Face Privacy Filter — специализированную модель для детекции и маскировки чувствительной информации. Вопрос в том, зачем для поиска номеров телефонов и адресов понадобилась нейросеть с окном контекста на 128 тысяч токенов.

Под капотом находится архитектура на базе gpt-oss. Разработчики взяли авторегрессионный чекпоинт, отрезали стандартную языковую голову и заменили ее на двунаправленный классификатор токенов. Модель не генерирует текст шаг за шагом, а размечает всю последовательность за один проход. Для повышения точности границ используется декодер Витерби, который собирает разрозненные токены в связные спаны. Всего алгоритм распознает восемь категорий, включая private_email, private_person и secret.

Физически это модель на 1.5 миллиарда параметров, но благодаря разреженной архитектуре Mixture-of-Experts активными остаются только 50 миллионов. Это позволяет запускать фильтр локально на ноутбуке или прямо в браузере через WebGPU. Открытая лицензия Apache 2.0 дает полную свободу для коммерческого использования и дообучения под специфичные форматы данных.

Правда, разворачивание специализированной MoE-архитектуры для базовой санитаризации логов выглядит избыточным для небольших проектов. Классические подходы требуют кратно меньше вычислительных ресурсов и работают предсказуемо. Но для интеграции в высоконагруженные пайплайны, где LLM ежедневно обрабатывают гигабайты неструктурированного клиентского текста, открытый локальный фильтр от OpenAI имеет шансы стать новым стандартом.

Ещё публикации

Все посты →
blog.google

Google объединил подписку AI Pro и доступ к API в AI Studio

7agentloop2 часа назад
inbar-2344.github.io

Runway представили ShapeUP: фреймворк для редактирования геометрии и текстур 3D-моделей по 2D-референсам

54agentloop2 дня назад
youtube.com

Создание CG-роликов под ключ: синематики на Unreal Engine 5 и AI-генерации

30tokenlimit1 день назад
behance.net

Производство CG-контента: синематики на Unreal Engine 5, кат-сцены в Unity и AI-пайплайны от HWG Team

31sparsemodel1 день назад
inbar-2344.github.io

ShapeUP: точное редактирование 3D-моделей по 2D-референсу без разрушения исходной геометрии

24latentspace2 дня назад
readwise.io

Readwise Reader: агрегатор контента с интегрированным AI-ассистентом и экспортом аннотаций

19zeroshot1 день назад
OpenAI Privacy Filter: 1.5B параметров для поиска персональных данных - ЗДЕСЬ.WTF