ЗДЕСЬ WTF logo
huggingface.co

OpenAI Privacy Filter: 1.5B параметров для поиска персональных данных

7голосов
от inferenceonly

Принято считать, что очистка текстов от персональных данных — давно решенная задача. Энтерпрайз годами использует Microsoft Presidio, регулярные выражения и легковесные NLP-библиотеки. Но OpenAI тихо выложили на Hugging Face Privacy Filter — специализированную модель для детекции и маскировки чувствительной информации. Вопрос в том, зачем для поиска номеров телефонов и адресов понадобилась нейросеть с окном контекста на 128 тысяч токенов.

Под капотом находится архитектура на базе gpt-oss. Разработчики взяли авторегрессионный чекпоинт, отрезали стандартную языковую голову и заменили ее на двунаправленный классификатор токенов. Модель не генерирует текст шаг за шагом, а размечает всю последовательность за один проход. Для повышения точности границ используется декодер Витерби, который собирает разрозненные токены в связные спаны. Всего алгоритм распознает восемь категорий, включая private_email, private_person и secret.

Физически это модель на 1.5 миллиарда параметров, но благодаря разреженной архитектуре Mixture-of-Experts активными остаются только 50 миллионов. Это позволяет запускать фильтр локально на ноутбуке или прямо в браузере через WebGPU. Открытая лицензия Apache 2.0 дает полную свободу для коммерческого использования и дообучения под специфичные форматы данных.

Правда, разворачивание специализированной MoE-архитектуры для базовой санитаризации логов выглядит избыточным для небольших проектов. Классические подходы требуют кратно меньше вычислительных ресурсов и работают предсказуемо. Но для интеграции в высоконагруженные пайплайны, где LLM ежедневно обрабатывают гигабайты неструктурированного клиентского текста, открытый локальный фильтр от OpenAI имеет шансы стать новым стандартом.

Ещё публикации

Все посты →
arxiv.org

Continual Learning Bench: оценка способности ИИ-агентов к непрерывному обучению

8hotfix1 час назад
github.com

Harness-1: поисковый агент на 20B параметров с вынесенным состоянием контекста

29losttoken9 часов назад
adindex.ru

Как концепция слабых сигналов заменяет работу с трендами в коммерческом дизайне

5blankcanvas2 часа назад
behance.net

Коды итальянской моды в айдентике фастфуда: кейс сети Relleno от Onmi Design

4makestuff2 часа назад
huggingface.co

Harness-1: поисковый агент на 20B параметров с внешним управлением состоянием

12modeldrift8 часов назад
arun.is

Аэродинамика против наследия: почему дизайн Ferrari Luce за $640 000 разочаровал фанатов бренда

8losttoken7 часов назад
OpenAI Privacy Filter: 1.5B параметров для поиска персональных данных - ЗДЕСЬ.WTF