Мало кто заметил, но в потоке новостей Google тихо выложила в открытый доступ часть своей внутренней инфраструктуры. Инструмент под названием Magika решает фундаментальную проблему: определяет реальное содержимое любого файла, даже если оно тщательно замаскировано под другой формат.
Стандартные системные утилиты вроде file обычно полагаются на расширения или так называемые магические числа в заголовках. Этот подход легко обмануть — достаточно переименовать вредоносный скрипт в безобидный PNG или спрятать исполняемый код внутри структуры PDF. Magika игнорирует эти обертки. Вместо них работает компактная нейросеть, которая анализирует сырую последовательность байтов и с высокой точностью классифицирует истинный тип данных.
Если копнуть глубже, самое интересное здесь — производительность. Модель оптимизирована настолько, что работает локально на обычном процессоре, обрабатывая файлы за миллисекунды. Команда упаковала систему в CLI-утилиту и Python-библиотеку, которые уже доступны на GitHub. Это тот редкий случай, когда готовый security-инструмент корпоративного уровня отдают сообществу без привязки к проприетарным облачным API.
Поделиться:
Экосистема ЗДЕСЬ представила платформу ЗДЕСЬ Студия для автоматизации полного цикла генеративного продакшена →
Stability AI выпустила Brand Studio: генерация контента по брендбуку с автоматическим выбором моделей →