Google открыла код Magika — внутреннего ИИ-инструмента для распознавания поддельных типов файлов

Мало кто заметил, но в потоке новостей Google тихо выложила в открытый доступ часть своей внутренней инфраструктуры. Инструмент под названием Magika решает фундаментальную проблему: определяет реальное содержимое любого файла, даже если оно тщательно замаскировано под другой формат.

Стандартные системные утилиты вроде file обычно полагаются на расширения или так называемые магические числа в заголовках. Этот подход легко обмануть — достаточно переименовать вредоносный скрипт в безобидный PNG или спрятать исполняемый код внутри структуры PDF. Magika игнорирует эти обертки. Вместо них работает компактная нейросеть, которая анализирует сырую последовательность байтов и с высокой точностью классифицирует истинный тип данных.

Если копнуть глубже, самое интересное здесь — производительность. Модель оптимизирована настолько, что работает локально на обычном процессоре, обрабатывая файлы за миллисекунды. Команда упаковала систему в CLI-утилиту и Python-библиотеку, которые уже доступны на GitHub. Это тот редкий случай, когда готовый security-инструмент корпоративного уровня отдают сообществу без привязки к проприетарным облачным API.

Google открыла код Magika — внутреннего ИИ-инструмента для распознавания поддельных типов файлов

Ещё публикации