Positive Technologies научила нейросеть ByteDog анализировать файлы как последовательность байтов

Positive Technologies разработала нейросеть ByteDog для обнаружения вредоносного кода. Особенность модели в том, что она анализирует файлы не как текст, изображение или заранее разобранный набор признаков, а как последовательность байтов. Такой подход позволяет системе видеть файл ближе к тому виду, в котором он существует на компьютере, смартфоне, в облаке или интернете.

Что делает ByteDog

ByteDog создана для поиска вредоносного программного обеспечения. В отличие от классических решений, которым часто нужно предварительно распаковывать файл, извлекать признаки и сверять их с правилами, новая модель работает напрямую с байтовой структурой файла.

Это похоже на то, как большие языковые модели учатся понимать текст по последовательностям символов и слов. Только в случае ByteDog вместо слов используются байты, из которых состоит файл. Модель должна самостоятельно находить закономерности, характерные для вредоносного кода, и замечать угрозы, даже если они не встречались в обучающих данных в точности в таком же виде.

Почему это важно для кибербезопасности

Вредоносный код часто маскируют: его упаковывают, изменяют, скрывают внутри файлов или делают похожим на легитимные данные. Классическим антивирусным методам иногда приходится выполнять несколько этапов анализа, чтобы добраться до опасной части.

ByteDog должна упростить этот процесс. Если сотрудник получает по почте файл, похожий на обычный счёт или документ, модель может проверить его как последовательность байтов и обнаружить признаки вредоносного поведения без долгой предварительной подготовки.

Такой подход особенно полезен там, где скорость анализа важна не меньше точности: в корпоративной почте, защите рабочих станций, системах мониторинга киберинцидентов и антивирусных продуктах.

Где уже используется модель

ByteDog уже интегрирована в PT Sandbox. Это решение используется для обнаружения сложных угроз: новых вирусов, эксплойтов нулевого дня, программ-вымогателей и другого вредоносного программного обеспечения.

Дальше результаты анализа могут использоваться в продуктах MaxPatrol SIEM и MaxPatrol O2. Эти системы помогают компаниям собирать и анализировать события информационной безопасности, выявлять инциденты и реагировать на атаки.

Positive Technologies также планирует использовать ByteDog в своих антивирусных решениях. Это логично для компании, которая в последние годы активнее развивает направление защиты конечных устройств.

В чём техническая сложность

Главная проблема такого подхода — размер файлов. Если языковая модель работает с текстовым контекстом, который можно измерять токенами, то обычный файл может содержать миллионы байтов. При этом нельзя просто пропустить часть данных, потому что вредоносный фрагмент может находиться где угодно.

Чтобы справиться с этой задачей, ByteDog анализирует файл фрагментами, а затем собирает общую картину. Такой подход позволяет работать с большими объёмами данных и при этом не требовать для применения обученной модели обязательного графического ускорителя.

Это важно для практического использования. Если модель может работать на обычных устройствах пользователей, её проще встроить в реальные продукты, а не держать только в лабораторной инфраструктуре.

Что говорят о перспективах

По данным Positive Technologies, обучение и тестирование ByteDog проводились на образцах из реальных киберинцидентов в течение года. Компания заявляет, что модель показала преимущество перед классическими ML-моделями по качеству детектирования и скорости анализа.

При этом эксперты отмечают, что идея анализа вредоносного кода на уровне байтов не является полностью новой. Похожие подходы обсуждались в индустрии и раньше, а зарубежные компании также применяли нейросетевые методы для такого класса задач.

Главный вопрос теперь не в самой идее, а в качестве реализации. Для практического рынка важно, насколько хорошо модель будет отличать вредоносные файлы от обычных, сколько будет ложных срабатываний и как она справится со сложными, замаскированными и многоступенчатыми атаками.

Ограничения подхода

Нейросеть может хорошо находить характерные паттерны в файлах, но кибератаки не всегда сводятся к наличию очевидного вредоносного файла. Злоумышленники всё чаще используют легитимные системные инструменты, удалённое управление, туннелирование трафика и другие методы, которые сложнее распознать только по байтовой структуре одного объекта.

Есть и проблема «чёрного ящика». Если модель выдаёт срабатывание, специалисту по информационной безопасности важно понимать, почему файл признан опасным. Если объяснение недостаточно прозрачное, такие сигналы могут стать низкоприоритетными, особенно при большом количестве ложных тревог.

Поэтому ByteDog вряд ли заменит всю систему киберзащиты. Скорее, она может стать одним из дополнительных инструментов внутри комплексной защиты, где есть песочницы, антивирусы, системы мониторинга, поведенческий анализ и работа специалистов.

Заключение

Positive Technologies разработала нейросеть ByteDog, которая анализирует файлы как последовательность байтов и ищет признаки вредоносного кода без привычной ручной подготовки признаков. Модель уже встроена в PT Sandbox и должна применяться в продуктах MaxPatrol SIEM, MaxPatrol O2 и антивирусных решениях компании.

Главное преимущество ByteDog — возможность работать с файлами ближе к их исходному виду и быстрее выявлять опасные закономерности. Главные вопросы связаны с точностью, ложными срабатываниями, сложными замаскированными атаками и применимостью модели в реальных продуктах. Если технология покажет стабильные результаты на практике, она может стать важным элементом современных систем защиты от вредоносного программного обеспечения.