В индустрии искусственного интеллекта всё чаще говорят о новой проблеме: развитие моделей упирается уже не только в вычислительные мощности и не в общий объём данных, а в их качество. Авторы колонки в Fortune Джейсон Корсо и Дэвид Коуэн считают, что прежняя логика «чем больше данных, тем умнее модель» перестаёт работать в новых AI-сценариях.
По их мнению, главным препятствием становится junk data — данные, которые формально выглядят пригодными для обучения, но не помогают модели становиться лучше. Такие материалы могут быть аккуратно размечены, собраны в большом объёме и даже проходить базовые проверки, но при этом не давать системе нового опыта.
ИИ больше не спасает простой рост датасетов
Ранние успехи больших языковых моделей во многом строились на масштабировании. Модели становились мощнее, потому что получали больше текстов, больше вычислений и больше параметров. Интернет дал разработчикам огромный массив информации, на котором можно было обучать системы нового поколения.
Но для следующего этапа этого уже недостаточно. Роботы, автономные автомобили и модели, которые должны понимать физический мир, не могут обучаться только на текстах и случайных наборах данных. Им нужны сложные мультимодальные сценарии, где учитываются движение, пространство, причинно-следственные связи и редкие опасные ситуации.
Junk data мешает моделям понимать реальный мир
Проблема junk data особенно заметна в физических AI-системах и world models. Такие модели должны не просто распознавать объекты, а предсказывать, что произойдёт дальше: как поведёт себя машина на дороге, куда упадёт предмет, как человек отреагирует на действие робота.
Если в обучении слишком много повторов, простых сцен или плохо смоделированных ситуаций, модель получает объём, но не получает понимания. Она может хорошо выглядеть в демонстрациях, но ошибаться в редких сценариях, где требуется настоящее обобщение.
Симуляции дают много данных, но не всегда дают пользу
Разработчики всё чаще используют симуляции, потому что собрать все возможные реальные ситуации невозможно. Виртуальная среда позволяет быстро генерировать тысячи сценариев, но качество таких данных зависит от того, насколько точно симуляция отражает реальный мир.
Если искусственная среда не учитывает крайние случаи, ошибки поведения, физические детали и неожиданные события, она превращается в источник слабых данных. Модель обучается на большом количестве примеров, но эти примеры не готовят её к сложным условиям.
Проблема данных может тормозить AI-видео и робототехнику
Авторы Fortune приводят ситуацию с Sora как пример того, насколько сложно научить модель понимать физику мира. Видеогенерация требует не только красивой картинки, но и внутреннего представления о движении, взаимодействии объектов и правдоподобном развитии сцены.
Та же проблема касается робототехники и автономного транспорта. Для таких систем недостаточно показать миллионы похожих примеров. Им нужны данные, которые действительно расширяют понимание модели и закрывают слабые места.
Индустрии нужно инвестировать в качество, а не в массу
Корсо и Коуэн считают, что AI-компаниям пора менять приоритеты. Вместо бесконечной покупки новых датасетов нужно больше вкладываться в анализ, очистку, нормализацию и исправление данных.
Главная задача — понять, какие примеры действительно улучшают модель, а какие только занимают место и увеличивают стоимость обучения. Для этого нужны инструменты, которые находят дубли, ошибки разметки, перекосы выборки, недостающие редкие сценарии и слабые зоны датасета.
Следующий рывок ИИ зависит от отбора данных
Если первые поколения AI-моделей выигрывали за счёт масштаба, то следующий этап может зависеть от способности выбирать правильные данные. Победят не те компании, которые соберут самый большой массив, а те, кто научится понимать ценность каждого обучающего примера.
Для разработчиков это означает смену подхода: датасет больше нельзя воспринимать как склад, куда можно бесконечно добавлять материалы. Он становится инженерным продуктом, который нужно проектировать, проверять, балансировать и постоянно улучшать.