Ollama ускорили на Apple Silicon с помощью MLX

Ollama теперь работает быстрее на устройствах Apple Silicon благодаря MLX — фреймворку машинного обучения от Apple.

Новая версия использует преимущества архитектуры с общей памятью и GPU Neural Accelerators в чипах M5, M5 Pro и M5 Max. Это сокращает время отклика и увеличивает скорость генерации текста.

В релизе улучшена поддержка формата NVFP4 от NVIDIA. Он позволяет сохранять качество ответов и снижать нагрузку на память. Это важно для тех, кто использует Ollama в профессиональных проектах.

Также обновили систему кэширования. Она теперь экономит память, быстрее обрабатывает запросы и лучше управляет данными при повторных обращениях. Это особенно заметно при работе с кодирующими агентами типа Claude Code.

Чтобы попробовать обновление, скачайте Ollama 0.19 и убедитесь, что у вас Mac с 32 ГБ или больше общей памяти. Запускать модели удобнее через команды:

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
ollama run qwen3.5:35b-a3b-coding-nvfp4

Подробнее о возможностях и загрузке смотрите на официальном сайте Ollama.

Ollama теперь работает быстрее на устройствах Apple Silicon благодаря MLX — фреймворку машинного обучения от Apple.

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
ollama run qwen3.5:35b-a3b-coding-nvfp4

Подробнее о возможностях и загрузке смотрите на официальном сайте Ollama.

Ollama ускорили на Apple Silicon с помощью MLX

Ещё публикации

Ollama ускорили на Apple Silicon с помощью MLX

Ещё публикации