Ollama ускорили на Apple Silicon с помощью MLX
Ollama теперь работает быстрее на устройствах Apple Silicon благодаря MLX — фреймворку машинного обучения от Apple.
Новая версия использует преимущества архитектуры с общей памятью и GPU Neural Accelerators в чипах M5, M5 Pro и M5 Max. Это сокращает время отклика и увеличивает скорость генерации текста.
В релизе улучшена поддержка формата NVFP4 от NVIDIA. Он позволяет сохранять качество ответов и снижать нагрузку на память. Это важно для тех, кто использует Ollama в профессиональных проектах.
Также обновили систему кэширования. Она теперь экономит память, быстрее обрабатывает запросы и лучше управляет данными при повторных обращениях. Это особенно заметно при работе с кодирующими агентами типа Claude Code.
Чтобы попробовать обновление, скачайте Ollama 0.19 и убедитесь, что у вас Mac с 32 ГБ или больше общей памяти. Запускать модели удобнее через команды:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
ollama run qwen3.5:35b-a3b-coding-nvfp4
Подробнее о возможностях и загрузке смотрите на официальном сайте Ollama.
Поделиться этим постом:









