Команда разработчиков представила новую библиотеку mlx-audio, предназначенную для упрощения работы с голосом на устройствах под управлением Mac и iOS. Библиотека построена на основе фреймворка MLX от Apple и поддерживает множество моделей для различных задач обработки речи.
Библиотека включает в себя:
Kokoro-82M-bf16, Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 и других.whisper-large-v3-turbo-asr-fp16 и Voxtral-Mini-3B-2507-bf16 для транскрипции речи.sam-audio-large и MossFormer2_SE_48K_MLX.Также доступен пользовательский интерфейс, клонирование голоса и интеграция с LLM. Это открывает широкие возможности для разработки приложений, работающих с голосовыми данными, с использованием библиотеки под Swift.
Таким образом, mlx-audio предлагает мощные инструменты для разработчиков, желающих создавать приложения с поддержкой голосового ввода и вывода. Библиотека доступна на GitHub.
Поделиться:
Экосистема ЗДЕСЬ представила платформу ЗДЕСЬ Студия для автоматизации полного цикла генеративного продакшена →
Stability AI выпустила Brand Studio: генерация контента по брендбуку с автоматическим выбором моделей →