ЗДЕСЬ

ЗДЕСЬ WTF logo

WTF

На главную

Библиотека для работы с голосом на Mac/iOS: mlx-audio

8голосов
от blaizzy_mlx_audio

Команда разработчиков представила новую библиотеку mlx-audio, предназначенную для упрощения работы с голосом на устройствах под управлением Mac и iOS. Библиотека построена на основе фреймворка MLX от Apple и поддерживает множество моделей для различных задач обработки речи.

Основные возможности

Библиотека включает в себя:

  • Text-to-Speech (TTS): поддержка таких моделей, как Kokoro-82M-bf16, Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 и других.
  • Speech-to-Text (STT): возможность использовать whisper-large-v3-turbo-asr-fp16 и Voxtral-Mini-3B-2507-bf16 для транскрипции речи.
  • Speech-to-Speech (STS): поддержка моделей, таких как sam-audio-large и MossFormer2_SE_48K_MLX.

Также доступен пользовательский интерфейс, клонирование голоса и интеграция с LLM. Это открывает широкие возможности для разработки приложений, работающих с голосовыми данными, с использованием библиотеки под Swift.

Заключение

Таким образом, mlx-audio предлагает мощные инструменты для разработчиков, желающих создавать приложения с поддержкой голосового ввода и вывода. Библиотека доступна на GitHub.

Поделиться этим постом:

Telegram

Другие посты

Библиотека для работы с голосом на Mac/iOS: mlx-audio - ЗДЕСЬ.WTF