Генерация аудио

TTS (text-to-speech), музыка, voice-cloning. Большинство моделей укладываются в sync-режим — используйте POST /run.

Минимальный пример — TTS


curl -X POST https://api.neuroartist.ru/run/kokoro/american-english \
  -H "Authorization: Bearer na_live_xxxxxxxxxxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "The quick brown fox jumps over the lazy dog.",
    "voice": "af_bella"
  }'


{
  "audio": {
    "url": "https://s3.cloud.ru/neuroartist/.../result.wav",
    "content_type": "audio/wav",
    "duration": 3.2
  }
}

modelId	Назначение	Цена
`kokoro/american-english`	TTS быстрый, English	1 ₽ / запрос
`elevenlabs/tts/multilingual-v2`	ElevenLabs TTS, multilingual	6 ₽ / 1000 символов
`elevenlabs/voice-cloning`	Клонирование голоса	30 ₽ / клон
`cassetteai/music-generator`	Музыка из prompt	12 ₽ / 30 сек
`stable-audio`	Stable Audio	8 ₽ / 10 сек
`whisper`	Распознавание речи (audio → text)	3 ₽ / минута

Клонирование голоса

Reference-голос (5–30 секунд чистой речи) передаётся как публичный URL в audio_url:


# Создать клон
curl -X POST https://api.neuroartist.ru/run/elevenlabs/voice-cloning \
  -H "Authorization: Bearer na_live_xxxxxxxxxxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "audio_url": "https://your-cdn.example.com/voice-sample.wav",
    "name": "my-voice"
  }'
# Получите voiceId
 
# Использовать в TTS
curl -X POST https://api.neuroartist.ru/run/elevenlabs/tts/multilingual-v2 \
  -H "Authorization: Bearer na_live_xxxxxxxxxxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{"text":"Hello, world","voice_id":"<voiceId>"}'

Распознавание речи


curl -X POST https://api.neuroartist.ru/run/whisper \
  -H "Authorization: Bearer na_live_xxxxxxxxxxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "audio_url": "https://your-cdn.example.com/recording.mp3",
    "task": "transcribe",
    "language": "ru"
  }'


{ "text": "распознанный текст", "chunks": [...] }

Поддерживаемые форматы

Допустимые MIME для POST /me/uploads:


audio/mpeg     audio/mp3      audio/wav      audio/wave     audio/x-wav
audio/webm     audio/mp4      audio/ogg      audio/flac

Лимит размера — MAX_UPLOAD_BYTES (10 MiB по умолчанию). Подробнее — загрузка входных файлов.

Дальше

Все audio-модели — каталог.
Sync — POST /run — детали sync-вызова.
Загрузка input-файлов — для voice-clone, STT.