ESpeech-TTS

Подробнее см. на https://huggingface.co/ESpeech

💡 Совет: Добавьте символ '+' в тексте, чтобы указать пользовательское ударение (например, 'прив+ет'). Текст с '+' не будет обрабатываться RUAccent.

Совет: Референс должен быть не БОЛЕЕ 12-ти секунд. Иначе модель сломается.

📋 Описание моделей:

  • ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
  • ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
  • ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
  • ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
  • ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Select Model
0.3 2
4 64
0 1

🎯 Example

Examples
Reference Audio Reference Text Text to Generate Remove Silences Seed (-1 for random) Cross-Fade Duration (s) NFE Steps Speed