Spaces:

AIDC-AI
/

Marco-Voice-TTS

Running

App Files Files Community

tianfengping.tfp commited on 19 days ago

Commit

7ae3e9e

1 Parent(s): 5edc5bc

move model download

Browse files

Files changed (1) hide show

app.py +23 -3

app.py CHANGED Viewed

@@ -140,6 +140,11 @@ os.makedirs("./tmp", exist_ok=True)
 def generate_speech_speakerminus(tts_text, speed, speaker, key, ref_audio, ref_text):
     # import pdb;pdb.set_trace()
     if not ref_audio and not ref_text:
         ref_text = text_prompt.get(speaker, "")
         speaker_audio_name = audio_prompt.get(speaker)
@@ -183,7 +188,7 @@ def generate_speech_speakerminus(tts_text, speed, speaker, key, ref_audio, ref_t
     else:
         emotion_info = torch.load("./emotion_info.pt")["male005"][key]
-    sample_rate, full_audio = tts_sft.inference_zero_shot(
         tts_text,
         prompt_text = ref_text,
         # speaker=speaker,
@@ -210,6 +215,10 @@ def generate_speech_speakerminus(tts_text, speed, speaker, key, ref_audio, ref_t
 def generate_speech_sft(tts_text, speed, speaker, key, ref_audio, ref_text):
     # import pdb;pdb.set_trace()
     if not ref_audio and not ref_text:
         ref_text = text_prompt.get(speaker, "")
         speaker_audio_name = audio_prompt.get(speaker)
@@ -252,7 +261,7 @@ def generate_speech_sft(tts_text, speed, speaker, key, ref_audio, ref_text):
     else:
         emotion_info = torch.load("./emotion_info.pt")["male005"][key]
-    sample_rate, full_audio = tts_sft.inference_zero_shot(
         tts_text,
         prompt_text = ref_text,
         # speaker=speaker,
@@ -780,10 +789,21 @@ with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
         outputs=tts_v2_output
     )
 if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=10163,
-        share=True,
         favicon_path=logo_path2
     )

 def generate_speech_speakerminus(tts_text, speed, speaker, key, ref_audio, ref_text):
     # import pdb;pdb.set_trace()
+    global tts_speakerminus_global
+    if 'tts_speakerminus_global' not in globals():
+        print("Loading CosyVoice (speakerminus) model...")
+        tts_speakerminus_global = CosyVoiceTTS_speakerminus(model_dir=local_model_path)
     if not ref_audio and not ref_text:
         ref_text = text_prompt.get(speaker, "")
         speaker_audio_name = audio_prompt.get(speaker)
     else:
         emotion_info = torch.load("./emotion_info.pt")["male005"][key]
+    sample_rate, full_audio = inference_zero_shot.inference_zero_shot(
         tts_text,
         prompt_text = ref_text,
         # speaker=speaker,
 def generate_speech_sft(tts_text, speed, speaker, key, ref_audio, ref_text):
     # import pdb;pdb.set_trace()
+    global tts_sft_global
+    if 'tts_sft_global' not in globals():
+        print("Loading CosyVoice (SFT enhanced) model...")
+        tts_sft_global = CosyVoiceTTS_speakerminus(model_dir=local_model_path_enhenced)
     if not ref_audio and not ref_text:
         ref_text = text_prompt.get(speaker, "")
         speaker_audio_name = audio_prompt.get(speaker)
     else:
         emotion_info = torch.load("./emotion_info.pt")["male005"][key]
+    sample_rate, full_audio = tts_sft_global.inference_zero_shot(
         tts_text,
         prompt_text = ref_text,
         # speaker=speaker,
         outputs=tts_v2_output
     )
+def preload_models():
+    """Pre-download models to cache (non-blocking for launch)"""
+    import threading
+    def _download():
+        print("Pre-downloading models to cache...")
+        snapshot_download(repo_id=model_repo_id, repo_type="model")
+        print("Model pre-download completed.")
+    threading.Thread(target=_download, daemon=True).start()
+preload_models()
 if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=10163,
+        share=False,
         favicon_path=logo_path2
     )