6 changed files with 32 additions and 159 deletions
--- a/tortoise/api.py
+++ b/tortoise/api.py
@ -150,7 +150,7 @@ def load_discrete_vocoder_diffuser(trained_diffusion_steps=4000, desired_diffusi
                           model_var_type='learned_range', loss_type='mse', betas=get_named_beta_schedule('linear', trained_diffusion_steps),
                           conditioning_free=cond_free, conditioning_free_k=cond_free_k)

-@torch.inference_mode()
+
 def format_conditioning(clip, cond_length=132300, device='cuda', sampling_rate=22050):
    """
    Converts the given conditioning signal to a MEL spectrogram and clips it as expected by the models.
@ -194,7 +194,7 @@ def fix_autoregressive_output(codes, stop_token, complain=True):

    return codes

-@torch.inference_mode()
+
 def do_spectrogram_diffusion(diffusion_model, diffuser, latents, conditioning_latents, temperature=1, verbose=True, desc=None, sampler="P", input_sample_rate=22050, output_sample_rate=24000):
    """
    Uses the specified diffusion model to convert discrete codes into a spectrogram.
@ -259,8 +259,7 @@ class TextToSpeech:
        unsqueeze_sample_batches=False,
        input_sample_rate=22050, output_sample_rate=24000,
        autoregressive_model_path=None, diffusion_model_path=None, vocoder_model=None, tokenizer_json=None,
-#    ):
-        use_deepspeed=False):  # Add use_deepspeed parameter
+    ):
        """
        Constructor
        :param autoregressive_batch_size: Specifies how many samples to generate per batch. Lower this if you are seeing
@ -281,8 +280,7 @@ class TextToSpeech:
        self.output_sample_rate = output_sample_rate
        self.minor_optimizations = minor_optimizations
        self.unsqueeze_sample_batches = unsqueeze_sample_batches
-        self.use_deepspeed = use_deepspeed  # Store use_deepspeed as an instance variable
-        print(f'use_deepspeed api_debug {use_deepspeed}')
+
        # for clarity, it's simpler to split these up and just predicate them on requesting VRAM-consuming optimizations
        self.preloaded_tensors = minor_optimizations
        self.use_kv_cache = minor_optimizations
@ -338,58 +336,25 @@ class TextToSpeech:

        self.loading = False

-    def load_autoregressive_model(self, autoregressive_model_path, is_xtts=False):
-        if hasattr(self,"autoregressive_model_path") and os.path.samefile(self.autoregressive_model_path, autoregressive_model_path):
+    def load_autoregressive_model(self, autoregressive_model_path):
+        if hasattr(self,"autoregressive_model_path") and self.autoregressive_model_path == autoregressive_model_path:
            return

-        self.autoregressive_model_path = autoregressive_model_path if autoregressive_model_path and os.path.exists(autoregressive_model_path) else get_model_path('autoregressive.pth', self.models_dir)
-        new_hash = hash_file(self.autoregressive_model_path)
-
-        if hasattr(self,"autoregressive_model_hash") and self.autoregressive_model_hash == new_hash:
-            return
-
-        self.autoregressive_model_hash = new_hash
-
        self.loading = True
+
+        self.autoregressive_model_path = autoregressive_model_path if autoregressive_model_path and os.path.exists(autoregressive_model_path) else get_model_path('autoregressive.pth', self.models_dir)
+        self.autoregressive_model_hash = hash_file(self.autoregressive_model_path)
        print(f"Loading autoregressive model: {self.autoregressive_model_path}")

        if hasattr(self, 'autoregressive'):
            del self.autoregressive

-        # XTTS requires a different "dimensionality" for its autoregressive model
-        if new_hash == "e4ce21eae0043f7691d6a6c8540b74b8" or is_xtts:
-            dimensionality = {
-                "max_mel_tokens": 605,
-                "max_text_tokens": 402,
-                "max_prompt_tokens": 70,
-                "max_conditioning_inputs": 1,
-                "layers": 30,
-                "model_dim": 1024,
-                "heads": 16,
-                "number_text_tokens": 5023, # -1
-                "start_text_token": 261,
-                "stop_text_token": 0,
-                "number_mel_codes": 8194,
-                "start_mel_token": 8192,
-                "stop_mel_token": 8193,
-            }
-        else:
-            dimensionality = {
-                "max_mel_tokens": 604,
-                "max_text_tokens": 402,
-                "max_conditioning_inputs": 2,
-                "layers": 30,
-                "model_dim": 1024,
-                "heads": 16,
-                "number_text_tokens": 255,
-                "start_text_token": 255,
-                "checkpointing": False,
-                "train_solo_embeddings": False
-            }
-
-        self.autoregressive = UnifiedVoice(**dimensionality).cpu().eval()
+        self.autoregressive = UnifiedVoice(max_mel_tokens=604, max_text_tokens=402, max_conditioning_inputs=2, layers=30,
+                                          model_dim=1024,
+                                          heads=16, number_text_tokens=255, start_text_token=255, checkpointing=False,
+                                          train_solo_embeddings=False).cpu().eval()
        self.autoregressive.load_state_dict(torch.load(self.autoregressive_model_path))
-        self.autoregressive.post_init_gpt2_config(use_deepspeed=self.use_deepspeed, kv_cache=self.use_kv_cache)
+        self.autoregressive.post_init_gpt2_config(kv_cache=self.use_kv_cache)
        if self.preloaded_tensors:
            self.autoregressive = migrate_to_device( self.autoregressive, self.device )

@ -397,7 +362,7 @@ class TextToSpeech:
        print(f"Loaded autoregressive model")

    def load_diffusion_model(self, diffusion_model_path):
-        if hasattr(self,"diffusion_model_path") and os.path.samefile(self.diffusion_model_path, diffusion_model_path):
+        if hasattr(self,"diffusion_model_path") and self.diffusion_model_path == diffusion_model_path:
            return

        self.loading = True
@ -408,21 +373,9 @@ class TextToSpeech:
        if hasattr(self, 'diffusion'):
            del self.diffusion

-        # XTTS does not require a different "dimensionality" for its diffusion model
-        dimensionality = {
-            "model_channels": 1024,
-            "num_layers": 10,
-            "in_channels": 100,
-            "out_channels": 200,
-            "in_latent_channels": 1024,
-            "in_tokens": 8193,
-            "dropout": 0,
-            "use_fp16": False,
-            "num_heads": 16,
-            "layer_drop": 0,
-            "unconditioned_percentage": 0
-        }
-        self.diffusion = DiffusionTts(**dimensionality)
+        self.diffusion = DiffusionTts(model_channels=1024, num_layers=10, in_channels=100, out_channels=200,
+                                          in_latent_channels=1024, in_tokens=8193, dropout=0, use_fp16=False, num_heads=16,
+                                          layer_drop=0, unconditioned_percentage=0).cpu().eval()
        self.diffusion.load_state_dict(torch.load(get_model_path('diffusion_decoder.pth', self.models_dir)))
        if self.preloaded_tensors:
            self.diffusion = migrate_to_device( self.diffusion, self.device )
@ -431,7 +384,7 @@ class TextToSpeech:
        print(f"Loaded diffusion model")

    def load_vocoder_model(self, vocoder_model):
-        if hasattr(self,"vocoder_model_path") and os.path.samefile(self.vocoder_model_path, vocoder_model):
+        if hasattr(self,"vocoder_model_path") and self.vocoder_model_path == vocoder_model:
            return

        self.loading = True
@ -471,7 +424,7 @@ class TextToSpeech:
        print(f"Loaded vocoder model")

    def load_tokenizer_json(self, tokenizer_json):
-        if hasattr(self,"tokenizer_json") and os.path.samefile(self.tokenizer_json, tokenizer_json):
+        if hasattr(self,"tokenizer_json") and self.tokenizer_json == tokenizer_json:
            return
        
        self.loading = True
@ -495,7 +448,6 @@ class TextToSpeech:
        if self.preloaded_tensors:
            self.cvvp = migrate_to_device( self.cvvp, self.device )

-    @torch.inference_mode()
    def get_conditioning_latents(self, voice_samples, return_mels=False, verbose=False, slices=1, max_chunk_size=None, force_cpu=False, original_ar=False, original_diffusion=False):
        """
        Transforms one or more voice_samples into a tuple (autoregressive_conditioning_latent, diffusion_conditioning_latent).
@ -621,7 +573,6 @@ class TextToSpeech:
        settings.update(kwargs) # allow overriding of preset settings with kwargs
        return self.tts(text, **settings)

-    @torch.inference_mode()
    def tts(self, text, voice_samples=None, conditioning_latents=None, k=1, verbose=True, use_deterministic_seed=None,
            return_deterministic_state=False,
            # autoregressive generation parameters follow
@ -815,10 +766,7 @@ class TextToSpeech:

            clip_results = torch.cat(clip_results, dim=0)
            samples = torch.cat(samples, dim=0)
-            if k < num_autoregressive_samples:
-                best_results = samples[torch.topk(clip_results, k=k).indices]
-            else:
-                best_results = samples
+            best_results = samples[torch.topk(clip_results, k=k).indices]
            
            if not self.preloaded_tensors:
                self.clvp = migrate_to_device( self.clvp, 'cpu' )
--- a/tortoise/do_tts.py
+++ b/tortoise/do_tts.py
@ -14,7 +14,6 @@ if __name__ == '__main__':
    parser.add_argument('--voice', type=str, help='Selects the voice to use for generation. See options in voices/ directory (and add your own!) '
                                                 'Use the & character to join two voices together. Use a comma to perform inference on multiple voices.', default='random')
    parser.add_argument('--preset', type=str, help='Which voice preset to use.', default='standard')
-    parser.add_argument('--use_deepspeed', type=bool, help='Use deepspeed for speed bump.', default=True)
    parser.add_argument('--output_path', type=str, help='Where to store outputs.', default='results/')
    parser.add_argument('--model_dir', type=str, help='Where to find pretrained model checkpoints. Tortoise automatically downloads these to .models, so this'
                                                      'should only be specified if you have custom checkpoints.', default=MODELS_DIR)
@ -38,8 +37,8 @@ if __name__ == '__main__':


    os.makedirs(args.output_path, exist_ok=True)
-    #print(f'use_deepspeed do_tts_debug {use_deepspeed}')
-    tts = TextToSpeech(models_dir=args.model_dir, use_deepspeed=args.use_deepspeed)
+
+    tts = TextToSpeech(models_dir=args.model_dir)

    selected_voices = args.voice.split(',')
    for k, selected_voice in enumerate(selected_voices):
--- a/tortoise/models/autoregressive.py
+++ b/tortoise/models/autoregressive.py
@ -283,9 +283,9 @@ class MelEncoder(nn.Module):


 class UnifiedVoice(nn.Module):
-    def __init__(self, layers=8, model_dim=512, heads=8, max_text_tokens=120, max_prompt_tokens=2, max_mel_tokens=250, max_conditioning_inputs=1,
+    def __init__(self, layers=8, model_dim=512, heads=8, max_text_tokens=120, max_mel_tokens=250, max_conditioning_inputs=1,
                 mel_length_compression=1024, number_text_tokens=256,
-                 start_text_token=None, stop_text_token=0, number_mel_codes=8194, start_mel_token=8192,
+                 start_text_token=None, number_mel_codes=8194, start_mel_token=8192,
                 stop_mel_token=8193, train_solo_embeddings=False, use_mel_codes_as_input=True,
                 checkpointing=True, types=1):
        """
@ -295,7 +295,6 @@ class UnifiedVoice(nn.Module):
            heads: Number of transformer heads. Must be divisible by model_dim. Recommend model_dim//64
            max_text_tokens: Maximum number of text tokens that will be encountered by model.
            max_mel_tokens: Maximum number of MEL tokens that will be encountered by model.
-            max_prompt_tokens: compat set to 2, 70 for XTTS
            max_conditioning_inputs: Maximum number of conditioning inputs provided to the model. If (1), conditioning input can be of format (b,80,s), otherwise (b,n,80,s).
            mel_length_compression: The factor between <number_input_samples> and <mel_tokens>. Used to compute MEL code padding given wav input length.
            number_text_tokens:
@ -312,7 +311,7 @@ class UnifiedVoice(nn.Module):

        self.number_text_tokens = number_text_tokens
        self.start_text_token = number_text_tokens * types if start_text_token is None else start_text_token
-        self.stop_text_token = stop_text_token
+        self.stop_text_token = 0
        self.number_mel_codes = number_mel_codes
        self.start_mel_token = start_mel_token
        self.stop_mel_token = stop_mel_token
@ -320,7 +319,6 @@ class UnifiedVoice(nn.Module):
        self.heads = heads
        self.max_mel_tokens = max_mel_tokens
        self.max_text_tokens = max_text_tokens
-        self.max_prompt_tokens = max_prompt_tokens
        self.model_dim = model_dim
        self.max_conditioning_inputs = max_conditioning_inputs
        self.mel_length_compression = mel_length_compression
@ -354,8 +352,8 @@ class UnifiedVoice(nn.Module):
        for module in embeddings:
            module.weight.data.normal_(mean=0.0, std=.02)

-    def post_init_gpt2_config(self, use_deepspeed=False, kv_cache=False):
-        seq_length = self.max_mel_tokens + self.max_text_tokens + self.max_prompt_tokens
+    def post_init_gpt2_config(self, kv_cache=False):
+        seq_length = self.max_mel_tokens + self.max_text_tokens + 2
        gpt_config = GPT2Config(vocab_size=self.max_mel_tokens,
                                n_positions=seq_length,
                                n_ctx=seq_length,
@ -365,17 +363,6 @@ class UnifiedVoice(nn.Module):
                                gradient_checkpointing=False,
                                use_cache=True)
        self.inference_model = GPT2InferenceModel(gpt_config, self.gpt, self.mel_pos_embedding, self.mel_embedding, self.final_norm, self.mel_head, kv_cache=kv_cache)
-        #print(f'use_deepspeed autoregressive_debug {use_deepspeed}')
-        if use_deepspeed and torch.cuda.is_available():
-            import deepspeed
-            self.ds_engine = deepspeed.init_inference(model=self.inference_model,  
-                                                    mp_size=1,
-                                                    replace_with_kernel_inject=True,
-                                                    dtype=torch.float32)
-            self.inference_model = self.ds_engine.module.eval()
-        else:
-            self.inference_model = self.inference_model.eval()
-            
        self.gpt.wte = self.mel_embedding

    def build_aligned_inputs_and_targets(self, input, start_token, stop_token):
@ -496,7 +483,7 @@ class UnifiedVoice(nn.Module):

    def inference_speech(self, speech_conditioning_latent, text_inputs, input_tokens=None, num_return_sequences=1,
                         max_generate_length=None, typical_sampling=False, typical_mass=.9, **hf_generate_kwargs):
-        seq_length = self.max_mel_tokens + self.max_text_tokens + self.max_prompt_tokens
+        seq_length = self.max_mel_tokens + self.max_text_tokens + 2
        if not hasattr(self, 'inference_model'):
            self.post_init_gpt2_config(kv_cache=self.kv_cache)
            
--- a/tortoise/read.py
+++ b/tortoise/read.py
@ -17,7 +17,6 @@ if __name__ == '__main__':
                                                 'Use the & character to join two voices together. Use a comma to perform inference on multiple voices.', default='pat')
    parser.add_argument('--output_path', type=str, help='Where to store outputs.', default='results/longform/')
    parser.add_argument('--preset', type=str, help='Which voice preset to use.', default='standard')
-    parser.add_argument('--use_deepspeed', type=bool, help='Use deepspeed for speed bump.', default=True)
    parser.add_argument('--regenerate', type=str, help='Comma-separated list of clip numbers to re-generate, or nothing.', default=None)
    parser.add_argument('--candidates', type=int, help='How many output candidates to produce per-voice. Only the first candidate is actually used in the final product, the others can be used manually.', default=1)
    parser.add_argument('--model_dir', type=str, help='Where to find pretrained model checkpoints. Tortoise automatically downloads these to .models, so this'
@ -26,7 +25,7 @@ if __name__ == '__main__':
    parser.add_argument('--produce_debug_state', type=bool, help='Whether or not to produce debug_state.pth, which can aid in reproducing problems. Defaults to true.', default=True)

    args = parser.parse_args()
-    tts = TextToSpeech(models_dir=args.model_dir, use_deepspeed=args.use_deepspeed)
+    tts = TextToSpeech(models_dir=args.model_dir)

    outpath = args.output_path
    selected_voices = args.voice.split(',')
--- a/tortoise/utils/audio.py
+++ b/tortoise/utils/audio.py
@ -94,72 +94,12 @@ def get_voices(extra_voice_dirs=[], load_latents=True):
                    voices[sub] = voices[sub] + list(glob(f'{subj}/*.pth'))
    return voices

-def get_voice( name, dir=get_voice_dir(), load_latents=True, extensions=["wav", "mp3", "flac"] ):
-    subj = f'{dir}/{name}/'
-    if not os.path.isdir(subj):
-        return
-    files = os.listdir(subj)
-    
-    if load_latents:
-        extensions.append("pth")
-
-    voice = []
-    for file in files:
-        ext = os.path.splitext(file)[-1][1:]
-        if ext not in extensions:
-            continue
-
-        voice.append(f'{subj}/{file}')
-
-    return sorted( voice )
-
-def get_voice_list(dir=get_voice_dir(), append_defaults=False, load_latents=True, extensions=["wav", "mp3", "flac"]):
-    defaults = [ "random", "microphone" ]
-    os.makedirs(dir, exist_ok=True)
-    #res = sorted([d for d in os.listdir(dir) if d not in defaults and os.path.isdir(os.path.join(dir, d)) and len(os.listdir(os.path.join(dir, d))) > 0 ])
-
-    res = []
-    for name in os.listdir(dir):
-        if name in defaults:
-            continue
-        if not os.path.isdir(f'{dir}/{name}'):
-            continue
-        if len(os.listdir(os.path.join(dir, name))) == 0:
-            continue
-        files = get_voice( name, dir=dir, extensions=extensions, load_latents=load_latents )
-
-        if len(files) > 0:
-            res.append(name)
-        else:
-            for subdir in os.listdir(f'{dir}/{name}'):
-                if not os.path.isdir(f'{dir}/{name}/{subdir}'):
-                    continue
-                files = get_voice( f'{name}/{subdir}', dir=dir, extensions=extensions, load_latents=load_latents )
-                if len(files) == 0:
-                    continue
-                res.append(f'{name}/{subdir}')
-
-    res = sorted(res)
-    
-    if append_defaults:
-        res = res + defaults
-    
-    return res
-
-
-def _get_voices( dirs=[get_voice_dir()], load_latents=True ):
-    voices = {}
-    for dir in dirs:
-        voice_list = get_voice_list(dir=dir)
-        voices |= { name: get_voice(name=name, dir=dir, load_latents=load_latents) for name in voice_list }
-
-    return voices

 def load_voice(voice, extra_voice_dirs=[], load_latents=True, sample_rate=22050, device='cpu', model_hash=None):
    if voice == 'random':
        return None, None

-    voices = _get_voices(dirs=[get_voice_dir()] + extra_voice_dirs, load_latents=load_latents)
+    voices = get_voices(extra_voice_dirs=extra_voice_dirs, load_latents=load_latents)

    paths = voices[voice]
    mtime = 0
--- a/tortoise/utils/wav2vec_alignment.py
+++ b/tortoise/utils/wav2vec_alignment.py
@ -144,7 +144,7 @@ class Wav2VecAlignment:
        non_redacted_intervals = []
        last_point = 0
        for i in range(len(fully_split)):
-            if i % 2 == 0 and fully_split[i] != "": # Check for empty string fixes index error
+            if i % 2 == 0:
                end_interval = max(0, last_point + len(fully_split[i]) - 1)
                non_redacted_intervals.append((last_point, end_interval))
            last_point += len(fully_split[i])