added options to pick tokenizer json and diffusion model (so I don't have to add it in later when I get bored and add in diffusion training)

2023-03-15 00:37:38 +00:00 · 2023-03-15 00:37:38 +00:00 · 363d0b09b1
commit 363d0b09b1
parent 07b684c4e7
4 changed files with 160 additions and 27 deletions
--- a/models/.template.dlas.yaml
+++ b/models/.template.dlas.yaml
@ -24,7 +24,7 @@ datasets:
    num_conditioning_candidates: 2
    conditioning_length: 44000
    use_bpe_tokenizer: True
-    tokenizer_vocab: ./modules/tortoise-tts/tortoise/data/tokenizer.json # ./models/tortoise/bpe_lowercase_asr_256.json
+    tokenizer_vocab: ${tokenizer_json} # ./models/tortoise/bpe_lowercase_asr_256.json
    load_aligned_codes: False
  val:
    name: validation
@ -41,7 +41,7 @@ datasets:
    num_conditioning_candidates: 2
    conditioning_length: 44000
    use_bpe_tokenizer: True
-    tokenizer_vocab: ./modules/tortoise-tts/tortoise/data/tokenizer.json # ./models/tortoise/bpe_lowercase_asr_256.json
+    tokenizer_vocab: ${tokenizer_json} # ./models/tortoise/bpe_lowercase_asr_256.json
    load_aligned_codes: False
 steps:        
--- a/modules/tortoise-tts
+++ b/modules/tortoise-tts
@ -1 +1 @@
-Subproject commit 65a43deb9e354342ba805214edf1283b8af6fa90
+Subproject commit 42cb1f36741aa3a24e7aab03e73b51becd182fa7
--- a/src/utils.py
+++ b/src/utils.py
@ -192,7 +192,10 @@ def generate(**kwargs):
 			'half_p': "Half Precision" in parameters['experimentals'],
 			'cond_free': "Conditioning-Free" in parameters['experimentals'],
 			'cvvp_amount': parameters['cvvp_weight'],
 			'autoregressive_model': args.autoregressive_model,
 			'diffusion_model': args.diffusion_model,
 			'tokenizer_json': args.tokenizer_json,
 		}
 		# could be better to just do a ternary on everything above, but i am not a professional
@ -211,6 +214,14 @@ def generate(**kwargs):
 				settings['autoregressive_model'] = deduce_autoregressive_model(selected_voice)
 			tts.load_autoregressive_model(settings['autoregressive_model'])
 		if settings['diffusion_model'] is not None:
 			if settings['diffusion_model'] == "auto":
 				settings['diffusion_model'] = deduce_diffusion_model(selected_voice)
 			tts.load_diffusion_model(settings['diffusion_model'])
 		if settings['tokenizer_json'] is not None:
 			tts.load_tokenizer_json(settings['tokenizer_json'])
 		settings['voice_samples'], settings['conditioning_latents'], _ = fetch_voice(voice=selected_voice)
 		# clamp it down for the insane users who want this
@ -1547,6 +1558,7 @@ def save_training_settings( **kwargs ):
 			settings['validation_batch_size'] = validation_lines
 			messages.append(f"Batch size exceeds validation dataset size, clamping validation batch size to {validation_lines}")
 	settings['tokenizer_json'] = args.tokenizer_json
 	if settings['gpus'] > get_device_count():
 		settings['gpus'] = get_device_count()
@ -1679,6 +1691,9 @@ def import_voices(files, saveAs=None, progress=None):
 			print(f"Imported voice to {path}")
 def relative_paths( dirs ):
 	return [ './' + os.path.relpath( d ).replace("\\", "/") for d in dirs ]
 def get_voice_list(dir=get_voice_dir(), append_defaults=False):
 	defaults = [ "random", "microphone" ]
 	os.makedirs(dir, exist_ok=True)
@ -1687,6 +1702,7 @@ def get_voice_list(dir=get_voice_dir(), append_defaults=False):
 		res = res + defaults
 	return res
 def get_autoregressive_models(dir="./models/finetunes/", prefixed=False):
 	os.makedirs(dir, exist_ok=True)
 	base = [get_model_path('autoregressive.pth')]
@ -1702,9 +1718,6 @@ def get_autoregressive_models(dir="./models/finetunes/", prefixed=False):
 		models = sorted([ int(d[:-8]) for d in os.listdir(f'./training/{training}/finetune/models/') if d[-8:] == "_gpt.pth" ])
 		found = found + [ f'./training/{training}/finetune/models/{d}_gpt.pth' for d in models ]
 	if len(found) > 0 or len(additionals) > 0:
 		base = ["auto"] + base
 	res = base + additionals + found
 	if prefixed:
@ -1715,7 +1728,27 @@ def get_autoregressive_models(dir="./models/finetunes/", prefixed=False):
 			res[i] = f'[{shorthash}] {path}'
-	return res
+	return ["auto"] + relative_paths(res)
 def get_diffusion_models(dir="./models/finetunes/", prefixed=False):
 	return relative_paths([ get_model_path('diffusion_decoder.pth') ])
 def get_tokenizer_jsons( dir="./models/tokenizers/" ):
 	additionals = sorted([ f'{additional_path}/{d}' for d in os.listdir(dir) if d[-5:] == ".json" ]) if os.path.isdir(dir) else []
 	return relative_paths([ "./modules/tortoise-tts/tortoise/data/tokenizer.json" ] + additionals)
 def tokenize_text( text ):
 	from tortoise.utils.tokenizer import VoiceBpeTokenizer
 	if not tts:
 		if tts_loading:
 			raise Exception("TTS is still initializing...")
 		load_tts()
 	encoded = tts.tokenizer.encode(text)
 	decoded = tts.tokenizer.tokenizer.decode(encoded, skip_special_tokens=False)
 	return "\n".join([ str(encoded), decoded ])
 def get_dataset_list(dir="./training/"):
 	return sorted([d for d in os.listdir(dir) if os.path.isdir(os.path.join(dir, d)) and "train.txt" in os.listdir(os.path.join(dir, d)) ])
@ -1834,7 +1867,9 @@ def setup_args():
 		'tts-backend': TTSES[0],
 		'autoregressive-model': None,
 		'diffusion-model': None,
 		'vocoder-model': VOCODERS[-1],
 		'tokenizer-json': None,
 		'whisper-backend': 'openai/whisper',
 		'whisper-model': "base",
@ -1866,7 +1901,6 @@ def setup_args():
 	parser.add_argument("--force-cpu-for-conditioning-latents", default=default_arguments['force-cpu-for-conditioning-latents'], action='store_true', help="Forces computing conditional latents to be done on the CPU (if you constantyl OOM on low chunk counts)")
 	parser.add_argument("--defer-tts-load", default=default_arguments['defer-tts-load'], action='store_true', help="Defers loading TTS model")
 	parser.add_argument("--prune-nonfinal-outputs", default=default_arguments['prune-nonfinal-outputs'], action='store_true', help="Deletes non-final output files on completing a generation")
 	parser.add_argument("--vocoder-model", default=default_arguments['vocoder-model'], action='store_true', help="Specifies with vocoder to use")
 	parser.add_argument("--device-override", default=default_arguments['device-override'], help="A device string to override pass through Torch")
 	parser.add_argument("--sample-batch-size", default=default_arguments['sample-batch-size'], type=int, help="Sets how many batches to use during the autoregressive samples pass")
 	parser.add_argument("--concurrency-count", type=int, default=default_arguments['concurrency-count'], help="How many Gradio events to process at once")
@ -1875,7 +1909,12 @@ def setup_args():
 	parser.add_argument("--output-volume", type=float, default=default_arguments['output-volume'], help="Adjusts volume of output")
 	parser.add_argument("--tts-backend", default=default_arguments['tts-backend'], help="Specifies which TTS backend to use.")
 	parser.add_argument("--autoregressive-model", default=default_arguments['autoregressive-model'], help="Specifies which autoregressive model to use for sampling.")
 	parser.add_argument("--diffusion-model", default=default_arguments['diffusion-model'], help="Specifies which diffusion model to use for sampling.")
 	parser.add_argument("--vocoder-model", default=default_arguments['vocoder-model'], action='store_true', help="Specifies with vocoder to use")
 	parser.add_argument("--tokenizer-json", default=default_arguments['tokenizer-json'], help="Specifies which tokenizer json to use for tokenizing.")
 	parser.add_argument("--whisper-backend", default=default_arguments['whisper-backend'], action='store_true', help="Picks which whisper backend to use (openai/whisper, lightmare/whispercpp)")
 	parser.add_argument("--whisper-model", default=default_arguments['whisper-model'], help="Specifies which whisper model to use for transcription.")
@ -1935,7 +1974,9 @@ def get_default_settings( hypenated=True ):
 		'tts-backend': args.tts_backend,
 		'autoregressive-model': args.autoregressive_model,
 		'diffusion-model': args.diffusion_model,
 		'vocoder-model': args.vocoder_model,
 		'tokenizer-json': args.tokenizer_json,
 		'whisper-backend': args.whisper_backend,
 		'whisper-model': args.whisper_model,
@ -1975,8 +2016,11 @@ def update_args( **kwargs ):
 	args.output_volume = settings['output_volume']
 	args.tts_backend = settings['tts_backend']
 	args.autoregressive_model = settings['autoregressive_model']
 	args.diffusion_model = settings['diffusion_model']
 	args.vocoder_model = settings['vocoder_model']
 	args.tokenizer_json = settings['tokenizer_json']
 	args.whisper_backend = settings['whisper_backend']
 	args.whisper_model = settings['whisper_model']
@ -1994,15 +2038,6 @@ def save_args_settings():
 	with open(f'./config/exec.json', 'w', encoding="utf-8") as f:
 		f.write(json.dumps(settings, indent='\t') )
 def tokenize_text( text ):
 	from tortoise.utils.tokenizer import VoiceBpeTokenizer
 	tokenizer = VoiceBpeTokenizer()
 	encoded = tokenizer.encode(text)
 	decoded = tokenizer.tokenizer.decode(encoded, skip_special_tokens=False)
 	return "\n".join([ str(encoded), decoded ])
 # super kludgy )`;
 def import_generate_settings(file = None):
 	if not file:
@ -2099,7 +2134,7 @@ def version_check_tts( min_version ):
 		return True
 	return False
-def load_tts( restart=False, autoregressive_model=None ):
+def load_tts( restart=False, autoregressive_model=None, diffusion_model=None, vocoder_model=None, tokenizer_json=None ):
 	global args
 	global tts
@ -2114,13 +2149,27 @@ def load_tts( restart=False, autoregressive_model=None ):
 	if autoregressive_model == "auto":
 		autoregressive_model = deduce_autoregressive_model()
 	if diffusion_model:
 		args.diffusion_model = diffusion_model
 	else:
 		diffusion_model = args.diffusion_model
 	if vocoder_model:
 		args.vocoder_model = vocoder_model
 	else:
 		vocoder_model = args.vocoder_model
 	if tokenizer_json:
 		args.tokenizer_json = tokenizer_json
 	else:
 		tokenizer_json = args.tokenizer_json
 	if get_device_name() == "cpu":
 		print("!!!! WARNING !!!! No GPU available in PyTorch. You may need to reinstall PyTorch.")
 	tts_loading = True
-	print(f"Loading TorToiSe... (AR: {autoregressive_model}, vocoder: {args.vocoder_model})")
+	print(f"Loading TorToiSe... (AR: {autoregressive_model}, vocoder: {vocoder_model})")
-	tts = TextToSpeech(minor_optimizations=not args.low_vram, autoregressive_model_path=autoregressive_model, vocoder_model=args.vocoder_model)		
+	tts = TextToSpeech(minor_optimizations=not args.low_vram, autoregressive_model_path=autoregressive_model, diffusion_model_path=diffusion_model, vocoder_model=vocoder_model, tokenizer_json=tokenizer_json)
 	tts_loading = False
 	get_model_path('dvae.pth')
@ -2207,6 +2256,40 @@ def update_autoregressive_model(autoregressive_model_path):
 	return autoregressive_model_path
 def update_diffusion_model(diffusion_model_path):
 	match = re.findall(r'^\[[a-fA-F0-9]{8}\] (.+?)$', diffusion_model_path)
 	if match:
 		diffusion_model_path = match[0]
 	if not diffusion_model_path or not os.path.exists(diffusion_model_path):
 		print(f"Invalid model: {diffusion_model_path}")
 		return
 	args.diffusion_model = diffusion_model_path
 	save_args_settings()
 	print(f'Stored diffusion model to settings: {diffusion_model_path}')
 	global tts
 	if not tts:
 		if tts_loading:
 			raise Exception("TTS is still initializing...")
 		return
 	if hasattr(tts, "loading") and tts.loading:
 		raise Exception("TTS is still initializing...")
 	if diffusion_model_path == "auto":
 		diffusion_model_path = deduce_diffusion_model()
 	if diffusion_model_path == tts.diffusion_model_path:
 		return
 	tts.load_diffusion_model(diffusion_model_path)
 	do_gc()
 	return diffusion_model_path
 def update_vocoder_model(vocoder_model):
 	args.vocoder_model = vocoder_model
 	save_args_settings()
@ -2229,6 +2312,28 @@ def update_vocoder_model(vocoder_model):
 	return vocoder_model
 def update_tokenizer(tokenizer_json):
 	args.tokenizer_json = tokenizer_json
 	save_args_settings()
 	print(f'Stored tokenizer to settings: {tokenizer_json}')
 	global tts
 	if not tts:
 		if tts_loading:
 			raise Exception("TTS is still initializing...")
 		return
 	if hasattr(tts, "loading") and tts.loading:
 		raise Exception("TTS is still initializing...")
 	print(f"Loading model: {tokenizer_json}")
 	tts.load_tokenizer_json(tokenizer_json)
 	print(f"Loaded model: {tts.tokenizer_json}")
 	do_gc()
 	return vocoder_model
 def load_voicefixer(restart=False):
 	global voicefixer
--- a/src/webui.py
+++ b/src/webui.py
@ -310,7 +310,11 @@ def setup_gradio():
 	voice_list_with_defaults = get_voice_list(append_defaults=True)
 	voice_list = get_voice_list()
 	result_voices = get_voice_list("./results/")
 	autoregressive_models = get_autoregressive_models()
 	diffusion_models = get_diffusion_models()
 	tokenizer_jsons = get_tokenizer_jsons()
 	dataset_list = get_dataset_list()
 	training_list = get_training_list()
@ -560,17 +564,20 @@ def setup_gradio():
 					EXEC_SETTINGS['force_cpu_for_conditioning_latents'] = gr.Checkbox(label="Force CPU for Conditioning Latents", value=args.force_cpu_for_conditioning_latents)
 					EXEC_SETTINGS['defer_tts_load'] = gr.Checkbox(label="Do Not Load TTS On Startup", value=args.defer_tts_load)
 					EXEC_SETTINGS['prune_nonfinal_outputs'] = gr.Checkbox(label="Delete Non-Final Output", value=args.prune_nonfinal_outputs)
 					EXEC_SETTINGS['device_override'] = gr.Textbox(label="Device Override", value=args.device_override)
 				with gr.Column():
 					EXEC_SETTINGS['sample_batch_size'] = gr.Number(label="Sample Batch Size", precision=0, value=args.sample_batch_size)
 					EXEC_SETTINGS['concurrency_count'] = gr.Number(label="Gradio Concurrency Count", precision=0, value=args.concurrency_count)
 					EXEC_SETTINGS['autocalculate_voice_chunk_duration_size'] = gr.Number(label="Auto-Calculate Voice Chunk Duration (in seconds)", precision=0, value=args.autocalculate_voice_chunk_duration_size)
 					EXEC_SETTINGS['output_volume'] = gr.Slider(label="Output Volume", minimum=0, maximum=2, value=args.output_volume)
 					EXEC_SETTINGS['device_override'] = gr.Textbox(label="Device Override", value=args.device_override)
 				with gr.Column():
 					# EXEC_SETTINGS['tts_backend'] = gr.Dropdown(TTSES, label="TTS Backend", value=args.tts_backend if args.tts_backend else TTSES[0])
 					EXEC_SETTINGS['autoregressive_model'] = gr.Dropdown(choices=autoregressive_models, label="Autoregressive Model", value=args.autoregressive_model if args.autoregressive_model else autoregressive_models[0])
 					EXEC_SETTINGS['diffusion_model'] = gr.Dropdown(choices=diffusion_models, label="Diffusion Model", value=args.diffusion_model if args.diffusion_model else diffusion_models[0])
 					EXEC_SETTINGS['vocoder_model'] = gr.Dropdown(VOCODERS, label="Vocoder", value=args.vocoder_model if args.vocoder_model else VOCODERS[-1])
 					EXEC_SETTINGS['tokenizer_json'] = gr.Dropdown(tokenizer_jsons, label="Tokenizer JSON Path", value=args.tokenizer_json if args.tokenizer_json else tokenizer_jsons[0])
 					EXEC_SETTINGS['training_default_halfp'] = TRAINING_SETTINGS['half_p']
 					EXEC_SETTINGS['training_default_bnb'] = TRAINING_SETTINGS['bitsandbytes']
@ -585,16 +592,37 @@ def setup_gradio():
 						)
 						# kill_button = gr.Button(value="Close UI")
-					def update_model_list_proxy( val ):
+					def update_model_list_proxy( autoregressive, diffusion, tokenizer ):
 						autoregressive_models = get_autoregressive_models()
-						if val not in autoregressive_models:
+						if autoregressive not in autoregressive_models:
-							val = autoregressive_models[0]
+							autoregressive = autoregressive_models[0]
-						return gr.update( choices=autoregressive_models, value=val )
+
 						diffusion_models = get_diffusion_models()
 						if diffusion not in diffusion_models:
 							diffusion = diffusion_models[0]
 						tokenizer_jsons = get_tokenizer_jsons()
 						if tokenizer not in tokenizer_jsons:
 							tokenizer = tokenizer_jsons[0]
 						return (
 							gr.update( choices=autoregressive_models, value=autoregressive ),
 							gr.update( choices=diffusion_models, value=diffusion ),
 							gr.update( choices=tokenizer_jsons, value=tokenizer ),
 						)
 					autoregressive_models_update_button.click(
 						update_model_list_proxy,
-						inputs=EXEC_SETTINGS['autoregressive_model'],
+						inputs=[
-						outputs=EXEC_SETTINGS['autoregressive_model'],
+							EXEC_SETTINGS['autoregressive_model'],
 							EXEC_SETTINGS['diffusion_model'],
 							EXEC_SETTINGS['tokenizer_json'],
 						],
 						outputs=[
 							EXEC_SETTINGS['autoregressive_model'],
 							EXEC_SETTINGS['diffusion_model'],
 							EXEC_SETTINGS['tokenizer_json'],
 						],
 					)
 				exec_inputs = list(EXEC_SETTINGS.values())
		`@ -1 +1 @@`
			`Subproject commit 65a43deb9e354342ba805214edf1283b8af6fa90`				`Subproject commit 42cb1f36741aa3a24e7aab03e73b51becd182fa7`