added mixing models (shamelessly inspired from voldy's web ui)

2023-03-29 19:29:13 +00:00 · 2023-03-29 19:29:13 +00:00 · f66281f10c
commit f66281f10c
parent c89c648b4a
2 changed files with 65 additions and 2 deletions
--- a/src/utils.py
+++ b/src/utils.py
@ -2862,3 +2862,49 @@ def unload_whisper():
 		print("Unloaded Whisper")
 	do_gc()	
 # shamelessly borrowed from Voldy's Web UI: https://github.com/AUTOMATIC1111/stable-diffusion-webui/blob/master/modules/extras.py#L74
 def merge_models( primary_model_name, secondary_model_name, alpha, progress=gr.Progress() ):
 	key_blacklist = []
 	def weighted_sum(theta0, theta1, alpha):
 		return ((1 - alpha) * theta0) + (alpha * theta1)
 	def read_model( filename ):
 		print(f"Loading {filename}")
 		return torch.load(filename)
 	theta_func = weighted_sum
 	theta_0 = read_model(primary_model_name)
 	theta_1 = read_model(secondary_model_name)
 	for key in enumerate_progress(theta_0.keys(), desc="Merging...", progress=progress):
 		if key in key_blacklist:
 			print("Skipping ignored key:", key)
 			continue
 		a = theta_0[key]
 		b = theta_1[key]
 		if a.dtype != torch.float32 and a.dtype != torch.float16:
 			print("Skipping key:", key, a.dtype)
 			continue
 		if b.dtype != torch.float32 and b.dtype != torch.float16:
 			print("Skipping key:", key, b.dtype)
 			continue
 		theta_0[key] = theta_func(a, b, alpha)
 	del theta_1
 	primary_basename = os.path.splitext(os.path.basename(primary_model_name))[0]
 	secondary_basename = os.path.splitext(os.path.basename(secondary_model_name))[0]
 	suffix = "{:.3f}".format(alpha)
 	output_path = f'./models/finetunes/{primary_basename}_{secondary_basename}_{suffix}_merge.pth'
 	torch.save(theta_0, output_path)
 	message = f"Saved to {output_path}"
 	print(message)
 	return message
--- a/src/webui.py
+++ b/src/webui.py
@ -27,6 +27,7 @@ GENERATE_SETTINGS = {}
 TRANSCRIBE_SETTINGS = {}
 EXEC_SETTINGS = {}
 TRAINING_SETTINGS = {}
 MERGER_SETTINGS = {}
 GENERATE_SETTINGS_ARGS = []
 PRESETS = {
@ -359,7 +360,7 @@ def setup_gradio():
 					GENERATE_SETTINGS["candidates"] = gr.Slider(value=1, minimum=1, maximum=6, step=1, label="Candidates")
 					GENERATE_SETTINGS["seed"] = gr.Number(value=0, precision=0, label="Seed")
-					preset = gr.Radio( ["Ultra Fast", "Fast", "Standard", "High Quality"], label="Preset", type="value" )
+					preset = gr.Radio( ["Ultra Fast", "Fast", "Standard", "High Quality"], label="Preset", type="value", value="Ultra Fast" )
 					GENERATE_SETTINGS["num_autoregressive_samples"] = gr.Slider(value=16, minimum=2, maximum=512, step=1, label="Samples")
 					GENERATE_SETTINGS["diffusion_iterations"] = gr.Slider(value=30, minimum=0, maximum=512, step=1, label="Iterations")
@ -435,6 +436,17 @@ def setup_gradio():
 				with gr.Row():
 					text_tokenizier_button = gr.Button(value="Tokenize Text")
 			with gr.Tab("Model Merger"):
 				with gr.Column():
 					with gr.Row():
 						MERGER_SETTINGS["model_a"] = gr.Dropdown( choices=autoregressive_models, label="Model A", type="value", value=autoregressive_models[0] )
 						MERGER_SETTINGS["model_b"] = gr.Dropdown( choices=autoregressive_models, label="Model B", type="value", value=autoregressive_models[0] )
 					with gr.Row():
 						MERGER_SETTINGS["weight_slider"] = gr.Slider(label="Weight (from A to B)", value=0.5, minimum=0, maximum=1)
 					with gr.Row():
 						merger_button = gr.Button(value="Run Merger")
 				with gr.Column():
 					merger_output = gr.TextArea(label="Console Output", max_lines=8)
 		with gr.Tab("Training"):
 			with gr.Tab("Prepare Dataset"):
 				with gr.Row():
@ -777,6 +789,11 @@ def setup_gradio():
 			outputs=text_tokenizier_output
 		)
 		merger_button.click(merge_models,
 			inputs=list(MERGER_SETTINGS.values()),
 			outputs=merger_output
 		)
 		refresh_configs.click(
 			lambda: gr.update(choices=get_training_list()),
 			inputs=None,