training added, seems to work, need to test it more

2023-02-17 16:29:27 +00:00 · 2023-02-17 16:29:27 +00:00 · 8d268bc7a3
commit 8d268bc7a3
parent 229be0bdb8
2 changed files with 76 additions and 0 deletions
--- a/src/train.py
+++ b/src/train.py
@ -0,0 +1,41 @@
 import torch
 import argparse
 import os
 import sys
 sys.path.insert(0, './dlas/codes/')
 sys.path.insert(0, './dlas/')
 from codes import train as tr
 from utils import util, options as option
 parser = argparse.ArgumentParser()
 parser.add_argument('-opt', type=str, help='Path to option YAML file.', default='../options/train_vit_latent.yml')
 parser.add_argument('--launcher', choices=['none', 'pytorch'], default='none', help='job launcher')
 args = parser.parse_args()
 opt = option.parse(args.opt, is_train=True)
 if args.launcher != 'none':
    # export CUDA_VISIBLE_DEVICES for running in distributed mode.
    if 'gpu_ids' in opt.keys():
        gpu_list = ','.join(str(x) for x in opt['gpu_ids'])
        os.environ['CUDA_VISIBLE_DEVICES'] = gpu_list
        print('export CUDA_VISIBLE_DEVICES=' + gpu_list)
 trainer = tr.Trainer()
 #### distributed training settings
 if args.launcher == 'none':  # disabled distributed training
    opt['dist'] = False
    trainer.rank = -1
    if len(opt['gpu_ids']) == 1:
        torch.cuda.set_device(opt['gpu_ids'][0])
    print('Disabled distributed training.')
 else:
    opt['dist'] = True
    init_dist('nccl')
    trainer.world_size = torch.distributed.get_world_size()
    trainer.rank = torch.distributed.get_rank()
    torch.cuda.set_device(torch.distributed.get_rank())
 trainer.init(args.opt, opt, args.launcher)
 trainer.do_training()
--- a/src/webui.py
+++ b/src/webui.py
@ -413,6 +413,41 @@ def setup_gradio():
 							inputs=training_settings,
 							outputs=None
 						)
 			with gr.Tab("Train"):
 				with gr.Row():
 					with gr.Column():
 						def get_training_configs():
 							configs = []
 							for i, file in enumerate(sorted(os.listdir(f"./training/"))):
 								if file[-5:] != ".yaml" or file[0] == ".":
 									continue
 								configs.append(f"./training/{file}")
 							return configs
 						def update_training_configs():
 							return gr.update(choices=get_training_configs())
 						training_configs = gr.Dropdown(label="Training Configuration", choices=get_training_configs())
 						refresh_configs = gr.Button(value="Refresh Configurations")
 						train = gr.Button(value="Train")
 					def run_training_proxy( config ):
 						global tts
 						del tts
 						import subprocess
 						subprocess.run(["python", "./src/train.py", "-opt", config], env=os.environ.copy(), shell=True)
 						"""
 						from train import train
 						train(config)
 						"""
 					refresh_configs.click(update_training_configs,inputs=None,outputs=training_configs)
 					train.click(run_training_proxy,
 						inputs=training_configs,
 						outputs=None
 					)
 		with gr.Tab("Settings"):
 			with gr.Row():
 				exec_inputs = []