suppress warning on exit about distributed not being cleaned up (because I updated my system)

2024-07-25 16:50:47 -05:00 · 2024-07-25 16:50:47 -05:00 · 06e948aec1
commit 06e948aec1
parent 682e4387dc
4 changed files with 21 additions and 4 deletions
--- a/vall_e/engines/base.py
+++ b/vall_e/engines/base.py
@ -28,7 +28,7 @@ def default_feeder(engine, batch):
 from ..config import cfg
 from ..utils import dispatch_attribute, flatten_dict, gather_attribute, do_gc, to_device
-from ..utils.distributed import init_distributed, distributed_initialized, is_global_leader, world_size
+from ..utils.distributed import init_distributed, distributed_initialized, is_global_leader, world_size, cleanup_distributed
 from ..models.lora import freeze_non_lora_weights, lora_get_state_dict, lora_load_state_dict
 import logging
@ -452,6 +452,9 @@ class Engines(dict[str, Engine]):
 			stats.update(flatten_dict({ name.split("-")[0]: stat }))
 		return stats
 	def quit(self):
 		cleanup_distributed()
 	def step(self, batch, feeder: TrainFeeder = default_feeder):
 		total_elapsed_time = 0
--- a/vall_e/models/ar_nar.py
+++ b/vall_e/models/ar_nar.py
@ -400,7 +400,7 @@ def example_usage():
 	from tqdm import tqdm
 	from ..emb.qnt import decode_to_file, unload_model, trim_random, repeat_extend_audio, concat_audio, merge_audio
-	from ..engines import Engine
+	from ..engines import Engine, Engines
 	from ..utils import wrapper as ml
 	import numpy as np
@ -532,6 +532,9 @@ def example_usage():
 	engine = Engine(model=model, optimizer=optimizer)
 	engines = Engines({"ar+nar": engine})
 	engines.setup()
 	"""
 	torch.save( {
 		'module': model.state_dict()
@ -622,5 +625,7 @@ def example_usage():
 	for task in tasks:
 		sample("final", task=task)
 	engines.quit()
 if __name__ == "__main__":
 	example_usage()
--- a/vall_e/utils/distributed.py
+++ b/vall_e/utils/distributed.py
@ -28,6 +28,12 @@ def init_distributed( fn, *args, **kwargs ):
 def distributed_initialized():
 	return _distributed_initialized
 def cleanup_distributed():
 	#if not _distributed_initialized:
 	#	return
 	dist.barrier()
 	dist.destroy_process_group()
@cache
 def fix_unset_envs():
 	envs = dict(
--- a/vall_e/utils/trainer.py
+++ b/vall_e/utils/trainer.py
@ -19,8 +19,10 @@ from tqdm import tqdm
 from typing import Protocol
 from ..config import cfg
 from .distributed import init_distributed, distributed_initialized, world_size
 from .distributed import (
 	init_distributed,
 	distributed_initialized,
 	world_size,
 	global_leader_only,
 	global_rank,
 	is_global_leader,
@ -116,7 +118,6 @@ def seed(seed):
 	np.random.seed(seed + global_rank())
 	torch.manual_seed(seed + global_rank())
 def train(
 	train_dl: DataLoader,
 	train_feeder: TrainFeeder = default_feeder,
@ -141,6 +142,7 @@ def train(
 		eval_fn(engines=engines)
 	if command in ["quit", "eval_quit"]:
 		engines.quit()
 		return
 	last_save_step = engines.global_step
@ -250,4 +252,5 @@ def train(
 					eval_fn(engines=engines)
 			if command in ["quit"]:
 				engines.quit()
 				return