Allow dist_backend to be specified in options

2021-01-09 20:54:32 -07:00 · 2021-01-09 20:54:32 -07:00 · 48f0d8964b
commit 48f0d8964b
parent 14a868e8e6
1 changed files with 7 additions and 5 deletions
--- a/codes/trainer/ExtensibleTrainer.py
+++ b/codes/trainer/ExtensibleTrainer.py
@ -108,11 +108,13 @@ class ExtensibleTrainer(BaseModel):
        all_networks = [g for g in self.netsG.values()] + [d for d in self.netsD.values()]
        for anet in all_networks:
            if opt['dist']:
-                # Use Apex to enable delay_allreduce, which is compatible with gradient checkpointing.
+                if opt['dist_backend'] == 'apex':
-                from apex.parallel import DistributedDataParallel
+                    # Use Apex to enable delay_allreduce, which is compatible with gradient checkpointing.
-                dnet = DistributedDataParallel(anet, delay_allreduce=True)
+                    from apex.parallel import DistributedDataParallel
-                #from torch.nn.parallel.distributed import DistributedDataParallel
+                    dnet = DistributedDataParallel(anet, delay_allreduce=True)
-                #dnet = DistributedDataParallel(anet, device_ids=[torch.cuda.current_device()], find_unused_parameters=True)
+                else:
                    from torch.nn.parallel.distributed import DistributedDataParallel
                    dnet = DistributedDataParallel(anet, device_ids=[torch.cuda.current_device()])
            else:
                dnet = DataParallel(anet, device_ids=opt['gpu_ids'])
            if self.is_train: