Add combined dataset for training across multiple datasets

2020-09-11 08:44:06 -06:00 · 2020-09-11 08:44:06 -06:00 · 5189b11dac
commit 5189b11dac
parent 313424d7b5
3 changed files with 40 additions and 1 deletions
--- a/codes/data/init.py
+++ b/codes/data/init.py
@ -14,7 +14,7 @@ def create_dataloader(dataset, dataset_opt, opt=None, sampler=None):
            batch_size = dataset_opt['batch_size'] // world_size
            shuffle = False
        else:
-            num_workers = max(dataset_opt['n_workers'] * len(opt['gpu_ids']), 10)
+            num_workers = dataset_opt['n_workers'] * len(opt['gpu_ids'])
            batch_size = dataset_opt['batch_size']
            shuffle = True
        return torch.utils.data.DataLoader(dataset, batch_size=batch_size, shuffle=shuffle,
@ -38,6 +38,8 @@ def create_dataset(dataset_opt):
        from data.Downsample_dataset import DownsampleDataset as D
    elif mode == 'fullimage':
        from data.full_image_dataset import FullImageDataset as D
    elif mode == 'combined':
        from data.combined_dataset import CombinedDataset as D
    else:
        raise NotImplementedError('Dataset [{:s}] is not recognized.'.format(mode))
    dataset = D(dataset_opt)
--- a/codes/data/combined_dataset.py
+++ b/codes/data/combined_dataset.py
@ -0,0 +1,34 @@
 import torch
 from data import create_dataset
 # Simple composite dataset that combines multiple other datasets.
 # Assumes that the datasets output dicts.
 class CombinedDataset(torch.utils.data.Dataset):
    def __init__(self, opt):
        self.datasets = {}
        for k, v in opt.items():
            if not isinstance(v, dict):
                continue
            # Scale&phase gets injected by options.py..
            v['scale'] = opt['scale']
            v['phase'] = opt['phase']
            self.datasets[k] = create_dataset(v)
        self.items_fetched = 0
    def __getitem__(self, i):
        self.items_fetched += 1
        output = {}
        for name, dataset in self.datasets.items():
            prefix = ""
            # 'default' dataset gets no prefix, other ones get `key_`
            if name != 'default':
                prefix = name + "_"
            data = dataset[i % len(dataset)]
            for k, v in data.items():
                output[prefix + k] = v
        return output
    def __len__(self):
        return max(len(d) for d in self.datasets.values())
--- a/codes/models/steps/steps.py
+++ b/codes/models/steps/steps.py
@ -91,6 +91,9 @@ class ConfigurableStep(Module):
            # Don't do injections tagged with eval unless we are not in train mode.
            if train and 'eval' in inj.opt.keys() and inj.opt['eval']:
                continue
            # Likewise, don't do injections tagged with train unless we are not in eval.
            if not train and 'train' in inj.opt.keys() and inj.opt['train']:
                continue
            injected = inj(local_state)
            local_state.update(injected)
            new_state.update(injected)