DL-Art-School/codes/data/__init__.py

"""create dataset and dataloader"""
import logging
import torch
import torch.utils.data
from munch import munchify

from utils.util import opt_get


def create_dataloader(dataset, dataset_opt, opt=None, sampler=None, collate_fn=None, shuffle=True):
    phase = dataset_opt['phase']
    if phase == 'train':
        if opt_get(opt, ['dist'], False):
            world_size = torch.distributed.get_world_size()
            num_workers = dataset_opt['n_workers']
            assert dataset_opt['batch_size'] % world_size == 0
            batch_size = dataset_opt['batch_size'] // world_size
        else:
            num_workers = dataset_opt['n_workers']
            batch_size = dataset_opt['batch_size']
        return torch.utils.data.DataLoader(dataset, batch_size=batch_size, shuffle=shuffle,
                                           num_workers=num_workers, sampler=sampler, drop_last=True,
                                           pin_memory=True, collate_fn=collate_fn)
    else:
        batch_size = dataset_opt['batch_size'] or 1
        return torch.utils.data.DataLoader(dataset, batch_size=batch_size, shuffle=False, num_workers=0,
                                           pin_memory=True, collate_fn=collate_fn)


def create_dataset(dataset_opt, return_collate=False):
    mode = dataset_opt['mode']
    collate = None

    # datasets for image restoration
    if mode == 'fullimage':
        from data.full_image_dataset import FullImageDataset as D
    elif mode == 'single_image_extensible':
        from data.single_image_dataset import SingleImageDataset as D
    elif mode == 'multi_frame_extensible':
        from data.multi_frame_dataset import MultiFrameDataset as D
    elif mode == 'combined':
        from data.combined_dataset import CombinedDataset as D
    elif mode == 'multiscale':
        from data.multiscale_dataset import MultiScaleDataset as D
    elif mode == 'paired_frame':
        from data.paired_frame_dataset import PairedFrameDataset as D
    elif mode == 'stylegan2':
        from data.stylegan2_dataset import Stylegan2Dataset as D
    elif mode == 'imagefolder':
        from data.image_folder_dataset import ImageFolderDataset as D
    elif mode == 'torch_dataset':
        from data.torch_dataset import TorchDataset as D
    elif mode == 'byol_dataset':
        from data.byol_attachment import ByolDatasetWrapper as D
    elif mode == 'byol_structured_dataset':
        from data.byol_attachment import StructuredCropDatasetWrapper as D
    elif mode == 'random_aug_wrapper':
        from data.byol_attachment import DatasetRandomAugWrapper as D
    elif mode == 'random_dataset':
        from data.random_dataset import RandomDataset as D
    elif mode == 'zipfile':
        from data.zip_file_dataset import ZipFileDataset as D
    elif mode == 'nv_tacotron':
        from data.audio.nv_tacotron_dataset import TextWavLoader as D
        from data.audio.nv_tacotron_dataset import TextMelCollate as C
        from models.tacotron2.hparams import create_hparams
        default_params = create_hparams()
        default_params.update(dataset_opt)
        dataset_opt = munchify(default_params)
        if opt_get(dataset_opt, ['needs_collate'], True):
            collate = C()
    elif mode == 'paired_voice_audio':
        from data.audio.paired_voice_audio_dataset import TextWavLoader as D
        from models.tacotron2.hparams import create_hparams
        default_params = create_hparams()
        default_params.update(dataset_opt)
        dataset_opt = munchify(default_params)
    elif mode == 'gpt_tts':
        from data.audio.gpt_tts_dataset import GptTtsDataset as D
        from data.audio.gpt_tts_dataset import GptTtsCollater as C
        collate = C(dataset_opt)
    elif mode == 'unsupervised_audio':
        from data.audio.unsupervised_audio_dataset import UnsupervisedAudioDataset as D
    elif mode == 'unsupervised_audio_with_noise':
        from data.audio.audio_with_noise_dataset import AudioWithNoiseDataset as D
    elif mode == 'grand_conjoined_voice':
        from data.audio.grand_conjoined_dataset import GrandConjoinedDataset as D
        from data.zero_pad_dict_collate import ZeroPadDictCollate as C
        if opt_get(dataset_opt, ['needs_collate'], False):
            collate = C()
    else:
        raise NotImplementedError('Dataset [{:s}] is not recognized.'.format(mode))
    dataset = D(dataset_opt)

    if return_collate:
        return dataset, collate
    else:
        return dataset


def get_dataset_debugger(dataset_opt):
    mode = dataset_opt['mode']
    if mode == 'paired_voice_audio':
        from data.audio.paired_voice_audio_dataset import PairedVoiceDebugger
        return PairedVoiceDebugger()
    return None
mmsr 2019-08-23 13:42:47 +00:00			`"""create dataset and dataloader"""`
			`import logging`
			`import torch`
			`import torch.utils.data`
Initial checkin of nvidia tacotron model & dataset These two are tested, full support for training to come. 2021-07-06 17:11:35 +00:00			`from munch import munchify`
mmsr 2019-08-23 13:42:47 +00:00
Various changes to fix testing 2021-06-11 21:31:10 +00:00			`from utils.util import opt_get`

mmsr 2019-08-23 13:42:47 +00:00
Oh yeah 2021-08-17 04:52:15 +00:00			`def create_dataloader(dataset, dataset_opt, opt=None, sampler=None, collate_fn=None, shuffle=True):`
mmsr 2019-08-23 13:42:47 +00:00			`phase = dataset_opt['phase']`
			`if phase == 'train':`
Various changes to fix testing 2021-06-11 21:31:10 +00:00			`if opt_get(opt, ['dist'], False):`
mmsr 2019-08-23 13:42:47 +00:00			`world_size = torch.distributed.get_world_size()`
			`num_workers = dataset_opt['n_workers']`
			`assert dataset_opt['batch_size'] % world_size == 0`
			`batch_size = dataset_opt['batch_size'] // world_size`
			`else:`
Various changes to fix testing 2021-06-11 21:31:10 +00:00			`num_workers = dataset_opt['n_workers']`
mmsr 2019-08-23 13:42:47 +00:00			`batch_size = dataset_opt['batch_size']`
			`return torch.utils.data.DataLoader(dataset, batch_size=batch_size, shuffle=shuffle,`
			`num_workers=num_workers, sampler=sampler, drop_last=True,`
Initial checkin of nvidia tacotron model & dataset These two are tested, full support for training to come. 2021-07-06 17:11:35 +00:00			`pin_memory=True, collate_fn=collate_fn)`
mmsr 2019-08-23 13:42:47 +00:00			`else:`
Support inference across batches, support inference on cpu, checkpoint This is a checkpoint of a set of long tests with reduced-complexity networks. Some takeaways: 1) A full GAN using the resnet discriminator does appear to converge, but the quality is capped. 2) Likewise, a combination GAN/feature loss does not converge. The feature loss is optimized but the model appears unable to fight the discriminator, so the G-loss steadily increases. Going forwards, I want to try some bigger models. In particular, I want to change the generator to increase complexity and capacity. I also want to add skip connections between the disc and generator. 2020-05-04 14:48:25 +00:00			`batch_size = dataset_opt['batch_size'] or 1`
Fixes to unified chunk datasets to support stereoscopic training 2020-10-26 17:12:22 +00:00			`return torch.utils.data.DataLoader(dataset, batch_size=batch_size, shuffle=False, num_workers=0,`
Initial checkin of nvidia tacotron model & dataset These two are tested, full support for training to come. 2021-07-06 17:11:35 +00:00			`pin_memory=True, collate_fn=collate_fn)`
mmsr 2019-08-23 13:42:47 +00:00

Initial checkin of nvidia tacotron model & dataset These two are tested, full support for training to come. 2021-07-06 17:11:35 +00:00			`def create_dataset(dataset_opt, return_collate=False):`
mmsr 2019-08-23 13:42:47 +00:00			`mode = dataset_opt['mode']`
Initial checkin of nvidia tacotron model & dataset These two are tested, full support for training to come. 2021-07-06 17:11:35 +00:00			`collate = None`

mmsr 2019-08-23 13:42:47 +00:00			`# datasets for image restoration`
Codebase cleanup Removed a lot of legacy stuff I have no intent on using again. Plan is to shape this repo into something more extensible (get it? hah!) 2020-10-14 02:56:39 +00:00			`if mode == 'fullimage':`
Reference network 2020-08-25 17:56:59 +00:00			`from data.full_image_dataset import FullImageDataset as D`
More dataset integration work 2020-09-26 04:19:38 +00:00			`elif mode == 'single_image_extensible':`
			`from data.single_image_dataset import SingleImageDataset as D`
More features for multi-frame-dataset 2020-09-28 20:26:15 +00:00			`elif mode == 'multi_frame_extensible':`
			`from data.multi_frame_dataset import MultiFrameDataset as D`
Add combined dataset for training across multiple datasets 2020-09-11 14:44:06 +00:00			`elif mode == 'combined':`
			`from data.combined_dataset import CombinedDataset as D`
Multiscale training in! 2020-10-18 04:54:12 +00:00			`elif mode == 'multiscale':`
			`from data.multiscale_dataset import MultiScaleDataset as D`
Add PairedFrameDataset 2020-10-24 02:58:07 +00:00			`elif mode == 'paired_frame':`
			`from data.paired_frame_dataset import PairedFrameDataset as D`
stylegan2 in ml art school! 2020-11-12 22:42:05 +00:00			`elif mode == 'stylegan2':`
			`from data.stylegan2_dataset import Stylegan2Dataset as D`
Add ImageFolderDataset This one has been a long time coming.. How does torch not have something like this? 2020-12-02 00:45:37 +00:00			`elif mode == 'imagefolder':`
			`from data.image_folder_dataset import ImageFolderDataset as D`
iGPT support! Sweeeeet 2020-12-03 22:32:21 +00:00			`elif mode == 'torch_dataset':`
			`from data.torch_dataset import TorchDataset as D`
BYOL! Man, is there anything ExtensibleTrainer can't train? :) 2020-12-08 20:07:53 +00:00			`elif mode == 'byol_dataset':`
			`from data.byol_attachment import ByolDatasetWrapper as D`
BYOL with structure! 2020-12-10 22:07:35 +00:00			`elif mode == 'byol_structured_dataset':`
			`from data.byol_attachment import StructuredCropDatasetWrapper as D`
Mods to support labeled datasets & random augs for those datasets 2020-12-16 00:15:56 +00:00			`elif mode == 'random_aug_wrapper':`
			`from data.byol_attachment import DatasetRandomAugWrapper as D`
Add random_dataset for testing 2020-12-09 21:55:05 +00:00			`elif mode == 'random_dataset':`
			`from data.random_dataset import RandomDataset as D`
Add zipfilesdataset 2021-05-25 03:35:00 +00:00			`elif mode == 'zipfile':`
			`from data.zip_file_dataset import ZipFileDataset as D`
Initial checkin of nvidia tacotron model & dataset These two are tested, full support for training to come. 2021-07-06 17:11:35 +00:00			`elif mode == 'nv_tacotron':`
Decouple MEL from nv_tacotron_dataset 2021-10-31 21:01:38 +00:00			`from data.audio.nv_tacotron_dataset import TextWavLoader as D`
Initial checkin of nvidia tacotron model & dataset These two are tested, full support for training to come. 2021-07-06 17:11:35 +00:00			`from data.audio.nv_tacotron_dataset import TextMelCollate as C`
			`from models.tacotron2.hparams import create_hparams`
			`default_params = create_hparams()`
tacotron2, ready for prime time! 2021-07-09 04:13:44 +00:00			`default_params.update(dataset_opt)`
			`dataset_opt = munchify(default_params)`
Dont require collation for nv_tacotron 2021-08-12 21:44:55 +00:00			`if opt_get(dataset_opt, ['needs_collate'], True):`
Decouple MEL from nv_tacotron_dataset 2021-10-31 21:01:38 +00:00			`collate = C()`
Try out using the GPT tokenizer rather than nv_tacotron This results in a significant compression of the text domain, I'm curious what the effect on speech quality will be. 2021-12-22 21:03:18 +00:00			`elif mode == 'paired_voice_audio':`
			`from data.audio.paired_voice_audio_dataset import TextWavLoader as D`
			`from models.tacotron2.hparams import create_hparams`
			`default_params = create_hparams()`
			`default_params.update(dataset_opt)`
			`dataset_opt = munchify(default_params)`
Add gpt_tts dataset and implement inference - Adds a script which preprocesses quantized mels given a DVAE - Adds a dataset which can consume preprocessed qmels - Reworks GPT TTS to consume the outputs of that dataset (removes logic to add padding and start/end tokens) - Adds inference to gpt_tts 2021-08-04 06:44:04 +00:00			`elif mode == 'gpt_tts':`
			`from data.audio.gpt_tts_dataset import GptTtsDataset as D`
			`from data.audio.gpt_tts_dataset import GptTtsCollater as C`
			`collate = C(dataset_opt)`
Add unsupervised_audio_dataset 2021-09-14 23:43:16 +00:00			`elif mode == 'unsupervised_audio':`
			`from data.audio.unsupervised_audio_dataset import UnsupervisedAudioDataset as D`
Dataset work for audio quality processor 2021-10-24 15:09:34 +00:00			`elif mode == 'unsupervised_audio_with_noise':`
			`from data.audio.audio_with_noise_dataset import AudioWithNoiseDataset as D`
GrandConjoinedDataset 2021-12-23 21:32:33 +00:00			`elif mode == 'grand_conjoined_voice':`
			`from data.audio.grand_conjoined_dataset import GrandConjoinedDataset as D`
grand conjoined dataset: support collating 2021-12-29 16:44:37 +00:00			`from data.zero_pad_dict_collate import ZeroPadDictCollate as C`
more debugging 2022-01-01 21:25:27 +00:00			`if opt_get(dataset_opt, ['needs_collate'], False):`
grand conjoined dataset: support collating 2021-12-29 16:44:37 +00:00			`collate = C()`
mmsr 2019-08-23 13:42:47 +00:00			`else:`
			`raise NotImplementedError('Dataset [{:s}] is not recognized.'.format(mode))`
			`dataset = D(dataset_opt)`

Initial checkin of nvidia tacotron model & dataset These two are tested, full support for training to come. 2021-07-06 17:11:35 +00:00			`if return_collate:`
			`return dataset, collate`
			`else:`
			`return dataset`
Add "dataset_debugger" support This allows the datasets themselves compile statistics and report them via tensorboard and wandb. 2022-01-06 19:38:20 +00:00

			`def get_dataset_debugger(dataset_opt):`
			`mode = dataset_opt['mode']`
			`if mode == 'paired_voice_audio':`
			`from data.audio.paired_voice_audio_dataset import PairedVoiceDebugger`
			`return PairedVoiceDebugger()`
			`return None`