Update fast_paired_dataset to report how many audio files it is actually using

2022-01-20 21:49:38 -07:00 · 2022-01-20 21:49:38 -07:00 · 7fef7fb9ff
commit 7fef7fb9ff
parent ed35cfe393
2 changed files with 41 additions and 1 deletions
--- a/codes/data/init.py
+++ b/codes/data/init.py
@ -106,7 +106,10 @@ def create_dataset(dataset_opt, return_collate=False):
 def get_dataset_debugger(dataset_opt):
    mode = dataset_opt['mode']
-    if mode == 'paired_voice_audio' or mode == 'fast_paired_voice_audio':
+    if mode == 'paired_voice_audio':
        from data.audio.paired_voice_audio_dataset import PairedVoiceDebugger
        return PairedVoiceDebugger()
    elif mode == 'fast_paired_voice_audio':
        from data.audio.fast_paired_dataset import FastPairedVoiceDebugger
        return FastPairedVoiceDebugger()
    return None
--- a/codes/data/audio/fast_paired_dataset.py
+++ b/codes/data/audio/fast_paired_dataset.py
@ -1,3 +1,4 @@
 import hashlib
 import os
 import os
 import random
@ -171,6 +172,42 @@ class FastPairedVoiceDataset(torch.utils.data.Dataset):
        return self.total_size_bytes // 1000  # 1000 cuts down a TSV file to the actual length pretty well.
 class FastPairedVoiceDebugger:
    def __init__(self):
        self.total_items = 0
        self.loaded_items = 0
        self.self_conditioning_items = 0
        self.unique_files = set()
    def get_state(self):
        return {'total_items': self.total_items,
                'loaded_items': self.loaded_items,
                'self_conditioning_items': self.self_conditioning_items,
                'unique_files_loaded': self.unique_files}
    def load_state(self, state):
        if isinstance(state, dict):
            self.total_items = opt_get(state, ['total_items'], 0)
            self.loaded_items = opt_get(state, ['loaded_items'], 0)
            self.self_conditioning_items = opt_get(state, ['self_conditioning_items'], 0)
    def update(self, batch):
        self.total_items += batch['wav'].shape[0]
        self.loaded_items += batch['skipped_items'].sum().item()
        for filename in batch['filenames']:
            self.unique_files.add(hashlib.sha256(filename.encode('utf-8')))
        if 'conditioning' in batch.keys():
            self.self_conditioning_items += batch['conditioning_contains_self'].sum().item()
    def get_debugging_map(self):
        return {
            'total_samples_loaded': self.total_items,
            'percent_skipped_samples': (self.loaded_items - self.total_items) / self.loaded_items,
            'percent_conditioning_is_self': self.self_conditioning_items / self.loaded_items,
            'unique_files_loaded': len(self.unique_files)
        }
 if __name__ == '__main__':
    batch_sz = 16
    params = {