More improvements to random_mp3_splitter

2021-08-09 21:31:12 -06:00 · 2021-08-09 21:31:12 -06:00 · e19c00398e
commit e19c00398e
parent 04d14b3acc
3 changed files with 76 additions and 54 deletions
--- a/codes/data/audio/random_mp3_splitter.py
+++ b/codes/data/audio/random_mp3_splitter.py
@ -1,53 +0,0 @@
-import audio2numpy
-from scipy.io import wavfile
-from tqdm import tqdm
-
-from data.util import find_audio_files
-import numpy as np
-import torch
-import torch.nn.functional as F
-import os.path as osp
-
-if __name__ == '__main__':
-    src_dir = 'O:\\podcast_dumps'
-    #src_dir = 'E:\\audio\\books'
-    output_dir = 'D:\\data\\audio\\podcasts-split'
-    #output_dir = 'E:\\audio\\books-clips'
-    clip_length = 5  # In seconds
-    sparsity = .05  # Only this proportion of the total clips are extracted as wavs.
-    output_sample_rate=22050
-
-    files = find_audio_files(src_dir, include_nonwav=True)
-    for e, file in enumerate(tqdm(files)):
-        if e < 1486:
-            continue
-        file_basis = osp.relpath(file, src_dir)\
-            .replace('/', '_')\
-            .replace('\\', '_')\
-            .replace('.', '_')\
-            .replace(' ', '_')\
-            .replace('!', '_')\
-            .replace(',', '_')
-        if len(file_basis) > 100:
-            file_basis = file_basis[:100]
-        try:
-            wave, sample_rate = audio2numpy.open_audio(file)
-        except:
-            print(f"Error with {file}")
-            continue
-        wave = torch.tensor(wave)
-        # Strip out channels.
-        if len(wave.shape) > 1:
-            wave = wave[:, 1]  # Just use the first channel.
-
-        # Calculate how much data we need to extract for each clip.
-        clip_sz = sample_rate * clip_length
-        interval = int(sample_rate * (clip_length / sparsity))
-        i = 0
-        if wave.shape[-1] == 0:
-            print("Something went wrong: wave shape is 0.")
-        while (i+clip_sz) < wave.shape[-1]:
-            clip = wave[i:i+clip_sz]
-            clip = F.interpolate(clip.view(1,1,clip_sz), scale_factor=output_sample_rate/sample_rate).squeeze()
-            wavfile.write(osp.join(output_dir, f'{e}_{file_basis}_{i}.wav'), output_sample_rate, clip.numpy())
-            i = i + interval
--- a/codes/scripts/audio/random_mp3_splitter.py
+++ b/codes/scripts/audio/random_mp3_splitter.py
@ -0,0 +1,75 @@
+from scipy.io import wavfile
+from spleeter.separator import Separator
+from tqdm import tqdm
+
+from data.util import find_audio_files
+import os.path as osp
+from spleeter.audio.adapter import AudioAdapter
+import numpy as np
+
+
+if __name__ == '__main__':
+    src_dir = 'O:\\podcast_dumps'
+    #src_dir = 'E:\\audio\\books'
+    output_dir = 'D:\\data\\audio\\podcasts-split'
+    output_dir_lq = 'D:\\data\\audio\\podcasts-split-with-bg'
+    output_dir_garbage = 'D:\\data\\audio\\podcasts-split-garbage'
+    #output_dir = 'E:\\audio\\books-clips'
+    clip_length = 5  # In seconds
+    sparsity = .1  # Only this proportion of the total clips are extracted as wavs.
+    output_sample_rate=22050
+
+    audio_loader = AudioAdapter.default()
+    separator = Separator('spleeter:2stems')
+    files = find_audio_files(src_dir, include_nonwav=True)
+    for e, file in enumerate(tqdm(files)):
+        if e < 575:
+            continue
+        file_basis = osp.relpath(file, src_dir)\
+            .replace('/', '_')\
+            .replace('\\', '_')\
+            .replace('.', '_')\
+            .replace(' ', '_')\
+            .replace('!', '_')\
+            .replace(',', '_')
+        if len(file_basis) > 100:
+            file_basis = file_basis[:100]
+        try:
+            wave, sample_rate = audio_loader.load(file, sample_rate=output_sample_rate)
+        except:
+            print(f"Error with {file}")
+            continue
+
+        #if len(wave.shape) < 2:
+        #    continue
+
+        # Calculate how much data we need to extract for each clip.
+        clip_sz = sample_rate * clip_length
+        interval = int(sample_rate * (clip_length / sparsity))
+        i = 0
+        while (i+clip_sz) < wave.shape[0]:
+            clip = wave[i:i+clip_sz]
+            sep = separator.separate(clip)
+            vocals = sep['vocals']
+            bg = sep['accompaniment']
+            vmax = np.abs(vocals).mean()
+            bmax = np.abs(bg).mean()
+
+            # Only output to the "good" sample dir if the ratio of background noise to vocal noise is high enough.
+            ratio = vmax / bmax
+            if ratio >= 25:  # These values were derived empirically
+                od = output_dir
+                os = clip
+            elif ratio >= 1:
+                od = output_dir_lq
+                os = vocals
+            else:
+                od = output_dir_garbage
+                os = vocals
+
+            # Strip out channels.
+            if len(os.shape) > 1:
+                os = os[:, 0]  # Just use the first channel.
+
+            wavfile.write(osp.join(od, f'{e}_{file_basis}_{i}.wav'), output_sample_rate, os)
+            i = i + interval
--- a/codes/train.py
+++ b/codes/train.py
@ -238,7 +238,7 @@ class Trainer:
                    print(f">>Eval {k}: {val}")
                if opt['wandb']:
                    import wandb
-                    wandb.log({k: torch.stack(v).mean().item() for k,v in reduced_metrics.items()})
+                    wandb.log({f'eval_{k}': torch.stack(v).mean().item() for k,v in reduced_metrics.items()})

        if len(self.evaluators) != 0 and self.current_step % opt['train']['val_freq'] == 0:
            eval_dict = {}