From 9a9c3cafba2619db931212cddc22373a745c5e0c Mon Sep 17 00:00:00 2001
From: James Betker <jbetker@gmail.com>
Date: Tue, 17 May 2022 18:14:52 -0600
Subject: [PATCH] Make feature encoder a bit more descriptive

---
 codes/models/audio/mel2vec.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/codes/models/audio/mel2vec.py b/codes/models/audio/mel2vec.py
index 6e768cd3..827e347b 100644
--- a/codes/models/audio/mel2vec.py
+++ b/codes/models/audio/mel2vec.py
@@ -366,8 +366,9 @@ class Mel2Vec(nn.Module):
         self.input_blocks = nn.Sequential(nn.Conv1d(mel_input_channels, inner_dim//2, kernel_size=5, padding=2, stride=2),
                                           nn.GroupNorm(num_groups=8, num_channels=inner_dim//2, affine=True),
                                           nn.SiLU(),
-                                          nn.Conv1d(inner_dim//2, inner_dim,  kernel_size=3, padding=1, stride=2),
-                                          nn.GroupNorm(num_groups=8, num_channels=inner_dim, affine=True),
+                                          nn.Conv1d(inner_dim//2, inner_dim, kernel_size=3, padding=1, stride=2),
+                                          nn.SiLU(),
+                                          nn.Conv1d(inner_dim, inner_dim, kernel_size=3, padding=1),
                                           nn.SiLU(),
                                           )
         self.projector = Mel2Vec2FeatureProjection(inner_dim, dropout)