added compat flags because I guess the maintainer assumed no one was actually using the retnet and thinks they can change things willy nilly

2023-10-05 16:38:57 -05:00 · 2023-10-05 16:38:57 -05:00 · 008f1b6d18
commit 008f1b6d18
parent ce77afe916
3 changed files with 34 additions and 11 deletions
--- a/torchscale/architecture/config.py
+++ b/torchscale/architecture/config.py
@ -261,6 +261,11 @@ class RetNetConfig(object):
        # RetNet's RelPos base
        self.rotary_embedding_base = kwargs.pop("rotary_embedding_base", 10000)

+        # Backwards compatibility flags
+        self.use_layernorm = kwargs.pop("use_layernorm", False)
+        self.use_biases = kwargs.pop("use_biases", False)
+        self.use_glu = kwargs.pop("use_glu", True)
+
        if self.deepnorm:
            self.decoder_normalize_before = False
            self.subln = False
--- a/torchscale/architecture/retnet.py
+++ b/torchscale/architecture/retnet.py
@ -11,11 +11,15 @@ from fairscale.nn import checkpoint_wrapper, wrap

 from torchscale.architecture.utils import init_bert_params
 from torchscale.component.droppath import DropPath
-from torchscale.component.feedforward_network import make_experts
+from torchscale.component.feedforward_network import make_experts, FeedForwardNetwork
 from torchscale.component.gate_linear_unit import GLU
 from torchscale.component.multiscale_retention import MultiScaleRetention
 from torchscale.component.xmoe.moe_layer import MOELayer
 from torchscale.component.xmoe.routing import Top1Gate, Top2Gate
+try:
+    from apex.normalization import FusedLayerNorm as LayerNorm
+except ModuleNotFoundError:
+    from torch.nn import LayerNorm
 from torchscale.component.rms_norm import RMSNorm
    
    
@ -92,7 +96,7 @@ class DecoderLayer(nn.Module):

        self.normalize_before = args.decoder_normalize_before

-        self.retention_layer_norm = RMSNorm(self.embed_dim, eps=args.layernorm_eps)
+        self.retention_layer_norm = (LayerNorm if args.use_layernorm else RMSNorm)(self.embed_dim, eps=args.layernorm_eps)

        self.is_moe_layer = is_moe_layer
        self.ffn_dim = args.decoder_ffn_embed_dim
@ -124,7 +128,7 @@ class DecoderLayer(nn.Module):
            experts = make_experts(args, self.embed_dim, self.ffn_dim)
            self.moe_layer = MOELayer(gate, experts, args)

-        self.final_layer_norm = RMSNorm(self.embed_dim, eps=args.layernorm_eps)
+        self.final_layer_norm = (LayerNorm if args.use_layernorm else RMSNorm)(self.embed_dim, eps=args.layernorm_eps)

        if args.deepnorm:
            self.alpha = math.pow(2.0 * args.decoder_layers, 0.25)
@ -138,6 +142,14 @@ class DecoderLayer(nn.Module):
            args.activation_fn,
            args.dropout,
            args.activation_dropout,
+        ) if args.use_glu else FeedForwardNetwork(
+            embed_dim,
+            self.ffn_dim,
+            args.activation_fn,
+            args.dropout,
+            args.activation_dropout,
+            args.layernorm_eps,
+            args.subln,
        )

    def build_retention(self, embed_dim, args):
@ -225,7 +237,7 @@ class RetNetDecoder(nn.Module):
            self.output_projection = output_projection

        if args.layernorm_embedding:
-            self.layernorm_embedding = RMSNorm(embed_dim, eps=args.layernorm_eps)
+            self.layernorm_embedding = (LayerNorm if args.use_layernorm else RMSNorm)(embed_dim, eps=args.layernorm_eps)
        else:
            self.layernorm_embedding = None

@ -245,7 +257,7 @@ class RetNetDecoder(nn.Module):
        self.num_layers = len(self.layers)

        if args.decoder_normalize_before:
-            self.layer_norm = RMSNorm(embed_dim, eps=args.layernorm_eps)
+            self.layer_norm = (LayerNorm if args.use_layernorm else RMSNorm)(embed_dim, eps=args.layernorm_eps)
        else:
            self.layer_norm = None

--- a/torchscale/component/multiscale_retention.py
+++ b/torchscale/component/multiscale_retention.py
@ -5,6 +5,10 @@
 import torch
 import torch.nn.functional as F
 from torch import nn
+try:
+    from apex.normalization import FusedLayerNorm as LayerNorm
+except ModuleNotFoundError:
+    from torch.nn import LayerNorm
 from .rms_norm import RMSNorm

 from .multiway_network import MultiwayWrapper
@ -56,14 +60,14 @@ class MultiScaleRetention(nn.Module):
        
        self.gate_fn = get_activation_fn(activation=str(gate_fn))

-        self.q_proj = MultiwayWrapper(args, nn.Linear(embed_dim, embed_dim, bias=False))
-        self.k_proj = MultiwayWrapper(args, nn.Linear(embed_dim, embed_dim, bias=False))
-        self.v_proj = MultiwayWrapper(args, nn.Linear(embed_dim, value_dim, bias=False))
-        self.g_proj = MultiwayWrapper(args, nn.Linear(embed_dim, value_dim, bias=False))
+        self.q_proj = MultiwayWrapper(args, nn.Linear(embed_dim, embed_dim, bias=args.use_biases))
+        self.k_proj = MultiwayWrapper(args, nn.Linear(embed_dim, embed_dim, bias=args.use_biases))
+        self.v_proj = MultiwayWrapper(args, nn.Linear(embed_dim, value_dim, bias=args.use_biases))
+        self.g_proj = MultiwayWrapper(args, nn.Linear(embed_dim, value_dim, bias=args.use_biases))
        
-        self.out_proj = MultiwayWrapper(args, nn.Linear(value_dim, embed_dim, bias=False))
+        self.out_proj = MultiwayWrapper(args, nn.Linear(value_dim, embed_dim, bias=args.use_biases))

-        self.group_norm = MultiwayWrapper(args, RMSNorm(self.head_dim, eps=args.layernorm_eps, elementwise_affine=False))
+        self.group_norm = MultiwayWrapper(args, (LayerNorm if args.use_layernorm else RMSNorm)(self.head_dim, eps=args.layernorm_eps, elementwise_affine=False))
        self.reset_parameters()

    def reset_parameters(self):
@ -72,6 +76,8 @@ class MultiScaleRetention(nn.Module):
        nn.init.xavier_uniform_(self.v_proj.weight, gain=2 ** -2.5)
        nn.init.xavier_uniform_(self.g_proj.weight, gain=2 ** -2.5)
        nn.init.xavier_uniform_(self.out_proj.weight)
+        if hasattr(self.out_proj, "bias"):
+            nn.init.constant_(self.out_proj.bias, 0.0)

    def parallel_forward(self, qr, kr, v, mask):
        bsz, tgt_len, embed_dim = v.size()