From c9f505064ef416d20336415ce381fc21a54658b1 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 28 Jan 2023 17:05:22 -0800
Subject: [PATCH 01/97] Added outlier detector and fake quantization layer.

---
 bitsandbytes/functional.py  |   6 +-
 bitsandbytes/nn/__init__.py |   2 +-
 bitsandbytes/nn/modules.py  |  78 +++++++++++++++++++++
 bitsandbytes/utils.py       | 136 ++++++++++++++++++++++++++++++++++++
 csrc/kernels.cu             |   2 +
 tests/test_functional.py    |   6 +-
 6 files changed, 225 insertions(+), 5 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 95a7c4f..371f85c 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -168,7 +168,7 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
     values = []
     lst = list(itertools.product([0, 1], repeat=precision_bits))
     #for ev in evalues:
-    bias = 2**(exponent_bits-1)-1
+    bias = 2**(exponent_bits-1)
     for evalue in range(2**(exponent_bits)):
         for bit_pattern in lst:
             value = (1 if evalue != 0 else 0)
@@ -176,10 +176,10 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
                 value += pval*(2**-(i+1))
             if evalue == 0:
                 # subnormals
-                value = value*2**-(bias-1)
+                value = value*2**-(bias)
             else:
                 # normals
-                value = value*2**-(evalue-bias-2)
+                value = value*2**-(evalue-bias-1)
             values.append(value)
             if signed:
                 values.append(-value)
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index edc595a..221b5f7 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index a623bf1..4746a4a 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -10,6 +10,7 @@ from torch import Tensor, device, dtype, nn
 
 import bitsandbytes as bnb
 from bitsandbytes.optim import GlobalOptimManager
+from bitsandbytes.utils import OutlierTracer, find_outlier_dims
 
 T = TypeVar("T", bound="torch.nn.Module")
 
@@ -133,6 +134,83 @@ class Embedding(torch.nn.Embedding):
 
         return emb
 
+class OutlierAwareLinear(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.outlier_dim = None
+        self.is_quantized = False
+
+    def forward_with_outliers(self, x, outlier_idx):
+        raise NotImplementedError('Please override the `forward_with_outliers(self, x, outlier_idx)` function')
+
+    def quantize_weight(self, w, outlier_idx):
+        raise NotImplementedError('Please override the `quantize_weights(self, w, outlier_idx)` function')
+
+    def forward(self, x):
+        if self.outlier_dim is None:
+            tracer = OutlierTracer.get_instance()
+            if not tracer.is_initialized():
+                print('Please use OutlierTracer.initialize(model) before using the OutlierAwareLinear layer')
+            outlier_idx = tracer.get_outliers(self.weight)
+            #print(outlier_idx, tracer.get_hvalue(self.weight))
+            self.outlier_dim = outlier_idx
+
+        if not self.is_quantized:
+            w = self.quantize_weight(self.weight, self.outlier_dim)
+            self.weight.data.copy_(w)
+            self.is_quantized = True
+
+        return self.forward_with_outliers(x, self.outlier_dim)
+
+
+class Fake4bitLinear(OutlierAwareLinear):
+    def __init__(self, input_features, output_features, bias=True, codebook=bnb.functional.create_fp8_map(True, 3, 0, total_bits=4)):
+        super().__init__(input_features, output_features, bias)
+        self.codebook = codebook
+
+    def quantize_weight(self, w, outlier_idx):
+        if outlier_idx.numel() > 0:
+            subw = w[:, outlier_idx].clone()
+            w[:, outlier_idx] = 0
+        wdtype = w.dtype
+        code = self.codebook.to(w.device)
+        cw, state = bnb.functional.quantize_blockwise(w, code=code, blocksize=64)
+        w = bnb.functional.dequantize_blockwise(cw, state, blocksize=64)
+        w = w.to(wdtype)
+        if outlier_idx.numel() > 0:
+            w[:, outlier_idx] = subw
+        self.is_quantized = True
+        return w
+
+    def forward_with_outliers(self, x, outlier_idx):
+        dims = torch.abs(x> 4).sum(dim=list(range(len(x.shape)-1)))
+        outlier_idx2 = torch.where(dims > 0)[0]
+        outlier_idx = torch.cat([outlier_idx, outlier_idx2]).unique()
+        n = x.shape[-1]
+        idx = torch.arange(n, device=x.device)
+        idx[outlier_idx] = -1
+        inverse_idx = torch.where(idx >= 0)[0]
+        if outlier_idx.numel() > 0:
+            subx = x[..., outlier_idx].clone()
+            #print(1, subx, 1)
+            #x[..., outlier_idx] = 0
+        inverse_x = x[...,inverse_idx]
+        xdtype = x.dtype
+        #code = bnb.functional.create_fp8_map(True, 4-3, 2, 4).to(x.device)
+        #code = bnb.functional.create_quantile_map(x, 4).to(x.device)
+        code = bnb.functional.create_dynamic_map(True, total_bits=4.0).to(x.device)
+        c, state = bnb.functional.quantize_blockwise(inverse_x, code=code, blocksize=64)
+        inverse_x = bnb.functional.dequantize_blockwise(c, state, blocksize=64)
+        #c, state = bnb.functional.quantize_blockwise(x, code=code, blocksize=64)
+        #x = bnb.functional.dequantize_blockwise(c, state, blocksize=64)
+        x = x.to(xdtype)
+        x[..., inverse_idx] = inverse_x.to(x.dtype)
+        #if outlier_idx.numel() > 0:
+            #x[..., outlier_idx] = subx
+
+        return torch.nn.functional.linear(x, self.weight, self.bias)
+
+
 
 class Int8Params(torch.nn.Parameter):
     def __new__(
diff --git a/bitsandbytes/utils.py b/bitsandbytes/utils.py
index 1cd90e3..30d9e10 100644
--- a/bitsandbytes/utils.py
+++ b/bitsandbytes/utils.py
@@ -1,7 +1,143 @@
 import shlex
 import subprocess
+import torch
 from typing import Tuple
 
+def outlier_hook(module, input):
+    assert isinstance(module, torch.nn.Linear)
+    tracer = OutlierTracer.get_instance()
+    hvalue = tracer.get_hvalue(module.weight)
+    if hvalue not in tracer.hvalue2outlier_idx:
+        outlier_idx = find_outlier_dims(module.weight)
+        tracer.outliers.append(outlier_idx)
+        tracer.hvalues.append(hvalue)
+        if len(tracer.outliers) > 1:
+            # assign the current layer the outlier idx found from the weight
+            # of the previous linear layer
+            if tracer.outliers[-1].numel() > 0:
+                assert tracer.outliers[-1].max() < module.weight.shape[1]
+            tracer.hvalue2outlier_idx[hvalue] = tracer.outliers[-1]
+
+        else:
+            # first layer, we cannot use the weight for outlier detection
+            # we follow a mixed approach:
+            # (1) zscore test of std of hidden dimension
+            # (2) magnitude > 6 test
+            merged = input[0].view(-1, input[0].shape[-1])
+            # (1) zscore test of std of hidden dimension
+            outlier_idx = find_outlier_dims(merged, reduction_dim=1, zscore=3)
+            # (2) magnitude > 6 test
+            dims = (torch.abs(input[0])> 6).sum(dim=list(range(len(input[0].shape)-1)))
+            outlier_idx2 = torch.where(dims > 0)[0]
+            outlier_idx = torch.cat([outlier_idx, outlier_idx2]).unique()
+            tracer.hvalue2outlier_idx[hvalue] = outlier_idx
+    else:
+        for hook in tracer.hooks:
+            hook.remove()
+
+
+class OutlierTracer(object):
+    _instance = None
+
+    def __init__(self):
+        raise RuntimeError("Call get_instance() instead")
+
+    def initialize(self, model):
+        self.last_w = None
+        self.current_outlier_dims = None
+        self.hvalues = []
+        self.outliers = []
+        self.hvalue2outlier_idx = {}
+        self.initialized = True
+        self.hooks = []
+
+        for n, m in model.named_modules():
+            if isinstance(m, torch.nn.Linear):
+                self.hooks.append(m.register_forward_pre_hook(outlier_hook))
+
+    def is_initialized(self):
+        return getattr(self, 'initialized', False)
+
+    def get_hvalue(self, weight):
+        return weight.data.storage().data_ptr()
+
+    def get_outliers(self, weight):
+        if not self.is_initialized():
+            print('Outlier tracer is not initialized...')
+            return None
+        hvalue = self.get_hvalue(weight)
+        if hvalue in self.hvalue2outlier_idx:
+            return self.hvalue2outlier_idx[hvalue]
+        else:
+            return None
+
+    @classmethod
+    def get_instance(cls):
+        if cls._instance is None:
+            cls._instance = cls.__new__(cls)
+        return cls._instance
+
+def find_outlier_dims(weight, reduction_dim=0, zscore=4.0, topk=None, rdm=False):
+    if rdm:
+        return torch.randint(0, weight.shape[1], size=(topk,), device=weight.device).long()
+
+    m = weight.mean(reduction_dim)
+    mm = m.mean()
+    mstd = m.std()
+    zm = (m-mm)/mstd
+
+    std = weight.std(reduction_dim)
+    stdm = std.mean()
+    stdstd = std.std()
+
+    zstd = (std-stdm)/stdstd
+
+    if topk is not None:
+        val, idx = torch.topk(std.abs(), k=topk, dim=0)
+    else:
+        idx = torch.where(zstd > zscore)[0]
+
+    return idx
+
+def replace_linear(model, linear_replacement, skip_modules=["lm_head"], copy_weights=False, post_processing_function=None):
+    """
+    Replace linear modules with a new Linear module.
+
+    Parameters:
+        model (`torch.nn.Module`):
+            Input model or `torch.nn.Module` as the function is run recursively.
+        linear_replacement (`torch.nn.Module`):
+            The linear module that replaces the old one. Only expects standard arguments.
+            If other arguments need to be passed, use a lambda.
+        skip_modules (`List[str]`, *optional*, defaults to `lm_head`):
+            List of modules names not to convert. Defaults to `lm_head`.
+        copy_weights (`bool`):
+            Copy the weights from the old linear module to the new one
+        post_processing_fun_name (`str`):
+            A function name of the replacement linear class that is called
+            after processing.
+    """
+    for name, module in model.named_children():
+        if len(list(module.children())) > 0:
+            replace_linear(module, linear_replacement, skip_modules, copy_weights, post_processing_function)
+
+        if isinstance(module, torch.nn.Linear) and name not in skip_modules:
+            old_module = model._modules[name]
+            model._modules[name] = linear_replacement(
+                module.in_features,
+                module.out_features,
+                module.bias is not None,
+            )
+            if copy_weights:
+                model._modules[name].weight = old_module.weight
+                model._modules[name].bias = old_module.bias
+
+            if post_processing_function is not None:
+               func = getattr(module, post_processing_function, None)
+               if func is not None: func(module)
+    return model
+
+
 
 def execute_and_return(command_string: str) -> Tuple[str, str]:
     def _decode(subprocess_err_out_tuple):
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 08b9b44..b32b39c 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -543,7 +543,9 @@ __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * abs
       // load code through read-only cache via __ldg
       #pragma unroll NUM_PER_TH
       for(int j = 0; j < NUM_PER_TH; j++)
+      {
         vals[j] = __ldg(&code[qvals[j]])*local_abs_max;
+      }
 
       __syncthreads();
       StoreT(storet).Store(&(out[i]), vals, valid_items);
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 69c200a..70fa4d0 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2109,6 +2109,7 @@ def test_few_bit_quant():
                 ebits = math.ceil(bits/2)
                 pbits = bits-ebits-1
                 code = F.create_fp8_map(True, ebits, pbits, bits).cuda()
+                print(code)
             elif method == 'dynamic':
                 code = F.create_dynamic_map(True, bits-0, bits).cuda()
             elif method == 'quantile':
@@ -2181,7 +2182,9 @@ def test_kbit_quantile_estimation():
 
 def test_bench_dequantization():
     a = torch.rand(1024, 1024, device='cuda').half()
-    qa, SA = F.quantize_blockwise(a)
+    code =F.create_fp8_map(True, 3, 0, 4).cuda()
+    qa, SA = F.quantize_blockwise(a, code=code)
+    print(qa.max())
 
     max_theoretical_mu =  1024*1024*2/1024**3/672*1000*1000
     #print(max_theoretical_mu)
@@ -2193,3 +2196,4 @@ def test_bench_dequantization():
     torch.cuda.synchronize()
     #print((time.time()-t0)/1e6)
 
+

From 3ac5840c03c829f8a77f740a3ce1887df472d1fa Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 4 Feb 2023 14:52:04 -0800
Subject: [PATCH 02/97] Added fp4 quant/dequant and dequant optimizations.

---
 bitsandbytes/cextension.py      |   2 +-
 bitsandbytes/cuda_setup/main.py |   4 +
 bitsandbytes/functional.py      | 123 +++++++++++++-
 csrc/kernels.cu                 | 284 ++++++++++++++++++++++++--------
 csrc/kernels.cuh                |   4 +-
 csrc/ops.cu                     |  54 +++---
 csrc/ops.cuh                    |   4 +-
 csrc/pythonInterface.c          |  21 ++-
 tests/test_functional.py        |  85 +++++++++-
 9 files changed, 468 insertions(+), 113 deletions(-)

diff --git a/bitsandbytes/cextension.py b/bitsandbytes/cextension.py
index 7a62c1e..e2ca978 100644
--- a/bitsandbytes/cextension.py
+++ b/bitsandbytes/cextension.py
@@ -9,7 +9,7 @@ from bitsandbytes.cuda_setup.main import CUDASetup
 
 
 setup = CUDASetup.get_instance()
-if setup.initialized != True:
+if not setup.initialized:
     setup.run_cuda_setup()
     if 'BITSANDBYTES_NOWELCOME' not in os.environ or str(os.environ['BITSANDBYTES_NOWELCOME']) == '0':
         setup.print_log_stack()
diff --git a/bitsandbytes/cuda_setup/main.py b/bitsandbytes/cuda_setup/main.py
index cd9573f..6bebd93 100644
--- a/bitsandbytes/cuda_setup/main.py
+++ b/bitsandbytes/cuda_setup/main.py
@@ -35,6 +35,9 @@ class CUDASetup:
         raise RuntimeError("Call get_instance() instead")
 
     def generate_instructions(self):
+        if getattr(self, 'error', False): return
+        print(self.error)
+        self.error = True
         if self.cuda is None:
             self.add_log_entry('CUDA SETUP: Problem: The main issue seems to be that the main CUDA library was not detected.')
             self.add_log_entry('CUDA SETUP: Solution 1): Your paths are probably not up-to-date. You can update them via: sudo ldconfig.')
@@ -84,6 +87,7 @@ class CUDASetup:
             self.has_printed = False
             self.lib = None
             self.initialized = False
+            self.error = False
 
     def run_cuda_setup(self):
         self.initialized = True
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 95a7c4f..da9e743 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -168,7 +168,8 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
     values = []
     lst = list(itertools.product([0, 1], repeat=precision_bits))
     #for ev in evalues:
-    bias = 2**(exponent_bits-1)-1
+    bias = 2**(exponent_bits-1)+1
+    print(bias)
     for evalue in range(2**(exponent_bits)):
         for bit_pattern in lst:
             value = (1 if evalue != 0 else 0)
@@ -176,10 +177,12 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
                 value += pval*(2**-(i+1))
             if evalue == 0:
                 # subnormals
-                value = value*2**-(bias-1)
+                value = value*2**-(bias)
             else:
                 # normals
-                value = value*2**-(evalue-bias-2)
+                print(value, 1)
+                value = value*2**-(evalue-bias-1)
+                print(value, 2)
             values.append(value)
             if signed:
                 values.append(-value)
@@ -193,7 +196,7 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
             values.append(0)
     values.sort()
     code = torch.Tensor(values)
-    code /= code.max()
+    #code /= code.max()
 
     return code
 
@@ -587,7 +590,7 @@ def dequantize_blockwise(
         code = code.to(A.device)
         if blocksize not in [2048, 4096, 1024, 512, 256, 128, 64]:
             raise ValueError(f"The blockwise of {blocksize} is not supported. Supported values: [2048, 4096, 1024, 512, 256, 128, 64]")
-        is_on_gpu([A, out])
+        is_on_gpu([A, absmax, out])
         if out.dtype == torch.float32:
             lib.cdequantize_blockwise_fp32(get_ptr(code), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(A.numel()))
         elif out.dtype == torch.float16:
@@ -602,6 +605,116 @@ def dequantize_blockwise(
     return out
 
 
+def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64) -> Tensor:
+    """
+    Quantize tensor A in blocks of FP4 values.
+
+    Quantizes tensor A by dividing it into blocks which are independently quantized to FP4.
+
+    Parameters
+    ----------
+    A : torch.Tensor
+        The input tensor.
+    absmax : torch.Tensor
+        The absmax values.
+    out : torch.Tensor
+        The output tensor (8-bit).
+    blocksize : int
+        The blocksize used in quantization.
+
+    Returns
+    -------
+    torch.Tensor:
+        The 8-bit tensor with packed 4-bit values.
+    tuple(torch.Tensor, torch.Size, torch.dtype):
+        The quantization state to undo the quantization.
+    """
+    if A.device.type != 'cuda':
+        raise NotImplementedError(f'Device type not supported for FP4 quantization: {A.device.type}')
+
+    n = A.numel()
+    input_shape = A.shape
+
+    if absmax is None:
+        blocks = n // blocksize
+        blocks += 1 if n % blocksize > 0 else 0
+        absmax = torch.zeros((blocks,), device=A.device)
+
+    state = (absmax, input_shape, A.dtype)
+
+    if out is None:
+        out = torch.zeros(((n+1)//2,), dtype=torch.uint8, device=A.device)
+
+    assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64]
+
+    prev_device = pre_call(A.device)
+    is_on_gpu([A, out, absmax])
+
+    if A.dtype == torch.float32:
+        lib.cquantize_blockwise_fp32_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int32(blocksize), ct.c_int(n))
+    elif A.dtype == torch.float16:
+        lib.cquantize_blockwise_fp16_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int32(blocksize), ct.c_int(n))
+    else:
+        raise ValueError(f"Blockwise quantization only supports 16/32-bit floats, but got {A.dtype}")
+    post_call(A.device)
+
+    return out, state
+
+
+def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64) -> Tensor:
+    """
+    Dequantizes FP4 blockwise quantized values.
+
+    Dequantizes the tensor A with maximum absolute values absmax in blocks of size blocksize.
+
+    Parameters
+    ----------
+    A : torch.Tensor
+        The input 8-bit tensor (packed 4-bit values).
+    quant_state : tuple(torch.Tensor, torch.Size, torch.dtype)
+        Tuple of absmax values, original tensor shape and original dtype.
+    absmax : torch.Tensor
+        The absmax values.
+    out : torch.Tensor
+        Dequantized output tensor.
+
+
+    Returns
+    -------
+    torch.Tensor:
+        Dequantized tensor.
+    """
+    if blocksize not in [2048, 4096, 1024, 512, 256, 128, 64]:
+        raise ValueError(f"The blockwise of {blocksize} is not supported. Supported values: [2048, 4096, 1024, 512, 256, 128, 64]")
+
+    if quant_state is None:
+        assert absmax is not None and out is not None
+        shape = out.shape
+        dtype = out.dtype
+    else:
+        absmax, shape, dtype = quant_state
+
+
+    if out is None:
+        out = torch.empty(shape, dtype=dtype, device=A.device)
+
+    n = out.numel()
+
+    device = pre_call(A.device)
+    is_on_gpu([A, absmax, out])
+    if out.dtype == torch.float32:
+        lib.cdequantize_blockwise_fp32_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(n))
+    elif out.dtype == torch.float16:
+        lib.cdequantize_blockwise_fp16_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(n))
+    else:
+        raise ValueError(f"Blockwise quantization only supports 16/32-bit floats, but got {A.dtype}")
+    post_call(A.device)
+
+    return out
+
+
+
+
 def quantize(A: Tensor, code: Tensor = None, out: Tensor = None) -> Tensor:
     if code is None:
         if "dynamic" not in name2qmap:
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 08b9b44..a1eec68 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -43,6 +43,79 @@ __device__ float atomicMin(float* address, float val) {
   return __int_as_float(old);
 }
 
+__device__ float dDequantizeFP4(unsigned char val, float absmax)
+{
+  float sign = (val & 0b1000) == 8 ? -1.0f : 1.0f;
+  if((val & 0b0110) == 0)
+  {
+    // subnormal
+    if((val & 0b0001) == 0)
+      return 0.0f;
+    else
+      return sign*0.0625f*absmax;
+  }
+  else
+  {
+    // normal
+    float exponent = ((val & 0b0100) == 4 ? 2.0f : 8.0f) + ((val & 0b0010) == 2 ? 0.0f : 2.0f);
+    float fraction = (val & 0b0001) == 1 ? 1.5f : 1.0f;
+
+    return sign*exponent*fraction*absmax;
+  }
+}
+
+__device__ unsigned char dQuantizeFP4(float x)
+{
+  // FP4 with bias of 3
+  // first bit is a sign
+  // subnormals
+  // 0b000 = 0
+  // 0b001 = 0.0625
+  // 0b110 = 2
+  // 0b111 = 3
+  // 0b100 = 4
+  // 0b101 = 6
+  // 0b010 = 8
+  // 0b011 = 12
+
+  int sign = x < 0 ? 0b1000 : 0b0000;
+  x = fabsf(x);
+  if(x > 3.5f)
+  {
+    if( x > 7.0f)
+    {
+      if( x > 10.0f)
+        return 0b0011+sign;
+      else
+        return 0b0010+sign;
+    }
+    else
+    {
+      if(x > 5.0f)
+        return 0b101+sign;
+      else
+        return 0b100+sign;
+    }
+  }
+  else
+  {
+    if(x > 1.03125f)
+    {
+      if(x > 2.5f)
+        return 0b0111+sign;
+      else
+        return 0b0110+sign;
+    }
+    else
+    {
+      if(x > 0.03125f)
+        return 0b0001+sign;
+      else
+        return 0b0000+sign;
+    }
+  }
+}
+
 template <int STOCHASTIC>
 __device__ unsigned char dQuantize(float* smem_code, const float rand, float x)
 {
@@ -427,7 +500,7 @@ __global__ void kQuantize(float * code, float * __restrict__ const A, unsigned c
   }
 }
 
-template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC>
+template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC, int FP4>
 //__launch_bounds__(TH, 4)
 __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n)
 {
@@ -437,13 +510,13 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
 
   T vals[NUM_PER_TH];
   float rand_vals[NUM_PER_TH];
-  unsigned char qvals[NUM_PER_TH];
+  unsigned char qvals[FP4 ? NUM_PER_TH/2 : NUM_PER_TH];
   //float local_abs_max = -FLT_MAX;
   float local_abs_max = 0.0f;
   int local_rand_idx = 0;
 
   typedef cub::BlockLoad<T, BLOCK_SIZE/NUM_PER_TH, NUM_PER_TH, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadT;
-  typedef cub::BlockStore<unsigned char, BLOCK_SIZE/NUM_PER_TH, NUM_PER_TH, cub::BLOCK_STORE_WARP_TRANSPOSE> StoreChar;
+  typedef cub::BlockStore<unsigned char, BLOCK_SIZE/NUM_PER_TH, FP4 ? NUM_PER_TH/2 : NUM_PER_TH, cub::BLOCK_STORE_WARP_TRANSPOSE> StoreChar;
   typedef cub::BlockReduce<float, BLOCK_SIZE/NUM_PER_TH> BlockReduce;
   typedef cub::BlockLoad<float, BLOCK_SIZE/NUM_PER_TH, NUM_PER_TH, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadFloat;
 
@@ -454,8 +527,9 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
   __shared__ float smem_code[256];
   __shared__ float smem_absmax_value[1];
 
-  for(int i = threadIdx.x; i < 256; i+=blockDim.x)
-    smem_code[i] = code[i];
+  if(!FP4)
+    for(int i = threadIdx.x; i < 256; i+=blockDim.x)
+      smem_code[i] = code[i];
 
   for (unsigned int i = base_idx; i < n_full; i += gridDim.x*BLOCK_SIZE)
   {
@@ -495,61 +569,138 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
       LoadFloat(loadf).Load(&rand[local_rand_idx], rand_vals, BLOCK_SIZE, 0);
     }
 
-    #pragma unroll NUM_PER_TH
-    for(int j = 0; j < NUM_PER_TH; j++)
+    if(FP4)
     {
-      if(!STOCHASTIC)
-       qvals[j] = dQuantize<0>(smem_code, 0.0f, ((float)vals[j])*local_abs_max);
-      else
-       qvals[j] = dQuantize<1>(smem_code, rand_vals[j], ((float)vals[j])*local_abs_max);
+      #pragma unroll NUM_PER_TH
+      for(int j = 0; j < NUM_PER_TH/2; j++)
+      {
+        unsigned char packed_fp4 = 0;
+        packed_fp4 |= dQuantizeFP4(((float)vals[2*j])*local_abs_max*12.0f) << 4;
+        packed_fp4 |= dQuantizeFP4(((float)vals[2*j+1])*local_abs_max*12.0f);
+        qvals[j] = packed_fp4;
+      }
+    }
+    else
+    {
+      #pragma unroll NUM_PER_TH
+      for(int j = 0; j < NUM_PER_TH; j++)
+      {
+          if(!STOCHASTIC)
+           qvals[j] = dQuantize<0>(smem_code, 0.0f, ((float)vals[j])*local_abs_max);
+          else
+           qvals[j] = dQuantize<1>(smem_code, rand_vals[j], ((float)vals[j])*local_abs_max);
+      }
     }
 
     __syncthreads();
-    StoreChar(storec).Store(&(out[i]), qvals, valid_items);
+    StoreChar(storec).Store(&(out[FP4 ? i/2 : i]), qvals, FP4 ? (valid_items+1)/2 : valid_items);
   }
 }
 
-template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH>
-__global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * absmax, T *out, const int n)
+template<typename T, int TILE_SIZE, int THREADS, int NUM_PER_TH, int FP4>
+__global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * absmax, T *out, const int blocksize, const int n)
 {
 
-  const int n_full = gridDim.x * BLOCK_SIZE;
-  int valid_items = 0;
-  const int base_idx = (blockIdx.x * BLOCK_SIZE);
+  const int n_load = (gridDim.x * TILE_SIZE);
+  int valid_items_load = 0;
+  int valid_items_store = 0;
+  const int base_idx = (blockIdx.x * TILE_SIZE);
 
-  T vals[NUM_PER_TH];
+  T vals[NUM_PER_TH*(FP4 ? 2 : 1)];
   unsigned char qvals[NUM_PER_TH];
   float local_abs_max = -FLT_MAX;
 
   typedef cub::BlockLoad<unsigned char, THREADS, NUM_PER_TH, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadChar;
-  typedef cub::BlockStore<T, THREADS, NUM_PER_TH, cub::BLOCK_STORE_WARP_TRANSPOSE> StoreT;
+  typedef cub::BlockStore<T, THREADS, NUM_PER_TH*(FP4 ? 2 : 1), cub::BLOCK_STORE_WARP_TRANSPOSE> StoreT;
 
   __shared__ typename LoadChar::TempStorage loadchar;
   __shared__ typename StoreT::TempStorage storet;
-  //__shared__ float smem_code[256];
-  //float local_code[16];
 
-  //if(threadIdx.x < 256)
-    //smem_code[threadIdx.x] = code[threadIdx.x];
-
-  for (unsigned int i = base_idx; i < n_full; i += gridDim.x*BLOCK_SIZE)
+  for (unsigned int i = base_idx; i < n_load; i += gridDim.x*TILE_SIZE)
   {
-      valid_items = n - i > BLOCK_SIZE ? BLOCK_SIZE : n - i;
-      local_abs_max = absmax[i/BLOCK_SIZE];
+      if(FP4)
+      {
+        valid_items_load = (n+1)/2 - i > TILE_SIZE ? TILE_SIZE : (n+1)/2 - i;
+        valid_items_store = n - i*2 > TILE_SIZE*2 ? TILE_SIZE*2 : n - i*2;
+      }
+      else
+      {
+        valid_items_load = n - i > TILE_SIZE ? TILE_SIZE : n - i;
+        valid_items_store = n - i > TILE_SIZE ? TILE_SIZE : n - i;
+      }
+      local_abs_max = __ldg(&absmax[(i+threadIdx.x*NUM_PER_TH)/(blocksize)]);
 
       __syncthreads();
-      LoadChar(loadchar).Load(&(A[i]), qvals, valid_items, 128);
+      LoadChar(loadchar).Load(&(A[i]), qvals, valid_items_load, 128);
 
-      // load code through read-only cache via __ldg
-      #pragma unroll NUM_PER_TH
-      for(int j = 0; j < NUM_PER_TH; j++)
-        vals[j] = __ldg(&code[qvals[j]])*local_abs_max;
+
+      if(FP4)
+      {
+        #pragma unroll NUM_PER_TH
+        for(int j = 0; j < NUM_PER_TH; j++)
+        {
+          vals[j*2] = dDequantizeFP4(qvals[j] >> 4, local_abs_max*0.083333f);
+          vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*0.083333);
+        }
+      }
+      else
+      {
+        // load code through read-only cache via __ldg
+        #pragma unroll NUM_PER_TH
+        for(int j = 0; j < NUM_PER_TH; j++)
+          vals[j] = __ldg(&code[qvals[j]])*local_abs_max;
+      }
 
       __syncthreads();
-      StoreT(storet).Store(&(out[i]), vals, valid_items);
+      StoreT(storet).Store(&(out[FP4 ? i*2 : i]), vals, valid_items_store);
   }
 }
 
+//template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH, int TILE_SIZE>
+//__global__ void kDequantizeBlockwiseFP4(unsigned char * A, float * absmax, T *out, const int n_store)
+//{
+//
+//  const int n_load = n_store/2;
+//  const int base_idx = (blockIdx.x * TILE_SIZE);
+//
+//  T vals[NUM_PER_TH*2];
+//  unsigned char qvals[NUM_PER_TH];
+//
+//  int valid_items = (base_idx + TILE_SIZE) > n_load ? ((base_idx+TILE_SIZE) - n_load) : TILE_SIZE;
+//  int idx = base_idx + (threadIdx.x*NUM_PER_TH);
+//
+//  float local_abs_max = __ldg(&absmax[idx/BLOCK_SIZE]);
+//
+//  if(valid_items == TILE_SIZE)
+//  {
+//    // we do 64 byte loads so we can 128 byte stores
+//    reinterpret_cast<int2(&)[NUM_PER_THREAD/8]>(qvals)[0] = reinterpret_cast<int2*>(A)[idx/8];
+//  }
+//  else
+//  {
+//    #pragma unroll
+//    for(int j = 0; j < NUM_PER_TH; j++)
+//      if(idx+j < n_load)
+//        qvals[j] = A[idx+j];
+//      else
+//        qvals[j] = 0;
+//  }
+//
+//
+//  #pragma unroll NUM_PER_TH
+//  for(int j = 0; j < NUM_PER_TH; j++)
+//  {
+//    vals[j*2] = dDequantizeFP4(qvals[j] & 0xF0, local_abs_max*12.0f);
+//    vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*12.0f);
+//  }
+//
+//
+//  reinterpret_cast<int4(&)[NUM_PER_THREAD/8]>(qvals)[0] = reinterpret_cast<int4*>(A)[idx/8];
+//  reinterpret_cast<int4*>(A)[idx/16] = reinterpret_cast<int4(&)[16]>(local_valC)[j/num_items];
+//
+//
+//}
+
 
 __global__ void kDequantize(float *code, unsigned char *A, float *out, const int n)
 {
@@ -2523,7 +2674,6 @@ __global__ void kspmm_coo_very_sparse_naive(int *max_count, int *max_idx, int *o
           // 4. Multiply the tile -> accumulate outputs in shared memory until 128 bytes it reached
           int idx = idx_col_B + (warp_idx*SPMM_ITEMS) + j;
           if(idx >= colsB){ break; }
-          //printf("%i %i\n", (row_offset+idx) % num_items, row_offset+idx);
           if((idx+num_items < colsB))
           {
             if(BITS == 8)
@@ -2543,8 +2693,6 @@ __global__ void kspmm_coo_very_sparse_naive(int *max_count, int *max_idx, int *o
           #pragma unroll num_items
           for(int k = 0; k < num_items; k++)
           {
-            //if((float)local_valsB[k] != 0.0)
-            //  printf("%f %i %i %i\n", (float)local_valsB[k], k, idx, colsB);
             if(BITS == 8 && dequant_stats != NULL)
               // we do texture cache reads (__ldg) on dequant_stats which should be super fast
             {
@@ -2789,38 +2937,42 @@ MAKE_optimizerStatic8bit2State(ADAM, float)
 template __global__ void kPercentileClipping<float, 2048, 4>(float * __restrict__ g, float *gnorm_vec, int step, const int n);
 template __global__ void kPercentileClipping<half, 2048, 4>(half * __restrict__ g, float *gnorm_vec, int step, const int n);
 
-template __global__ void kQuantizeBlockwise<half, 4096, 4, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 4096, 4, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 4096, 4, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 4096, 4, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 2048, 4, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 2048, 4, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 1024, 4, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 1024, 4, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 512, 2, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 512, 2, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 256, 2, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 256, 2, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 128, 2, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 128, 2, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 64, 1, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 64, 1, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 4096, 4, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 4096, 4, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 4096, 4, 1, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 4096, 4, 1, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 2048, 4, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 2048, 4, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 1024, 4, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 1024, 4, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 512, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 512, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 256, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 256, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 128, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 128, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 64, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 64, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 
-template __global__ void kDequantizeBlockwise<half, 4096, 1024, 4>(float *code, unsigned char * A, float * absmax, half *out, const int n);
-template __global__ void kDequantizeBlockwise<float, 4096, 1024, 4>(float *code, unsigned char * A, float * absmax, float *out, const int n);
-template __global__ void kDequantizeBlockwise<half, 2048, 512, 4>(float *code, unsigned char * A, float * absmax, half *out, const int n);
-template __global__ void kDequantizeBlockwise<float, 2048, 512, 4>(float *code, unsigned char * A, float * absmax, float *out, const int n);
-template __global__ void kDequantizeBlockwise<half, 1024, 256, 4>(float *code, unsigned char * A, float * absmax, half *out, const int n);
-template __global__ void kDequantizeBlockwise<float, 1024, 256, 4>(float *code, unsigned char * A, float * absmax, float *out, const int n);
-template __global__ void kDequantizeBlockwise<half, 512, 256, 2>(float *code, unsigned char * A, float * absmax, half *out, const int n);
-template __global__ void kDequantizeBlockwise<float, 512, 256, 2>(float *code, unsigned char * A, float * absmax, float *out, const int n);
-template __global__ void kDequantizeBlockwise<half, 256, 128, 2>(float *code, unsigned char * A, float * absmax, half *out, const int n);
-template __global__ void kDequantizeBlockwise<float, 256, 128, 2>(float *code, unsigned char * A, float * absmax, float *out, const int n);
-template __global__ void kDequantizeBlockwise<half, 128, 64, 2>(float *code, unsigned char * A, float * absmax, half *out, const int n);
-template __global__ void kDequantizeBlockwise<float, 128, 64, 2>(float *code, unsigned char * A, float * absmax, float *out, const int n);
-template __global__ void kDequantizeBlockwise<half, 64, 64, 1>(float *code, unsigned char * A, float * absmax, half *out, const int n);
-template __global__ void kDequantizeBlockwise<float, 64, 64, 1>(float *code, unsigned char * A, float * absmax, float *out, const int n);
+template __global__ void kQuantizeBlockwise<half, 4096, 4, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 4096, 4, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 2048, 4, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 2048, 4, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 1024, 4, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 1024, 4, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 512, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 512, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 256, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 256, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 128, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 128, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 64, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 64, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 
+template __global__ void kDequantizeBlockwise<half, 512, 64, 8, 1>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<float, 512, 64, 8, 1>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<half, 512, 64, 8, 0>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<float, 512, 64, 8, 0>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
 
 
 #define MAKE_OptimizerStatic8bit2StateBlockwise(oname, gtype, block_size, num_per_thread) \
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index d90ea13..23aad6c 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -14,8 +14,8 @@ template<typename T>__global__ void kEstimateQuantiles(T *__restrict__ const A,
 __global__ void kQuantize(float * code, float * __restrict__ const A, unsigned char *out, const int n);
 __global__ void kDequantize(float *code, unsigned char *A, float *out, const int n);
 
-template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC> __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH> __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * absmax, T *out, const int n);
+template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC, int FP4> __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH, int FP4> __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * absmax, T *out, const int blocksize, const int n);
 
 template<typename T, int OPTIMIZER, int BLOCK_SIZE, int NUM_VALS>
 __global__ void kPreconditionOptimizer32bit2State(T* g, T* p,
diff --git a/csrc/ops.cu b/csrc/ops.cu
index e770e10..483d915 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -50,7 +50,7 @@ void dequantize(float *code, unsigned char *A, float *out, int n)
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
 
-template <typename T, int STOCHASTIC> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float *rand, int rand_offset, int blocksize, const int n)
+template <typename T, int STOCHASTIC, int FP4> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float *rand, int rand_offset, int blocksize, const int n)
 {
   int num_blocks = n/blocksize;
   num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
@@ -58,42 +58,34 @@ template <typename T, int STOCHASTIC> void quantizeBlockwise(float * code, T *A,
     assert(blocksize == 4096);
 
   if(blocksize == 4096)
-    kQuantizeBlockwise<T, 4096, 4, STOCHASTIC><<<num_blocks, 1024>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 4096, 4, STOCHASTIC, 0><<<num_blocks, 1024>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 2048)
-    kQuantizeBlockwise<T, 2048, 4, 0><<<num_blocks, 512>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 2048, 4, 0, FP4><<<num_blocks, 512>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 1024)
-    kQuantizeBlockwise<T, 1024, 4, 0><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 1024, 4, 0, FP4><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 512)
-    kQuantizeBlockwise<T, 512, 2, 0><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 512, 2, 0, FP4><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 256)
-    kQuantizeBlockwise<T, 256, 2, 0><<<num_blocks, 128>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 256, 2, 0, FP4><<<num_blocks, 128>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 128)
-    kQuantizeBlockwise<T, 128, 2, 0><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 128, 2, 0, FP4><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 64)
-    kQuantizeBlockwise<T, 64, 1, 0><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 64, 2, 0, FP4><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
 
 
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
 
-template<typename T> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int blocksize, const int n)
+template<typename T, int FP4> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int blocksize, const int n)
 {
   int num_blocks = n/blocksize;
   num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
-  if(blocksize == 4096)
-    kDequantizeBlockwise<T, 4096, 1024, 4><<<num_blocks, 4096/4>>>(code, A, absmax, out, n);
-  else if(blocksize == 2048)
-    kDequantizeBlockwise<T, 2048, 512, 4><<<num_blocks, 2048/4>>>(code, A, absmax, out, n);
-  else if(blocksize == 1024)
-    kDequantizeBlockwise<T, 1024, 256, 4><<<num_blocks, 1024/4>>>(code, A, absmax, out, n);
-  else if(blocksize == 512)
-    kDequantizeBlockwise<T, 512, 256, 2><<<num_blocks, 512/2>>>(code, A, absmax, out, n);
-  else if(blocksize == 256)
-    kDequantizeBlockwise<T, 256, 128, 2><<<num_blocks, 256/2>>>(code, A, absmax, out, n);
-  else if(blocksize == 128)
-    kDequantizeBlockwise<T, 128, 64, 2><<<num_blocks, 128/2>>>(code, A, absmax, out, n);
-  else if(blocksize == 64)
-    kDequantizeBlockwise<T, 64, 64, 1><<<num_blocks, 64/1>>>(code, A, absmax, out, n);
+  int tile_size = FP4 ? 1024 : 512;
+
+  if(FP4)
+    kDequantizeBlockwise<T, 512, 64, 8, FP4><<<(n+tile_size-1)/tile_size, 64>>>(code, A, absmax, out, blocksize/2, n);
+  else
+    kDequantizeBlockwise<T, 512, 64, 8, FP4><<<(n+tile_size-1)/tile_size, 64>>>(code, A, absmax, out, blocksize, n);
 
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
@@ -688,12 +680,16 @@ template void transformRowToFormat<COL_AMPERE, 1>(char * A, char *out, int rows,
 template void estimateQuantiles(half *A, float *code, float offset, int n);
 template void estimateQuantiles(float *A, float *code, float offset, int n);
 
-template void quantizeBlockwise<half, 0>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 0>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<half, 1>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 1>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void dequantizeBlockwise<half>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n);
-template void dequantizeBlockwise<float>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n);
+template void quantizeBlockwise<half, 0, 0>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<float, 0, 0>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<half, 0, 1>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<float, 0, 1>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<half, 1, 0>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<float, 1, 0>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void dequantizeBlockwise<half, 0>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n);
+template void dequantizeBlockwise<float, 0>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n);
+template void dequantizeBlockwise<half, 1>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n);
+template void dequantizeBlockwise<float, 1>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n);
 
 #define MAKE_optimizer32bit(name, gtype) \
 template void optimizer32bit<gtype, name>(gtype* g, gtype* p, \
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index 31d4dd8..b3e2424 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -128,8 +128,8 @@ template <typename T> void estimateQuantiles(T *A, float *code, float offset, in
 
 void quantize(float *code, float *A, unsigned char *out, int n);
 void dequantize(float *code, unsigned char *A, float *out, int n);
-template <typename T, int STOCHASTIC> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template<typename T> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int block_size, const int n);
+template <typename T, int STOCHASTIC, int FP4> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template<typename T, int FP4> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int block_size, const int n);
 
 template<typename T, int OPTIMIZER> void optimizer32bit(T* g, T* p,
                 float* state1, float* state2, float *unorm, float max_unorm, float param_norm,
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index d8b2290..6a4bb0d 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -75,13 +75,17 @@ MAKE_BLOCKWISE8(adagrad, ADAGRAD, float, 32)
 void percentileClipping_g32(float * g, float *gnorm_vec, int step, const int n){ percentileClipping<float>(g, gnorm_vec, step, n); }
 void percentileClipping_g16(half * g, float *gnorm_vec, int step, const int n){ percentileClipping<half>(g, gnorm_vec, step, n); }
 
-void quantizeBlockwise_fp16(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0>(code, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_fp32(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0>(code, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_stochastic_fp16(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<half, 1>(code, A, absmax, out, rand, rand_offset, 4096, n); }
-void quantizeBlockwise_stochastic_fp32(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<float, 1>(code, A, absmax, out, rand, rand_offset, 4096, n); }
+void quantizeBlockwise_fp16(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, 0>(code, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_fp32(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, 0>(code, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_stochastic_fp16(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<half, 1, 0>(code, A, absmax, out, rand, rand_offset, 4096, n); }
+void quantizeBlockwise_stochastic_fp32(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<float, 1, 0>(code, A, absmax, out, rand, rand_offset, 4096, n); }
+void quantizeBlockwise_fp16_fp4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, 1>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_fp32_fp4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, 1>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
 
-void dequantizeBlockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half>(code, A, absmax, out, blocksize, n); } \
-void dequantizeBlockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float>(code, A, absmax, out, blocksize, n); }
+void dequantizeBlockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half, 0>(code, A, absmax, out, blocksize, n); } \
+void dequantizeBlockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float, 0>(code, A, absmax, out, blocksize, n); }
+void dequantizeBlockwise_fp16_fp4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half, 1>(NULL, A, absmax, out, blocksize, n); } \
+void dequantizeBlockwise_fp32_fp4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float, 1>(NULL, A, absmax, out, blocksize, n); }
 
 #define MAKE_FUNC_TRANSFORM(fbits, fsrc, ftrgt, ftranspose, dtype, src, target, transpose, bits) \
 void transform_##fbits##_##fsrc##_to_##ftrgt##_##ftranspose(cublasLtHandle_t ltHandle, dtype *A, dtype *out, int dim1, int dim2) \
@@ -148,6 +152,11 @@ extern "C"
   void cdequantize_blockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise_fp16(code, A, absmax, out, blocksize, n); }
   void cdequantize_blockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise_fp32(code, A, absmax, out, blocksize, n); }
 
+  void cquantize_blockwise_fp16_fp4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp16_fp4(code, A, absmax, out, blocksize, n); }
+  void cquantize_blockwise_fp32_fp4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp32_fp4(code, A, absmax, out, blocksize, n); }
+  void cdequantize_blockwise_fp16_fp4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise_fp16_fp4(code, A, absmax, out, blocksize, n); }
+  void cdequantize_blockwise_fp32_fp4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise_fp32_fp4(code, A, absmax, out, blocksize, n); }
+
 	#define MAKE_CFUNC32(name, gtype, gbits) \
 	void c##name##32bit_g##gbits(gtype *g, gtype *p, \
 								 float* state1, float* state2, float *unorm, float max_unorm, float param_norm, \
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 69c200a..efdda54 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -152,7 +152,7 @@ def test_dynamic_quantization():
 
 def test_dynamic_blockwise_quantization():
     #print('')
-    for blocksize in [4096, 2048, 1024, 512]:
+    for blocksize in [4096, 2048, 1024, 512, 256, 128, 64]:
         diffs = []
         reldiffs = []
         for i in range(100):
@@ -2189,7 +2189,88 @@ def test_bench_dequantization():
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(100):
-        F.dequantize_blockwise(qa, SA, blocksize=2048)
+        #F.dequantize_blockwise(qa, SA, blocksize=2048)
+        qa, SA = F.quantize_blockwise(a)
     torch.cuda.synchronize()
     #print((time.time()-t0)/1e6)
 
+
+
+def test_fp4_quant():
+    vals = list(product([0, 1], repeat=4))
+
+    code = {}
+    for bits in vals:
+        result = 0
+        bias = 3
+        sign, e1, e2, p1 = bits
+        idx = sign*8 + e1*4 + e2*2 + p1*1
+        sign = -1.0 if sign else 1.0
+        exp = e1*2 + e2*1
+        if exp == 0:
+            # sub-normal
+            if p1 == 0: result = 0
+            else: result = sign*0.0625
+        else:
+            # normal
+            exp = 2**(-exp + bias + 1)
+            frac = 1.5 if p1 else 1.0
+            result = sign*exp*frac
+        code[idx] = result
+
+    A1 = torch.randn(1024, 1024, device='cuda').half()
+    qa, SA = F.quantize_fp4(A1, blocksize=64)
+    A2 = F.dequantize_fp4(qa, SA)
+    #qa, SA = F.quantize_fp4(A1, blocksize=128)
+    #A2 = F.dequantize_fp4(qa, SA, blocksize=128)
+
+    #A1 = A1.flatten().sort()[0]
+    #A2 = A2.flatten().sort()[0]
+
+    #print(A1)
+    #print(A2)
+
+    err = (A1 - A2).abs().float()
+    relerr = (err/A1.abs().float()).mean()
+    err = err.mean()
+
+    print(err, relerr)
+
+
+
+
+    #assert err.item() < 0.1
+    #assert relerr.item() < 0.28
+
+
+def test_bench_fp4_dequant():
+    blocksize = 256
+    a = torch.rand(1024*12*4, 1024*12, device='cuda').half()
+    qa, SA = F.quantize_fp4(a, blocksize=blocksize)
+
+    input_size = a.numel()/2
+    output_size = a.numel()*2
+    num_bytes = input_size+output_size
+    GB = num_bytes/1e9
+    max_theoretical_s =  GB/768
+    print(max_theoretical_s*1e6)
+    b = torch.randn(128, 1024*12, device='cuda').half()
+
+    iters = 5
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        F.dequantize_fp4(qa, SA, blocksize=blocksize)
+        #b.copy_(a)
+    torch.cuda.synchronize()
+    print((time.time()-t0)/iters*1e6)
+
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        torch.matmul(b, a.t())
+    torch.cuda.synchronize()
+    print((time.time()-t0)/iters*1e6)
+
+
+

From 160a83580d3e159d00fa3004c8b98a64d08fb732 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 4 Feb 2023 21:11:21 -0800
Subject: [PATCH 03/97] Forward matmul_fp4 tests pass.

---
 bitsandbytes/__init__.py            |   1 +
 bitsandbytes/autograd/_functions.py |  67 +++++++++++++++-
 bitsandbytes/functional.py          |  15 ++--
 bitsandbytes/nn/modules.py          |  62 +++++++++++++++
 tests/test_autograd.py              | 115 ++++++++++++++++++++++++++++
 tests/test_functional.py            |  17 +---
 6 files changed, 254 insertions(+), 23 deletions(-)

diff --git a/bitsandbytes/__init__.py b/bitsandbytes/__init__.py
index 041df4b..c83b7ff 100644
--- a/bitsandbytes/__init__.py
+++ b/bitsandbytes/__init__.py
@@ -10,6 +10,7 @@ from .autograd._functions import (
     matmul,
     matmul_cublas,
     mm_cublas,
+    matmul_fp4
 )
 from .cextension import COMPILED_WITH_CUDA
 from .nn import modules
diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index 376fb8a..a098d4b 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -2,7 +2,7 @@ import operator
 import warnings
 from dataclasses import dataclass
 from functools import reduce  # Required in Python 3
-from typing import Tuple, Optional
+from typing import Tuple, Optional, List
 
 import torch
 
@@ -474,6 +474,67 @@ class MatMul8bitLt(torch.autograd.Function):
         return grad_A, grad_B, None, grad_bias, None
 
 
+class MatMulFP4(torch.autograd.Function):
+    # forward is the same, but we added the fallback for pre-turing GPUs
+    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
+
+    @staticmethod
+    def forward(ctx, A, B, out=None, bias=None, state=None):
+        # default of pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+            ctx.bias = bias
+            B_shape = state[1]
+            if A.shape[-1] == B_shape[0]:
+                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
+
+
+        # 1. Dequantize
+        # 2. Matmul
+        output = torch.nn.functional.linear(A, F.dequantize_fp4(B, state).to(A.dtype), bias)
+
+        # 3. Save state
+        ctx.state = state
+        ctx.dtype_A, ctx.dtype_B, ctx.dtype_bias = A.dtype, B.dtype, None if bias is None else bias.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            ctx.tensors = A
+        else:
+            ctx.tensors = [None, None]
+            ctx.tensor_states = (None, None)
+            ctx.save_for_backward(None, None)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            bias_grad = None if ctx.bias is None else torch.zeros_like(ctx.bias)
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, bias_grad, None
+
+        req_gradA, req_gradB, _, req_gradBias, _ = ctx.needs_input_grad
+        A = ctx.tensors
+        state = ctx.state
+
+        if req_gradBias:
+            # compute grad_bias first before changing grad_output dtype
+            grad_bias = grad_output.sum(0, dtype=ctx.dtype_bias)
+
+        # Cast grad_output to fp16
+        if len(grad_output.shape) == 3:
+            grad_output = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+
+        if req_gradB: grad_B = torch.matmul(grad_output.t(), A)
+        if req_gradA: grad_A = torch.matmul(grad_output, F.dequantize_fp4(B, ctx.state).to(ctx.dtype_A))
+
+        return grad_A, grad_B, None, grad_bias, None
+
+
 def matmul(
     A: tensor,
     B: tensor,
@@ -486,3 +547,7 @@ def matmul(
     if threshold > 0.0:
         state.threshold = threshold
     return MatMul8bitLt.apply(A, B, out, bias, state)
+
+
+def matmul_fp4(A: tensor, B: tensor, out: tensor = None, quant_state: List = None, bias=None):
+    return MatMulFP4.apply(A, B, out, bias, quant_state)
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index da9e743..92ac670 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -626,7 +626,7 @@ def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize
     -------
     torch.Tensor:
         The 8-bit tensor with packed 4-bit values.
-    tuple(torch.Tensor, torch.Size, torch.dtype):
+    tuple(torch.Tensor, torch.Size, torch.dtype, int):
         The quantization state to undo the quantization.
     """
     if A.device.type != 'cuda':
@@ -640,10 +640,10 @@ def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize
         blocks += 1 if n % blocksize > 0 else 0
         absmax = torch.zeros((blocks,), device=A.device)
 
-    state = (absmax, input_shape, A.dtype)
+    state = (absmax, input_shape, A.dtype, blocksize)
 
     if out is None:
-        out = torch.zeros(((n+1)//2,), dtype=torch.uint8, device=A.device)
+        out = torch.zeros(((n+1)//2, 1), dtype=torch.uint8, device=A.device)
 
     assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64]
 
@@ -692,7 +692,7 @@ def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax:
         shape = out.shape
         dtype = out.dtype
     else:
-        absmax, shape, dtype = quant_state
+        absmax, shape, dtype, blocksize = quant_state
 
 
     if out is None:
@@ -700,6 +700,7 @@ def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax:
 
     n = out.numel()
 
+
     device = pre_call(A.device)
     is_on_gpu([A, absmax, out])
     if out.dtype == torch.float32:
@@ -710,9 +711,9 @@ def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax:
         raise ValueError(f"Blockwise quantization only supports 16/32-bit floats, but got {A.dtype}")
     post_call(A.device)
 
-    return out
-
-
+    is_transposed = (True if A.shape[0] == 1 else False)
+    if is_transposed: return out.t()
+    else: return out
 
 
 def quantize(A: Tensor, code: Tensor = None, out: Tensor = None) -> Tensor:
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 45df35e..6dfb06c 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -133,6 +133,67 @@ class Embedding(torch.nn.Embedding):
 
         return emb
 
+class FP4Params(torch.nn.Parameter):
+    def __new__(cls, data=None, requires_grad=True, quant_state=None):
+        cls.quant_state = None
+        if data is None:
+            data = torch.empty(0)
+        return torch.Tensor._make_subclass(cls, data, requires_grad)
+
+    def cuda(self, device):
+        w = self.data.contiguous().half().cuda(device)
+        w_fp4, quant_state = bnb.functional.quantize_fp4(w)
+        self.data = w_fp4
+        self.quant_state = quant_state
+
+        return self
+
+    @overload
+    def to(self: T, device: Optional[Union[int, device]] = ..., dtype: Optional[Union[dtype, str]] = ..., non_blocking: bool = ...,) -> T:
+        ...
+
+    @overload
+    def to(self: T, dtype: Union[dtype, str], non_blocking: bool = ...) -> T:
+        ...
+
+    @overload
+    def to(self: T, tensor: Tensor, non_blocking: bool = ...) -> T:
+        ...
+
+    def to(self, *args, **kwargs):
+        device, dtype, non_blocking, convert_to_format = torch._C._nn._parse_to(*args, **kwargs)
+
+        if (device is not None and device.type == "cuda" and self.data.device.type == "cpu"):
+            return self.cuda(device)
+        else:
+            new_param = FP4Params(super().to(device=device, dtype=dtype, non_blocking=non_blocking),
+                                  requires_grad=self.requires_grad, quant_state=self.quant_state)
+
+            return new_param
+
+
+class LinearFP4(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.state = bnb.MatmulLtState()
+        self.weight = FP4Params(self.weight.data, requires_grad=False)
+
+    def init_8bit_state(self):
+        pass
+
+    def forward(self, x: torch.Tensor):
+        self.state.is_training = self.training
+
+        # weights are cast automatically as Int8Params, but the bias has to be cast manually
+        if self.bias is not None and self.bias.dtype != x.dtype:
+            self.bias.data = self.bias.data.to(x.dtype)
+
+        if getattr(self.weight, 'state', None) is None:
+            print('FP4 state not initialized. Please call .cuda() or .to(device) on the LinearFP4 layer first.')
+        out = bnb.matmul_fp(x, self.weight, bias=self.bias, state=self.weight.state)
+
+        return out
+
 
 class Int8Params(torch.nn.Parameter):
     def __new__(
@@ -208,6 +269,7 @@ class Int8Params(torch.nn.Parameter):
             return new_param
 
 
+
 class Linear8bitLt(nn.Linear):
     def __init__(self, input_features, output_features, bias=True, has_fp16_weights=True,
                        memory_efficient_backward=False, threshold=0.0, index=None):
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index c67126d..ba75d76 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -429,3 +429,118 @@ def test_matmullt(
 
                 if req_grad[2]:
                     torch.testing.assert_allclose(gradBias1, gradBias2)
+
+
+n = 1
+k = 3
+dim1 = torch.randint(16, 64, size=(n,)).tolist()
+dim2 = torch.randint(32, 96, size=(n,)).tolist()
+dim3 = torch.randint(32, 96, size=(n,)).tolist()
+dim4 = torch.randint(32, 96, size=(n,)).tolist()
+
+dim2.append(0)
+
+funcs = [(torch.matmul, bnb.matmul_fp4)]
+str_funcs = ["matmul"]
+req_grad = list(product([True, False], repeat=3))
+req_grad_str = []
+for c in req_grad:
+    strval = ''
+    for v in c:
+        if v == True: strval += 'T'
+        else: strval += 'F'
+    req_grad_str.append(strval)
+
+transpose = [(False, True), (False, False)]
+str_transpose = ["NT", "NN"]
+dtype = [torch.float16, torch.float32]
+has_fp16_weights = [True, False]
+has_bias = [True, False]
+values = list(product(dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias))
+str_values = list(product(dim1, dim2, dim3, dim4, str_funcs, dtype, req_grad_str, str_transpose, has_bias))
+names = ["dim1_{}_dim2_{}_dim3_{}_dim4_{}_func_{}_dtype_{}_requires_grad_{}_transpose_{}_has_bias_{}".format(*vals) for vals in str_values]
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
+@pytest.mark.parametrize( "dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias", values, ids=names)
+def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias):
+    dimA = (dim2, dim3) if not transpose[0] else (dim3, dim2)
+    dimB = (dim3, dim4) if not transpose[1] else (dim4, dim3)
+    if has_bias == False:
+        req_grad = list(req_grad)
+        req_grad[2] = False
+
+    for i in range(k):
+        # normal multiply
+        if funcs[0] in [torch.mm, torch.matmul]:
+            A = torch.randn(size=dimA, device="cuda", requires_grad=req_grad[0], dtype=dtype)
+            B = torch.randn(size=dimB, device="cuda", requires_grad=req_grad[1], dtype=dtype)
+            target = torch.randn(size=(dim2, dim4), device="cuda", requires_grad=req_grad[1], dtype=dtype)
+            bias = None
+            bias2 = None
+            if has_bias:
+                bias = torch.randn(dim4, device='cuda', dtype=dtype, requires_grad=req_grad[2])
+                bias2 = bias.clone()
+            torch.nn.init.xavier_uniform_(B)
+            B2 = B.clone()
+
+            B2, quant_state = bnb.functional.quantize_fp4(B)
+
+            if not transpose[0] and transpose[1]:
+                out_torch = funcs[0](A, B.t())
+                out_bnb = funcs[1](A, B2, quant_state=quant_state, bias=bias2)
+            elif not transpose[0] and not transpose[1]:
+                out_torch = funcs[0](A, B)
+                out_bnb = funcs[1](A, B2.t(), quant_state=quant_state, bias=bias2)
+
+            if has_bias:
+                out_torch += bias
+
+            assert out_bnb.dtype == A.dtype, f"bnb matmullt received {A.dtype} but returned {out_bnb.dtype}"
+
+            n = out_bnb.numel()
+            err = torch.abs(out_bnb - out_torch).float().mean().item()
+            if n > 0:
+                assert err < 0.11
+
+            if any(req_grad):
+                out_bnb.data.copy_(out_torch)
+                torch.cuda.synchronize()
+                loss_bnb = torch.nn.functional.mse_loss(out_bnb, target).mean()
+                loss_bnb.backward()
+                gradA1 = A.grad
+                gradB1 = B.grad
+                A.grad = None
+                B.grad = None
+                if has_bias:
+                    gradBias1 = bias.grad
+                    bias.grad = None
+
+                loss_torch = torch.nn.functional.mse_loss( out_torch, target ).mean()
+                loss_torch.backward()
+                gradA2 = A.grad
+                gradB2 = B.grad
+                A.grad = None
+                B.grad = None
+                if has_bias:
+                    gradBias2 = bias.grad
+                    bias.grad = None
+
+                if req_grad[0]:
+                    torch.testing.assert_allclose( gradA1, gradA2, atol=0.015, rtol=0.1)
+                if req_grad[1]:
+                    n = gradB1.numel()
+                    if dim2 > 0:
+                        assert torch.abs(gradB1).sum() > 0.0
+                        assert torch.abs(gradB2).sum() > 0.0
+                    else:
+                        assert torch.abs(gradB1).sum() == 0.0
+                        assert torch.abs(gradB2).sum() == 0.0
+                    idx = torch.isclose(gradB1, gradB2, atol=0.06, rtol=0.3)
+
+                    assert (idx == 0).sum().item() <= n * 0.1
+                    idx = torch.isclose(gradB1, gradB2, atol=0.10, rtol=0.3)
+                    assert (idx == 0).sum().item() <= n * 0.02
+                    torch.testing.assert_allclose(gradB1, gradB2, atol=0.18, rtol=0.3
+                    )
+
+                if req_grad[2]:
+                    torch.testing.assert_allclose(gradBias1, gradBias2)
diff --git a/tests/test_functional.py b/tests/test_functional.py
index efdda54..e6b7b81 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2221,26 +2221,13 @@ def test_fp4_quant():
     A1 = torch.randn(1024, 1024, device='cuda').half()
     qa, SA = F.quantize_fp4(A1, blocksize=64)
     A2 = F.dequantize_fp4(qa, SA)
-    #qa, SA = F.quantize_fp4(A1, blocksize=128)
-    #A2 = F.dequantize_fp4(qa, SA, blocksize=128)
-
-    #A1 = A1.flatten().sort()[0]
-    #A2 = A2.flatten().sort()[0]
-
-    #print(A1)
-    #print(A2)
 
     err = (A1 - A2).abs().float()
     relerr = (err/A1.abs().float()).mean()
     err = err.mean()
 
-    print(err, relerr)
-
-
-
-
-    #assert err.item() < 0.1
-    #assert relerr.item() < 0.28
+    assert err.item() < 0.1
+    assert relerr.item() < 0.28
 
 
 def test_bench_fp4_dequant():

From 13c0a4dc5d4be33bf0461d8bcc24e982b17dcb11 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 4 Feb 2023 21:35:43 -0800
Subject: [PATCH 04/97] Backward matmul_fp4 passes.

---
 bitsandbytes/autograd/_functions.py | 15 ++++++++-------
 tests/test_autograd.py              | 16 ----------------
 2 files changed, 8 insertions(+), 23 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index a098d4b..29c0b93 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -503,11 +503,9 @@ class MatMulFP4(torch.autograd.Function):
         ctx.dtype_A, ctx.dtype_B, ctx.dtype_bias = A.dtype, B.dtype, None if bias is None else bias.dtype
 
         if any(ctx.needs_input_grad[:2]):
-            ctx.tensors = A
+            ctx.tensors = (A, B)
         else:
-            ctx.tensors = [None, None]
-            ctx.tensor_states = (None, None)
-            ctx.save_for_backward(None, None)
+            ctx.tensors = (None, None)
 
         return output
 
@@ -517,10 +515,12 @@ class MatMulFP4(torch.autograd.Function):
             bias_grad = None if ctx.bias is None else torch.zeros_like(ctx.bias)
             return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, bias_grad, None
 
-        req_gradA, req_gradB, _, req_gradBias, _ = ctx.needs_input_grad
-        A = ctx.tensors
+        req_gradA, _, _, req_gradBias, _= ctx.needs_input_grad
+        A, B = ctx.tensors
         state = ctx.state
 
+        grad_A, grad_B, grad_bias = None, None, None
+
         if req_gradBias:
             # compute grad_bias first before changing grad_output dtype
             grad_bias = grad_output.sum(0, dtype=ctx.dtype_bias)
@@ -529,7 +529,8 @@ class MatMulFP4(torch.autograd.Function):
         if len(grad_output.shape) == 3:
             grad_output = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
 
-        if req_gradB: grad_B = torch.matmul(grad_output.t(), A)
+        # not supported by PyTorch. TODO: create work-around
+        #if req_gradB: grad_B = torch.matmul(grad_output.t(), A)
         if req_gradA: grad_A = torch.matmul(grad_output, F.dequantize_fp4(B, ctx.state).to(ctx.dtype_A))
 
         return grad_A, grad_B, None, grad_bias, None
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index ba75d76..ccbcc87 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -480,7 +480,6 @@ def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
                 bias = torch.randn(dim4, device='cuda', dtype=dtype, requires_grad=req_grad[2])
                 bias2 = bias.clone()
             torch.nn.init.xavier_uniform_(B)
-            B2 = B.clone()
 
             B2, quant_state = bnb.functional.quantize_fp4(B)
 
@@ -526,21 +525,6 @@ def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
 
                 if req_grad[0]:
                     torch.testing.assert_allclose( gradA1, gradA2, atol=0.015, rtol=0.1)
-                if req_grad[1]:
-                    n = gradB1.numel()
-                    if dim2 > 0:
-                        assert torch.abs(gradB1).sum() > 0.0
-                        assert torch.abs(gradB2).sum() > 0.0
-                    else:
-                        assert torch.abs(gradB1).sum() == 0.0
-                        assert torch.abs(gradB2).sum() == 0.0
-                    idx = torch.isclose(gradB1, gradB2, atol=0.06, rtol=0.3)
-
-                    assert (idx == 0).sum().item() <= n * 0.1
-                    idx = torch.isclose(gradB1, gradB2, atol=0.10, rtol=0.3)
-                    assert (idx == 0).sum().item() <= n * 0.02
-                    torch.testing.assert_allclose(gradB1, gradB2, atol=0.18, rtol=0.3
-                    )
 
                 if req_grad[2]:
                     torch.testing.assert_allclose(gradBias1, gradBias2)

From cfe4705e321d884bae48ce785f29d4a0aff5518b Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 4 Feb 2023 22:00:04 -0800
Subject: [PATCH 05/97] Added matmul_fp4 to the benchmark.

---
 bitsandbytes/autograd/_functions.py |  5 +-
 bitsandbytes/functional.py          |  5 +-
 tests/test_autograd.py              |  6 +--
 tests/test_functional.py            | 84 +++++++++++++++++------------
 4 files changed, 56 insertions(+), 44 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index 29c0b93..01d1eb2 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -495,7 +495,7 @@ class MatMulFP4(torch.autograd.Function):
 
 
         # 1. Dequantize
-        # 2. Matmul
+        # 2. MatmulnN
         output = torch.nn.functional.linear(A, F.dequantize_fp4(B, state).to(A.dtype), bias)
 
         # 3. Save state
@@ -550,5 +550,6 @@ def matmul(
     return MatMul8bitLt.apply(A, B, out, bias, state)
 
 
-def matmul_fp4(A: tensor, B: tensor, out: tensor = None, quant_state: List = None, bias=None):
+def matmul_fp4(A: tensor, B: tensor, quant_state: List, out: tensor = None, bias=None):
+    assert quant_state is not None
     return MatMulFP4.apply(A, B, out, bias, quant_state)
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 92ac670..b38ba1d 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -169,7 +169,6 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
     lst = list(itertools.product([0, 1], repeat=precision_bits))
     #for ev in evalues:
     bias = 2**(exponent_bits-1)+1
-    print(bias)
     for evalue in range(2**(exponent_bits)):
         for bit_pattern in lst:
             value = (1 if evalue != 0 else 0)
@@ -180,9 +179,7 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
                 value = value*2**-(bias)
             else:
                 # normals
-                print(value, 1)
                 value = value*2**-(evalue-bias-1)
-                print(value, 2)
             values.append(value)
             if signed:
                 values.append(-value)
@@ -196,7 +193,7 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
             values.append(0)
     values.sort()
     code = torch.Tensor(values)
-    #code /= code.max()
+    code /= code.max()
 
     return code
 
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index ccbcc87..a8b9207 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -485,10 +485,10 @@ def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
 
             if not transpose[0] and transpose[1]:
                 out_torch = funcs[0](A, B.t())
-                out_bnb = funcs[1](A, B2, quant_state=quant_state, bias=bias2)
+                out_bnb = funcs[1](A, B2, quant_state, bias=bias2)
             elif not transpose[0] and not transpose[1]:
                 out_torch = funcs[0](A, B)
-                out_bnb = funcs[1](A, B2.t(), quant_state=quant_state, bias=bias2)
+                out_bnb = funcs[1](A, B2.t(), quant_state, bias=bias2)
 
             if has_bias:
                 out_torch += bias
@@ -498,7 +498,7 @@ def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
             n = out_bnb.numel()
             err = torch.abs(out_bnb - out_torch).float().mean().item()
             if n > 0:
-                assert err < 0.11
+                assert err < 0.115
 
             if any(req_grad):
                 out_bnb.data.copy_(out_torch)
diff --git a/tests/test_functional.py b/tests/test_functional.py
index e6b7b81..49022dc 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -1788,18 +1788,14 @@ batch_size = 1
 seqdim = 1
 values = []
 values.append((batch_size, seqdim, 768, 4 * 768))
-# values.append((batch_size, seqdim, 1024, 4*1024))
-# values.append((batch_size, seqdim, 1536, 4*1536))
-# values.append((batch_size, seqdim, 2048, 4*2048))
-# values.append((batch_size, seqdim, 2560, 4*2560))
-# values.append((batch_size, seqdim, 4096, 4*4096))
-# values.append((batch_size, seqdim, 5140, 4*5140))
+#values.append((batch_size, seqdim, 1024, 4*1024))
+#values.append((batch_size, seqdim, 1536, 4*1536))
+#values.append((batch_size, seqdim, 2048, 4*2048))
+#values.append((batch_size, seqdim, 2560, 4*2560))
+#values.append((batch_size, seqdim, 4096, 4*4096))
+#values.append((batch_size, seqdim, 5140, 4*5140))
 #values.append((batch_size, seqdim, 12288, 4*12288))
-names = [
-    "batch_{}_seq_{}_model_{}_hidden_{}".format(*vals) for vals in values
-]
-
-
+names = ["batch_{}_seq_{}_model_{}_hidden_{}".format(*vals) for vals in values]
 @pytest.mark.parametrize("batch, seq, model, hidden", values, ids=names)
 def test_bench_matmul(batch, seq, model, hidden):
     iters = 128
@@ -1809,17 +1805,20 @@ def test_bench_matmul(batch, seq, model, hidden):
     B = torch.empty(hidden, model, dtype=torch.float16, device="cuda")
     torch.nn.init.xavier_uniform_(B)
 
+    B_fp4, state = F.quantize_fp4(B)
+
     linear8bit = bnb.nn.Linear8bitLt(model, hidden, False).cuda().half()
     linear8bit.eval()
 
     outliers = torch.randint(0, model, size=(5,)).cuda()
     A[:, :, outliers] = 8.0
 
-    linearMixedBit = (
-        bnb.nn.Linear8bitLt(model, hidden, False, threshold=6.0).cuda().half()
-    )
+    linearMixedBit = (bnb.nn.Linear8bitLt(model, hidden, False, threshold=6.0).cuda().half())
     linearMixedBit.eval()
 
+    linear8bit_train = bnb.nn.Linear8bitLt(model, hidden, False).cuda().half()
+    linear8bit_train_thresh = bnb.nn.Linear8bitLt(model, hidden, False, threshold=6.0).cuda().half()
+
     # warmup
     for i in range(iters):
         torch.matmul(A, B.t())
@@ -1831,9 +1830,14 @@ def test_bench_matmul(batch, seq, model, hidden):
     for i in range(iters):
         torch.matmul(A, B.t())
     torch.cuda.synchronize()
-    print(
-        f"pytorch fp16: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s"
-    )
+    print( f"pytorch fp16: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
+
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        bnb.matmul_fp4(A, B_fp4, quant_state=state)
+    torch.cuda.synchronize()
+    print( f"bnb fp4: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
 
     torch.cuda.synchronize()
     t0 = time.time()
@@ -1872,7 +1876,7 @@ def test_bench_matmul(batch, seq, model, hidden):
         Cout, Sout = F.nvidia_transform(out32, "row", state=Sout32)
         F.vectorwise_mm_dequant(Cout, statsA, statsB.t())
     torch.cuda.synchronize()
-    #print(f"vector pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    print(f"vector pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
     BA, statsB = F.vectorwise_quant(B, dim=1, quant_type="linear")
     CxB, SB = F.nvidia_transform(CB, to_order=formatB)
@@ -1886,7 +1890,7 @@ def test_bench_matmul(batch, seq, model, hidden):
         Cout, Sout = F.nvidia_transform(out32, "row", state=Sout32)
         out = Cout * statsB * statsA * (1.0 / (127 * 127))
     torch.cuda.synchronize()
-    #print(f"linear pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    print(f"linear pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
     linear8bit(A)
     torch.cuda.synchronize()
@@ -1894,9 +1898,7 @@ def test_bench_matmul(batch, seq, model, hidden):
     for i in range(iters):
         linear8bit(A)
     torch.cuda.synchronize()
-    print(
-        f"bnb linear8bitlt: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s"
-    )
+    print( f"bnb linear8bitlt (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
     linearMixedBit(A)
     torch.cuda.synchronize()
@@ -1904,9 +1906,23 @@ def test_bench_matmul(batch, seq, model, hidden):
     for i in range(iters):
         linearMixedBit(A)
     torch.cuda.synchronize()
-    print(
-        f"bnb linear8bitlt with threshold: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s"
-    )
+    print( f"bnb linear8bitlt with threshold (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+
+    linear8bit_train(A)
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        linear8bit_train(A)
+    torch.cuda.synchronize()
+    print( f"bnb linear8bitlt (training): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+
+    linear8bit_train_thresh(A)
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        linear8bit_train(A)
+    torch.cuda.synchronize()
+    print( f"bnb linear8bitlt with threshold (training): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
 def test_zeropoint():
     def quant_zp(x):
@@ -2050,7 +2066,6 @@ def test_fp8_quant():
         p_bits = 7-e_bits
         code = F.create_fp8_map(True, e_bits, p_bits).cuda()
 
-        print(e_bits, p_bits)
         abserr = []
         relerr = []
         for i in range(100):
@@ -2189,7 +2204,6 @@ def test_bench_dequantization():
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(100):
-        #F.dequantize_blockwise(qa, SA, blocksize=2048)
         qa, SA = F.quantize_blockwise(a)
     torch.cuda.synchronize()
     #print((time.time()-t0)/1e6)
@@ -2240,7 +2254,7 @@ def test_bench_fp4_dequant():
     num_bytes = input_size+output_size
     GB = num_bytes/1e9
     max_theoretical_s =  GB/768
-    print(max_theoretical_s*1e6)
+    #print(max_theoretical_s*1e6)
     b = torch.randn(128, 1024*12, device='cuda').half()
 
     iters = 5
@@ -2250,14 +2264,14 @@ def test_bench_fp4_dequant():
         F.dequantize_fp4(qa, SA, blocksize=blocksize)
         #b.copy_(a)
     torch.cuda.synchronize()
-    print((time.time()-t0)/iters*1e6)
+    #print((time.time()-t0)/iters*1e6)
 
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        torch.matmul(b, a.t())
-    torch.cuda.synchronize()
-    print((time.time()-t0)/iters*1e6)
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    torch.matmul(b, a.t())
+    #torch.cuda.synchronize()
+    #print((time.time()-t0)/iters*1e6)
 
 
 

From c361f84239d52844ddae724e40c2c9a5d49284d5 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 5 Feb 2023 06:16:56 -0800
Subject: [PATCH 06/97] Fixed matmul_fp4 transpose.

---
 bitsandbytes/autograd/_functions.py | 4 ++--
 tests/test_autograd.py              | 4 ++--
 tests/test_functional.py            | 2 +-
 3 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index 01d1eb2..6db90f5 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -496,7 +496,7 @@ class MatMulFP4(torch.autograd.Function):
 
         # 1. Dequantize
         # 2. MatmulnN
-        output = torch.nn.functional.linear(A, F.dequantize_fp4(B, state).to(A.dtype), bias)
+        output = torch.nn.functional.linear(A, F.dequantize_fp4(B, state).to(A.dtype).t(), bias)
 
         # 3. Save state
         ctx.state = state
@@ -531,7 +531,7 @@ class MatMulFP4(torch.autograd.Function):
 
         # not supported by PyTorch. TODO: create work-around
         #if req_gradB: grad_B = torch.matmul(grad_output.t(), A)
-        if req_gradA: grad_A = torch.matmul(grad_output, F.dequantize_fp4(B, ctx.state).to(ctx.dtype_A))
+        if req_gradA: grad_A = torch.matmul(grad_output, F.dequantize_fp4(B, ctx.state).to(ctx.dtype_A).t())
 
         return grad_A, grad_B, None, grad_bias, None
 
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index a8b9207..436c6b1 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -485,10 +485,10 @@ def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
 
             if not transpose[0] and transpose[1]:
                 out_torch = funcs[0](A, B.t())
-                out_bnb = funcs[1](A, B2, quant_state, bias=bias2)
+                out_bnb = funcs[1](A, B2.t(), quant_state, bias=bias2)
             elif not transpose[0] and not transpose[1]:
                 out_torch = funcs[0](A, B)
-                out_bnb = funcs[1](A, B2.t(), quant_state, bias=bias2)
+                out_bnb = funcs[1](A, B2, quant_state, bias=bias2)
 
             if has_bias:
                 out_torch += bias
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 49022dc..23b7558 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -1835,7 +1835,7 @@ def test_bench_matmul(batch, seq, model, hidden):
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(iters):
-        bnb.matmul_fp4(A, B_fp4, quant_state=state)
+        bnb.matmul_fp4(A, B_fp4.t(), quant_state=state)
     torch.cuda.synchronize()
     print( f"bnb fp4: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
 

From c0c352b3791a5aab14263108595479b9db58fa1f Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 5 Feb 2023 06:29:52 -0800
Subject: [PATCH 07/97] Added bias test for LinearFP4 and basic test.

---
 bitsandbytes/nn/__init__.py |  2 +-
 bitsandbytes/nn/modules.py  |  6 +++---
 tests/test_modules.py       | 43 +++++++++++--------------------------
 3 files changed, 16 insertions(+), 35 deletions(-)

diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index edc595a..79fb51e 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, LinearFP4
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 6dfb06c..4c719c6 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -188,9 +188,9 @@ class LinearFP4(nn.Linear):
         if self.bias is not None and self.bias.dtype != x.dtype:
             self.bias.data = self.bias.data.to(x.dtype)
 
-        if getattr(self.weight, 'state', None) is None:
-            print('FP4 state not initialized. Please call .cuda() or .to(device) on the LinearFP4 layer first.')
-        out = bnb.matmul_fp(x, self.weight, bias=self.bias, state=self.weight.state)
+        if getattr(self.weight, 'quant_state', None) is None:
+            print('FP4 quantization state not initialized. Please call .cuda() or .to(device) on the LinearFP4 layer first.')
+        out = bnb.matmul_fp4(x, self.weight.t(), bias=self.bias, quant_state=self.weight.quant_state)
 
         return out
 
diff --git a/tests/test_modules.py b/tests/test_modules.py
index d78f0c9..ba67bfc 100644
--- a/tests/test_modules.py
+++ b/tests/test_modules.py
@@ -330,12 +330,8 @@ def test_linear8bitlt_inference(threshold):
 
 
 def test_linear8bitlt_accumulated_gradient():
-    l1 = torch.nn.Sequential(
-        *[bnb.nn.Linear8bitLt(32, 32).cuda().half() for i in range(2)]
-    )
-    l2 = torch.nn.Sequential(
-        *[torch.nn.Linear(32, 32).cuda().half() for i in range(2)]
-    )
+    l1 = torch.nn.Sequential(*[bnb.nn.Linear8bitLt(32, 32).cuda().half() for i in range(2)])
+    l2 = torch.nn.Sequential(*[torch.nn.Linear(32, 32).cuda().half() for i in range(2)])
     l2[0].weight = torch.nn.Parameter(l1[0].weight.clone())
     l2[0].bias = torch.nn.Parameter(l1[0].bias.clone())
     l2[1].weight = torch.nn.Parameter(l1[1].weight.clone())
@@ -376,21 +372,10 @@ def test_linear8bitlt_accumulated_gradient():
             torch.testing.assert_allclose(l1[1].weight.grad, l2[1].weight.grad)
 
 
-threshold = [0.0, 2.0]
-values = threshold
-names = [f"threshold_{vals}" for vals in values]
-
-
-@pytest.mark.parametrize("threshold", values, ids=names)
+@pytest.mark.parametrize("threshold", [0.0, 2.0])
 @pytest.mark.parametrize("memory_efficient_backward", [False])
 def test_linear8bitlt_no_fp16_weights(threshold, memory_efficient_backward):
-    l1 = (
-        bnb.nn.Linear8bitLt(
-            32, 64, threshold=threshold, has_fp16_weights=False, memory_efficient_backward=memory_efficient_backward
-        )
-        .cuda()
-        .half()
-    )
+    l1 = ( bnb.nn.Linear8bitLt( 32, 64, threshold=threshold, has_fp16_weights=False, memory_efficient_backward=memory_efficient_backward).cuda().half())
     assert l1.weight.dtype == torch.int8
 
     l1.eval()
@@ -446,13 +431,7 @@ def test_linear8bitlt_no_fp16_weights(threshold, memory_efficient_backward):
     assert mlp.fc1.weight.dtype == torch.int8
     assert mlp.fc2.weight.dtype == torch.int8
 
-    mlp = (
-        MLP8bit(
-            32, 64, threshold=threshold, has_fp16_weights=False, memory_efficient_backward=memory_efficient_backward
-        )
-        .half()
-        .to("cuda")
-    )
+    mlp = ( MLP8bit( 32, 64, threshold=threshold, has_fp16_weights=False, memory_efficient_backward=memory_efficient_backward).half().to("cuda"))
 
     for i in range(100):
         b1 = torch.randn(16, 8, 32, device="cuda").half()
@@ -504,10 +483,11 @@ def test_linear8bitlt_no_fp16_weights(threshold, memory_efficient_backward):
         assert (idx == 0).sum().item() <= b1.numel() * 0.005
 
 
-def test_linear8bitlt_fp32_bias():
+@pytest.mark.parametrize("module", [lambda nin, nout, bias=True: bnb.nn.Linear8bitLt(nin, nout, bias=bias, has_fp16_weights=False), bnb.nn.LinearFP4], ids=['Int8Lt', 'FP4'])
+def test_linear_kbit_fp32_bias(module):
     # casts model to fp16 -> int8 automatically
-    l1 = bnb.nn.Linear8bitLt(32, 64, has_fp16_weights=False).cuda()
-    assert l1.weight.dtype == torch.int8
+    l1 = module(32, 64).cuda()
+    assert l1.weight.dtype in [torch.int8, torch.uint8]
     assert l1.bias.dtype == torch.float32
 
     for i in range(100):
@@ -517,11 +497,12 @@ def test_linear8bitlt_fp32_bias():
         assert l1.bias.dtype == torch.float16
 
     # casts model to fp16 -> int8 automatically
-    l1 = bnb.nn.Linear8bitLt(32, 64, has_fp16_weights=False, bias=False).cuda()
-    assert l1.weight.dtype == torch.int8
+    l1 = module(32, 64, bias=False).cuda()
+    assert l1.weight.dtype in [torch.int8, torch.uint8]
     assert l1.bias is None
 
     for i in range(100):
         b1 = torch.randn(16, 8, 32, device="cuda").half()
         o1 = l1(b1)
         assert l1.bias is None
+

From 7f0773aede92a8be5bf0645185de4f5707b3a2a8 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 5 Feb 2023 06:49:54 -0800
Subject: [PATCH 08/97] Added backprop test for Linear8bitLt and LinearFP4.

---
 tests/test_modules.py | 40 +++++++++++++++++++++++++++++++++++++++-
 1 file changed, 39 insertions(+), 1 deletion(-)

diff --git a/tests/test_modules.py b/tests/test_modules.py
index ba67bfc..41cc050 100644
--- a/tests/test_modules.py
+++ b/tests/test_modules.py
@@ -375,7 +375,7 @@ def test_linear8bitlt_accumulated_gradient():
 @pytest.mark.parametrize("threshold", [0.0, 2.0])
 @pytest.mark.parametrize("memory_efficient_backward", [False])
 def test_linear8bitlt_no_fp16_weights(threshold, memory_efficient_backward):
-    l1 = ( bnb.nn.Linear8bitLt( 32, 64, threshold=threshold, has_fp16_weights=False, memory_efficient_backward=memory_efficient_backward).cuda().half())
+    l1 = (bnb.nn.Linear8bitLt( 32, 64, threshold=threshold, has_fp16_weights=False, memory_efficient_backward=memory_efficient_backward).cuda().half())
     assert l1.weight.dtype == torch.int8
 
     l1.eval()
@@ -506,3 +506,41 @@ def test_linear_kbit_fp32_bias(module):
         o1 = l1(b1)
         assert l1.bias is None
 
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
+@pytest.mark.parametrize("module", [bnb.nn.Linear8bitLt, bnb.nn.LinearFP4], ids=['Int8Lt', 'FP4'])
+def test_kbit_backprop(module):
+    b = 17
+    dim1 = 37
+    dim2 = 83
+
+    ref = nn.Sequential(*[torch.nn.Linear(dim1, dim2), torch.nn.Linear(dim2, 10)])
+    ref[1].weight.requires_grad = False
+    kbit = nn.Sequential(*[torch.nn.Linear(dim1, dim2), module(dim2, 10)])
+    kbit[0].weight.detach().copy_(ref[0].weight)
+    kbit[1].weight.detach().copy_(ref[1].weight)
+    kbit[0].bias.detach().copy_(ref[0].bias)
+    kbit[1].bias.detach().copy_(ref[1].bias)
+    ref = ref.half().cuda()
+    kbit = kbit.half().cuda()
+
+    for i in range(100):
+        batch = torch.randn(b, dim1).half().cuda()
+        out1 = ref(batch)
+        out2 = kbit(batch)
+        out1.mean().backward()
+        out2.mean().backward()
+
+        grad1 = ref[0].weight.grad
+        grad2 = kbit[0].weight.grad
+        bgrad1 = ref[0].bias.grad
+        bgrad2 = kbit[0].bias.grad
+
+        torch.testing.assert_allclose(grad1, grad2, atol=0.008, rtol=0.05)
+        torch.testing.assert_allclose(bgrad1, bgrad2, atol=0.008, rtol=0.05)
+        ref.zero_grad()
+        kbit.zero_grad()
+
+        assert kbit[0].weight.grad.sum().item() == 0
+        assert kbit[0].bias.grad.sum().item() == 0
+
+

From 6bdb6c351e49886d227ff63ed4fc0cc76d78a420 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <dettmers@cs.washington.edu>
Date: Mon, 13 Feb 2023 16:53:07 -0800
Subject: [PATCH 09/97] Added fp8 simulation layer.

---
 bitsandbytes/__init__.py            |   1 +
 bitsandbytes/autograd/_functions.py |  92 +++++++++++++++++++++++++
 bitsandbytes/nn/modules.py          |  16 +++++
 tests/test_autograd.py              | 100 ++++++++++++++++++++++++++++
 4 files changed, 209 insertions(+)

diff --git a/bitsandbytes/__init__.py b/bitsandbytes/__init__.py
index 041df4b..21cfbb0 100644
--- a/bitsandbytes/__init__.py
+++ b/bitsandbytes/__init__.py
@@ -10,6 +10,7 @@ from .autograd._functions import (
     matmul,
     matmul_cublas,
     mm_cublas,
+    matmul_fp8
 )
 from .cextension import COMPILED_WITH_CUDA
 from .nn import modules
diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index a115437..fc027f2 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -390,6 +390,98 @@ class MatMul8bitLt(torch.autograd.Function):
 
         return grad_A, grad_B, None, grad_bias, None
 
+class MatMulFP8(torch.autograd.Function):
+    # forward is the same, but we added the fallback for pre-turing GPUs
+    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
+
+    @staticmethod
+    def forward(ctx, A, B, out=None, bias=None, fw_code=None, bw_code=None):
+        # default of pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+            ctx.bias = bias
+            B_shape = state[1]
+            if A.shape[-1] == B_shape[0]:
+                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
+
+
+        # 1. Dequantize
+        # 2. MatmulnN
+
+        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=1024)
+        fp8A = F.dequantize_blockwise(cA, state)
+
+        cB, state = F.quantize_blockwise(B, code=fw_code, blocksize=1024)
+        fp8B = F.dequantize_blockwise(cB, state)
+
+        output = torch.nn.functional.linear(fp8A, fp8B)
+
+
+        # 3. Save state
+        ctx.bw_code = bw_code
+        ctx.dtype_A, ctx.dtype_B, ctx.dtype_bias = A.dtype, B.dtype, None if bias is None else bias.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            ctx.tensors = (fp8A, fp8B)
+        else:
+            ctx.tensors = (None, None)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            bias_grad = None if ctx.bias is None else torch.zeros_like(ctx.bias)
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, bias_grad, None
+
+        req_gradA, _, _, req_gradBias, _= ctx.needs_input_grad
+        fp8A, B = ctx.tensors
+        state = ctx.state
+
+        grad_A, grad_B, grad_bias = None, None, None
+
+        cgrad_out, state = F.quantize_blockwise(grad_ouput, code=ctx.bw_code, blocksize=1024)
+        fp8out = F.dequantize_blockwise(cgrad_out, state)
+
+        if req_gradBias:
+            # compute grad_bias first before changing grad_output dtype
+            grad_bias = fp8out.sum(0, dtype=ctx.dtype_bias)
+
+        # Cast grad_output to fp16
+        if len(grad_output.shape) == 3:
+            grad_output = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+
+        # not supported by PyTorch. TODO: create work-around
+        #if req_gradB: grad_B = torch.matmul(grad_output.t(), A)
+        if req_gradA: grad_A = torch.matmul(fp8out, B.t())
+        if req_gradB: grad_B = torch.matmul(fp8A.t(), fp8out)
+
+        return grad_A, grad_B, None, grad_bias, None, None
+
+
+def matmul(
+    A: tensor,
+    B: tensor,
+    out: tensor = None,
+    state: MatmulLtState = None,
+    threshold=0.0,
+    bias=None
+):
+    state = state or MatmulLtState()
+    if threshold > 0.0:
+        state.threshold = threshold
+    return MatMul8bitLt.apply(A, B, out, bias, state)
+
+
+def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bias=None):
+    assert quant_state is not None
+    return MatMulFP8.apply(A, B, out, bias, fw_code, bw_code)
+
 
 def matmul(
     A: tensor,
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 4746a4a..b1d5355 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -343,3 +343,19 @@ class Linear8bitLt(nn.Linear):
                 del self.state.CxB
 
         return out
+
+class LinearFP8(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.bw_code = None
+        self.fw_code = None
+
+    def forward(self, x: torch.Tensor):
+        if self.fw_code is None:
+            self.bw_code = F.create_fp8_map(True, 5, 2, 8).to(x.device)
+            self.fw_code = F.create_fp8_map(True, 4, 3, 8).to(x.device)
+
+        out = bnb.matmul_fp8(x, self.weight.t(), bias=self.bias, fw_code=self.fw_code, code=self.bw_code)
+
+        return out
+
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index c67126d..0def35d 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -429,3 +429,103 @@ def test_matmullt(
 
                 if req_grad[2]:
                     torch.testing.assert_allclose(gradBias1, gradBias2)
+
+
+
+n = 1
+k = 3
+dim1 = torch.randint(16, 64, size=(n,)).tolist()
+dim2 = torch.randint(32, 96, size=(n,)).tolist()
+dim3 = torch.randint(32, 96, size=(n,)).tolist()
+dim4 = torch.randint(32, 96, size=(n,)).tolist()
+
+dim2.append(0)
+
+funcs = [(torch.matmul, bnb.matmul_fp8)]
+str_funcs = ["matmul"]
+req_grad = list(product([True, False], repeat=3))
+req_grad_str = []
+for c in req_grad:
+    strval = ''
+    for v in c:
+        if v == True: strval += 'T'
+        else: strval += 'F'
+    req_grad_str.append(strval)
+
+transpose = [(False, True), (False, False)]
+str_transpose = ["NT", "NN"]
+dtype = [torch.float16, torch.float32]
+has_fp16_weights = [True, False]
+has_bias = [True, False]
+values = list(product(dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias))
+str_values = list(product(dim1, dim2, dim3, dim4, str_funcs, dtype, req_grad_str, str_transpose, has_bias))
+names = ["dim1_{}_dim2_{}_dim3_{}_dim4_{}_func_{}_dtype_{}_requires_grad_{}_transpose_{}_has_bias_{}".format(*vals) for vals in str_values]
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
+@pytest.mark.parametrize( "dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias", values, ids=names)
+def test_matmul_fp8( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias):
+    dimA = (dim2, dim3) if not transpose[0] else (dim3, dim2)
+    dimB = (dim3, dim4) if not transpose[1] else (dim4, dim3)
+    if has_bias == False:
+        req_grad = list(req_grad)
+        req_grad[2] = False
+
+    for i in range(k):
+        # normal multiply
+        if funcs[0] in [torch.mm, torch.matmul]:
+            A = torch.randn(size=dimA, device="cuda", requires_grad=req_grad[0], dtype=dtype)
+            B = torch.randn(size=dimB, device="cuda", requires_grad=req_grad[1], dtype=dtype)
+            target = torch.randn(size=(dim2, dim4), device="cuda", requires_grad=req_grad[1], dtype=dtype)
+            bias = None
+            bias2 = None
+            if has_bias:
+                bias = torch.randn(dim4, device='cuda', dtype=dtype, requires_grad=req_grad[2])
+                bias2 = bias.clone()
+            torch.nn.init.xavier_uniform_(B)
+
+            B2, quant_state = bnb.functional.quantize_fp8(B)
+
+            if not transpose[0] and transpose[1]:
+                out_torch = funcs[0](A, B.t())
+                out_bnb = funcs[1](A, B2.t(), quant_state, bias=bias2)
+            elif not transpose[0] and not transpose[1]:
+                out_torch = funcs[0](A, B)
+                out_bnb = funcs[1](A, B2, quant_state, bias=bias2)
+
+            if has_bias:
+                out_torch += bias
+
+            assert out_bnb.dtype == A.dtype, f"bnb matmullt received {A.dtype} but returned {out_bnb.dtype}"
+
+            n = out_bnb.numel()
+            err = torch.abs(out_bnb - out_torch).float().mean().item()
+            if n > 0:
+                assert err < 0.115
+
+            if any(req_grad):
+                out_bnb.data.copy_(out_torch)
+                torch.cuda.synchronize()
+                loss_bnb = torch.nn.functional.mse_loss(out_bnb, target).mean()
+                loss_bnb.backward()
+                gradA1 = A.grad
+                gradB1 = B.grad
+                A.grad = None
+                B.grad = None
+                if has_bias:
+                    gradBias1 = bias.grad
+                    bias.grad = None
+
+                loss_torch = torch.nn.functional.mse_loss( out_torch, target ).mean()
+                loss_torch.backward()
+                gradA2 = A.grad
+                gradB2 = B.grad
+                A.grad = None
+                B.grad = None
+                if has_bias:
+                    gradBias2 = bias.grad
+                    bias.grad = None
+
+                if req_grad[0]:
+                    torch.testing.assert_allclose( gradA1, gradA2, atol=0.015, rtol=0.1)
+
+                if req_grad[2]:
+                    torch.testing.assert_allclose(gradBias1, gradBias2)

From ca3236587ad285b8a43a96629516d3362045bb99 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 13 Feb 2023 17:20:52 -0800
Subject: [PATCH 10/97] Added forward/backward tests; removed bias.

---
 bitsandbytes/autograd/_functions.py | 36 +++++++----------
 bitsandbytes/nn/modules.py          |  4 +-
 tests/test_autograd.py              | 61 +++++++++++++++--------------
 3 files changed, 48 insertions(+), 53 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index fc027f2..c2b8773 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -395,15 +395,14 @@ class MatMulFP8(torch.autograd.Function):
     # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
 
     @staticmethod
-    def forward(ctx, A, B, out=None, bias=None, fw_code=None, bw_code=None):
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None):
         # default of pytorch behavior if inputs are empty
         ctx.is_empty = False
         if prod(A.shape) == 0:
             ctx.is_empty = True
             ctx.A = A
             ctx.B = B
-            ctx.bias = bias
-            B_shape = state[1]
+            B_shape = B.shape
             if A.shape[-1] == B_shape[0]:
                 return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
             else:
@@ -414,17 +413,17 @@ class MatMulFP8(torch.autograd.Function):
         # 2. MatmulnN
 
         cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=1024)
-        fp8A = F.dequantize_blockwise(cA, state)
+        fp8A = F.dequantize_blockwise(cA, state).to(A.dtype)
 
         cB, state = F.quantize_blockwise(B, code=fw_code, blocksize=1024)
-        fp8B = F.dequantize_blockwise(cB, state)
+        fp8B = F.dequantize_blockwise(cB, state).to(B.dtype)
 
-        output = torch.nn.functional.linear(fp8A, fp8B)
+        output = torch.matmul(fp8A, fp8B)
 
 
         # 3. Save state
         ctx.bw_code = bw_code
-        ctx.dtype_A, ctx.dtype_B, ctx.dtype_bias = A.dtype, B.dtype, None if bias is None else bias.dtype
+        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
 
         if any(ctx.needs_input_grad[:2]):
             ctx.tensors = (fp8A, fp8B)
@@ -436,21 +435,15 @@ class MatMulFP8(torch.autograd.Function):
     @staticmethod
     def backward(ctx, grad_output):
         if ctx.is_empty:
-            bias_grad = None if ctx.bias is None else torch.zeros_like(ctx.bias)
-            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, bias_grad, None
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None
 
-        req_gradA, _, _, req_gradBias, _= ctx.needs_input_grad
+        req_gradA, req_gradB, _, _, _ = ctx.needs_input_grad
         fp8A, B = ctx.tensors
-        state = ctx.state
 
-        grad_A, grad_B, grad_bias = None, None, None
+        grad_A, grad_B = None, None
 
-        cgrad_out, state = F.quantize_blockwise(grad_ouput, code=ctx.bw_code, blocksize=1024)
-        fp8out = F.dequantize_blockwise(cgrad_out, state)
-
-        if req_gradBias:
-            # compute grad_bias first before changing grad_output dtype
-            grad_bias = fp8out.sum(0, dtype=ctx.dtype_bias)
+        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=1024)
+        fp8out = F.dequantize_blockwise(cgrad_out, state).to(grad_output.dtype)
 
         # Cast grad_output to fp16
         if len(grad_output.shape) == 3:
@@ -461,7 +454,7 @@ class MatMulFP8(torch.autograd.Function):
         if req_gradA: grad_A = torch.matmul(fp8out, B.t())
         if req_gradB: grad_B = torch.matmul(fp8A.t(), fp8out)
 
-        return grad_A, grad_B, None, grad_bias, None, None
+        return grad_A, grad_B, None, None, None
 
 
 def matmul(
@@ -478,9 +471,8 @@ def matmul(
     return MatMul8bitLt.apply(A, B, out, bias, state)
 
 
-def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bias=None):
-    assert quant_state is not None
-    return MatMulFP8.apply(A, B, out, bias, fw_code, bw_code)
+def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None):
+    return MatMulFP8.apply(A, B, out, fw_code, bw_code)
 
 
 def matmul(
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index b1d5355..5e12ddb 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -355,7 +355,9 @@ class LinearFP8(nn.Linear):
             self.bw_code = F.create_fp8_map(True, 5, 2, 8).to(x.device)
             self.fw_code = F.create_fp8_map(True, 4, 3, 8).to(x.device)
 
-        out = bnb.matmul_fp8(x, self.weight.t(), bias=self.bias, fw_code=self.fw_code, code=self.bw_code)
+        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, code=self.bw_code)
+        if self.bias is not None:
+            out += self.bias
 
         return out
 
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index 0def35d..4d3e67a 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -456,18 +456,16 @@ transpose = [(False, True), (False, False)]
 str_transpose = ["NT", "NN"]
 dtype = [torch.float16, torch.float32]
 has_fp16_weights = [True, False]
-has_bias = [True, False]
-values = list(product(dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias))
-str_values = list(product(dim1, dim2, dim3, dim4, str_funcs, dtype, req_grad_str, str_transpose, has_bias))
-names = ["dim1_{}_dim2_{}_dim3_{}_dim4_{}_func_{}_dtype_{}_requires_grad_{}_transpose_{}_has_bias_{}".format(*vals) for vals in str_values]
+values = list(product(dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose))
+str_values = list(product(dim1, dim2, dim3, dim4, str_funcs, dtype, req_grad_str, str_transpose))
+names = ["dim1_{}_dim2_{}_dim3_{}_dim4_{}_func_{}_dtype_{}_requires_grad_{}_transpose_{}".format(*vals) for vals in str_values]
 @pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
-@pytest.mark.parametrize( "dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias", values, ids=names)
-def test_matmul_fp8( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias):
+@pytest.mark.parametrize( "dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose", values, ids=names)
+def test_matmul_fp8( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose):
     dimA = (dim2, dim3) if not transpose[0] else (dim3, dim2)
     dimB = (dim3, dim4) if not transpose[1] else (dim4, dim3)
-    if has_bias == False:
-        req_grad = list(req_grad)
-        req_grad[2] = False
+    req_grad = list(req_grad)
+    req_grad[2] = False
 
     for i in range(k):
         # normal multiply
@@ -475,32 +473,24 @@ def test_matmul_fp8( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
             A = torch.randn(size=dimA, device="cuda", requires_grad=req_grad[0], dtype=dtype)
             B = torch.randn(size=dimB, device="cuda", requires_grad=req_grad[1], dtype=dtype)
             target = torch.randn(size=(dim2, dim4), device="cuda", requires_grad=req_grad[1], dtype=dtype)
-            bias = None
-            bias2 = None
-            if has_bias:
-                bias = torch.randn(dim4, device='cuda', dtype=dtype, requires_grad=req_grad[2])
-                bias2 = bias.clone()
             torch.nn.init.xavier_uniform_(B)
 
-            B2, quant_state = bnb.functional.quantize_fp8(B)
+            fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(A.device)
+            bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(A.device)
 
             if not transpose[0] and transpose[1]:
                 out_torch = funcs[0](A, B.t())
-                out_bnb = funcs[1](A, B2.t(), quant_state, bias=bias2)
+                out_bnb = funcs[1](A, B.t(), fw_code, bw_code)
             elif not transpose[0] and not transpose[1]:
                 out_torch = funcs[0](A, B)
-                out_bnb = funcs[1](A, B2, quant_state, bias=bias2)
-
-            if has_bias:
-                out_torch += bias
+                out_bnb = funcs[1](A, B, fw_code, bw_code)
 
             assert out_bnb.dtype == A.dtype, f"bnb matmullt received {A.dtype} but returned {out_bnb.dtype}"
 
             n = out_bnb.numel()
             err = torch.abs(out_bnb - out_torch).float().mean().item()
             if n > 0:
-                assert err < 0.115
-
+                assert err < 0.20
             if any(req_grad):
                 out_bnb.data.copy_(out_torch)
                 torch.cuda.synchronize()
@@ -510,9 +500,6 @@ def test_matmul_fp8( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
                 gradB1 = B.grad
                 A.grad = None
                 B.grad = None
-                if has_bias:
-                    gradBias1 = bias.grad
-                    bias.grad = None
 
                 loss_torch = torch.nn.functional.mse_loss( out_torch, target ).mean()
                 loss_torch.backward()
@@ -520,12 +507,26 @@ def test_matmul_fp8( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
                 gradB2 = B.grad
                 A.grad = None
                 B.grad = None
-                if has_bias:
-                    gradBias2 = bias.grad
-                    bias.grad = None
 
                 if req_grad[0]:
                     torch.testing.assert_allclose( gradA1, gradA2, atol=0.015, rtol=0.1)
 
-                if req_grad[2]:
-                    torch.testing.assert_allclose(gradBias1, gradBias2)
+                if req_grad[1]:
+                    n = gradB1.numel()
+                    if dim2 > 0:
+                        assert torch.abs(gradB1).sum() > 0.0
+                        assert torch.abs(gradB2).sum() > 0.0
+                    else:
+                        assert torch.abs(gradB1).sum() == 0.0
+                        assert torch.abs(gradB2).sum() == 0.0
+                    idx = torch.isclose(gradB1, gradB2, atol=0.06, rtol=0.3)
+
+                    assert (idx == 0).sum().item() <= n * 0.1
+                    idx = torch.isclose(gradB1, gradB2, atol=0.10, rtol=0.3)
+                    assert (idx == 0).sum().item() <= n * 0.02
+                    grad_err = (gradB1-gradB2).abs().mean()
+                    assert grad_err.item() < 0.003
+                    torch.testing.assert_allclose(
+                        gradB1, gradB2, atol=0.18, rtol=0.3
+                    )
+

From fa255cbc5621538f25abe45a6d372b6d395dba7e Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 13 Feb 2023 17:29:39 -0800
Subject: [PATCH 11/97] Added missing import.

---
 bitsandbytes/nn/__init__.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 221b5f7..7c2b552 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8

From 2dfa3ce16dc52a240228d1d230d1e0af037ef748 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 13 Feb 2023 17:48:52 -0800
Subject: [PATCH 12/97] Fixed LinearFP8 and added tests.

---
 bitsandbytes/nn/modules.py |  6 +++---
 tests/test_modules.py      | 37 +++++++++++++++++++++++++++++++++++++
 2 files changed, 40 insertions(+), 3 deletions(-)

diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 5e12ddb..c8a3ecc 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -352,10 +352,10 @@ class LinearFP8(nn.Linear):
 
     def forward(self, x: torch.Tensor):
         if self.fw_code is None:
-            self.bw_code = F.create_fp8_map(True, 5, 2, 8).to(x.device)
-            self.fw_code = F.create_fp8_map(True, 4, 3, 8).to(x.device)
+            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
+            self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
 
-        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, code=self.bw_code)
+        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code)
         if self.bias is not None:
             out += self.bias
 
diff --git a/tests/test_modules.py b/tests/test_modules.py
index ffcf304..4fe8b54 100644
--- a/tests/test_modules.py
+++ b/tests/test_modules.py
@@ -525,3 +525,40 @@ def test_linear8bitlt_fp32_bias():
         b1 = torch.randn(16, 8, 32, device="cuda").half()
         o1 = l1(b1)
         assert l1.bias is None
+
+def test_fp8linear():
+
+    b = 10
+    h = 1024
+    inp = torch.randn(b, h).cuda()
+    fp32 = torch.nn.Linear(h, h*2).cuda()
+    fp8 = bnb.nn.LinearFP8(h, h*2).cuda()
+    fp32b = torch.nn.Linear(h*2, h).cuda()
+    fp8b = bnb.nn.LinearFP8(h*2, h).cuda()
+
+    fp8.weight.data.copy_(fp32.weight.data)
+    fp8.bias.data.copy_(fp32.bias.data)
+    fp8b.weight.data.copy_(fp32b.weight.data)
+    fp8b.bias.data.copy_(fp32b.bias.data)
+
+    a = fp32b(torch.nn.functional.gelu(fp32(inp)))
+    b = fp8b(torch.nn.functional.gelu(fp8(inp)))
+
+    err = (a-b).abs().mean()
+
+    a.mean().backward()
+    b.mean().backward()
+
+    graderr = (fp8.weight.grad-fp32.weight.grad).abs().mean()
+    bgraderr = (fp8.bias.grad-fp32.bias.grad).abs().mean()
+
+    assert err < 0.05
+    assert graderr < 0.00002
+    assert bgraderr < 0.00002
+
+
+
+
+
+
+

From c93a90d07595c143e87831228815d88a1e6d32e7 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 14 Feb 2023 13:31:39 -0800
Subject: [PATCH 13/97] Fixed FP4 import and data type conversion in backward.

---
 bitsandbytes/autograd/_functions.py | 6 +-----
 bitsandbytes/nn/__init__.py         | 2 +-
 2 files changed, 2 insertions(+), 6 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index 6db90f5..ffe19c5 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -525,13 +525,9 @@ class MatMulFP4(torch.autograd.Function):
             # compute grad_bias first before changing grad_output dtype
             grad_bias = grad_output.sum(0, dtype=ctx.dtype_bias)
 
-        # Cast grad_output to fp16
-        if len(grad_output.shape) == 3:
-            grad_output = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
-
         # not supported by PyTorch. TODO: create work-around
         #if req_gradB: grad_B = torch.matmul(grad_output.t(), A)
-        if req_gradA: grad_A = torch.matmul(grad_output, F.dequantize_fp4(B, ctx.state).to(ctx.dtype_A).t())
+        if req_gradA: grad_A = torch.matmul(grad_output, F.dequantize_fp4(B, ctx.state).to(grad_output.dtype).t())
 
         return grad_A, grad_B, None, grad_bias, None
 
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 79fb51e..954a67f 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, LinearFP4
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, LinearFP4, FP4Params

From 2489d819c5009e88a1572809a2f3306dace84051 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 14 Feb 2023 13:55:17 -0800
Subject: [PATCH 14/97] Added more blocksizes for stochastic rounding; fixed
 dequant blocksize.

---
 bitsandbytes/autograd/_functions.py |  6 +++---
 bitsandbytes/functional.py          |  5 ++---
 csrc/kernels.cu                     | 12 ++++++++++++
 csrc/ops.cu                         | 14 ++++++--------
 csrc/pythonInterface.c              |  8 ++++----
 tests/test_functional.py            | 16 ++++++++++------
 6 files changed, 37 insertions(+), 24 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index c2b8773..b8b2dbc 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -413,10 +413,10 @@ class MatMulFP8(torch.autograd.Function):
         # 2. MatmulnN
 
         cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=1024)
-        fp8A = F.dequantize_blockwise(cA, state).to(A.dtype)
+        fp8A = F.dequantize_blockwise(cA, state, blocksize=1024).to(A.dtype)
 
         cB, state = F.quantize_blockwise(B, code=fw_code, blocksize=1024)
-        fp8B = F.dequantize_blockwise(cB, state).to(B.dtype)
+        fp8B = F.dequantize_blockwise(cB, state, blocksize=1024).to(B.dtype)
 
         output = torch.matmul(fp8A, fp8B)
 
@@ -443,7 +443,7 @@ class MatMulFP8(torch.autograd.Function):
         grad_A, grad_B = None, None
 
         cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=1024)
-        fp8out = F.dequantize_blockwise(cgrad_out, state).to(grad_output.dtype)
+        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=1024).to(grad_output.dtype)
 
         # Cast grad_output to fp16
         if len(grad_output.shape) == 3:
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 371f85c..dbc2828 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -508,13 +508,12 @@ def quantize_blockwise(A: Tensor, code: Tensor = None, absmax: Tensor = None, ra
         code = code.to(A.device)
         if rand is not None:
             is_on_gpu([code, A, out, absmax, rand])
-            assert blocksize==4096
             assert rand.numel() >= 1024
             rand_offset = random.randint(0, 1023)
             if A.dtype == torch.float32:
-                lib.cquantize_blockwise_stochastic_fp32(get_ptr(code), get_ptr(A),get_ptr(absmax), get_ptr(out), get_ptr(rand), ct.c_int32(rand_offset), ct.c_int(A.numel()))
+                lib.cquantize_blockwise_stochastic_fp32(get_ptr(code), get_ptr(A),get_ptr(absmax), get_ptr(out), get_ptr(rand), ct.c_int32(rand_offset), cblocksize, ct.c_int(A.numel()))
             elif A.dtype == torch.float16:
-                lib.cquantize_blockwise_stochastic_fp16(get_ptr(code), get_ptr(A),get_ptr(absmax), get_ptr(out), get_ptr(rand), ct.c_int32(rand_offset), ct.c_int(A.numel()))
+                lib.cquantize_blockwise_stochastic_fp16(get_ptr(code), get_ptr(A),get_ptr(absmax), get_ptr(out), get_ptr(rand), ct.c_int32(rand_offset), cblocksize, ct.c_int(A.numel()))
             else:
                 raise ValueError(f"Blockwise quantization only supports 16/32-bit floats, but got {A.dtype}")
         else:
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index b32b39c..99224ad 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2797,16 +2797,28 @@ template __global__ void kQuantizeBlockwise<half, 4096, 4, 1>(float * code, half
 template __global__ void kQuantizeBlockwise<float, 4096, 4, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 2048, 4, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 2048, 4, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 2048, 4, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 2048, 4, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 1024, 4, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 1024, 4, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 1024, 4, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 1024, 4, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 512, 2, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 512, 2, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 512, 2, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 512, 2, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 256, 2, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 256, 2, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 256, 2, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 256, 2, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 128, 2, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 128, 2, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 128, 2, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 128, 2, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 64, 1, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 64, 1, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 64, 1, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 64, 1, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 
 template __global__ void kDequantizeBlockwise<half, 4096, 1024, 4>(float *code, unsigned char * A, float * absmax, half *out, const int n);
 template __global__ void kDequantizeBlockwise<float, 4096, 1024, 4>(float *code, unsigned char * A, float * absmax, float *out, const int n);
diff --git a/csrc/ops.cu b/csrc/ops.cu
index e770e10..9e01588 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -54,23 +54,21 @@ template <typename T, int STOCHASTIC> void quantizeBlockwise(float * code, T *A,
 {
   int num_blocks = n/blocksize;
   num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
-  if(STOCHASTIC == 1)
-    assert(blocksize == 4096);
 
   if(blocksize == 4096)
     kQuantizeBlockwise<T, 4096, 4, STOCHASTIC><<<num_blocks, 1024>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 2048)
-    kQuantizeBlockwise<T, 2048, 4, 0><<<num_blocks, 512>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 2048, 4, STOCHASTIC><<<num_blocks, 512>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 1024)
-    kQuantizeBlockwise<T, 1024, 4, 0><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 1024, 4, STOCHASTIC><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 512)
-    kQuantizeBlockwise<T, 512, 2, 0><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 512, 2, STOCHASTIC><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 256)
-    kQuantizeBlockwise<T, 256, 2, 0><<<num_blocks, 128>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 256, 2, STOCHASTIC><<<num_blocks, 128>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 128)
-    kQuantizeBlockwise<T, 128, 2, 0><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 128, 2, STOCHASTIC><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 64)
-    kQuantizeBlockwise<T, 64, 1, 0><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 64, 1, STOCHASTIC><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
 
 
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index d8b2290..d1055cd 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -77,8 +77,8 @@ void percentileClipping_g16(half * g, float *gnorm_vec, int step, const int n){
 
 void quantizeBlockwise_fp16(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0>(code, A, absmax, out, NULL, 0, blocksize, n); }
 void quantizeBlockwise_fp32(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0>(code, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_stochastic_fp16(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<half, 1>(code, A, absmax, out, rand, rand_offset, 4096, n); }
-void quantizeBlockwise_stochastic_fp32(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<float, 1>(code, A, absmax, out, rand, rand_offset, 4096, n); }
+void quantizeBlockwise_stochastic_fp16(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n){ quantizeBlockwise<half, 1>(code, A, absmax, out, rand, rand_offset, blocksize, n); }
+void quantizeBlockwise_stochastic_fp32(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n){ quantizeBlockwise<float, 1>(code, A, absmax, out, rand, rand_offset, blocksize, n); }
 
 void dequantizeBlockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half>(code, A, absmax, out, blocksize, n); } \
 void dequantizeBlockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float>(code, A, absmax, out, blocksize, n); }
@@ -142,8 +142,8 @@ extern "C"
 	void cdequantize(float *code, unsigned char *A, float *out, int n){ dequantize(code, A, out, n); }
   void cquantize_blockwise_fp16(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp16(code, A, absmax, out, blocksize, n); }
   void cquantize_blockwise_fp32(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp32(code, A, absmax, out, blocksize, n); }
-  void cquantize_blockwise_stochastic_fp16(float * code, half *A, float *absmax, unsigned char *out, float *rand, int rand_offset, const int n){ quantizeBlockwise_stochastic_fp16(code, A, absmax, out, rand, rand_offset, n); }
-  void cquantize_blockwise_stochastic_fp32(float * code, float *A, float *absmax, unsigned char *out, float *rand, int rand_offset, const int n){ quantizeBlockwise_stochastic_fp32(code, A, absmax, out, rand, rand_offset, n); }
+  void cquantize_blockwise_stochastic_fp16(float * code, half *A, float *absmax, unsigned char *out, float *rand, int rand_offset, int blocksize, const int n){ quantizeBlockwise_stochastic_fp16(code, A, absmax, out, rand, rand_offset, blocksize, n); }
+  void cquantize_blockwise_stochastic_fp32(float * code, float *A, float *absmax, unsigned char *out, float *rand, int rand_offset, int blocksize, const int n){ quantizeBlockwise_stochastic_fp32(code, A, absmax, out, rand, rand_offset, blocksize, n); }
 
   void cdequantize_blockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise_fp16(code, A, absmax, out, blocksize, n); }
   void cdequantize_blockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise_fp32(code, A, absmax, out, blocksize, n); }
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 70fa4d0..5a24aeb 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -188,21 +188,25 @@ def test_dynamic_blockwise_quantization():
         #print('rand', blocksize, sum(reldiffs)/len(reldiffs))
 
 
-def test_dynamic_blockwise_stochastic_quantization():
+
+@pytest.mark.parametrize("blocksize", [4096, 2048, 1024, 512, 256, 128, 64])
+def test_dynamic_blockwise_stochastic_quantization(blocksize):
     diffs = []
     reldiffs = []
     rand = torch.rand(1024).cuda()
+    err = 0
     for i in range(100):
         A1 = torch.randn(1024, 1024, device="cuda")
-        C1, S1 = F.quantize_blockwise(A1, rand=rand)
-        C2, S2 = F.quantize_blockwise(A1)
+        C1, S1 = F.quantize_blockwise(A1, rand=rand, blocksize=blocksize)
+        C2, S2 = F.quantize_blockwise(A1, blocksize=blocksize)
+        A2 = F.dequantize_blockwise(C1, S1, blocksize=blocksize)
+        err += (A1-A2).abs().mean().item()/100
         # a maximunm distance of quantized values of 1
         torch.testing.assert_allclose(C1, C2, atol=1, rtol=0)
         fraction_smaller = (C1 < C2).float().sum() / C1.numel()
         fraction_larger = (C1 > C2).float().sum() / C1.numel()
-        torch.testing.assert_allclose(
-            fraction_larger, fraction_smaller, atol=0.01, rtol=0
-        )
+        torch.testing.assert_allclose(fraction_larger, fraction_smaller, atol=0.01, rtol=0)
+    assert err < 0.019
 
 
 @pytest.mark.parametrize(

From 7b764d35698eb77f20768e3f62b0e53f3044fb5f Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-44-155.ec2.internal>
Date: Tue, 21 Feb 2023 03:53:44 +0000
Subject: [PATCH 15/97] adding half() cast

---
 bitsandbytes/autograd/_functions.py | 14 ++++---
 bitsandbytes/nn/__init__.py         |  2 +-
 bitsandbytes/nn/modules.py          | 59 +++++++++++++++++++++++++++--
 3 files changed, 66 insertions(+), 9 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index b8b2dbc..aa50b21 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -415,8 +415,8 @@ class MatMulFP8(torch.autograd.Function):
         cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=1024)
         fp8A = F.dequantize_blockwise(cA, state, blocksize=1024).to(A.dtype)
 
-        cB, state = F.quantize_blockwise(B, code=fw_code, blocksize=1024)
-        fp8B = F.dequantize_blockwise(cB, state, blocksize=1024).to(B.dtype)
+        cB, state = F.quantize(B.float(), code=fw_code)
+        fp8B = F.dequantize(cB, state).to(B.dtype)
 
         output = torch.matmul(fp8A, fp8B)
 
@@ -450,9 +450,13 @@ class MatMulFP8(torch.autograd.Function):
             grad_output = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
 
         # not supported by PyTorch. TODO: create work-around
-        #if req_gradB: grad_B = torch.matmul(grad_output.t(), A)
-        if req_gradA: grad_A = torch.matmul(fp8out, B.t())
-        if req_gradB: grad_B = torch.matmul(fp8A.t(), fp8out)
+        if req_gradA: grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(fp8A.dtype)
+        if req_gradB:
+            if fp8A.ndim == 3:
+                fp8At = fp8A.transpose(2, 1)
+            elif fp8A.ndim == 2:
+                fp8At = fp8A.t()
+            grad_B = torch.matmul(fp8At.to(fp8out.dtype), fp8out).to(B.dtype)
 
         return grad_A, grad_B, None, None, None
 
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 7c2b552..ae9eb8c 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index c8a3ecc..23f391a 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -326,10 +326,11 @@ class Linear8bitLt(nn.Linear):
             self.init_8bit_state()
 
         # weights are cast automatically as Int8Params, but the bias has to be cast manually
-        if self.bias is not None and self.bias.dtype != torch.float16:
-            self.bias.data = self.bias.data.half()
+        # if self.bias is not None and self.bias.dtype != torch.float16:
+        #     self.bias.data = self.bias.data.half()
 
-        out = bnb.matmul(x, self.weight, bias=self.bias, state=self.state)
+        #out = bnb.matmul(x.half(), self.weight.half(), bias=None, state=self.state) + self.bias
+        out = bnb.matmul(x.half(), self.weight.half(), bias=None, state=self.state) + self.bias
 
         if not self.state.has_fp16_weights:
             if not self.state.memory_efficient_backward and self.state.CB is not None:
@@ -344,6 +345,28 @@ class Linear8bitLt(nn.Linear):
 
         return out
 
+
+class Linear8bitLtThresh(Linear8bitLt):
+    def __init__(
+        self,
+        input_features,
+        output_features,
+        bias=True,
+        has_fp16_weights=True,
+        memory_efficient_backward=False,
+        threshold=6.0,
+        index=None,
+    ):
+        super().__init__(
+            input_features, 
+            output_features, 
+            bias=bias, 
+            has_fp16_weights=has_fp16_weights, 
+            memory_efficient_backward=memory_efficient_backward, 
+            threshold=threshold, 
+            index=index
+        )
+
 class LinearFP8(nn.Linear):
     def __init__(self, input_features, output_features, bias=True):
         super().__init__(input_features, output_features, bias)
@@ -361,3 +384,33 @@ class LinearFP8(nn.Linear):
 
         return out
 
+class LinearInt8(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.code = None
+
+    def forward(self, x: torch.Tensor):
+        if self.code is None:
+            self.code = bnb.functional.create_linear_map(True, 8).to(x.device)
+
+        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.code, bw_code=self.code)
+        if self.bias is not None:
+            out += self.bias
+
+        return out
+
+class LinearInt8Cast(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.code = None
+
+    def forward(self, x: torch.Tensor):
+        if self.code is None:
+            self.code = bnb.functional.create_linear_map(True, 8).to(x.device)
+
+        out = bnb.matmul_fp8(x.half(), self.weight.half().t(), fw_code=self.code, bw_code=self.code)
+        if self.bias is not None:
+            out += self.bias
+
+        return out
+

From 3fbf60ad83e845677e77c807b884393f25f40c8e Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-44-155.ec2.internal>
Date: Thu, 23 Feb 2023 08:27:15 +0000
Subject: [PATCH 16/97] sim now worse than real

---
 bitsandbytes/autograd/_functions.py | 55 ++++++++++--------
 bitsandbytes/nn/__init__.py         |  2 +-
 bitsandbytes/nn/modules.py          | 90 +++++++++++++++++++++++++++--
 3 files changed, 118 insertions(+), 29 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index aa50b21..6de595e 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -395,38 +395,41 @@ class MatMulFP8(torch.autograd.Function):
     # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
 
     @staticmethod
-    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None):
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024):
         # default of pytorch behavior if inputs are empty
         ctx.is_empty = False
         if prod(A.shape) == 0:
             ctx.is_empty = True
             ctx.A = A
             ctx.B = B
+
             B_shape = B.shape
             if A.shape[-1] == B_shape[0]:
                 return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
             else:
                 return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
 
-
         # 1. Dequantize
         # 2. MatmulnN
-
-        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=1024)
-        fp8A = F.dequantize_blockwise(cA, state, blocksize=1024).to(A.dtype)
+        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
+        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
 
         cB, state = F.quantize(B.float(), code=fw_code)
         fp8B = F.dequantize(cB, state).to(B.dtype)
 
         output = torch.matmul(fp8A, fp8B)
 
+        # output is half
 
         # 3. Save state
+        ctx.fw_code = fw_code
         ctx.bw_code = bw_code
+        ctx.bsz = bsz
         ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
 
         if any(ctx.needs_input_grad[:2]):
-            ctx.tensors = (fp8A, fp8B)
+            # NOTE: we send back A, and re-quant.
+            ctx.tensors = (A, fp8B)
         else:
             ctx.tensors = (None, None)
 
@@ -435,30 +438,36 @@ class MatMulFP8(torch.autograd.Function):
     @staticmethod
     def backward(ctx, grad_output):
         if ctx.is_empty:
-            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
 
-        req_gradA, req_gradB, _, _, _ = ctx.needs_input_grad
-        fp8A, B = ctx.tensors
+        req_gradA, req_gradB, _, _, _, _ = ctx.needs_input_grad
+        A, B = ctx.tensors
 
         grad_A, grad_B = None, None
 
-        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=1024)
-        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=1024).to(grad_output.dtype)
+        # TODO: Fix blocksize to be output_dim
+        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz)
+        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz).to(grad_output.dtype)
 
-        # Cast grad_output to fp16
-        if len(grad_output.shape) == 3:
-            grad_output = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+        cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
+        fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
+
+        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
+        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
+        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
 
         # not supported by PyTorch. TODO: create work-around
-        if req_gradA: grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(fp8A.dtype)
+        if req_gradA: 
+            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
+
         if req_gradB:
-            if fp8A.ndim == 3:
-                fp8At = fp8A.transpose(2, 1)
-            elif fp8A.ndim == 2:
-                fp8At = fp8A.t()
-            grad_B = torch.matmul(fp8At.to(fp8out.dtype), fp8out).to(B.dtype)
+            At = A.transpose(2, 1).contiguous()
+            cA, state = F.quantize(At.float(), code=ctx.fw_code)
+            fp8At = F.dequantize(cA, state).to(A.dtype)
+            grad_B = torch.matmul(fp8At.to(fp8out_2.dtype), fp8out_2).to(B.dtype)
 
-        return grad_A, grad_B, None, None, None
+        return grad_A, grad_B, None, None, None, None
 
 
 def matmul(
@@ -475,8 +484,8 @@ def matmul(
     return MatMul8bitLt.apply(A, B, out, bias, state)
 
 
-def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None):
-    return MatMulFP8.apply(A, B, out, fw_code, bw_code)
+def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1):
+    return MatMulFP8.apply(A, B, out, fw_code, bw_code, bsz)
 
 
 def matmul(
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index ae9eb8c..9c70642 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLt2
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 23f391a..5c0d0d4 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -346,6 +346,68 @@ class Linear8bitLt(nn.Linear):
         return out
 
 
+# Not in use for now...
+class Linear8bitLt2(nn.Linear):
+    def __init__(
+        self,
+        input_features,
+        output_features,
+        bias=True,
+        has_fp16_weights=True,
+        memory_efficient_backward=False,
+        threshold=0.0,
+        index=None,
+    ):
+        super().__init__(
+            input_features, output_features, bias
+        )
+        self.state = bnb.MatmulLtState()
+        self.index = index
+
+        self.state.threshold = threshold
+        self.state.has_fp16_weights = has_fp16_weights
+        self.state.memory_efficient_backward = memory_efficient_backward
+        if threshold > 0.0 and not has_fp16_weights:
+            self.state.use_pool = True
+
+        self.weight = Int8Params(
+            self.weight.data, has_fp16_weights=has_fp16_weights, requires_grad=has_fp16_weights
+        )
+
+    def init_8bit_state(self):
+        self.state.CB = self.weight.CB
+        self.state.SCB = self.weight.SCB
+        self.weight.CB = None
+        self.weight.SCB = None
+
+    def forward(self, x):
+        self.state.is_training = self.training
+
+        if self.weight.CB is not None:
+            self.init_8bit_state()
+
+        # weights are cast automatically as Int8Params, but the bias has to be cast manually
+        # if self.bias is not None and self.bias.dtype != torch.float16:
+        #     self.bias.data = self.bias.data.half()
+
+        #out = bnb.matmul(x.half(), self.weight.half(), bias=None, state=self.state) + self.bias
+        out = bnb.matmul(x, self.weight, bias=None, state=self.state) + self.bias
+        #out = torch.matmul(x.half(), W.half().t()) + self.bias
+
+        if not self.state.has_fp16_weights:
+            if not self.state.memory_efficient_backward and self.state.CB is not None:
+                # we converted 8-bit row major to turing/ampere format in the first inference pass
+                # we no longer need the row-major weight
+                del self.state.CB
+                self.weight.data = self.state.CxB
+            elif self.state.memory_efficient_backward and self.state.CxB is not None:
+                # For memory efficient backward, we convert 8-bit row major to turing/ampere format at each inference pass.
+                # Thus, we delete CxB from the state.
+                del self.state.CxB
+
+        return out
+
+
 class Linear8bitLtThresh(Linear8bitLt):
     def __init__(
         self,
@@ -363,7 +425,7 @@ class Linear8bitLtThresh(Linear8bitLt):
             bias=bias, 
             has_fp16_weights=has_fp16_weights, 
             memory_efficient_backward=memory_efficient_backward, 
-            threshold=threshold, 
+            threshold=6., 
             index=index
         )
 
@@ -372,13 +434,19 @@ class LinearFP8(nn.Linear):
         super().__init__(input_features, output_features, bias)
         self.bw_code = None
         self.fw_code = None
+        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+        for i, k in enumerate(array):
+            if input_features > array[i + 1]:
+                self.bsz = k
+                break
+        print('block size is', self.bsz)
 
     def forward(self, x: torch.Tensor):
         if self.fw_code is None:
             self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
             self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
 
-        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code)
+        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz)
         if self.bias is not None:
             out += self.bias
 
@@ -388,27 +456,39 @@ class LinearInt8(nn.Linear):
     def __init__(self, input_features, output_features, bias=True):
         super().__init__(input_features, output_features, bias)
         self.code = None
+        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+        for i, k in enumerate(array):
+            if input_features > array[i + 1]:
+                self.bsz = k
+                break
 
     def forward(self, x: torch.Tensor):
         if self.code is None:
             self.code = bnb.functional.create_linear_map(True, 8).to(x.device)
 
-        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.code, bw_code=self.code)
+        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.code, bw_code=self.code, bsz=self.bsz)
         if self.bias is not None:
             out += self.bias
 
         return out
 
+# This is 4 bit version.
 class LinearInt8Cast(nn.Linear):
     def __init__(self, input_features, output_features, bias=True):
         super().__init__(input_features, output_features, bias)
         self.code = None
+        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+        for i, k in enumerate(array):
+            if input_features > array[i + 1]:
+                self.bsz = k
+                break
+
 
     def forward(self, x: torch.Tensor):
         if self.code is None:
-            self.code = bnb.functional.create_linear_map(True, 8).to(x.device)
+            self.code = bnb.functional.create_linear_map(True, 4).to(x.device)
 
-        out = bnb.matmul_fp8(x.half(), self.weight.half().t(), fw_code=self.code, bw_code=self.code)
+        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.code, bw_code=self.code, bsz=self.bsz)
         if self.bias is not None:
             out += self.bias
 

From c5c38ca19c27fe4fbf0ebf2db77183c0ff5cfb01 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Thu, 23 Feb 2023 10:45:18 -0800
Subject: [PATCH 17/97] Added matmul_mixed.

---
 bitsandbytes/__init__.py            |   3 +-
 bitsandbytes/autograd/_functions.py | 188 +++++++++++++++++++++++++++-
 tests/test_autograd.py              |   2 +-
 3 files changed, 189 insertions(+), 4 deletions(-)

diff --git a/bitsandbytes/__init__.py b/bitsandbytes/__init__.py
index 21cfbb0..ddd9bf0 100644
--- a/bitsandbytes/__init__.py
+++ b/bitsandbytes/__init__.py
@@ -10,7 +10,8 @@ from .autograd._functions import (
     matmul,
     matmul_cublas,
     mm_cublas,
-    matmul_fp8
+    matmul_fp8,
+    matmul_mixed
 )
 from .cextension import COMPILED_WITH_CUDA
 from .nn import modules
diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index aa50b21..c68b18b 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -461,6 +461,190 @@ class MatMulFP8(torch.autograd.Function):
         return grad_A, grad_B, None, None, None
 
 
+class MatMul8bitMixed(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, A, B, out=None, bias=None, state=MatmulLtState()):
+        # default to pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+            ctx.bias = bias
+            if A.shape[-1] == B.shape[0]:
+                return torch.empty(A.shape[:-1]+B.shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1]+B.shape[:1], dtype=A.dtype, device=A.device)
+
+        # 1. Quantize A
+        # 2. Quantize B
+        # 3. Matmul
+        # 4. Mixed-precision decomposition matmul
+        # 5. Save state
+        formatB = state.formatB
+        input_shape = A.shape
+        if state.outlier_pool is None:
+            state.outlier_pool = GlobalOutlierPooler.get_instance()
+
+        # Cast A to fp16
+        if A.dtype != torch.float16:
+            warnings.warn(f"MatMul8bitLt: inputs will be cast from {A.dtype} to float16 during quantization")
+
+        # 1. Quantize A
+        if len(A.shape) == 3:
+            A = A.view(-1, A.shape[-1]).contiguous()
+        CA, CAt, SCA, SCAt, coo_tensorA = F.double_quant(
+            A.to(torch.float16), threshold=state.threshold
+        )
+
+        if state.threshold > 0.0 and coo_tensorA is not None:
+            if state.has_fp16_weights:
+                idx = torch.unique(coo_tensorA.colidx).long()
+                CA[:, idx] = 0
+                CAt[:, idx] = 0
+                subA = A[:, idx]
+                state.subB = B[:, idx].t().contiguous()
+                state.idx = idx
+            else:
+                if state.CxB is None:
+                    # B in in 8-bit row-major, we can transform it back to 16-bit to extract outlier dimensions
+                    # we also need to convert it to the turing/ampere format
+                    state.CxB, state.SB = F.transform(state.CB, to_order=formatB)
+        else:
+            if not state.has_fp16_weights and state.CxB is None:
+                state.CxB, state.SB = F.transform(state.CB, to_order=formatB)
+            subA = None
+
+        # 2. Quantize B
+        if state.has_fp16_weights:
+            has_grad = True if (getattr(B, "grad", None) is not None) else False
+            is_transposed = not B.is_contiguous() and B.shape[0] == B.stride(1)
+            if is_transposed:
+                B = B.contiguous()
+
+            if (state.is_training and not has_grad) or state.CxB is None:
+                state.reset_grads()
+                (
+                    CB,
+                    state.CBt,
+                    state.SCB,
+                    state.SCBt,
+                    coo_tensorB,
+                ) = F.double_quant(B.to(torch.float16))
+                state.CxB, state.SB = F.transform(CB, to_order=formatB)
+        else:
+            has_grad = False
+
+        if coo_tensorA is not None and not state.has_fp16_weights:
+            # extract outliers
+
+            outlier_idx = torch.unique(coo_tensorA.colidx)
+            state.idx = outlier_idx
+            # state.outlier_pool.add_outliers(outlier_idx, A.shape[-1])
+            # if state.use_pool and state.outlier_pool.model_dim == A.shape[-1]:
+            #    # do not use pool for 2nd FFN layer
+            #    state.idx = state.outlier_pool.get_current_outlier_idx().to(A.device)
+            # else:
+            #    state.idx = outlier_idx
+            outliers = F.extract_outliers(state.CxB, state.SB, state.idx.int())
+            state.subB = (
+                (outliers * state.SCB.view(-1, 1) / 127.0)
+                .t()
+                .contiguous()
+                .to(A.dtype)
+            )
+            CA[:, state.idx.long()] = 0
+            CAt[:, state.idx.long()] = 0
+            subA = A[:, state.idx.long()]
+
+        shapeB = state.SB[0]
+
+        if len(input_shape) == 3:
+            output_shape = (input_shape[0], input_shape[1], shapeB[0])
+        else:
+            output_shape = (input_shape[0], shapeB[0])
+
+        # 3. Matmul
+        C32A, SA = F.transform(CA, "col32")
+        out32, Sout32 = F.igemmlt(C32A, state.CxB, SA, state.SB)
+        # we apply the fused bias here
+
+        if bias is None or bias.dtype == torch.float16:
+            output = F.mm_dequant(out32, Sout32, SCA, state.SCB, bias=bias)
+            output = output.to(A.dtype)
+        else:  # apply bias separately
+            output = F.mm_dequant(out32, Sout32, SCA, state.SCB, bias=None)
+            output = output.to(A.dtype).add_(bias)
+
+        # 4. Mixed-precision decomposition matmul
+        if coo_tensorA is not None and subA is not None:
+            output += torch.matmul(subA, state.subB)
+
+        # 5. Save state
+        ctx.state = state
+
+        ctx.formatB = formatB
+        ctx.grad_shape = input_shape
+        ctx.dtype_A, ctx.dtype_B, ctx.dtype_bias = A.dtype, B.dtype, None if bias is None else bias.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            ctx.tensors = (CAt, subA, A)
+            ctx.tensor_states = (SCAt, state.idx)
+        else:
+            ctx.tensors = [None, None, None]
+            ctx.tensor_states = (None, None)
+            ctx.save_for_backward(None, None)
+
+
+        clone_func = torch.clone if len(output_shape) == 3 else lambda x : x
+        return clone_func(output.view(output_shape))
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            bias_grad = (None if ctx.bias is None else torch.zeros_like(ctx.bias))
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, bias_grad, None
+        req_gradA, req_gradB, _, req_gradBias, _ = ctx.needs_input_grad
+        CAt, subA, A = ctx.tensors
+        SCAt, idx = ctx.tensor_states
+        formatB = ctx.formatB
+        state = ctx.state
+        grad_A = grad_B = grad_bias = None
+
+        if req_gradBias:
+            # compute grad_bias first before changing grad_output dtype
+            grad_bias = grad_output.sum(0, dtype=ctx.dtype_bias)
+
+        # Cast grad_output to fp16
+        if len(grad_output.shape) == 3:
+            grad_output = grad_output.reshape(
+                -1, grad_output.shape[-1]
+            ).contiguous()
+
+        Cgrad, Cgradt, SCgrad, SCgradt, coo_tensor = F.double_quant(grad_output.to(torch.float16))
+
+        if req_gradB:
+            grad_B = torch.matmul(grad_output.t(), A)
+
+        if req_gradA:
+            if state.CBt is not None:
+                C32grad, Sgrad = F.transform(Cgrad, "col32")
+                if state.CxBt is None:
+                    state.CxBt, state.SBt = F.transform(
+                        state.CBt, to_order=formatB, transpose=True
+                    )
+                gradA32, SgradA32 = F.igemmlt(C32grad, state.CxBt, Sgrad, state.SBt)
+                grad_A = F.mm_dequant(gradA32, SgradA32, SCgrad, state.SCBt).view(ctx.grad_shape).to(ctx.dtype_A)
+
+            elif state.CB is not None:
+                CB = state.CB.to(ctx.dtype_A, copy=True).mul_(state.SCB.unsqueeze(1).mul(1. / 127.0))
+                grad_A = torch.matmul(grad_output, CB).view(ctx.grad_shape).to(ctx.dtype_A)
+            else:
+                raise Exception('State must contain either CBt or CB matrix for backward')
+
+        return grad_A, grad_B, None, grad_bias, None
+
+
 def matmul(
     A: tensor,
     B: tensor,
@@ -479,7 +663,7 @@ def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tens
     return MatMulFP8.apply(A, B, out, fw_code, bw_code)
 
 
-def matmul(
+def matmul_mixed(
     A: tensor,
     B: tensor,
     out: tensor = None,
@@ -490,4 +674,4 @@ def matmul(
     state = state or MatmulLtState()
     if threshold > 0.0:
         state.threshold = threshold
-    return MatMul8bitLt.apply(A, B, out, bias, state)
+    return MatMul8bitMixed.apply(A, B, out, bias, state)
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index 4d3e67a..d05b4a6 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -239,7 +239,7 @@ dim4 = torch.randint(32, 96, size=(n,)).tolist()
 dim2.append(0)
 
 decomp = [0.0, 6.0]
-funcs = [(torch.matmul, bnb.matmul)]
+funcs = [(torch.matmul, bnb.matmul_mixed)]
 str_funcs = ["matmul"]
 req_grad = [(False, False), (True, False), (True, True), (False, True)]
 req_grad = list(product([True, False], repeat=3))

From 75377d125e59f6ce183ff89b6231082aa70b492e Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-44-155.ec2.internal>
Date: Fri, 24 Feb 2023 00:10:15 +0000
Subject: [PATCH 18/97] new experiments

---
 bitsandbytes/nn/__init__.py |  2 +-
 bitsandbytes/nn/modules.py  | 59 +++++++++++++++++++++++++++++++++++++
 2 files changed, 60 insertions(+), 1 deletion(-)

diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 9c70642..5ec46b3 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLt2
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLt2, Linear8bitLtMixed
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 5c0d0d4..94c9aa2 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -407,6 +407,65 @@ class Linear8bitLt2(nn.Linear):
 
         return out
 
+class Linear8bitLtMixed(nn.Linear):
+    def __init__(
+        self,
+        input_features,
+        output_features,
+        bias=True,
+        has_fp16_weights=True,
+        memory_efficient_backward=False,
+        threshold=0.0,
+        index=None,
+    ):
+        super().__init__(
+            input_features, output_features, bias
+        )
+        self.state = bnb.MatmulLtState()
+        self.index = index
+
+        self.state.threshold = threshold
+        self.state.has_fp16_weights = has_fp16_weights
+        self.state.memory_efficient_backward = memory_efficient_backward
+        if threshold > 0.0 and not has_fp16_weights:
+            self.state.use_pool = True
+
+        self.weight = Int8Params(
+            self.weight.data, has_fp16_weights=has_fp16_weights, requires_grad=has_fp16_weights
+        )
+
+    def init_8bit_state(self):
+        self.state.CB = self.weight.CB
+        self.state.SCB = self.weight.SCB
+        self.weight.CB = None
+        self.weight.SCB = None
+
+    def forward(self, x):
+        self.state.is_training = self.training
+
+        if self.weight.CB is not None:
+            self.init_8bit_state()
+
+        # weights are cast automatically as Int8Params, but the bias has to be cast manually
+        # if self.bias is not None and self.bias.dtype != torch.float16:
+        #     self.bias.data = self.bias.data.half()
+
+        #out = bnb.matmul(x.half(), self.weight.half(), bias=None, state=self.state) + self.bias
+        out = bnb.matmul_mixed(x.half(), self.weight.half(), bias=None, state=self.state) + self.bias
+
+        if not self.state.has_fp16_weights:
+            if not self.state.memory_efficient_backward and self.state.CB is not None:
+                # we converted 8-bit row major to turing/ampere format in the first inference pass
+                # we no longer need the row-major weight
+                del self.state.CB
+                self.weight.data = self.state.CxB
+            elif self.state.memory_efficient_backward and self.state.CxB is not None:
+                # For memory efficient backward, we convert 8-bit row major to turing/ampere format at each inference pass.
+                # Thus, we delete CxB from the state.
+                del self.state.CxB
+
+        return out
+    
 
 class Linear8bitLtThresh(Linear8bitLt):
     def __init__(

From 9851a10b46d54bf1b2ae9b37d59f55f3d6580625 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 24 Feb 2023 10:17:57 -0800
Subject: [PATCH 19/97] Added cast to fp4 layer for speed.

---
 bitsandbytes/autograd/_functions.py | 7 ++++---
 bitsandbytes/nn/modules.py          | 6 +++++-
 2 files changed, 9 insertions(+), 4 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index ffe19c5..8070ff8 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -404,10 +404,10 @@ class MatMul8bitLt(torch.autograd.Function):
         ctx.dtype_A, ctx.dtype_B, ctx.dtype_bias = A.dtype, B.dtype, None if bias is None else bias.dtype
 
         if any(ctx.needs_input_grad[:2]):
-            ctx.tensors = (CAt, subA)
+            ctx.tensors = (CAt, subA, A)
             ctx.tensor_states = (SCAt, state.idx)
         else:
-            ctx.tensors = [None, None]
+            ctx.tensors = [None, None, A]
             ctx.tensor_states = (None, None)
             ctx.save_for_backward(None, None)
 
@@ -420,7 +420,7 @@ class MatMul8bitLt(torch.autograd.Function):
             bias_grad = None if ctx.bias is None else torch.zeros_like(ctx.bias)
             return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, bias_grad, None
         req_gradA, req_gradB, _, req_gradBias, _ = ctx.needs_input_grad
-        CAt, subA = ctx.tensors
+        CAt, subA, A = ctx.tensors
         SCAt, idx = ctx.tensor_states
         formatB = ctx.formatB
         state = ctx.state
@@ -436,6 +436,7 @@ class MatMul8bitLt(torch.autograd.Function):
 
         Cgrad, Cgradt, SCgrad, SCgradt, coo_tensor = F.double_quant(grad_output.to(torch.float16))
         if req_gradB:
+            #grad_B = torch.matmul(grad_output.t(), A)
             CxAt, SAt = F.transform(CAt, formatB, transpose=True)
             C32grad, Sgrad = F.transform(Cgradt, "col32", transpose=True)
             gradB32, SgradB32 = F.igemmlt(C32grad, CxAt, Sgrad, SAt)
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 4c719c6..ad3f4f7 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -190,7 +190,11 @@ class LinearFP4(nn.Linear):
 
         if getattr(self.weight, 'quant_state', None) is None:
             print('FP4 quantization state not initialized. Please call .cuda() or .to(device) on the LinearFP4 layer first.')
-        out = bnb.matmul_fp4(x, self.weight.t(), bias=self.bias, quant_state=self.weight.quant_state)
+
+        inp_dtype = x.dtype
+        x = x.to(torch.float16)
+        out = bnb.matmul_fp4(x, self.weight.t(), bias=self.bias.half(), quant_state=self.weight.quant_state)
+        out = out.to(inp_dtype)
 
         return out
 

From 6c31a5fe991169d1caad2426b1cee479af6afd13 Mon Sep 17 00:00:00 2001
From: Artidoro Pagnoni <pagnoni.artidoro@gmail.com>
Date: Mon, 27 Feb 2023 14:23:21 -0800
Subject: [PATCH 20/97] t5 model fix

---
 bitsandbytes/nn/modules.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index ad3f4f7..5d6d19c 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -190,10 +190,10 @@ class LinearFP4(nn.Linear):
 
         if getattr(self.weight, 'quant_state', None) is None:
             print('FP4 quantization state not initialized. Please call .cuda() or .to(device) on the LinearFP4 layer first.')
-
         inp_dtype = x.dtype
         x = x.to(torch.float16)
-        out = bnb.matmul_fp4(x, self.weight.t(), bias=self.bias.half(), quant_state=self.weight.quant_state)
+        bias = None if self.bias is None else self.bias.half()
+        out = bnb.matmul_fp4(x, self.weight.t(), bias=bias, quant_state=self.weight.quant_state)
         out = out.to(inp_dtype)
 
         return out

From 51f8bb713368ef00d48496ce76c0428e976236a9 Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-26-0-128-94.ec2.internal>
Date: Fri, 24 Mar 2023 05:44:42 +0000
Subject: [PATCH 21/97] pre-triton update

---
 bitsandbytes/__init__.py            |   5 +-
 bitsandbytes/autograd/_functions.py | 274 +++++++++++++++++++++++++++-
 bitsandbytes/nn/__init__.py         |   2 +-
 bitsandbytes/nn/modules.py          |  92 +++++++++-
 4 files changed, 360 insertions(+), 13 deletions(-)

diff --git a/bitsandbytes/__init__.py b/bitsandbytes/__init__.py
index ddd9bf0..5d80df9 100644
--- a/bitsandbytes/__init__.py
+++ b/bitsandbytes/__init__.py
@@ -11,7 +11,10 @@ from .autograd._functions import (
     matmul_cublas,
     mm_cublas,
     matmul_fp8,
-    matmul_mixed
+    matmul_mixed,
+    matmul_fp8_global,
+    matmul_fp4,
+    matmul_fp8_mixed,
 )
 from .cextension import COMPILED_WITH_CUDA
 from .nn import modules
diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index 2d30a86..b7da7b0 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -395,7 +395,7 @@ class MatMulFP8(torch.autograd.Function):
     # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
 
     @staticmethod
-    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024):
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
         # default of pytorch behavior if inputs are empty
         ctx.is_empty = False
         if prod(A.shape) == 0:
@@ -425,6 +425,7 @@ class MatMulFP8(torch.autograd.Function):
         ctx.fw_code = fw_code
         ctx.bw_code = bw_code
         ctx.bsz = bsz
+        ctx.bsz2 = bsz2
         ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
 
         if any(ctx.needs_input_grad[:2]):
@@ -440,14 +441,13 @@ class MatMulFP8(torch.autograd.Function):
         if ctx.is_empty:
             return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
 
-        req_gradA, req_gradB, _, _, _, _ = ctx.needs_input_grad
+        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
         A, B = ctx.tensors
 
         grad_A, grad_B = None, None
 
-        # TODO: Fix blocksize to be output_dim
-        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz)
-        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz).to(grad_output.dtype)
+        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
+        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
 
         cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
         fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
@@ -467,7 +467,249 @@ class MatMulFP8(torch.autograd.Function):
             fp8At = F.dequantize(cA, state).to(A.dtype)
             grad_B = torch.matmul(fp8At.to(fp8out_2.dtype), fp8out_2).to(B.dtype)
 
-        return grad_A, grad_B, None, None, None, None
+        return grad_A, grad_B, None, None, None, None, None
+    
+class MatMulFP8Mixed(torch.autograd.Function):
+    # forward is the same, but we added the fallback for pre-turing GPUs
+    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
+
+    @staticmethod
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
+        # default of pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+
+            B_shape = B.shape
+            if A.shape[-1] == B_shape[0]:
+                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
+
+        # 1. Dequantize
+        # 2. MatmulnN
+        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
+        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
+
+        cB, state = F.quantize(B.float(), code=fw_code)
+        fp8B = F.dequantize(cB, state).to(B.dtype)
+
+        output = torch.matmul(fp8A, fp8B)
+
+        # output is half
+
+        # 3. Save state
+        ctx.fw_code = fw_code
+        ctx.bw_code = bw_code
+        ctx.bsz = bsz
+        ctx.bsz2 = bsz2
+        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            # NOTE: we send back A, and re-quant.
+            ctx.tensors = (A, fp8B)
+        else:
+            ctx.tensors = (None, None)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
+
+        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
+        A, B = ctx.tensors
+
+        grad_A, grad_B = None, None
+
+        # TODO: Fix blocksize to be output_dim
+        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
+        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
+
+        # cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
+        # fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
+
+        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
+        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
+        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
+
+        # not supported by PyTorch. TODO: create work-around
+        if req_gradA: 
+            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
+
+        if req_gradB:
+            At = A.transpose(2, 1).contiguous()
+            # cA, state = F.quantize(At.float(), code=ctx.fw_code)
+            # fp8At = F.dequantize(cA, state).to(A.dtype)
+            grad_B = torch.matmul(At.to(grad_output.dtype), grad_output).to(B.dtype)
+
+        return grad_A, grad_B, None, None, None, None, None
+
+class MatMulFP4(torch.autograd.Function):
+    # forward is the same, but we added the fallback for pre-turing GPUs
+    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
+
+    @staticmethod
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
+        # default of pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+
+            B_shape = B.shape
+            if A.shape[-1] == B_shape[0]:
+                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
+
+        # 1. Dequantize
+        # 2. MatmulnN
+        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
+        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
+
+        cB, state = F.quantize(B.float(), code=fw_code)
+        fp8B = F.dequantize(cB, state).to(B.dtype)
+
+        output = torch.matmul(fp8A, fp8B)
+
+        # output is half
+
+        # 3. Save state
+        ctx.fw_code = fw_code
+        ctx.bw_code = bw_code
+        ctx.bsz = bsz
+        ctx.bsz2 = bsz2
+        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            # NOTE: we send back A, and re-quant.
+            ctx.tensors = (A, fp8B)
+        else:
+            ctx.tensors = (None, None)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
+
+        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
+        A, B = ctx.tensors
+
+        grad_A, grad_B = None, None
+
+        # TODO: Fix blocksize to be output_dim
+        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
+        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
+
+        cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
+        fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
+
+        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
+        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
+        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
+
+        # not supported by PyTorch. TODO: create work-around
+        if req_gradA: 
+            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
+
+        if req_gradB:
+            At = A.transpose(2, 1).contiguous()
+            cA, state = F.quantize(At.float(), code=ctx.bw_code)
+            fp8At = F.dequantize(cA, state).to(A.dtype)
+            grad_B = torch.matmul(fp8At.to(fp8out_2.dtype), fp8out_2).to(B.dtype)
+
+        return grad_A, grad_B, None, None, None, None, None
+
+
+
+class MatMulFP8Global(torch.autograd.Function):
+    # forward is the same, but we added the fallback for pre-turing GPUs
+    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
+
+    @staticmethod
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
+        # default of pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+
+            B_shape = B.shape
+            if A.shape[-1] == B_shape[0]:
+                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
+
+        # 1. Dequantize
+        # 2. MatmulnN
+        cA, state = F.quantize(A.float(), code=fw_code)
+        fp8A = F.dequantize(cA, state).to(A.dtype)
+
+        cB, state = F.quantize(B.float(), code=fw_code)
+        fp8B = F.dequantize(cB, state).to(B.dtype)
+
+        output = torch.matmul(fp8A, fp8B)
+
+        # output is half
+
+        # 3. Save state
+        ctx.fw_code = fw_code
+        ctx.bw_code = bw_code
+        ctx.bsz = bsz
+        ctx.bsz2 = bsz2
+        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            # NOTE: we send back A, and re-quant.
+            ctx.tensors = (A, fp8B)
+        else:
+            ctx.tensors = (None, None)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
+
+        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
+        A, B = ctx.tensors
+
+        grad_A, grad_B = None, None
+
+        # TODO: Fix blocksize to be output_dim
+        cgrad_out, state = F.quantize(grad_output.float(), code=ctx.bw_code)
+        fp8out = F.dequantize(cgrad_out, state).to(grad_output.dtype)
+
+        # cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
+        # fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
+
+        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
+        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
+        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
+
+        # not supported by PyTorch. TODO: create work-around
+        if req_gradA: 
+            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
+
+        if req_gradB:
+            At = A.transpose(2, 1).contiguous()
+            cA, state = F.quantize(At.float(), code=ctx.fw_code)
+            fp8At = F.dequantize(cA, state).to(A.dtype)
+            grad_B = torch.matmul(fp8At.to(fp8out.dtype), fp8out).to(B.dtype)
+
+        return grad_A, grad_B, None, None, None, None, None
 
 
 class MatMul8bitMixed(torch.autograd.Function):
@@ -520,12 +762,14 @@ class MatMul8bitMixed(torch.autograd.Function):
                     # we also need to convert it to the turing/ampere format
                     state.CxB, state.SB = F.transform(state.CB, to_order=formatB)
         else:
+            #print('A shape', A.shape)
             if not state.has_fp16_weights and state.CxB is None:
                 state.CxB, state.SB = F.transform(state.CB, to_order=formatB)
             subA = None
 
         # 2. Quantize B
         if state.has_fp16_weights:
+            #print('B shape', B.shape)
             has_grad = True if (getattr(B, "grad", None) is not None) else False
             is_transposed = not B.is_contiguous() and B.shape[0] == B.stride(1)
             if is_transposed:
@@ -633,6 +877,8 @@ class MatMul8bitMixed(torch.autograd.Function):
         Cgrad, Cgradt, SCgrad, SCgradt, coo_tensor = F.double_quant(grad_output.to(torch.float16))
 
         if req_gradB:
+            # print('back A shape', A.shape)
+            # print('grad output t shape', grad_output.t().shape)
             grad_B = torch.matmul(grad_output.t(), A)
 
         if req_gradA:
@@ -642,6 +888,8 @@ class MatMul8bitMixed(torch.autograd.Function):
                     state.CxBt, state.SBt = F.transform(
                         state.CBt, to_order=formatB, transpose=True
                     )
+                # print('back B shape', state.CxBt.shape)
+                # print('back grad shape', C32grad.shape)
                 gradA32, SgradA32 = F.igemmlt(C32grad, state.CxBt, Sgrad, state.SBt)
                 grad_A = F.mm_dequant(gradA32, SgradA32, SCgrad, state.SCBt).view(ctx.grad_shape).to(ctx.dtype_A)
 
@@ -668,8 +916,18 @@ def matmul(
     return MatMul8bitLt.apply(A, B, out, bias, state)
 
 
-def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1):
-    return MatMulFP8.apply(A, B, out, fw_code, bw_code, bsz)
+def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
+    return MatMulFP8.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
+
+def matmul_fp8_global(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
+    return MatMulFP8Global.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
+
+def matmul_fp8_mixed(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
+    return MatMulFP8Mixed.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
+
+
+def matmul_fp4(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
+    return MatMulFP4.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
 
 
 def matmul_mixed(
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 5ec46b3..8be7674 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLt2, Linear8bitLtMixed
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLt2, Linear8bitLtMixed, LinearFP8Global, LinearFP4, LinearFP8Mixed
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 94c9aa2..9cdcb4a 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -498,14 +498,69 @@ class LinearFP8(nn.Linear):
             if input_features > array[i + 1]:
                 self.bsz = k
                 break
-        print('block size is', self.bsz)
+        for i, k in enumerate(array):
+            if output_features > array[i + 1]:
+                self.bsz2 = k
+                break
 
     def forward(self, x: torch.Tensor):
         if self.fw_code is None:
             self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
             self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
 
-        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz)
+        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
+        if self.bias is not None:
+            out += self.bias
+
+        return out
+
+class LinearFP8Mixed(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.bw_code = None
+        self.fw_code = None
+        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+        for i, k in enumerate(array):
+            if input_features > array[i + 1]:
+                self.bsz = k
+                break
+        for i, k in enumerate(array):
+            if output_features > array[i + 1]:
+                self.bsz2 = k
+                break
+
+    def forward(self, x: torch.Tensor):
+        if self.fw_code is None:
+            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
+            self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
+
+        out = bnb.matmul_fp8_mixed(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
+        if self.bias is not None:
+            out += self.bias
+
+        return out
+
+class LinearFP8Global(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.bw_code = None
+        self.fw_code = None
+        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+        for i, k in enumerate(array):
+            if input_features > array[i + 1]:
+                self.bsz = k
+                break
+        for i, k in enumerate(array):
+            if output_features > array[i + 1]:
+                self.bsz2 = k
+                break
+
+    def forward(self, x: torch.Tensor):
+        if self.fw_code is None:
+            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
+            self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
+
+        out = bnb.matmul_fp8_global(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
         if self.bias is not None:
             out += self.bias
 
@@ -520,12 +575,16 @@ class LinearInt8(nn.Linear):
             if input_features > array[i + 1]:
                 self.bsz = k
                 break
+        for i, k in enumerate(array):
+            if output_features > array[i + 1]:
+                self.bsz2 = k
+                break
 
     def forward(self, x: torch.Tensor):
         if self.code is None:
             self.code = bnb.functional.create_linear_map(True, 8).to(x.device)
 
-        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.code, bw_code=self.code, bsz=self.bsz)
+        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.code, bw_code=self.code, bsz=self.bsz, bsz2=self.bsz2)
         if self.bias is not None:
             out += self.bias
 
@@ -553,3 +612,30 @@ class LinearInt8Cast(nn.Linear):
 
         return out
 
+
+class LinearFP4(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.bw_code = None
+        self.fw_code = None
+        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+        for i, k in enumerate(array):
+            if input_features > array[i + 1]:
+                self.bsz = k
+                break
+        for i, k in enumerate(array):
+            if output_features > array[i + 1]:
+                self.bsz2 = k
+                break
+
+    def forward(self, x: torch.Tensor):
+        if self.fw_code is None:
+            #self.bw_code = bnb.functional.create_fp8_map(True, 3, 0, 4).to(x.device)
+            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
+            self.fw_code = bnb.functional.create_fp8_map(True, 3, 0, 4).to(x.device)
+
+        out = bnb.matmul_fp4(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
+        if self.bias is not None:
+            out += self.bias
+
+        return out
\ No newline at end of file

From 69810521d37ed419452aac573f1c3b283290668c Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 27 Mar 2023 09:12:57 -0700
Subject: [PATCH 22/97] Some small changes.

---
 bitsandbytes/nn/modules.py |   8 +-
 bitsandbytes/utils.py      |  40 +++++++++
 csrc/kernels.cu            |   2 +
 csrc/ops.cu                |   2 +
 tests/test_functional.py   | 170 ++++++++++++++++++-------------------
 5 files changed, 135 insertions(+), 87 deletions(-)

diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 5d6d19c..a550ec1 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -173,10 +173,11 @@ class FP4Params(torch.nn.Parameter):
 
 
 class LinearFP4(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True):
+    def __init__(self, input_features, output_features, bias=True, compute_dtype=None):
         super().__init__(input_features, output_features, bias)
         self.state = bnb.MatmulLtState()
         self.weight = FP4Params(self.weight.data, requires_grad=False)
+        self.compute_dtype = compute_dtype
 
     def init_8bit_state(self):
         pass
@@ -191,9 +192,12 @@ class LinearFP4(nn.Linear):
         if getattr(self.weight, 'quant_state', None) is None:
             print('FP4 quantization state not initialized. Please call .cuda() or .to(device) on the LinearFP4 layer first.')
         inp_dtype = x.dtype
-        x = x.to(torch.float16)
+        if self.compute_dtype is not None:
+            x = x.to(self.compute_dtype)
+
         bias = None if self.bias is None else self.bias.half()
         out = bnb.matmul_fp4(x, self.weight.t(), bias=bias, quant_state=self.weight.quant_state)
+
         out = out.to(inp_dtype)
 
         return out
diff --git a/bitsandbytes/utils.py b/bitsandbytes/utils.py
index 1cd90e3..d6cc966 100644
--- a/bitsandbytes/utils.py
+++ b/bitsandbytes/utils.py
@@ -21,3 +21,43 @@ def execute_and_return(command_string: str) -> Tuple[str, str]:
 
     std_out, std_err = execute_and_return_decoded_std_streams(command_string)
     return std_out, std_err
+
+
+
+def replace_linear(model, linear_replacement, skip_modules=["lm_head"], copy_weights=False, post_processing_function=None):
+    """
+    Replace linear modules with a new Linear module.
+    Parameters:
+        model (`torch.nn.Module`):
+            Input model or `torch.nn.Module` as the function is run recursively.
+        linear_replacement (`torch.nn.Module`):
+            The linear module that replaces the old one. Only expects standard arguments.
+            If other arguments need to be passed, use a lambda.
+        skip_modules (`List[str]`, *optional*, defaults to `lm_head`):
+            List of modules names not to convert. Defaults to `lm_head`.
+        copy_weights (`bool`):
+            Copy the weights from the old linear module to the new one
+        post_processing_fun_name (`str`):
+            A function name of the replacement linear class that is called
+            after processing.
+    """
+    for name, module in model.named_children():
+        if len(list(module.children())) > 0:
+            replace_linear(module, linear_replacement, skip_modules, copy_weights, post_processing_function)
+
+        if isinstance(module, torch.nn.Linear) and name not in skip_modules:
+            old_module = model._modules[name]
+            model._modules[name] = linear_replacement(
+                module.in_features,
+                module.out_features,
+                module.bias is not None,
+            )
+            if copy_weights:
+                model._modules[name].weight = old_module.weight
+                model._modules[name].bias = old_module.bias
+
+            if post_processing_function is not None:
+               func = getattr(module, post_processing_function, None)
+               if func is not None: func(module)
+    return model
+
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index a1eec68..a2691be 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2968,6 +2968,8 @@ template __global__ void kQuantizeBlockwise<half, 128, 2, 0, 1>(float * code, ha
 template __global__ void kQuantizeBlockwise<float, 128, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 64, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 64, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+//template __global__ void kQuantizeBlockwise<half, 64, 1, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+//template __global__ void kQuantizeBlockwise<float, 64, 1, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 
 template __global__ void kDequantizeBlockwise<half, 512, 64, 8, 1>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
 template __global__ void kDequantizeBlockwise<float, 512, 64, 8, 1>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 483d915..07ef850 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -71,6 +71,8 @@ template <typename T, int STOCHASTIC, int FP4> void quantizeBlockwise(float * co
     kQuantizeBlockwise<T, 128, 2, 0, FP4><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 64)
     kQuantizeBlockwise<T, 64, 2, 0, FP4><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
+  //else if(blocksize == 32)
+    //kQuantizeBlockwise<T, 32, 1, 0, FP4><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
 
 
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 23b7558..54cecca 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -1784,17 +1784,17 @@ def test_spmm_coo_dequant(dim1, dim2, dtype):
     print("partial matmul", time.time() - t0)
 
 
-batch_size = 1
-seqdim = 1
+batch_size = 4
+seqdim = 256
 values = []
 values.append((batch_size, seqdim, 768, 4 * 768))
-#values.append((batch_size, seqdim, 1024, 4*1024))
-#values.append((batch_size, seqdim, 1536, 4*1536))
-#values.append((batch_size, seqdim, 2048, 4*2048))
-#values.append((batch_size, seqdim, 2560, 4*2560))
-#values.append((batch_size, seqdim, 4096, 4*4096))
-#values.append((batch_size, seqdim, 5140, 4*5140))
-#values.append((batch_size, seqdim, 12288, 4*12288))
+values.append((batch_size, seqdim, 1024, 4*1024))
+values.append((batch_size, seqdim, 1536, 4*1536))
+values.append((batch_size, seqdim, 2048, 4*2048))
+values.append((batch_size, seqdim, 2560, 4*2560))
+values.append((batch_size, seqdim, 4096, 4*4096))
+values.append((batch_size, seqdim, 5140, 4*5140))
+values.append((batch_size, seqdim, 12288, 4*12288))
 names = ["batch_{}_seq_{}_model_{}_hidden_{}".format(*vals) for vals in values]
 @pytest.mark.parametrize("batch, seq, model, hidden", values, ids=names)
 def test_bench_matmul(batch, seq, model, hidden):
@@ -1839,90 +1839,90 @@ def test_bench_matmul(batch, seq, model, hidden):
     torch.cuda.synchronize()
     print( f"bnb fp4: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
 
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        bnb.matmul(A, B)
-    torch.cuda.synchronize()
-    print(f"CB -> CxB conversion (each iteration): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    bnb.matmul(A, B)
+    #torch.cuda.synchronize()
+    #print(f"CB -> CxB conversion (each iteration): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        bnb.matmul(A, B, threshold=6.0)
-    torch.cuda.synchronize()
-    print(f"CB -> CxB conversion + threshold: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    bnb.matmul(A, B, threshold=6.0)
+    #torch.cuda.synchronize()
+    #print(f"CB -> CxB conversion + threshold: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    CA, CAt, SCA, SCAt, coo_tensorA = F.double_quant(A, threshold=0.0)
-    C32A, SA = F.transform(CA, "col32")
-    CB, CBt, SCB, SCBt, coo_tensorB = F.double_quant(B)
-    CxB, SB = F.transform(CB, to_order=formatB)
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        out32, Sout32 = F.igemmlt(C32A, CxB, SA, SB)
-    torch.cuda.synchronize()
-    print(f"no overhead matmul-lt: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #CA, CAt, SCA, SCAt, coo_tensorA = F.double_quant(A, threshold=0.0)
+    #C32A, SA = F.transform(CA, "col32")
+    #CB, CBt, SCB, SCBt, coo_tensorB = F.double_quant(B)
+    #CxB, SB = F.transform(CB, to_order=formatB)
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    out32, Sout32 = F.igemmlt(C32A, CxB, SA, SB)
+    #torch.cuda.synchronize()
+    #print(f"no overhead matmul-lt: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    BA, statsB = F.vectorwise_quant(B, dim=1)
-    CxB, SB = F.nvidia_transform(CB, to_order=formatB)
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        A2 = A.view(-1, A.shape[-1]).contiguous()
-        CA, statsA = F.vectorwise_quant(A2, dim=1)
-        C32A, SA = F.nvidia_transform(CA, "col32")
-        out32, Sout32 = F.igemmlt(C32A, CxB, SA, SB)
-        Cout, Sout = F.nvidia_transform(out32, "row", state=Sout32)
-        F.vectorwise_mm_dequant(Cout, statsA, statsB.t())
-    torch.cuda.synchronize()
-    print(f"vector pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #BA, statsB = F.vectorwise_quant(B, dim=1)
+    #CxB, SB = F.nvidia_transform(CB, to_order=formatB)
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    A2 = A.view(-1, A.shape[-1]).contiguous()
+    #    CA, statsA = F.vectorwise_quant(A2, dim=1)
+    #    C32A, SA = F.nvidia_transform(CA, "col32")
+    #    out32, Sout32 = F.igemmlt(C32A, CxB, SA, SB)
+    #    Cout, Sout = F.nvidia_transform(out32, "row", state=Sout32)
+    #    F.vectorwise_mm_dequant(Cout, statsA, statsB.t())
+    #torch.cuda.synchronize()
+    #print(f"vector pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    BA, statsB = F.vectorwise_quant(B, dim=1, quant_type="linear")
-    CxB, SB = F.nvidia_transform(CB, to_order=formatB)
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        A2 = A.view(-1, A.shape[-1]).contiguous()
-        CA, statsA = F.vectorwise_quant(A2, dim=1, quant_type="linear")
-        C32A, SA = F.nvidia_transform(CA, "col32")
-        out32, Sout32 = F.igemmlt(C32A, CxB, SA, SB)
-        Cout, Sout = F.nvidia_transform(out32, "row", state=Sout32)
-        out = Cout * statsB * statsA * (1.0 / (127 * 127))
-    torch.cuda.synchronize()
-    print(f"linear pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #BA, statsB = F.vectorwise_quant(B, dim=1, quant_type="linear")
+    #CxB, SB = F.nvidia_transform(CB, to_order=formatB)
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    A2 = A.view(-1, A.shape[-1]).contiguous()
+    #    CA, statsA = F.vectorwise_quant(A2, dim=1, quant_type="linear")
+    #    C32A, SA = F.nvidia_transform(CA, "col32")
+    #    out32, Sout32 = F.igemmlt(C32A, CxB, SA, SB)
+    #    Cout, Sout = F.nvidia_transform(out32, "row", state=Sout32)
+    #    out = Cout * statsB * statsA * (1.0 / (127 * 127))
+    #torch.cuda.synchronize()
+    #print(f"linear pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    linear8bit(A)
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        linear8bit(A)
-    torch.cuda.synchronize()
-    print( f"bnb linear8bitlt (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #linear8bit(A)
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    linear8bit(A)
+    #torch.cuda.synchronize()
+    #print( f"bnb linear8bitlt (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    linearMixedBit(A)
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        linearMixedBit(A)
-    torch.cuda.synchronize()
-    print( f"bnb linear8bitlt with threshold (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #linearMixedBit(A)
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    linearMixedBit(A)
+    #torch.cuda.synchronize()
+    #print( f"bnb linear8bitlt with threshold (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    linear8bit_train(A)
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        linear8bit_train(A)
-    torch.cuda.synchronize()
-    print( f"bnb linear8bitlt (training): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #linear8bit_train(A)
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    linear8bit_train(A)
+    #torch.cuda.synchronize()
+    #print( f"bnb linear8bitlt (training): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    linear8bit_train_thresh(A)
-    torch.cuda.synchronize()
-    t0 = time.time()
-    for i in range(iters):
-        linear8bit_train(A)
-    torch.cuda.synchronize()
-    print( f"bnb linear8bitlt with threshold (training): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    #linear8bit_train_thresh(A)
+    #torch.cuda.synchronize()
+    #t0 = time.time()
+    #for i in range(iters):
+    #    linear8bit_train(A)
+    #torch.cuda.synchronize()
+    #print( f"bnb linear8bitlt with threshold (training): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
 def test_zeropoint():
     def quant_zp(x):

From 5f3d9ada8dabbd9a449f134141f14546f9ce911e Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-47-23.ec2.internal>
Date: Wed, 29 Mar 2023 06:47:08 +0000
Subject: [PATCH 23/97] triton-v1

---
 bitsandbytes/nn/__init__.py                   |   1 +
 bitsandbytes/nn/triton_based_modules.py       | 247 ++++++++++++
 bitsandbytes/nn/triton_utils/v0/__init__.py   |   0
 .../nn/triton_utils/v0/fused_gelu_quantize.py | 190 +++++++++
 .../v0/int8_matmul_mixed_dequanitze.py        | 276 +++++++++++++
 .../v0/int8_matmul_rowwise_dequantize.py      | 149 +++++++
 .../v0/int8_matmul_rowwise_dequantize_bias.py | 160 ++++++++
 .../quantize_columnwise_nogroup_transpose.py  | 122 ++++++
 .../nn/triton_utils/v0/quantize_global.py     | 130 +++++++
 .../v0/quantize_rowwise_nogroup.py            | 174 +++++++++
 tests/triton_tests/attn_decomp.py             | 363 ++++++++++++++++++
 tests/triton_tests/attn_info_ln.jsonl         |  20 +
 tests/triton_tests/full_matrix_decomp.py      | 353 +++++++++++++++++
 tests/triton_tests/info.jsonl                 | 142 +++++++
 tests/triton_tests/info_mlp.jsonl             |  20 +
 tests/triton_tests/info_mlp_autocast.jsonl    |  20 +
 tests/triton_tests/info_mlp_autocast_ln.jsonl |  23 ++
 tests/triton_tests/make_plot_with_info.py     | 137 +++++++
 tests/triton_tests/mlp.py                     |  64 +++
 tests/triton_tests/mlp_decomp_autocast.py     | 166 ++++++++
 tests/triton_tests/mlp_decomp_autocast_ln.py  | 165 ++++++++
 tests/triton_tests/plot1.pdf                  | Bin 0 -> 34302 bytes
 tests/triton_tests/plot1.png                  | Bin 0 -> 121873 bytes
 tests/triton_tests/plot2.pdf                  | Bin 0 -> 16044 bytes
 tests/triton_tests/plot2.png                  | Bin 0 -> 51996 bytes
 tests/triton_tests/plot2.py                   |  69 ++++
 tests/triton_tests/plot3.pdf                  | Bin 0 -> 20122 bytes
 tests/triton_tests/plot3.png                  | Bin 0 -> 58335 bytes
 tests/triton_tests/plot3.py                   | 193 ++++++++++
 tests/triton_tests/rowwise.py                 |  43 +++
 30 files changed, 3227 insertions(+)
 create mode 100644 bitsandbytes/nn/triton_based_modules.py
 create mode 100644 bitsandbytes/nn/triton_utils/v0/__init__.py
 create mode 100644 bitsandbytes/nn/triton_utils/v0/fused_gelu_quantize.py
 create mode 100644 bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
 create mode 100644 bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
 create mode 100644 bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize_bias.py
 create mode 100644 bitsandbytes/nn/triton_utils/v0/quantize_columnwise_nogroup_transpose.py
 create mode 100644 bitsandbytes/nn/triton_utils/v0/quantize_global.py
 create mode 100644 bitsandbytes/nn/triton_utils/v0/quantize_rowwise_nogroup.py
 create mode 100644 tests/triton_tests/attn_decomp.py
 create mode 100644 tests/triton_tests/attn_info_ln.jsonl
 create mode 100644 tests/triton_tests/full_matrix_decomp.py
 create mode 100644 tests/triton_tests/info.jsonl
 create mode 100644 tests/triton_tests/info_mlp.jsonl
 create mode 100644 tests/triton_tests/info_mlp_autocast.jsonl
 create mode 100644 tests/triton_tests/info_mlp_autocast_ln.jsonl
 create mode 100644 tests/triton_tests/make_plot_with_info.py
 create mode 100644 tests/triton_tests/mlp.py
 create mode 100644 tests/triton_tests/mlp_decomp_autocast.py
 create mode 100644 tests/triton_tests/mlp_decomp_autocast_ln.py
 create mode 100644 tests/triton_tests/plot1.pdf
 create mode 100644 tests/triton_tests/plot1.png
 create mode 100644 tests/triton_tests/plot2.pdf
 create mode 100644 tests/triton_tests/plot2.png
 create mode 100644 tests/triton_tests/plot2.py
 create mode 100644 tests/triton_tests/plot3.pdf
 create mode 100644 tests/triton_tests/plot3.png
 create mode 100644 tests/triton_tests/plot3.py
 create mode 100644 tests/triton_tests/rowwise.py

diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 8be7674..8e3a598 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -3,3 +3,4 @@
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
 from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLt2, Linear8bitLtMixed, LinearFP8Global, LinearFP4, LinearFP8Mixed
+from .triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear
diff --git a/bitsandbytes/nn/triton_based_modules.py b/bitsandbytes/nn/triton_based_modules.py
new file mode 100644
index 0000000..9fe0b69
--- /dev/null
+++ b/bitsandbytes/nn/triton_based_modules.py
@@ -0,0 +1,247 @@
+import torch
+import torch.nn as nn
+import time
+
+from .triton_utils.v0.quantize_rowwise_nogroup import quantize_rowwise_nogroup
+from .triton_utils.v0.quantize_columnwise_nogroup_transpose import quantize_columnwise_nogroup_transpose
+from .triton_utils.v0.int8_matmul_rowwise_dequantize_bias import int8_matmul_rowwise_dequantize_bias
+from .triton_utils.v0.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
+from .triton_utils.v0.quantize_global import quantize_global, quantize_global_transpose
+from .triton_utils.v0.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze, int8_matmul_mixed_dequanitze_bias
+from .triton_utils.v0.fused_gelu_quantize import quantize_rowwise_nogroup_gelu, quantize_rowwise_nogroup_back_gelu
+
+class _switchback(torch.autograd.Function):
+
+    @staticmethod
+    def forward(ctx, X_3D, W, bias):
+
+        X = X_3D.view(-1, X_3D.size(-1))
+
+        ctx.save_for_backward = X, W
+        X_int8, state_X = quantize_rowwise_nogroup(X)
+        W_int8, state_W = quantize_rowwise_nogroup(W)
+        return int8_matmul_rowwise_dequantize_bias(
+            X_int8, W_int8.t(), state_X, state_W, bias
+        ).view(*X_3D.size()[:-1], -1)
+    
+    @staticmethod
+    def backward(ctx, G_3D):
+        X, W = ctx.save_for_backward
+
+        G = G_3D.reshape(-1, G_3D.size(-1))
+
+        grad_X = grad_W = grad_bias = None
+
+        if ctx.needs_input_grad[0]:
+            G_int8, state_G = quantize_rowwise_nogroup(G)
+            W_int8, state_W = quantize_columnwise_nogroup_transpose(W)
+            grad_X = int8_matmul_rowwise_dequantize(G_int8, W_int8.t(), state_G, state_W).view(
+                *G_3D.size()[:-1], -1
+            )
+        if ctx.needs_input_grad[1]:
+            grad_W = torch.matmul(G.t(), X.to(G.dtype))
+        if ctx.needs_input_grad[2]:
+            grad_bias = G.sum(dim=0)
+
+        return grad_X, grad_W, grad_bias
+
+class SwitchBackLinear(nn.Linear):
+
+    def prepare_for_eval(self):
+        state_W = self.weight.abs().max(dim=1, keepdim=True)[0]
+        W_int8 = (127 * self.weight.float() / state_W).round().to(torch.int8)
+        state_W = state_W.squeeze()
+        
+        self.register_buffer("W_int8", W_int8)
+        self.register_buffer("state_W", state_W)
+
+        del self.weight
+
+    def forward(self, x):
+        if self.training:
+            return _switchback.apply(x, self.weight, self.bias)
+        else:
+            if not hasattr(self, "state_W"):
+                self.prepare_for_eval()
+            X = x.view(-1, x.size(-1))
+            X_int8, state_X = quantize_rowwise_nogroup(X)
+            return int8_matmul_rowwise_dequantize_bias(
+                X_int8, self.W_int8.t(), state_X, self.state_W, self.bias
+            ).view(*x.size()[:-1], -1)
+    
+
+class _switchback_global(torch.autograd.Function):
+
+    @staticmethod
+    def forward(ctx, X_3D, W, bias):
+
+        X = X_3D.view(-1, X_3D.size(-1))
+
+        X_int8, state_X = quantize_rowwise_nogroup(X)
+        W_int8, state_W = quantize_global(W)
+        ctx.save_for_backward = X, W
+        return int8_matmul_mixed_dequanitze_bias(
+            X_int8, W_int8.t(), state_X, state_W, bias
+        ).view(*X_3D.size()[:-1], -1)
+
+    @staticmethod
+    def backward(ctx, G_3D):
+
+        G = G_3D.reshape(-1, G_3D.size(-1))
+
+        grad_X = grad_W = grad_bias = None
+
+        X, W = ctx.save_for_backward
+        if ctx.needs_input_grad[0]:
+            G_int8, state_G = quantize_rowwise_nogroup(G)
+            W_int8, state_W = quantize_global_transpose(W)
+            grad_X = int8_matmul_mixed_dequanitze(G_int8, W_int8.t(), state_G, state_W).view(
+                *G_3D.size()[:-1], -1
+            )
+        if ctx.needs_input_grad[1]:
+            grad_W = torch.matmul(G.t(), X.to(G.dtype))
+        if ctx.needs_input_grad[2]:
+            grad_bias = G.sum(dim=0)
+
+        return grad_X, grad_W, grad_bias
+    
+
+
+class SwitchBackGlobalLinear(nn.Linear):
+
+    def prepare_for_eval(self):
+        state_W = self.weight.abs().max()
+        W_int8 = (127 * self.weight.float() / state_W).round().to(torch.int8)
+        
+        self.register_buffer("W_int8", W_int8)
+        self.register_buffer("state_W", state_W)
+
+        del self.weight
+
+    def forward(self, x):
+        if self.training:
+            return _switchback_global.apply(x, self.weight, self.bias)
+        else:
+            if not hasattr(self, "state_W"):
+                self.prepare_for_eval()
+            X = x.view(-1, x.size(-1))
+            X_int8, state_X = quantize_rowwise_nogroup(X)
+            return int8_matmul_mixed_dequanitze_bias(
+                X_int8, self.W_int8.t(), state_X, self.state_W, self.bias
+            ).view(*x.size()[:-1], -1)
+        
+
+
+
+class LinearFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, input, weight, bias=None):
+        X = input.view(-1, input.size(-1))
+
+        ctx.save_for_backward(X, weight, bias)
+        output = input.matmul(weight.t())
+        if bias is not None:
+            output += bias.unsqueeze(0).expand_as(output)
+        return output.view(*input.size()[:-1], -1)
+
+    @staticmethod
+    def backward(ctx, grad_output_3D):
+        input, weight, bias = ctx.saved_tensors
+
+        grad_output = grad_output_3D.reshape(-1, grad_output_3D.size(-1))
+
+        grad_input = grad_weight = grad_bias = None
+
+        if ctx.needs_input_grad[0]:
+            grad_input = grad_output.matmul(weight.to(grad_output.dtype)).view(*grad_output_3D.size()[:-1], -1)
+        if ctx.needs_input_grad[1]:
+            grad_weight = grad_output.t().matmul(input.to(grad_output.dtype))
+        if bias is not None and ctx.needs_input_grad[2]:
+            grad_bias = grad_output.sum(0)
+
+        return grad_input, grad_weight, grad_bias
+
+class MyLinear(nn.Linear):
+
+    def forward(self, x):
+        return LinearFunction.apply(x, self.weight, self.bias)
+    
+
+
+
+class _switchback_mlp(torch.autograd.Function):
+
+
+    @staticmethod
+    def forward(ctx, X_3D, W1, B1, W2, B2):
+
+        X1 = X_3D.view(-1, X_3D.size(-1))
+
+        X1_int8, state_X1 = quantize_rowwise_nogroup(X1)
+        W1_int8, state_W1 = quantize_global(W1)
+        
+        X2_pre = int8_matmul_mixed_dequanitze_bias(
+            X1_int8, W1_int8.t(), state_X1, state_W1, B1
+        )
+
+        # X2_v1 = torch.nn.functional.gelu(X2)
+        # X2_int8, state_X2, = quantize_rowwise_nogroup(X2_v1)
+        X2_int8, state_X2, X2 = quantize_rowwise_nogroup_gelu(X2_pre)
+
+        W2_int8, state_W2 = quantize_global(W2)
+
+        out = int8_matmul_mixed_dequanitze_bias(
+            X2_int8, W2_int8.t(), state_X2, state_W2, B2
+        )
+
+        ctx.save_for_backward = X1, W1, X2, X2_pre, W2
+
+        return out.view(*X_3D.size()[:-1], -1)
+
+    @staticmethod
+    def backward(ctx, G_3D):
+
+        G2 = G_3D.reshape(-1, G_3D.size(-1))
+
+        grad_X1 = grad_W1 = grad_B1 = grad_W2 = grad_B2 = None
+
+        X1, W1, X2, X2_pre, W2 = ctx.save_for_backward
+
+        G2_int8, state_G2 = quantize_rowwise_nogroup(G2)
+        W2_int8, state_W2 = quantize_global_transpose(W2)
+
+        G1 = int8_matmul_mixed_dequanitze(G2_int8, W2_int8.t(), state_G2, state_W2).view(
+            *G_3D.size()[:-1], -1
+        )
+
+        grad_W2 = torch.matmul(G2.t(), X2.to(G2.dtype))
+        grad_B2 = G2.sum(dim=0)
+
+        G1_int8, state_G1, G1 = quantize_rowwise_nogroup_back_gelu(G1, X2_pre)
+
+        if ctx.needs_input_grad[0]:
+            
+            W1_int8, state_W1 = quantize_global_transpose(W1)
+            grad_X1 = int8_matmul_mixed_dequanitze(G1_int8, W1_int8.t(), state_G1, state_W1).view(
+                *G_3D.size()[:-1], -1
+            )
+        if ctx.needs_input_grad[1]:
+            grad_W1 = torch.matmul(G1.t(), X1.to(G1.dtype))
+        if ctx.needs_input_grad[2]:
+            grad_B1 = G1.sum(dim=0)
+
+        return grad_X1, grad_W1, grad_B1, grad_W2, grad_B2
+    
+
+class SwitchBackGlobalMLP(nn.Module):
+
+
+    def __init__(self, dim_in, dim_hidden):
+        super().__init__()
+        self.linear1 = nn.Linear(dim_in, dim_hidden)
+        self.linear2 = nn.Linear(dim_hidden, dim_in)
+
+
+    def forward(self, x):
+        return _switchback_mlp.apply(x, self.linear1.weight, self.linear1.bias, self.linear2.weight, self.linear2.bias)
+    
\ No newline at end of file
diff --git a/bitsandbytes/nn/triton_utils/v0/__init__.py b/bitsandbytes/nn/triton_utils/v0/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/bitsandbytes/nn/triton_utils/v0/fused_gelu_quantize.py b/bitsandbytes/nn/triton_utils/v0/fused_gelu_quantize.py
new file mode 100644
index 0000000..50451cb
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/fused_gelu_quantize.py
@@ -0,0 +1,190 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+tl.libdevice
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_rowwise_nogroup_gelu(
+    x_ptr,
+    output_ptr,
+    output_maxs,
+    output_fp16,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    arange = tl.arange(0, P2)
+    offsets = block_start + arange
+    row_mask = arange < BLOCK_SIZE
+    x = tl.load(x_ptr + offsets, mask=row_mask)
+
+    cdf = 0.5 * (1.0 + tl.libdevice.tanh(x * 0.7978845608 * (1 + 0.044715 * x * x)))
+    x_new = x * cdf
+    
+    tl.store(output_fp16 + offsets, x_new, mask=row_mask)
+
+    abs_x = tl.abs(x_new)
+    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
+    output = tl.libdevice.llrint(127. * (x_new / max_val))
+    tl.store(output_ptr + offsets, output, mask=row_mask)
+    tl.store(output_maxs + pid, max_val)
+
+def quantize_rowwise_nogroup_gelu(x: torch.Tensor):
+    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
+    output_fp16 = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
+    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (x.shape[0],)
+    _quantize_rowwise_nogroup_gelu[grid](x, output, output_maxs, output_fp16, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+    return output, output_maxs, output_fp16
+
+
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_rowwise_nogroup_back_gelu(
+    x_ptr,
+    in_ptr,
+    output_ptr,
+    output_maxs,
+    output_fp16,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    arange = tl.arange(0, P2)
+    offsets = block_start + arange
+    row_mask = arange < BLOCK_SIZE
+    x_out = tl.load(x_ptr + offsets, mask=row_mask)
+    x_in = tl.load(in_ptr + offsets, mask=row_mask)
+
+    cdf = 0.5 * (1.0 + tl.libdevice.tanh(x_in * 0.7978845608 * (1 + 0.044715 * x_in * x_in)))
+    intermediate = tl.libdevice.tanh(x_in * 0.7978845608 * (1 + 0.044715 * x_in * x_in))
+    dcdf = 0.5 * (0.7978845608 + 0.1070322243 * x_in * x_in) * (1 - intermediate * intermediate)
+    x = x_out * (cdf + x_in * dcdf)
+    
+    tl.store(output_fp16 + offsets, x, mask=row_mask)
+
+    abs_x = tl.abs(x)
+    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
+    output = tl.libdevice.llrint(127. * (x / max_val))
+    tl.store(output_ptr + offsets, output, mask=row_mask)
+    tl.store(output_maxs + pid, max_val)
+
+def quantize_rowwise_nogroup_back_gelu(x: torch.Tensor, y : torch.Tensor):
+    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
+    output_fp16 = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
+    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (x.shape[0],)
+    _quantize_rowwise_nogroup_back_gelu[grid](x, y, output, output_maxs, output_fp16, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+    return output, output_maxs, output_fp16
+
+
+
+# if __name__ == '__main__':
+#     torch.manual_seed(0)
+
+#     x = torch.randn(1280, 768).cuda().to(torch.float16)
+#     out = quantize_rowwise_nogroup(x)
+
+#     x_real = (127 * x.float() / x.abs().max(dim=1, keepdim=True)[0]).round().to(torch.int8)
+#     max2 = x.abs().max(1)[0]
+
+#     print(torch.allclose(out[1], max2))
+#     print( (x_real == out[0]).float().mean() )
+
+#     # for i in range(x.shape[0]):
+#     #     print( (x_real[i, :] == out[0][i, :]).float().mean() )
+
+#     # print(out[0])
+#     # print(x_real)
+#     # import pdb; pdb.set_trace()
+#     # print(out[2])
+#     # print(out[2][:10])
+#     sums = x.sum(dim=0)
+#     #print(sums[:10])
+#     #print( (sums == out[2]).float().mean() )
+
+#     import pdb; pdb.set_trace()
+#     # import pdb; pdb.set_trace()
+#     # exit()
+
+#     # repeat = 16
+
+#     # for _ in range(8):
+#     #     out = quantize_rowwise_nogroup(x)
+
+#     # triton_graph = torch.cuda.CUDAGraph()
+#     # with torch.cuda.graph(triton_graph):
+#     #     out = quantize_rowwise_nogroup(x)
+
+#     # triton_graph.replay()
+
+#     # torch.cuda.synchronize()
+#     # start = time.time()
+#     # for _ in range(repeat):
+#     #     triton_graph.replay()
+#     # torch.cuda.synchronize()
+#     # end = time.time()
+
+#     # print(out[0])
+#     # print(out[1])
+#     # print(x / x.abs().max(dim=1, keepdim=True)[0])
+#     # max1 = out[1]
+#     # max2 = x.abs().max(1)[0]
+#     # print(max1, max2)
+#     # print(torch.allclose(max1, max2))
+
+#     #print(f"time: {(end - start) / repeat * 1000:.3f} ms")
diff --git a/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py b/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
new file mode 100644
index 0000000..2ecfcb8
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
@@ -0,0 +1,276 @@
+import torch
+
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+
+def init_to_zero(name):
+    return lambda nargs: nargs[name].zero_()
+
+
+def get_configs_io_bound():
+    configs = []
+    for num_stages in [2, 3, 4, 5, 6]:
+        for block_m in [16, 32]:
+            for block_k in [32, 64]:
+                for block_n in [32, 64, 128, 256]:
+                    num_warps = 2 if block_n <= 64 else 4
+                    configs.append(
+                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
+                                      num_stages=num_stages, num_warps=num_warps))
+                    # split_k
+                    for split_k in [2, 4, 8, 16]:
+                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
+                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
+    return configs
+
+
+@triton.autotune(
+    configs=[
+        # basic configs for compute-bound matmuls
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+        # good for int8
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+    ] + get_configs_io_bound(),
+    key=['M', 'N', 'K'],
+    prune_configs_by={
+        'early_config_prune': early_config_prune,
+        'perf_model': estimate_matmul_time,
+        'top_k': 10
+    },
+)
+@triton.heuristics({
+    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
+})
+@triton.jit
+def _kernel(A, B, C, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr,
+            stride_am, stride_ak,
+            stride_bk, stride_bn,
+            stride_cm, stride_cn,
+            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
+            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
+            ACC_TYPE: tl.constexpr
+            ):
+    # matrix multiplication
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+    grid_m = tl.cdiv(M, BLOCK_M)
+    grid_n = tl.cdiv(N, BLOCK_N)
+    # re-order program ID for better L2 performance
+    width = GROUP_M * grid_n
+    group_id = pid // width
+    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+    pid_m = group_id * GROUP_M + (pid % group_size)
+    pid_n = (pid % width) // (group_size)
+    # do matrix multiplication
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
+    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
+    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
+    # pointers
+    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
+    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
+
+    # rematerialize rm and rn to save registers
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    w_factor = tl.load(state_w_ptr)
+    x_factor = tl.load(state_x_ptr + ram)[:, None]
+
+    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
+    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
+    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
+        if EVEN_K:
+            a = tl.load(A)
+            b = tl.load(B)
+        else:
+            k_remaining = K - k * (BLOCK_K * SPLIT_K)
+            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
+            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
+        acc += tl.dot(a, b)
+        A += BLOCK_K * SPLIT_K * stride_ak
+        B += BLOCK_K * SPLIT_K * stride_bk
+    
+    acc = (w_factor * (x_factor * (acc * divfactor)))
+    acc = acc.to(C.dtype.element_ty)
+
+    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+    # handles write-back with reduction-splitting
+    if SPLIT_K == 1:
+        tl.store(C, acc, mask=mask)
+    else:
+        tl.atomic_add(C, acc, mask=mask)
+
+
+def int8_matmul_mixed_dequanitze(a, b, state_x, state_w):
+    device = a.device
+    divfactor = 1. / (127. * 127.)
+    # handle non-contiguous inputs if necessary
+    if a.stride(0) > 1 and a.stride(1) > 1:
+        a = a.contiguous()
+    if b.stride(0) > 1 and b.stride(1) > 1:
+        b = b.contiguous()
+    # checks constraints
+    assert a.shape[1] == b.shape[0], "incompatible dimensions"
+    M, K = a.shape
+    _, N = b.shape
+    # allocates output
+    c = torch.empty((M, N), device=device, dtype=torch.float16)
+    # accumulator types
+    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
+    # launch kernel
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
+    _kernel[grid](a, b, c, state_x, state_w, M, N, K, divfactor,
+                    a.stride(0), a.stride(1),
+                    b.stride(0), b.stride(1),
+                    c.stride(0), c.stride(1),
+                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
+    return c
+
+
+
+@triton.autotune(
+    configs=[
+        # basic configs for compute-bound matmuls
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+        # good for int8
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+    ] + get_configs_io_bound(),
+    key=['M', 'N', 'K'],
+    prune_configs_by={
+        'early_config_prune': early_config_prune,
+        'perf_model': estimate_matmul_time,
+        'top_k': 10
+    },
+)
+@triton.heuristics({
+    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
+})
+@triton.jit
+def _kernel_bias(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr, has_bias : tl.constexpr,
+            stride_am, stride_ak,
+            stride_bk, stride_bn,
+            stride_cm, stride_cn,
+            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
+            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
+            ACC_TYPE: tl.constexpr
+            ):
+    # matrix multiplication
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+    grid_m = tl.cdiv(M, BLOCK_M)
+    grid_n = tl.cdiv(N, BLOCK_N)
+    # re-order program ID for better L2 performance
+    width = GROUP_M * grid_n
+    group_id = pid // width
+    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+    pid_m = group_id * GROUP_M + (pid % group_size)
+    pid_n = (pid % width) // (group_size)
+    # do matrix multiplication
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
+    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
+    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
+    # pointers
+    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
+    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
+
+    # rematerialize rm and rn to save registers
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    w_factor = tl.load(state_w_ptr)
+    x_factor = tl.load(state_x_ptr + ram)[:, None]
+
+    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
+    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
+    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
+        if EVEN_K:
+            a = tl.load(A)
+            b = tl.load(B)
+        else:
+            k_remaining = K - k * (BLOCK_K * SPLIT_K)
+            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
+            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
+        acc += tl.dot(a, b)
+        A += BLOCK_K * SPLIT_K * stride_ak
+        B += BLOCK_K * SPLIT_K * stride_bk
+    
+    acc = (w_factor * (x_factor * (acc * divfactor)))
+    acc = acc.to(C.dtype.element_ty)
+
+    if has_bias:
+        bias = tl.load(bias + rn).to(C.dtype.element_ty)
+        acc = acc + bias[None, :]
+
+    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+    # handles write-back with reduction-splitting
+    if SPLIT_K == 1:
+        tl.store(C, acc, mask=mask)
+    else:
+        tl.atomic_add(C, acc, mask=mask)
+
+
+def int8_matmul_mixed_dequanitze_bias(a, b, state_x, state_w, bias):
+    device = a.device
+    divfactor = 1. / (127. * 127.)
+    has_bias = 0 if bias is None else 1
+    # handle non-contiguous inputs if necessary
+    if a.stride(0) > 1 and a.stride(1) > 1:
+        a = a.contiguous()
+    if b.stride(0) > 1 and b.stride(1) > 1:
+        b = b.contiguous()
+    # checks constraints
+    assert a.shape[1] == b.shape[0], "incompatible dimensions"
+    M, K = a.shape
+    _, N = b.shape
+    # allocates output
+    c = torch.empty((M, N), device=device, dtype=torch.float16)
+    # accumulator types
+    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
+    # launch kernel
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
+    _kernel_bias[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
+                    a.stride(0), a.stride(1),
+                    b.stride(0), b.stride(1),
+                    c.stride(0), c.stride(1),
+                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
+    return c
diff --git a/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py b/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
new file mode 100644
index 0000000..fa0b516
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
@@ -0,0 +1,149 @@
+import torch
+
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+
+def init_to_zero(name):
+    return lambda nargs: nargs[name].zero_()
+
+
+def get_configs_io_bound():
+    configs = []
+    for num_stages in [2, 3, 4, 5, 6]:
+        for block_m in [16, 32]:
+            for block_k in [32, 64]:
+                for block_n in [32, 64, 128, 256]:
+                    num_warps = 2 if block_n <= 64 else 4
+                    configs.append(
+                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
+                                      num_stages=num_stages, num_warps=num_warps))
+                    # split_k
+                    for split_k in [2, 4, 8, 16]:
+                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
+                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
+    return configs
+
+
+@triton.autotune(
+    configs=[
+        # basic configs for compute-bound matmuls
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+        # good for int8
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+    ] + get_configs_io_bound(),
+    key=['M', 'N', 'K'],
+    prune_configs_by={
+        'early_config_prune': early_config_prune,
+        'perf_model': estimate_matmul_time,
+        'top_k': 10
+    },
+)
+@triton.heuristics({
+    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
+})
+@triton.jit
+def _kernel(A, B, C, state_x_ptr, state_w_ptr, M, N, K, divfactor,
+            stride_am, stride_ak,
+            stride_bk, stride_bn,
+            stride_cm, stride_cn,
+            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
+            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
+            ACC_TYPE: tl.constexpr
+            ):
+    # matrix multiplication
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+    grid_m = tl.cdiv(M, BLOCK_M)
+    grid_n = tl.cdiv(N, BLOCK_N)
+    # re-order program ID for better L2 performance
+    width = GROUP_M * grid_n
+    group_id = pid // width
+    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+    pid_m = group_id * GROUP_M + (pid % group_size)
+    pid_n = (pid % width) // (group_size)
+    # do matrix multiplication
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
+    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
+    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
+    # pointers
+    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
+    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
+
+    # rematerialize rm and rn to save registers
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    w_factor = tl.load(state_w_ptr + rbn)[None, :]
+    x_factor = tl.load(state_x_ptr + ram)[:, None]
+
+    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
+    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
+    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
+        if EVEN_K:
+            a = tl.load(A)
+            b = tl.load(B)
+        else:
+            k_remaining = K - k * (BLOCK_K * SPLIT_K)
+            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
+            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
+        acc += tl.dot(a, b)
+        A += BLOCK_K * SPLIT_K * stride_ak
+        B += BLOCK_K * SPLIT_K * stride_bk
+    
+    acc = (w_factor * (x_factor * (acc * divfactor)))
+    acc = acc.to(C.dtype.element_ty)
+
+    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+    # handles write-back with reduction-splitting
+    if SPLIT_K == 1:
+        tl.store(C, acc, mask=mask)
+    else:
+        tl.atomic_add(C, acc, mask=mask)
+
+
+def int8_matmul_rowwise_dequantize(a, b, state_x, state_w):
+    divfactor = 1. / (127. * 127.)
+
+    device = a.device
+    # handle non-contiguous inputs if necessary
+    if a.stride(0) > 1 and a.stride(1) > 1:
+        a = a.contiguous()
+    if b.stride(0) > 1 and b.stride(1) > 1:
+        b = b.contiguous()
+    # checks constraints
+    assert a.shape[1] == b.shape[0], "incompatible dimensions"
+    M, K = a.shape
+    _, N = b.shape
+    # allocates output
+    c = torch.empty((M, N), device=device, dtype=torch.float16)
+    # accumulator types
+    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
+    # launch kernel
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
+    _kernel[grid](a, b, c, state_x, state_w, M, N, K, divfactor,
+                    a.stride(0), a.stride(1),
+                    b.stride(0), b.stride(1),
+                    c.stride(0), c.stride(1),
+                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
+    return c
diff --git a/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize_bias.py b/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize_bias.py
new file mode 100644
index 0000000..5f524c1
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize_bias.py
@@ -0,0 +1,160 @@
+import torch
+
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+
+def init_to_zero(name):
+    return lambda nargs: nargs[name].zero_()
+
+
+def get_configs_io_bound():
+    configs = []
+    for num_stages in [2, 3, 4, 5, 6]:
+        for block_m in [16, 32]:
+            for block_k in [32, 64]:
+                for block_n in [32, 64, 128, 256]:
+                    num_warps = 2 if block_n <= 64 else 4
+                    configs.append(
+                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
+                                      num_stages=num_stages, num_warps=num_warps))
+                    # split_k
+                    for split_k in [2, 4, 8, 16]:
+                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
+                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
+    return configs
+
+
+@triton.autotune(
+    configs=[
+        # basic configs for compute-bound matmuls
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+        # good for int8
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+    ] + get_configs_io_bound(),
+    key=['M', 'N', 'K'],
+    prune_configs_by={
+        'early_config_prune': early_config_prune,
+        'perf_model': estimate_matmul_time,
+        'top_k': 10
+    },
+)
+@triton.heuristics({
+    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
+})
+@triton.jit
+def _kernel(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor, has_bias : tl.constexpr,
+            stride_am, stride_ak,
+            stride_bk, stride_bn,
+            stride_cm, stride_cn,
+            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
+            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
+            ACC_TYPE: tl.constexpr
+            ):
+    # matrix multiplication
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+    grid_m = tl.cdiv(M, BLOCK_M)
+    grid_n = tl.cdiv(N, BLOCK_N)
+    # re-order program ID for better L2 performance
+    width = GROUP_M * grid_n
+    group_id = pid // width
+    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+    pid_m = group_id * GROUP_M + (pid % group_size)
+    pid_n = (pid % width) // (group_size)
+    # do matrix multiplication
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
+    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
+    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
+    # pointers
+    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
+    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
+
+    # rematerialize rm and rn to save registers
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    w_factor = tl.load(state_w_ptr + rbn)[None, :]
+    x_factor = tl.load(state_x_ptr + ram)[:, None]
+
+    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
+    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
+    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
+        if EVEN_K:
+            a = tl.load(A)
+            b = tl.load(B)
+        else:
+            k_remaining = K - k * (BLOCK_K * SPLIT_K)
+            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
+            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
+        acc += tl.dot(a, b)
+        A += BLOCK_K * SPLIT_K * stride_ak
+        B += BLOCK_K * SPLIT_K * stride_bk
+    
+    acc = (w_factor * (x_factor * (acc * divfactor)))
+    acc = acc.to(C.dtype.element_ty)
+
+    if has_bias:
+        bias = tl.load(bias + rn).to(C.dtype.element_ty)
+        acc = acc + bias[None, :]
+
+    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+    # handles write-back with reduction-splitting
+    if SPLIT_K == 1:
+        tl.store(C, acc, mask=mask)
+    else:
+        tl.atomic_add(C, acc, mask=mask)
+
+
+def int8_matmul_rowwise_dequantize_bias(a, b, state_x, state_w, bias):
+
+    #print(bias)
+    divfactor = 1. / (127. * 127.)
+
+    has_bias = 0 if bias is None else 1
+
+    if bias is not None:
+        bias = bias.contiguous()
+
+    device = a.device
+    # handle non-contiguous inputs if necessary
+    if a.stride(0) > 1 and a.stride(1) > 1:
+        a = a.contiguous()
+    if b.stride(0) > 1 and b.stride(1) > 1:
+        b = b.contiguous()
+    # checks constraints
+    assert a.shape[1] == b.shape[0], "incompatible dimensions"
+    M, K = a.shape
+    _, N = b.shape
+    # allocates output
+    c = torch.empty((M, N), device=device, dtype=torch.float16)
+    # accumulator types
+    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
+    # launch kernel
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
+    _kernel[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
+                    a.stride(0), a.stride(1),
+                    b.stride(0), b.stride(1),
+                    c.stride(0), c.stride(1),
+                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
+    return c
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_nogroup_transpose.py b/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_nogroup_transpose.py
new file mode 100644
index 0000000..fa3a9a9
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_nogroup_transpose.py
@@ -0,0 +1,122 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_stages=16),
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=16, num_warps=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_columnwise_nogroup_transpose(
+    x_ptr,
+    output_ptr,
+    output_maxs,
+    n_elements,
+    M : tl.constexpr, N : tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid
+    p2_arange = tl.arange(0, P2)
+    p2_arange_mask = p2_arange < M
+    arange =  p2_arange * N
+    offsets = block_start + arange
+    x = tl.load(x_ptr + offsets, mask=p2_arange_mask)
+    abs_x = tl.abs(x)
+    max_val = tl.max(tl.where(p2_arange_mask, abs_x, 0), axis=0)
+    output = tl.libdevice.llrint(127. * (x / max_val))
+
+    new_start = pid * M 
+    new_offsets = new_start + p2_arange
+    tl.store(output_ptr + new_offsets, output, mask=p2_arange_mask)
+    tl.store(output_maxs + pid, max_val)
+
+def quantize_columnwise_nogroup_transpose(x: torch.Tensor):
+    M, N = x.shape
+    output = torch.empty(N, M, device=x.device, dtype=torch.int8)
+    output_maxs = torch.empty(x.shape[1], device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(M))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
+    _quantize_columnwise_nogroup_transpose[grid](x, output, output_maxs, n_elements, M, N, BLOCK_SIZE=M, P2=P2)
+    return output, output_maxs
+
+
+
+if __name__ == '__main__':
+    torch.manual_seed(0)
+
+    x = torch.randn(1280, 768).cuda().to(torch.float16)
+    out = quantize_columnwise_nogroup_transpose(x)
+
+
+    x_real = x.t().float()
+    x_real_int8 = (127. * x_real / x_real.abs().max(dim=1, keepdim=True)[0]).round().to(torch.int8)
+    maxs = x_real.abs().max(dim=1, keepdim=True)[0].half()
+
+    #print(out[0][2,:])
+
+    print((out[0] == x_real_int8).float().mean())
+    print((out[1] == maxs[:, 0]).float().mean())
+
+    # print(out[0])
+    # print(out[1])
+
+    # print(out[0][2,:])
+    # print(x_real[2, :])
+
+    # print((out[0] != x_real).nonzero())
+
+    #import pdb; pdb.set_trace()
+    # repeat = 16
+
+    # for _ in range(8):
+    #     out = quantize_columnwise_nogroup_transpose(x)
+
+    # triton_graph = torch.cuda.CUDAGraph()
+    # with torch.cuda.graph(triton_graph):
+    #     out = quantize_columnwise_nogroup_transpose(x)
+
+    # triton_graph.replay()
+
+    # torch.cuda.synchronize()
+    # start = time.time()
+    # for _ in range(repeat):
+    #     triton_graph.replay()
+    # torch.cuda.synchronize()
+    # end = time.time()
+
+    # print(out[0])
+    # print(out[1])
+    # print(x / x.abs().max(dim=0, keepdim=True)[0])
+    # x_real = (127 * (x / x.abs().max(dim=0, keepdim=True)[0])).round().to(torch.int8)
+    # max1 = out[1]
+    # max2 = x.abs().max(0)[0]
+    # print(max1, max2)
+    # import pdb; pdb.set_trace()
+    # print(torch.allclose(max1, max2))
+
+    # print(f"time: {(end - start) / repeat * 1000:.3f} ms")
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_global.py b/bitsandbytes/nn/triton_utils/v0/quantize_global.py
new file mode 100644
index 0000000..6d23aac
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/quantize_global.py
@@ -0,0 +1,130 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({'BLOCK_SIZE': 1024,}, num_warps=4),
+            triton.Config({'BLOCK_SIZE': 2048,}, num_stages=1),
+
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_global(
+    x_ptr,
+    absmax_inv_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    absmax_inv = tl.load(absmax_inv_ptr)
+    output = tl.libdevice.llrint(127. * (x * absmax_inv))
+    tl.store(output_ptr + offsets, output, mask=mask)
+
+def quantize_global(x: torch.Tensor):
+    absmax = x.abs().max().unsqueeze(0)
+    absmax_inv = 1./ absmax
+    output = torch.empty(*x.shape, device='cuda', dtype=torch.int8)
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
+    _quantize_global[grid](x, absmax_inv, output, n_elements)
+    return output, absmax
+
+
+@triton.autotune(
+        configs=[
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
+
+            # ...
+        ],
+        key=['M', 'N']
+)
+@triton.jit
+def _quantize_global_transpose(A, absmax_inv_ptr, B, stride_am, stride_an, stride_bn, stride_bm, M, N, 
+                      BLOCK_M : tl.constexpr, 
+                      BLOCK_N : tl.constexpr, 
+                      GROUP_M : tl.constexpr):
+    pid = tl.program_id(0)
+    grid_m = (M + BLOCK_M - 1) // BLOCK_M
+    grid_n = (N + BLOCK_N - 1) // BLOCK_N
+    
+    width = GROUP_M * grid_n
+    group_id = pid // width
+    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+    pid_m = group_id * GROUP_M + (pid % group_size)
+    pid_n = (pid % width) // group_size
+    
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    A = A + (rm[:, None] * stride_am + rn[None, :] * stride_an)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+    a = tl.load(A, mask=mask)
+    absmax_inv = tl.load(absmax_inv_ptr)
+    
+    # rematerialize to save registers
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    B = B + (rm[:, None] * stride_bm + rn[None, :] * stride_bn)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+
+    output = tl.libdevice.llrint(127. * (a * absmax_inv))
+
+    tl.store(B, output, mask=mask)
+
+def quantize_global_transpose(input):
+    absmax = input.abs().max().unsqueeze(0)
+    absmax_inv = 1./ absmax
+    M, N = input.shape
+    out = torch.empty(N, M, device='cuda', dtype=torch.int8)
+    
+    assert out.size(0) == N and out.size(1) == M
+    assert input.stride(0) == 1 or input.stride(1) == 1
+    assert out.stride(0) == 1 or out.stride(1) == 1
+    
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']),)
+    _quantize_global_transpose[grid](input, absmax_inv, out, input.stride(0), input.stride(1), out.stride(0), out.stride(1), M, N)
+    return out, absmax
+
+if __name__ == '__main__':
+
+
+    w = torch.randn(768, 1280).cuda().to(torch.float16)
+    W_int8, state_w = quantize_global(w)
+    r_state_w = w.abs().max()
+    r_W_int8 = ((127 * w.float()) / state_w).round().to(torch.int8)
+    print((r_W_int8 == W_int8).float().mean())
+
+    # print(r_W_int8)
+    # print(W_int8)
+    exit()
+    repeat = 16
+
+    for _ in range(8):
+        out = quantize_global(w)
+
+    triton_graph = torch.cuda.CUDAGraph()
+    with torch.cuda.graph(triton_graph):
+        out = quantize_global(w)
+
+    triton_graph.replay()
+
+    torch.cuda.synchronize()
+    start = time.time()
+    for _ in range(repeat):
+        triton_graph.replay()
+    torch.cuda.synchronize()
+    end = time.time()
+
+    print(f"time: {(end - start) / repeat * 1000:.3f} ms")
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_rowwise_nogroup.py b/bitsandbytes/nn/triton_utils/v0/quantize_rowwise_nogroup.py
new file mode 100644
index 0000000..7e63f74
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/quantize_rowwise_nogroup.py
@@ -0,0 +1,174 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_rowwise_nogroup(
+    x_ptr,
+    output_ptr,
+    output_maxs,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    arange = tl.arange(0, P2)
+    offsets = block_start + arange
+    row_mask = arange < BLOCK_SIZE
+    x = tl.load(x_ptr + offsets, mask=row_mask)
+    
+    abs_x = tl.abs(x)
+    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
+    output = tl.libdevice.llrint(127. * (x / max_val))
+    tl.store(output_ptr + offsets, output, mask=row_mask)
+    tl.store(output_maxs + pid, max_val)
+
+def quantize_rowwise_nogroup(x: torch.Tensor):
+    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
+    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (x.shape[0],)
+    _quantize_rowwise_nogroup[grid](x, output, output_maxs, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+    return output, output_maxs
+
+
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _experimental_quantize_rowwise_nogroup(
+    x_ptr,
+    output_ptr,
+    bias_grad_ptr,
+    output_maxs,
+    n_elements,
+    M: tl.constexpr, N: tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+    P2M: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    if pid < M:
+        block_start = pid * BLOCK_SIZE
+        arange = tl.arange(0, P2)
+        offsets = block_start + arange
+        row_mask = arange < BLOCK_SIZE
+        x = tl.load(x_ptr + offsets, mask=row_mask)
+        
+        abs_x = tl.abs(x)
+        max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
+        output = tl.libdevice.llrint(127. * (x / max_val))
+        tl.store(output_ptr + offsets, output, mask=row_mask)
+        tl.store(output_maxs + pid, max_val)
+    else:
+        real_pid = pid - M
+        arange_new = tl.arange(0, P2M)
+        mask_new = arange_new < M
+        offsets_new = real_pid + arange_new * N
+        new_x = tl.load(x_ptr + offsets_new, mask=mask_new)
+        s = tl.sum(tl.where(mask_new, new_x, 0).to(tl.float32), axis=0)
+        tl.store(bias_grad_ptr + real_pid, s)
+
+def experimental_quantize_rowwise_nogroup(x: torch.Tensor):
+    M, N = x.shape
+    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
+    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
+    bias_grad = torch.empty(x.shape[1], device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+    P2M = int(2 ** (math.ceil(math.log2(x.shape[0]))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (x.shape[0] + x.shape[1],)
+    _experimental_quantize_rowwise_nogroup[grid](x, output, bias_grad, output_maxs, n_elements, M, N, BLOCK_SIZE=x.shape[1], P2=P2, P2M=P2M)
+    return output, output_maxs, bias_grad
+
+
+if __name__ == '__main__':
+    torch.manual_seed(0)
+
+    x = torch.randn(1280, 768).cuda().to(torch.float16)
+    out = quantize_rowwise_nogroup(x)
+
+    x_real = (127 * x.float() / x.abs().max(dim=1, keepdim=True)[0]).round().to(torch.int8)
+    max2 = x.abs().max(1)[0]
+
+    print(torch.allclose(out[1], max2))
+    print( (x_real == out[0]).float().mean() )
+
+    # for i in range(x.shape[0]):
+    #     print( (x_real[i, :] == out[0][i, :]).float().mean() )
+
+    # print(out[0])
+    # print(x_real)
+    # import pdb; pdb.set_trace()
+    # print(out[2])
+    # print(out[2][:10])
+    sums = x.sum(dim=0)
+    #print(sums[:10])
+    #print( (sums == out[2]).float().mean() )
+
+    import pdb; pdb.set_trace()
+    # import pdb; pdb.set_trace()
+    # exit()
+
+    # repeat = 16
+
+    # for _ in range(8):
+    #     out = quantize_rowwise_nogroup(x)
+
+    # triton_graph = torch.cuda.CUDAGraph()
+    # with torch.cuda.graph(triton_graph):
+    #     out = quantize_rowwise_nogroup(x)
+
+    # triton_graph.replay()
+
+    # torch.cuda.synchronize()
+    # start = time.time()
+    # for _ in range(repeat):
+    #     triton_graph.replay()
+    # torch.cuda.synchronize()
+    # end = time.time()
+
+    # print(out[0])
+    # print(out[1])
+    # print(x / x.abs().max(dim=1, keepdim=True)[0])
+    # max1 = out[1]
+    # max2 = x.abs().max(1)[0]
+    # print(max1, max2)
+    # print(torch.allclose(max1, max2))
+
+    #print(f"time: {(end - start) / repeat * 1000:.3f} ms")
diff --git a/tests/triton_tests/attn_decomp.py b/tests/triton_tests/attn_decomp.py
new file mode 100644
index 0000000..9e8ed28
--- /dev/null
+++ b/tests/triton_tests/attn_decomp.py
@@ -0,0 +1,363 @@
+
+import torch
+import json
+from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, MyLinear
+import time
+
+# class AttentionOld(torch.nn.Module):
+#     def __init__(
+#             self,
+#             dim,
+#             num_heads=8,
+#             qkv_bias=True,
+#             scaled_cosine=False,
+#             scale_heads=False,
+#             attn_drop=0.,
+#             proj_drop=0.,
+#             linear_module=torch.nn.Linear,
+#     ):
+#         super().__init__()
+#         self.scaled_cosine = scaled_cosine
+#         self.scale_heads = scale_heads
+#         assert dim % num_heads == 0, 'dim should be divisible by num_heads'
+#         self.num_heads = num_heads
+#         self.head_dim = dim // num_heads
+#         self.scale = self.head_dim ** -0.5
+
+#         self.in_proj_linear = linear_module(dim, 3 * dim, bias = qkv_bias)
+
+#         self.attn_drop = torch.nn.Dropout(attn_drop)
+#         if self.scale_heads:
+#             self.head_scale = torch.nn.Parameter(torch.ones((num_heads, 1, 1)))
+#         else:
+#             self.head_scale = None
+#         self.out_proj = linear_module(dim, dim)
+#         self.out_drop = torch.nn.Dropout(proj_drop)
+
+#     def forward(self, x, attn_mask = None):
+#         L, N, C = x.shape
+
+#         q, k, v = self.in_proj_linear(x).chunk(3, dim=-1)
+            
+#         q = q.contiguous().view(L, N * self.num_heads, -1).transpose(0, 1)
+#         k = k.contiguous().view(L, N * self.num_heads, -1).transpose(0, 1)
+#         v = v.contiguous().view(L, N * self.num_heads, -1).transpose(0, 1)
+
+#         q = q * self.scale
+#         attn = torch.bmm(q, k.transpose(-1, -2))
+
+#         if attn_mask is not None:
+#             if attn_mask.dtype == torch.bool:
+#                 new_attn_mask = torch.zeros_like(attn_mask, dtype=q.dtype)
+#                 new_attn_mask.masked_fill_(attn_mask, float("-inf"))
+#                 attn_mask = new_attn_mask
+#             attn += attn_mask
+        
+#         attn = attn.softmax(dim=-1)
+#         attn = self.attn_drop(attn)
+
+#         x = torch.bmm(attn, v)
+#         x = x.transpose(0, 1).reshape(L, N, C)
+
+#         x = self.out_proj(x)
+#         x = self.out_drop(x)
+#         return x
+    
+class Attention(torch.nn.Module):
+    def __init__(
+            self,
+            dim,
+            num_heads=8,
+            qkv_bias=True,
+            scaled_cosine=False,
+            scale_heads=False,
+            attn_drop=0.,
+            proj_drop=0.,
+            linear_module=torch.nn.Linear,
+    ):
+        super().__init__()
+        self.scaled_cosine = scaled_cosine
+        self.scale_heads = scale_heads
+        assert dim % num_heads == 0, 'dim should be divisible by num_heads'
+        self.num_heads = num_heads
+        self.head_dim = dim // num_heads
+        self.scale = self.head_dim ** -0.5
+
+        self.ln = torch.nn.LayerNorm(dim)
+
+        self.in_proj_linear = linear_module(dim, 3 * dim, bias = qkv_bias)
+
+        self.attn_drop = torch.nn.Dropout(attn_drop)
+        if self.scale_heads:
+            self.head_scale = torch.nn.Parameter(torch.ones((num_heads, 1, 1)))
+        else:
+            self.head_scale = None
+        self.out_proj = linear_module(dim, dim)
+        self.out_drop = torch.nn.Dropout(proj_drop)
+
+    def forward(self, x, attn_mask = None):
+        q, k, v = self.in_proj_linear(self.ln(x)).chunk(3, dim=-1)
+        x = torch.compile(torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask))
+        x = self.out_proj(x)
+        return x
+
+if __name__ == '__main__':
+
+
+    for dim in [1024, 1280, 1408, 1664, 2048]:
+        for batch in [2**14, 2**15, 2**16, 2**17]:
+
+            # if dim != 4096 or batch != 2**17:
+            #     continue
+
+            x1 = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
+            qu = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
+            ke = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
+            va = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
+
+            standard = Attention(dim).cuda()
+            my_standard = Attention(dim, linear_module=MyLinear).cuda()
+            sb = Attention(dim, linear_module=SwitchBackGlobalLinear).cuda()
+            standard_compiled = torch.compile(standard)
+            ln_model = torch.nn.Sequential(
+                    torch.nn.LayerNorm(dim),
+                    torch.nn.LayerNorm(dim),
+                ).cuda()
+            ln_model_compiled = torch.compile(
+                ln_model
+            )
+            gelu_model = torch.nn.Sequential(
+                    torch.nn.GELU(),
+                ).cuda()
+            gelu_model_compiled = torch.compile(
+                gelu_model
+            )
+
+
+            print('Model part 2')
+
+            repeat = 32
+            
+            info = {'repeat' : repeat, 'batch_size' : batch, 'dim' : dim}
+
+
+            k = 'attn'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_attn = torch.nn.functional.scaled_dot_product_attention(qu, ke, va)
+                ((2 ** 16) * out_attn).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_attn = torch.nn.functional.scaled_dot_product_attention(qu, ke, va)
+                ((2 ** 16) * out_attn).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            k = 'ln'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out = ln_model(x1)
+                ((2 ** 16) * out).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out = ln_model(x1)
+                ((2 ** 16) * out).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            x1.grad.zero_()
+
+            k = 'ln_compiled'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out = ln_model_compiled(x1)
+                ((2 ** 16) * out).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out = ln_model_compiled(x1)
+                ((2 ** 16) * out).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            k = 'gelu'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out = gelu_model(x1)
+                ((2 ** 16) * out).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out = gelu_model(x1)
+                ((2 ** 16) * out).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            x1.grad.zero_()
+
+            k = 'gelu_compiled'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out = gelu_model_compiled(x1)
+                ((2 ** 16) * out).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out = gelu_model_compiled(x1)
+                ((2 ** 16) * out).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+
+            x1.grad.zero_()
+
+            k = 'standard'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_standard = standard(x1)
+                ((2 ** 16) * out_standard).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_standard = standard(x1)
+                ((2 ** 16) * out_standard).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            x1.grad.zero_()
+            
+            k = 'my_standard'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_my_standard = my_standard(x1)
+                ((2 ** 16) * out_my_standard).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_my_standard = my_standard(x1)
+                ((2 ** 16) * out_my_standard).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+            # 
+            # 
+
+            x1.grad.zero_()
+
+
+            k = 'standard_compiled'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_standard_compiled = standard_compiled(x1)
+                ((2 ** 16) * out_standard_compiled).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_standard_compiled = standard_compiled(x1)
+                ((2 ** 16) * out_standard_compiled).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            x1.grad.zero_()
+
+
+            k = 'sb'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_sb = sb(x1)
+                ((2 ** 16) * out_sb).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_sb = sb(x1)
+                ((2 ** 16) * out_sb).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            info_json = json.dumps(info)
+
+
+            with open("tests/triton_tests/attn_info_ln.jsonl", "a") as file:
+                file.write(info_json + "\n")
+    
+
+        #exit()
+
+    # err_fused = (out_standard - out_fused).abs().mean()
+    # err_sb = (out_standard - out_sb).abs().mean()
+    # print('OUT', err_fused, err_sb)
+
+    # err_fused = (standard[d].weight.grad - fused_mlp.linear2.weight.grad).abs().mean()
+    # err_sb = (standard[d].weight.grad - sb[d].weight.grad).abs().mean()
+
+    # print('GW2', err_fused, err_sb)
+
+    # err_fused = (standard[0].weight.grad - fused_mlp.linear1.weight.grad).abs().mean()
+    # err_sb = (standard[0].weight.grad - sb[0].weight.grad).abs().mean()
+
+    # print('GW1', err_fused, err_sb)
+
+    # err_fused = (x1.grad - x2.grad).abs().mean()
+    # err_sb = (x1.grad - x3.grad).abs().mean()
+
+    # print('GX1', err_fused, err_sb)
+
+    # import pdb; pdb.set_trace()
+
+
+    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
\ No newline at end of file
diff --git a/tests/triton_tests/attn_info_ln.jsonl b/tests/triton_tests/attn_info_ln.jsonl
new file mode 100644
index 0000000..c2f239b
--- /dev/null
+++ b/tests/triton_tests/attn_info_ln.jsonl
@@ -0,0 +1,20 @@
+{"repeat": 32, "batch_size": 16384, "dim": 1024, "attn": 2.1414458751678467, "ln": 1.6365647315979004, "ln_compiled": 1.799367368221283, "gelu": 1.0930374264717102, "gelu_compiled": 1.094818115234375, "standard": 4.159651696681976, "my_standard": 4.696495831012726, "standard_compiled": 3.675594925880432, "sb": 4.1465312242507935}
+{"repeat": 32, "batch_size": 32768, "dim": 1024, "attn": 4.100345075130463, "ln": 3.1594187021255493, "ln_compiled": 3.437422215938568, "gelu": 2.109348773956299, "gelu_compiled": 2.11450457572937, "standard": 7.706902921199799, "my_standard": 8.799396455287933, "standard_compiled": 6.735652685165405, "sb": 7.66376405954361}
+{"repeat": 32, "batch_size": 65536, "dim": 1024, "attn": 7.953710854053497, "ln": 6.236426532268524, "ln_compiled": 6.746955215930939, "gelu": 4.164382815361023, "gelu_compiled": 4.171714186668396, "standard": 14.894917607307434, "my_standard": 17.042435705661774, "standard_compiled": 12.985721230506897, "sb": 14.6140456199646}
+{"repeat": 32, "batch_size": 131072, "dim": 1024, "attn": 15.638880431652069, "ln": 12.333884835243225, "ln_compiled": 13.272866606712341, "gelu": 8.228793740272522, "gelu_compiled": 8.243747055530548, "standard": 29.425136744976044, "my_standard": 35.08377820253372, "standard_compiled": 25.69487690925598, "sb": 28.760001063346863}
+{"repeat": 32, "batch_size": 16384, "dim": 1280, "attn": 2.627238631248474, "ln": 2.0098239183425903, "ln_compiled": 2.4197474122047424, "gelu": 1.3455823063850403, "gelu_compiled": 1.35069340467453, "standard": 5.554787814617157, "my_standard": 6.2290579080581665, "standard_compiled": 5.132324993610382, "sb": 5.4178386926651}
+{"repeat": 32, "batch_size": 32768, "dim": 1280, "attn": 5.0596073269844055, "ln": 3.903590142726898, "ln_compiled": 4.719957709312439, "gelu": 2.6203468441963196, "gelu_compiled": 2.627365291118622, "standard": 10.546617209911346, "my_standard": 11.850126087665558, "standard_compiled": 9.685918688774109, "sb": 10.088451206684113}
+{"repeat": 32, "batch_size": 65536, "dim": 1280, "attn": 9.845800697803497, "ln": 7.711298763751984, "ln_compiled": 9.292080998420715, "gelu": 5.172915756702423, "gelu_compiled": 5.180932581424713, "standard": 21.371990442276, "my_standard": 23.921720683574677, "standard_compiled": 19.669152796268463, "sb": 20.267993211746216}
+{"repeat": 32, "batch_size": 131072, "dim": 1280, "attn": 19.375711679458618, "ln": 15.333592891693115, "ln_compiled": 18.245264887809753, "gelu": 10.264746844768524, "gelu_compiled": 10.283775627613068, "standard": 41.79700464010239, "my_standard": 45.84744572639465, "standard_compiled": 38.35208714008331, "sb": 38.35364431142807}
+{"repeat": 32, "batch_size": 16384, "dim": 1408, "attn": 2.9110386967658997, "ln": 2.1998360753059387, "ln_compiled": 2.581551671028137, "gelu": 1.4731436967849731, "gelu_compiled": 1.478634774684906, "standard": 6.764143705368042, "my_standard": 7.331632077693939, "standard_compiled": 6.24605268239975, "sb": 6.325609982013702}
+{"repeat": 32, "batch_size": 32768, "dim": 1408, "attn": 5.542516708374023, "ln": 4.289716482162476, "ln_compiled": 5.065307021141052, "gelu": 2.8742849826812744, "gelu_compiled": 2.882353961467743, "standard": 12.749537825584412, "my_standard": 13.79828155040741, "standard_compiled": 11.728867888450623, "sb": 11.642806231975555}
+{"repeat": 32, "batch_size": 65536, "dim": 1408, "attn": 10.80312579870224, "ln": 8.471302688121796, "ln_compiled": 9.96796041727066, "gelu": 5.681410431861877, "gelu_compiled": 5.6905597448349, "standard": 25.19702911376953, "my_standard": 27.226239442825317, "standard_compiled": 23.22910726070404, "sb": 22.682294249534607}
+{"repeat": 32, "batch_size": 131072, "dim": 1408, "attn": 21.284908056259155, "ln": 16.85701310634613, "ln_compiled": 19.643358886241913, "gelu": 11.292420327663422, "gelu_compiled": 11.314474046230316, "standard": 50.06787180900574, "my_standard": 54.29378151893616, "standard_compiled": 44.58653926849365, "sb": 45.359253883361816}
+{"repeat": 32, "batch_size": 16384, "dim": 1664, "attn": 3.382459282875061, "ln": 2.6206374168395996, "ln_compiled": 2.9666870832443237, "gelu": 1.7263293266296387, "gelu_compiled": 1.7317384481430054, "standard": 8.414775133132935, "my_standard": 9.117811918258667, "standard_compiled": 7.7542513608932495, "sb": 7.70898163318634}
+{"repeat": 32, "batch_size": 32768, "dim": 1664, "attn": 6.468378007411957, "ln": 5.125559866428375, "ln_compiled": 5.791269242763519, "gelu": 3.3864825963974, "gelu_compiled": 3.3920034766197205, "standard": 16.016244888305664, "my_standard": 17.25083589553833, "standard_compiled": 14.60808515548706, "sb": 14.347739517688751}
+{"repeat": 32, "batch_size": 65536, "dim": 1664, "attn": 12.645229697227478, "ln": 10.13532280921936, "ln_compiled": 11.427387595176697, "gelu": 6.6957250237464905, "gelu_compiled": 6.711684167385101, "standard": 31.792201101779938, "my_standard": 34.31189805269241, "standard_compiled": 29.10037338733673, "sb": 28.3128023147583}
+{"repeat": 32, "batch_size": 131072, "dim": 1664, "attn": 24.970605969429016, "ln": 20.182937383651733, "ln_compiled": 22.7489173412323, "gelu": 13.326868414878845, "gelu_compiled": 13.345755636692047, "standard": 63.46555054187775, "my_standard": 70.19880414009094, "standard_compiled": 56.40875548124313, "sb": 56.22846633195877}
+{"repeat": 32, "batch_size": 16384, "dim": 2048, "attn": 4.080049693584442, "ln": 3.2655522227287292, "ln_compiled": 3.3329352736473083, "gelu": 2.108432352542877, "gelu_compiled": 2.114713191986084, "standard": 11.370822787284851, "my_standard": 12.234866619110107, "standard_compiled": 10.377615690231323, "sb": 10.209612548351288}
+{"repeat": 32, "batch_size": 32768, "dim": 2048, "attn": 7.74645060300827, "ln": 6.418220698833466, "ln_compiled": 6.55733048915863, "gelu": 4.163652658462524, "gelu_compiled": 4.171028733253479, "standard": 21.39316499233246, "my_standard": 23.04024249315262, "standard_compiled": 19.431106746196747, "sb": 18.732361495494843}
+{"repeat": 32, "batch_size": 65536, "dim": 2048, "attn": 15.235155820846558, "ln": 12.684382498264313, "ln_compiled": 12.895286083221436, "gelu": 8.228868246078491, "gelu_compiled": 8.242718875408173, "standard": 42.55136102437973, "my_standard": 45.82635313272476, "standard_compiled": 38.663335144519806, "sb": 36.76284849643707}
+{"repeat": 32, "batch_size": 131072, "dim": 2048, "attn": 30.24454414844513, "ln": 25.25731921195984, "ln_compiled": 25.67601203918457, "gelu": 16.384944319725037, "gelu_compiled": 16.409948468208313, "standard": 84.26841348409653, "my_standard": 91.10662341117859, "standard_compiled": 76.89539343118668, "sb": 71.73164188861847}
diff --git a/tests/triton_tests/full_matrix_decomp.py b/tests/triton_tests/full_matrix_decomp.py
new file mode 100644
index 0000000..de37b95
--- /dev/null
+++ b/tests/triton_tests/full_matrix_decomp.py
@@ -0,0 +1,353 @@
+import json
+
+import time
+import torch
+import torch.nn as nn
+import bitsandbytes.nn as bnn
+from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear, MyLinear
+
+from bitsandbytes.nn.triton_utils.v0.quantize_rowwise_nogroup import quantize_rowwise_nogroup
+from bitsandbytes.nn.triton_utils.v0.quantize_columnwise_nogroup_transpose import quantize_columnwise_nogroup_transpose
+from bitsandbytes.nn.triton_utils.v0.int8_matmul_rowwise_dequantize_bias import int8_matmul_rowwise_dequantize_bias
+from bitsandbytes.nn.triton_utils.v0.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
+from bitsandbytes.nn.triton_utils.v0.quantize_global import quantize_global, quantize_global_transpose
+from bitsandbytes.nn.triton_utils.v0.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze, int8_matmul_mixed_dequanitze_bias
+
+# KNOW ISSUE: need to optimize "w_quantize_colwise_transpose" when embeddim is too large.
+# not that big of an issue.
+
+def get_time_standard_fwd(k, v):
+
+    x = torch.randn(batch_size, dim_in, dtype=torch.float16).cuda()
+    g = torch.randn(batch_size, dim_out, dtype=torch.float16).cuda()
+
+    ##### time matmul 1
+    for _ in range(repeat // 2):
+        g.t().matmul(x)
+
+    torch.cuda.synchronize()
+    start = time.time()
+    for _ in range(repeat):
+        g.t().matmul(x)
+
+    torch.cuda.synchronize()
+    end = time.time()
+    print(f"time {k}: {(end - start) / repeat * 1000:.3f} ms")
+    return (end - start) / repeat * 1000
+
+if __name__ == '__main__':
+    torch.manual_seed(0)
+    #for (dim, wm) in [(1024, 4), (1280, 4), (1408, 4.3637), (1664, 4.9231), (2048, 4), (4096, 4), (8096, 4)]
+    for (dim, wm) in [(1408, 4), (1664, 4),]:
+
+        for batch_size in [256*32, 256*64, 256*128, 256*256, 256*512]:
+            #for batch_size in [256*256, 256*512]:
+
+            for switch in [False, True]:
+
+
+                # hparams
+                repeat = 64
+                batch_size = batch_size
+                dim_out = dim * wm
+                dim_in = dim
+                if switch:
+                    dim_out = dim
+                    dim_in = wm * dim
+
+                dim_in = round(dim_in)
+                dim_out = round(dim_out)
+
+
+                # simulate forward pass
+                x = torch.randn(batch_size, dim_in, dtype=torch.float16).cuda()
+                g = torch.randn(batch_size, dim_out, dtype=torch.float16).cuda()
+                w = torch.randn(dim_out, dim_in, dtype=torch.float16).cuda()
+                
+                x_int8 = x.clone().to(torch.int8)
+                g_int8 = g.clone().to(torch.int8)
+                w_int8 = w.clone().to(torch.int8)
+                wt_int8 = w.t().contiguous().clone().to(torch.int8)
+                state_x_rowwise = x.max(dim=1)[0]
+                state_g_rowwise = g.max(dim=1)[0]
+                state_w_columnwise = w.max(dim=0)[0]
+                state_w_rowwise = w.max(dim=1)[0]
+                state_w_global = w.max()
+
+                info = {'repeat' : repeat, 'batch_size' : batch_size, 'dim_out' : dim_out, 'dim_in' : dim_in, 'wm' : wm, 'switch' : switch}
+
+                k = 'standard_fwd'
+                for _ in range(repeat // 2):
+                    x.matmul(w.t())
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    x.matmul(w.t())
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+                k = 'standard_gw'
+                for _ in range(repeat // 2):
+                    g.t().matmul(x)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    g.t().matmul(x)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+                k = 'standard_gx'
+                for _ in range(repeat // 2):
+                    g.matmul(w)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    g.matmul(w)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+
+                k = 'rowwise_fwd'
+                for _ in range(repeat // 2):
+                    int8_matmul_rowwise_dequantize(x_int8, w_int8.t(), state_x_rowwise, state_w_columnwise)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    int8_matmul_rowwise_dequantize(x_int8, w_int8.t(), state_x_rowwise, state_w_columnwise)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+                k = 'rowwise_bwd'
+                for _ in range(repeat // 2):
+                    int8_matmul_rowwise_dequantize(g_int8, wt_int8.t(), state_x_rowwise, state_w_rowwise)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    int8_matmul_rowwise_dequantize(g_int8, wt_int8.t(), state_x_rowwise, state_w_rowwise)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+                k = 'global_fwd'
+                for _ in range(repeat // 2):
+                    int8_matmul_mixed_dequanitze(x_int8, w_int8.t(), state_x_rowwise, state_w_global)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    int8_matmul_mixed_dequanitze(x_int8, w_int8.t(), state_x_rowwise, state_w_global)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+                k = 'global_bwd'
+                for _ in range(repeat // 2):
+                    int8_matmul_mixed_dequanitze(g_int8, wt_int8.t(), state_x_rowwise, state_w_global)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    int8_matmul_mixed_dequanitze(g_int8, wt_int8.t(), state_x_rowwise, state_w_global)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+                k = 'x_quantize_rowwise'
+                for _ in range(repeat // 2):
+                    quantize_rowwise_nogroup(x)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    quantize_rowwise_nogroup(x)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+                k = 'g_quantize_rowwise'
+                for _ in range(repeat // 2):
+                    quantize_rowwise_nogroup(g)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    quantize_rowwise_nogroup(g)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+                k = 'w_quantize_rowwise'
+                for _ in range(repeat // 2):
+                    quantize_rowwise_nogroup(w)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    quantize_rowwise_nogroup(w)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+                k = 'w_quantize_colwise_transpose'
+                for _ in range(repeat // 2):
+                    quantize_columnwise_nogroup_transpose(w)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    quantize_columnwise_nogroup_transpose(w)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+                k = 'w_quantize_global'
+                for _ in range(repeat // 2):
+                    quantize_global(w)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    quantize_global(w)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+                k = 'w_quantize_global_transpose'
+                for _ in range(repeat // 2):
+                    quantize_global_transpose(w)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    quantize_global_transpose(w)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+                k = 'cast_x'
+                for _ in range(repeat // 2):
+                    newx = x.to(torch.int8)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    newx = x.to(torch.int8)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+
+                k = 'cast_g'
+                for _ in range(repeat // 2):
+                    newx = g.to(torch.int8)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    newx = g.to(torch.int8)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+
+                k = 'cast_w'
+                for _ in range(repeat // 2):
+                    newx = w.to(torch.int8)
+
+                torch.cuda.synchronize()
+                start = time.time()
+                for _ in range(repeat):
+                    newx = w.to(torch.int8)
+
+                torch.cuda.synchronize()
+                end = time.time()
+                ms = (end - start) / repeat * 1000
+                print(f"time {k}: {ms:.3f} ms")
+                info[k] = ms
+
+
+                time_standard = info['standard_fwd'] + info['standard_gx'] + info['standard_gw']
+                time_rowwise = info['x_quantize_rowwise'] + info['g_quantize_rowwise']  + info['w_quantize_colwise_transpose'] + info['w_quantize_rowwise'] + info['standard_gw'] + info['rowwise_fwd'] + info['rowwise_bwd']
+                time_global = info['x_quantize_rowwise'] + info['g_quantize_rowwise'] + info['w_quantize_global'] + info['w_quantize_global_transpose'] + info['standard_gw'] + info['global_fwd'] + info['global_bwd']
+
+                print('TOTAL STANDARD', time_standard)
+                print('TOTAL ROWWISE', time_rowwise)
+                print('TOTAL GLOBAL', time_global)
+
+                print('speedup', -100*(time_global - time_standard)/time_standard)
+
+                info['time_standard'] = time_standard
+                info['time_rowwise'] = time_rowwise
+                info['time_global'] = time_global
+
+
+
+                info_json = json.dumps(info)
+
+
+                with open("tests/triton_tests/info.jsonl", "a") as file:
+                    file.write(info_json + "\n")
\ No newline at end of file
diff --git a/tests/triton_tests/info.jsonl b/tests/triton_tests/info.jsonl
new file mode 100644
index 0000000..879a65f
--- /dev/null
+++ b/tests/triton_tests/info.jsonl
@@ -0,0 +1,142 @@
+{"repeat": 64, "batch_size": 1024, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.047907233238220215, "standard_gw": 0.04326179623603821, "standard_gx": 0.042986124753952026, "rowwise_fwd": 0.03902614116668701, "rowwise_bwd": 0.038955360651016235, "global_fwd": 0.03974884748458862, "global_bwd": 0.0391639769077301, "x_quantize_rowwise": 0.02619624137878418, "g_quantize_rowwise": 0.02695620059967041, "w_quantize_rowwise": 0.02631545066833496, "w_quantize_colwise_transpose": 0.08677691221237183, "w_quantize_global": 0.07359683513641357, "w_quantize_global_transpose": 0.08226558566093445, "cast_x": 0.007815659046173096, "cast_g": 0.016041100025177002, "cast_w": 0.01600012183189392, "time_standard": 0.13415515422821045, "time_rowwise": 0.28748810291290283, "time_global": 0.33118948340415955}
+{"repeat": 64, "batch_size": 1024, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.04236400127410889, "standard_gw": 0.04898756742477417, "standard_gx": 0.04731118679046631, "rowwise_fwd": 0.03933534026145935, "rowwise_bwd": 0.03947317600250244, "global_fwd": 0.03688037395477295, "global_bwd": 0.039167702198028564, "x_quantize_rowwise": 0.02533942461013794, "g_quantize_rowwise": 0.02516806125640869, "w_quantize_rowwise": 0.02528354525566101, "w_quantize_colwise_transpose": 0.0903792679309845, "w_quantize_global": 0.0997595489025116, "w_quantize_global_transpose": 0.10209530591964722, "cast_x": 0.01626834273338318, "cast_g": 0.011973083019256592, "cast_w": 0.016044825315475464, "time_standard": 0.13866275548934937, "time_rowwise": 0.2939663827419281, "time_global": 0.37739798426628113}
+{"repeat": 64, "batch_size": 2048, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.07753819227218628, "standard_gw": 0.08026883006095886, "standard_gx": 0.0906921923160553, "rowwise_fwd": 0.0630207359790802, "rowwise_bwd": 0.058263540267944336, "global_fwd": 0.06167963147163391, "global_bwd": 0.05801767110824585, "x_quantize_rowwise": 0.034205615520477295, "g_quantize_rowwise": 0.03341957926750183, "w_quantize_rowwise": 0.03244727849960327, "w_quantize_colwise_transpose": 0.08665025234222412, "w_quantize_global": 0.09483471512794495, "w_quantize_global_transpose": 0.10108202695846558, "cast_x": 0.012032687664031982, "cast_g": 0.03752484917640686, "cast_w": 0.01605972647666931, "time_standard": 0.24849921464920044, "time_rowwise": 0.3882758319377899, "time_global": 0.46350806951522827}
+{"repeat": 64, "batch_size": 2048, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.09099021553993225, "standard_gw": 0.0799819827079773, "standard_gx": 0.07644668221473694, "rowwise_fwd": 0.05840510129928589, "rowwise_bwd": 0.06359070539474487, "global_fwd": 0.057831406593322754, "global_bwd": 0.06148591637611389, "x_quantize_rowwise": 0.03434717655181885, "g_quantize_rowwise": 0.03361701965332031, "w_quantize_rowwise": 0.03209337592124939, "w_quantize_colwise_transpose": 0.09028613567352295, "w_quantize_global": 0.0944770872592926, "w_quantize_global_transpose": 0.0994168221950531, "cast_x": 0.03769621253013611, "cast_g": 0.012010335922241211, "cast_w": 0.01600012183189392, "time_standard": 0.24741888046264648, "time_rowwise": 0.39232149720191956, "time_global": 0.4611574113368988}
+{"repeat": 64, "batch_size": 4096, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.14450401067733765, "standard_gw": 0.14326348900794983, "standard_gx": 0.14762207865715027, "rowwise_fwd": 0.10525062680244446, "rowwise_bwd": 0.09800493717193604, "global_fwd": 0.10229647159576416, "global_bwd": 0.09718164801597595, "x_quantize_rowwise": 0.03429874777793884, "g_quantize_rowwise": 0.04567950963973999, "w_quantize_rowwise": 0.03365054726600647, "w_quantize_colwise_transpose": 0.08654966950416565, "w_quantize_global": 0.09663775563240051, "w_quantize_global_transpose": 0.10383129119873047, "cast_x": 0.01605972647666931, "cast_g": 0.08305534720420837, "cast_w": 0.01624971628189087, "time_standard": 0.43538957834243774, "time_rowwise": 0.5466975271701813, "time_global": 0.6231889128684998}
+{"repeat": 64, "batch_size": 4096, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.14496594667434692, "standard_gw": 0.1412704586982727, "standard_gx": 0.14446303248405457, "rowwise_fwd": 0.10041892528533936, "rowwise_bwd": 0.10674074292182922, "global_fwd": 0.09856373071670532, "global_bwd": 0.10319426655769348, "x_quantize_rowwise": 0.045571476221084595, "g_quantize_rowwise": 0.03273040056228638, "w_quantize_rowwise": 0.033464282751083374, "w_quantize_colwise_transpose": 0.09154900908470154, "w_quantize_global": 0.0964440405368805, "w_quantize_global_transpose": 0.1031048595905304, "cast_x": 0.0835023820400238, "cast_g": 0.016242265701293945, "cast_w": 0.016283243894577026, "time_standard": 0.4306994378566742, "time_rowwise": 0.5517452955245972, "time_global": 0.6208792328834534}
+{"repeat": 64, "batch_size": 8192, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.28106942772865295, "standard_gw": 0.2841465175151825, "standard_gx": 0.301852822303772, "rowwise_fwd": 0.19879266619682312, "rowwise_bwd": 0.16228482127189636, "global_fwd": 0.19488856196403503, "global_bwd": 0.1607760787010193, "x_quantize_rowwise": 0.033974647521972656, "g_quantize_rowwise": 0.08221715688705444, "w_quantize_rowwise": 0.03248825669288635, "w_quantize_colwise_transpose": 0.08646398782730103, "w_quantize_global": 0.0939294695854187, "w_quantize_global_transpose": 0.09895861148834229, "cast_x": 0.03753975033760071, "cast_g": 0.15900656580924988, "cast_w": 0.01603737473487854, "time_standard": 0.8670687675476074, "time_rowwise": 0.8803680539131165, "time_global": 0.9488910436630249}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.26415660977363586, "standard_gw": 0.2679601311683655, "standard_gx": 0.30617788434028625, "rowwise_fwd": 0.180121511220932, "rowwise_bwd": 0.21555647253990173, "global_fwd": 0.17506256699562073, "global_bwd": 0.2116672694683075, "x_quantize_rowwise": 0.08289515972137451, "g_quantize_rowwise": 0.033795833587646484, "w_quantize_rowwise": 0.03366544842720032, "w_quantize_colwise_transpose": 0.09965524077415466, "w_quantize_global": 0.09595602750778198, "w_quantize_global_transpose": 0.1024976372718811, "cast_x": 0.1602955162525177, "cast_g": 0.03787502646446228, "cast_w": 0.016216188669204712, "time_standard": 0.8382946252822876, "time_rowwise": 0.9136497974395752, "time_global": 0.9698346257209778}
+{"repeat": 64, "batch_size": 16384, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.5719438195228577, "standard_gw": 0.524863600730896, "standard_gx": 0.6005167961120605, "rowwise_fwd": 0.3750324249267578, "rowwise_bwd": 0.28166547417640686, "global_fwd": 0.3674700856208801, "global_bwd": 0.2798214554786682, "x_quantize_rowwise": 0.04655122756958008, "g_quantize_rowwise": 0.1555122435092926, "w_quantize_rowwise": 0.03437697887420654, "w_quantize_colwise_transpose": 0.08634477853775024, "w_quantize_global": 0.09759142994880676, "w_quantize_global_transpose": 0.10081753134727478, "cast_x": 0.0828765332698822, "cast_g": 0.31184032559394836, "cast_w": 0.016063451766967773, "time_standard": 1.6973242163658142, "time_rowwise": 1.5043467283248901, "time_global": 1.5726275742053986}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.5423910915851593, "standard_gw": 0.5674734711647034, "standard_gx": 0.5907565355300903, "rowwise_fwd": 0.3149174153804779, "rowwise_bwd": 0.3899820148944855, "global_fwd": 0.2909451723098755, "global_bwd": 0.3783814609050751, "x_quantize_rowwise": 0.15584751963615417, "g_quantize_rowwise": 0.04688650369644165, "w_quantize_rowwise": 0.031463801860809326, "w_quantize_colwise_transpose": 0.09072571992874146, "w_quantize_global": 0.09774044156074524, "w_quantize_global_transpose": 0.10405108332633972, "cast_x": 0.3111511468887329, "cast_g": 0.08282437920570374, "cast_w": 0.015992671251296997, "time_standard": 1.700621098279953, "time_rowwise": 1.5972964465618134, "time_global": 1.6413256525993347}
+{"repeat": 64, "batch_size": 32768, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 1.2115389108657837, "standard_gw": 1.1259466409683228, "standard_gx": 1.1027492582798004, "rowwise_fwd": 0.7407031953334808, "rowwise_bwd": 0.5539208650588989, "global_fwd": 0.7214657962322235, "global_bwd": 0.5515590310096741, "x_quantize_rowwise": 0.08765608072280884, "g_quantize_rowwise": 0.3022328019142151, "w_quantize_rowwise": 0.03347545862197876, "w_quantize_colwise_transpose": 0.08694455027580261, "w_quantize_global": 0.09706243872642517, "w_quantize_global_transpose": 0.10102614760398865, "cast_x": 0.1592189073562622, "cast_g": 0.6166175007820129, "cast_w": 0.01607835292816162, "time_standard": 3.440234810113907, "time_rowwise": 2.930879592895508, "time_global": 2.986948937177658}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 1.1010989546775818, "standard_gw": 1.1352524161338806, "standard_gx": 1.1676251888275146, "rowwise_fwd": 0.5864761769771576, "rowwise_bwd": 0.7485374808311462, "global_fwd": 0.5547590553760529, "global_bwd": 0.7249303162097931, "x_quantize_rowwise": 0.3021731972694397, "g_quantize_rowwise": 0.08751824498176575, "w_quantize_rowwise": 0.033952295780181885, "w_quantize_colwise_transpose": 0.09011104702949524, "w_quantize_global": 0.09443238377571106, "w_quantize_global_transpose": 0.10376051068305969, "cast_x": 0.6167255342006683, "cast_g": 0.15922263264656067, "cast_w": 0.016070902347564697, "time_standard": 3.403976559638977, "time_rowwise": 2.984020859003067, "time_global": 3.0028261244297028}
+{"repeat": 64, "batch_size": 65536, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 2.472013235092163, "standard_gw": 2.218998968601227, "standard_gx": 2.2116564214229584, "rowwise_fwd": 1.466125249862671, "rowwise_bwd": 1.0577328503131866, "global_fwd": 1.431729644536972, "global_bwd": 1.0476894676685333, "x_quantize_rowwise": 0.16929209232330322, "g_quantize_rowwise": 0.5952082574367523, "w_quantize_rowwise": 0.032100826501846313, "w_quantize_colwise_transpose": 0.08670613169670105, "w_quantize_global": 0.09590759873390198, "w_quantize_global_transpose": 0.10358169674873352, "cast_x": 0.31175464391708374, "cast_g": 1.2264922261238098, "cast_w": 0.016067177057266235, "time_standard": 6.902668625116348, "time_rowwise": 5.626164376735687, "time_global": 5.662407726049423}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 2.181064337491989, "standard_gw": 2.2256113588809967, "standard_gx": 2.3229196667671204, "rowwise_fwd": 1.0886266827583313, "rowwise_bwd": 1.4654062688350677, "global_fwd": 1.0472461581230164, "global_bwd": 1.433148980140686, "x_quantize_rowwise": 0.5954094231128693, "g_quantize_rowwise": 0.16921386122703552, "w_quantize_rowwise": 0.03442913293838501, "w_quantize_colwise_transpose": 0.09007751941680908, "w_quantize_global": 0.09575113654136658, "w_quantize_global_transpose": 0.10503828525543213, "cast_x": 1.2264810502529144, "cast_g": 0.3119036555290222, "cast_w": 0.01605600118637085, "time_standard": 6.729595363140106, "time_rowwise": 5.668774247169495, "time_global": 5.671419203281403}
+{"repeat": 64, "batch_size": 1024, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 0.08157268166542053, "standard_gw": 0.07601454854011536, "standard_gx": 0.09059160947799683, "rowwise_fwd": 0.053066760301589966, "rowwise_bwd": 0.04787370562553406, "global_fwd": 0.05243346095085144, "global_bwd": 0.04809349775314331, "x_quantize_rowwise": 0.02571195363998413, "g_quantize_rowwise": 0.025898218154907227, "w_quantize_rowwise": 0.02714991569519043, "w_quantize_colwise_transpose": 0.19773468375205994, "w_quantize_global": 0.07273256778717041, "w_quantize_global_transpose": 0.08068978786468506, "cast_x": 0.008046627044677734, "cast_g": 0.0252649188041687, "cast_w": 0.0393986701965332, "time_standard": 0.24817883968353271, "time_rowwise": 0.4534497857093811, "time_global": 0.38157403469085693}
+{"repeat": 64, "batch_size": 1024, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 0.09134411811828613, "standard_gw": 0.07602199912071228, "standard_gx": 0.09555742144584656, "rowwise_fwd": 0.047691166400909424, "rowwise_bwd": 0.05320459604263306, "global_fwd": 0.04759058356285095, "global_bwd": 0.0521540641784668, "x_quantize_rowwise": 0.025313347578048706, "g_quantize_rowwise": 0.025119632482528687, "w_quantize_rowwise": 0.0269375741481781, "w_quantize_colwise_transpose": 0.1857280731201172, "w_quantize_global": 0.07451698184013367, "w_quantize_global_transpose": 0.08009746670722961, "cast_x": 0.02547726035118103, "cast_g": 0.007897615432739258, "cast_w": 0.039536505937576294, "time_standard": 0.26292353868484497, "time_rowwise": 0.44001638889312744, "time_global": 0.3808140754699707}
+{"repeat": 64, "batch_size": 131072, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 4.940010607242584, "standard_gw": 4.434864968061447, "standard_gx": 4.4097937643527985, "rowwise_fwd": 2.9467344284057617, "rowwise_bwd": 2.09181010723114, "global_fwd": 2.8806477785110474, "global_bwd": 2.0816922187805176, "x_quantize_rowwise": 0.33279508352279663, "g_quantize_rowwise": 1.1817067861557007, "w_quantize_rowwise": 0.03306567668914795, "w_quantize_colwise_transpose": 0.08666515350341797, "w_quantize_global": 0.0957287847995758, "w_quantize_global_transpose": 0.10242313146591187, "cast_x": 0.6165988743305206, "cast_g": 2.446405589580536, "cast_w": 0.016100704669952393, "time_standard": 13.78466933965683, "time_rowwise": 11.107642203569412, "time_global": 11.109858751296997}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 4.293464124202728, "standard_gw": 4.461295902729034, "standard_gx": 4.638340324163437, "rowwise_fwd": 2.116892486810684, "rowwise_bwd": 2.9479674994945526, "global_fwd": 2.0760856568813324, "global_bwd": 2.8755851089954376, "x_quantize_rowwise": 1.1818408966064453, "g_quantize_rowwise": 0.33276528120040894, "w_quantize_rowwise": 0.03287568688392639, "w_quantize_colwise_transpose": 0.09038299322128296, "w_quantize_global": 0.09598955512046814, "w_quantize_global_transpose": 0.100649893283844, "cast_x": 2.4467408657073975, "cast_g": 0.6165951490402222, "cast_w": 0.016082078218460083, "time_standard": 13.3931003510952, "time_rowwise": 11.164020746946335, "time_global": 11.12421229481697}
+{"repeat": 64, "batch_size": 2048, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 0.1699887216091156, "standard_gw": 0.14045089483261108, "standard_gx": 0.17407909035682678, "rowwise_fwd": 0.10082125663757324, "rowwise_bwd": 0.08344277739524841, "global_fwd": 0.09941309690475464, "global_bwd": 0.08352473378181458, "x_quantize_rowwise": 0.025317072868347168, "g_quantize_rowwise": 0.03849714994430542, "w_quantize_rowwise": 0.02596527338027954, "w_quantize_colwise_transpose": 0.19767135381698608, "w_quantize_global": 0.07257238030433655, "w_quantize_global_transpose": 0.08127838373184204, "cast_x": 0.012032687664031982, "cast_g": 0.06345659494400024, "cast_w": 0.03953278064727783, "time_standard": 0.48451870679855347, "time_rowwise": 0.612165778875351, "time_global": 0.5410537123680115}
+{"repeat": 64, "batch_size": 2048, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 0.14855340123176575, "standard_gw": 0.15553459525108337, "standard_gx": 0.16282498836517334, "rowwise_fwd": 0.09259581565856934, "rowwise_bwd": 0.11080875992774963, "global_fwd": 0.09166449308395386, "global_bwd": 0.10796263813972473, "x_quantize_rowwise": 0.03939121961593628, "g_quantize_rowwise": 0.025227665901184082, "w_quantize_rowwise": 0.027202069759368896, "w_quantize_colwise_transpose": 0.1940988004207611, "w_quantize_global": 0.07397681474685669, "w_quantize_global_transpose": 0.08178502321243286, "cast_x": 0.065632164478302, "cast_g": 0.01268833875656128, "cast_w": 0.04057586193084717, "time_standard": 0.46691298484802246, "time_rowwise": 0.6448589265346527, "time_global": 0.5755424499511719}
+{"repeat": 64, "batch_size": 4096, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 0.32291561365127563, "standard_gw": 0.2875030040740967, "standard_gx": 0.3379322588443756, "rowwise_fwd": 0.19295886158943176, "rowwise_bwd": 0.16265735030174255, "global_fwd": 0.19031018018722534, "global_bwd": 0.16187503933906555, "x_quantize_rowwise": 0.02730637788772583, "g_quantize_rowwise": 0.06797909736633301, "w_quantize_rowwise": 0.02642720937728882, "w_quantize_colwise_transpose": 0.19745901226997375, "w_quantize_global": 0.07253512740135193, "w_quantize_global_transpose": 0.08047744631767273, "cast_x": 0.022336840629577637, "cast_g": 0.1209154725074768, "cast_w": 0.039268285036087036, "time_standard": 0.9483508765697479, "time_rowwise": 0.9622909128665924, "time_global": 0.8879862725734711}
+{"repeat": 64, "batch_size": 4096, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 0.3019683063030243, "standard_gw": 0.288400799036026, "standard_gx": 0.3154948353767395, "rowwise_fwd": 0.18264353275299072, "rowwise_bwd": 0.2075284719467163, "global_fwd": 0.17072632908821106, "global_bwd": 0.1960061490535736, "x_quantize_rowwise": 0.06893649697303772, "g_quantize_rowwise": 0.02561509609222412, "w_quantize_rowwise": 0.026594847440719604, "w_quantize_colwise_transpose": 0.18575787544250488, "w_quantize_global": 0.07266923785209656, "w_quantize_global_transpose": 0.08060410618782043, "cast_x": 0.12182071805000305, "cast_g": 0.022590160369873047, "cast_w": 0.04000961780548096, "time_standard": 0.9058639407157898, "time_rowwise": 0.9854771196842194, "time_global": 0.9029582142829895}
+{"repeat": 64, "batch_size": 8192, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 0.6489232182502747, "standard_gw": 0.5987770855426788, "standard_gx": 0.6644465029239655, "rowwise_fwd": 0.35867467522621155, "rowwise_bwd": 0.31855329871177673, "global_fwd": 0.353105366230011, "global_bwd": 0.31349435448646545, "x_quantize_rowwise": 0.03382191061973572, "g_quantize_rowwise": 0.12668967247009277, "w_quantize_rowwise": 0.02681836485862732, "w_quantize_colwise_transpose": 0.19756704568862915, "w_quantize_global": 0.07336586713790894, "w_quantize_global_transpose": 0.08036196231842041, "cast_x": 0.0583939254283905, "cast_g": 0.23520365357398987, "cast_w": 0.03935396671295166, "time_standard": 1.912146806716919, "time_rowwise": 1.660902053117752, "time_global": 1.579616218805313}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 0.5789436399936676, "standard_gw": 0.6130896508693695, "standard_gx": 0.6558857858181, "rowwise_fwd": 0.3464221954345703, "rowwise_bwd": 0.3650560975074768, "global_fwd": 0.3174394369125366, "global_bwd": 0.35758689045906067, "x_quantize_rowwise": 0.12686848640441895, "g_quantize_rowwise": 0.034302473068237305, "w_quantize_rowwise": 0.02745911478996277, "w_quantize_colwise_transpose": 0.1847483217716217, "w_quantize_global": 0.07192790508270264, "w_quantize_global_transpose": 0.08050352334976196, "cast_x": 0.23534893989562988, "cast_g": 0.05846098065376282, "cast_w": 0.03949552774429321, "time_standard": 1.847919076681137, "time_rowwise": 1.6979463398456573, "time_global": 1.6017183661460876}
+{"repeat": 64, "batch_size": 1024, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.0573769211769104, "standard_gw": 0.061042606830596924, "standard_gx": 0.0783093273639679, "rowwise_fwd": 0.046797096729278564, "rowwise_bwd": 0.04620850086212158, "global_fwd": 0.04521384835243225, "global_bwd": 0.04425644874572754, "x_quantize_rowwise": 0.03257766366004944, "g_quantize_rowwise": 0.03449246287345886, "w_quantize_rowwise": 0.033657997846603394, "w_quantize_colwise_transpose": 0.1426301896572113, "w_quantize_global": 0.09257346391677856, "w_quantize_global_transpose": 0.10266527533531189, "cast_x": 0.011991709470748901, "cast_g": 0.020314007997512817, "cast_w": 0.027321279048919678, "time_standard": 0.19672885537147522, "time_rowwise": 0.39740651845932007, "time_global": 0.41282176971435547}
+{"repeat": 64, "batch_size": 1024, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.07858872413635254, "standard_gw": 0.06122514605522156, "standard_gx": 0.05758553743362427, "rowwise_fwd": 0.04598498344421387, "rowwise_bwd": 0.04618242383003235, "global_fwd": 0.04597380757331848, "global_bwd": 0.046450644731521606, "x_quantize_rowwise": 0.03332272171974182, "g_quantize_rowwise": 0.033274292945861816, "w_quantize_rowwise": 0.0337548553943634, "w_quantize_colwise_transpose": 0.14807656407356262, "w_quantize_global": 0.09948387742042542, "w_quantize_global_transpose": 0.10120868682861328, "cast_x": 0.020120292901992798, "cast_g": 0.011488795280456543, "cast_w": 0.027466565370559692, "time_standard": 0.19739940762519836, "time_rowwise": 0.40182098746299744, "time_global": 0.420939177274704}
+{"repeat": 64, "batch_size": 16384, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 1.3515166938304901, "standard_gw": 1.1536777019500732, "standard_gx": 1.224767416715622, "rowwise_fwd": 0.6912238895893097, "rowwise_bwd": 0.5562454462051392, "global_fwd": 0.67867711186409, "global_bwd": 0.5518943071365356, "x_quantize_rowwise": 0.06204098463058472, "g_quantize_rowwise": 0.24417787790298462, "w_quantize_rowwise": 0.025238841772079468, "w_quantize_colwise_transpose": 0.19756704568862915, "w_quantize_global": 0.07240846753120422, "w_quantize_global_transpose": 0.08046254515647888, "cast_x": 0.11138245463371277, "cast_g": 0.4637613892555237, "cast_w": 0.03935769200325012, "time_standard": 3.7299618124961853, "time_rowwise": 2.9301717877388, "time_global": 2.8433389961719513}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 1.2090615928173065, "standard_gw": 1.1396333575248718, "standard_gx": 1.2223869562149048, "rowwise_fwd": 0.5849376320838928, "rowwise_bwd": 0.6985403597354889, "global_fwd": 0.5565173923969269, "global_bwd": 0.6789751350879669, "x_quantize_rowwise": 0.2445802092552185, "g_quantize_rowwise": 0.06200745701789856, "w_quantize_rowwise": 0.027727335691452026, "w_quantize_colwise_transpose": 0.18501654267311096, "w_quantize_global": 0.07182732224464417, "w_quantize_global_transpose": 0.08069723844528198, "cast_x": 0.4638172686100006, "cast_g": 0.11136755347251892, "cast_w": 0.039517879486083984, "time_standard": 3.571081906557083, "time_rowwise": 2.9424428939819336, "time_global": 2.834238111972809}
+{"repeat": 64, "batch_size": 32768, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 2.683013677597046, "standard_gw": 2.2987723350524902, "standard_gx": 2.4510622024536133, "rowwise_fwd": 1.359008252620697, "rowwise_bwd": 1.1018887162208557, "global_fwd": 1.3311207294464111, "global_bwd": 1.0954029858112335, "x_quantize_rowwise": 0.11804327368736267, "g_quantize_rowwise": 0.479232519865036, "w_quantize_rowwise": 0.026308000087738037, "w_quantize_colwise_transpose": 0.1975223422050476, "w_quantize_global": 0.07223710417747498, "w_quantize_global_transpose": 0.08019432425498962, "cast_x": 0.2161264419555664, "cast_g": 0.9207837283611298, "cast_w": 0.03929063677787781, "time_standard": 7.432848215103149, "time_rowwise": 5.580775439739227, "time_global": 5.475003272294998}
+{"repeat": 64, "batch_size": 2048, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.11088326573371887, "standard_gw": 0.10994821786880493, "standard_gx": 0.12367218732833862, "rowwise_fwd": 0.07392093539237976, "rowwise_bwd": 0.07127970457077026, "global_fwd": 0.0730752944946289, "global_bwd": 0.07089227437973022, "x_quantize_rowwise": 0.03361701965332031, "g_quantize_rowwise": 0.03525242209434509, "w_quantize_rowwise": 0.03341585397720337, "w_quantize_colwise_transpose": 0.14318525791168213, "w_quantize_global": 0.09704753756523132, "w_quantize_global_transpose": 0.10221078991889954, "cast_x": 0.012002885341644287, "cast_g": 0.05240738391876221, "cast_w": 0.027313828468322754, "time_standard": 0.3445036709308624, "time_rowwise": 0.5006194114685059, "time_global": 0.5220435559749603}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 2.4625882506370544, "standard_gw": 2.421922981739044, "standard_gx": 2.380847930908203, "rowwise_fwd": 1.1231191456317902, "rowwise_bwd": 1.360483467578888, "global_fwd": 1.0947436094284058, "global_bwd": 1.3314113020896912, "x_quantize_rowwise": 0.4795975983142853, "g_quantize_rowwise": 0.11777132749557495, "w_quantize_rowwise": 0.02699345350265503, "w_quantize_colwise_transpose": 0.18484890460968018, "w_quantize_global": 0.07201358675956726, "w_quantize_global_transpose": 0.0803135335445404, "cast_x": 0.920858234167099, "cast_g": 0.21616369485855103, "cast_w": 0.03937259316444397, "time_standard": 7.265359163284302, "time_rowwise": 5.714736878871918, "time_global": 5.597773939371109}
+{"repeat": 64, "batch_size": 2048, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.12437254190444946, "standard_gw": 0.11018291115760803, "standard_gx": 0.10970607399940491, "rowwise_fwd": 0.07167831063270569, "rowwise_bwd": 0.07583573460578918, "global_fwd": 0.07314234972000122, "global_bwd": 0.07501617074012756, "x_quantize_rowwise": 0.035624951124191284, "g_quantize_rowwise": 0.0333636999130249, "w_quantize_rowwise": 0.03264099359512329, "w_quantize_colwise_transpose": 0.14795735478401184, "w_quantize_global": 0.09621679782867432, "w_quantize_global_transpose": 0.10380148887634277, "cast_x": 0.05278363823890686, "cast_g": 0.01249462366104126, "cast_w": 0.02767890691757202, "time_standard": 0.3442615270614624, "time_rowwise": 0.5072839558124542, "time_global": 0.5273483693599701}
+{"repeat": 64, "batch_size": 4096, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.21922588348388672, "standard_gw": 0.20731613039970398, "standard_gx": 0.23101642727851868, "rowwise_fwd": 0.1423358917236328, "rowwise_bwd": 0.1195073127746582, "global_fwd": 0.1401938498020172, "global_bwd": 0.11940300464630127, "x_quantize_rowwise": 0.03353878855705261, "g_quantize_rowwise": 0.06387382745742798, "w_quantize_rowwise": 0.03428757190704346, "w_quantize_colwise_transpose": 0.14376267790794373, "w_quantize_global": 0.09389594197273254, "w_quantize_global_transpose": 0.10196119546890259, "cast_x": 0.020060688257217407, "cast_g": 0.10236725211143494, "cast_w": 0.02732500433921814, "time_standard": 0.6575584411621094, "time_rowwise": 0.7446222007274628, "time_global": 0.7601827383041382}
+{"repeat": 64, "batch_size": 4096, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.20026043057441711, "standard_gw": 0.21172687411308289, "standard_gx": 0.2276189625263214, "rowwise_fwd": 0.12956932187080383, "rowwise_bwd": 0.15310943126678467, "global_fwd": 0.12427568435668945, "global_bwd": 0.14432892203330994, "x_quantize_rowwise": 0.06471946835517883, "g_quantize_rowwise": 0.03309175372123718, "w_quantize_rowwise": 0.03242120146751404, "w_quantize_colwise_transpose": 0.14733895659446716, "w_quantize_global": 0.09280815720558167, "w_quantize_global_transpose": 0.10265037417411804, "cast_x": 0.10267645120620728, "cast_g": 0.020150095224380493, "cast_w": 0.027399510145187378, "time_standard": 0.6396062672138214, "time_rowwise": 0.7719770073890686, "time_global": 0.773601233959198}
+{"repeat": 64, "batch_size": 65536, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 5.324859172105789, "standard_gw": 4.977177828550339, "standard_gx": 4.468705505132675, "rowwise_fwd": 2.7004145085811615, "rowwise_bwd": 2.121664583683014, "global_fwd": 2.648312598466873, "global_bwd": 2.111390233039856, "x_quantize_rowwise": 0.22934377193450928, "g_quantize_rowwise": 0.9496547281742096, "w_quantize_rowwise": 0.02555176615715027, "w_quantize_colwise_transpose": 0.1977868378162384, "w_quantize_global": 0.0727437436580658, "w_quantize_global_transpose": 0.08098781108856201, "cast_x": 0.4259459674358368, "cast_g": 1.8352754414081573, "cast_w": 0.039637088775634766, "time_standard": 14.770742505788803, "time_rowwise": 11.201594024896622, "time_global": 11.069610714912415}
+{"repeat": 64, "batch_size": 8192, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.49151480197906494, "standard_gw": 0.4681535065174103, "standard_gx": 0.42366236448287964, "rowwise_fwd": 0.2766512334346771, "rowwise_bwd": 0.2083033323287964, "global_fwd": 0.2709813416004181, "global_bwd": 0.20718947052955627, "x_quantize_rowwise": 0.034555792808532715, "g_quantize_rowwise": 0.11969730257987976, "w_quantize_rowwise": 0.03300607204437256, "w_quantize_colwise_transpose": 0.14345720410346985, "w_quantize_global": 0.09280070662498474, "w_quantize_global_transpose": 0.10214745998382568, "cast_x": 0.052288174629211426, "cast_g": 0.19747763872146606, "cast_w": 0.027339905500411987, "time_standard": 1.3833306729793549, "time_rowwise": 1.2838244438171387, "time_global": 1.2955255806446075}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.39635971188545227, "standard_gw": 0.44353678822517395, "standard_gx": 0.4724152386188507, "rowwise_fwd": 0.22813305258750916, "rowwise_bwd": 0.2868436276912689, "global_fwd": 0.2119205892086029, "global_bwd": 0.2749413251876831, "x_quantize_rowwise": 0.12082979083061218, "g_quantize_rowwise": 0.03444403409957886, "w_quantize_rowwise": 0.03444403409957886, "w_quantize_colwise_transpose": 0.14675036072731018, "w_quantize_global": 0.09495392441749573, "w_quantize_global_transpose": 0.1009330153465271, "cast_x": 0.19745156168937683, "cast_g": 0.05227327346801758, "cast_w": 0.027336180210113525, "time_standard": 1.312311738729477, "time_rowwise": 1.294981688261032, "time_global": 1.2815594673156738}
+{"repeat": 64, "batch_size": 16384, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 1.0207034647464752, "standard_gw": 0.897720456123352, "standard_gx": 0.8374936878681183, "rowwise_fwd": 0.5457103252410889, "rowwise_bwd": 0.4088357090950012, "global_fwd": 0.5308091640472412, "global_bwd": 0.40555745363235474, "x_quantize_rowwise": 0.05984678864479065, "g_quantize_rowwise": 0.2306811511516571, "w_quantize_rowwise": 0.0334717333316803, "w_quantize_colwise_transpose": 0.14356523752212524, "w_quantize_global": 0.09340420365333557, "w_quantize_global_transpose": 0.09996071457862854, "cast_x": 0.10207295417785645, "cast_g": 0.3880411386489868, "cast_w": 0.027671456336975098, "time_standard": 2.7559176087379456, "time_rowwise": 2.3198314011096954, "time_global": 2.31797993183136}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 4.502948373556137, "standard_gw": 4.418112337589264, "standard_gx": 4.748217761516571, "rowwise_fwd": 2.1329298615455627, "rowwise_bwd": 2.6968345046043396, "global_fwd": 2.102244645357132, "global_bwd": 2.6461556553840637, "x_quantize_rowwise": 0.9493157267570496, "g_quantize_rowwise": 0.2290569245815277, "w_quantize_rowwise": 0.02551451325416565, "w_quantize_colwise_transpose": 0.18491223454475403, "w_quantize_global": 0.07426366209983826, "w_quantize_global_transpose": 0.08058920502662659, "cast_x": 1.8352717161178589, "cast_g": 0.425681471824646, "cast_w": 0.039402395486831665, "time_standard": 13.669278472661972, "time_rowwise": 10.636676102876663, "time_global": 10.499738156795502}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.8179470896720886, "standard_gw": 0.8687414228916168, "standard_gx": 0.9276494383811951, "rowwise_fwd": 0.4481859505176544, "rowwise_bwd": 0.5557462573051453, "global_fwd": 0.4100687801837921, "global_bwd": 0.5317367613315582, "x_quantize_rowwise": 0.2301819622516632, "g_quantize_rowwise": 0.05963817238807678, "w_quantize_rowwise": 0.033523887395858765, "w_quantize_colwise_transpose": 0.14462321996688843, "w_quantize_global": 0.094633549451828, "w_quantize_global_transpose": 0.10088086128234863, "cast_x": 0.3879927098751068, "cast_g": 0.10205060243606567, "cast_w": 0.02714991569519043, "time_standard": 2.6143379509449005, "time_rowwise": 2.3406408727169037, "time_global": 2.295881509780884}
+{"repeat": 64, "batch_size": 32768, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 2.0698904991149902, "standard_gw": 1.7200261354446411, "standard_gx": 1.663345843553543, "rowwise_fwd": 1.0664835572242737, "rowwise_bwd": 0.8059032261371613, "global_fwd": 1.0454729199409485, "global_bwd": 0.801432877779007, "x_quantize_rowwise": 0.1127384603023529, "g_quantize_rowwise": 0.4529319703578949, "w_quantize_rowwise": 0.03398582339286804, "w_quantize_colwise_transpose": 0.14343857765197754, "w_quantize_global": 0.09441003203392029, "w_quantize_global_transpose": 0.09993091225624084, "cast_x": 0.19744038581848145, "cast_g": 0.769149512052536, "cast_w": 0.02734735608100891, "time_standard": 5.453262478113174, "time_rowwise": 4.335507750511169, "time_global": 4.3269433081150055}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 2.758193761110306, "standard_gw": 1.6880109906196594, "standard_gx": 1.8163062632083893, "rowwise_fwd": 0.8343160152435303, "rowwise_bwd": 1.073598861694336, "global_fwd": 0.8045099675655365, "global_bwd": 1.0492689907550812, "x_quantize_rowwise": 0.453021377325058, "g_quantize_rowwise": 0.11304020881652832, "w_quantize_rowwise": 0.0337064266204834, "w_quantize_colwise_transpose": 0.1452416181564331, "w_quantize_global": 0.09451434016227722, "w_quantize_global_transpose": 0.0998079776763916, "cast_x": 0.769101083278656, "cast_g": 0.19731372594833374, "cast_w": 0.027332454919815063, "time_standard": 6.2625110149383545, "time_rowwise": 4.340935498476028, "time_global": 4.302173852920532}
+{"repeat": 64, "batch_size": 131072, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 10.728541761636734, "standard_gw": 9.228862822055817, "standard_gx": 8.837487548589706, "rowwise_fwd": 5.4414160549640656, "rowwise_bwd": 4.186157137155533, "global_fwd": 5.329187959432602, "global_bwd": 4.150416702032089, "x_quantize_rowwise": 0.4517659544944763, "g_quantize_rowwise": 1.890372484922409, "w_quantize_rowwise": 0.027563422918319702, "w_quantize_colwise_transpose": 0.1980513334274292, "w_quantize_global": 0.0733695924282074, "w_quantize_global_transpose": 0.08009746670722961, "cast_x": 0.8449330925941467, "cast_g": 3.6641769111156464, "cast_w": 0.03945454955101013, "time_standard": 28.794892132282257, "time_rowwise": 21.42418920993805, "time_global": 21.20407298207283}
+{"repeat": 64, "batch_size": 65536, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 4.127204418182373, "standard_gw": 3.359321504831314, "standard_gx": 5.557261407375336, "rowwise_fwd": 2.1365806460380554, "rowwise_bwd": 1.6042962670326233, "global_fwd": 2.0923763513565063, "global_bwd": 1.5939176082611084, "x_quantize_rowwise": 0.21954253315925598, "g_quantize_rowwise": 0.8971206843852997, "w_quantize_rowwise": 0.03357976675033569, "w_quantize_colwise_transpose": 0.1431293785572052, "w_quantize_global": 0.10574981570243835, "w_quantize_global_transpose": 0.10281801223754883, "cast_x": 0.38795173168182373, "cast_g": 1.5318207442760468, "cast_w": 0.027142465114593506, "time_standard": 13.043787330389023, "time_rowwise": 8.39357078075409, "time_global": 8.370846509933472}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 5.576469004154205, "standard_gw": 3.361724317073822, "standard_gx": 3.6300085484981537, "rowwise_fwd": 1.6183294355869293, "rowwise_bwd": 2.1462254226207733, "global_fwd": 1.5953555703163147, "global_bwd": 2.0915642380714417, "x_quantize_rowwise": 0.8973218500614166, "g_quantize_rowwise": 0.2197064459323883, "w_quantize_rowwise": 0.03402307629585266, "w_quantize_colwise_transpose": 0.14822185039520264, "w_quantize_global": 0.09706616401672363, "w_quantize_global_transpose": 0.10339170694351196, "cast_x": 1.5312805771827698, "cast_g": 0.3879964351654053, "cast_w": 0.0269375741481781, "time_standard": 12.568201869726181, "time_rowwise": 8.425552397966385, "time_global": 8.366130292415619}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 8.900497108697891, "standard_gw": 9.188394993543625, "standard_gx": 9.503517299890518, "rowwise_fwd": 4.189815372228622, "rowwise_bwd": 5.426768213510513, "global_fwd": 4.155576229095459, "global_bwd": 5.329132080078125, "x_quantize_rowwise": 1.8885880708694458, "g_quantize_rowwise": 0.45193731784820557, "w_quantize_rowwise": 0.025987625122070312, "w_quantize_colwise_transpose": 0.1842118799686432, "w_quantize_global": 0.07349997758865356, "w_quantize_global_transpose": 0.08074194192886353, "cast_x": 3.6639943718910217, "cast_g": 0.8447282016277313, "cast_w": 0.03973767161369324, "time_standard": 27.592409402132034, "time_rowwise": 21.355703473091125, "time_global": 21.167870610952377}
+{"repeat": 64, "batch_size": 131072, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 8.2329623401165, "standard_gw": 6.799045950174332, "standard_gx": 6.893906742334366, "rowwise_fwd": 4.252739250659943, "rowwise_bwd": 3.2025352120399475, "global_fwd": 4.176046699285507, "global_bwd": 3.173377364873886, "x_quantize_rowwise": 0.43221935629844666, "g_quantize_rowwise": 1.7872042953968048, "w_quantize_rowwise": 0.03328174352645874, "w_quantize_colwise_transpose": 0.1431480050086975, "w_quantize_global": 0.09707733988761902, "w_quantize_global_transpose": 0.10161846876144409, "cast_x": 0.7692091166973114, "cast_g": 3.057178109884262, "cast_w": 0.027302652597427368, "time_standard": 21.9259150326252, "time_rowwise": 16.65017381310463, "time_global": 16.56658947467804}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 11.278409510850906, "standard_gw": 6.815284490585327, "standard_gx": 7.280956953763962, "rowwise_fwd": 3.206692636013031, "rowwise_bwd": 4.246953874826431, "global_fwd": 3.1801797449588776, "global_bwd": 4.169579595327377, "x_quantize_rowwise": 1.7862766981124878, "g_quantize_rowwise": 0.4329495131969452, "w_quantize_rowwise": 0.03413483500480652, "w_quantize_colwise_transpose": 0.14493241906166077, "w_quantize_global": 0.09881332516670227, "w_quantize_global_transpose": 0.10376423597335815, "cast_x": 3.057088702917099, "cast_g": 0.7693544030189514, "cast_w": 0.027261674404144287, "time_standard": 25.374650955200195, "time_rowwise": 16.66722446680069, "time_global": 16.586847603321075}
+{"repeat": 64, "batch_size": 1024, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 0.11636316776275635, "standard_gw": 0.11816620826721191, "standard_gx": 0.11482089757919312, "rowwise_fwd": 0.08482113480567932, "rowwise_bwd": 0.06284937262535095, "global_fwd": 0.08296221494674683, "global_bwd": 0.061664730310440063, "x_quantize_rowwise": 0.026706606149673462, "g_quantize_rowwise": 0.025641173124313354, "w_quantize_rowwise": 0.03740563988685608, "w_quantize_colwise_transpose": 0.2965778112411499, "w_quantize_global": 0.11304393410682678, "w_quantize_global_transpose": 0.12390688061714172, "cast_x": 0.008635222911834717, "cast_g": 0.037532299757003784, "cast_w": 0.06856024265289307, "time_standard": 0.3493502736091614, "time_rowwise": 0.652167946100235, "time_global": 0.5520917475223541}
+{"repeat": 64, "batch_size": 1024, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 0.11609122157096863, "standard_gw": 0.11704489588737488, "standard_gx": 0.11566653847694397, "rowwise_fwd": 0.06706640124320984, "rowwise_bwd": 0.09074807167053223, "global_fwd": 0.06621330976486206, "global_bwd": 0.0859871506690979, "x_quantize_rowwise": 0.027574598789215088, "g_quantize_rowwise": 0.02520531415939331, "w_quantize_rowwise": 0.04095584154129028, "w_quantize_colwise_transpose": 0.37036463618278503, "w_quantize_global": 0.11350959539413452, "w_quantize_global_transpose": 0.12202560901641846, "cast_x": 0.03780052065849304, "cast_g": 0.00860169529914856, "cast_w": 0.06864592432975769, "time_standard": 0.3488026559352875, "time_rowwise": 0.7389597594738007, "time_global": 0.5575604736804962}
+{"repeat": 64, "batch_size": 2048, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 0.22610649466514587, "standard_gw": 0.2229548990726471, "standard_gx": 0.22150203585624695, "rowwise_fwd": 0.1421608030796051, "rowwise_bwd": 0.10771304368972778, "global_fwd": 0.13930723071098328, "global_bwd": 0.10715052485466003, "x_quantize_rowwise": 0.02812594175338745, "g_quantize_rowwise": 0.04733726382255554, "w_quantize_rowwise": 0.03758445382118225, "w_quantize_colwise_transpose": 0.29515475034713745, "w_quantize_global": 0.11344626545906067, "w_quantize_global_transpose": 0.12392178177833557, "cast_x": 0.013589859008789062, "cast_g": 0.08285418152809143, "cast_w": 0.06850436329841614, "time_standard": 0.6705634295940399, "time_rowwise": 0.8810311555862427, "time_global": 0.7822439074516296}
+{"repeat": 64, "batch_size": 2048, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 0.20173192024230957, "standard_gw": 0.2351999282836914, "standard_gx": 0.24710968136787415, "rowwise_fwd": 0.12035667896270752, "rowwise_bwd": 0.153418630361557, "global_fwd": 0.11473894119262695, "global_bwd": 0.14553219079971313, "x_quantize_rowwise": 0.04762038588523865, "g_quantize_rowwise": 0.02557411789894104, "w_quantize_rowwise": 0.04055723547935486, "w_quantize_colwise_transpose": 0.32641738653182983, "w_quantize_global": 0.1138448715209961, "w_quantize_global_transpose": 0.12255832552909851, "cast_x": 0.08405372500419617, "cast_g": 0.013835728168487549, "cast_w": 0.06961449980735779, "time_standard": 0.6840415298938751, "time_rowwise": 0.9491443634033203, "time_global": 0.8050687611103058}
+{"repeat": 64, "batch_size": 4096, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 0.48126280307769775, "standard_gw": 0.46824291348457336, "standard_gx": 0.45252591371536255, "rowwise_fwd": 0.2749897539615631, "rowwise_bwd": 0.2111680805683136, "global_fwd": 0.2689175307750702, "global_bwd": 0.2104043960571289, "x_quantize_rowwise": 0.02676248550415039, "g_quantize_rowwise": 0.0842660665512085, "w_quantize_rowwise": 0.037495046854019165, "w_quantize_colwise_transpose": 0.2952851355075836, "w_quantize_global": 0.11366978287696838, "w_quantize_global_transpose": 0.12461841106414795, "cast_x": 0.0283755362033844, "cast_g": 0.1590624451637268, "cast_w": 0.06854161620140076, "time_standard": 1.4020316302776337, "time_rowwise": 1.3982094824314117, "time_global": 1.2968815863132477}
+{"repeat": 64, "batch_size": 4096, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 0.4076175391674042, "standard_gw": 0.45526400208473206, "standard_gx": 0.4996545612812042, "rowwise_fwd": 0.238761305809021, "rowwise_bwd": 0.2913624048233032, "global_fwd": 0.2149641513824463, "global_bwd": 0.2717897295951843, "x_quantize_rowwise": 0.0845976173877716, "g_quantize_rowwise": 0.0266246497631073, "w_quantize_rowwise": 0.04038959741592407, "w_quantize_colwise_transpose": 0.33299997448921204, "w_quantize_global": 0.11374801397323608, "w_quantize_global_transpose": 0.12202560901641846, "cast_x": 0.15895813703536987, "cast_g": 0.028312206268310547, "cast_w": 0.06841868162155151, "time_standard": 1.3625361025333405, "time_rowwise": 1.4699995517730713, "time_global": 1.2890137732028961}
+{"repeat": 64, "batch_size": 8192, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 1.02214515209198, "standard_gw": 0.9412020444869995, "standard_gx": 0.883936882019043, "rowwise_fwd": 0.5209781229496002, "rowwise_bwd": 0.41617080569267273, "global_fwd": 0.5089044570922852, "global_bwd": 0.4142932593822479, "x_quantize_rowwise": 0.03763660788536072, "g_quantize_rowwise": 0.15798211097717285, "w_quantize_rowwise": 0.0375211238861084, "w_quantize_colwise_transpose": 0.2973228693008423, "w_quantize_global": 0.11317431926727295, "w_quantize_global_transpose": 0.12396648526191711, "cast_x": 0.0685863196849823, "cast_g": 0.311531126499176, "cast_w": 0.0685080885887146, "time_standard": 2.8472840785980225, "time_rowwise": 2.4088136851787567, "time_global": 2.2971592843532562}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 0.8539073169231415, "standard_gw": 0.9352751076221466, "standard_gx": 0.9567439556121826, "rowwise_fwd": 0.4599541425704956, "rowwise_bwd": 0.531073659658432, "global_fwd": 0.42063742876052856, "global_bwd": 0.5125999450683594, "x_quantize_rowwise": 0.1581348478794098, "g_quantize_rowwise": 0.03755837678909302, "w_quantize_rowwise": 0.04056468605995178, "w_quantize_colwise_transpose": 0.3295913338661194, "w_quantize_global": 0.11314079165458679, "w_quantize_global_transpose": 0.12153387069702148, "cast_x": 0.3114752471446991, "cast_g": 0.06850063800811768, "cast_w": 0.06839632987976074, "time_standard": 2.7459263801574707, "time_rowwise": 2.492152154445648, "time_global": 2.2988803684711456}
+{"repeat": 64, "batch_size": 16384, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 2.0550191402435303, "standard_gw": 1.7850138247013092, "standard_gx": 1.7571337521076202, "rowwise_fwd": 1.026798039674759, "rowwise_bwd": 0.8242167532444, "global_fwd": 1.0042376816272736, "global_bwd": 0.8189938962459564, "x_quantize_rowwise": 0.0688992440700531, "g_quantize_rowwise": 0.3054179251194, "w_quantize_rowwise": 0.03757700324058533, "w_quantize_colwise_transpose": 0.2973712980747223, "w_quantize_global": 0.11324509978294373, "w_quantize_global_transpose": 0.12398511171340942, "cast_x": 0.13050436973571777, "cast_g": 0.6165280938148499, "cast_w": 0.06848573684692383, "time_standard": 5.59716671705246, "time_rowwise": 4.345294088125229, "time_global": 4.2197927832603455}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 1.79310142993927, "standard_gw": 1.7801076173782349, "standard_gx": 1.9140169024467468, "rowwise_fwd": 0.8629709482192993, "rowwise_bwd": 1.0353922843933105, "global_fwd": 0.8200556039810181, "global_bwd": 1.002725213766098, "x_quantize_rowwise": 0.30517578125, "g_quantize_rowwise": 0.06880238652229309, "w_quantize_rowwise": 0.040318816900253296, "w_quantize_colwise_transpose": 0.3413744270801544, "w_quantize_global": 0.11326000094413757, "w_quantize_global_transpose": 0.12197345495223999, "cast_x": 0.6162337958812714, "cast_g": 0.13053417205810547, "cast_w": 0.06848946213722229, "time_standard": 5.487225949764252, "time_rowwise": 4.4341422617435455, "time_global": 4.212100058794022}
+{"repeat": 64, "batch_size": 32768, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 4.0736086666584015, "standard_gw": 3.595758229494095, "standard_gx": 3.7020929157733917, "rowwise_fwd": 2.0306408405303955, "rowwise_bwd": 1.635722815990448, "global_fwd": 1.9890740513801575, "global_bwd": 1.627359539270401, "x_quantize_rowwise": 0.13131648302078247, "g_quantize_rowwise": 0.6001107394695282, "w_quantize_rowwise": 0.03781542181968689, "w_quantize_colwise_transpose": 0.2975836396217346, "w_quantize_global": 0.11357292532920837, "w_quantize_global_transpose": 0.12416765093803406, "cast_x": 0.2544410526752472, "cast_g": 1.2265890836715698, "cast_w": 0.06866827607154846, "time_standard": 11.371459811925888, "time_rowwise": 8.32894816994667, "time_global": 8.181359618902206}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 3.525231033563614, "standard_gw": 3.489706665277481, "standard_gx": 3.9937011897563934, "rowwise_fwd": 1.6627348959445953, "rowwise_bwd": 2.0311400294303894, "global_fwd": 1.6270726919174194, "global_bwd": 1.988884061574936, "x_quantize_rowwise": 0.5999915301799774, "g_quantize_rowwise": 0.1310594379901886, "w_quantize_rowwise": 0.04043802618980408, "w_quantize_colwise_transpose": 0.32950565218925476, "w_quantize_global": 0.11298432946205139, "w_quantize_global_transpose": 0.12201443314552307, "cast_x": 1.2257546186447144, "cast_g": 0.25444477796554565, "cast_w": 0.06848573684692383, "time_standard": 11.008638888597488, "time_rowwise": 8.28457623720169, "time_global": 8.071713149547577}
+{"repeat": 64, "batch_size": 65536, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 8.123598992824554, "standard_gw": 8.085217326879501, "standard_gx": 7.293816655874252, "rowwise_fwd": 4.07782569527626, "rowwise_bwd": 3.196723759174347, "global_fwd": 4.001103341579437, "global_bwd": 3.1843744218349457, "x_quantize_rowwise": 0.2560615539550781, "g_quantize_rowwise": 1.1893659830093384, "w_quantize_rowwise": 0.037297606468200684, "w_quantize_colwise_transpose": 0.29668211936950684, "w_quantize_global": 0.11358782649040222, "w_quantize_global_transpose": 0.12476742267608643, "cast_x": 0.5020052194595337, "cast_g": 2.4454034864902496, "cast_w": 0.0684782862663269, "time_standard": 23.502632975578308, "time_rowwise": 17.139174044132233, "time_global": 16.95447787642479}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 6.932958960533142, "standard_gw": 7.0609524846076965, "standard_gx": 7.460080087184906, "rowwise_fwd": 3.1809918582439423, "rowwise_bwd": 4.078391939401627, "global_fwd": 3.185112029314041, "global_bwd": 3.99089977145195, "x_quantize_rowwise": 1.1891834437847137, "g_quantize_rowwise": 0.25588274002075195, "w_quantize_rowwise": 0.0406019389629364, "w_quantize_colwise_transpose": 0.3389529883861542, "w_quantize_global": 0.11313334107398987, "w_quantize_global_transpose": 0.12241676449775696, "cast_x": 2.4446770548820496, "cast_g": 0.5022138357162476, "cast_w": 0.06857141852378845, "time_standard": 21.453991532325745, "time_rowwise": 16.14495739340782, "time_global": 15.9175805747509}
+{"repeat": 64, "batch_size": 131072, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 16.38999581336975, "standard_gw": 15.075922012329102, "standard_gx": 14.479495584964752, "rowwise_fwd": 8.128684014081955, "rowwise_bwd": 6.41091912984848, "global_fwd": 7.977847009897232, "global_bwd": 6.362702697515488, "x_quantize_rowwise": 0.5057230591773987, "g_quantize_rowwise": 2.3681968450546265, "w_quantize_rowwise": 0.037435442209243774, "w_quantize_colwise_transpose": 0.29555708169937134, "w_quantize_global": 0.11360272765159607, "w_quantize_global_transpose": 0.12426823377609253, "cast_x": 0.997692346572876, "cast_g": 4.8848651349544525, "cast_w": 0.0685565173625946, "time_standard": 45.945413410663605, "time_rowwise": 32.82243758440018, "time_global": 32.528262585401535}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 14.838922768831253, "standard_gw": 15.112213790416718, "standard_gx": 14.869242906570435, "rowwise_fwd": 6.402213126420975, "rowwise_bwd": 8.132629096508026, "global_fwd": 6.36359304189682, "global_bwd": 7.9823993146419525, "x_quantize_rowwise": 2.367999404668808, "g_quantize_rowwise": 0.5056969821453094, "w_quantize_rowwise": 0.04053488373756409, "w_quantize_colwise_transpose": 0.3559887409210205, "w_quantize_global": 0.1136288046836853, "w_quantize_global_transpose": 0.125102698802948, "cast_x": 4.880473017692566, "cast_g": 0.9965412318706512, "cast_w": 0.06855279207229614, "time_standard": 44.820379465818405, "time_rowwise": 32.91727602481842, "time_global": 32.57063403725624}
+{"repeat": 64, "batch_size": 1024, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 0.15426427125930786, "standard_gw": 0.14531239867210388, "standard_gx": 0.1703128218650818, "rowwise_fwd": 0.09618699550628662, "rowwise_bwd": 0.10633841156959534, "global_fwd": 0.09483471512794495, "global_bwd": 0.10636076331138611, "x_quantize_rowwise": 0.02434849739074707, "g_quantize_rowwise": 0.026009976863861084, "w_quantize_rowwise": 0.04366040229797363, "w_quantize_colwise_transpose": 0.34148991107940674, "w_quantize_global": 0.13587623834609985, "w_quantize_global_transpose": 0.14698877930641174, "cast_x": 0.009745359420776367, "cast_g": 0.03773719072341919, "cast_w": 0.08277222514152527, "time_standard": 0.46988949179649353, "time_rowwise": 0.7833465933799744, "time_global": 0.6797313690185547}
+{"repeat": 64, "batch_size": 1024, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 0.16738846898078918, "standard_gw": 0.14199689030647278, "standard_gx": 0.15476346015930176, "rowwise_fwd": 0.11660531163215637, "rowwise_bwd": 0.1050308346748352, "global_fwd": 0.11050701141357422, "global_bwd": 0.09868666529655457, "x_quantize_rowwise": 0.02781301736831665, "g_quantize_rowwise": 0.024966895580291748, "w_quantize_rowwise": 0.047437846660614014, "w_quantize_colwise_transpose": 0.5995631217956543, "w_quantize_global": 0.1362822949886322, "w_quantize_global_transpose": 0.14807283878326416, "cast_x": 0.0377558171749115, "cast_g": 0.00973045825958252, "cast_w": 0.0828281044960022, "time_standard": 0.4641488194465637, "time_rowwise": 1.063413918018341, "time_global": 0.6883256137371063}
+{"repeat": 64, "batch_size": 2048, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 0.2727396786212921, "standard_gw": 0.2711080014705658, "standard_gx": 0.3120154142379761, "rowwise_fwd": 0.16424059867858887, "rowwise_bwd": 0.17686933279037476, "global_fwd": 0.161685049533844, "global_bwd": 0.17517060041427612, "x_quantize_rowwise": 0.025484710931777954, "g_quantize_rowwise": 0.047635287046432495, "w_quantize_rowwise": 0.04380941390991211, "w_quantize_colwise_transpose": 0.3401711583137512, "w_quantize_global": 0.13605505228042603, "w_quantize_global_transpose": 0.14705583453178406, "cast_x": 0.01584365963935852, "cast_g": 0.08274242281913757, "cast_w": 0.08281320333480835, "time_standard": 0.855863094329834, "time_rowwise": 1.0693185031414032, "time_global": 0.9641945362091064}
+{"repeat": 64, "batch_size": 2048, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 0.28916075825691223, "standard_gw": 0.29472261667251587, "standard_gx": 0.30096620321273804, "rowwise_fwd": 0.19618868827819824, "rowwise_bwd": 0.17556175589561462, "global_fwd": 0.18328800797462463, "global_bwd": 0.16647577285766602, "x_quantize_rowwise": 0.047441571950912476, "g_quantize_rowwise": 0.026609748601913452, "w_quantize_rowwise": 0.04766508936882019, "w_quantize_colwise_transpose": 0.6060972809791565, "w_quantize_global": 0.1363418996334076, "w_quantize_global_transpose": 0.14806538820266724, "cast_x": 0.08295103907585144, "cast_g": 0.015836209058761597, "cast_w": 0.08285045623779297, "time_standard": 0.8848495781421661, "time_rowwise": 1.3942867517471313, "time_global": 1.0029450058937073}
+{"repeat": 64, "batch_size": 4096, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 0.6430819630622864, "standard_gw": 0.5622953176498413, "standard_gx": 0.5780421197414398, "rowwise_fwd": 0.318676233291626, "rowwise_bwd": 0.29438361525535583, "global_fwd": 0.31290948390960693, "global_bwd": 0.290747731924057, "x_quantize_rowwise": 0.027455389499664307, "g_quantize_rowwise": 0.08405372500419617, "w_quantize_rowwise": 0.04369765520095825, "w_quantize_colwise_transpose": 0.34110620617866516, "w_quantize_global": 0.1360774040222168, "w_quantize_global_transpose": 0.14697015285491943, "cast_x": 0.037614256143569946, "cast_g": 0.15922263264656067, "cast_w": 0.08288025856018066, "time_standard": 1.7834194004535675, "time_rowwise": 1.671668142080307, "time_global": 1.560509204864502}
+{"repeat": 64, "batch_size": 4096, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 0.551275908946991, "standard_gw": 0.591665506362915, "standard_gx": 0.6067268550395966, "rowwise_fwd": 0.33493712544441223, "rowwise_bwd": 0.32918527722358704, "global_fwd": 0.29528141021728516, "global_bwd": 0.31659379601478577, "x_quantize_rowwise": 0.08441135287284851, "g_quantize_rowwise": 0.025656074285507202, "w_quantize_rowwise": 0.04745647311210632, "w_quantize_colwise_transpose": 0.5993843078613281, "w_quantize_global": 0.1359879970550537, "w_quantize_global_transpose": 0.14815106987953186, "cast_x": 0.15932321548461914, "cast_g": 0.037439167499542236, "cast_w": 0.08288398385047913, "time_standard": 1.7496682703495026, "time_rowwise": 2.0126961171627045, "time_global": 1.5977472066879272}
+{"repeat": 64, "batch_size": 8192, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 1.2295916676521301, "standard_gw": 1.116037368774414, "standard_gx": 1.1164769530296326, "rowwise_fwd": 0.603698194026947, "rowwise_bwd": 0.5168020725250244, "global_fwd": 0.5922466516494751, "global_bwd": 0.5151033401489258, "x_quantize_rowwise": 0.0437907874584198, "g_quantize_rowwise": 0.157918781042099, "w_quantize_rowwise": 0.044032931327819824, "w_quantize_colwise_transpose": 0.34073740243911743, "w_quantize_global": 0.13559311628341675, "w_quantize_global_transpose": 0.14679506421089172, "cast_x": 0.08263811469078064, "cast_g": 0.3115162253379822, "cast_w": 0.08287280797958374, "time_standard": 3.4621059894561768, "time_rowwise": 2.8230175375938416, "time_global": 2.707485109567642}
+{"repeat": 64, "batch_size": 8192, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 1.090865582227707, "standard_gw": 1.1468492448329926, "standard_gx": 1.1166594922542572, "rowwise_fwd": 0.5559474229812622, "rowwise_bwd": 0.6105974316596985, "global_fwd": 0.5200020968914032, "global_bwd": 0.592011958360672, "x_quantize_rowwise": 0.15802308917045593, "g_quantize_rowwise": 0.04357844591140747, "w_quantize_rowwise": 0.04709511995315552, "w_quantize_colwise_transpose": 0.5969703197479248, "w_quantize_global": 0.13620033860206604, "w_quantize_global_transpose": 0.148136168718338, "cast_x": 0.31115859746932983, "cast_g": 0.08263811469078064, "cast_w": 0.08268281817436218, "time_standard": 3.3543743193149567, "time_rowwise": 3.159061074256897, "time_global": 2.744801342487335}
+{"repeat": 64, "batch_size": 16384, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 2.4665743112564087, "standard_gw": 2.1993443369865417, "standard_gx": 2.1993033587932587, "rowwise_fwd": 1.192428171634674, "rowwise_bwd": 1.023314893245697, "global_fwd": 1.1711902916431427, "global_bwd": 1.0202191770076752, "x_quantize_rowwise": 0.08077174425125122, "g_quantize_rowwise": 0.30520185828208923, "w_quantize_rowwise": 0.043783336877822876, "w_quantize_colwise_transpose": 0.339999794960022, "w_quantize_global": 0.13628602027893066, "w_quantize_global_transpose": 0.14696642756462097, "cast_x": 0.15902891755104065, "cast_g": 0.6164535880088806, "cast_w": 0.08285418152809143, "time_standard": 6.865222007036209, "time_rowwise": 5.184844136238098, "time_global": 5.059979856014252}
+{"repeat": 64, "batch_size": 16384, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 2.1861791610717773, "standard_gw": 2.157818526029587, "standard_gx": 2.321537584066391, "rowwise_fwd": 1.0536126792430878, "rowwise_bwd": 1.1971630156040192, "global_fwd": 1.02127343416214, "global_bwd": 1.1707991361618042, "x_quantize_rowwise": 0.30522048473358154, "g_quantize_rowwise": 0.08065253496170044, "w_quantize_rowwise": 0.04741176962852478, "w_quantize_colwise_transpose": 0.5979575216770172, "w_quantize_global": 0.1362040638923645, "w_quantize_global_transpose": 0.14854222536087036, "cast_x": 0.6162486970424652, "cast_g": 0.1591891050338745, "cast_w": 0.08288398385047913, "time_standard": 6.665535271167755, "time_rowwise": 5.439836531877518, "time_global": 5.020510405302048}
+{"repeat": 64, "batch_size": 32768, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 4.891645163297653, "standard_gw": 4.233300685882568, "standard_gx": 4.2071714997291565, "rowwise_fwd": 2.3616664111614227, "rowwise_bwd": 1.9419342279434204, "global_fwd": 2.3244209587574005, "global_bwd": 1.9598640501499176, "x_quantize_rowwise": 0.15483051538467407, "g_quantize_rowwise": 0.6008371710777283, "w_quantize_rowwise": 0.043839216232299805, "w_quantize_colwise_transpose": 0.3400743007659912, "w_quantize_global": 0.1362822949886322, "w_quantize_global_transpose": 0.14691054821014404, "cast_x": 0.31141936779022217, "cast_g": 1.2254081666469574, "cast_w": 0.08280202746391296, "time_standard": 13.332117348909378, "time_rowwise": 9.676482528448105, "time_global": 9.556446224451065}
+{"repeat": 64, "batch_size": 32768, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 4.267625510692596, "standard_gw": 4.237007349729538, "standard_gx": 4.666488617658615, "rowwise_fwd": 1.9670464098453522, "rowwise_bwd": 2.362079918384552, "global_fwd": 1.9469596445560455, "global_bwd": 2.32585147023201, "x_quantize_rowwise": 0.6000921130180359, "g_quantize_rowwise": 0.15481188893318176, "w_quantize_rowwise": 0.04725530743598938, "w_quantize_colwise_transpose": 0.5976222455501556, "w_quantize_global": 0.13619661331176758, "w_quantize_global_transpose": 0.14815852046012878, "cast_x": 1.2261345982551575, "cast_g": 0.3117173910140991, "cast_w": 0.08279457688331604, "time_standard": 13.17112147808075, "time_rowwise": 9.965915232896805, "time_global": 9.549077600240707}
+{"repeat": 64, "batch_size": 65536, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 9.787477552890778, "standard_gw": 8.533861488103867, "standard_gx": 8.979786187410355, "rowwise_fwd": 4.741787910461426, "rowwise_bwd": 3.871854394674301, "global_fwd": 4.674319177865982, "global_bwd": 3.9110779762268066, "x_quantize_rowwise": 0.3025829792022705, "g_quantize_rowwise": 1.1898204684257507, "w_quantize_rowwise": 0.043705105781555176, "w_quantize_colwise_transpose": 0.33997371792793274, "w_quantize_global": 0.13592839241027832, "w_quantize_global_transpose": 0.14724954962730408, "cast_x": 0.6160177290439606, "cast_g": 2.4440810084342957, "cast_w": 0.08280575275421143, "time_standard": 27.301125228405, "time_rowwise": 19.023586064577103, "time_global": 18.89484003186226}
+{"repeat": 64, "batch_size": 65536, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 8.461769670248032, "standard_gw": 8.428700268268585, "standard_gx": 9.447630494832993, "rowwise_fwd": 3.881257027387619, "rowwise_bwd": 4.7471001744270325, "global_fwd": 3.9101652801036835, "global_bwd": 4.662122577428818, "x_quantize_rowwise": 1.1892355978488922, "g_quantize_rowwise": 0.3024376928806305, "w_quantize_rowwise": 0.04708021879196167, "w_quantize_colwise_transpose": 0.5982778966426849, "w_quantize_global": 0.13624131679534912, "w_quantize_global_transpose": 0.1484602689743042, "cast_x": 2.4463236331939697, "cast_g": 0.6163865327835083, "cast_w": 0.08278340101242065, "time_standard": 26.33810043334961, "time_rowwise": 19.194088876247406, "time_global": 18.777363002300262}
+{"repeat": 64, "batch_size": 131072, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 19.699689000844955, "standard_gw": 16.89574122428894, "standard_gx": 17.907552421092987, "rowwise_fwd": 9.453803300857544, "rowwise_bwd": 7.8153833746910095, "global_fwd": 9.313825517892838, "global_bwd": 7.8215524554252625, "x_quantize_rowwise": 0.5986690521240234, "g_quantize_rowwise": 2.368006855249405, "w_quantize_rowwise": 0.043682754039764404, "w_quantize_colwise_transpose": 0.3406330943107605, "w_quantize_global": 0.13626739382743835, "w_quantize_global_transpose": 0.14715641736984253, "cast_x": 1.2262165546417236, "cast_g": 4.8834048211574554, "cast_w": 0.08272379636764526, "time_standard": 54.50298264622688, "time_rowwise": 37.51591965556145, "time_global": 37.28121891617775}
+{"repeat": 64, "batch_size": 131072, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 18.66700127720833, "standard_gw": 18.56840029358864, "standard_gx": 18.049821257591248, "rowwise_fwd": 7.742393761873245, "rowwise_bwd": 9.479016065597534, "global_fwd": 7.806576788425446, "global_bwd": 9.328477084636688, "x_quantize_rowwise": 2.368297427892685, "g_quantize_rowwise": 0.5978643894195557, "w_quantize_rowwise": 0.047303736209869385, "w_quantize_colwise_transpose": 0.5982741713523865, "w_quantize_global": 0.13678893446922302, "w_quantize_global_transpose": 0.1488029956817627, "cast_x": 4.880513995885849, "cast_g": 1.2248307466506958, "cast_w": 0.08270144462585449, "time_standard": 55.285222828388214, "time_rowwise": 39.401549845933914, "time_global": 38.955207914114}
+{"repeat": 64, "batch_size": 1024, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 0.529509037733078, "standard_gw": 0.5781911313533783, "standard_gx": 0.6095841526985168, "rowwise_fwd": 0.2811029553413391, "rowwise_bwd": 0.3345906734466553, "global_fwd": 0.27928128838539124, "global_bwd": 0.33126771450042725, "x_quantize_rowwise": 0.025760382413864136, "g_quantize_rowwise": 0.06494298577308655, "w_quantize_rowwise": 0.15570968389511108, "w_quantize_colwise_transpose": 1.6086548566818237, "w_quantize_global": 0.481434166431427, "w_quantize_global_transpose": 0.505443662405014, "cast_x": 0.01582130789756775, "cast_g": 0.08295103907585144, "cast_w": 0.311531126499176, "time_standard": 1.7172843217849731, "time_rowwise": 3.048952668905258, "time_global": 2.2663213312625885}
+{"repeat": 64, "batch_size": 1024, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 0.5729459226131439, "standard_gw": 0.5789846181869507, "standard_gx": 0.5775243043899536, "rowwise_fwd": 0.36711618304252625, "rowwise_bwd": 0.2913735806941986, "global_fwd": 0.33703818917274475, "global_bwd": 0.2821236848831177, "x_quantize_rowwise": 0.064849853515625, "g_quantize_rowwise": 0.025060027837753296, "w_quantize_rowwise": 0.22537633776664734, "w_quantize_colwise_transpose": 3.6401040852069855, "w_quantize_global": 0.4818551242351532, "w_quantize_global_transpose": 0.5101114511489868, "cast_x": 0.08286535739898682, "cast_g": 0.015828758478164673, "cast_w": 0.3114677965641022, "time_standard": 1.7294548451900482, "time_rowwise": 5.192864686250687, "time_global": 2.2800229489803314}
+{"repeat": 64, "batch_size": 2048, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 1.1735819280147552, "standard_gw": 1.121576875448227, "standard_gx": 1.1242404580116272, "rowwise_fwd": 0.5535706877708435, "rowwise_bwd": 0.5567893385887146, "global_fwd": 0.5486570298671722, "global_bwd": 0.551365315914154, "x_quantize_rowwise": 0.02710893750190735, "g_quantize_rowwise": 0.11784210801124573, "w_quantize_rowwise": 0.15565752983093262, "w_quantize_colwise_transpose": 1.607745885848999, "w_quantize_global": 0.4824437201023102, "w_quantize_global_transpose": 0.5060508847236633, "cast_x": 0.03808736801147461, "cast_g": 0.15912577509880066, "cast_w": 0.31150132417678833, "time_standard": 3.4193992614746094, "time_rowwise": 4.14029136300087, "time_global": 3.35504487156868}
+{"repeat": 64, "batch_size": 2048, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 1.1169910430908203, "standard_gw": 1.1065900325775146, "standard_gx": 1.1815577745437622, "rowwise_fwd": 0.5917288362979889, "rowwise_bwd": 0.5614385008811951, "global_fwd": 0.5646944046020508, "global_bwd": 0.5500949919223785, "x_quantize_rowwise": 0.118207186460495, "g_quantize_rowwise": 0.025041401386260986, "w_quantize_rowwise": 0.22566691040992737, "w_quantize_colwise_transpose": 3.635551780462265, "w_quantize_global": 0.4815608263015747, "w_quantize_global_transpose": 0.509701669216156, "cast_x": 0.15912950038909912, "cast_g": 0.03797560930252075, "cast_w": 0.3114044666290283, "time_standard": 3.405138850212097, "time_rowwise": 6.264224648475647, "time_global": 3.3558905124664307}
+{"repeat": 64, "batch_size": 4096, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 2.3259930312633514, "standard_gw": 2.1472275257110596, "standard_gx": 2.213582396507263, "rowwise_fwd": 1.0509602725505829, "rowwise_bwd": 0.9888559579849243, "global_fwd": 1.0398179292678833, "global_bwd": 0.9887740015983582, "x_quantize_rowwise": 0.04647299647331238, "g_quantize_rowwise": 0.22570788860321045, "w_quantize_rowwise": 0.1554824411869049, "w_quantize_colwise_transpose": 1.610085368156433, "w_quantize_global": 0.48134103417396545, "w_quantize_global_transpose": 0.5054809153079987, "cast_x": 0.08297711610794067, "cast_g": 0.3115646541118622, "cast_w": 0.31159818172454834, "time_standard": 6.686802953481674, "time_rowwise": 6.224792450666428, "time_global": 5.434822291135788}
+{"repeat": 64, "batch_size": 4096, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 2.19760462641716, "standard_gw": 2.2860951721668243, "standard_gx": 2.290956676006317, "rowwise_fwd": 1.0311491787433624, "rowwise_bwd": 1.0555200278759003, "global_fwd": 0.9858310222625732, "global_bwd": 1.0394863784313202, "x_quantize_rowwise": 0.22591277956962585, "g_quantize_rowwise": 0.046234577894210815, "w_quantize_rowwise": 0.22603943943977356, "w_quantize_colwise_transpose": 3.628809005022049, "w_quantize_global": 0.4819147288799286, "w_quantize_global_transpose": 0.5104243755340576, "cast_x": 0.3114528954029083, "cast_g": 0.08296966552734375, "cast_w": 0.3116317093372345, "time_standard": 6.7746564745903015, "time_rowwise": 8.499760180711746, "time_global": 5.575899034738541}
+{"repeat": 64, "batch_size": 8192, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 4.633370786905289, "standard_gw": 4.397690296173096, "standard_gx": 4.286538809537888, "rowwise_fwd": 2.089906483888626, "rowwise_bwd": 1.9657425582408905, "global_fwd": 2.0679645240306854, "global_bwd": 1.9629858434200287, "x_quantize_rowwise": 0.08271634578704834, "g_quantize_rowwise": 0.43905526399612427, "w_quantize_rowwise": 0.1551508903503418, "w_quantize_colwise_transpose": 1.6106180846691132, "w_quantize_global": 0.48185884952545166, "w_quantize_global_transpose": 0.506274402141571, "cast_x": 0.15918537974357605, "cast_g": 0.6163418292999268, "cast_w": 0.311531126499176, "time_standard": 13.317599892616272, "time_rowwise": 10.74087992310524, "time_global": 9.938545525074005}
+{"repeat": 64, "batch_size": 8192, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 4.424266517162323, "standard_gw": 4.391487687826157, "standard_gx": 4.61186096072197, "rowwise_fwd": 1.9874684512615204, "rowwise_bwd": 2.093140035867691, "global_fwd": 1.9647255539894104, "global_bwd": 2.06940621137619, "x_quantize_rowwise": 0.43999403715133667, "g_quantize_rowwise": 0.08271634578704834, "w_quantize_rowwise": 0.22581592202186584, "w_quantize_colwise_transpose": 3.631964325904846, "w_quantize_global": 0.4821456968784332, "w_quantize_global_transpose": 0.5102343857288361, "cast_x": 0.6164386868476868, "cast_g": 0.1591108739376068, "cast_w": 0.31154975295066833, "time_standard": 13.42761516571045, "time_rowwise": 12.852586805820465, "time_global": 9.940709918737411}
+{"repeat": 64, "batch_size": 16384, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 9.229827672243118, "standard_gw": 8.319318294525146, "standard_gx": 8.652344346046448, "rowwise_fwd": 4.163607954978943, "rowwise_bwd": 3.778301179409027, "global_fwd": 4.121184349060059, "global_bwd": 3.7708766758441925, "x_quantize_rowwise": 0.1553669571876526, "g_quantize_rowwise": 0.8715838193893433, "w_quantize_rowwise": 0.15540048480033875, "w_quantize_colwise_transpose": 1.6092769801616669, "w_quantize_global": 0.4813969135284424, "w_quantize_global_transpose": 0.5070343613624573, "cast_x": 0.31150132417678833, "cast_g": 1.2259706854820251, "cast_w": 0.311482697725296, "time_standard": 26.201490312814713, "time_rowwise": 19.052855670452118, "time_global": 18.226761370897293}
+{"repeat": 64, "batch_size": 16384, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 8.577890694141388, "standard_gw": 9.073298424482346, "standard_gx": 9.210295975208282, "rowwise_fwd": 3.7784352898597717, "rowwise_bwd": 4.165928810834885, "global_fwd": 3.7702471017837524, "global_bwd": 4.121150821447372, "x_quantize_rowwise": 0.868629664182663, "g_quantize_rowwise": 0.1554340124130249, "w_quantize_rowwise": 0.22614002227783203, "w_quantize_colwise_transpose": 3.6367811262607574, "w_quantize_global": 0.4828609526157379, "w_quantize_global_transpose": 0.510137528181076, "cast_x": 1.2258104979991913, "cast_g": 0.31299516558647156, "cast_w": 0.3114677965641022, "time_standard": 26.861485093832016, "time_rowwise": 21.90464735031128, "time_global": 18.981758505105972}
+{"repeat": 64, "batch_size": 32768, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 18.52763444185257, "standard_gw": 17.835520207881927, "standard_gx": 17.375655472278595, "rowwise_fwd": 8.35346058011055, "rowwise_bwd": 7.584303617477417, "global_fwd": 8.300606161355972, "global_bwd": 7.550913840532303, "x_quantize_rowwise": 0.3016740083694458, "g_quantize_rowwise": 1.7321519553661346, "w_quantize_rowwise": 0.15538185834884644, "w_quantize_colwise_transpose": 1.6110800206661224, "w_quantize_global": 0.4815198481082916, "w_quantize_global_transpose": 0.5066357553005219, "cast_x": 0.6163753569126129, "cast_g": 2.4452805519104004, "cast_w": 0.31156837940216064, "time_standard": 53.73881012201309, "time_rowwise": 37.573572248220444, "time_global": 36.7090217769146}
+{"repeat": 64, "batch_size": 32768, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 18.073823302984238, "standard_gw": 16.71283319592476, "standard_gx": 18.46104860305786, "rowwise_fwd": 7.542364299297333, "rowwise_bwd": 8.374195545911789, "global_fwd": 7.5644850730896, "global_bwd": 8.26016440987587, "x_quantize_rowwise": 1.7326027154922485, "g_quantize_rowwise": 0.30233338475227356, "w_quantize_rowwise": 0.2259574830532074, "w_quantize_colwise_transpose": 3.634512424468994, "w_quantize_global": 0.48204511404037476, "w_quantize_global_transpose": 0.5093887448310852, "cast_x": 2.445656806230545, "cast_g": 0.6163381040096283, "cast_w": 0.31144917011260986, "time_standard": 53.24770510196686, "time_rowwise": 38.524799048900604, "time_global": 35.56385263800621}
+{"repeat": 64, "batch_size": 65536, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 36.123402416706085, "standard_gw": 32.68447890877724, "standard_gx": 34.13737937808037, "rowwise_fwd": 16.65867120027542, "rowwise_bwd": 15.004873275756836, "global_fwd": 16.536589711904526, "global_bwd": 14.949381351470947, "x_quantize_rowwise": 0.5952902138233185, "g_quantize_rowwise": 3.4581348299980164, "w_quantize_rowwise": 0.15559792518615723, "w_quantize_colwise_transpose": 1.6055963933467865, "w_quantize_global": 0.48203766345977783, "w_quantize_global_transpose": 0.5048215389251709, "cast_x": 1.2256354093551636, "cast_g": 4.875503480434418, "cast_w": 0.3110244870185852, "time_standard": 102.94526070356369, "time_rowwise": 70.16264274716377, "time_global": 69.210734218359}
+{"repeat": 64, "batch_size": 65536, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 35.0223146378994, "standard_gw": 32.84081444144249, "standard_gx": 35.984884947538376, "rowwise_fwd": 15.018381178379059, "rowwise_bwd": 16.69919490814209, "global_fwd": 14.942582696676254, "global_bwd": 16.529250890016556, "x_quantize_rowwise": 3.442291170358658, "g_quantize_rowwise": 0.5951747298240662, "w_quantize_rowwise": 0.22576376795768738, "w_quantize_colwise_transpose": 3.621157258749008, "w_quantize_global": 0.48135966062545776, "w_quantize_global_transpose": 0.5095489323139191, "cast_x": 4.875205457210541, "cast_g": 1.2237727642059326, "cast_w": 0.3110431134700775, "time_standard": 103.84801402688026, "time_rowwise": 72.44277745485306, "time_global": 69.3410225212574}
+{"repeat": 64, "batch_size": 131072, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 72.33698666095734, "standard_gw": 71.31465151906013, "standard_gx": 69.32922825217247, "rowwise_fwd": 33.37707370519638, "rowwise_bwd": 30.1642008125782, "global_fwd": 33.002063632011414, "global_bwd": 30.003495514392853, "x_quantize_rowwise": 1.1819563806056976, "g_quantize_rowwise": 6.896954029798508, "w_quantize_rowwise": 0.15557929873466492, "w_quantize_colwise_transpose": 1.6083605587482452, "w_quantize_global": 0.48125162720680237, "w_quantize_global_transpose": 0.5055665969848633, "cast_x": 2.442535012960434, "cast_g": 9.750165045261383, "cast_w": 0.31094998121261597, "time_standard": 212.98086643218994, "time_rowwise": 144.69877630472183, "time_global": 143.38593930006027}
+{"repeat": 64, "batch_size": 131072, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 70.24158909916878, "standard_gw": 72.03734293580055, "standard_gx": 72.01339676976204, "rowwise_fwd": 30.072908848524094, "rowwise_bwd": 33.376410603523254, "global_fwd": 29.965493828058243, "global_bwd": 33.01112726330757, "x_quantize_rowwise": 6.894122809171677, "g_quantize_rowwise": 1.1817142367362976, "w_quantize_rowwise": 0.22567808628082275, "w_quantize_colwise_transpose": 3.616899251937866, "w_quantize_global": 0.4819147288799286, "w_quantize_global_transpose": 0.5107112228870392, "cast_x": 9.750377386808395, "cast_g": 2.4411343038082123, "cast_w": 0.31099095940589905, "time_standard": 214.29232880473137, "time_rowwise": 147.40507677197456, "time_global": 144.0824270248413}
+{"repeat": 64, "batch_size": 65536, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 138.23134452104568, "standard_gw": 131.48364424705505, "standard_gx": 141.09868183732033, "rowwise_fwd": 65.38830325007439, "rowwise_bwd": 58.39048698544502, "global_fwd": 65.2194656431675, "global_bwd": 58.58004465699196, "x_quantize_rowwise": 1.1899955570697784, "g_quantize_rowwise": 6.623774766921997, "w_quantize_rowwise": 0.5935952067375183, "w_quantize_colwise_transpose": 24.08137544989586, "w_quantize_global": 1.740824431180954, "w_quantize_global_transpose": 1.8664970993995667, "cast_x": 2.413548529148102, "cast_g": 9.63655486702919, "cast_w": 1.1956281960010529, "time_standard": 410.81367060542107, "time_rowwise": 287.7511754631996, "time_global": 266.7042464017868}
+{"repeat": 64, "batch_size": 65536, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 141.08363911509514, "standard_gw": 133.26667994260788, "standard_gx": 136.0350362956524, "rowwise_fwd": 58.49892646074295, "rowwise_bwd": 65.34496694803238, "global_fwd": 58.73573571443558, "global_bwd": 65.30505418777466, "x_quantize_rowwise": 6.648071110248566, "g_quantize_rowwise": 1.1903978884220123, "w_quantize_rowwise": 0.8329600095748901, "w_quantize_colwise_transpose": 15.297897160053253, "w_quantize_global": 1.7403066158294678, "w_quantize_global_transpose": 1.8791332840919495, "cast_x": 9.636614471673965, "cast_g": 2.4122819304466248, "cast_w": 1.1954344809055328, "time_standard": 410.3853553533554, "time_rowwise": 281.07989951968193, "time_global": 268.7653787434101}
+{"repeat": 64, "batch_size": 1024, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 2.535879611968994, "standard_gw": 2.249978482723236, "standard_gx": 2.2262558341026306, "rowwise_fwd": 1.085665076971054, "rowwise_bwd": 1.069542020559311, "global_fwd": 1.0830685496330261, "global_bwd": 1.0597631335258484, "x_quantize_rowwise": 0.02650916576385498, "g_quantize_rowwise": 0.1200847327709198, "w_quantize_rowwise": 0.5937665700912476, "w_quantize_colwise_transpose": 23.926906287670135, "w_quantize_global": 1.7397291958332062, "w_quantize_global_transpose": 1.8652454018592834, "cast_x": 0.03688782453536987, "cast_g": 0.15725940465927124, "cast_w": 1.1969134211540222, "time_standard": 7.012113928794861, "time_rowwise": 29.07245233654976, "time_global": 8.144378662109375}
+{"repeat": 64, "batch_size": 1024, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 2.245493233203888, "standard_gw": 2.2966675460338593, "standard_gx": 2.216015011072159, "rowwise_fwd": 1.1000856757164001, "rowwise_bwd": 1.0902360081672668, "global_fwd": 1.0597333312034607, "global_bwd": 1.0812543332576752, "x_quantize_rowwise": 0.11992454528808594, "g_quantize_rowwise": 0.026784837245941162, "w_quantize_rowwise": 0.8310377597808838, "w_quantize_colwise_transpose": 15.30550792813301, "w_quantize_global": 1.7401352524757385, "w_quantize_global_transpose": 1.8841177225112915, "cast_x": 0.1573599874973297, "cast_g": 0.03676116466522217, "cast_w": 1.195952296257019, "time_standard": 6.758175790309906, "time_rowwise": 20.770244300365448, "time_global": 8.208617568016052}
+{"repeat": 64, "batch_size": 2048, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 4.197858273983002, "standard_gw": 4.288379102945328, "standard_gx": 4.155721515417099, "rowwise_fwd": 2.0567886531352997, "rowwise_bwd": 1.9073635339736938, "global_fwd": 2.0506344735622406, "global_bwd": 1.9086338579654694, "x_quantize_rowwise": 0.04758685827255249, "g_quantize_rowwise": 0.22284314036369324, "w_quantize_rowwise": 0.5935467779636383, "w_quantize_colwise_transpose": 23.935042321681976, "w_quantize_global": 1.7397813498973846, "w_quantize_global_transpose": 1.8662959337234497, "cast_x": 0.08194148540496826, "cast_g": 0.3077872097492218, "cast_w": 1.1968687176704407, "time_standard": 12.641958892345428, "time_rowwise": 33.05155038833618, "time_global": 12.124154716730118}
+{"repeat": 64, "batch_size": 2048, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 4.126541316509247, "standard_gw": 4.309836775064468, "standard_gx": 4.117351025342941, "rowwise_fwd": 1.9266381859779358, "rowwise_bwd": 2.0577237010002136, "global_fwd": 1.908630132675171, "global_bwd": 2.0505934953689575, "x_quantize_rowwise": 0.22304058074951172, "g_quantize_rowwise": 0.04766136407852173, "w_quantize_rowwise": 0.8306317031383514, "w_quantize_colwise_transpose": 15.309855341911316, "w_quantize_global": 1.7415396869182587, "w_quantize_global_transpose": 1.8827766180038452, "cast_x": 0.30782073736190796, "cast_g": 0.08186325430870056, "cast_w": 1.1955127120018005, "time_standard": 12.553729116916656, "time_rowwise": 24.70538765192032, "time_global": 12.164078652858734}
+{"repeat": 64, "batch_size": 4096, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 8.298952132463455, "standard_gw": 8.345257490873337, "standard_gx": 8.647706359624863, "rowwise_fwd": 4.106882959604263, "rowwise_bwd": 3.8046911358833313, "global_fwd": 4.09451499581337, "global_bwd": 3.8078874349594116, "x_quantize_rowwise": 0.08447840809822083, "g_quantize_rowwise": 0.4291348159313202, "w_quantize_rowwise": 0.5934201180934906, "w_quantize_colwise_transpose": 23.843105882406235, "w_quantize_global": 1.7399191856384277, "w_quantize_global_transpose": 1.8653236329555511, "cast_x": 0.1577921211719513, "cast_g": 0.6089024245738983, "cast_w": 1.1952444911003113, "time_standard": 25.291915982961655, "time_rowwise": 41.2069708108902, "time_global": 20.366515964269638}
+{"repeat": 64, "batch_size": 4096, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 8.323360234498978, "standard_gw": 8.433796465396881, "standard_gx": 8.236430585384369, "rowwise_fwd": 3.8114115595817566, "rowwise_bwd": 4.106346517801285, "global_fwd": 3.8080140948295593, "global_bwd": 4.094675183296204, "x_quantize_rowwise": 0.4288516938686371, "g_quantize_rowwise": 0.08437782526016235, "w_quantize_rowwise": 0.8310228586196899, "w_quantize_colwise_transpose": 15.306610614061356, "w_quantize_global": 1.741155982017517, "w_quantize_global_transpose": 1.8809586763381958, "cast_x": 0.6091706454753876, "cast_g": 0.157233327627182, "cast_w": 1.1953115463256836, "time_standard": 24.993587285280228, "time_rowwise": 33.00241753458977, "time_global": 20.471829921007156}
+{"repeat": 64, "batch_size": 8192, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 16.656354069709778, "standard_gw": 17.066240310668945, "standard_gx": 17.252348363399506, "rowwise_fwd": 8.220307528972626, "rowwise_bwd": 7.2372183203697205, "global_fwd": 8.2036592066288, "global_bwd": 7.236208766698837, "x_quantize_rowwise": 0.15832111239433289, "g_quantize_rowwise": 0.8406005799770355, "w_quantize_rowwise": 0.5935393273830414, "w_quantize_colwise_transpose": 23.86143058538437, "w_quantize_global": 1.7401576042175293, "w_quantize_global_transpose": 1.8653534352779388, "cast_x": 0.3079026937484741, "cast_g": 1.209162175655365, "cast_w": 1.1951625347137451, "time_standard": 50.97494274377823, "time_rowwise": 57.97765776515007, "time_global": 37.11054101586342}
+{"repeat": 64, "batch_size": 8192, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 17.398890107870102, "standard_gw": 18.470749258995056, "standard_gx": 16.520217061042786, "rowwise_fwd": 7.235266268253326, "rowwise_bwd": 8.207589387893677, "global_fwd": 7.235914468765259, "global_bwd": 8.204508572816849, "x_quantize_rowwise": 0.8409880101680756, "g_quantize_rowwise": 0.15821680426597595, "w_quantize_rowwise": 0.8324198424816132, "w_quantize_colwise_transpose": 15.305522829294205, "w_quantize_global": 1.7396919429302216, "w_quantize_global_transpose": 1.8805749714374542, "cast_x": 1.2103468179702759, "cast_g": 0.30729547142982483, "cast_w": 1.1953599750995636, "time_standard": 52.389856427907944, "time_rowwise": 51.05075240135193, "time_global": 38.53064402937889}
+{"repeat": 64, "batch_size": 16384, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 33.533211797475815, "standard_gw": 33.00020843744278, "standard_gx": 34.614477306604385, "rowwise_fwd": 16.364943236112595, "rowwise_bwd": 14.551006257534027, "global_fwd": 16.33496955037117, "global_bwd": 14.513172209262848, "x_quantize_rowwise": 0.3053396940231323, "g_quantize_rowwise": 1.6693994402885437, "w_quantize_rowwise": 0.5936138331890106, "w_quantize_colwise_transpose": 23.89485388994217, "w_quantize_global": 1.741711050271988, "w_quantize_global_transpose": 1.8656104803085327, "cast_x": 0.6089657545089722, "cast_g": 2.4122074246406555, "cast_w": 1.1951886117458344, "time_standard": 101.14789754152298, "time_rowwise": 90.37936478853226, "time_global": 69.430410861969}
+{"repeat": 64, "batch_size": 16384, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 33.65536406636238, "standard_gw": 33.02193805575371, "standard_gx": 33.10496360063553, "rowwise_fwd": 14.54489678144455, "rowwise_bwd": 16.36252924799919, "global_fwd": 14.50401172041893, "global_bwd": 16.33254438638687, "x_quantize_rowwise": 1.6695670783519745, "g_quantize_rowwise": 0.3054291009902954, "w_quantize_rowwise": 0.83121657371521, "w_quantize_colwise_transpose": 15.305932611227036, "w_quantize_global": 1.7382949590682983, "w_quantize_global_transpose": 1.880194991827011, "cast_x": 2.412091940641403, "cast_g": 0.6079599261283875, "cast_w": 1.1950358748435974, "time_standard": 99.78226572275162, "time_rowwise": 82.04150944948196, "time_global": 69.45198029279709}
+{"repeat": 64, "batch_size": 32768, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 67.96638667583466, "standard_gw": 67.99514591693878, "standard_gx": 69.66376304626465, "rowwise_fwd": 33.51752087473869, "rowwise_bwd": 29.131878167390823, "global_fwd": 32.65715390443802, "global_bwd": 29.13403883576393, "x_quantize_rowwise": 0.6002038717269897, "g_quantize_rowwise": 3.3336542546749115, "w_quantize_rowwise": 0.5934685468673706, "w_quantize_colwise_transpose": 23.92345294356346, "w_quantize_global": 1.7405375838279724, "w_quantize_global_transpose": 1.8656738102436066, "cast_x": 1.2112446129322052, "cast_g": 4.81804832816124, "cast_w": 1.1952146887779236, "time_standard": 205.6252956390381, "time_rowwise": 159.09532457590103, "time_global": 137.3264081776142}
+{"repeat": 64, "batch_size": 32768, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 68.2341456413269, "standard_gw": 65.5074268579483, "standard_gx": 67.13805347681046, "rowwise_fwd": 29.153641313314438, "rowwise_bwd": 32.71844983100891, "global_fwd": 29.124341905117035, "global_bwd": 32.65979886054993, "x_quantize_rowwise": 3.3318176865577698, "g_quantize_rowwise": 0.6004795432090759, "w_quantize_rowwise": 0.8309967815876007, "w_quantize_colwise_transpose": 15.305690467357635, "w_quantize_global": 1.7405711114406586, "w_quantize_global_transpose": 1.8802620470523834, "cast_x": 4.8183538019657135, "cast_g": 1.2096390128135681, "cast_w": 1.1951103806495667, "time_standard": 200.87962597608566, "time_rowwise": 147.44850248098373, "time_global": 134.84469801187515}
+{"repeat": 64, "batch_size": 1024, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.07764250040054321, "standard_gw": 0.07398426532745361, "standard_gx": 0.08482858538627625, "rowwise_fwd": 0.05266070365905762, "rowwise_bwd": 0.04478543996810913, "global_fwd": 0.052012503147125244, "global_bwd": 0.044364482164382935, "x_quantize_rowwise": 0.02640858292579651, "g_quantize_rowwise": 0.02539902925491333, "w_quantize_rowwise": 0.026457011699676514, "w_quantize_colwise_transpose": 0.17770379781723022, "w_quantize_global": 0.07440149784088135, "w_quantize_global_transpose": 0.08142739534378052, "cast_x": 0.008150935173034668, "cast_g": 0.022415071725845337, "cast_w": 0.03479421138763428, "time_standard": 0.23645535111427307, "time_rowwise": 0.42739883065223694, "time_global": 0.3779977560043335}
+{"repeat": 64, "batch_size": 1024, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.08524581789970398, "standard_gw": 0.07383152842521667, "standard_gx": 0.07564574480056763, "rowwise_fwd": 0.04478171467781067, "rowwise_bwd": 0.052671879529953, "global_fwd": 0.04452839493751526, "global_bwd": 0.05219504237174988, "x_quantize_rowwise": 0.025328248739242554, "g_quantize_rowwise": 0.027123838663101196, "w_quantize_rowwise": 0.025607645511627197, "w_quantize_colwise_transpose": 0.17121434211730957, "w_quantize_global": 0.07916614413261414, "w_quantize_global_transpose": 0.08177384734153748, "cast_x": 0.022619962692260742, "cast_g": 0.008556991815567017, "cast_w": 0.034421682357788086, "time_standard": 0.23472309112548828, "time_rowwise": 0.42055919766426086, "time_global": 0.3839470446109772}
+{"repeat": 64, "batch_size": 2048, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.13731792569160461, "standard_gw": 0.13414397835731506, "standard_gx": 0.14049187302589417, "rowwise_fwd": 0.10158121585845947, "rowwise_bwd": 0.07804110646247864, "global_fwd": 0.09908527135848999, "global_bwd": 0.07766112685203552, "x_quantize_rowwise": 0.026516616344451904, "g_quantize_rowwise": 0.03666803240776062, "w_quantize_rowwise": 0.024981796741485596, "w_quantize_colwise_transpose": 0.17706677317619324, "w_quantize_global": 0.07443130016326904, "w_quantize_global_transpose": 0.07870793342590332, "cast_x": 0.01224130392074585, "cast_g": 0.05828961730003357, "cast_w": 0.03501400351524353, "time_standard": 0.41195377707481384, "time_rowwise": 0.5789995193481445, "time_global": 0.5272142589092255}
+{"repeat": 64, "batch_size": 2048, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.14651194214820862, "standard_gw": 0.14011189341545105, "standard_gx": 0.140264630317688, "rowwise_fwd": 0.081576406955719, "rowwise_bwd": 0.10671466588973999, "global_fwd": 0.08158013224601746, "global_bwd": 0.10219961404800415, "x_quantize_rowwise": 0.03775954246520996, "g_quantize_rowwise": 0.026103109121322632, "w_quantize_rowwise": 0.02656877040863037, "w_quantize_colwise_transpose": 0.17822161316871643, "w_quantize_global": 0.07506832480430603, "w_quantize_global_transpose": 0.07928535342216492, "cast_x": 0.05893409252166748, "cast_g": 0.012326985597610474, "cast_w": 0.03498047590255737, "time_standard": 0.42688846588134766, "time_rowwise": 0.5970560014247894, "time_global": 0.5421079695224762}
+{"repeat": 64, "batch_size": 4096, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.2734065055847168, "standard_gw": 0.25558844208717346, "standard_gx": 0.29174983501434326, "rowwise_fwd": 0.173322856426239, "rowwise_bwd": 0.1515895128250122, "global_fwd": 0.17048418521881104, "global_bwd": 0.1506991684436798, "x_quantize_rowwise": 0.025950372219085693, "g_quantize_rowwise": 0.0653192400932312, "w_quantize_rowwise": 0.027138739824295044, "w_quantize_colwise_transpose": 0.17699971795082092, "w_quantize_global": 0.07373467087745667, "w_quantize_global_transpose": 0.07901713252067566, "cast_x": 0.02214685082435608, "cast_g": 0.11127442121505737, "cast_w": 0.03481656312942505, "time_standard": 0.8207447826862335, "time_rowwise": 0.8759088814258575, "time_global": 0.8207932114601135}
+{"repeat": 64, "batch_size": 4096, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.27839839458465576, "standard_gw": 0.2537444233894348, "standard_gx": 0.28207898139953613, "rowwise_fwd": 0.16542896628379822, "rowwise_bwd": 0.18540024757385254, "global_fwd": 0.15722215175628662, "global_bwd": 0.17368420958518982, "x_quantize_rowwise": 0.06661936640739441, "g_quantize_rowwise": 0.027049332857131958, "w_quantize_rowwise": 0.025507062673568726, "w_quantize_colwise_transpose": 0.1741349697113037, "w_quantize_global": 0.07463246583938599, "w_quantize_global_transpose": 0.07879361510276794, "cast_x": 0.11301413178443909, "cast_g": 0.023346394300460815, "cast_w": 0.03505498170852661, "time_standard": 0.8142217993736267, "time_rowwise": 0.8978843688964844, "time_global": 0.8317455649375916}
+{"repeat": 64, "batch_size": 8192, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.5755424499511719, "standard_gw": 0.5219094455242157, "standard_gx": 0.5992203950881958, "rowwise_fwd": 0.33193081617355347, "rowwise_bwd": 0.295441597700119, "global_fwd": 0.32791122794151306, "global_bwd": 0.2906434237957001, "x_quantize_rowwise": 0.0337548553943634, "g_quantize_rowwise": 0.1225881278514862, "w_quantize_rowwise": 0.024937093257904053, "w_quantize_colwise_transpose": 0.17729029059410095, "w_quantize_global": 0.0730752944946289, "w_quantize_global_transpose": 0.07835403084754944, "cast_x": 0.058166682720184326, "cast_g": 0.21592900156974792, "cast_w": 0.03454089164733887, "time_standard": 1.6966722905635834, "time_rowwise": 1.5078522264957428, "time_global": 1.4482364058494568}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.5104020237922668, "standard_gw": 0.5302242934703827, "standard_gx": 0.5842559039592743, "rowwise_fwd": 0.32220035791397095, "rowwise_bwd": 0.3576017916202545, "global_fwd": 0.2939775586128235, "global_bwd": 0.3313682973384857, "x_quantize_rowwise": 0.12369826436042786, "g_quantize_rowwise": 0.03423169255256653, "w_quantize_rowwise": 0.026501715183258057, "w_quantize_colwise_transpose": 0.16975775361061096, "w_quantize_global": 0.0768713653087616, "w_quantize_global_transpose": 0.08094683289527893, "cast_x": 0.21589547395706177, "cast_g": 0.05825608968734741, "cast_w": 0.03466010093688965, "time_standard": 1.6248822212219238, "time_rowwise": 1.5642158687114716, "time_global": 1.4713183045387268}
+{"repeat": 64, "batch_size": 16384, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 1.194491982460022, "standard_gw": 1.0553859174251556, "standard_gx": 1.0726377367973328, "rowwise_fwd": 0.636763870716095, "rowwise_bwd": 0.5154944956302643, "global_fwd": 0.6281323730945587, "global_bwd": 0.5117170512676239, "x_quantize_rowwise": 0.062175095081329346, "g_quantize_rowwise": 0.23643672466278076, "w_quantize_rowwise": 0.025566667318344116, "w_quantize_colwise_transpose": 0.17768144607543945, "w_quantize_global": 0.07302314043045044, "w_quantize_global_transpose": 0.07866695523262024, "cast_x": 0.11140108108520508, "cast_g": 0.42498111724853516, "cast_w": 0.034831464290618896, "time_standard": 3.3225156366825104, "time_rowwise": 2.7095042169094086, "time_global": 2.645537257194519}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 1.0797791182994843, "standard_gw": 1.062549650669098, "standard_gx": 1.104947179555893, "rowwise_fwd": 0.5390122532844543, "rowwise_bwd": 0.6449781358242035, "global_fwd": 0.5145668983459473, "global_bwd": 0.6276033818721771, "x_quantize_rowwise": 0.23603439331054688, "g_quantize_rowwise": 0.062234699726104736, "w_quantize_rowwise": 0.02781301736831665, "w_quantize_colwise_transpose": 0.1703314483165741, "w_quantize_global": 0.07431954145431519, "w_quantize_global_transpose": 0.08028373122215271, "cast_x": 0.4249885678291321, "cast_g": 0.1113303005695343, "cast_w": 0.0348016619682312, "time_standard": 3.247275948524475, "time_rowwise": 2.742953598499298, "time_global": 2.657592296600342}
+{"repeat": 64, "batch_size": 32768, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 2.392485737800598, "standard_gw": 2.046734094619751, "standard_gx": 2.177651971578598, "rowwise_fwd": 1.252591609954834, "rowwise_bwd": 1.0205842554569244, "global_fwd": 1.230098307132721, "global_bwd": 1.0132193565368652, "x_quantize_rowwise": 0.11823698878288269, "g_quantize_rowwise": 0.4639141261577606, "w_quantize_rowwise": 0.02602487802505493, "w_quantize_colwise_transpose": 0.17801672220230103, "w_quantize_global": 0.07301196455955505, "w_quantize_global_transpose": 0.07893890142440796, "cast_x": 0.21591037511825562, "cast_g": 0.843394547700882, "cast_w": 0.03460049629211426, "time_standard": 6.616871803998947, "time_rowwise": 5.106102675199509, "time_global": 5.0241537392139435}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 2.205628901720047, "standard_gw": 1.9917488098144531, "standard_gx": 2.1518059074878693, "rowwise_fwd": 1.040138304233551, "rowwise_bwd": 1.2538731098175049, "global_fwd": 1.0131187736988068, "global_bwd": 1.2291893362998962, "x_quantize_rowwise": 0.46381354331970215, "g_quantize_rowwise": 0.11790916323661804, "w_quantize_rowwise": 0.027123838663101196, "w_quantize_colwise_transpose": 0.17021596431732178, "w_quantize_global": 0.0752471387386322, "w_quantize_global_transpose": 0.08159875869750977, "cast_x": 0.8433908224105835, "cast_g": 0.215873122215271, "cast_w": 0.03452599048614502, "time_standard": 6.349183619022369, "time_rowwise": 5.064822733402252, "time_global": 4.972625523805618}
+{"repeat": 64, "batch_size": 65536, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 4.755370318889618, "standard_gw": 4.736289381980896, "standard_gx": 4.0378570556640625, "rowwise_fwd": 2.4783052504062653, "rowwise_bwd": 1.9634142518043518, "global_fwd": 2.435591071844101, "global_bwd": 1.9498206675052643, "x_quantize_rowwise": 0.22948533296585083, "g_quantize_rowwise": 0.9186491370201111, "w_quantize_rowwise": 0.028233975172042847, "w_quantize_colwise_transpose": 0.17858296632766724, "w_quantize_global": 0.07418543100357056, "w_quantize_global_transpose": 0.07958710193634033, "cast_x": 0.4257224500179291, "cast_g": 1.680031418800354, "cast_w": 0.03458559513092041, "time_standard": 13.529516756534576, "time_rowwise": 10.532960295677185, "time_global": 10.423608124256134}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 4.050172865390778, "standard_gw": 3.916766494512558, "standard_gx": 4.281226545572281, "rowwise_fwd": 1.9789263606071472, "rowwise_bwd": 2.477586269378662, "global_fwd": 1.9495487213134766, "global_bwd": 2.434592694044113, "x_quantize_rowwise": 0.918261706829071, "g_quantize_rowwise": 0.22961944341659546, "w_quantize_rowwise": 0.025540590286254883, "w_quantize_colwise_transpose": 0.17032772302627563, "w_quantize_global": 0.07384642958641052, "w_quantize_global_transpose": 0.08105114102363586, "cast_x": 1.679886132478714, "cast_g": 0.42508915066719055, "cast_w": 0.03442913293838501, "time_standard": 12.248165905475616, "time_rowwise": 9.717028588056564, "time_global": 9.60368663072586}
+{"repeat": 64, "batch_size": 131072, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 9.53347235918045, "standard_gw": 8.138865232467651, "standard_gx": 7.9666972160339355, "rowwise_fwd": 4.984956234693527, "rowwise_bwd": 3.850068897008896, "global_fwd": 4.9025751650333405, "global_bwd": 3.820303827524185, "x_quantize_rowwise": 0.45222043991088867, "g_quantize_rowwise": 1.8290691077709198, "w_quantize_rowwise": 0.026736408472061157, "w_quantize_colwise_transpose": 0.17832592129707336, "w_quantize_global": 0.07471069693565369, "w_quantize_global_transpose": 0.08177757263183594, "cast_x": 0.8435025811195374, "cast_g": 3.3529214560985565, "cast_w": 0.03475695848464966, "time_standard": 25.639034807682037, "time_rowwise": 19.460242241621017, "time_global": 19.299522042274475}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 7.996037602424622, "standard_gw": 8.2748644053936, "standard_gx": 8.523400872945786, "rowwise_fwd": 3.8556940853595734, "rowwise_bwd": 4.966288805007935, "global_fwd": 3.820043057203293, "global_bwd": 4.882067441940308, "x_quantize_rowwise": 1.8279887735843658, "g_quantize_rowwise": 0.4520900547504425, "w_quantize_rowwise": 0.02676248550415039, "w_quantize_colwise_transpose": 0.17083808779716492, "w_quantize_global": 0.07691606879234314, "w_quantize_global_transpose": 0.08223950862884521, "cast_x": 3.3530443906784058, "cast_g": 0.8434318006038666, "cast_w": 0.034671276807785034, "time_standard": 24.794302880764008, "time_rowwise": 19.574526697397232, "time_global": 19.416209310293198}
+{"repeat": 64, "batch_size": 1024, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.09413063526153564, "standard_gw": 0.10038167238235474, "standard_gx": 0.09725615382194519, "rowwise_fwd": 0.05979463458061218, "rowwise_bwd": 0.0525452196598053, "global_fwd": 0.059057027101516724, "global_bwd": 0.05194917321205139, "x_quantize_rowwise": 0.02664700150489807, "g_quantize_rowwise": 0.02642720937728882, "w_quantize_rowwise": 0.030562281608581543, "w_quantize_colwise_transpose": 0.2400912344455719, "w_quantize_global": 0.09407848119735718, "w_quantize_global_transpose": 0.10256841778755188, "cast_x": 0.008724629878997803, "cast_g": 0.028502196073532104, "cast_w": 0.05552172660827637, "time_standard": 0.29176846146583557, "time_rowwise": 0.5364492535591125, "time_global": 0.4611089825630188}
+{"repeat": 64, "batch_size": 1024, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.09753555059432983, "standard_gw": 0.10102242231369019, "standard_gx": 0.09121373295783997, "rowwise_fwd": 0.052150338888168335, "rowwise_bwd": 0.059779733419418335, "global_fwd": 0.05161017179489136, "global_bwd": 0.05943328142166138, "x_quantize_rowwise": 0.026702880859375, "g_quantize_rowwise": 0.02469494938850403, "w_quantize_rowwise": 0.03324449062347412, "w_quantize_colwise_transpose": 0.23468583822250366, "w_quantize_global": 0.09394437074661255, "w_quantize_global_transpose": 0.10142102837562561, "cast_x": 0.028360635042190552, "cast_g": 0.008717179298400879, "cast_w": 0.05577504634857178, "time_standard": 0.28977170586586, "time_rowwise": 0.5322806537151337, "time_global": 0.4588291049003601}
+{"repeat": 64, "batch_size": 2048, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.18056854605674744, "standard_gw": 0.18374621868133545, "standard_gx": 0.19219890236854553, "rowwise_fwd": 0.1150965690612793, "rowwise_bwd": 0.0903494656085968, "global_fwd": 0.11263042688369751, "global_bwd": 0.08984282612800598, "x_quantize_rowwise": 0.027067959308624268, "g_quantize_rowwise": 0.040043145418167114, "w_quantize_rowwise": 0.03063306212425232, "w_quantize_colwise_transpose": 0.24128705263137817, "w_quantize_global": 0.09361281991004944, "w_quantize_global_transpose": 0.1024976372718811, "cast_x": 0.01381710171699524, "cast_g": 0.06845593452453613, "cast_w": 0.05572289228439331, "time_standard": 0.5565136671066284, "time_rowwise": 0.7282234728336334, "time_global": 0.6494410336017609}
+{"repeat": 64, "batch_size": 2048, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.16536936163902283, "standard_gw": 0.19479170441627502, "standard_gx": 0.18597766757011414, "rowwise_fwd": 0.09634345769882202, "rowwise_bwd": 0.11937320232391357, "global_fwd": 0.09264424443244934, "global_bwd": 0.11524930596351624, "x_quantize_rowwise": 0.04038214683532715, "g_quantize_rowwise": 0.025559216737747192, "w_quantize_rowwise": 0.03334507346153259, "w_quantize_colwise_transpose": 0.23956596851348877, "w_quantize_global": 0.09445473551750183, "w_quantize_global_transpose": 0.1020580530166626, "cast_x": 0.06891414523124695, "cast_g": 0.013861805200576782, "cast_w": 0.05607306957244873, "time_standard": 0.546138733625412, "time_rowwise": 0.7493607699871063, "time_global": 0.6651394069194794}
+{"repeat": 64, "batch_size": 4096, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.36064907908439636, "standard_gw": 0.3711991012096405, "standard_gx": 0.3863237798213959, "rowwise_fwd": 0.22270530462265015, "rowwise_bwd": 0.1760348677635193, "global_fwd": 0.21781772375106812, "global_bwd": 0.17484650015830994, "x_quantize_rowwise": 0.02625212073326111, "g_quantize_rowwise": 0.07131323218345642, "w_quantize_rowwise": 0.030372291803359985, "w_quantize_colwise_transpose": 0.23974105715751648, "w_quantize_global": 0.09407475590705872, "w_quantize_global_transpose": 0.1024492084980011, "cast_x": 0.028584152460098267, "cast_g": 0.1303069293498993, "cast_w": 0.05582347512245178, "time_standard": 1.1181719601154327, "time_rowwise": 1.137617975473404, "time_global": 1.057952642440796}
+{"repeat": 64, "batch_size": 4096, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.32703205943107605, "standard_gw": 0.3764517605304718, "standard_gx": 0.3938935697078705, "rowwise_fwd": 0.18771737813949585, "rowwise_bwd": 0.2374798059463501, "global_fwd": 0.1843757927417755, "global_bwd": 0.23005902767181396, "x_quantize_rowwise": 0.07155537605285645, "g_quantize_rowwise": 0.02625212073326111, "w_quantize_rowwise": 0.03294646739959717, "w_quantize_colwise_transpose": 0.23755058646202087, "w_quantize_global": 0.09388476610183716, "w_quantize_global_transpose": 0.10246038436889648, "cast_x": 0.13131648302078247, "cast_g": 0.028781592845916748, "cast_w": 0.05638599395751953, "time_standard": 1.0973773896694183, "time_rowwise": 1.1699534952640533, "time_global": 1.0850392282009125}
+{"repeat": 64, "batch_size": 8192, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.7961541414260864, "standard_gw": 0.7424280047416687, "standard_gx": 0.8688867092132568, "rowwise_fwd": 0.432576984167099, "rowwise_bwd": 0.34543126821517944, "global_fwd": 0.4248805344104767, "global_bwd": 0.3432855010032654, "x_quantize_rowwise": 0.03750622272491455, "g_quantize_rowwise": 0.13292208313941956, "w_quantize_rowwise": 0.030599534511566162, "w_quantize_colwise_transpose": 0.24292618036270142, "w_quantize_global": 0.09351596236228943, "w_quantize_global_transpose": 0.1026056706905365, "cast_x": 0.06843730807304382, "cast_g": 0.2539418637752533, "cast_w": 0.05568563938140869, "time_standard": 2.407468855381012, "time_rowwise": 1.9643902778625488, "time_global": 1.8771439790725708}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.7150471210479736, "standard_gw": 0.7525831460952759, "standard_gx": 0.8075274527072906, "rowwise_fwd": 0.36595389246940613, "rowwise_bwd": 0.4404708743095398, "global_fwd": 0.3485158085823059, "global_bwd": 0.4275962710380554, "x_quantize_rowwise": 0.1329965889453888, "g_quantize_rowwise": 0.03767386078834534, "w_quantize_rowwise": 0.03295019268989563, "w_quantize_colwise_transpose": 0.23509934544563293, "w_quantize_global": 0.09398534893989563, "w_quantize_global_transpose": 0.10186433792114258, "cast_x": 0.2537667751312256, "cast_g": 0.06839632987976074, "cast_w": 0.05571544170379639, "time_standard": 2.27515771985054, "time_rowwise": 1.9977279007434845, "time_global": 1.8952153623104095}
+{"repeat": 64, "batch_size": 16384, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 1.6392990946769714, "standard_gw": 1.4941170811653137, "standard_gx": 1.4451220631599426, "rowwise_fwd": 0.8369758725166321, "rowwise_bwd": 0.6830468773841858, "global_fwd": 0.8197203278541565, "global_bwd": 0.6782263517379761, "x_quantize_rowwise": 0.06883591413497925, "g_quantize_rowwise": 0.2565309405326843, "w_quantize_rowwise": 0.03046169877052307, "w_quantize_colwise_transpose": 0.2430342137813568, "w_quantize_global": 0.09346380829811096, "w_quantize_global_transpose": 0.10301917791366577, "cast_x": 0.13044849038124084, "cast_g": 0.5010999739170074, "cast_w": 0.05590170621871948, "time_standard": 4.578538239002228, "time_rowwise": 3.613002598285675, "time_global": 3.5139136016368866}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 1.4654621481895447, "standard_gw": 1.5012174844741821, "standard_gx": 1.5183314681053162, "rowwise_fwd": 0.7059797644615173, "rowwise_bwd": 0.8470229804515839, "global_fwd": 0.6788894534111023, "global_bwd": 0.8200779557228088, "x_quantize_rowwise": 0.2564750611782074, "g_quantize_rowwise": 0.06899237632751465, "w_quantize_rowwise": 0.03293529152870178, "w_quantize_colwise_transpose": 0.23559853434562683, "w_quantize_global": 0.09375810623168945, "w_quantize_global_transpose": 0.10203942656517029, "cast_x": 0.5010105669498444, "cast_g": 0.13037025928497314, "cast_w": 0.05577504634857178, "time_standard": 4.485011100769043, "time_rowwise": 3.648221492767334, "time_global": 3.521449863910675}
+{"repeat": 64, "batch_size": 32768, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 3.236088901758194, "standard_gw": 2.8601549565792084, "standard_gx": 2.8000958263874054, "rowwise_fwd": 1.6548968851566315, "rowwise_bwd": 1.3559646904468536, "global_fwd": 1.6249343752861023, "global_bwd": 1.3474412262439728, "x_quantize_rowwise": 0.13122707605361938, "g_quantize_rowwise": 0.5038455128669739, "w_quantize_rowwise": 0.03061816096305847, "w_quantize_colwise_transpose": 0.24301931262016296, "w_quantize_global": 0.09343400597572327, "w_quantize_global_transpose": 0.10178983211517334, "cast_x": 0.25383010506629944, "cast_g": 0.9955987334251404, "cast_w": 0.05569681525230408, "time_standard": 8.896339684724808, "time_rowwise": 6.779726594686508, "time_global": 6.662826985120773}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 2.8433389961719513, "standard_gw": 2.861086279153824, "standard_gx": 3.0227042734622955, "rowwise_fwd": 1.4057457447052002, "rowwise_bwd": 1.6565024852752686, "global_fwd": 1.3475008308887482, "global_bwd": 1.6247481107711792, "x_quantize_rowwise": 0.5038045346736908, "g_quantize_rowwise": 0.13130158185958862, "w_quantize_rowwise": 0.03298744559288025, "w_quantize_colwise_transpose": 0.23539364337921143, "w_quantize_global": 0.09393692016601562, "w_quantize_global_transpose": 0.10208785533905029, "cast_x": 0.9952597320079803, "cast_g": 0.25385990738868713, "cast_w": 0.05589798092842102, "time_standard": 8.72712954878807, "time_rowwise": 6.826821714639664, "time_global": 6.664466112852097}
+{"repeat": 64, "batch_size": 65536, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 6.449159234762192, "standard_gw": 6.384443491697311, "standard_gx": 5.543403327465057, "rowwise_fwd": 3.3065229654312134, "rowwise_bwd": 2.6249960064888, "global_fwd": 3.2497718930244446, "global_bwd": 2.6061534881591797, "x_quantize_rowwise": 0.25821104645729065, "g_quantize_rowwise": 0.9981803596019745, "w_quantize_rowwise": 0.030606985092163086, "w_quantize_colwise_transpose": 0.24094432592391968, "w_quantize_global": 0.09358301758766174, "w_quantize_global_transpose": 0.10264664888381958, "cast_x": 0.5018562078475952, "cast_g": 1.9840113818645477, "cast_w": 0.05584210157394409, "time_standard": 18.37700605392456, "time_rowwise": 13.843905180692673, "time_global": 13.692989945411682}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 5.508493632078171, "standard_gw": 5.689781159162521, "standard_gx": 6.020743399858475, "rowwise_fwd": 2.640843391418457, "rowwise_bwd": 3.3075474202632904, "global_fwd": 2.605751156806946, "global_bwd": 3.2674334943294525, "x_quantize_rowwise": 0.9983181953430176, "g_quantize_rowwise": 0.25597214698791504, "w_quantize_rowwise": 0.03277510404586792, "w_quantize_colwise_transpose": 0.23587048053741455, "w_quantize_global": 0.09367987513542175, "w_quantize_global_transpose": 0.10236725211143494, "cast_x": 1.9848868250846863, "cast_g": 0.5010329186916351, "cast_w": 0.055771321058273315, "time_standard": 17.219018191099167, "time_rowwise": 13.161107897758484, "time_global": 13.013303279876709}
+{"repeat": 64, "batch_size": 131072, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 12.975204735994339, "standard_gw": 11.424731463193893, "standard_gx": 11.05477660894394, "rowwise_fwd": 6.623122841119766, "rowwise_bwd": 5.253363400697708, "global_fwd": 6.506938487291336, "global_bwd": 5.211424082517624, "x_quantize_rowwise": 0.5057789385318756, "g_quantize_rowwise": 1.9870363175868988, "w_quantize_rowwise": 0.030517578125, "w_quantize_colwise_transpose": 0.24361908435821533, "w_quantize_global": 0.09384006261825562, "w_quantize_global_transpose": 0.10285153985023499, "cast_x": 0.9967051446437836, "cast_g": 3.9620958268642426, "cast_w": 0.05599111318588257, "time_standard": 35.45471280813217, "time_rowwise": 26.068169623613358, "time_global": 25.83260089159012}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 11.05555146932602, "standard_gw": 11.32136583328247, "standard_gx": 12.035444378852844, "rowwise_fwd": 5.243867635726929, "rowwise_bwd": 6.622854620218277, "global_fwd": 5.209986120462418, "global_bwd": 6.507329642772675, "x_quantize_rowwise": 1.9862838089466095, "g_quantize_rowwise": 0.506080687046051, "w_quantize_rowwise": 0.03318488597869873, "w_quantize_colwise_transpose": 0.23682788014411926, "w_quantize_global": 0.09349361062049866, "w_quantize_global_transpose": 0.1023709774017334, "cast_x": 3.962486982345581, "cast_g": 0.9956248104572296, "cast_w": 0.05572289228439331, "time_standard": 34.412361681461334, "time_rowwise": 25.950465351343155, "time_global": 25.726910680532455}
diff --git a/tests/triton_tests/info_mlp.jsonl b/tests/triton_tests/info_mlp.jsonl
new file mode 100644
index 0000000..a2076ee
--- /dev/null
+++ b/tests/triton_tests/info_mlp.jsonl
@@ -0,0 +1,20 @@
+{"repeat": 32, "batch_size": 16384, "dim": 1024, "standard": 3.807276487350464, "my_standard": 4.196919500827789, "standard_compiled": 3.771558403968811, "sb": 3.5132691264152527}
+{"repeat": 32, "batch_size": 32768, "dim": 1024, "standard": 7.215872406959534, "my_standard": 7.991522550582886, "standard_compiled": 7.241688668727875, "sb": 6.581142544746399}
+{"repeat": 32, "batch_size": 65536, "dim": 1024, "standard": 14.26444947719574, "my_standard": 15.685759484767914, "standard_compiled": 14.251746237277985, "sb": 12.735314667224884}
+{"repeat": 32, "batch_size": 131072, "dim": 1024, "standard": 28.49559485912323, "my_standard": 31.26966953277588, "standard_compiled": 28.414390981197357, "sb": 25.319166481494904}
+{"repeat": 32, "batch_size": 16384, "dim": 1280, "standard": 5.887262523174286, "my_standard": 6.132654845714569, "standard_compiled": 5.902409553527832, "sb": 4.947789013385773}
+{"repeat": 32, "batch_size": 32768, "dim": 1280, "standard": 11.14131510257721, "my_standard": 12.859955430030823, "standard_compiled": 11.133037507534027, "sb": 9.303092956542969}
+{"repeat": 32, "batch_size": 65536, "dim": 1280, "standard": 22.193141281604767, "my_standard": 25.66336840391159, "standard_compiled": 22.22583442926407, "sb": 18.285617232322693}
+{"repeat": 32, "batch_size": 131072, "dim": 1280, "standard": 44.23898458480835, "my_standard": 51.30268633365631, "standard_compiled": 44.08355802297592, "sb": 35.999126732349396}
+{"repeat": 32, "batch_size": 16384, "dim": 1408, "standard": 6.938718259334564, "my_standard": 7.269218564033508, "standard_compiled": 6.94604218006134, "sb": 5.764961242675781}
+{"repeat": 32, "batch_size": 32768, "dim": 1408, "standard": 13.04878294467926, "my_standard": 13.742901384830475, "standard_compiled": 13.011425733566284, "sb": 10.774023830890656}
+{"repeat": 32, "batch_size": 65536, "dim": 1408, "standard": 26.738539338111877, "my_standard": 27.739346027374268, "standard_compiled": 26.75659954547882, "sb": 21.882005035877228}
+{"repeat": 32, "batch_size": 131072, "dim": 1408, "standard": 51.905401051044464, "my_standard": 53.98637801408768, "standard_compiled": 51.8316924571991, "sb": 41.67725890874863}
+{"repeat": 32, "batch_size": 16384, "dim": 1664, "standard": 9.233824908733368, "my_standard": 9.619377553462982, "standard_compiled": 9.214423596858978, "sb": 7.557623088359833}
+{"repeat": 32, "batch_size": 32768, "dim": 1664, "standard": 17.324909567832947, "my_standard": 17.996780574321747, "standard_compiled": 17.29544997215271, "sb": 14.035224914550781}
+{"repeat": 32, "batch_size": 65536, "dim": 1664, "standard": 35.51657497882843, "my_standard": 36.674730479717255, "standard_compiled": 35.43049842119217, "sb": 28.38330715894699}
+{"repeat": 32, "batch_size": 131072, "dim": 1664, "standard": 69.0087378025055, "my_standard": 71.56594842672348, "standard_compiled": 68.82885098457336, "sb": 54.01633679866791}
+{"repeat": 32, "batch_size": 16384, "dim": 2048, "standard": 12.590140104293823, "my_standard": 13.106442987918854, "standard_compiled": 12.606985867023468, "sb": 10.286301374435425}
+{"repeat": 32, "batch_size": 32768, "dim": 2048, "standard": 24.830535054206848, "my_standard": 25.563716888427734, "standard_compiled": 24.895809590816498, "sb": 19.559212028980255}
+{"repeat": 32, "batch_size": 65536, "dim": 2048, "standard": 49.55078661441803, "my_standard": 51.16480588912964, "standard_compiled": 49.739621579647064, "sb": 38.29141706228256}
+{"repeat": 32, "batch_size": 131072, "dim": 2048, "standard": 98.36294502019882, "my_standard": 102.69322991371155, "standard_compiled": 98.76712411642075, "sb": 75.88706165552139}
diff --git a/tests/triton_tests/info_mlp_autocast.jsonl b/tests/triton_tests/info_mlp_autocast.jsonl
new file mode 100644
index 0000000..f2098cc
--- /dev/null
+++ b/tests/triton_tests/info_mlp_autocast.jsonl
@@ -0,0 +1,20 @@
+{"repeat": 32, "batch_size": 16384, "dim": 1024, "standard": 4.91420179605484, "my_standard": 5.577877163887024, "standard_compiled": 4.810944199562073, "sb": 4.512995481491089}
+{"repeat": 32, "batch_size": 32768, "dim": 1024, "standard": 8.876129984855652, "my_standard": 10.154612362384796, "standard_compiled": 8.820965886116028, "sb": 8.367843925952911}
+{"repeat": 32, "batch_size": 65536, "dim": 1024, "standard": 17.47015118598938, "my_standard": 19.857674837112427, "standard_compiled": 17.338842153549194, "sb": 15.992552042007446}
+{"repeat": 32, "batch_size": 131072, "dim": 1024, "standard": 34.824438393116, "my_standard": 39.499424397945404, "standard_compiled": 34.56207364797592, "sb": 31.573951244354248}
+{"repeat": 32, "batch_size": 16384, "dim": 1280, "standard": 7.342606782913208, "my_standard": 7.9323723912239075, "standard_compiled": 7.279552519321442, "sb": 6.395488977432251}
+{"repeat": 32, "batch_size": 32768, "dim": 1280, "standard": 13.69999349117279, "my_standard": 16.0503089427948, "standard_compiled": 13.603456318378448, "sb": 11.813104152679443}
+{"repeat": 32, "batch_size": 65536, "dim": 1280, "standard": 29.557034373283386, "my_standard": 34.2303067445755, "standard_compiled": 29.382556676864624, "sb": 22.882774472236633}
+{"repeat": 32, "batch_size": 131072, "dim": 1280, "standard": 53.629085421562195, "my_standard": 63.07622790336609, "standard_compiled": 53.33048850297928, "sb": 44.76426541805267}
+{"repeat": 32, "batch_size": 16384, "dim": 1408, "standard": 8.81417840719223, "my_standard": 9.477965533733368, "standard_compiled": 8.73943418264389, "sb": 7.479414343833923}
+{"repeat": 32, "batch_size": 32768, "dim": 1408, "standard": 16.242466866970062, "my_standard": 17.616644501686096, "standard_compiled": 16.14125818014145, "sb": 13.665586709976196}
+{"repeat": 32, "batch_size": 65536, "dim": 1408, "standard": 32.429613173007965, "my_standard": 34.80646014213562, "standard_compiled": 32.319076359272, "sb": 27.123987674713135}
+{"repeat": 32, "batch_size": 131072, "dim": 1408, "standard": 62.85770237445831, "my_standard": 67.55391508340836, "standard_compiled": 62.453076243400574, "sb": 51.53566598892212}
+{"repeat": 32, "batch_size": 16384, "dim": 1664, "standard": 11.585861444473267, "my_standard": 12.565858662128448, "standard_compiled": 11.504307389259338, "sb": 9.657211601734161}
+{"repeat": 32, "batch_size": 32768, "dim": 1664, "standard": 21.261662244796753, "my_standard": 22.771358489990234, "standard_compiled": 21.12410217523575, "sb": 17.64291524887085}
+{"repeat": 32, "batch_size": 65536, "dim": 1664, "standard": 42.85307973623276, "my_standard": 45.70870101451874, "standard_compiled": 42.57970303297043, "sb": 34.918561577796936}
+{"repeat": 32, "batch_size": 131072, "dim": 1664, "standard": 83.56057852506638, "my_standard": 89.11971747875214, "standard_compiled": 83.05662125349045, "sb": 66.32210314273834}
+{"repeat": 32, "batch_size": 16384, "dim": 2048, "standard": 15.7279372215271, "my_standard": 16.854502260684967, "standard_compiled": 15.655294060707092, "sb": 13.228952884674072}
+{"repeat": 32, "batch_size": 32768, "dim": 2048, "standard": 30.42648732662201, "my_standard": 32.26502239704132, "standard_compiled": 30.239209532737732, "sb": 24.354808032512665}
+{"repeat": 32, "batch_size": 65536, "dim": 2048, "standard": 60.779355466365814, "my_standard": 64.11923468112946, "standard_compiled": 60.89268624782562, "sb": 46.91776633262634}
+{"repeat": 32, "batch_size": 131072, "dim": 2048, "standard": 119.93677169084549, "my_standard": 128.19699943065643, "standard_compiled": 120.20225822925568, "sb": 92.3452153801918}
diff --git a/tests/triton_tests/info_mlp_autocast_ln.jsonl b/tests/triton_tests/info_mlp_autocast_ln.jsonl
new file mode 100644
index 0000000..706f949
--- /dev/null
+++ b/tests/triton_tests/info_mlp_autocast_ln.jsonl
@@ -0,0 +1,23 @@
+{"repeat": 32, "batch_size": 16384, "dim": 1024, "standard": 5.171686410903931, "my_standard": 5.839601159095764, "standard_compiled": 5.032263696193695, "sb": 4.89344447851181}
+{"repeat": 32, "batch_size": 32768, "dim": 1024, "standard": 9.605035185813904, "my_standard": 10.910414159297943, "standard_compiled": 9.230785071849823, "sb": 9.128175675868988}
+{"repeat": 32, "batch_size": 65536, "dim": 1024, "standard": 18.802084028720856, "my_standard": 21.311581134796143, "standard_compiled": 18.105976283550262, "sb": 17.489850521087646}
+{"repeat": 32, "batch_size": 131072, "dim": 1024, "standard": 37.49683499336243, "my_standard": 42.40527004003525, "standard_compiled": 36.13145649433136, "sb": 34.58733111619949}
+{"repeat": 32, "batch_size": 16384, "dim": 1280, "standard": 7.709823548793793, "my_standard": 8.290477097034454, "standard_compiled": 7.564418017864227, "sb": 6.8823546171188354}
+{"repeat": 32, "batch_size": 32768, "dim": 1280, "standard": 14.64156061410904, "my_standard": 16.996942460536957, "standard_compiled": 14.4081711769104, "sb": 12.761622667312622}
+{"repeat": 32, "batch_size": 65536, "dim": 1280, "standard": 31.40200674533844, "my_standard": 36.074504256248474, "standard_compiled": 30.981406569480896, "sb": 24.76389706134796}
+{"repeat": 32, "batch_size": 131072, "dim": 1280, "standard": 56.93405121564865, "my_standard": 66.35250151157379, "standard_compiled": 56.07586354017258, "sb": 48.49743843078613}
+{"repeat": 32, "batch_size": 16384, "dim": 1408, "standard": 9.188003838062286, "my_standard": 9.84550267457962, "standard_compiled": 9.006097912788391, "sb": 7.9473331570625305}
+{"repeat": 32, "batch_size": 32768, "dim": 1408, "standard": 17.268165946006775, "my_standard": 18.64910125732422, "standard_compiled": 16.983114182949066, "sb": 14.70106840133667}
+{"repeat": 32, "batch_size": 65536, "dim": 1408, "standard": 34.39047932624817, "my_standard": 36.69705241918564, "standard_compiled": 33.8401272892952, "sb": 29.188089072704315}
+{"repeat": 32, "batch_size": 131072, "dim": 1408, "standard": 66.70494377613068, "my_standard": 71.27603143453598, "standard_compiled": 65.56134670972824, "sb": 55.6538850069046}
+{"repeat": 32, "batch_size": 16384, "dim": 1664, "standard": 12.10707426071167, "my_standard": 12.931793928146362, "standard_compiled": 11.76995038986206, "sb": 10.228671133518219}
+{"repeat": 32, "batch_size": 32768, "dim": 1664, "standard": 22.5130096077919, "my_standard": 23.962542414665222, "standard_compiled": 21.997176110744476, "sb": 18.89890432357788}
+{"repeat": 32, "batch_size": 65536, "dim": 1664, "standard": 45.210108160972595, "my_standard": 47.94136434793472, "standard_compiled": 44.2262664437294, "sb": 37.37735003232956}
+{"repeat": 32, "batch_size": 131072, "dim": 1664, "standard": 88.1955549120903, "my_standard": 93.6831533908844, "standard_compiled": 86.33609116077423, "sb": 71.23208791017532}
+{"repeat": 32, "batch_size": 16384, "dim": 2048, "standard": 16.538940370082855, "my_standard": 17.607316374778748, "standard_compiled": 16.108587384223938, "sb": 14.030493795871735}
+{"repeat": 32, "batch_size": 32768, "dim": 2048, "standard": 31.795650720596313, "my_standard": 33.57230871915817, "standard_compiled": 31.04180097579956, "sb": 25.971196591854095}
+{"repeat": 32, "batch_size": 65536, "dim": 2048, "standard": 63.021354377269745, "my_standard": 66.8477788567543, "standard_compiled": 61.682507395744324, "sb": 50.138771533966064}
+{"repeat": 32, "batch_size": 131072, "dim": 2048, "standard": 125.17062574625015, "my_standard": 133.60925763845444, "standard_compiled": 122.21191823482513, "sb": 98.40084612369537}
+{"repeat": 32, "batch_size": 16384, "dim": 4096, "standard": 57.31645971536636, "my_standard": 60.84543466567993, "standard_compiled": 55.78199774026871, "sb": 45.43223977088928}
+{"repeat": 32, "batch_size": 32768, "dim": 4096, "standard": 111.80306226015091, "my_standard": 119.0284714102745, "standard_compiled": 108.91905426979065, "sb": 85.4572057723999}
+{"repeat": 32, "batch_size": 65536, "dim": 4096, "standard": 220.4471081495285, "my_standard": 233.0927476286888, "standard_compiled": 214.26431089639664, "sb": 163.30372542142868}
diff --git a/tests/triton_tests/make_plot_with_info.py b/tests/triton_tests/make_plot_with_info.py
new file mode 100644
index 0000000..116d1d1
--- /dev/null
+++ b/tests/triton_tests/make_plot_with_info.py
@@ -0,0 +1,137 @@
+import matplotlib.pyplot as plt
+import pandas as pd
+import numpy as np
+import os
+
+import matplotlib.gridspec as gridspec
+
+cmap=plt.get_cmap('cool')
+
+if __name__ == '__main__':
+
+    fig = plt.figure(tight_layout=True, figsize=(12,3.5))
+    gs = gridspec.GridSpec(1, 2)
+
+
+    ax = fig.add_subplot(gs[0, 0])
+
+    rdf = pd.read_json('tests/triton_tests/info.jsonl', lines=True)
+    df = rdf[rdf.batch_size == 32768]
+
+    for k, marker, ls, color, name in [
+        ('standard_gx+standard_gw+standard_fwd', 's', '-', 'C2', 'Standard fp16 (sum of parts)'),
+        ('x_quantize_rowwise+g_quantize_rowwise+w_quantize_global+w_quantize_global_transpose+standard_gw+global_fwd+global_bwd', 'o', '-', 'C4', 'SwitchBack int8 (sum of parts)'),
+
+        ('standard_fwd', '^', '--', 'C2', 'Matmul XW (standard)'),
+        ('standard_gw', '^', '-.', 'C2', 'Matmul GW (standard)'),
+        ('standard_gx', '^', ':', 'gray', 'Matmul GX (both)'),
+
+        ('global_fwd', '^', '--', 'C4', 'Int8 Matmul XW (switchback)'),
+        ('global_bwd', '^', '-.', 'C4', 'Int8 Matmul GW (switchback)'),
+        
+        ####                 time_global = info['x_quantize_rowwise'] + info['g_quantize_rowwise'] + info['w_quantize_global'] + info['w_quantize_global_transpose'] + info['standard_gw'] + info['global_fwd'] + info['global_bwd']
+
+        ('x_quantize_rowwise', 'P', '--', 'C4', 'Quantize rowwise X (switchback)'),
+        ('g_quantize_rowwise', 'P', '-.', 'C4', 'Quantize rowwise G (switchback)'),
+        ('w_quantize_global', '.', '--', 'C4', 'Quatnize global W (switchback)'),
+        ('w_quantize_global_transpose', '.', '-.', 'C4', 'Quantize gloabl and\ntranspose W (switchback)'),
+        #('standard_gw', '.', '--', 'C1', 'standard_gw'),
+    ]:
+        xs = []
+        ys = []
+        for embed_dim in [1024, 1280, 1408, 1664, 2048, 4096]:
+            df_ = df[df.dim_in == embed_dim]
+            df_ = df_[df_.dim_out == embed_dim * 4]
+            xs.append(embed_dim)
+            y_ = 0
+            for k_ in k.split('+'):
+                y_ += df_[k_].values[0]
+            df_ = df[df.dim_in == embed_dim * 4]
+            df_ = df_[df_.dim_out == embed_dim]
+            for k_ in k.split('+'):
+                y_ += df_[k_].values[0]
+            ys.append(y_ * 0.5)
+
+        
+        ax.plot(xs, ys, color=color, label=name, marker=marker, markersize=5 if marker=='s' else 5, linestyle=ls, linewidth=2 if '+' in k else 1.)
+
+
+
+
+    ax.set_xlabel('dim', fontsize=13)
+    ax.set_ylabel('time (ms)', fontsize=13)
+    # make a legend which is below the plot
+
+
+
+    ax.grid()
+
+    ax.set_xscale('log')
+    #ax.set_yscale('log')
+    
+    ax.tick_params(axis='x', labelsize=11)
+    ax.tick_params(axis='y', labelsize=11)
+
+    ax.set_xticks([1024, 2048, 4096])
+    ax.set_xticklabels([1024, 2048, 4096])
+    ax.set_xticks([], minor=True)
+
+    leg = ax.legend(loc='upper center', bbox_to_anchor=(-0.64,  1.), ncol=1, fontsize=10)
+    leg.get_texts()[0].set_fontweight('bold')
+    leg.get_texts()[1].set_fontweight('bold')
+    plt.subplots_adjust(left=0.1)
+    ax.set_title('  Linear layer, batch * sequence length = 32k', fontsize=10, loc='left', y=1.05, pad=-20)
+
+
+    ax = fig.add_subplot(gs[0, 1])
+
+    # now plot the % speedup for different batch sizes
+    for j, batch_size in enumerate([2**14, 2**15, 2**16, 2**17]):
+        all_xs, all_ys = [], []
+        for k, marker, ls, color, name in [
+            ('standard_gx+standard_gw+standard_fwd', 's', '-', 'C2', 'Standard fp16 (total time)'),
+            ('x_quantize_rowwise+g_quantize_rowwise+w_quantize_global+w_quantize_global_transpose+standard_gw+global_fwd+global_bwd', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
+        ]:
+        
+            xs, ys = [], []
+            df = rdf[rdf.batch_size == batch_size]
+            for embed_dim in [1024, 1280, 1408, 1664, 2048, 4096]:
+                df_ = df[df.dim_in == embed_dim]
+                df_ = df_[df_.dim_out == embed_dim * 4]
+                xs.append(embed_dim)
+                y_ = 0
+                for k_ in k.split('+'):
+                    y_ += df_[k_].values[0]
+                df_ = df[df.dim_in == embed_dim * 4]
+                df_ = df_[df_.dim_out == embed_dim]
+                for k_ in k.split('+'):
+                    y_ += df_[k_].values[0]
+                ys.append(y_ * 0.5)
+            all_xs.append(xs)
+            all_ys.append(ys)
+
+        color = cmap(j * 0.25)
+        real_ys = [-((all_ys[1][i] - all_ys[0][i]) / all_ys[0][i]) * 100 for i in range(len(all_ys[0]))]
+        markers = ['^', 'v', 'P', 'o']
+        ax.plot(all_xs[0], real_ys, color=color, label=f'batch * sequence length = {batch_size}', marker=markers[j], markersize=5 if marker=='s' else 5)
+
+    ax.legend()
+    ax.set_xlabel('dim', fontsize=13)
+    ax.set_xscale('log')
+    ax.grid()
+    ax.set_ylabel(r'% speedup', fontsize=13)
+
+
+    ax.tick_params(axis='x', labelsize=11)
+    ax.tick_params(axis='y', labelsize=11)
+
+    ax.set_xticks([1024, 2048, 4096])
+    ax.set_xticklabels([1024, 2048, 4096])
+    ax.set_xticks([], minor=True)
+
+    ax.set_title('  Linear layer summary, varying dimensions', fontsize=10, loc='left', y=1.05, pad=-20)
+
+
+
+    plt.savefig('tests/triton_tests/plot1.pdf', bbox_inches='tight')
+
diff --git a/tests/triton_tests/mlp.py b/tests/triton_tests/mlp.py
new file mode 100644
index 0000000..1ec85b8
--- /dev/null
+++ b/tests/triton_tests/mlp.py
@@ -0,0 +1,64 @@
+
+import time
+import torch
+import torch.nn as nn
+import bitsandbytes.nn as bnn
+from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear, MyLinear
+
+def construct_model(dim, layers, module):
+    modules = []
+    for _ in range(layers):
+        modules.append(module(dim, 4*dim))
+        modules.append(module(4*dim, dim))
+    return nn.Sequential(*modules).cuda().train()
+
+def get_time(model, x, name):
+    for _ in range(repeat // 2):
+        #with torch.cuda.amp.autocast():
+        out = model(x)
+        #(2**16 * out.pow(2).mean()).backward()
+
+    torch.cuda.synchronize()
+    start = time.time()
+    for _ in range(repeat):
+        # with torch.cuda.amp.autocast():
+        out = model(x)
+        #(2**16 * out.pow(2).mean()).backward()
+
+    torch.cuda.synchronize()
+    end = time.time()
+    print(f"time {name}: {(end - start) / repeat * 1000:.3f} ms")
+
+if __name__ == '__main__':
+    torch.manual_seed(0)
+
+    # hparams
+    repeat = 16
+    dim=2048
+    layers =4 
+    batch_size = 2
+    sequence_length = 2**15
+
+    # construct models
+    standard = construct_model(dim, layers, nn.Linear).half()
+    my_standard = construct_model(dim, layers, MyLinear).half()
+    switchback = construct_model(dim, layers, SwitchBackLinear).half()
+    switchback_global = construct_model(dim, layers, SwitchBackGlobalLinear).half()
+    #bnb_8bitmixed = construct_model(dim, layers, bnn.Linear8bitLt)
+
+    # simulate forward pass
+    x = torch.randn(batch_size * sequence_length, dim, dtype=torch.float16).cuda()
+
+    # get time for forward and backward
+    get_time(standard, x, "standard")
+    get_time(my_standard, x, "my_standard")
+    get_time(switchback, x, "switchback")
+    get_time(switchback_global, x, "switchback_global")
+    #get_time(bnb_8bitmixed, x, "bnb_8bitmixed")
+
+
+
+
+
+
+    
\ No newline at end of file
diff --git a/tests/triton_tests/mlp_decomp_autocast.py b/tests/triton_tests/mlp_decomp_autocast.py
new file mode 100644
index 0000000..3a1fc9e
--- /dev/null
+++ b/tests/triton_tests/mlp_decomp_autocast.py
@@ -0,0 +1,166 @@
+
+import torch
+import json
+from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, MyLinear
+import time
+
+if __name__ == '__main__':
+    
+    print('Startin')
+
+
+    for dim in [1024, 1280, 1408, 1664, 2048]:
+        for batch in [2**14, 2**15, 2**16, 2**17]:
+
+            if dim != 4096 or batch != 2**17:
+                continue
+        
+            
+            x1 = torch.randn(batch, dim).cuda().requires_grad_(True)
+            d = 2
+
+            standard = torch.nn.Sequential(
+                torch.nn.Linear(dim, 4 * dim),
+                torch.nn.GELU(),
+                torch.nn.Linear(4 * dim, dim),
+            ).cuda()
+
+            my_standard = torch.nn.Sequential(
+                MyLinear(dim, 4 * dim),
+                torch.nn.GELU(),
+                MyLinear(4 * dim, dim),
+            ).cuda()
+
+            fused_mlp = SwitchBackGlobalMLP(dim, 4 * dim).cuda()
+
+            sb = torch.nn.Sequential(
+                SwitchBackGlobalLinear(dim, 4 * dim),
+                torch.nn.GELU(),
+                SwitchBackGlobalLinear(4 * dim, dim),
+            ).cuda()
+            
+            standard_compiled = torch.compile(standard)
+
+            print('Model part 2')
+
+            repeat = 32
+            
+
+            info = {'repeat' : repeat, 'batch_size' : batch, 'dim' : dim}
+
+            # k = 'standard'
+            # for _ in range(repeat // 2):
+            #     with torch.cuda.amp.autocast():
+            #         out_standard = standard(x1)
+            #     ((2 ** 16) * out_standard).abs().mean().backward()
+
+            # torch.cuda.synchronize()
+            # start = time.time()
+            # for _ in range(repeat):
+            #     with torch.cuda.amp.autocast():
+            #         out_standard = standard(x1)
+            #     ((2 ** 16) * out_standard).abs().mean().backward()
+
+            # torch.cuda.synchronize()
+            # end = time.time()
+            # ms = (end - start) / repeat * 1000
+            # print(f"time {k}: {ms:.3f} ms")
+            # info[k] = ms
+
+
+            # x1.grad.zero_()
+            
+            # k = 'my_standard'
+            # for _ in range(repeat // 2):
+            #     with torch.cuda.amp.autocast():
+            #         out_my_standard = my_standard(x1)
+            #     ((2 ** 16) * out_my_standard).abs().mean().backward()
+
+            # torch.cuda.synchronize()
+            # start = time.time()
+            # for _ in range(repeat):
+            #     with torch.cuda.amp.autocast():
+            #         out_my_standard = my_standard(x1)
+            #     ((2 ** 16) * out_my_standard).abs().mean().backward()
+
+            # torch.cuda.synchronize()
+            # end = time.time()
+            # ms = (end - start) / repeat * 1000
+            # print(f"time {k}: {ms:.3f} ms")
+            # info[k] = ms
+
+            # x1.grad.zero_()
+
+            # k = 'standard_compiled'
+            # for _ in range(repeat // 2):
+            #     with torch.cuda.amp.autocast():
+            #         out_standard_compiled = standard_compiled(x1)
+            #     ((2 ** 16) * out_standard_compiled).abs().mean().backward()
+
+            # torch.cuda.synchronize()
+            # start = time.time()
+            # for _ in range(repeat):
+            #     with torch.cuda.amp.autocast():
+            #         out_standard_compiled = standard_compiled(x1)
+            #     ((2 ** 16) * out_standard_compiled).abs().mean().backward()
+
+            # torch.cuda.synchronize()
+            # end = time.time()
+            # ms = (end - start) / repeat * 1000
+            # print(f"time {k}: {ms:.3f} ms")
+            # info[k] = ms
+
+            # x1.grad.zero_()
+
+            k = 'sb'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_sb = sb(x1)
+                ((2 ** 16) * out_sb).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_sb = sb(x1)
+                ((2 ** 16) * out_sb).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+
+            info_json = json.dumps(info)
+
+
+            with open("tests/triton_tests/info_mlp_autocast.jsonl", "a") as file:
+                file.write(info_json + "\n")
+
+
+        #exit()
+
+    # err_fused = (out_standard - out_fused).abs().mean()
+    # err_sb = (out_standard - out_sb).abs().mean()
+    # print('OUT', err_fused, err_sb)
+
+    # err_fused = (standard[d].weight.grad - fused_mlp.linear2.weight.grad).abs().mean()
+    # err_sb = (standard[d].weight.grad - sb[d].weight.grad).abs().mean()
+
+    # print('GW2', err_fused, err_sb)
+
+    # err_fused = (standard[0].weight.grad - fused_mlp.linear1.weight.grad).abs().mean()
+    # err_sb = (standard[0].weight.grad - sb[0].weight.grad).abs().mean()
+
+    # print('GW1', err_fused, err_sb)
+
+    # err_fused = (x1.grad - x2.grad).abs().mean()
+    # err_sb = (x1.grad - x3.grad).abs().mean()
+
+    # print('GX1', err_fused, err_sb)
+
+    # import pdb; pdb.set_trace()
+
+
+    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
\ No newline at end of file
diff --git a/tests/triton_tests/mlp_decomp_autocast_ln.py b/tests/triton_tests/mlp_decomp_autocast_ln.py
new file mode 100644
index 0000000..2596278
--- /dev/null
+++ b/tests/triton_tests/mlp_decomp_autocast_ln.py
@@ -0,0 +1,165 @@
+
+import torch
+import json
+from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, MyLinear
+import time
+
+if __name__ == '__main__':
+    
+    print('Startin')
+
+
+    for dim in [1024, 1280, 1408, 1664, 2048]:
+        for batch in [2**14, 2**15, 2**16, 2**17]:
+            
+            x1 = torch.randn(batch, dim).cuda().requires_grad_(True)
+            d = 2
+
+            standard = torch.nn.Sequential(
+                torch.nn.LayerNorm(dim),
+                torch.nn.Linear(dim, 4 * dim),
+                torch.nn.GELU(),
+                torch.nn.Linear(4 * dim, dim),
+            ).cuda()
+
+            my_standard = torch.nn.Sequential(
+                torch.nn.LayerNorm(dim),
+                MyLinear(dim, 4 * dim),
+                torch.nn.GELU(),
+                MyLinear(4 * dim, dim),
+            ).cuda()
+
+            fused_mlp = SwitchBackGlobalMLP(dim, 4 * dim).cuda()
+
+            sb = torch.nn.Sequential(
+                torch.nn.LayerNorm(dim),
+                SwitchBackGlobalLinear(dim, 4 * dim),
+                torch.nn.GELU(),
+                SwitchBackGlobalLinear(4 * dim, dim),
+            ).cuda()
+            
+            standard_compiled = torch.compile(standard)
+
+            print('Model part 2')
+
+            repeat = 32
+            
+
+            info = {'repeat' : repeat, 'batch_size' : batch, 'dim' : dim}
+
+            k = 'standard'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_standard = standard(x1)
+                ((2 ** 16) * out_standard).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_standard = standard(x1)
+                ((2 ** 16) * out_standard).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+
+            x1.grad.zero_()
+            
+            k = 'my_standard'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_my_standard = my_standard(x1)
+                ((2 ** 16) * out_my_standard).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_my_standard = my_standard(x1)
+                ((2 ** 16) * out_my_standard).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            x1.grad.zero_()
+
+            k = 'standard_compiled'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_standard_compiled = standard_compiled(x1)
+                ((2 ** 16) * out_standard_compiled).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_standard_compiled = standard_compiled(x1)
+                ((2 ** 16) * out_standard_compiled).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+            x1.grad.zero_()
+
+            k = 'sb'
+            for _ in range(repeat // 2):
+                with torch.cuda.amp.autocast():
+                    out_sb = sb(x1)
+                ((2 ** 16) * out_sb).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(repeat):
+                with torch.cuda.amp.autocast():
+                    out_sb = sb(x1)
+                ((2 ** 16) * out_sb).abs().mean().backward()
+
+            torch.cuda.synchronize()
+            end = time.time()
+            ms = (end - start) / repeat * 1000
+            print(f"time {k}: {ms:.3f} ms")
+            info[k] = ms
+
+
+            info_json = json.dumps(info)
+
+
+            with open("tests/triton_tests/info_mlp_autocast_ln.jsonl", "a") as file:
+                file.write(info_json + "\n")
+
+
+        #exit()
+
+    # err_fused = (out_standard - out_fused).abs().mean()
+    # err_sb = (out_standard - out_sb).abs().mean()
+    # print('OUT', err_fused, err_sb)
+
+    # err_fused = (standard[d].weight.grad - fused_mlp.linear2.weight.grad).abs().mean()
+    # err_sb = (standard[d].weight.grad - sb[d].weight.grad).abs().mean()
+
+    # print('GW2', err_fused, err_sb)
+
+    # err_fused = (standard[0].weight.grad - fused_mlp.linear1.weight.grad).abs().mean()
+    # err_sb = (standard[0].weight.grad - sb[0].weight.grad).abs().mean()
+
+    # print('GW1', err_fused, err_sb)
+
+    # err_fused = (x1.grad - x2.grad).abs().mean()
+    # err_sb = (x1.grad - x3.grad).abs().mean()
+
+    # print('GX1', err_fused, err_sb)
+
+    # import pdb; pdb.set_trace()
+
+
+    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
\ No newline at end of file
diff --git a/tests/triton_tests/plot1.pdf b/tests/triton_tests/plot1.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..1fe71682174766b2d551d9aa055a72e6eb837737
GIT binary patch
literal 34302
zcmb@t1z43$(*P_;cPl7(=!SC+-QAti(%mJkq;!WMAq~>q-5{liv<OH_ODG`!eeij{
z_xaw3@7L?U{)=nbJ@>}U&dl!4&dgFPi%T*?SlH31OBX;T&1eu18027VjmFOpVpaEa
zGy}1U8MzwSI#_^Mm5nUSTtHBufhtH)5Y5cq6xNXY9~~qe>|H@@Hw{>|l#H#-Ok6=+
zzkW)1xJs$H8o8Q**nfRcHga_}bG8R@z<#2!s#zMDTG?BGIRC13b}&&ha|P)FV8tZ?
zRLneFL98-%01Bdi<zj#3G9dkbpac2$1Ymf>uy-~Cu=|BRtE!ocgPXGnFdrEH0DJ{A
zQ!67;2M+)u82ICcu(NPMxwtsEc(}prASgRK3pW6VRScLRFpLX`=NFzL_Vy0IF9@v9
zKdAz%{+o>QX7(1YmLSMqpe3zrfr*1yC2av}h?|)>n3}=xcX4$#GqOYTNdKUx@3Pn!
z=iAW{z^cnpL-^j(XO$d#)%0Us@o0~!UQ+S!nn*GS8Fl>Es<p=I4nL(pstJ&%=YAcv
z_9{bDFVW0bLEi~W98l)<;mVVgjeE~Lzvo=^V7F|XY+t%dEeahR*Q>$)7w7I#`z`Ge
zl$Sq^vwh@>!m@HCYhZ12ffC2iaaBEk)$09|)V^I}HKirvw5nk&{xl<hNfiT&fplw0
z>jA08R#Kuhz87{}qc7eUsmr+!9kGY?ZziX|L5lB0VDv@D@6*S-FTRM_t5{SxyW|_~
z-`Z0mZ7DN6EmS-aq-WP4*EwIx$ranq&={853W!xq-u0XD{dC1EAOfdsEc}92n3?KD
zlE`C{!<jZ=b-`V~zUw#M1+Nvnx#}sA#eFLDpqAc#ZQh60XO|ttl-mYZ>37ezNB0~S
zx$<hS>My*{wv}40z3MImADnwkq~>`g#79Lnh<c&9A}862S_C|rCoUXSnXxik{n#@`
zzg-tNHuWu?K>)EOaG0~I27<AhQ*+3@q@C2-TOKC<b?D`$LbUjH0yHvF*<8oWfu*9u
z;GsC0^P9&I_)yMZjl(z|L;c*-dL@@bYa++`!$mlebNS)#mAH5(RN%;h1~?`(<`4}Z
zXozZVXXRvL?*!5o-%*8Pw5Ti`j|XFhASzCn&m)1j6XtMHKWJo>qQ6PWF-|Ok37A*=
zp2?9FTazFr)#QiefDbj*;)6<3s@sXuoV?f+R&nOODAFmlAIe7Y;qb07i3RBR?p6;g
zAp;GBfd=qlV^MMvWLodmU!G9KP7!$3%1zcvqkSI&dLzb{jfqKH-^VW#E%?T=iAj}V
zJ>WNe5?N<m@?%+=o<uZP*<I^V&-CWAr=Gr(SKmfYc9lK}D*L!bV<BRc@`yfUAT3p+
z4=^5m@)L@kUb-l75-mTGE`r%)V59yjL#a(lP#&WSf|eW48P+W9+nK*oYpu6QPfwu0
zkH<sk^Ny*!&aPU3B=_rvXM7Qyn|Skw_m#!V6LHZ#_Y1t)U3?qd2Bf3jMy_y-i-)fc
zuWVm7d;hffaCN9}W%sZ&vP-R+$V6aRNMWfZNSXBko8vTh1)i6Ep$aNurG%#fW0Xn+
zQaIWqX8+S{Y&chEVeyJoBd;>y2=UDz=}O<JB7P$|G#huE<^(y-nlq$Yag>J=8v)jH
zLU#!D)oH9iuN;jAK2g44)5=-4Q+`o2NN8Hg<ATPJ<0vmlJFhx<w|7}3YP=|P%A|F;
zC+W3uo*>+wyq<`Jw6G=LAo{(SqqUy-xEFON_9Z8NWYGpa)?Y$!CjH3ZG5YFT4ByMH
z@?g8MFQ_xtylebIZob80)R>+3vDDJ?WzF5Uw5!tu<68GAj|vqBXY$G{{aC5;$jL!l
zX=GP-YeqVHLb%T2A7qFWC`q4Vl9M|7BbsMZQ*nnH?riFaQnbGOMuA@&^sQVfF3;p8
zZaj(syqN&rQC{zP1K}qjRvx19IP?D2>;~zu&syIJY+on!Gt+0m1zH+YyjqZ5O-@Xk
zln{zhDNCEId`Hfb*L6=mbo#BOb{M^7Z_pFIdxgCvkDe#BH>4(g3tm`YZX#}*v@3VT
zl7XDRwwUU*MagxqW#%AlhWxa>j7&?eQz09r<{-q^^TcoG<(PE})FbS-H9l3t_sqg!
zh-x?2Bx#t+GvJBJ%a~3Z3qw7klNzFLGZz<=pWjH_O~<q!4JC#s?Bi(ht-YMP%nVCK
z-ICQ>P+xx~ks(y5FD&qRqcwtllV?{nh9>T9fV&FjKDW*^`8O6Wd#w~4k$3cprT8IZ
z#njieLs?(p`um+w>Mp(qsz&FWX@2&~KTH=24VI%@E8w@}Qq%3W{H&JNuiTO}M?gYZ
zO-K0gtyUgquoo*Y*`>rWGMQsXE4*uwRwo{zt~+ra5;m3jw}7U8OM#L*T@qg=*etX$
zG1>bz?M5n=z2(u%7-V*5Rvh|US()G?Ryh^in&*{dgNq%7CEtf>&ef-jN4t^1aj5-t
zxu8c?j}1(ak*>6nWKWzD_#QepYoc0f-e*e_55|RHoy2{p{+=6IUx@DlnOi^CYFIOq
zE@=(=eq5X4DPtX+LZk#mH_$<t*)Hsq!<c-j67_xD;TXzmASvUNe;EIgM)GZOVd8p2
zY8Y<%6M@n+hy{%^_#B^x<igIJ!uGyhV4S4TmEMrr$Dkqm5t%9Q^RRc32{<O2^2cbg
z9t?p9kX5Ra{(kb$Xo>+doZUueNjy9}<pn$<GdWa8#76{a6&#srszz%_Y&lMhQM$70
zUs%wIcuYRNwWLF3OYF8KX3J|dmz0yinQ?q~TA*^JJCwvD*l8C0l4gb)qTkJ3E&0}R
zHU8zG#Bez-n>=f32MgqLWALun!U`uFGj{e+P*T5~IfW9#gMucR1#=o}D><V#+N+#w
zVaiy!g9dCSL-G+2B`(fuBIkS!+?tW(_&`n}?;%VGZ3?#u6<3IfRloF03(SEUGpesj
zA`-kwac9H*U)hFP_{?i+v!cd@NzB|t6(elQ?(I7!Vt2+4^NrLFN$tCeXS28QDe3x9
z#YWYD%jO^tTD_g66X^H~9t&<YB+-|t+!rINojMq2wi>e0@*9#fEZL1u!M*Ytl9P{V
z<7+ByePU4ko?t~Bc}~k?sJAz-E6}EP+9x=5GcHW;$Y%836hbp+@|x6x2-epHJ+5q>
z9xc{G>92GSEtAq65}&a?7I8ChdZ{UVR$eje`*dVCICO1puXm?zG0f6?_-B9p_t&Ob
zORZke^6mAyxFaI-1(X?AsXM4YsJ_hGslU;e-fg~aYi;7bn9$F-x>)JiZ~kcUbfd%d
zdUny^^2g!I`ejZ_bEBvCncUgM*ygk0{OOHPsoD53y5jzal_IV$ys|9xt-J9NMBP_@
zKFNC=yG}|q-N*1Hcw_FJNr6~4Zb8-O?~2kK&5lb%3=&hh&-*$Q`K2B#9&gu|jA}V%
zVv_lF%punHcYx7Ef2vJ#>b>!~cWuDbOu`cJK|;Z)T;xmo)6({tx*eaz6eb@0Dyz9u
z7UXmz2Lx#YmoCauOf~Uhf0if$HXSpPt`Afw65u6OMB?J=RHKD{Py^QbL6`mqWqsD7
zpFNASqpxbP9h$Q~CG7kCSU+8LJKNjXyPAE`GRp~%HJHNGjMb%FEVXDS8YP(||2Z}u
z+2B!zElN@Q8;!~1?qC8NKPQre5oij$k{bEympgkz490g3^x89A4!~i~ljcr-SG{fF
zcTonE$zCnQ_3unh9z)ip*Etab;k1iBf8lXu-(905f9qm1dPcMpOQ9irq?F+pc)Y$T
zd0KC<s%aSf1Il5%QdW>h;v1`->o!KVGHFN?LMl(6mwH#fgte#cTfMX-e^44)nnxZ&
zqYkaH$|8=)tG?4#_g8KDlHcEXJ<Iy;8g{tcH~U?vW#m;$<E+h|O)&QvnQS?2+|cmJ
zj7#qcWoc3r4X6#9=F3afcReRB`+84Qcp~sHch6$Ro(Z<J{Pg&6b^aL1Px{Fx_xl@1
zprg@OJU`Exh<L@xp;cc(DX7$_^42DeapTBndO|FNz%m6M(nC(TsD90>hVlkv#0je@
zaLB!FJ0`{HBwaxbIO(;9TyG-Uh)=K^J=xG`W`dTvr&`GzxH0Bp?(Cklv^>Ewi)Ow5
zl)hvB2(OzV6`U9^<&n#gX5=MA%xUPbN|oA~62CgpVAO0Pba~y=)FMN}Q_&%5AjI;*
zXGzZ|^o74HZsehJxOkIKE%-i0Ck4{WKpNcV&Yll{yrj;{&3@K|dFAU4Umg~sWJ$A7
zVj5r|O9to5()kw5NMTUUw7zw@PEr?x^F#(>FE1F}YGNMxE*v4S;<G?qjqX`!nTIlm
zO_mlNv2+bZ98s8V@Hw}nNQSo0B|GJZvq$6hdo0)cIXx3SDr<2Yi-k%l4fhsfVisCd
zTvU5%C|+99AjG_dn&IXn4u#hmA-pk);#Q%H)QNljdinLM*)s3mVnL~yS{6bEB*8N2
zJb@KWa=~b$;Yb=EqAmkLO)N1UyBA7mQq~$>(#-T8%ME3@h?iqkX=@lf>O~sE%Co(z
z+AGuss{Acq7Pmv5@Qba(Gt4@XMWo3Tma@G`JZhb<lFJjrP_K}>_oB%mIVjI~@Tokn
zywau9YoGgXxaH~fGYcQrV929<ztZG*1YumaaY`+GJGrXK`T&l-Fx@`UKYGpo@r9NF
zUGDQ#+o~Aa+IPXu`sqyZs3C7m;ok_#!|RN`nRt9`7Hax1<|Uof6ncb`Zpzh{y^xEM
z`I4s<<K@j#<yE2vg}B;{X#M3Bh%xUpe7=V~c28m`OUDSUtePAwhfh6~nXfNF$eg^t
z-{0;(QWVw!M_dsRqxQtVS8}KBE2F<v@BZ9Q54Qz!{#-eHF&2AkK<3*QZ;6iU8WZ&;
z*cs9ZhS9uV4G<+Otz%xj=2b3_h{(+gP<A6o-|nG${h<`i7t(<m7rBb7Pd#JcFfKma
z84&G!`r}Q{rROKw&!spnDoI%K_IrZqiwo_~o_bf!?)2ZKTZ<#I)~RwNdpMoeP#1yt
zYA_f+6_jEVZmW}w+rark<p59p`ztY_No+3`VRHrfsfU4}JlYI&N9o!1raNQ7+4_!<
z-f_X0mBY%wA4|tr1^xQue_am5US;b)&;B;Mp~6q*?l1TJ^TNH)<*}Ioiy~&PW)KY!
zHr&ZOI4--7>3o*SvFLR-q<xk=31VihCE(FLqtZnay21|z2`bBDF6uKQ9w$6MiQ0JS
z7)0P$c3k+{TL{+=4<%%Ra*xiPDnP>n8lajb4BQvQaeA^2_z$=kL(X2&b(}Q)IARK~
zfF~a}$T%a&?NydmLaLgiQ?_*@3y3Rhr|~L`<+vik-?CE1E&2=@3J!@7_2P|I&F!t4
z^u&=`YBa%nB(=&FqokF&dFbZ&&5_{yKt9p{g8->ivC7KKCV!|&xdUbl8>j7|iV&_~
z!E?_hu4ztg&8;nN*(kgL$qkW*3F~Z>{80aBT^~KN$RiEMDLN%Q$=(9p$DfDjWPRa#
zC0EHYJRd8rwS6K{d&kT|(y#%-j#Tz>l<r-qrka2L(so+mdUCP7qtWB|@airilFL~n
zab|1v3+=bo!}X?9JNMOX1y4}b63B!kot~Zw(`o(e&pdu)#h=*l%xlDAi0bF_7as|I
zm!6Cq>6{$%ptOdJni3&0&)XAXTCgT!`q>sQ*m0oshKw7ZfCosJv4^y|G8`+Ndg1m}
zB!njEz0hn%=Sj0dJl^Z9Jmz<*`~FofXYi9g%|@U>L%x7RU<#iGcrHGor2g&cfVV*d
z$JpGmbp11wF_391Vi#4}v0Qnv%_C#Hcw7v2`dW3ga;`jQQG9vldSu%ka+Y|R`^3u#
z&odzObFEh5YI4*|@dS}-ODGI>+!MAN^VaoQ?tKbnqqT5PS8?v1-<hLF07>ZB2+mu+
zbtrxw>CTe>;gosb_|f-Rgxqhn9hscb(1{@XQC9Y*{jynTuKu#`+vpC#Ou=KSE5lm+
z7ETYF(epWuhdHDb54~LTeKOU)Wbk82A7P;^?|-lL4|#h3DV(L?i0}~$&jDkQ&!uD!
z-+%)|fTIvNDqeqH)U3H`E%BpZRq~!_h^7NAtz^oJhkn&LCO!m1YVP;Ms<!Fd3CVes
zEA>jbc-UEfNK5tv8!(m-P*huA4sRs*5T#6aacw^e^74t6_e<Sx_F*CYAwAVknnwoe
zYAm!&K2lwI{O<Kcr1zyesJCyE_#8vd)x^5#ML>|yyMv|z`^FdWJ%Jo5&JG>uW+PuU
z6EK$uX))(wvS+yGo_~bHF;N%$GVeIYy|A46;S!Z=IefF)X4j$>eKXe3Dgdp;T497Q
z#%SS4M62C3t&9x|rX|ZuH`>oVy7KJ%p?i{aZyjavNdMyGNT2Unh|{-MKk5&^8TF-&
z-ObW?>ov3CqdB?g*V-<4aj^f%?YjFqh0CFZE9K)ou7;F-d;6G+f^G@Hsk<i8Co7|t
z_uEeUfYY8v6t1@D-E#x(HbnK+4O9sNU^%o<tdb(K+rJ_ZZ5;jNpQ^|osQ&O3k;$9Q
zRvrD|$2gLE_a;Z`Hx1QBjvkU9i+-VFN`8W>?WD|~w_Mrlc*PbuN*p*+GBHaR$<T9D
z@Ysd;-92VAWJaHCl)4YEAAV4B&_a5?Sfo4Kv^mj_otG!V)(_Xvc4BgUPq;`XH{%)Y
zA#t5^7dVHaewAiv#hVa~ApgLiWd6sDPvjTV5fm`Kjh8KI5CK_~civXPxX6;>LCi(0
zP_`b^po!r2Kt>UwKLvgx`fMA~Qx67*$Pv;hDZwq%+TgPf+ApS5^BzYf3Y9wcREveZ
zdxK-rpr-TXN=>v&unJd+F?lx*jWC#?q<gw@yAtP-0;qfhn<;32Bj)MYx$h-U_B!LG
z6P?%lbYTs;`&7Yanz>;XB#v^G16~ARmC&}8HmS=xR#P~Ib6dGV@JrgCf-%@8a*13<
z;HT;a-eyiqbwg({K>?H@N=4XFmfv<;@v!@t89w+_7fjqcXF4p>KmO{IlRfSY4N9&0
zh*Y|ki&-L6^@GjRKzxH33;JE2XEvTMd%8?^>ClLYjx}p6(ydWA|1mQ&dpVg#+<_jN
zR8XFvzp1Z#pch09q3DN6a^|b;@6*YN@1CZ!aQTc?S|}%OuAi*!UBkT<TFr%7I{&iH
z{blpKG3CL`dmLa0<ZnahjSUd?Q5U5D_cu0}&F{bLfKV<r!1(tYBcMQ>Tzn50Mf{8x
zQ3_{;(uu54wZ?I;Bf~y@xI0Hqa`dh{OR6eA-i84+E2+EQLW568Nu4wL;d3m)@kE=0
zZ~Eu4x`if88;=+&#v=HyXrhm>^>SjdKc+L3_IO0OnU}N>GA;>)dtYLf&^Kd+IjVZ*
z6~&Q@n@p09g?mA8Coxv7b2R<2Vyn`4Of?QL_2eh<A1cUcy*MP#@e0*C{HYR42j#tB
za~9pDL?ww}CO*({Rch5U6VRF7=iXAx*Nk5lpl>R0#jbMd@CW1t`Lx%pVuS3{)t$R{
z{RkdpqX|_*)Umi?s_u*$rD{1U?%eP1s|$GMobh0?(!fDanOg?UBxCSLy+`)qnGjEr
zW!%46zy>oj{}*N1*#CgC9IAZw)DVoF4T4tTJ3AJ$8=hUp5nr$7sX3&nMeC)*-7mUD
z`P!K(YbLkO>kIcJDx#hRzIiC5M5w|_V6lyG#J$ZcsAO);DpuapjGLh*q;yWY_Eb!M
zEP;0vpVq>yi(ael6NwzHX#Gsn;H!g-DcOu~BJLnf^4X}oh<HU_6_zGFam6G%6wi*}
zndX`;>TU}Kp%cw}6|q*x)ymTK)ibOPw%utSIbIA6&<9i&Pmt}Aq4sv%U{xr&PE-#~
z$zlQIBuZw!y>bPN%4C-_lTI=Iq4xb+hHSQ<imEafl$|Z^eWDXfQ`!(~32POm>O%?1
zBU-VeaMZ92ef)^0F68~!f=F4=`wQc%5#+O^dxli2g>{43txZ3}U+OyKsUv#0CRs!`
z`BIrnr99M8%#t+~m|ktAYn#yH;Ofw~ETCI@+iKZByuHtQ$^R@%=o*gK;aTP_{DGPI
z|C>J$&Oea+c)92`FoxI}PcX~G^OKs@WA$7}MB0VJ#$@WYgs{l;3j(&s^Odp}N3~1u
zy|6A$8BKJjYC9f(<yLuHJxKeY>Z_Z?0@0GsyiW!4<828QKDYP$31nQ@ALSB=zm*||
zd>IU^U~~~AKIJw&(yTZoI1yZAK=SSvQCOG2^;zoh`SdYM4*KryUN{oZ2j2ttq+{g~
z=gDz~O*<9G2G(z-o@2P$$WKywG~)_&)B0`rQqmgiH@=}7V$qWDyq!vyoRl=Nk*uK`
zLL%|*bR_jrr}H|OxxTh!Oa5u>vxL5wmL<=!7w=fyozQ~qtV@uAF;~*~f!V@Mx8lOJ
zC2-Tw(Vm{hl3^)DtmzBh`&ZkYDSNBbv-S)67ncuLn1i^M7#Y&7Pu-3%n-)q+&C?&r
zMhHf?I&N${^2Bj{ehU*|&XxaS0+fyG_e|hWk+VmHpv-R&w09<))4F6n7I2$fdZsI;
zZbij!7)kz}8{xA@F=bgS_4zxF3B-=TOWVs*0<loaQxQuFD9*Y^#lf_)X6gym6Posv
zr^$odwDN`$bpu)up#!v+aSmK__H`l!mLX&rWTVB(60ejrG%|Qdw}ek$J3{*(cvm!-
zC?6#(vG2vFVKWAXNA$TU>&bZ_ir+W*5Jhr%539H-TCJMWuCgtz-t}4Vc9MHbReJ&1
zzT+ABfwOJX-e5HT+o#^VT!ngBZOE=`AI5w`>tmY+)XZZn6NukVIEO4>XDsb_`~JK$
zaiXDd3)NsgsDDw7`wyrVBWHgX0*I~)nmz~+-LJ>;%B}#}9;lApNezvqJ}Pz{j+OQ-
z9&t@b6I=3<Pz=*P`V>CevEwNip5&lZrr`gAE-cQN#XzloAtm=j)+s6)Qmef`(r=v~
zhAl)2rTuZPw%GfwPOB8d4n+#jpr^VpcXRy2^?nZv+~6HeD$4k9gw$#AEeTdofq!!E
zEA5Ttiyw#;-HT4GAFT=RiudbHVeBDKy<1|tm_8~<Us+xa8s8-SG>V<lsqcz;0DVE2
z-lMB+rlht0bbx=p?`vaqX1b>II)Y52%gm;zPILUvrWXxYK6kWz_1bPB8_d)9Uu0tk
zga3eRYBDggwTv@<^M{|dz7SADXj{Af7=MH@p&m{hHx)leEhhU#N`F|){N?5Lm#W^f
zHSZ=J?|M}|Bb)GD`ZKe^s<0S`swoo=V*f(?PqEpNuO%1n!-WTg7x9V?ig`b2ACrq*
zBsSV94l9xjE0xR_;NOJ=U@#bsPD&EIp=S8dakcRAli3@OCz}e{j3EIpd@5y2qnLtB
z6uX|RMA49rJEFbi1=j=^984E@Ez%^Y4KGqsJz`Gus7vYLqx64f?QD^oSPl%!zU$v0
zSr@5yxG7s2E{mU`>Iv#Lz!AX~6m!NpM0muxGl)R)bDpftK(S<Z`Es-B>>c_2C!+E;
ziilYE%f<uRCXBt6rIhXw@T;v>#(&7io<=Vp<!l=|^P4J?*iq{(K3kM@pi#q1Yah59
zNytqEYCPL6>6wCWj3$;yN6+a)G*bNrKW`*ycwI>2C?y_tKWc6|*8!c3CpK;~kb|R^
zHM9f$Z7g3yj~F_c09g_^a1L#D0*Pwx%?Fd04nkjdkFmW;ayD*Z>_1(+e>*eT{$MLt
zh!MfNOOArD-x@%BC!leER^1wV{rY2M8i%)2^TT`+)~;@^Wyhyu4410Shit`Oj)g0p
z3A1?={si@RwG)-9kwk42nq<c?7NU@XP%~Nw10Pmg*j`gfCpEipI4)HFjM)=m_EY~{
z+Ec|bU6h^%o^W^Uo-^ckXKX%Nn0Ig9yh4noWP5kZgl_ZB@<4tssS>dw&OKm^yZc^<
znZj`(>W+a7MeMEX3b-U1ftd($Q<8}^teye`!d`}+j}MtC;X9;=$pV{%<bR@G7lDyo
zwkX5Hqz9O3aYlp<LP>L`4F<vx(`ed7B$k;3T1ej`?Yp=yXt{aBgzj*pI@5gS#cf&h
zu(}?i9NVe1aL(gBU4O86;Iw`nUZ=B*P_eWu{S-ms%T!iMBFQA4_M!#Z5@k}oMvIIJ
z-@9fb1&&hg23cK?CtCu3{b%?VEs`exrUN_7YyDp<mW%!OWMJcjXo8h1!Ektz1<7dZ
z=16GtA$r2?#bHgNEcc`_dWYd^FrKq(Sz*abU_C|(MSX{)f?+H|@QOH1Y^sYGrwOB+
z{SH+kQU5I%{nLB@m#A?=e~%HzXbWa17zMF2lm31e+-2oiSPsGIPdhLLCht$-js6}A
zP)_cluZmT|w^SW^jv%HZdouXiJbb2O*SH4b;oxh5I2GO`lA=cu23~^Q<;0h_V0N1(
z&;2Jdqbd`B7lP7qLCD`_z9AsMk<|0{x&qg|&_!AfQ4(b^ZJ3=NG0U0!SVqW3i&@p>
z$D{V3TAC(;S*SB|_yk95r>)8$eZ<QL6>;6K%qVhjLP8WI3#Mcy3v{<4qpCloDg1a4
zcL*vJD5Zmj$vMbRvEy%&@w1u=5TD1G#)~T$X6}MYrSB~<P^1%#a2b=e+N~3LWP2Nn
zIGB2flnvgC-H_}ji-ogkU^rcNT9lu9tu-%l#*gJnh8$4lF67ik8oCfyJP%j+32VlM
z&+u|iWYuY+l&{dIlU<nir`h(a&ty7qzLbHo4okf)HLMGGE!~S3&cp7XRIe6P(Q$hO
zv{l}_yv!zHVFpv5UVR_eTjlWk)a2{Le+z|g(dZ#Oe{g<C#LB@aEOsUs9Q|D6+$B>n
z-yG6(%?bU^{IyWjo&(&{Q(0t#5ZB|lvpX2tnVa~z1M)FtsNvvk1DXrCP%!6ZsH>hc
zJOp!1vJ{7~Wh4wWjiFt*u2ax;+DRVOZ%MleB6Vnud!e!A%=_63*JkiA`*K_AYm0}q
zbDrXS#3QQ0-r{Qlsp6z%LDXnhDP{GnAIFLB#A{12<JvsxYCn!ezamJAbEkQzj~`uB
z_Krr7v2E^2ix8X@hNR^!WVl6fhC=@2Vx!!I2^^z40>MNmhTAm`ndkxRvmH@%w0-{k
zuX3a}44{1qWMG-6Vd+P`l{xn0Sw?JWTMX)<lA-!EXA``2r4N{=0-JvnTo)+&3wR@C
zx6<D$Lf3~wIm6jE(tYLWtKRsTYt`TVaLV28tAOc(JYs_5x@j)@`*%rO*S>p)d-kQ@
ziS1jo6L}*G^XClS^fFv|;*A7a&=R|6B*IT*%JfHKv3y%IaYnD=9k2~aA`sriSo?r<
za{i6+JgK_oaQlvWmh?jl={d-^4kX65c8U;n!&|6xi$=@+2V0iHTM?{I5DG#kU&S&i
z(_G!pLMyL{>n9~My#|KyW=8pG@K*9(lPemmD9QvwwGmnLQ=;q`qsM`ly=jyubX-Hd
zN+o<x9JJZb42CGr&;tw}+{8cqZ>s?NZF(d7pKKAaeD(-{-sqhba8IlA$DH6eLIlC=
zMFTDeejWv!%vwzf6;1tWz6*H@$azIBq`!;zymssJ__?mlJ;k1_j$_*fOg}8!X?a5P
z{CY>sktmd4rCqYKS+A%ft>(eBm*f`RCD$ZdNhOoEM6++?c<5=p10PTnIzWjv$&C%y
zOA?u<Y${WtA68g`HF4B2N81isFG)W2Xm&=dvz4B2HEw^%Z&`XOovqE%HeSkI+&nX_
z7*Wq@D)&kHT#YWx@J(!?*BT9hos_w~$JLPUs<(T1)@*UvqS%1BeQXdH*8?@_k*R`b
zOFa#3&*1F+3{Gz0>Mg1xgyRonULb}K3pkL)o@NBxLovMCJ#Iwd%{zO-NNtHMhM*uc
zxgO?E%&kS77WOUpp4!O#MQjoO5k)4o@AFY|IHLZvnOeMbE~!XwI-6PM0=M4Q_wXqi
zg1VrP*G_ThZP{n`KR6ntKj7BzVwTzZ7j`o?$cTn>k+THHSX7@V&{y#$Eo+^<`Vz$~
z?Pj<BIsAHqvu*1VzFGu)%XOIjHXVxN4`f3?i3bZFg0pjs_UsOQCgp&)aH#S3XA!h0
z;g&Rqgi?yGrO^*E4rJagcvN0xE=8F)<_GdhIwHBREH&PJ_+T2J$i09qDBTW|fYO;%
zra4KHEEhd)L#uRoIHC8*_Ay)Bz(RFS5z?8sj+36p8h6Jx!cQ`+;;(}3jU7*OXG`v+
z&O9Gg4~~}QDcigDd+c4efxK%6p1OsDx2aSde{g4#P`=R-TQ1NtpT}?h$lP`Hn)!J>
z*IEBQkS0i8xT<FXYqQ&Z)z$l3GW)5~eh6aV`%b$}sEFH(3{1)-4Z<JE&+cV1pKG`-
zS5{e774Vw4p));@Mb8Qjq~tTUe_Wz~M)yhMN0xtIbh%kB-b)wJ`)`L5B;V|usXaF+
zvP)7y6T_koqkY4+QC8Z!`V(orzT-*bT#0~?gB>^1zo*G@i^jwTtoz^E^El#V?8PB~
zJx>tvp5>4{+1PQeCQ-(P!!c+W&DK#xgWF*^k=?Ucu0Kvst=%>6O`g*Ct+)Hh<Dt8F
z)_CpIOjI-$T%I8nl(=dO3HMjncm;b-zrHn|^zQ4#`1poSVBI(&d@S0pjUma-D^+8#
zpXtd}e=(KAQK;B73!8WJ116(8a+M3qJ*Kqd#m0qRc;zS6rfGZ8bB!6<G<GruVXM;1
z?d<+7kLOJu^L0}m?;|DNV<V`q$a~Gd%w70UJ3ovsr~5mbeW-CPe3^OVQqCL=L<iR{
zTU;9cF|PJ@MpM?_fnKY&h7qwfy`OOROmt|j>TGmD*^B7D1<vW&8Y8J$6Bo)Ns@kfE
za2hJYlHmhmD<kLGo@VOYA2sc=c1_*IHu0g%y3|@B(+!ix*)sj_Y{E_oF-{0=G)mY8
zw%(4u^B+;weMAX|jzpvQ^I5lrPs|zXbcr9yEiAf4g=Ay<12uv}RSw1?z~-U%TJ@ZE
zBh`9J!u#6J&Y%Sz5nL~`7|(2Wl+8j&L&}iV{7}h2*DrZK<L%SX0YW~hh3MAgx|O=#
z;XdBX&3-hfz^23t^YKWpY*7LY5S&I>s6b@VLOPSJlGN+#)UaBSuy-P6KBw{_qhCSz
zWBd!DqV?jWr_a0$c5J?2TIF+^&(eQl?Be#%AXD|0+mp1VI7y<&3KH?^te_2mOhH`Q
zZSezB!nn4P?QN^>(0&EKB-vAgggHT^UNADag(2-tVkWaVDK{zQ4QDb{(c(RPK&YTD
zn;pyK$c-!|iQYUUU($)qVsBZ}`w%UR(-IrJI<$pKnfk@l3liqy|1*1lpERv&-X~y#
z={Xj6%sPT^K967)JkF?+llM<mLmo;~Lmz`}>0B-&ml*mm6V9=IN_MQXXCShjD|Em^
zb<5_*af|K@`GdWIjk8J_{Je)i47e|l5#PPVR0Et5|GL3I0HgbF*P}#?2$mQ*upZL`
zC{c_jk7wBRXD%H02CqK_agRqTA{~zf=dV;w&qN&QN(&q|6sI2NRAQ$x&@G5ThZR^&
zb_e^sN#j0wsxpH}^*Cys?1~fK#!nYyKv^`x{K^Nr)%)e~^z^jc4Q2X}@4sdWN+KJa
z`%D^sGF`Ko!|MA}8w8cVMRIS`{D9!&-%dtBMZ_L~9HRv|BMhnW;K}!Atv`reT-(^0
zOKuO*(Db8PMMp1q%yu3{5r?tblyWn6P%vDvXC1~!eD6u_*$_VG=XM`xA?4hY?U)#`
z@7u~X;G##@+@X7rjIJn^u(OidP_!0=$jE0Xrug+R59$?99P;#~U3(Ljs*Dg*bJakq
zQu#2EYqf%e%%(H=3yu5edFhIA2HkEK6K)-iBw@N(x#-rciiZMSisrUF`5MNRPBm0-
zODtEzutl(Q#>3%iv3-66+cR4JHrcsF;p6!e%^-3F_c?GQ+*cPt{d`YUD0-Fr^ci8!
zAw2s2C=w$l!3ae1b@8f5?9)li1%tHC&(cfrYdZ?yS*s0Mjv=eU)%~Vqp^E|=8w-N{
zFR~`SgC@IAJi5N$!C4|B{x|1<?d3mW_$zAuCKR4k)X2r`S4l!sModJBQQXYhNYhQt
z$lirn)WOyi##?6>S20T?XAl^TRo>{YGL(Y@r~+cm#m!tyoUI&P9h^bXze3K{+>Bjs
z0`p;j*w9!NjqHH%_WyHyU=Yz?aqY|yFc%oa%nn%LAv|2bKL{5G;HtWTqhRFfY;_a-
z&H@I*c2MB&e@d{pcK}0WAST}h#0IMc0_G*`fyi}O#QuL?3jF;EjaA&r+}sR^w}%DT
z>w;hl(#6rp1c?0y_F+d@Aik}cIS|i(Q*^enuyh5n^MF_#?9D(NfV{f^m~a4xs@Y8q
zCr}avaRW0|1MvX1Ya<X3(AEURY6^ti10$OQ8PLfR#A*eUfCe@|2DGpPvDyP;0#JaN
z0u7vjfkCVQR5vsT1gL)s%pHikXMJpC>S_tRYq)s`@Q;@SH}wA7I`SW;{(~bol=}_&
zZH+7dnn8b2`Tvy>AXX6<6W9|49sn{c3=HfCGZbcN6Ekv@{zVNyO0@ni0uLa7rx{iz
zBK8)xW&l@M)m+W&G+_k=BafSDfgtPv$^Y|M<7SeuIq8Bp0n_aN4+-u6>lkc+O3V&$
znF9&|n9B{~<l#hvfB}Ybb3s9DU{0Wt>n3qP*=`!Jaf3nZ5DpM5XXE66b@;y$+CS@H
zHfUIa0r@*|0Am2az#uNb-o?cU1#z*l1C;<pxY=$J_YGEDXlyWKfCRh*0dWGJ6CNH8
zpdA;88_)!~03YN{4y-CJD6B7lJm4CJjR}E(*?<BBr~m*!InZFUfng2HVOVegz+s6K
z7?=xKksQFL2Fp3Q0J5<C`o;we2J>mc5+~3X$N>_u0}y};PHwK74zNz_KxYmBGj^c!
zO&xIJ@&JH2*#WG9G6#U!&0xSFupB_(7vEqc1dzBPEdZ1gK<<Vte`5#BZ$t<-KX#xe
z1j5O6(*>B*-{OOI!x4a@u<kdBjpt@=|1;FD0t`Xe5MUkvGuZTDSOHl6EeS9QxM3V1
z@vt05uD=oaH3BDWN}M<JgGs{wj1OxCBP#n}3HXi11serOFyvtMusV*v1^}1?>;3mX
zm^9o70!$eGD?z~A9Kcur;J+l}@BDAc_&fh4TE8R%CKdlH0kCg=L!f9d3HdwS2nSHd
z1?)#KLAWge3<nSg7z~q)e<ZZOCFAe>mq7dy3|RS}35ML?^)LbWJHdnl5Fj*I{-2<Q
ze`?U8u-zN>wh7pMZ+z}R$p~QCuWu$GfQC1<rU1Ksm45A0z#6$ZCd>f_{Q7PQ0>t8`
ztrhGXxGC8H67j2K2Lj~!=9@jhs$V4s5c>@rw40LwkmZ|tN6?L-1;FD!CkguvwEume
z`~}t-cC-K;(SY6m=K2P7yg6Y00{rV>0_J}+xGU&Jr3Biz!H%MvZ%;wMX$&j<XCLMK
z=Yjv1of--t@dv7!jD0T{1F!~PcHT)Y?ekO$7s1}WuAn9**zLlhl+#<;>lG(5s8{|d
z`eL<5(g5|9|9;?f`Z-C}iqM>7UXqZyE(jl@LglK$MRF$1)rvOhmlyE(&6(CQ?o-B5
zU0(O9j<c@X^*DwSQU0}=hqKZ;AH^pR1!|XE#9W6#{(@ZO$l_Mf2Eln9r#)_V>@9Vi
zHMDO6r3!+MWNJv#-qV{8+7=DiF=#^3xZXsDU#Ls!U>|XgL7ykA20?X{+)HV4E~jWy
zV(;NQb+hpC5gFs7KX_65C`qvD(r0J%{FPN%eyo!S1$$rqCyUmB4Ug+PNlJP&|5lhd
z|0!aB(eF>JA#By`8i41a_6}Z1@;chOWb%#YK`=CF1QCDae|a4qlicZu#MHb6G>p@K
zAM1aC2GIE}=h!$n9{&PeP$2ogK$}@wVVQq<u1(Z0j3iB*ZgeNFE6v5w%efKS`0maK
zA<o-dkhtaE@+YQlf#?yKpF?b4z6<5E8vKR22KLa;k0Cx@UD&#Vji^Kzk8<aNlkPeM
zRMEN_>Koi86eS`yU7P2-7a?m-)R9J0jQ@_xX-PbrPeC>VyY~J3a`498lP%J(w_pep
z{{JG=FRk=9kxQ`9fxoWNhIzv0RR432e%F9X^vEP(j#`c4OMZQRvTV~(O0=6ERKafm
zYGX<q&)91#W1Da`QHFQ_J>Z)*)Y~e(qn%nQHoirCA|A{%uogeO7*Lx4cu`7`r0u=O
zYy)boMf+O<Lgi*faMPQrrA4z--mg_1k$s{h5@&8S&JnndJU9^^n2}2wY>l(|gyiHN
zG_@5)WZKp#;U($8H#bQ0u&2>s7Wq3Swn}R?Pw-E^I|sZ0)>FG<eeTg8gFd-D3q-$P
z^}{r`XdCPFQ)*g`_IV(cS*vbnB(WPxPur=FeMHKL$oBc5H!<1PF*4S&$t}J{;0*g0
z9eJR?7dL^ZE*PipUIU!Qf$s%4{b=jwCmP&s<VQ%e_YI9|IF`F+J5%1xakb@1B+Q{`
z)=4ZXXSNXJYw1hn%XcfK@;y^^eYoq0HUDY)3%A1R=99CDD>!UfGW1(`eT(7xPo$AK
zstSf9g11r^$}(~!%;`1+INjWPvJ@)@dO}gt2NbNn$)vDLO@8dPn4CA1w~jO29N<}r
zt;UmV();}3T~SZ~C<37!^YORTXC~w6Nrj6-gBK6p--6*S24XgtuK(LOy7<3BG6aKJ
za5{g?W*+C!HNRYXHcv~v75;FRNWwa~SzcR>ES5bX=-JkRV^zixpY6E0`La$<O4ygg
zjR`{Iy&Rv}x03qWw0+w_=DZD?Dm?d)IThYyl`!QmvUp&9q{-Ah#T9Cucuh9N!Gg-=
z`Z(8&p55fl#j|(bmyytAYk7TJ)e`SV{08D0o14f|VH74Q_cm5VfG2I;mO7zHPbKb(
z>>bq(d!z2nFIf*(BNx9M<D)mP+;LT9vA_3%oNVx@=-^B4jE(5{c_kzDH|d!WHfP#B
z%l`GL!IjvbOHl}NG3A!z$IBJ=(=3LqYP=H0ri#v`RuLMCXUYWcn|j(Xa87I`#OPh(
zK5Ref8AG>8wk7hA{eei9yGSF4r8zraq_|(kKRa>uNav&Lqg!Zyo9P<-2j&}vXc0WX
z=W=(yokHmj!Q{0oufWXp6Gqj-Hs+upI$V@gP+89XuJGmMHLc=R#dn0mh$g#ePYXR0
zqiDnG%+QZwWhjKuH0Esv`NS+Y);;Q?-^}g2=Rx$$AH1eh-^Yz!e459YfqiX4&vFaW
zx7eeBN8G;`7>PIqXGC(8ptH;z)`K@|j|Il_RJG;zIxt6DsTg&F*YCcE$Co<56Z;yL
zg#QTY!@3FeX@K$_@Xn?>DmB{c^_car8R;(bF^upTh&`=W70Sqdvroda#G=aKYG#_{
zm7NBJV1$<AYP&L~xCy^c+*AEbVyhcKa3WhuoAH``6L<LFX`+pf8@^IS)tdS!xz1=A
zK1q0`t%u0e5EX76W&~}r3%SboHxEj9Squ}XSH3-8c%5YK<E1Kt3l8)t9kP52&pDCM
zVsWoOO^!?=`Z4><N<JBmgXd=}_3dYzPBF*#&V!$Rx@N@k{Rl7k?2g<|eWZUA54g|#
zYtMrIiB*k5<saJ3^j<4%-|H8r*B@1f2~dQo>l>+!O(@}6A?G}y3+M41xio$j&W|sd
zl!B$Y%a&yb{8K&~xCe|p=r<F>Vtdq@qB)k=pMWta!70Fx3!S0H;RUxKxy_i*g|(A^
zuAx*Nl}vvB5%1eO283a?`cGQ{cy=W}TrNt{?Jnl<72UnJWxn8tZX}m>nynHh^l2dp
zs5Hqzd}Ft5vuU$i>9PWC1+7EHQ|K&~!@9cYCa}IX?OLp8kX!067TTE<Ny-kq@4!@0
zh)4M@j%rcQzDM-)*?3#~#|vyla&_EW2zHA)!}$j*gpIRS8LSNEdOX3w4k$KIs4{T7
zQ;~+O0iue`=F(&sz+;#k1{Z6DLe)j$+-Rud(#Z>|RxabwBi6IJ<CKGEaSJZD=r>Tn
zX!F~xl0%6n9<U;gcm@lCHSW&~cN7-ZbIyE!)*PRz7<)iI^d6ry)gzUXveJBDUdI$<
zzN{wS*Kt~ljsNCsnT#Sa0^KMi&T+bQ)jl)&-nDzuxEAt0=Xtoc0nSXf{PbfY3zm6A
z6RY%Io+0~4ef+8@x3WStEh%s|Mv!ZLPa?=gJ@4C4G<1EFJB~IpV*hlW$(_d!YX_Y(
zikxucoWU!AGcf0?=RQ1%v&gmn;yIZ_%O*AG0V>h7it%3hm!KzY?yh8Yba*bJX(BB6
z<fB^*1vqKSr8T*)RaG2|1q(Mzvz~o<qQ`s-y>3y(pfGFHZ;uvbzG!iBj2)g})&r^|
zN=Guu5@z%LPvv*h=#}OD>e;9!aQ&q)Ac+;L)Mc;B{W~H=5A9cW0=q#aVyd7qFYHj)
zuLYcO_`Ia)Y(hp{CefV|5Tx`i*8%}#8lH=8v>=xUW?wa>X~W)7L~pZ2(`PbxXL%4Y
z?GAG4(#8v{fj+CMh7ILsB@PSO4JV@UnolAy;WaIr;wx~Ew8*GN5+_2p$qL*ld`tNU
zb9pyS6~;;_Q)k~R&8MC}bZmGsXR4Sq;7a!PJiT@-kcY7OY&DD%Ss`j}^XnPD6$7hk
z3#m?qpBrA%;{A>Lcqtaoh(DQLe@FiLLWklO3f`hBvH_R<-%}9qxbzAC^0>S^cs1^+
zs<GI5;b0@CTFlTI2I&X;4#zfqk<-U>3La`ODA(mL@L|!_N%ahEiHM>W1Y#uj$m{i8
zS*o~6rH;^{84Th@qi-g&&qb4ikz*APveCPJd48_4KJWTiiP`vB04h>RwN5YEZ?8g}
zh9`n+v=K*Gl&74f-Tg^rZ|4k(XzdW0k8bkt8)_}0sGW2#{I>8N@vn*MWwFr~RQMf)
zix$QY4L2sM;mV2C#go0i4ulqu6-Bm+_X;X0{GdygXV&buS0jFMnHV|c<BG^o%zl)3
zG@(&5fvy$iiFe9#DSf^%ZA%`)Yd?Jy_T>><9~5uQP>#niJ7raBd0yKMx16-8am>~K
zQPQ-deC>|k;EB>t*Lj^$w^nDA9N{ktA_py4<&sssy->l7D0;6Prb?2uR!O!lBOKi6
zv!21bBv;O@IP8Ts6t!9uuj-7&qrz=n1lka$<@ft|rhD+aZTB;#v#Z(I7{~+WnnSF2
zgxzb}j~(l?gxEH7>~7)dEov)Z8Tl<sYryre9gQ8V24?3{1#@w#f*~BR9St7U|7DXN
zxa%Q!<bDwoGE;=1h$&mAEv1@T5g878&Hzq1URS`Nxnn-u9hG)sqFXS!MM?dmb*i8u
z6Mh%Ca&Hj+5GFTBXe|^=72CM}IE)p{gMeBQpOE}g3mqF0^oU8|JdWIj>*|4D&TNae
zSNzcI^~((kHI;MKA{Jv&{m=*F*|-M+**19ERc(hnOu4Bp?Z}UU8xh#D;Y@sGpiM>V
zN#yv77;X=-bn?0zZH#+XbSC+u7VIx1&CO_nFk?(b7w$g~1?|9B-)BnX<iv++kKNtH
z9KzHw{8;=zB_e<^aT?V%N3-|M+vS?|X?HF$=A-2z-@_l4nkk0ClX53o9#4V=Ulymj
z@5PIHeOBP3cuR(s2jydCtn=>Ow)g)bG@^QNHFS1PT7f-!sh55W1#eNJ0aM&>c`6ar
zg$s+FxdvP*XlQdvGzq|=9)$z-G2Fn~3qnM%_mq5um_%bhsD&(RvY;Fz-1ga-d1wI<
z+mZI!+=P01^82S&aWWe83wd~+*H{)bu|=MfCK+ewCKr^qgn<E8u74>XY=0C*^Oyg&
zL(S1&`g2O`aqSzJrmy=-{=?`ps-dmNh+2W^aAgxUCDq47C0`1$(t=BNXDW(<a~V`b
z_oSEs8@bY`uW>~LS#yW0Ro^5FW(jpp_9pX3b5ur$2YCi@vNH*rtG%bNW)Hmdq?`8>
zN68<KTr2xCnJqe_QH$tKJpGFM37fP$fHA<R(uO5)*9<y!{o@6Z-oEdd@c_$nqSB4_
zF04C6h4{6IgT!-tob;A=G@2u1x^s`b?A>#0b2YZUKfJ?+1$OQXrPd{FpIo|=?5n>i
z5fy&LD6FC_d^z~Ry=w_FB<)DFjuhSI$lsUhD97CoFC5;sa^LHKdS;#Vad~Lk0jgWG
zDQjzY=G^**XadU9vO8D?rafgPxkbslTl@j1781^qky8=eyyWpZ?|1@M-n}N%S=HmJ
zTCt<7YI^)>@6qRUR=v}mdvafcdT)`TTl8uOU{(FS5XBBSAp$W@`)}Z>!Ozi7N(YXy
zcYaoce0wkAbzc<2SgE^G@3E7SYfnrAGaKeJDdN5UA5fFl4_YAF&AS+JVI`A!KivC>
z-+Wv9U|gP?qsPiif%i6kwM3ZGhqrnlp}wB&%GKb}SMq)QYX*i5dm}iOH+#b0RUaKr
z#muT~r)9@5Fxrq=&pi&($CaHIWGRFyF1Fp(`P`ONA~3fvMCQ(W^zX?6X5oK{BH#=7
z?OfTQ4ZtQ?$qt7XLPYa_#mClCrw4>uJbwwY!|4MNiC3kD5sQ<i!^Mp(%ig_1Jx?@r
z3qH4~nSfRLxA+LW<-vpbLMJlSE-8ZsDbAc8MtEFnf+vy4O1xf^a|bqem3=lGZg$1r
zS6ltipN@xG<RPn&+>GuuRogz*Zn@mDvo7}`OlWlcUIumxDe>YhsNJG<{)s*GR#GM7
zXtLasXF`4pKbh=^Mv>W-gmkCL0+aR@u(v61e-w5UC+Ca+0{s7(0hG@#*Z31;&0ry;
zm}91#?kPoAL9&zucuX4vo?zdhqfyiPt*1Pid=C%_B<NlaX>3-(m+-0errLyA@0gga
zHNNLV>U%Jz&r@vblpE=$?#AFKKb~}=viRLyJJDAP%M5L%)a9Y=@~~aceOk#^WqVj>
zVIU=1HL1Q`(Ch&+ZIo|P38Q0%?dhZ(7z^P_6#wN~gzyfAfB&f3w>7-4tE=uC{)P^o
zxYDyYgK^~dNdw$7^sZN?zqegGh478n5tl#QUwQg++I`@OaXg_5T*Lx>(S{9+&PQV2
zr3AKtwStR~u_nWmmO%Oa??Th#KYrdNqc{I?3n_2W;vk%VAYBr%d_a^x5WT3FO?ggv
zS8&`MO3!)bU@~K?+WB4!6xf0vFf|ttwi)oEo_Y~+zYM{`<Z_GCo&#?U!R@(b-l}Dy
zs&7-DRg&wWC8rA`dKo^cIhI#qF7ay|Uc#l_oHgfyy|M3Njweq}I*b>2UWNG&4U?jb
zZmTVP=j6+2ZXWuXH?UCp(U0+~hLM%F+z4tzMvJ*H>Vg^%ER5?B8t>^XbG=2oVT1m`
z%H~jMvFih4eC0sA2L}03kFJ8G;~Jj5;+rd$e&6~?!vLDE$Kp1`plx)NFXk3r;FD=y
zaEWyiyZVxBmb_VQI@$X^QF554ENN95)0rbWXZxKrJQwuCGn50y=PI4zuk8=du$#5<
zgh>c42{zM8lC_NCF(ZP@W(ij`7wNScOU~V?nvhYQA=;a2SQ6p%4V^y3OtW!1={wHa
zXxH|>@FYgT++S-V#Fsrg@5)pCG<|M6E~xu;ds~9jJ%oE};(5gLSEE#LB5K?vf{jKO
z)-CHBsdTj5Jku39kakSPbvf0g$4vv{uSJ&5+4wD<Mk`~bDWiN_ga^G??34@=tQ+rS
zxmz#O^3+83d%7uoI|3)#X^|Q!5X|-Ut)|1w<-q2!xr%LU(#hl&*6_k>d}A^P(`?=9
z`U@`X8sBTUC&b>Sx3J<iweC-Xg9MbDqJW^;5&d8itxm7qVhf@Oxq|C&(%(-hCW$0e
z88}ko=~>+pskPOXczu$4u{=Y**qd@vGf1!|R8pT!pdI>#trMIren_qnV^6W<@k3{0
zc=Lety&PwnBLjZ(>xCY+ADDKocQs#-Rq28z@(e%LgPaGj?_+eO;zv+m$SNRRmpjK~
z8ALn~>^T%8h>OQs=eX9oI&#6RP>Z3Bvv+7;F-R}Qx{LcTKCP8fU#p4*57&xAL}9#B
zhxvI+gTc=SwUo^m!lz-qPHC#q*&Q~H`Qxl#Xw_zJA<->*+n;Rv5|KBLBE-E53=#Zj
zP6bsGyO%mJaj5MZX%_|bNKsSi?b&+7kTNltLiC;dza@jw^`w-eGrr~;eQ4iCh&m}y
zJ>JJo%=}uq60!paFG^y53u?D0Yf!+=_uC^$L3zjy;NC?G@PxW^^I;1aas+?%)ibeS
z)c6!jxs~jrMBU_JvolH_hoR;#VlNbvtd8s_Mk}g*=3>CRUn{HQlu=j7zSVnYU&SuN
zI@`k?m10vDy;1BPq@C+=usZXe-hWE~+GSqT#se-97{iKHZ0xVte$SUgbvLXz_E<C@
zZHH`%Iwyv4{-tV$BJ-E~DOsD|KGAms`j(;=CI?3DMM~B&7fo6xabtt=)h3giO5*$z
z@sY$Vq#m=Q=MN5hiE?yD@nomA^*9>d9jOV*%P&)H#WsW6gx8<rU1gUIh`!VPi7xWw
z2hy8M1Fl=>cAFXncqe~LH&{3@5b!*Ih2{r(?xt10lt8f=`}0}Z=4(;}+}9q1)ww2!
zSP*}ifrnu!wT~{@qlB3P(<r?}`@l?&oHG6|L^Nd{3+krJlh+{{NS{v=@IO#64agh_
zC2dR?+Pu53s$1o@3Ac-*L8V`VVNzAr>?mM_z|rSLxPAgQ35%D?(vaJML&QIS_x;(P
z{l2>|oM9jM#&7(;BjEw(!M_wI$e;N4IATUHVe#DiX#wa66XVtVO5v|xxL(^(7b0T3
z1P{^95(UOZipd*(eQENUT3xA3kczUQS%wFvSeXk!$x<GJEj>?eIcclijK9Hyr)&x_
zBX)36+m2nFc$7aRx9}^W;ty7rgrX#3GpxZ<wME6j;Q+#y_okdbjW?D#XXBIAGxp^0
z^@TdWBDOle+Rx+Cf3n~K{_t=10dK|rH9vMBWaYQ)17b|8DS;T%Gy29(_0$-Mpi+TB
zo5cFh`M65&xYr0&2<GGDV(W=Q+p6BfXbBxZm~>YPj`oMz9(<8KtfF=a{g61GfNLBU
zS$Kb&xGsR00;Nh+ierNc1TQ~IXM`U#USs&Y<D;>=ozRD1_q>$y<Q)&FusMBcrCimR
za!*$_m0d@mPv$2!b)FEN5|Sk2#&pX8a;~I%1ZT6sU4pB-GNyyCjY(xAPvJr8Ygn^^
zaW$D`1$;+5mx<$F^2W8xrmIfEm|{iXNMoJ&Rs30sr9bXJOdon3#{o|0eiRpw6{etI
z%chm@FBKpcJXXpNnW>q)gG}he<HW6u>in7{aQ-wpYoH+WnWk&-t`m=7wT51<2A_M@
z|I^-;fK$1BePil`Zlsdvs3?UqALoRk5TQ&VA#;?OBuyw&rjiPED?%w1QG_BHQi?{+
zZc?Z;x|Ig~*M842oZ(*mzpwxE-S2xo&$GSnS??a#UVE?ouDyTjHK-NN=&o6{!Y|~J
z#je+_>ln*DdbHcly}jD>iFCyOn9d>fu$Sl8PKjBtS?@&Ys?qPNx@DTKu8WdRPn4Fw
z{_cy&w)rDup2R#YXW~+$^WKdJRr=`Mo?E=*ODFDG`_*NK^uLrQKA{Ra*|>Q{KC2%u
z>X{lz?Mtd&`t6(8*sha&P-w6}$J4!ls~^65P0h=XvmrPP*laq#PCYcV*8K-Pd!I<2
z-hy#P4HqrT+%7wBTx4LFq&~)HlCgK0md1R`m~D}HtK(jz9!t+{v{W^1{_uF&iRTml
zSie-`R%=hJqtFiX$feHUjX|^2>GQqS%HHOqr;?)0DB)h!xS&!gl89`=>6H^xXNfPq
z-89SQE8(#F-B|^p#NVgRJC)&ictzRd(3dJ=^Y1>~RUW2jI`Vbm2-ikc`?YzeeixW*
z5}Y2FU|S(ke^XIh!ZBk+zW<%XG<>1lw45=HVzM_2*6J&)DVg~0{PMcg^4m=t%{M-G
z=$<n2g4~SH>jf{%IXLne8hlpdBseZH?9kBP&XfWamq^gL$Qg$Ak)QIfoWAhoN1oW7
zg;`xf)X8PzO)rOy^PJmNXpmXfyt-3$QHtJ$@hS3Vhh1YeXBwIqx~3SOQP?sq!?wsF
zE!}EXk;Ri@uiEO$dv>=k=_UFnev9iGVfAgv3;Wc!rdv*?kiJZ`s?gk$VD#Bh|DheJ
zyHAf;DEo1gpT4r_*0{pFd*_>+q8mTqS{U^oBupYTUh-)upY<{Y&czJdP&EtVz*@Zc
z0|1F1q<j`@*Xjx`3qAMaOv+Au14*YI(zEEeMH`mkOAg(sDM@V9iF$JKSYuR^;e$(a
zVy|qEFHKR4TCb<tPO8zWiF|YHoq|Gdeq%$CSRLWs+A*^~-rDM}__S8`zOzidvrM~f
z!5YP*>q9NGFXm0Z`!xQ?+}a>D5w#5l&EYHB51dT;qc>%|*QYd}n<v5wOf-*X7fkkE
z66C17!fxf+ISNf;4IfY39cxi8G%o5a<yz2_nK!KsipPi04OiKF`z3w1UDO=qYj3b^
z+V%r^Q?(9eH#92a+LHGv1kMt6evxq^I8bhBz~TLkw7u~q6eEw9=M4+ftJgU&iu%MY
zJx;Hi(G-|<D{thR!j;C&&CC<~&+T638N64zB7197-Qp#S&)ZO5Dl%n8<+<3|T<{u~
z?lS6u)Cx;;%ZxDDzOV0Jzth~*C#V{<A&5`6@LAf!e%7$PLZQ$t5vEm0DmOQp<9G*l
zvZPV9F+z3P=<T~Ft1lSsO7wB@&UW%}8R51JPr{d>a~^3K(!zXd!)J9%funT8RtJF*
zkOPJ$74Tg1cFDC5M~}vz2h+IpIT;h8(^D0~vKz+dZz(;<x!AsZ$|t45`Hz#kGa4;w
zKaDRM*Q9oGVbj<WHJpgKw6<+JL1yZ$rk>6@NBkEZh_D%1GES~yi;=*VRiDKaawvGS
z4xPGk7qW$L<n+5iUI8QH0+r)7XIJcRopC%nvqyVb`jyt5#yQRMri(iTYcJOt9dt12
zJ(!-hNH1m2%Z-Ked!nmSwB{}(HH5#S$N6N5Dt9R4C^goMn^RCPRN;|vdugXrwL*+a
zg3ainBMRQ{mrL);mOuVf_8#%^6{4j}=92=^ThCqGBVRvzN;_E{+ikwn;iCWR-B;I+
zyzbd2H~#V;t}-d%3lA4cNq8};VypH$GHM+^NHZm?VqJgFP!)IeR6ZP*6j#-}zbMDK
zu3iEBfsL{1+7QF1BlxVLf95R%+o5Aa5agc=Tky%5&k~pfC*_9iV*O-eNf8W!kd;(b
zKcypp+!Yn{qdWX}UujqED65FGk(t`+tA&4;nW89r1|SH#lk}I(wF<Ma9@FqgOn%)J
z#fJw~-$okEidHm>Pn)zu&E2;o`~h9!)Tv#TIY|Zahlt4^i@jwOR%9)ox+Z1bmYP|F
zhfmAoFXh}Rf1DM6esi`UX%wH<@L8Br(5da=cEe~EOoU;4`5m_rAMX3$%{_QC{#GfG
zcW<0<K(Ixsrkz#Dm6#~2)31Vii+A0Z(r91n9#u1{;h0pnMYQ3O3TwsNZ_>#pOK2-a
zE?MMMw`aEpG(^t3m~(h^eeapVlg}>6Co9;>Ov}`(BG=Y*PTGC#b%6&UaJ;ILL$~gm
zeMha{R@6f75u<zCr_6O~r$)q{OW(Z>CvP1$ev|IIg9{Tkew=7!i@)AI*~mX3&TL0`
zNW^_Zapro}5c4TLl$j*y&iiuu4|OAyQqq{UWx+kIpPLI0_T5d;sGKvaYq{Mr*Bf)?
zx>M^^$z5T#J;5LD)NdJ0eUtUA<F>dI)jct#PVD%7W^`7%xpipCf}IjqN%e{!B==vG
z9ku9-*0{=KC29H8ORbU;nVVNA97@<ne=PJoYo3pcm}FbgMaQ!dGK(gxPWdF5XVMt~
zt_0qlKHt(ZMZP<n&$<N8yYg9>{LH#q&D<zZSa&3Hv9Z<TaI5Q{*)iZ@W8`JA5fbq_
z!FFv26As{2Z7QDaIOch=l|qVa6^+?6yT!-0UB?P<<Z4FC40#vUqi{DMZB*mVI|bq%
z`D4B%s66bfeL|95S<>Qu>$g`9C$-ac8}jXIl%yw^+;*O}QgU88S-m(&TLa%=V7te8
zyRY>mic}Ic%1|-t=-%vWBDzuuCkztlf#bgB5R!wVmnI$|y$VwES<z(5Sl#@}HvfHl
zs)9p+`iu#L{K-9k(uF6Od*#2^F|7LTJLb=zQ#)HjjXSQ5zxj0i)rR-gR!+5hTYPos
zx7%7PVxN9ZIN8zB`%QR-)ACqe2`6Fj2CkEBq@UT_GTm+jm?3cQvafo=k*$=f4z0?g
zWu9*;k1r5g6Y;Gb@2{oR957uy*sU`mY4+a9PpgXXu5H&DKN?Es){t}`WvSWj38}x=
zC>2yqCJCJ}Xt<}9RW+vGex#J!o+;<6@KYU<d#yh#+u74pqWLJftk`3Pc2-r~tC6(@
zf;Qpb%jzSHt9u=9w(psx<SHHWKH|kx3%X|JZ>OzZ1s>g2^l0yFf0>?d*B89*7Ck*p
ztCe57`K)T;%<-@zn{t|J0b6=>0jXRM16;21^MNy$?w)Qqk7xd}%Q94KZ3SeNJ)WB>
zrbSOyceM;UD5#@fm+Lg?=)9QOTV_iL?Ak8%hF_idtQHwRVLqUNX(OB{uD5>4ld)};
z_rw%&cPnd+{9Rig?R2zg(|I;$Y*KE-4BbD|9r5?N1g-Vk%#9j<n4Zhiw`|JoK4vO1
zgOc>;n#o5pZiY46&Ggwh{;~f?fqnAb{A$Q&nMeAW?I`W!3-G26M>TtKKXkJ1s$_0h
za(GqD>mMhl8JCX^6LL+6YHpT0nsG7OY46k88%kEIKaZ=`QPQ}S?j)I$eM5fXjxZO-
zM0<r|xumwj&M#xjQ#>{{*Uc|e@(f>}Z|U_gH$b{Zo+kQ2<;A{36~CQ5khk(KHRTbt
zC?%*=qH=wcWy_Dl$11M$ik@4m-p8+5{FX^S@dB%zpeYHAM`K{2=cegm^J60(Z_ZIE
zj{n{>{Xy+@C%YX&B~=aWbMtNnHci*u@Y`O+b{jdn(<d(9$PkauNT`%(ePr4)I+rn_
zieIJptd_`d&VN`DrI|A&!36#4lT4q^^aMialB}6m`zo&{T(?%ZU>{was+j)XV&@UX
zXO?rr($)8sJ#1-QMeW#KtQHhrdZvPKJf$kmBX-LLue4IZ3@yP0E!U5jFPNavd@ILt
zX2C;|x!X#7$2@X99kJ((Vn-a_Wu~mE?$tbf>G3{IGqP!wU;%u*r~A<*%bdF16C*|l
zS~DiMbhf<RrM*P?daw-n)-l?ZiKC?Tr)u>k<=&QlX-B<5mbz6pHh-0Hh30qSVgUi^
zfGa|72NtCkwb%F+_7sh<`O+tNV4>A+UIxL&#^8JDAR-CiQ3Eiu`KIRPde%c=W{7zM
z2s1nf!i<GU8iHp6_y%_1ofBb(XCusbvgXD#0c1vv3OfcQ4cJvCkzox4z%c}3`+IO1
zZV0%HhL#`yRd5+{Z07F{A9VrP6k4(j!UKi^%?N<8a}V?i0_Xv}thxI6_&DRK3>+cM
zJrJ;B2!cikUJG}@o`LRg?*X5Qf&X41aF1XEgdq12cfgggP!0rNFGzrnkGlt~arOo*
z1)i`F;39y`0$35S8=zQ#_P`U&0oH^k*x(7aYz!O0g^gh&xFaMAo&X=%846(|cmskB
zH-KOx1PleR;RzuKzeWO%6V~AgVVp=d09A3K6|jEo*LZ_+Go<H-AlZ1j8T#-qKx}+F
z{67I=qX0H!5PX5P4>ji>0Aho82r4Wns9@p1Fg6rAj)|aQuysrZ<w^ldC<+LGgq~9%
zK6p=JT|r(EK<RG+uKyVY;-bI;8L@C|G&t0UA)x5s0ENy#m?=OK!MiRUj%v~ntPBMJ
zwvd@L90Y)70n7|!fdOMw13*O@2qc7HYUqld1D1yl-%rwj^e9gzXkt2pMMGDtF%-bW
zL4#05P@_<wgLfK~mIe)H<pFV_T<jh!B4jwyfdYI>3A-|3u|-FSDnLWA;virc2}1%>
z!1jio(csDeW}zz<5Znx*x!6p@n2pLt41_B%7Kh5DK^hKN7^)x%$qy<C!2mH3ECyOc
zO+#6*l4E^>l0(4J*nKvT73&5Bo|Oea5>YZ5suk26bt@8s{_g6(LTzDxgT*B*2P#Yu
z&}^10fE*0uk7A)VVZsDCVSHr^2g)6O<FIG!448B#zCR#AV95ZI1I~c)8sq}W#E^i=
z1CojUfXND5CXhS~4X9q&Z^#45Mt?vprxR(=hin-@a=;asfbqlR0@OHtNa&Y|{wrb%
z^g9l_qWd8M>uc6?6lWkHxj?;&t^?pTOoQ~#bqk?>ER|*iIkN6d@BsJ3)SM}#X5E<s
ztdMnQ1EYj>XA6)^bcX}D8(<!>6a%UQ4)<aN7Z^CKJ6Ak*YTBY-r9eMnG28&+i0*JO
z&x2mTXe`|Uqk#2`r8(HeVwwh22lfb4J{s)8S3)PSa`ME(NWvm`;juF+Q0i)=W-yvJ
z9(a!3`G82V?tJke7Z?pwSRncE17LM97qG}k??Ja?QT*`?cJl@`C`<*cX9&E_LTtkj
z!7}Mrx!9%%)Fc3)r>w|<cz`Wp$>4iw?DARa6C{sC2aO6yPb?o65DyUE*b{(3vn#<;
z#DMu`(Lp!EsA2tB1Gnr}hrlhH(V!S%R>NYigIjjNVQ|YX6;t&j*snox2K5R`(=Ry&
z2!qVZ!vIDjt15$0QJ(!#bxA`Z@B^Q@BP`H`NCa1Bun<B*f-d<lqk$G5j7Is(Xhiq~
z9g2vqbLS4JIBFKVHiK0}t>Ymg=Jway6itlq8@kLCW+FD5OaY+FW|Ju_<=En33JW@R
z$Cv_gmMw>-$dLd$2Ms)!HCdU#Y|ri#Q<(7CvS14Cv0>I^7e|6G>Y;o1?j8(mm_^xi
z3ZC3wB2<XXDsr$*Sbh8J&sxaze`b&{uxK^#3k2wYKh$1BorYIK|M~;0N!h4B06`D?
zW<fE#)J8UY+jfI?gR)dW`mDXbhh*9)=dP(~viA0i?F9%OI6m9r7&CuaJwbg9Us0d!
z+LGaT@hCXZG+N6-cay#Rx#)P(yS`(1JAFe#FXPsQ4|HLVEz`}Z*ix+U<70BY)R_Aw
z0f9{7opMI5$y-Hv(RbD<Hd>LY(FK7uHV$R2+4y*a@G0-Fl*eyw^tL&=dH%HdV-j-(
zt-e3$n)D~p^RWKf*`6ga^W@#b6FqaK*X0`XIiH1z(l28Kg*H4N*c~S1GELhu%3j^!
zH&Nxl((UZtDt;r@!~0r=3Hd+1l0%2?e_!<fL!3kt!#|#rXv+GhR}z~{e_16pNIyMr
z+F+_{E+UQ)6m?*YAgfK1Qd6#7ej;R)`C&(?zcQT^TUf^EH4F>B-gsNT#Ad>=m*mpY
zeWe0DlC$_6Ucywt|A~emMfUGCgsu*nO%3}$_zxWJu=NiK*7w6IAfN4;k~Mg+bRLKt
zEndChRQ4ls%R%^>;MWpGk;Ihnt)C}071giW)YhoHW{cf{#ufV{ba%#U|M5zy<+D+T
zCGG3&7PD)a>cWq=y`5l1)xK2juXZ{>R{6|J!*fsk%yQ?Q?VkDmXpDKR>=akI(2t`&
zChsAcRJhKWZju|9DO9%0p?$WPf6?N6-boYF<^RtP#2CZ{Y&rAqvE%PnCjXh~8Cz%l
zx=J#Cep0zXGiydGs7ud;cHsA2%!zmM@P}hTf&#_m{4_GQ2>fLg{hyrueyP^}U%U|H
zojh4z6DJsZxgi%}U`jx*0I)b;;I{_sx7a&V|JQZ^=s!61E`ZNuBX?*s!K&=<?HBCr
z<$@2PsB5T`RPmm{!Tv#W2n3&jN9uloD^+j=a9!rM#udK0Jv5cSn+M*-*>yD(!_Gkk
zibvUd`T6RhPnFNqn?oj&DMSjHPNc(Ir-q#hav8?1S7@NS2M!sO7&vex#r^~P0S#;t
z9{2$oT3(_*yf2#u_8jD|hJ!|CP|@2CHx1boxM;{S!b3xzdAQ>t_ca_e_<@WYTr}i9
zh>J#}B1bt~@yG!A=c3W5$VVDSJTilU{Pb|rm_+pA#zjMxA8s0zr!HhBou^zfQv+F2
zxbkCym5P%_A!2p_j(E_Q$RNN)qan)x7fk~hVK`}EOW^J!3fSPe`-4KFAX^MqTIB7D
zlSTp-@X}~JeGWw+D+fn@Py`RJh%_osS|W|XBY#9X0`qg`N2JryN{yooBAtnx{c+O3
zWff0a@N>q^KcWWmKgN|747%KXL}Z{dbKLQ$eB!|X;f}||EIOR^V^WYEii-w};h`~*
zL69RJ3~*!u<DyZ})Wk&t!RMhddGmt>9(UWo6CuyI1fOciYROp!i3zJiP8ylcKz1#T
zcw|V*8;^+m{Bg$9V4!Ui4jOD@^Y9*=z46u$eAe;s1uWUza|DTsT=#L6K_eq$9cQ^T
zK766kkkaRh$3!+dP8v)HJawT{dB!xjsRJL7+-Vue6&PoJAiCT<g~K4QbHW{u$ur(a
z3?ed%a^}ZCI~m+GKKx@adE}JDB=htehygE8nKT|<L1H4ucwFT&VWQ-sfjZ-zi-~;Z
zSZEq|+h7{vkqyWVnaMeL09*Dvd?Aw<yycR~$WqLi7Bnr7?1FOS<|)izuv@{EmV$Ps
zxM>>52F_Uqg~6*os4!!3$D>kt>qliELnvo{G+w<*2Dg?x<<clTas@86c<W5lK%VkA
z%AmlPFou*H9O&%j?H-6jzE>^1!q65n*oH0q{Lsn?v!xpOdLTnNq+!{(gMys{gRvD0
QoIj;8aY{=1OAK)T0@=r1H2?qr

literal 0
HcmV?d00001

diff --git a/tests/triton_tests/plot1.png b/tests/triton_tests/plot1.png
new file mode 100644
index 0000000000000000000000000000000000000000..794c86900835cfd60103bb4999b23ac33bf3d7b7
GIT binary patch
literal 121873
zcmY(rcU+Hc_&#0;snDjVq#^C1rD>$4ttF+UB~hVGXb)*egOm!DCM6}b(=ytFw)U3R
z@3^1m`F%d$&mYgrBfanUeP7pko#$~L$8p|)n(Ak%b}{WDAt9ksRywUsLbA<_goIRg
z=XU($KI@@i{2}Rb#=u3#@v_S;GbbyOb7n5rt~k0}u{CGAY31Z>>v&aEKwLnWkIlx#
z<(jjUprFJ5{DOd^leJ*iuATn42>CT7LuV3_J-GTFGtvyXbXyWq5)$Rp3c9Wd6N$GB
z==8h%r>(|R826?b+N2odiu2`?sisuLw5!%Js~)Rr56!Ji`kNWZrRd8Mv+n{QsmE((
z`bxipr_)reM^-JmAEqhO@{N>bzi*G1bZ!*&O^ol8KEtUTabKQo@6K&oeE$2Rzc@wz
z$M*l{2l#pE?w!<%|L3=!(CuXp`9B|2;9)zx@BhEZKmT%9TRuSOf3Ew_kJ9e!HT&PM
zB7USodg$Z-{j#VnC+}1LpC26|Td40OA+9Zb`xq0|@>I{Kh6c)LmGeJ_@p}~%{v662
z92}aN+MEjupFLEr_uzT%uJQc7aq6G%pJBQ--7AxjkWkl2iHo@YEcRLz3kwUga!`yv
zoXw0o)D+s~(ev*Em2QuVk0+fw^Rc_TRCD}!dV0Rc^3`6~0V+yL$|QfcyKQ@~n~*2%
zsFck4H8619$w}K=(Dc^l8>ePc4mI*t%s=7FX8z~)@3xU-@fH^syFI-6{M@;7!s6nL
z;xcz>P9^By9Z^tD&}UyzR5TXfCdl-wlty|_-LH~ETTIA^Te)=i-aV~M-Op83F@-$E
zd6&O1@$vK5cZNvghgUlC(!N!DwJg`a414*KS2b3E-(K`i?5eR%PswqMst_J~(QUq`
zaoHRxs}<(t#j;;jq0AY&M;j9)b-0S?=w{`(|J@_Y!{v_ypPze7Lrv}D>w9L5iBmI9
z*kb#Q-`{u&XMemh{PgI!y^4dhLhWoyfZPKXnG}oaFx?lr<cAL*#yb8PefA*W!2|uy
zE1d;_OOss|_V&TW#ggY99s4<5zA13(C7G`RaTB7|4_K`~2T)r%Y*$xTKYjYNX8z?b
zd19QVy>2511x(9~e_W2@`FFDwe1wl3OEs?yvYN_Hj)~EGJ|Gvou&|IP_OzYPFz^2T
z``fIf4juC0RE>#xdgg8{y^M@Z$&K-<A6XZQJy%5Rf4nlA?tLG^bX>*Ox&H%c=NreS
zu!AQg+~zpEy}kdet~&o+7!xTl)}#p-SFCWQ&t~==IwQwLR@n682ZN5z*O4n<^0i)m
z*L`I`?X}K$Vjv(eko@M&n?!(U+fZ|fibh67(aln`&Qd39Z(3fyEc>8OLE%u%lwS4?
zp7qt~^4Yn$6wj48mx=a=0RcM`7xl7?d}Cu7tE#G8-QDMUZuO1vB}-gqpPHJAd-O=V
z(C++m^~4v>r(P^>7!=ykpMRlS(cb=6e#zwB&CshoC1#F}8Y^={vx|#Xc&NHL!~Dxb
zf2%Uo6Q$G=r3&Sj?0ar+-MZEG`wMz}!K({z1T-GAv$KzW%cSMv;?m7Bik92>^X$W_
z`Ikq>8xkZV^R1gwv@<m`b%SD6u3X_ed^YTJZ!e35g@xUZSG7eBT`qsUe_XE%ijJnA
z?0PfO{PffTDVG3ZSFNm~tyibZR(Fewi-&}U=DvB8ZrzkrCladosk_)YQ#)-JzVBQ1
z#mAw{;=f;&TU77v?&%R07OrS&dT`wS$7q6mu^S2h#S%Jwef>l?GD*G1Vh$ghn)c}E
z=-9Poe`$Gk_Qqcc&p$$07v5BT`$osh%PZwFDzB!dmeduozE3u|z1_f%iut*#SAp$U
zKRm_J`ogY~o0CSy7cb_%e*HuvSyu9N?#BA6PPVb+fddB&@+<?@->Q%Q$SQW5=R&}q
zZ;XCLH*9=FKu=GvbaP|%m`yVYBO_yHkwg6sR?iO=_jW{!;Rp?V)sU-fYh%Py4mZT#
zd;FOB_WGiJ()!iDvV#;9!JeCa+pHeEy-K%Ua!8p*^m4<8j*k5}2S?Ap_*~6;`xRdk
z|L5<mt=h!`Hq|SWZ~AOnQpm6_fByb;TA8y7W0h0Cx1H*UX_<7Q)Qw;GP8C-CJ;h^r
zsv%x<hlhs;PIvrqdxrh{_p8MTk=onaA2@i>@V$FsWBVCNuJW}x3NbOU)aTECFMNOR
zajVyBxu<)#)^5F51`25^(ako;q~_n@9E2Y_b;p`jKU}7y?9VTXUXN*+hA&_C3!86q
z=q&j8?15~n?Q(y`R!S<WjyI0Uc_w-qLeVOfFV4RlZF#oi`Sa&*i;Ht_jO!)J7G3Rm
zVJy17w)SUbBsqD1(XF96dZVH%fw{TD$L+pdYD$uks?Ya7Y`eL<v9ap-`$twVP71!`
z(9xqoi6?IT8XEFNB3S>sc$kMrd2Gb6P12!!b!qaM!oBT?{MG_nosS<sMu{PeDiH{x
zqN2FXOw)2%ZuJBbr#)x?Zmdpc>SZzc`T4oJy1vF<Ck{1rrX!{nru$egT)2SXxaRC!
zf8D!GiOzs4k|VIDriM{0Ne3m0#lXm@Y_H?DZ5qldD&{{w`o6mOjsa<6JLSF)e`W`w
znd@$h{}6WQJXW?c%#1s)AN!iVU)ED%s4m)~|AWsRV_yp#7$mts=aEKX&p+218XEpA
zeAS4)o^A5J4tcbrz?RmoutdIylZ&gh*x9;lZB8{LB;?Oftm(}1GB+O|rM0!SALag!
z*jP#LHHosaGLi&YuSbZy2j?D((YJfwX_8$HITOsF_2z1ir{hw(dSYFv+q^;1mHqZ@
z*=dO9gcG-R3kv2~PX*uVb@QJeY09^66Brt9`S@{5sNyO7zLJtsf1By;G^0Yh`+k1E
zC(^ACrcY2Z9Sab1=xly%c8Ua9&o4jUIom-aL81cT+0a>NZ`)bG)6&u+wWl3VHiVB4
z`LlX|`0^!m>yF(*HqC5EMk*tXi9}U&e80%R>iy@?Va1UC&w;d_bG6(}(q$byqq&cy
z-9#uD1wP|rwUOLk-#D6LS%S*SWUU($o;q|DQSKMHZ&e@jG$%(xQ!|`>%SaLb*6oxZ
ze*B0*GNi9*G<olCW^VqmG4TY>ZvW=S^rlT$5r3?pX;o(@Q#k9sqAMLAk&KXepWd48
zZFnsHK(Ks`=Fatjs_TDd%n+AB@88ROeSU7>Tc%EsW})p@E+U5nP#@kW>-o0vkFN|P
zNnNa9^0XM$KA}5!gs1Xdw^8-6E>Y7Ptv1I15RR-KJ~7^wWBn~d>y>GFl6aqIzWl&0
zlLM&U!-j34$YObxwKQ9{Y?)bF;t~<jKKq*g$k%iY>#^3fpmoGFKt~83(ag?H1$jAM
z%z>%z_U8M%M!C(kd(WO7-m&{Y|IE)%ln14vkYk(ktW-~)Jh_vS(sHooVS!_x3D1`c
zQ5L_3hpUKfLE#$v{*sYIOH1oYUs+<$yIYJltL}@xD>pZm<?i0SODqlvHf^G_F!<n!
zn<P!L*+vWk#x+QVak5@gB!><i@?2;+%V$)u6S;`Q8yV}UezqDi>|B8@(ioq?>pMAR
ze}i($Hy$BHI?oTEdzF<%zGn}S!b4bO9+`deyZ(2<w(0>Z*39l0Q?L6t|HR}ZIXU?u
z0fFofl6jXK;wrF2&kl_DzW1=OwEX;caa>tVE%odJ7SHv?Hnju^>LY({T%8-NC2j&|
zQ!$jO5_yQo=p^f_%ju|Oo}25-8Q<*yKO(JLyS_XY7j<8-i4nM{^6utjdyxb4y&Ze1
zT3V>(<jS{9e$CWLr(t5MLxf~%KHZ|9W5OvZSuDSrt`@$l=Do*qYIC#Z*w0V?+S=L?
zQ3(lrvcC??{?f5aPEF<b=f^fS87|nCyBjX#NqZR?xk<H+jk`s=O5VOzQjOu$dj7Sw
zHI@HDk&>;gtu`Wbn-a201c!3#@9!@;<xAWbU$ky?IhIFb4Wh^FzQ0gLq_piH2o@|0
ze{{??BAv?AYcX24+}q2_9atj5$H#|`o<2Hf@}+)G3?CogoWsE6B)=CHrp^WDG<CV}
zwrTuE-{uB)A=cr;lE1&d>YW0Yu~yIOXb$Bqsanqz#~SRvWjt*B(^2bSiYj^`{R_g0
ze{5__+04wWcu6aKAS$uYzD*^R>39Uv3Om()k<)hgM8VC;PUEht-EXx-#KmKQLY?_k
zm6ac=ojaF?xEpO?m3DpoE#(Xa4?jN;nQesbGexSzAzE(rZ<1|JT~mNiN&*4`buJ1I
zzM}#}4KWHBhm(x`stm?zX!n(QrCt8=Xs9I7&7mGxAg#=6b+{yqV{Aj?ptP$d@r~F3
zmrmW6dguO@Z?4K&T>!ehu{3g@oHi8^pp1*m&dw6+vjAYkTMwMUiGpvtFxpZa_A>3r
z$X%>?G_U^LdUyG4xxPg-AXv}C@o{lVcLt}Y1v$C7M>=k9tgS>uM@OrdXBibnC_Z4}
z_nQAA9^vcjOLySFE53KJ*EC9IX70L(&AnRaVeM14KHQ|j$YK&c#Ywm3t`*l;+eUi5
z$5qAfqBsM;5l8X6cdFR+Vu2m02*L4&{MWC;^>R$IMAd)vl~OT_Dc!;Gl(p&wsNvkR
zXOERT%0WbMaBx(7d}hP^%uKjZfz4AjYfDQd)QU*4EA8Rw>tr%qfVyQ!M%;;$*+zvg
zQd?|XI;~`K^1fzW5Vx%fKUBA{x!$*_9DVeBYlq*2rCc@^T^p^-jZO}3ZdE`M?Ms)Q
zh%{AKpM4~3;n(PH*mPU|k%(20NMc;v5z<y111wFBBY@Pm{nj{TQk&czD_BxaFE6jL
zsh)Rrr6{<+6Sj5^c;Osl-G^>F5^zxpNj{on40*q<^x@&NDhH)p!Z|W8wH0^&?J4tm
zx9v#z_~px&TLJK$dSWIvol%;i{r0eCe|?T4r;R!gJ!U<rbNlvf+nN4~;;?1Dxf3}_
zXS8yd$>#3YHZ*XEi7}iwapKCAD?$8g=)M%RgoK4j2gNynm&v?ea=Mlg5I4){xK(FG
zg-=Gt5fT<T?*_#2J}H-s#;!jhA(V+6p$HE?)3OAVy@%L%MMcH1hzzVxduJy@UD4;y
zr-|eP2pSj=z;^iXy}?0C9HO)WqFkTyqcofSRXI8~mg~Ll&bh3tFuB8~`H6zh6}#3{
z<*>0=(UiOL1oNDS8}<W8UB7j!DgT^zHIH~oN=kda^#d9)971iqY~y(QE_}hjuU{u|
z3dY)V4<pO!8vEs#yjRiIrU4ReGvvkrBIhh|on^-nY&A^sl9LJkcz~Ccm38Rdy?gia
z-X|p`B}h6ex-maaTq{b$Et2KUPjuvSaB&U4O;%A?A0{@T0F4?JT<WIXgSN%-Hf0SB
z{n9A;rGUAanIqv;MBRFUg?~~uZ&4e;sg^98SRX4WYTL>I#1VV=^EOMt*mzOvxsl}C
z!!^t^C>?w0=_`>2=>_ixeBRmHJ;!AmuQ4y~`9^iBP1B*KXsYYlk!j5<tESs-PPA97
zt;~~CQE|%3Ce=mreg%Mhu92LbFaiYn3s-E+okE!5;Vo<*C-9;Loqsj1h!rp>amk$P
z>IBAFTVJP0oIgD7n1t#}QfT+RH9mG-{6kk4GmurHnBk|_-|UV9ph}I?FUC=_${sK^
zHJ$2xuZn|$u7wKUb2O^Wd2?f(*t$Ni<%8I2bSz=AUVo2tX@(E%l6*j5OEeh*a_bAU
zNb|!uQVDXmWzV{5-OQVscN(fQyLvTy;^phtLPN`{sz3VXyWe6*&`$!YDaY$Kk6SJc
z<WMozOHJcB<bP&6yIoXGOibJ_e)Yg7KPrpK&cXuwwlKhtv9%`azM_f1(8tH^tMaVs
z=MD(2%6g$fxvfsVk-YJn&arfMI|^~S?bqik({UoH@|zW%24#$geujfIc;B+IJ1sq(
zf_j+j&^wPzm9&!)9P(vjqz1)KR$=~ECTCB$FC0PHvqtfC8Eqz|pr8PfFetEjsJ@Da
zpzkc29jHbV!-6WVwD|iws?SrDVyW6Ctg*0&i23~Rmwil35lKnegQ7eE>y^2JC&+pj
zJ6d){tvu|zUKa`^G^X}AK7J@J_C^P4<<8x^FC(3x<cIDTy?kx$&vh$Sv@D6(Xx{PE
z^mN{<^<)Yf8iM}s4V|gzh7GKG7&{+(ItcizEm@g#Z8>uFcN4p?F!hcdJ3u%%^VKsQ
zPVSnmOPYR?LAPXlCxZO!3xiyCdS1QHU%%3#D?tvdz}7@RzIEr$9TN0qRmgwpsN+rx
zfU_6ToK|Yct)Iq@qtpDHS~a>;$WXan?J(Ez;b>~JlxNRuzhzLf-d+<%v|xXeh<n~x
zb4zRvMG+d_Dfrb-x@>1@O<QQov+8_@E*7cM+;FDjFTQ5xlW*M-^X0~;+S)+Gz|vGt
zeUgmFpZ<G${``KK(~cUlef##}jp^Z-e(^Vbr4#dcn`MJHL*`a59&HrPM01SPGaPH`
z{WDa&xBsIr1<;mE(|QE+#>R$H#Al=cwAn-b75AiS2PvH7!ehM<G|%ufC<gxDU+M#K
zG8-Ek&lQfiZTK<9OjJwBb?tIate-ZLvZ$g2B&x<GI*OgS0Tj8}*zT~%xJT98w0!eU
zCtba})GZQO<ux{)=s5wpYj6X>(!KMknj$Z1D!_i#G0mP>a3UIhbaQXL*QF3aO@&{O
zx368lZicL1SNd4oF{b8^{~p%M$Z~aO<b;JEGK*gwEof<LvqqtMW%8cs)TvXbq0giP
z7(Z`(oWs7%p#vOKv+on2w=_ji4J&C+4h(!ky?E=n;#AfvbjA$VBC|^eSjP_9v}GT}
z?N_(9M%><5@y7!Za1UL%i+SzWuV15SqD@RpBzupdIV+d?T2xeYT2YZ*Ib!Za`1gAm
zsbSF%9_&GnXMw<%jQO6Sb-2xehY}HfSVV-z%WM6BvM+@Sa;&hBP(S)G6@hzi-%5b|
zQLB&PkG@%)$a{u!ysR<Q+RfhTtj9pY@%<wRu6-hwJ4s1NftNVj77-v-DQAKSj?1p_
zkz?7)bIpOW3Cev!^48#he(c+iM)&hhl*IH>PH`M7oD?fF^IV?s@v5mF|Jfy$(}i|2
zN~-s0tLv9a(1hGAFPFpid;a<94|>LFs#_8m&_63HOa0^kuYUF@hXMb&AP+Sn##_@=
zi#?VFkVFuFnVJL4%*^vYE;#01?U5qdAAkQHcu<`f#zAj3L4d|H2!A95PGCpDrRgw$
zzKEBK^*H$R7pv>*gS*~1(o$1D-PzWW6UnKdY&=r%_T9UIsi{U}uCcB+g20lE=kJ3|
z`h`A1Y9(SftE?JI&#vQ1Sy}vO)-18#1vV{r$!WPtnb<>~4BBEzR+p#K&%e|wE~Dq=
zLD_uTtvS40q#D5?yS|`<E+f5r!q4BIaYb>~Ej%X1@7=o-Zyfu$`1oF(HcqX71XMUv
zzPbJYi76r>q2Yti*64;MLFP`1<otY5z)%EFOri2!_G`;i7l)qmBIo1Lc)y$Nsz;N%
z@@L=yLBxP+0YTyP>od8zx%oci-K$rxc9+};MxOBW^6Dt_I)NA#csPm9-2&$cblfxT
z%s8nVcG-?81i@3v**KLr%eP8VPoxwqp-pe8BxsxgEXx|cBj|loCu4SY_I-bU-a|^L
zr3H51gJSqE%q?{}=DW_CqkcA~sm3Djq|tc4cIXnzHZ502bmivdnOBD$v^mBkEiEl1
zDvFEEh8#S>fL0pGHZVAN0MCnyenp`pnis@aoRHZTB!Gdz+DJ+7try;0{el+7;PoX^
z8IL8)w(N@&-Nia1Kg&77zNacjW}JV?!0I_e`b;tOV{>!(lP7Fw;LiB&q6e`0<iE!P
zb<25cJR^eVnQ|l-nv+B_3Wk1cH_BW)Rz(ICL(>2$eLwbA_eE5DM~AT2Ul-7xF8A%g
zne9FxA)hSkB_tw}a?*DfS?7*otpxi?bog&?Z_0vQh!QkSLQ5`W_Hi4~-1BZzqO0}U
zx+CvOhX~VgyVI7I9BguTF7Nqy?ba>sBS!)d4bO6NngTKp=j~ZBdP?QMJML7TQ+MOj
z$L`QzM)99hQxA60lloZQ>M=m=j*pK&X7_C;ushLQf_R}53_&+N^F_R`IaQffL{v0h
z;<|ZKtwyqVr3@F^V`6z<85c*GdatA@iGi?5M*A3v8ywurN8v6P&PXgQxTqB4VyDWv
zVUm54P8`9Ef|q}N4kUVJQR~JdZKb6qVnz0CyKmjPwSD)28hul*GoGHMVg2W|2XA~4
zXt*IDDH)IGZ_c;Yc%hs55gAPaOp9ar`pxV~ZnZdh0AM2LW61~5`I;lzBwy$cRikUp
z0L#?d+lxTW16#pZw<>tTS3qlB<Y7!q6+m2u)-yjEalQBMH{2ISpGF!QGds5<x#Wp1
zk(nWs_>A9%gV~jqkwF>L^11j*A-k%%$l(Gyzo>{f<j}gpNv!-Ra3qlZK4#{D-@ofX
zt|d!Wp(=hx+W|m6&U@$s3Gt}6H`f`#;4+C_iL-97w2gSb=Ae*i@?HwyV+62o4XjgB
zwM2!pHCU`~Sr=k)Bds8J2t+uLbxvWw*p+=R^|H*7dcM6l9}Ipa7b*ePV~adObpMH)
ze5_sz)Zp@e);v5cWhEQ@3C$f2LkfTm4&T?Or*<TYTNrhBciVIpWX`?Q--n}z^Gv>T
z=ZETQf9#(xx}qbF9stt4-m4B$Hzxv;lUb4Yue84=4S#6^ZnG5x5Sr17^ki=%JF6ak
zetv=;0~1(*JO}#42UqByoTU1|XzEGehWHb=1W-i?h8&xAw3s|0F|p(A^}`p6t~^CQ
zyEgM_5ANWsHKm}SVA<-_iL&*j3k1QFYf<f_8+jzqVhHC3DPGcJi4T{?>El`hMX9pe
zue-<!)rXAbRGKz^c{kX~T9k7D|8x*)D8V`%tYk#TaLl&#J`s@kww70hqG<=RV*pW6
zE2vOk^hQhfaR!3RME*~8n;&*{a}&NfVF0%Ih0aN@${>16OUs#`{;a?H`=5Bul?cwv
z%=9PU-T;Y0#TQrdq(E%Q_t3v80Re<w8Rn067QSqx$VWyuH#75j`t%T>f0I_#AGeto
z#^UZv#v!@6^l}^RQB=%pwxbtrwo$37s-i1VhCnhiJ4=WeYm05BK{G`*E$mQSKq~vP
zn@64h8}N&T7SNK|7SLT9L_Zm0t139%S1#8l+gV_Hudwhq^7g`bn})Ta!t{>06vw`@
z(eZH*c70o7Pc#LCwkEoW*C5b5Jw5-Rrqe5M=8Omc&x<+ssyR7{V0kUuUz@2EmPR~(
z+a_6P^yS&v2d>lamyt%&!OgiqB+}ob6JGyN@Iq0DF9qYT$;mH7ubYeXcT(mtGZT{t
z`WIZ?rX!CN6&rwYOO9!0MyfR#=~f;d9wLt~cAGMwum3VPR8JZuH6ebrn+@^~2#||`
zJ>R&5JbHVN6l+B!33Wc6?4Glv`$l_tX`(~La|x+)m%}G$RVd!9*IZn5X()$dc22$N
z^L}Pp?hR?i+`{4>Y8T)&p4u6Gh-Wnx^e5ol+H5te+tC+-%zyv>#V^i%+9N0AG*}~2
z$jQ%71qgK}&=kkt=M#0omF~9>0Wv|Y=%i`~t<2_autXmRt6^YZ0A@*l^tBICG}<c#
zbj$S<R9*9m5ga&81Sky}>|sA5-6WL*P(3?8f0&C)ky}5A?G~C~HKHjhu%SNXznkCQ
zStXj2J9g&lO6i%+58_)h&E~JXS^Bl69zzI|-S0gZ?;y|5VWW-|^A)6hfB*h{U})$N
z0GKtlTxz+j_~D~RFKAg9SXm!LM$+zKmE~)_VF7v`OvXmqyQ{B^GP#bbcxyN~@C*0%
zP&%mwawyXf3_iF>G68zNn&jOFr8Eg*$XI~QbdUS;)R&d{5y|VnPRA$cV>3Q{{Thi~
zXON)wFpI;{#jzL!*yZef!*)Ap-h-Z%RReWymsih`!fUDML(R3FOE`@78_K+~v_)@!
zXCf);{2d9W!GH*dzVF}92kL|DDWB`#Pe*qe)p8VA2fYs`L<7(P$OHuV(Rr?>^^vdO
zWZk>zGF7l92D#>B2o^v<U%&#B%&U88X+I&Mb$~adKdRe5-z3-ceTrbz%QyZ8zq>U(
z_h;7Pii3kK06xmQjyXwTN>Fex1x}PXplSEp>-Ru6{QULnBht|d;vQtiAf&nPnXkhc
zJ10p30s=Ibd^wcsydOcTLoOhyX+wkB-{tA12u@YH?>E6O5VR^mvVFVJR5wulzzy9a
zaTzE`L-m5?y1hbN92|r812_~Cx26st&~R9k<CEj!YQT>Xj3@ZsxW|tP%tuhy64%(U
z*qYxiWKoDp%WMFITUUkbuRACA<n1X$Oaf7XAc8a|%QfNiMA?Uk1d)_}W#bcwGEtAE
zD_gd1Exs|%FjOC#4sP0WwvrJwLDgFN4j4vZyKhG-lO`->rci|~(M=E?2@dJ(?ak%e
zD$iE|YJ}{6@IjIZ2o0@lZ;u0CF^{auyUIT<YX}_6EOv#Uw2xiwHW)eg32Ak|w5t$!
z8e%cgjB%;OeJJ1DP&GC_fZ{;ZB2X1a<9klr_<i3fYZ(7@_}H<6X5qvw3bu35pU@Bo
zgoIdvSF&;llh<TZPnP`x;AYeQ`q1_3*Bc%kr?>+WB|6tCtv;}ZcFj}Pnv;#+&+gQ#
zkXI@#DXnGzbJE^xaRlbUlcR6$$hY2OS19Gbtck)$$Q&s6_4@ZwY_4WIzCf<JXgM8(
zr=+uepU2MsB`zalcU^&^bL`d~>ccjW0;{3N5%?bAb~La0fjk$QD?)X-z3J_~G!buc
zJKHed54Ut3*!GD_(@R7v4Gj%}jv(bi&mJB8$#e9?%?XGpR1mWSOiF9eenT$^mWZtj
zPf5@}^QA)fD7)I#w5^5GO|3qi66HPbZVil&2j`$cSXw$}|3l4I2kkS#kpVIai;C*7
zFnsy)Mfu#hp(eRaLZ}54Vv+T%K`*-UD_BqotkTPzvex~AY-}XpR*&jt$OGpAEq|)4
zJae5MJGKuZz?Q*Xf*m~>g@k;7qw#BS5Ix&=6o$3AdO_n-S1lga=R@H2Asy|6?pYbS
z^4PIVtIEa2We}-!03AzHw<+>PKRP2K8=X4!$@qLP_DZ|V(+!FxgoF_!qiV!VWiaDb
zx|(Qrl&sTd&u+c8x#0!k4K!Ce$}68qsf208D2U{sEJMega2!<akz2d-@ZrO`VQvnN
zZQ|l@wp0oXSDj_`x{tHU6zYep)0%5>7EH!D><aWQHX)&K6fL1!Q{B?5D671XPS2!i
z|NQy00!ZQy(f~9~RyYl+ySozr<Ed$Aw$#)zI5;?5cX4TGE5fe}U;03TBLBR-4RkG9
z&ydVa9<bhQxB+f%Zrp9L)6g#e-3L>UAQB|5-^DQ)Usy(gF~59S5v11)5;-R)r~f%4
z($^@b5cQZKR+l0tBbpI;rSpv^f_7Ti*#*6MBaW27x?>Lu9eYT>Z&hPs*e?2`ugxoW
zy+Whzf4t&lJt%<a?hAkeBREf$b*poE)DQPnaIeZ8qV1q<FMlED)xCP{PqW#h<Boo1
zWgE_39r`ggs)b^<t=mAZ{r;BuY52=yXL>`l39cZnRsa^2)zusGx5O1)dCQQ+-M|bU
ztJC#kf<*S&Q8Fx^l7{}%^lY_}M#*UhDk>^MT*2|*Jc|vh|In&Wf&E9{7AI;Qrf%rS
zk2T$1H(c7f>lC`UZQHhuMlA{K-dvmC1E|g=CB=jVBaS`9L5hps#+sf%<K#LVsawLK
z$oTsCsnpiilG!HRqu3*;biD0b!@Tp)pT6vit9;-c1xTe>L9g4wULw^ca;;yUJRCA+
zTE4fD(Ic0ice5R!7lxD6wzO!)x4k&eOCAmZHuc1<DJ66w+UPGh<q7qJLpj1_@%Q;k
zzd%}U6^IS70v96|78jjE)&U-r@vC(UID*kPKx00#=qlUX@E|0KXD!54BAz{awoM6O
zJht`g*EEETDhmsX%Ie(-QRITe6(lwqHduE45itJMLOA6`jvb2vrnu3$gN%%4U=sbG
zbq840Xse^qDsxLqF=&i9<X@nr2`kHkTAHkM=Ubt@e&Py2Q*2X0U#&NcK2J%?c{l{O
zPRGKM9fB$tW$_LxlJsc`2$HzJNNx?iVcXTVq#d0DkD0OD5Au3ZbnuB(kOr#A?y)3e
z@0WXZI_<i$&?z)+a40Xoo$f3|qpyr`)em$2iS|HSO)VtP#Kolm_=bzLHHt^aX(AH+
z0na8a`~@qWsfC+3igl%E;#F~gq$ZI=Ipvw;ygkdhbPa-5Jr+u6{*%s(pSGP-RgHu!
z%bu2&CbOe{TMjR*N_75%3znH}KTPW04+iucP7P@YF;CR5TuJ0pJ;oGjdFc|{m&6m|
zO=1)beBmT0-<coQ%fi}1liQS9L&hQsRvlNS@n_T{?J7lbI+GvsDl_If3~iz2$_~?4
zJpBD@_at`+T#U>&@zPVAJm~9VQlXo^i;I4zr|4^W2kVA71$1^WM-Ze3H%M*NAR?uJ
z;!BFZrmLax!1VSy;eNRX!r`}NViUiq3X)-z`)`7&mv)Q5$F@4{3uSO%p+zJDp-SBN
z9i=V@37a6q?)&-<&0H$JHJzm1sz*yps~8ggatqv3NcnG_M|QJ$m;q9vgVsRI?WCZn
zzvV&k5ot5i^~J*2SAW1}5G+;LDlm%tnygsxx@Dw5VXHd2-7L~d=pu<ygF9;!-Jy(<
zDZkrsKV%k&-c>*(hJZV`%VTJv3|7u#Ur1eOdTd9|Lp+z41l%k9mLMh>2br1QsNfQC
zXOOCu)@$^1r*?E)ECQr7Ff^nFKq__~A(71Xz|$O%bh;0%cFgj2(`5I-<91OIrkrmQ
zP8!ZGFI%H+`LnX31(gOzN&)RF__hG`6O$K2CxvMV>)jKMaE`$Ev(`?+f7waGh7KAw
zJCWMS9DmesSO0|D`JE7nWn?ZEi`RxJKKlu&v%0J6gofZgQVvd^BJ=C(+pkR>;NXxS
z^m5fEHz7QJ_ss)^_C&JMMAMzWa@bruNUtoL4T9i3u%%C0YzUhco?r+Vove;V&aqdT
z^V{djO5Y%QUZ;`9gU}Nm+bie43fx+lZP}VX&oX{(wD}O|fdCHW_V#uH#nRBy7Q1Sd
zwbYo5eT1V+=6&qTnrOX@Ep$H>nX9%qWk-}Y%eHfKas6&!g(n8fd<8HAI@$HPL1j+z
z9zfq4b?>cu{8z}gb>`-kklBq`eTkiC2m8nPpUVMN;3JA15L#qROpJYD)JNSx!udfI
zq>73Pm@)Fue1aeOjEk*+n2Nq>v|P$4Q~Z=LIhqJ~ldt<av<=m%aQ)@tv(KlbI2>&K
zYSC^6WMaz`g{=rh$Y?(y9(gW)*Z=e9PcyWdtG%VQV5kUijOvfu_X7}40%i9aU2C4$
zrtk2aRXE4%H#_X@uU&Ix|9JWzlV%iOrMr91C2i6ZI`6E#Uxmy+$bBPHbW~IB=JT7n
zLOiao=8+a8kd8{9y1S#3|1~wWyT+=yz{WY)a#?BxyGdGXJOncYg#2q^#!O_K_Ua+X
znOm>H&IH&jmv|HAgSva`2sMeD6Z_B@nk21X&f#<f-!(|PGM-ZoQw|%B{^tm3hrY6l
z)bie|lj8DW!QZFa?lyx@KO@oVe$R4o*L65~oG(s_IEYyB1KNG+>Us>|Jcm2rwGtFG
ze)|DfAnJ4j+w`q)=dbWXGPF;9jQB2UgIYjB(DR_?wjj{&u`eH_rG3Wnpc80NSU4}-
z@TDF<BI`32jkM$ID0l_bu|Wy_yofH5$*#PKO-9sb!pA_c4hJNz-GLKmt5falE1L&e
z-qr9D!9Du%+Cr}uL$dKJwc8zQs@++;y!XuIeFX{Qy}5o1ozPiWc>au~C&PUrfvbIP
zZr%$32s$WE#zPD>^fEv$h{u~#-O8{})^)BiK2n`qRhO0-DyQeIyM36wzKX?1e&)9}
zpGMqWKQdq0T|<cu(}Trp{x{|5GF&d18NwI{CWaHO4h(1U5K=jHx$P%io4Cu1;FfxV
ztRBUy9|qD9u|sqgu+ltNi9QPDCo&<ynBxLiQFZi+9eGw1h;%EoMBQax%!Ni-v`Np-
z6>Oi|S_o2EOUrj&4EbLg=Fy+PBSAf!oMHfcu|Qmxu%A(y9>6p7TK4cGLa;TqmV*mn
z8#qCNfEaE{CYn!zY=UNK4QPUOKH^140DTSX$WtVi*8!W(kUupn^OQteC?O?f?%<FW
zuowD2Vf%?zITOisP69M&vgaH*+JzH{EGWA}zrX9!AVIZcUpzqwK5wrN5ZxdU;2{8X
zPzKOPQ`wgtEG<uC8#182YqxemZC>v6*n_-H06OGrqMJgf5bza}d17m1(?@i*`00Fy
zb@D85<5yfBo#7`moG&@3zjBdo?{OA~Z!JDY=JG$bWjg;Z@;C9<E^T2_F1xxX=Xk=B
zz+`><i`Jq1CfNb}SMOX5x&@kvHILDPU3kp)w(QzInfHU`^vQ$HVSL_)4!~~Q{8aas
z0Xi5VUFPAE3AdQt35bxMk{g7Z2<}5_dU{{T2)L~gcuh1rvA*{K!I?qwpzYI8QrZdN
z;<>RhLU}-9FGwPg5(w8l;GGp7POcD?20$Q0HN84zF|=vv=Rk(VLq7$0W|x%Quc4s<
z477SObe^F3(JfN~x&Hd~%N2eK=O|vjqc~%iKinbx{Q2{x%a^OrU&o6(Cgn*>Nj(A>
z9veIe3BDfyLuy4QhR^UL>}nbC=MlE8-rl4KvVQ}RxOs-Mor%K>H1{wmsWJQFyQr0m
zB`#0lbc5Bw8Tty`qeR)kArFeJ23Jj|&=29+bGhf1grsD2jdyJ@)TTLfo;qnN^x4M6
zci}6;5)I&Xg8t~!9o2iKBrku5#^~GI>lQdtfxz!aql1v6exa2z$|4N95Q6AS%&QO_
znV{ui_c$QuZ9L1ygoYKgue9f%aQKICp&Inve}*4BM%_R-DFY_S%F3pQL=agz=$y7Y
z&9i%ow6RD1soywVsXTi_?x@AfZ8^KzvQH{*H!!OEsYJ3{L)t7Qg-!Hu(|OpnpUlv4
zcsMHS9xndZl5#Sv>HU3=GgCU6?v^?1x-o<SiiYj|;*Sef4l0?E`in0ZLy?-4?ks?P
zigNAC(Y}$2G&PdZuNbq-&IpH^lK`Ml$s-;-c(4Gk9=-dkw%j`3{z^qS$M2@J*rZ-p
z7>H6)a=hxU6QmK^R5&?qaB$3RR_dZSkPh!586IgKAWGX~5yu>}r8kpYjol8pcEFlm
zU!kghFjGh(>eh#+rKfDExLtksLuEr=umChMes}X+x>3}ViDLJ~qljp3=q-{*xyYTY
z(ceh9y~yLr*}Ze;r9U%2)sm!Pee2x2Z=Vt}n}qAkrQI4*gsq-_Wp?esL|HNO9jEO>
z20t$EzwCFp$v~Cu$iDdfPx#q>M^`EvrbWzu?0$R5pF=XB8p8sbC!-$iJiIrG4u;Pa
zJx!V@ek?{);g(1?$KP!^$<}Y%fvgbj4`@z~jf_--H?Ib_s>1iP2>Vr<ap0}<ouTxY
ztxrx?mNLv|*gf>%x$N`gNcUUP%uLPf0}_{mwQpSuk3D<(WKW)uIzACmYFrpfW(A}y
z4txU%I;xN-=QupQ@(~<|PQK?dF83zv7hm7qa!g!-t;P&?C|{KVK2!uj1l!e_4xgs*
z@Ry3-1|z48P814Uc(yI)0Ha{-Z5e5K!LG=MN{zgGcP8!lcK|@73O0#CqjS(cK}cl(
zQg#`O@U)JT3CxEz903X%G`1v*u>3P|Jm(aVvN=XRMov=Te6{*o@=vQP(f#L7waT~C
zQY&7d=i%)fEM1<icOXKJWA9HT;!}ze5)wkr!)lOv?yIDkg91>C7x5*CFi12Y%eLMD
zaBp<i({nmgJUTimy{dlh-1ph2zy}X@utCT}|9G+^)4{ZT5wj9|N21vTk45-3?e?r%
zd^=8}o1am&p!l`6p@t)J?bF3zXOlqZ*~Njzi%M$SPMylo<{WW)yz5DhVC?I#u$Xk>
zuHODTAyO9rVi7&Y4y(Tq+&_H&d>?)@A-B0f^F^6kQ^uDY6XGp4z~c)aKhCe6?6EY#
z6LW5h!qtFzmGDHb+ST^t5>^t6XyJ>;FLsn$-+ub{NS#}BRFv-MjctPBu>y6sdwQ&L
zIZr^ft^NJ()*<$j81Sfgsc6oAr8jkW_>21I>ddiOhA6?!wQBl*=2J@L7p8g$Sm6Xi
zP~`xpfIt{v<xz(M7Lgx6ez-0D=d?*ztFEpd7##eJ=Gg~B8&9vOXlQ_<B=}U8ty}M%
z%;McU=qr)4t(e;7M8K1K3M8YM3kL0WhtBaH=b!nDX^;Yzdw1KmD&JLIxzBE!IXZLt
ze&GE_g(}rzsPbz{YEh>spG|#gc@`f2WD6zvp4dOm6bq~~YYzVnojkE|t}rff0j;vf
zY6CQj5QZV_zL)aehq!HKX&Gfv=HsLAkkvIfKU+SW5q+3VF@r~F=GpY4UoC!zK8;p=
z$-a0#YF;J5KZkKo%HZC^g-qQqMtT|*I7aAqny9pX{aJA@{cim_cXERIgQFxI%9TCu
z(kveTGmO(u#ttqCfr^Zq3C{<ptu^30m+>FxY-w@IyNVnzo56QVmDuLN0FB_0f!nfN
zJg3S|ObvDhD)io~`*Ea#H?-&|1{*HL%_sWa6_a$dOr4N<rY&>33l6c0hsX9Z$Ld@O
z42#*c&VSZ==RHsReuY-5*JXTWanIQsPqG(UjIG_Hpne{Zk+imj=-lBKr+=A)14;xq
z{1+w}t)Bq1feA?Wvan$GW!(AVwA<GlQ#si2J`fTcz)O8+g84jXM#ZoL%Ga&|PYVln
zujuT9QVFCv0QK`9U(xX=`q4y;0*Kmuk63>U1W|{O*eBy&K;wOkFm)_XYy3z0fISHh
z-wPd9Gv+x3o+R*LX6@kDt;tTjKN(1pek3(q5z{Gdqrs8y^b~3;8G4-`=^LBMp%k#g
zIe5hJu{>K%VwB}u)->Lt(`RaH^9wUXKS+?h(yrj6eYN<+m}?*By`wB5=04ot8wWpl
zuNYYz+{zHEVtvA7jOIHM1c0kQ4!35uu_R%WN81l3p&va$<?nZ3cL{YCwp$W7L49CH
zO4Fu3aKL!Wj}c3PLf&^YdRL)QDBuYOVAcq(+^QjkKy(wy-5(Floq88qOfHVpZh_j5
z8jKh_4MN`rGbKp=BciJyia3RY_F_H(%VB!tv5D^Grlc=mo{&D$z1ROjmVEQ-Tnegg
zhVF}#6p@g5puR=K$Jd7J7flLw5M)P}MTqwc6CIIndfkJ;n!kqgjzQ4mRRPh_KvA#+
zI)hcp2gGN-+x%sCRki(Mh-I#wT^!4i^jsDq(NompTf7hySf;%H0;g+qVCX}c3%W<I
zE!UK1m61vp_i(e%t#oni-N`1Z!=T@oc+bnjY+cHrWZQ7ly+yeXPpPiib7zFzsdvk`
z!NQd66La=y<)IlFQrVFwDn|?wcB}`7yKNOoA*ITo{P3AtQ|_P+XQr!Xp-a(p^wRx!
zSOHKAb`abyh*qp}1w03%5ZXXD2srftRXHlh8*%{l-UD1gOMX~FA`amKI{liH(@~vw
zBp^@qf32R4;J`eRhO4Ut%DStE2Q3RrBeY^vPBuuCjmxeZXhYB|fS6ybyMN92?KRRn
zu&d>Q8u~|@%4%O-OuW@=Hqo9-2vg_;CMG6SYDySmLHOrlB+R;qS<2-IAuEvu6TQ1j
z#|;Zcxui{Ml0ua)AN43Qjmw;f<@?^kHF)EupVLrMPj7{SH(N*m$ph;EF?^z5DdK8M
z_v)=f!`nH|+);>_XfaRN@;tLYev4w}lUUUNt(yy9D%x2>CO*9V6<NOY#G2wwUBzvh
zgwT6Tee&P!pTw}~a8jQyc99lR{Z7lZ<V|x{+|*+E#r%OD&(QYOrZ;q#E?r_H0XaVa
ze71%L5AFSRH1R_|UZ{?sSP<XPQMNrnr-Hu`))f+%II>-nZ7Rto7l0TE&K+}7T2+hl
z^H6$QN^aO6yzofOK?RKoYDpSY-QpMxxK3XFD*g)VJvPCqrwDDUGmLS7Rb=u|Hi18N
zVs0;WSYsC~Y;6O5d`JP4&Ecv6m4BK3#Pwg>2w+}SwH==N7kXKBaD>ctrxVQyjuW~b
zG$W7gANTiPvf8xyWU-x!DRm+e<^u+pH9%Gpm^v^d%9OX@YL5|5rUyLtiC&&?&V2mz
zi8M~qnG42n!jf=@uNke_35~~`%0%WR0ST0770keo_JkH+f+jNK;yW=~E;Y@VcO@m5
z-Et`v&AS@Rkd=j>UBcZGjUQqwAB=;*#gfy2a6J0i2VmqKg3#~Q`NE2D2IQEsq89=e
zdKL<pi?p}yQF^onTL%xYcTCo*{1_kxeqieJf&G#|pbz9WG&_6HRRfr#5Z;Ft&V}i&
zSB8-&N9<PQ8Q-QN;k*#Ctl10xf2{fGRv_^8)ghV`j6dWzN`^z@f+CRPD%{c8*$RQ(
z8*NdVDXhZq0M*viH0P=kjdc!}S&Nz43F&k3N&P2${B~2-H?voapHz6kZgu9u6HTIA
z1*sby?Jn8IUG#Cv>h+k;&I4O+@9_(^_&H1YdSmyC$vZ~r6{3{JjwdTuFVRzQ@n~$@
zCnJ=%gM#(7{f@@19~=&Rd$fn@hy47(<}1A4Ov$HAKMdUZnXD+(M)OzZ?sf4?U(QJ!
zq_|M>3FJ%rwrqW!+{_ETOR*ej!{pAhH8OX9m_(e)=8z{#zt#77`l4XzBPr=v;p0q_
z?e=J<3AzLw2fVNt71HUnVKt_up&^t$!ej`$2MI>!cHSX)2~FrEOvh}(Ee;?>6Qn(q
zF_M|NIgFJiAg7be-P?c}j#N@N9X-48d-rIFTFqr%9%;$2nLv*HNBn@+gR(|U)*wZW
zlz5>NByf6swqDkwIWJ^yqPGPhFCroWK5~F?IU)dp44emRsMprk=mfWe+h;#~SQ4oQ
zL984$OR%N*6`YtM_+wHKGH#Q9r6rvPccSw~9e^9V2L8X5!AK2*H&?+L{yz%PDbCU=
zkZUlE5{4_pOgsir(A5LS61F0b>Gx+5;ByD&amJ-xXGlmOS6FSJ>_!i0gQLUXu70*L
zhD*XQm-3>yYx@ig4mwXyl3|AG?afIh!0n2UA5Uh!y|yr_g?WdR1dC!}$b8S$qhFqq
zIB^2JTNQkfqrLA>pfj~X-9iBjKvM^LHUpXl5{XXZo3+uNcj6%OgS@6o=XVoC3FJGX
z`vWKQYjiXK&>OPg5JVWl2?i66?Apw!#IhJc(=el~=SabEadCrov^D45|I@0TxC&QR
zRpC4CVla^KY5j!><`9y<AZVY#dwXP$ENn0mQ^@rSYATfI9wQSTQp&g4T^t+f$O*}!
zDcvote*dxf&@|aOg>+pd8en&YBpVU7$wM4x<rk;|$o;Et9Xh@%)j-IV@;7&}K}eFP
z(<!TMem5`uX7k9gT(lI<+i{p#bLgpgs%^igbVA_W{M>7YOp;>hdADX*@Z4VN^{3j(
zaV(?xREp0cZ&aK(vaf=@U~NZWq2RaVH7X+yYX9F12A%OSf8G*iHQ1~Mp_H7LW`ik?
zsAfc-DJA`nGl2+pGE0w^nVFd9<<>~z0DVJkf&A-N=G}Pl2l!B^Ui6M}Fl?(+--?Kc
z_-7aiV<u*ZMhM%Had8>0cWjhZRV~nuz-%OXwOfK94zP2OE~`GD78jFxIYRXTeH}c^
zVIuD#Z{w0JUn3I}k)|u5HWRaRxY{$&2}DCvP;iV89LdQmdU_6G^c2*N)0F{iAi=UC
zkgb4ERetq+B(Mi`%S@zBVu}qsyPmWZVI@MfB$Ds$-Mb}EKEh}f5kYvgLEHi|@wb=y
zdkT#bE%^8mourne4Rv)#tJhFYcubTtGc%zY<SBJ+*Mu`fJxRJ2dNJWIz}?hc-z4Zi
z$gKnr$gZaA$Cm@K?I0|`gu^C0DTy#4N`fMVwZRPWx`zCS((ni#->+Cn=wLc*t5snK
z>p^BhN&F1w6h>abs%gl}lc3nOD5t(^v4QwV_!J2WbFUfdB;izt`yC2Tir&ll0_Ar(
zICXU}ERqI<g*E=H82t5X%ZKkT)9Au^2qIIP`&4Ab{dL;6kB_u%$+Fdnv_1Dc@O0^2
zZG~~mseY1}7_tjz$H{4tMn;eGuT(Sm^!sujCfA-mRkxmgJ90|l*F~k^E$5^&oXF|x
z1d1%<?j)u0y^3<)#@m*DH~68<=wtfQU51ag3sioJH&~hHYe@^^l!%v|EHCD7po*4Y
zO;kK*zm?0qY#V!nqjOj!UGh@HP21Z2#WDU{BzI4|5qw}_qb;PP_JwL}y?8pGnVs7$
z3mXXA)MX3}e6FshWnid+dk+cX(Oh^tWI^PUYGVB1p%sjHgdGF!Qyz9Tlb<Xr*MEK_
zgOE=70Z!`x#4nr2cikM5i|JXI8)9d$TC@uY3esj#FNE5%1AZUyR8?TVAbjpd06ztO
zB7qUm53L6^1H<!>96}$*m{TYq9SPh3fw0b!xVyU-59<+;M+%G7sfT3y?jTHg*4r|)
z?h#-EH*KAr-eR-wxE&p0%n~Ap=gLqlY@?BYbh9mIS+y`PPy&f*yabj961;0*tYI3(
z6lO9>DAkonu;>9newe<hQzixyfElF%ec!o^-Bn3TfyKD4v^$KaW<=E~Z%ywt9B!aX
z0p34jbdB)Jy~X779u{d$nv;w%nB3Z;nQMLqm7u-UEuXz)Y<xWbQpJ`c$3DV=3X)#)
z2iO9Wurh+o<=mm=&AzY3>=KTX1q#+HgWN434*{|2z{1_=wB3{|s8;)@gtG)|2yk&|
zm+i<EE;0-3qY3%ut2!vSmyVv3E_1K%zR-}0x?Sc;91CBZRJr$-(kL-01=sTAr79|@
zq^^k{KC~&Tdq<Isrz-q1r9s_E)fMiO!S8n%yt`u}>^&9CTVh$=xp&yr8ghz&)SJ-|
zAB8bXd!Cq`2%V~d_HX9Q50f4#yW3sPU9BaUwB~1L_n@*6YYmqH=4Zn&<9Ect=*`uv
z03o|VCNQRG2W#(=QMBh-1xLiD9bs29d)>fZZN2#Rp_A5Yc-}%Vpaa>Ou!4{O;3wv%
zF^2vD@j%#fA~?(}EKb3Mt)!-=>-5mZxsT2d^$mHB@bV)Ucx9U$AUl-f;K=}VWr6=l
zR2rjU9y7msRo&B58hiRh=YGq7>QjzkJ{OD!m(chSlfh7joiN-=<UP13uHU?=*IQ@R
zWBsoRb@lO0lON)q#RtC<qnN@fVTVx6F~eDmS_!{b!(svk@&&K;VN{oJYoQ+_oa{uB
z0==@bzT78yd!w{fKvtH;wWNu7=f;fPY+GTu0dolhiI<F5%pd-z=EXq-&vfI^ak6aF
z*mA~WtRW0L{JGiH?t>T*WPPNo<QD#*W{xCv!Fo9|TQHa}Q&D5{w_*Ls;2ZR>v$oJ5
z{7}WTFn9ax1vV8U7dNdVG4Mc`ytX@n1HKZ(w_Wk~Nw<%5P@A3;eqEwZN=jmZZyBa{
zf)pmavp0>d4*_pn=_(3Ey(Qj^0O8>?K<h&eo+eMBpo@lUH2LmH!0W`2KjD%=^Pqw1
z0H+M$Qh^6&aK?{^&yaOOM_Zc&!lV|<TvOr+|9khg63iwnTT<g<zzNVvK#$kJwm|gJ
z5ggZX0}xJJIyYd50ks|u(AEmt5Ak4pggWhs&9Vi?z#=$!x?<1&X&x3T##<)H$@4fa
z2qb@7f-^#eH8(dmXs-(<dqAYciJep56$g7gBo+7sK|LS9EI0}el#A^k%eVI<Wi@4O
zldKsb2IdiM+qQ3S#iGE65Y6!!c;(E}T~bMf0*q3?Ay#)2UMdP#quFs{Xa%Al7bmAL
zNXvOtN8{DHFAl~YYk3}~m@T1nbaaH{H8TW$bXtLbC9~JLxuk>l8)g>b$g%DH-+zAm
zMA0B2aw<OQ+claSlfPpU74Ei$@#+t?zWMP(qh6gcDv18jG2QHNj=iNyN)Z!jDTlKy
zX$@N~b~QiP)f&Rqp`>rAEF2>jA*q|OZE30hir{8p{#J{Dh^`p@^DedOxk)J$Obm1$
za)FDY8()rdD5u@+jr2-ZRgZ(Ob`~0`Hb5Rset|(jztCKeEQ~K7Te<L~R0s)B<ySAJ
zO=nRUdHd#R55m5OW&MdaLzJ#gy~A4x2<Ohma`~n(XdsL#H(?p^&Xtc4#9(0{>~G*Y
zbW$D0@frhA$e?d8x+(o|ziUaaiB#$PkHDoR`Ipe-K!ZTzfF(H;c^v*D!g^J$vy*^_
z#9K^oW0*P;BXFng2OeeV<UfA0z_7^0IC6&N-ZJ?7e-b;a;s(&O;Ga;6xDWhGb2*Y3
zJ`&6>5*{}kKxL#*QerX*sJ$Ap6rp3o6$Rx6?-)^$Fu*?(sGxj(i5We`06Mv#H&ydb
z;2|M&9=zit8n|2wN=R#KYt)(ovV?%%CZL4HKvgJgTySXkgIv)jYk*msaI4`3HNbMH
z{(2D?80nC-A(7PLIA!SPuwW{a@PNUU04gs4_5rY-Dvhx?VHQy0Ugex)>Oqrh?vVbE
zOwGr_C1>f<Y}0zoX`hG2a?--m=*22Mauaa@86M5CvGafYi-OoCbDo5Ri?A(fZLkM(
zrI8%mUw2aF5jn?;L+WX~d8zyFrgCpOwzt=?tI~VC_F#W&U=UT>K3ftX(7_Y^xin_!
z`JeaWXPP^M=U5^+(o`b)-kCI=xkI|*a|6plPy?Vr0fs0EbPAmd(5c1t<rj*r&3JbN
z$s=*c>;R#rU1zj2b%{{}5PwlKGuL31eJ-u!4f~BQ20QVr&Px-95bjmb2UF;N;Swx}
zjzgD$joa?Ex-<kfY{wJ)PeZa?GAI;kpxyLzZUPvCW@#CF2Ali=S<g7a9gge_CLzPP
zSOnF*=|%%^;VjIavzV{S1#*4$>J{GJVEFLOA@N?%`EwYfZN$1qS!OFME9>G#EC_&k
z8~~@8eg#6+!Yfv?j0(-`qIjf~1M@KiLp&iYE64G|ky!SRgw-D<?Hc^mCr_P%ruQ5=
zzvthvbXT`p*%weswWU+xUTc8lP54oWA)}VbMqEuNLpPJA&wG{s>C>m6Pe7!7M4}t}
zk>z^h>&BmfJ;SgmL-K%7dK3gp8juJHjCpY|K;>ib8NCfL_JYq!S*0ddqAis~M@w`#
zpr`btu^(d}ffsgCQ4tP}y4=Sy9!2bfXU?3t4r&F~t1-ARbBq3w%>{Rl#gBQ?tdTEA
z4j#C6<I4Dq+oz`b_M;W!a34w+7k+*j{#0qE;AHD3f2gH?WVad_cg}H&l53~TF&JvI
zl90Iy+Fc^^E6Qt*u%it8yZ4z-hVF`opX{8dD+5Na$rx7o%!3`sn#EmNF8uu)B+#Ly
zOs1s%Fe2h4*frucI&b%FDCTM@8%rNh`1s7S;fmUf-SABJwtYTqym&q$tAdb#uOjfL
zy~_~g?%jG3Jl0v>3n{sni-R5g9L8-3T$ePd@_Tvo#$gms=&+DWcO^P=Lo-3fZN{)r
zT6c-OrtxRD#lJ$UeI48U$hKUvHb491HXFU#QR&#+AZHW$ky~@;2hYE|YFtb?-gYm3
zf5<_K7wm(5#szz6Xw7OgU9}&}YX+4DjC{`zKjw5qQ$<%`OTCwyw<2l6#QDD^R*$G0
z4)y3R*#!QO*WJ~9dmFhMN7MJV*i$okLHtWMHM2cyuR7k`b+qJLk>}A8iP*eRZJ4OE
zXYaR|+ghtcvV2!@R`MYU=M{brXCnGlA3_~{xh3MsAXqj__)~!zc{qDO=*!Q{<<HJ3
zp1C93EP5%kuXTj$!_I9h*JqW_bL?qKAs1rv_+(tn&OHJ(g+xAb2`|xLeVE2Z?zmWA
z|0_t(vSs6V-aSek*Qi}ud-|`^b(iniGkwy;a4R2wejxvn6AQ<C?IUZE&wXBBNm2bx
z!BtYaGwKB)_z@Fwx3kSo-%WX@_p&&fU;iJ|h5lVpE$g_0bH`#kzE$aDT3vWa$xl<7
zZF6kz(&_uNM^D@Sp3r@DBv^==U9iF4heJV;Jymg-KQHwR<CDYSfNC#V3KvCg{*Jv@
zpc~-Mo@X3*H-q__+&1mGnq_m#DAA~zM)f39qn#~jHiTH^T8Z(wMG8Zj3;&>60WD>%
z5Goc`Kd!BJypz^PfBtwzwC~y7WmL+_PV|h7Z7Ivoz)#Ufn2@JZDup(hTGpz0-;{G#
zEDqo`Jk4<GLUaAxx2zU<wF17P?s8JC>cMGYH(ep^%qJ&(6MFfFhtmWv<GU^Y_r+;X
zJ}cF$SzKv0VBxC&&g{keSETorC&APvw&<O4y0xRQWOQ9ZH)>PyOl?|r@YmS>mB{$D
z)5f)`mOQ6FUdXBr(z{f9G;ef7=lJNX#ap-Wz<wGst>vM4?!$+dmxk&`=q?=94R<by
zB0K5gCi}l{aMNVR<m<$3>-oM<n<UqcjC=q`EZpoN8DX=_M23T0K!*Ix9N)?Fsjm!-
zYM-)XX3q5c97y6ga<Db!=dT0Dheu9OyK9DyaI7fE$vsRHB6rN^djEaJe#h@E_m?d#
zKYZFzVqU+#>cl?M-HeF!&*QE;&aeM=UAr}PBtl6)K!EeX|Goo`^W-H1w#PYFw|_8j
zXb>s4GGM+Cn|nTIH$2ss@D2#rs%S83fWe6|H0|(6RD&V1U4|@9xatU^{pQWfz<4<h
zT6b%d0z#u%-Cr{1%Lb@$a*w>fermTe4ZGSHwG_p##uv?zlz}pbW*s%2khCoQcDiIN
z?D(*<d6%y5j7<bbzylBVqVC&|J`Mdm<z{%*z;I~cYHr@q#M8x1Cj$hm?)~o#R}P;Z
zBp+sdoTJucBehlVv3Uv0P8XEk=MZE(F<}Bj8Zp*PyuScOu#Wd0;v|Hz7-l0%X0Z@Z
zsdKP(3%QJHf-fFL;@t13F!qe<%nOr)l$6OmviwW}U+&#ky);aol<Z^1a1iaA;r+mX
z`%+DxE-CE()u_;IDBmi(^3sx2k<3qQC4ldy)Ay$-5s&6{Eo*=GL_B%~VtXLLJUEem
zUyON5xAntpA64>eVtNc08>@%tF7o9E3J9EZ;kkYvhmi33$+I0{pbn(=%-f_D;gD>p
zV4GHO$?QxE$#P%ZCv@pfBSgR~VmKWyaqE6}>jAh*3>cU;!{Ouo=jRR*w3Y;Q2Tt2V
z=FC2aBif`d*)KlYAzV#LZmwSQRhA-2fU(w1HP++8&)-f-uJ5I_Ocpr!>@sHzcXCpX
zWz^mu9ZfJ-y>ex0a&f^)Im&*=WvlQb%Z58!hAL10&#MFPvPVWd{5blg<#c*Yq0wVK
zySg}ci@F~fZ96fIO9G6fbnYA{#v3tQIa)w?V~D8*pyjtEB{4qHR;LyYcSI_rMMTaq
z-2XE#P37ED!y;_h!Zi{avQ2sG3r4oo!Skmhxq=0$y9R9^KM#M%PEGsB@5Z^UrLy|;
z%6Hrn;&iUK&9F_M{{I+z?{KdF_WvK*6j`N=LK&4+DI&^Vk(9lPjL57I*-7?Z**ir@
z5g947j5L&;9hFr?^u0gd@9T5@zTe~X&+j^pYaG{gT*d44d_ErMdEW2$+gW}2vgE4-
zT2{FY|C5SzJrffn6f)lbe1`ZaMbJ}-Elq0(D|Lu*|JN{iR$|fvb179%PbpkK2sngd
z=<wz1S2Y_O0f1iIFT1YKFUB;zz!ZPkFhq1m2DLy*iTOptN7r->G9q+cRCF#pj<<XJ
zc8?Tgx{bL%6W`ChfoFnO>3nJL(^D1HMMX!qMR3;G3{@Ydr2JiM#y(SC6=UM$@#px;
zFG@<6?12Y(5@eFt=4%BH1Wqry@F*nhNCHqq^z!SS7nc@;4)79bIg~}ym^T=t#%uu;
z3=$vSwRP8T>!`IcVhKQyeRO(S|H~z!n~<9qpI4t2v9A%Xzc0~q%)%hmN`I$;^rb_m
zP|Q1zqVpsnB7ShUZ}}ew!kL?J9LaSG#_qs4E%&nO_3hjui3!LD;6i<_{mZt0$Mxqi
zlNSqjbvF&l#4ayef8;qseJ*<Y-{l3BF752E{Op#)^hQQUw{Q2v6veOFgS5PfmR93*
z;a&B^?{k%lwG$Ja{z@|+FhkWi&~-r7zv}p%yE+Sd)D+*vYPlUz(YdM?5LkJ%@3UIp
zr#5b*6Ep{k2ZBPxPX@V0mH2gp2z55MWptCX7VR==Iz-QBm#V(1uk!9m_lSLVjf02B
zMs36Z73J3%=LhHbQ>JGY&Us4x3evAHtamPbOnn&eEJEhMgrVr=E4$y&@qT}=`9aJL
zKqM5@_CdHO6YmVs>r26DT-z8l4*3=;0+H<MhHcww6A$VPrm&b)6P75%g<!a%7P_oD
z`h8>sIf?D~BeW-NpAu-7$7oPKiV=D>CWv^@wfyYeu3fXjZ~&TXzDoaUHqmJj@HcqN
zJ0a-k|HH?GRpcwj^BZxm_;(!WHIw+ubfcK8*^Bz_E0oRde^$kafds;J7}lcGNWb_K
z)!+Z+(>RoULeAMiXxq$;(!lfn?Y{jte!0jBO(f4IU3Iv#cU$iH`ruPlGAX)88-2L;
z_ntgcU}BiUpdG}kT;e*`{A$W#^Ge95q_xIoQMg(TPw)Qp)smLuYa?QFQIS(`Qh%y=
z4kU+WwIwColryyRh>3mEW8)I3u2bAADi+ez$H&DS>mC+9CMI!4?qMhSp1o%`jcZI(
zj0}#8pLI5Kc*VIvJ8-t&NozQTKK?szZODGsmayRCmruSF8{7UNg<O|m!fHpl7l3eY
zKTgF|9?g=Fm~*=}QI^hC_<pX}W}1!j&0`Rk+|5)~70XBC*(^wqw4{d12_P2803=Z{
zF)v{C#9T)B((GMjSkDRO7v?RQXbo`C6C@VAJj8GrFV)NU?^)q9MDCAubQ~HBtZ$%3
z<}&Z*U||Ww7YW6v!}T?qlf$q~Et>|W*me0~woSj4E=r1fCv0j&Bm~i(7oQE|hFJ(j
zVYca8V86z3QPOa}n>*<LYd`!*1p*BTihO^Bh>-HNz@P&!>K5Os<0d_FvwLHQH`<Yp
zMG*g<IOo6lKw^+MIXM|rE`lN!c_>0@qNi8e<7&74_%)qKx~VLkeOm`>o_btfZy9yE
z9zt5kx9isBj&GGhT;Hfx-m&S<JeXB<{TjzrbN%#hm-jOR)$L2413yw~N(K59v}`<g
z*_m_Ab?a4T4eit?I-eh`%6c;~lj!E=?}|!UTfX<MH?~lll(P%mppeB0$h`@^R<>8q
zlnJC1gmMYRbDHZ(DAkWhlW!~5<<KcQUZ~@&ly^Edv_Do!D>C)^b+_*W)eYWPWGLy>
zi)2-~@g!e0dgi=5)T6@=tB5C5t1^UHt%lHfp&ZCZLoelU<J)INd@N;;AHz3%n~42F
zGZO45){XYD#FZ9`St?3m-#KT3i31O403<#5x``7Sy(a=LzLk|nk;Fu3$8hGr@#8z=
z)$*9_+~6V76^f6z(O!{s#FnYEvy)&*kc4qaGGR7{`2>U9zueA!$B*k<&*3QTg<Xwf
z3A_&EeVt1#$+*w^!e2oJ#n&pGPZe+O7R-r=))WmK0Y}+mJy-uPyb=+oEKiqmS<mG=
z806|;Y7D>^VQs|i*3DjwpPnc;i0)9|$mksE1cLq0JBh~rvHd3|g6@g1%xr%GVlr@e
zN5C<OX^a(ya8g$<!SI%eobm(1%DWi13G|yr)gfS7gr9*(CtUOS_oNq!iA#TpYxiYd
zJHy&T4x@#$gOTlh_do8y;|CaS6^w$=+?pC1eAN@(D%$J{DyHtX-NloRCryf*1g<F_
z@4FRORlQ1#qq(P_+fB0;dcSlmf5U2c|54#pxmUjyFTKs#uv`A=)-QD-VLc-3oxEB7
z+>?d#t11hWfw$}$HXQ7<{bscbe+O|jvn{%KSCXy=Y;|ANrjYh_`tULM>Co+!;ovU*
zV)wsWSRGg1<tVBjO;2CbH`;A(qyMXa<pG1;mKQPf)V0<PQ(2U?oEIDVT-P2{=S{lZ
z<0{(4%0}7U&UW&8K!%rv>p9lLS7sKTRHS@m6KT1gFv;KE;44c{zuMQ}D@94ED=wOu
zSa-7Ho!yz4nXI!#g=F;Pc4T&{+XQvhnd*ejk49Q-7dWrAQ#D5ax*hw+v670pcjCKF
z9J#>tI)k6!RbdQ4@GE^YZmoqtL7JszB#Gpfy^Itkoc@Gx4uyjtaUzETVoxL#jUF_i
zFdKwEefl(_<>miBz+jz%>m9)MhzkiLCFS~C8>^VBNxDwb+x_efbSHd3unV`lX=^iL
zSWI|kF%*S|fxMOHHMo6?9JBE40p2ClHYm5v+pye{1_TzuufopWhDw#xVD3Jo861Cv
z3$$Gd;U0JlGVpw1)ZK|8t_SSA1iTYL7~Rhs@EnEhJ{AG-Bm(|-j4W(EJYWY_OF5^9
z2t5$U8+e;hG*sV~hOSKz42aP$)IGvd56B1cXse|{2`YCUQ-a|XiBe&wVG{i5<Af;A
zDRrc41I{0ulf^*FX~;;&9}v?caXNa#>S}29bO@7}l@k5}R9P6ru)@zVQRfIXMlH3W
zL9P~<iPYR$!8S%NVV@NtIoq$}Cm4T5{u%tO%IY+GJJXEoE!XKeAM^N$!G~$j?_J^*
zq+w#pjEXqz&;QaaknY@s_XA-n({l~^ZM_rh?2mqG9lvqrgtGA2hdQcN&+Y>YLLVl)
ze`Xi8dQ|LmdU!nZOunVMo~6Ye{_gktd#|yExGgD=m5@^TZP7Yet(f?p#PH<r$0U!n
z##a3NVqQi+K9aI)=cD|%>uzO=NmQx~?oof_tkbKrBqJ_I<X+BqIrOWDzb(1&u(3Oz
za-NC1o1dnh#HiI+Ud7dk#rQJO@;y@fQd(Q0r8?|2?aPi<9(o*(V4XR-B&2_teKC?^
zW@L<#4<vl!*YbVVX81961tg5X{`GxsztrE?H$9Hv#B*1iWtbCS&e;h0L`6;Q3o$se
zjEn~#0p^`7vZ-@|0$@6z__&S#O3Y`|YoOx&$kNi%B>*2WnI9P$X#jhYFjBFzvlCWm
z62f2$s><lpRN~a}V~#@zxSH~_U{YlS_Hs0)YZm6_z7-V}Jh?d4FdD#^zxR_F;sO_>
zul+L!UciKK31ZjG9Z?v!flK2g!O=?~UGW4eLw@;Gb3+9AtS^|F=j-IDkq{<2oOLsO
z(&!i`YM}KXw+&L0oN^#kYQi&dHsS~BR=Rh`<iKD$4ggE~`ae3Czg`G;*WcFfsWqem
z*4m(jCs<szxzK#!`N>-Nxe1ss4noBLjsr;nI3z269<{UnP_^H}oOE(^WD8;Az{`eF
z2fwK3Bl~a>MPW12a7ufJ#{3r*{lkU~HVx0jlB(O5mg%!jAGiaq@6Bt9JCWyBdmBK-
z$i7!0DVwpHSy+TpkW<5?;ig2Al#EGw485P9(-`IS%&GNXP7`;57O}0W+S&bZy(3GF
zm@f2?WJ$9cZzI|M>GL${wdhv~339G`L?{}$Ru3GG<*d2hgZUM`n&5;I9<E`Lznv@A
z^&gWz=GpC-tW0XzXj$>F?mtmoQc&>r(&oZ%K5M?&*BQND+cw|-`Muse{F){?r($m7
z^N*!dX$-UuIT*0R=x>42MkPi8pL(J8-YJnqd|gQ>l;9|V@q#g2X_J9SsG~%BeS^>|
zIGtbMTes#!6lL6A&=%P(8hZMd@7~2hg852KPlDn1E8ukCvH}1^6SgfJpYk|0FkFX`
zie}rkX1Iz`Hcv^OadB~p&?e@YWv~{)u%!lv7mAa^pgT>^PI=o|UA`=C-N`}Zj|eKA
zq2Vs{Ad)e4wqt3Pa8C=Y|3IOJ0z#07rq#LU6Mha$JoNC`go8l{SB=Zdqcv4k0%RH%
zYn1Sl3c8%$kCqvEuKn8vBpVjbb&zUjT{I2#(5);q#Diga1Z+s0FSz)Fm2w*2zmG=`
zb@<jF_gC^YctZ%C0b<zvSfuQixw+R!Bu~Rd!)|2eY3vzu;8@1=fuJ~nDv{Z{cXx!b
z)m$&9UUHJH3Qq`PKeTOIIW_Zkn(tiuF0IV^?%z`4y=CP|Yp=wcMpvfk#G9Y@3vc^S
z8c--8dL(e@d6wa|!eKe#vxC(n`|fwp?tK<_kiEgyvTR}`R_oU;M@l*QbkAo;C`{c<
z9{2HRh^&}CzHayMaMytLko~&LFY-FU;_uekouVs!#(CjNZ=>!-zs|iKTX;!NIoYh*
z%Zfy*>U!oA2Zyv<4w|$-C~~ZTy7XF(<|zFG_VwiF=HX#(glP$s$-jJR!a?@<@nh>>
z88TcNKl#!Ru1i0Bl*4MzH)Cs1lbukNg3|#Qb0V!sC|sZ@%%g)5>;P5N7Dk&>r%oYN
z-dpS83eX@-rYQ250Fl6JMby*B1Rda7jeB|3kf_}0=q{m4LW32|aB}q@`YrmTDR$nK
z_j+dVNs1HTS<K%B;FUw%sjVzyso#fU6c;Zp=M4C>-omyHQIhBYda@OzzM+;%RA%Tx
z>e*1a;h&8JBj?AJ2DY9&G0)Dl=-m-~?c{6czx?i-Ua%Ar|Ln5=NMwK8lS`RrW}JTB
z|1;Qo;O`TX8)S0rB%xB~(cjXF^B8tsh-$LRjyx4Ksg-!%&G+wStc(RY1@9rs)7EnL
z?p2c{HjXR`TZUh*_2K@oAr$NpFT${~-m$)>sEE;-I<3>a0#jjS-<S3d8qq;)4mM|b
z8**734$|B`^rA0il9R_WS0eki=2kw{iywLn3bh4yI7SU;+dqF2UzhIfI)1xM;z{%8
zs&S!CqD@Ep0aqXZp{-?qpt&LcTIMpL22&tutE6^$Hmd-v)1eNLzZzwDc*uw@{>*D5
zeYA>Acys~xpoZ&>z_Jh*08Zbrk@@8v9bmtM`-MPxT;K~5Xz_e7#o}u?jB?bg<v!R<
z(B2@#2}lIYZT<4&M`V4yECHN`phbxHFko5O*d$%@;e-H#N?y#|_s_FaIXy)7a9@tk
zDLCl9;IC4<!`e{)sXc^K(uEvP+kUO|2d{f?=dwO^JT%pn@$pjzG1+3Qwfo<>ihlwr
zyGzVsgLcx<eKOi7`!;*;#neB8R&t#aLPz^5{Z7=MdUw)fd-JGjuD7LS=TCA;)hfOz
zA60J>yL0pR=vm8IEw|PS2k*(tZyz<?pz_VLN={1USKMx5tZ_=~j&OAh3CBdyG!vQS
z4WCB}+XUZwK6@ws>y}3{A%4xIxbbi+f29^BVPcAo<W>Ecd#O-Z-(VygPM&J_h3rL{
z6QD<-vm}54Alg^Kq8V{)D>OW`qmSS^hD!^wQ1goy*($$aZQ+FXkC-&#5^Ez=FLxX1
z(A8D<+uJzXfeV@c`IEw&FbxmYCU56en#a^s(1Ad^10w+p$Gf(cxA4={t$jTJ1!(aN
z)s}K<!j1>%+-szoX&T`AYDEGcgH05Li->jNOZ5k&Vb7F>q|*oq;n!<zy#u_#2$<Gr
zUK-)?LL&JhSW5)$MVm(h!D29j2udN5YK5C;_RgU_Q_;k2fYK6UkaDPSWaq_&REGC_
z43b3*7}(afydD3ZvA2*%Q4QYjEOX|}HT}VIsfyGtwh(s;k%L-SR~F{Io;+<#8$K0F
zdD+z5Kz2pqx`WmB$sUVV6|xQfo~6%j!DVGp_vrVF^cSz{@GUx4)oOSCz4(RvsC9>j
zdHLe7&-@gdWMX6}U2X5wtG)uvL=Ct|gWXe9R#>72pEsr#_^Ydr(<+sIW-ZWF*ePGR
zm(-DxF)c>MU;UT6#}HXq!d$gnd3Hg8GOSue<3<bsnwkReEzG)0A|_q|K?w!bD^&Ji
zHz`Jp*HOGer-bTt9@&bqv9SO&?}W0eTl*a}qeqV(bqfwYC@5$_=}s8q&gknv@B{h{
zn9;8veLUj{d?t!nHNn|G+QskbxulcO0t)hk<>l=oj1K4};0V(}@^y1<Rs?ij5)As-
zV7kwRKMBw?9#tktsiPQY5O7ksjFrN6o`U)e3f_VFC$pgG!hw$mM-9<%XAG5a4dR42
zYuk$hjj*Tz(4k;wCq&%#=piN5Om^fs`l2skM*sTCRqbE-CY-x-Q*Qp7Imv7KH~N!L
z!(1p88OB(t)A>_0s=N#~Hy_+rnW1s|q4m3F$+wmwb@6+-Q<T?kE>5!bW8=S@_m?Ls
z*+1Zj(N)Y<Zui3_=fiO0SbOgW&4w%G#@EzB`5H&%A30`7gDN&y6L5>YTFTOLyGiHE
z$wQFAq9_uj5=L~++!6M0W*BT&oN~1tYwzvOPVn7r5E@;dQkeTdRdsO>d=$`&fl7<v
z6)PV3$pb_sDiYL(dG0l}CE(m7VQiL!d_z2fVXR+P3T^PzUb3(_g$zoazuQ%$YvH<%
z;18KMy-uaw80vq#)YR+O;OCa4Ofg?$?a`Vi!#xjND*osRUHY#IXjOYP&<s?yXc>X#
zNUG=eI)Bg}yLCIYILr8aVZGWh5!Hw%S4JjxJ+h<5yu9=8A?;tawtp#)I2h^}E!ah|
zt@HiuVE6cJmHDUbS;o;_ebrme+>0tmJrZ5KXX4ty^cIhO3W+iDWG_5~syN6?Cf{~4
z54!Yp=2@9@#l5<gqbqGeUb+n!*Ktf7$5CgOR#L-8B2VDn*M5C7`jG#R450nRIP`h*
z6qT%Ae#^VvOE2gUt9qrrXvPrvha%~9Zov?H=f=_wbGdD*&#Eag+W+F8l_y<Kh!fk}
zJg%u${lO3Et)1#SHKn~bb<Ev!m;C^>g~g&<a72_=^arM#J=vkvo97yFg?Z$V3TMyG
zxEwRu&8i(-kge|8P_nGyWw9MR%WeYT{y<Z}6;zw39F{7g)FLk>Td-a5`qS0IXT?X_
z-B!sQP)im6@GM#5;V3@pn>;VvWpaexK7Sasone23dH>oc?^G$jWGcSE#sKre0h9Dn
z%|8cXmQGG=a#j6_zjvkO<@Q=@c}cxNiAe6I+drLFgbUx#f9Th~^DZg~QqMkRN+&iG
ztwiNdpLdefNpC%5clVyYUS{Zjf>MYdZ->7EwIl)cwC&FHE1$#XY6+<d(E~cTMTn&k
z`;NupCy!%EPSH3iGcWj*=_=`n?YFkqmk+z@ma$Nq9{D~Pu<DLl?f&m^>z>^9kn5!P
z*4kL3X#Gu2K<)Xwt{d2saOT#k_OCfnfwUuuB78cO#%2p{!-mIh#r%Dx@zliav9Uj@
zl5M+Zdw1MZ7v&;K17#tt4n=PAZM=Gi+wanJ2Nt9YhexTa&@C$ey9CL99?A_AgXl}Q
zaAu(mB%tCro^GRH1@o|xu(lfSs;hxzsB(0+*UWYGy9Ehy%lcoRvM_J#$W#cCo2M6+
zDY~os+;daag!g)TUQzg5L!Ecy`qQ5QSB6jh@lXjNxkM#;IKXAXvMXZ!?8vl!t%JLP
zYGhEi0pm@z^y^$CB>}Fq#y5U6to@9N<KsX2eVALQkIm5@H7ZAB&!HU~BIS&+taL63
zp|`>-TX=Z?SytpuTIDwLkG%mIiHn$YN_Akq4R(|_ag&i$kN^2kE)=*>WrHLnFilTg
zAMAS-Ipsqx_fV(e(fiXviKWKyv5-@Yy^Yo8>+(7seT3cVX274pB8F*J9;$+~6ptPp
zpxb)(Z)>$B@r--2^6;2yZQs8jWSm4M7@cW-aLT95A-Tdtf9Ict6PA{(>krIi1soG9
zOiUFD8V9tGPQ8&@Sn;v@YS1`AempUFI{VNLlNKi9py`+cVyzR|mDwGF<54*e`m&6w
z3)!^gro>MDM~^lA*WLtB7Yr|MlVI5W!~aGv{ciyEMIa4M?~9g}x+(dz<o<e5kETWQ
zIn(nswC2;~<b!Wp*+k1}J8_+ilJ{R;Zg_L($Mv%}$1Te!FKCykkG7OuSyu@Bw4xhW
zq<@yp!n9?)_U!r|dq0jZR>m}Toe9O7R#Pu&`pQf?`_Da>TK-CLJE-<r@^voZm&I~j
zQK2+WV(P|Wj3%^7<SzQr64Bo!$L}f`I8PQOs;f7o>D3#%8T`BQOW+dWGJ$;2f)XD7
z<hagqbuH6x9-f|GU#~1K@*Fx84qzfj2Lz-{(U-X|MUi!FV{apId-x$9QhR%!5F$u6
z#XRR9(l$3&KaCb2{owh#ruRgq@Qd|O+C!u5I__SaOr`R_?`ti+s6Er>k*85r$Ml`N
zwfDl-#w$WQEtl-0`Bta6kGpB7ml*AMRx8Lqc1WNo`Oze$@txoYF1~fNL#6u_5^JM;
zQ>A~pNRk-0<)u+Qo5(gB{`@rW-<La+o>&`$Yn1SCySgrMbX>Z4k>t_i$M2FIt*j{I
zfW|7>z^a^>l(i!<$6yTc1p^TFJvytLC*BqxnW-1C+Dn9zJ%#=x&1PUth>OKp$19He
zk0!-kxphC$@5?>CFUDRTJ(B@#Khj<XY(#k(one{nuCy83ndEnk*WFF!7nz{hPurl}
z^_9JcE1bxhI#fKRjqmMCoTZekc8<@IT&lOc-0<Py{IJg=RN3xwR+jxOE1&fBcT(Pn
zsdVL&3*ut>`9Qb!=dRm66G7z0r=Pm?e6x4Zm2*hH%~nY=r{1H~c<x`>*Qymg63nC4
zXsP#o{sB`@vZU+fh~F>+H@|yq<1xE3_vxH*1-U=Rou&KspQ396#)?`<1xkgqrouYs
z)^D1z8=d#M>tYJFgAA2Ac~|P{@oI4<Uu7<yFuulz*A`dW9RqHOwLk59isN}MNT{iy
zohdAA&(ZVSLdt!DGVGX3W!wI`{7~IY>~axVNQ)t>r#S6ib@18hjriy0v}!t(5308L
zoRlnKrMGZD-^VQId{Qbr<pZV0ve$DHGjYGa-K-{DmRE8Zj*Ju)s2^6Sp58&R_eE_3
zM(wx7E;Tdm-i=#r+#F>J%Fqm4eF%9=67Xn3D}nc=>-i5nriVezh41+r6Sw;OS7JR1
zHbuNd<Bo!8%eeUa&-EYx-fbb!cK8!?KfL#B#YAfA^UD8LR+LJ(j{PRU2XOt`ARItR
z8Ps}FfN?zFcxijO!)X6;mt|^_HP5w!jy3nBo?L@+eNpG$lG?18fO~Z}5_vBEixaMn
zOVa|<b(D6@g?}zAG*?{ZS&8-J{vzV5s3|G(`c0~fX_DUgKo3Ux#7V#XiY4?DGP~RL
zIz9=X<oZw=D-%G!HA~M?l0oB?<S%MAliP*-owX($=DJ4(N*QiRB%=oi?K~uP$vjh!
zr~hYp6y?2<qG^|%t(&1%8l5gZ6KXw5ry4!-6q8_mC%71gUB*=ic|XmH=*$ReKf#_x
zzfJL#_~dkpbb=s0LKjYpIaYOtoPweZkW%cr0jw<(sC!Jtd;xijLRwOY!3DYtvDv8I
z6aB(o<Y`fUVSiWrZ}0^OkEhzcggJN`%h8_W{LtI8j)AlSwv>SjE7*CtE{aHiz}Nm3
zHt*$S)6!7C%vI!#kOfjo6qc;mvIa;9%m^P!6Swq<m^{mkeY^r_52)3!5(~4>lkoE9
z7&HIcwR0!SZ@;I<XKBej_I4JR|Ko_=mi$md%kDVMuv(p!&Dl1cf6~(;{5vYMR6KMQ
zWB95nFKn6?o!H6pT}ENsJ0+K^N$WlxL!t(XNq49VO$yvM>TOh#88>+cZpCP|+$VL{
z?C_RV8VtTRYq>Yy%cGhsMn2C!oH=9LuxZfX%EXLX^Lz-^y9%M?Z|<Mm!;E<hXD3`(
zRN6i?b9|~%Jn-y@TwLfa1A(6f%{eO(ZynT+MGT!V6dIG1l-$n9DCbhnq=5k}Ek=ng
zpFUOV+PkL{@C*pTZ16w;0ZD_|2igG8qvG&s{ZIN#&dKRf=QHG{G2)tejp}3y4>+#;
z{as>u4-FMz+i-UFIC}1wYK-oP{wk{A=%}a$d<_{D=l%7fp;$Aru;eZoKnWm`{WHIX
zcoHBYy&4=$BS5XzgQy$;whzt9sv5xE^kPBu_g*3Zm9M%bv*4zd=gnnd&@=pB#K!T3
za+8>P1oFH}_YVxsw5E=Du6EhD=E>qPRin$NS-qo@j-F)qQkQjoo#(bxPEH6n3{VGW
z+=`({qGdIo?)Ik>UC%M^7BlcYODe-@5&vU$U&BkXe!q~`p@Ru>C(PLx0}nRnk_?e0
z@Fd1YP+lj=Al2MX_PRr%=&ooCUm3)hk`@!|PeoQLI=`~@_h~)%{E2`rk;H7T#jtU7
zZcby+zA*&dYBr{HSR)4BTN7H~Hq1BTCSWThC0xQVRw7lfwKbg!2uCP2l70RC2$8no
z*g=%S92YeXh_UJER&;Rjb&!FvuTd&XiO_WNbYSERCv)hB?y~dnWqJa(gY_GjWl2<3
zRgD16k0BJ`tATGnbaiPd+hZ2M19^qmStqrGO(SsNWCM8Y5wV+*(YL<7zO$BKoT0HJ
zVD{nRTM67Xkv>Wi3qXz}nP|)6)q>RWbedED*Ve&U7Dsrd5rGNDZwD*N-Jl=};?>+c
zYODDSj?g7c-_9buNG#NQY;$(oO_=S~!DI(NJqP4bfQ2KGKu&YGP^3$wTF_7u%L0&=
zpndlg2|D;oiKJ3>J-L4^F3(&vsZ!hz6HSnKD1se%&tDM&s|xc1GY7|O$Ww#}gp=fu
z{450`bSj>gr83BUUTpCFzUIo=FXc5fza;+T>-&9zf+0xy0i)K6<g|+y`KvLPq`8@k
zjtm#7m8V>0^?p0P5;jj#PJMClJOll~y)tYUwfvi6ZAM#FqK@o4tYomXDs^ucjaZ9Z
zmrBVkT?dvzmyn#}H@4l{INupMHb*ai+t-SeJWjdDWoCvwi!pYaaQ?ie$?7Aiq}neu
z5kI#0kZ^CgMsj6D)10)NN`rEQdYNjIftn)QH@v|nQ+WRFk8Hh^i^04yDxM7i<8!vY
zZq5QzzVT(OHI8$WFLLNejQ>Zai4FcS!aQ(rP*i)j(}_`uX1h!FnhtahW6<C9fwjY+
zjA{f(?TfgXC8Y@j>}w<lz%M4aN3bPhNXLLDkH}GA(w&2Z_}pO44s@_-$GQndBNS_b
zXNBVaFf3*f9FnJD8z)wJ;o!w|<}GA@4o>y`@hdpS;lP=KmHExJY9aMCXIWWUxP;Xe
z6v&a2!;#*Di7Rl@O$66j@Efs^>}@Vhv&XxY(1?irKqBIp7FZ&-P9n+=)?X$JZrHHq
z1fw%1j{w1gF&d3glw#o9$wvfwAGgQ<yIRlf$rP|cNUsM0#}0CxJX$}Xhq%nZydoiT
z&WKVGgl|Cc7w~VcFh!?1m7(S$0y>1<{q9|&S|fJf!Ie90-*27a-Hb?15lqe)qEUR^
zor#YJd*nn)oA?-6QX!(p#KpY?z$giS3;uzzn50>mE?P_%Lh878SBk<nEre73Pl9<S
zo5k^c;ZGI^@hZFiEQ#l%0jUa-B)k5~*UUFmv3lootLPYS8kP)<z2jezP&}0<!k_#6
zsbWdYxWw6#yKyPBVr5av&z>aSrdl6;JHY?jOvry_hxX7R>l3Q}yvpW3Vx{|z+Q~(7
zW&RDzU{Uq2=N;|85|u=1$GYr#n^f3*^{&#&u)?+jZztVoI`YDIYsrTi@+5}ddfv-W
z|BS^b@b|{z4=<lz>t6k@ZNvkf4h&sfXnWNzEfdeR6xqcu$t#(0)IzIEM)#mzG$7O3
zn4NLI`<>Y>u??&7aE>@Hh17q6G6CLu>)scZS|w|E4lJ%*QHLvym}7moz~+kyk{gqy
zKgQu^bsS)W;}a*=Ai&q|wORe=I`~_v#Ew3M=4QsN1h)}DsDT0FmIT<$3ACrx8cs9<
z2#gsR2D&Q1abVO3TSOAVPG{?Hc>`&y@~>yx0$=n$YOa{$;4|=-b?+~~s~6?r@rMzE
zm{ROhfT(QP?t(D8&bf20a}|(K1cpsaOxS@f!x&MDCrl}akf4aYz4NeNmBZ6cwBZnz
z2tL+t#EfnGFZ`n0ARePT#t`Js*5Ue#$E*${UiFI?c_u0>ov;*$4e~UV05oPm0f;Fx
zm<-W7l(g+}?57ncjzAq>+8~@c{?=u%Op`T{k&6Cfn${6Y(iON=Y^q5B%`rbx0Sf{z
z>sD;Kv2u8OK-qAY4d;jFi|z%*ZzwJelZL4uw*Yy}Akf2|aiF<v==jR_wl)v53)_|2
z19ul^crqA#2-wwYS(-6tbL7#L9UQXzwT@k-cdRA7Z#_V(yuTylhF0rO3MUbU4A0Y*
z(lJ8yVJZz)>9oRBzDA!u7y24P{xc+D-Ciq<CuL@0DD=abhf5A)+MRy9D-ljV7G$i_
z|8G@?zw4Sq*hJ`uzO_qY7p90k9FT)iCDXydb}EJs=6~#-kaUzne&Gd52PCXU@#xqb
zDVH6^ZB_^;RNW<*1ZJgu`}_N6A3(E3f~SWjK#-=~6J|i*JrJxQ)`t+0yjlwccCl+!
zZ@a~>AHxLGy8GitV&4)u6&0^46Rd664=d8O@VNR~xo11ES{8InVyH<Z@_^<!1tL%U
zePNI7J9oAsg-1l;P^N>;KVJA5ciDYR)^U8bpRC3I0DuYt;wlDLk#mWyWf?(2mbf4>
zbH#&^<7$lMds&Y=z7C%2t~<q+j0_>9K_dKJ^X4D%AdUhe*figlw9oEBmG)OADsE>U
zCno7QN6JwRluJy+PkcS!+DdZZz@rXDbJbe1p1)+CBkxMbTaK+HJXg@+nfR&>)E|$A
z0^hrN;ol4C$Jl9{7CQLX>7C}bo>v~{x)qncEmh*=PX*7MEz%v5dc2JpHzwZp3hw$e
zW)*c{`8xSe_04UEnU4owt)8CK^0G@$2)*iePkUwG`>*8t<jNFx8lCI6zD=zf^YUXs
zy;2ZuNP(mK`NBR=hXdX+>ywPk<ztqUx(81LV<Rc1x8x0=%B5b}4eJqRnZ%MBJmsfz
zda#mN6CT?1Pd>lG)`a4PK6)6E${pyl^d3t)%B^+^J6m`W*>7!CdDW4N6~~0?;JtA#
z7==nC%0EQT0M;mvam+?xh-)LO$42z%(f8ZA%5zvtp%<`p?ZN&4G)9D6g#L08GQwrd
zov_eZz{9QF6;XeJua2IZAWE>Yu@S{XYfa4X$%E9e$mHXEAs!)A5jdYZ@W2r$>4-7I
z662n`Rf@{WL@IDE5(^kw1@Q?9-Ysjq)Yjc<A+{mC-qZ9@nce88U2IHD_V_jyX>MWL
zVjhpvS0lGSO`kS<^04u-r8wzyrjDP3QPuM^B{8~XHPW);+2bvqL(+AmJM!fgIVJtd
z*2yt)zS*DK^2lP#Ks9f$`A>Jc+KjzYgKGYz!i~TAkH&i+G_R#Po}4g!Ic}G2Ylt&u
zJ$v^E8|}U{&eUV5mDt>HV0?~OV1HiriTo>XL%cYOcpFGmR1{7|@R^)DzK|vGA0ZB-
z1bhVY5fgx_@f<uDMx-X6I2ggIawjCD$2R8;={cr_8beZEo-Z>ZKcQCAzE{TEfUQb|
zQJ%u?2l!|Z-t`exLsUumVM4EDrTwQER1~PR9t0kmPz2LR^w=@}BS&<t>)?OGoBJAj
zInl{ovaxAJV?gRrZ#8VK9Kq2D_A0UC6<pGRfq^)uGJj&9A1q%)ymIo@%a?>2XSIe#
zOB(Jpl*|w~=&%}vZaiE!s;=@M%2JH=zakF#Tk+nVyN@J*>`OZTaJs{Nc)`m4eX$lQ
z$|`7$2B{0}G0CK#jmihq&hZb%Ev1kgXAm$R?y(hJke$A+vbj60t44pF|9nige8cyU
zvFk6@_rH*qrY;yxq}a)Ovv5gsh)hG{$e-1mgAF@(gXB0N(qL(4zM;AEx-px%#yio^
zTNB=SRFfz1jngU~_IuJAADXg9PyBPl!G<JKPCv=kY>k7AVa9`noTq)aPwUtN#%W$C
z!8h`TB>P;p>%j`BrP>>R=<JH#+X3!g=+za03>VIIA{|XdMTLXl73z-sUVy&0;evvJ
zB?uWi=-F5m!P1tF`e6)EF$koqh?yco>QeIl#$prVi(n&)VHYa)qOl*bVMLFyS4t{{
zh=R2|f!B!zex+CE6xAWd5UEK-1}t&m{*EYu;Dk2ixZ5-%nh+`g%mZ<)E;R3UG`F@^
zMk$T#cf+izZwYKJ7>XVP@EvNRIW~|0UV+n<2e=tfIgkJ^xg$Z5hxZvbZyc~L=GdB%
zmc|JT^#>X{*X!4tVZb0($3pybMw|gPS18krQ3qzk9%JFhXsv4g8O?X?R*gy8_+h_!
zbCr8faIlDdCF2&E=sPPOhr#d#!gvOj(lb>RnU+<~@@M>wK;)bFGU0MXW{;odVF9yB
zC-1HrfvE%0zRW$Mf0<sdv^{sIzP~uNa7{b7ZAdJVTmCeeWk|lys7h!8^N;2YsuW$1
zbVbfWu`Tq6T+ODwoAf<09Xd%zH!VwIzeIDpDusmZ#fVzA^kDa{=IQ|No^tg#A?F5*
z^!;yTwprd_e>7@qb5=c5B5&FJko!J?O4mHZpHU(`nYmp)wY%*uYHCyygsBpi1p*HZ
zCP>Mc+I^r+aMchiy3sJ^;CqvdS!ZJbIfNjOp@RXZkpZFR*Xc5;Fru*D&-lCX!w36g
z%CMOV*Z@_8!12Hk+h<H_uFvqbVqGGU>zf;{H?yvR_0wjcN(?Rf@5z83ar-_|B0~tf
zRd;W16HqZ2yb#nZL`UJ2v%q@>gE);ZE?~UW8hD40O6NoL0jUCUtgAV>HqDC~iMYMd
zQ(2+U3;MiCYypOw1z!h|nU2*uxmWmmk$fhsJGkLTG48R3)&~kkBp`Wj(Gy-=*-Bj3
zXdbffnEtDy3n1cF{`>wP|EB**>4Y96&uc`k)yd5*7rzYg+rbks=}uFqQ?!brtE2Tr
zVrr<COSHTDqy~8^6X{BZ?yU2zr}N%sca#?fKawPVS#osz$o8VNDaX7}o0CgAN<PNa
za{J^L`#Ul}-9EQ+d9nGMa%tU86lvnF@2EBxx)6A4V`-@Fv4;LlW{H8@8Z@t$Ct`XX
z`=+=ge(}tcK=QMWj`Y4Dlw(xg8mmJqxV<)}Fn6Hc$r9v##iI0By_t)RvjKdn1T=;i
zC}AH?xkP~mc35Exq8Q%i><5}24vh86ivM5gZ;>_EmG{4~zbOun6mtJ;p3dSaVm$@@
zu*^Mr)y^%4OJ7Mp)BUE?d_l(NU(HYa1VvH8YIb7bEo@DVp=1-e{Ze6inESr<fiy1<
zF$H^yV#@MI+WJE$>3a+YxN6^wrh0lj)e7;As`I7IrfT#V9r;LU_~hW9zP!eq9H&j!
z)|7pxhdELl-aOxEV}9gaV|?M6;nC^$yTig<9B=MD^Xpc1JfGIn@}S7UhG&8PTxwry
zpM_tY$X2g@Toh3<{pGH}j*a`s2W}lbx=-K;s7)AXI>A$2E|K@TtfGRDj;$PS|MNoA
z{wE8h=*vDXGhNAOZpue{PC-ul`1gT$oVUEKrhoVT+^g_Cu6~Ea4*G^B-8<eq4TaIg
zLoahrx#ZvL;yV_`*-*RxWkxXV%7ll=MVFzl7N>7UcLt&z{J4@lChbL38Cl4w7+QO;
zeQikHbP*q#<Fjsv9DOuX^5C03d&ABfHpxEU5_C?Hm1IIA<W0O@>AuVG9U$y#zi3Rg
zFuoRG!W1_Pqbe&0rQ{{>_TwsP{&`3RaxHVAD?E+~F15|e4=XyBZyzqS@8S=B=h1FX
zuC!y5`bx)#-f)&Z_9?6I!5n`PA}BUy8-K{JJp$>Wy4p{wKlXLnu$)?=;`Y$bK|gNx
z%Sh7aB~W;cZf!c#@SJ6Jl2)Ttv9SB%$1`je%krcjcZf(jz80iTWhh!9Wj($szbK<p
zdyq~v{h6(3+iTzYP5%n(iJ1!zGtbWsG=-c|YI@PZn9QSf;{i3d?v@I17pHe5Q$0W3
zsxuyj?<#CLCz5!%RnnB)|1E*E{O9f@FD3bJrbw&ke=<eSrA<fcPa8|SL}ped%2C89
zWmK&EaJv43^Uu)F7sW;L2B`(|7+NDyyaO}TQP?0aV>E>=p${Lt@f3{Wt13LCnf6df
z$MfL8O(vbOKUYVWB6F{dl=6R3U1>MBpw772$Zu_-%(rSNf2C&NW2M7Zy+rxXTSd!a
z4~*sV1(d0d+6&l<$BwSiR;}dz3Ub~zze;~_N#zKAR0>)B2Ia@nj`ev>pTb1-;}<SU
zdEMB0U8%kImy&3w{Fw%$l-#Aq#><WT8GZH+Vcmyz43eLHsG|Mkj@Rk`{>Jrzn=hWs
z_LGSIPq>Kn;oY$gg}DtrkhxCBjC<|PJpERhra=E@bYEd^xkNMo8w=RtBN)#&jNl6l
zg2Wq*WAmVsECG}zcy2vC(HKjgEjYt@3vSo)e0R{_kD}CVnR=TyAZ}J`te|*GBaDM-
z?1IUSPif(qs(y>#%?BUNdvkjUB<4I33uI#*_qg^jGo#{<w?*GM$H=*zhW?eMgk5-R
zaBJ&}e(ji-X~D5g>9nHp&rSuL|4k=Kv+&5X5+%t_x#3&YbfUprFEYopD3ZA1NBM`R
z4m1o<{dsRk>GoCOaAit}+|6;9o^U@czxpVOq{W8a4fdAK``P*!ycR4uQQNlf8m0M9
zSZ_YY_5Y=k4|H^Aza9G$?R8OB*J;6tT+>tcfJ{KT6V_&8al;D~b&@dE;FZUJT7nC%
z2Wbb880ZG4;Cm!&9=K7!E!dR3ImOBP>V5O5_002}Jv@qywEoYx{NlP95|Z6)^RDk^
zY1s;2N|!z}b9hLKehyD&U(MME0@-9d{wy<dw|ovhC}GJHp7!qi)YO?)ePby3`CR9p
z$wM3`u7~ZFzdb+R#te4k!@d$+6bH>p?!|u?8mh|-&UF!&j~2Q>{_tr`Q~s-_3Yo<f
z*0qUJ+O9h5#rm{%ze%IWqUYa6)s75A1W@=rYTo*;!XwNipF$yxs>7-33Wdd}`H!e;
zHQ7oj^o>TNZNhT2pA$x;XTnwDuw(Plm>$xgiJP0X+;KPg#njwrAJj0^iHvtVc_vyW
zUX{es=vOPRJQAZoW@u=vU@9TSe0XTw)t0hq?^PFyeY?eEiD)!NLuz7LU(!Vv#uaj1
zjxpY@qR)yqIlv0_OPV2KZ;N4u_??@{`u0zNZ1h7yo)|p9NgVv-i3E&qmKgaWy29?d
z<ZqQu&>+y=+?^o4h{XwF)ms~y9@g{8FcAN<zWUdBrZ%@pk7F!?%Z@5OTRpFv_Z;~#
zcJfZZ--~i4WSqkxroGw$?C;H6_j&yO`YqDJT;j`J4`%IN%J7|{cl0z}hN^BlO`TAo
zP7q0S*b=Yg-+Z&(ii)bKBrPhAd~&k;2c76q?+VlX0b|=22acE7E^6OB$!hM)X~XLL
zcudBe!-*#D-O)qlM_m^3cJb88Yd`yMO8J!FzP(5Ndg^jQR1;d{+~ZcvbJtby8A!KU
zieFum9s4w>C+WyXD!=qa^)<oD!Bhv#BBE<UAd_fefC!*-;C7@FO$PX-0%m^G`di^y
zqc^`lQ5Wm!S!Co6As4Ej7>`dU*SgU$tT#;+<24ZegD(EB!)4ORPjP0#1$39vEJhtx
ze~P`6pwMHUa5%EuP`kZ$KB&Aa^caU~3gzDV)2$+V)TuPjIdL(tX$}pqOltN$-SM`!
z@dMl1GR5<!iw4SkjrVUlok^cfy}Kq_M0<S4g6_>AX)l{YQ3*Z!quZiX`3gHMk0h$B
z=G$n31Wv#A1(7VciD)Ut6+18;MX9fd=_peOIgmmyGx`DA4)eQ>-TguqU%5T2e9>)|
zucc*T*Lzk-9~~>VKHIBUI58#sI4(MU|HOF7P4aZwH{SB>x(>$DAs*Ojqk*})Ek=;L
zcD=e0!il+lczAdW$rv1wfQiEBMPw_GASMDt7b}VcT9^IHDz-d->h|!_mc`s!sSn!u
z9z!kR>Oo`d6RyuDb#m`p8C310P|oOhm6S1S`H)06KhHQ&keQT$7s6}0QJ#Ru2KD!Y
zF?v#DkLF3H$}(+ZZptRpccuqjQl98IUwr!GRmZvb_7S<Ae^|(AW-<l+Hh*=uT=>qZ
ztDCz;cFSSk*03kr8g$L;G@6s+Sa#Xkl^>NAvnD%5bLyY#Dr!qthO9Mm+QecF3=1s9
z*>~;Qg^AqW*fzqwfyFD<@CBkP62){7hB9^RB{=W!3?CeMpPMVQGIz(1%;lp$4SKz{
z-Ztbe<yY7r;w;FqIV1am>!rYFA>CtRs^+>%*ZA0(j?%O?%y!&QiW5v1e-A;d>xm3D
z2ST~nf*vS1-E{O5@(qNFg^emf*>7OVLk0m|m;$Do;JFf8(hzmTDu*VH7VK!>FDYqI
z#<6=hT`RW&oEDR9C9l6NeHJ-(mFoT$yW^4tu_;0f&tvl&V$*i{2D&_ds~W31G2yb<
z;Ad^er~cmgUE)~-k?;WxuB!~kE*+uPjCr&i5tkg_8^74K^I5>NEXvQ$Okp{DmkoAJ
z*t^_~Kd`ghje0{pJnErctIj@~o$XG4Bsg8Q*i~A89=~|WVqIeE#Y+>-HPv~&PtyL}
z%STQ?L4QLoZMMv%GA|`7&N=>VQ6~Seqn&3o2h%Mknz8rqe~XOeUWjhf2W@UP%)Lpb
zsE9asF)__5DoXwsX}G5~!QablV&%jcp4f?<ip5yW5rSd;DAJ`75ohYI^R=EpAcF{z
z)_VR_d!OG8bSJU-82Z#UUj-gw6Qvs(3T<MH5C*CecGbUn^X5>$0~&-EK#!n{zsvK>
zV17p1cvu-U8f$#9Brqt1qZdYssp(({3pZp8<a!9;EpBT?o@i05hlFqStmTu5U=Z)H
z9RO22m`Me+yx~lgM0blx?2e(6{-@<%7yCOe&ZsJ_g(=*or(yaaVHR5Ou;Bh1As3#E
zX6NaazjpxjDmwd7yJ@yVNVmlCRq-A2t7)F?gQ<~)#!Y@-H9MwMeFa-rEU$yOBo56#
zf?M{C=d(X0=S@t~pimRSGjNusnG5g}sSzp_^aFf8Zx&Lf5y-^2D-9$eBJRS`k_u8B
z^sP5<HxWQ#z3&vqt#huj>RQF2Jz0i7b8Kwemj2jmSO*U|AIn_}dAUt$+pf3L;Rm)n
z+4Y!D$s~h~=A)CU_n)DYUGFvf@`hQ86b|*DeAZ%@?cJNMeMQB_V=G<gN@TL$JJXq*
zmC_TtvKBeyi?)sOJ+6&-y(f54({VeuV`o$5no3^saE&<qR^CGW84jJ1`xg{Dr*-$4
zWJlaS7~ZV<v?zJ;k&0_c;OtCUrRTLyD@(EuTB=z;25TOBFH?uF4Bw|E7vjYWgPDSK
zSN(48O8zh`EdzV!5`IUZLQdHZ5*rfG!?BB+li<<V$Xqz7ut%E$JubQ=e|*Kv01!cS
zB<vL60?>Z!#Rqlx+E-m-IShu!tll6S8EtN?n4v9A7-N`&9@&Kd8<AMf`uq*cLJ{if
z!~WRxwMvKn1dOtX)j62hcbu+N-P3AG>{P|NUCbJ$JQr;7PGc~E+jT#FXs8S2mTfUi
z{5YNcBZEhh%=7Qv^QZs)rj7dP_KZLhX19I*V@6w4)uV@PX4$Xw+)6rN#W}vCZok!X
z;m1#YD&hU_uKdW<asGk940vw@TLO!8iH#N{n2vmbW<l(B^YQuXWu{f<`SUIjNJ6*`
zbD8*Ac|oLmi8(YOvCbwD4K_NbyAybT@k;|Ga;@&=`coM;+V;v~rmKT-=2rUvc@&ZR
z9_?&ZK-uOymS`9^J0Q_DW_l-v(bZ_nmTT-eDSFC!8%=>?8wKLGZqbuc9-T3&kYXKr
zrg5h%+UW|Jew{Bl^N!DzB1wI}B*X;+f9Q=Z{IFAr<tv<Rd-QjInz+O3Xcd>pSDqWY
z&a4(LjcnGqDxNkpWWVqE*m`2iweQUxA8U52v!7GFU3rEzQ!NWCc3zT(zJI5mldq(v
zRFYVlr*m1AFG;V6?0npcQQwl<9$)`A#Tt=~wK{V=uc0DJdaa5=Tt)?5*1BSi2`q7}
zVlmCLXNxcGp#}W`2=TYjR{gjCJTKViOsIE+jt-@mpl!|0cEFT}xtBNzzEvWfK^T{F
zlqX6$kd`8pU`(7QJ!3J*H^f3G{p{K^fPos+Tz?3|rJ|CywsyLV1NdryvmYV&);z_y
zlnc&ysY&N}D>EnVqLS;NJ;eS+O5xQ7)<fb&VWGkP)$SwF*$>0g_I|5(RvhL_J$Qeg
zFEWbR`T5OY>>)s#@b($l<K56V_n*1fic!F#^mS-J5E1#XVF~iUMSFW=0f{SDuH-yS
z`{`w8XE(Wi`{^F<;mJDbZ`;oo7iA@%m0hdm<_q@A7mNF=!FlaXZQ{(QjA*+2v`TW`
zG=`@Yr835$LFzqBbu|TTYle>Z$&+gWQfO@I{6Btt-!o@=d?Fwwy=gFSUhS4`WXK8K
z^n<5bgjV_`i&%usZZn@;{Hjc%q{O&`zl)AH+V{1_i#xL^xovW0oOMOy-yXh;VmW(D
zQ1H>#BudLkk*gFBVpIxCO16Ei&Zu~iqDR))KW=S0af6F()}&Hne-j8{xQzk2TlG~b
zBs&Ks1<xwNoRQfM7#`~)mW}n2c@B|KiV3^9m{=o*PT&F{W0R}@V`NXM@)W|u3OtQK
zQ%BK}!TvppZ8<rRZ6TG2V#){UAPEf@#8F}!Im%vv=0y;?d7=e^c46MNHALaGlhZsE
zrxAveusvAdo*`g=D1$HI&BmA#1kOoJlJ7d~W1_*XwlCPNM*xfPRzYHZ3H93sj?aj7
z_k}MMU?gPXwKMnto+q&y2=D`9#p7b&1UkJO%%P{hekHP~2s&tD>bB>G#~}715pz&f
zZ6ON&85tSbKk!s9EH0i#%oh0u7jVMz%CN5VCCDssC%Iuy6jUjUrS6Byr|74<-^#8*
zm#bNtJTpdhAKMXw`Lq0AG&Rpm4Tm3#C*L`>W;G*KcOit;oCL2$3n-Zt)S`RpB{;<{
zDkNM<W!MYbBPN2*>%WM*(mz~NIN9>B`^MT)s%;#Ep~PdzOm&YW4Oe@C^!dXayp}rD
zpZ5AV_A<X)I!iKZKxQ0Ou>DJgi^pv7em}wU4GPR$b+<FP>J0eLQuT&$w5HrRW!UgX
zP@FxG`?h+(I9XVVgzheik^^#hl<Kmw9?e+84Jq89Z_qeWYTo)$yNt(XM$VsNweM64
z{jSue51!qPhDE#FvRrl*Qqi9lZqOy$q}-&S?Xp(cBk+l3Rqq5;A7p6`B$(B@qdS&9
zYl!q5=E-;Y%!onq5#97xC*cFYQ7)u#2eLe1JSy!`HZZVi>gy+69DpJWP+g+PZYogH
z`FsiK4AzaypT6U=AcDbIeKd*`L`n+rm?#Rx*E}~R!1oAe0{NQHH%IK@gyn<aSt5s(
z41yotP$DIWo8&MtCq>8w7s}E#`cDh^!m$pSfF6{ah<Hr(_kQ@0fMnfatTQIu0#GiJ
zWPNUxtRvYahc6zJ%F71FKokUrwG%(i%*Rr0SYSpW`TG7beq!58i7JHH<%(vGfD!X5
zw|87VlO*bgZ?gvt4SrQ*&CW3e5SR^Um;?d`EP&;2{fS6ay;?&gMjKQ(45@xv@MHfC
z8D5fA2w#2JcRu>cAXH}$qgRZ5RUK(P|1FZ8cI@TNSGKOD1nF&7<!)aWkFHNJ*+2c2
z&Le<)*Y#o*^&fUNHmnghPMyul$q9%*-+7}IW%fCDo2ej-fn7%$NC`7E9CHwz&(+4n
z#u9vBVgVVPA4I|iS1W<ZM^^?6yin`jqOf&_@rl?sZyI0d46(73&@^V2Fi4mz9{WC=
zwRlhT=j(?3+=7m;D=l1Z3p}1;zvun?vPsad#rn%4pilkzL>0BjbX7CBMt#r5(Vgdm
zKc_b28-35Kie;L3(b4?3Eoi5MgU!b?!gX;X410C@%(h2J_%6LarN?mjLcs5%4cT`d
zzhTT2=_aqD-$~lxn<{5LelbaIzDV1A`y__!Fe=KI{XykPENhYD;{92VomJTJXepk|
zLr*zQMkI{pS5~OTRUHT@<UgBUDN^C05_}@-KA*|+cz-Fe02vzM{OZCb!aakUgV>r|
zZvPRJ4{TFbLMRcECgGJMSc9ku$;@p9|4t%9+|u4oixqB)X84y6@I2vDCZri?YDDD$
zjd~PH4t!HRZ{I>j*<;oc#fkh(6OPvz<xOZMFCd35tYO|3w?^<p0eOGq^Y<3UFfkAN
zXZne~#pPBVmv`TN2ka*iy22cW*waN+QK%h!r9+GW9L2KF0_?Co;y82<e^NTG(;&Qr
zmk^3BDG~ns`Ln)(frXV-5Kt8t=OEiaFr*^>9Bk-@S~`i6No`$3ujF3#XJ0w(cN!^2
zRA&UUHTLJA=UM*xJ`^r3u<UrGE3jiDdX)J~)7tFf*AsS3M-z@3DN*FS<-U-{oV8+B
zcC%-n>B;z;-F7pDy%tpmDh>OsJX&>`2=X;tMp_ZGe}7ML!@ZL@<$So5*rTe2+dbYC
zrvof-&|3+kfDH@~h#$TD{5b_@_F0fRytpHUs(F3tl;efivkr?>|2{u-xtH|_{o={X
zI#L{+?$_T=Y;-C}zHQ)mX1#3YLS=fHB~knVy`WO2a8N<Z(y{A-BE}rlB3-@;%pAA<
z`whDfWVmuC(_b|X{!t$sx?{pYSXk7BPuD3(HvL7ny66{LX`ge{p=y-fwHiI{^|h3j
zdAo!vn5+B5$*ZU|NYqMXf#7pvInJ+v3Mamn4;hH8s$>aq@h^B)o3We?bcB6cY{?o*
z$UR|Kv#)gG3mi1zAZd``aM4rS(~nO-FLk-r+}2hVkgvXH*A9p$hheu21h;6b8uYw}
zv0a<k;$~@?`(g`Lg9qZN7=IRt>hk~%E54NTUvo-IB7myizJ2>|soVG5S5D{RaV7%D
zK=F*u%oMdYXSCsnA{G>bJ<Yuwa1R&nC7V|@R@(pqX@y=xQsuoa0o#s(+21$J&tUB0
zjaREipLJ7x_1Uv$LPOX;u!V8^_EYgsncQZ+evQFKo7v-Jr!1VYB!EE2>JMQyMeviM
zFoL+cfEaH%q$|*J3r`<_DX&GPyLeB2T1vh?*SRb7;SRfsyR)+=J``Es`?JBNQzUIa
z*r${DtI0&HLRiLB7Nu1#3|++57dVXsOU$sy`3>%OLdJvvp<}6vo2mR3w$MvQ8tJI2
zd&e^5t2KX9TBf*DPh}^iU8lU+{L^FGg01!$<?l4-80$)?KboHEzM}6&mGG>+Dc*_n
zjQjxmNHGJq$WhAgrMGv~En02iFBE589*$L8dPP^gqCUwYb}U%w;T{$4{euDh)#NPF
zcm6u9pJZX5-z`ef8n(rT@&V<5>ohN;mk^77AT}FeccXUMy_rK~nORwWz`lql)0>$M
z+pnA9KEh&;ci{RQ>)+EgzWHlwEmlMM&2eC_0}sn2DC4cyQ*p{$SX&dp2Vw_@PEj1b
zVt|7dhZcr4+j*l^${jjbu8UKoK3)1UUfEfNeTk5pU|~K`Yk_--;J)nIWgz=GE{+98
z2rWQ6kd!b7gOacX;NqLAVgP{>GVzk7p2hsH>JF9^@h+47fCQ^8Y3>nFOPBWWkByDJ
z=m8fM677%h&B=X#zVbvb6XQ!3$}+*SFe$OSfk%GJ2Vej7ZNB9DL&KcAcb44*3vS4c
z$krdr>VI-x({|(hR<~t!J*G}^tM)z7Dnw7Ovno|v{p-NF{4kvw1)j6C&)FK9l%rzE
zZr?VKjea`ee0xXOHU91+ZR<(m>~r4xef}nE-Zs}EdHilXOIlu}X~Jf8jAprr<T4kd
z&#re|r__$vB-i;oXg%!Y$eydT#m;<XpYAHzJD225K|!ZQzI!sfS}%&TNGGp4b<l2l
z9?&r)t4j7Q*th!JceZq##^t@Q5JhQg$xB7^BT>meTe&=@&)!hzi<TpKrOPRZRkYFk
zlO}NO!qeDw;fR0+T*>ONOEZN8LQJ<b_=|}vk=eqRL@bGyOX$wh(7Jcyx%#4fzB?nz
zjrq;CWuD*KL<|Ze4Sg7%(H46C_=RhNS4ikCye$^?_OH<fz5<D#u+5b%Mgt=ZGzP-y
z2j*UnBSV1@xtXox;ZM$h;(WqUP-<3x;f^g3s!E8m?_IO8wVhZu2FQ6kwm<KyE|=5R
z&CSgf@YedhwkG7!jMbPz6J<<jYyD${HLc&asRq7mldmjJI&X1xtU8Z}gTIvTRe_7;
zm}dH*_tHqgWmltJ*GliCc+RLxBj)foa?w@jDlt&ki=LA6xW;+$Z*1^X->=T$q+^%H
zO%Hsw>;5hi;vma%!h7`z)4_TwS=pFSPKgqy9>%aQ<EDos23@{qurZvHZDpP(oBkvp
zFKE7+-rjxVdqZ?nlt*g34qIoxe6}#7$PQ`au*M2{cYR+2r8zBTb&u6|Y5LV9hkwhg
z|JFY3SJdz;%*uP5HL963+Y+?6+ZVT69653X>xEUGWbv-8ttkpO_)2pK9JYPnDPh$G
zq><RMV^cnV*SWzZhABuCkd8bDAZ-J1-@%HK1&ac9*NxX4G{?>TsIt-u_E%y$fCH`!
zO{R4CSwxmEJkW1M?~XI(1y=6Cmyw;Fy$ai3e8f-a90v``1A&$hvfsqQ27&>M@0PHr
ze)`^ojS_gf5GB)uoi_f%x1r~$aJ_efrG0&_uMvVci-#8+&MnBx5YrH(lSk1+dV!om
zQ2p;}^WD68lNfa1;ljcUkMzz7%(=QheCT9i+6Nx~lP6E^$=pnU2;u~?JS>l`u%EKb
z^78PAinc17WBSQB-teq=_V~u!5t97R`44^>hL<RvY;TBjGQHjGI^DASrBZw7;X+%L
z`9HPd=XXz(S!&V{i~jCQWWD2!e=%6IxRRXAAnw|zUrF)pK{Cb3I~pQM3094d7&#w&
zHfnlhGw(yXw8bLeMD3%PP|+-9S2l}mkv4TLeq|CSfnhoh$~J^ZUl!Z+`A~CR4z$~6
z+vLsfp6q<){%$L3kp%PPH^(m<K6-id%FSD<WEaSW_jZwP>E_laj~n`X(Jyma;E6IF
zVRbPwvi4wSXD$D0B)pTIeWFVC=+UDDf*J<PB7EG)%UWS5sMc>|WAg}&J|V*4WNU$O
zCc)9@$kC$&tRA1+Hbg>*?+UWPxW_%LRZ2i_xcKE29bQX6oST>lPQd^TQUsCtN2N=A
zB~bbZkNMp?JU<VNo<?A0oYS!-z3-ejw%Lz6nLn{$!^qAG#W8S@h?`$0_V=Ozplo&h
zL+s;FP*gno^r{K|ic?4zu4076x&g=BX;goRVQ)jBg^AEwK;$~A#R4=p(=!viY0u@N
z7}l0&nqW?x?knRZ8WSYp(LNmbV1`vb5ZLc`pT^TK=FGQBoqDyM+rCi!oxyjEnFGiy
z84qPiKil-LPcXhfE&5E!(2d=wSeH)J|HY^(H6NdE#J0Xqr{*~C)KM4ueVh8dd&x@t
zURYfH51rO?8a#dro!S?6pN<__58hL}zbib(i7IBuIYCn^Zt7OG*eT(L>9{RVk7_TZ
z-lIq=R9OAJ=fS3_aD&Re`6@EwLaKyq^O}l%pGfLTDP-EMMH*Q4i;rk!3W;)7lk_qk
zXRw#279~4%M#a*Re_xwlZZ02K)PVs3@)4?r6x<>>>xf|}?stsY3+!A$5Xgn9N-QnJ
z3wJ)1SKzYlPw%*U_g({1|LLhCH=Yd8(^AkH6DY_4T&%={F#00s)#Y=hcf!M8VVySq
zAsssWe<*wNa4g%lUHmpnq(l=kgb<l3l!THYB14Ff$WSO!WLA_Rp^(TtkI7KVSV?9f
z6-DMWAj(kax1Z1Reee3MZLPI!YrX%y)x&*X*Et-=J{=HVVr~+7ezuKnf@?=MN)@?`
zIdz|`R#*}YwhyLg<;Vv582-t5m-|dr==O!hSEt+l&g%MXXD~i4nf_67BXjG_-;d@I
z9)=N9jh7qq=N1)34TLK=3JsQ@UKn9aIKZ&`tV(R*c~|;MX1|98DNUvG^X=h|bq{tM
zZ%r*Jzro-8*OTsaVdHGUPbP-1_bq=jaRn&_hWQTP{rjnnU!5shBK9kF_(A3UoNA92
zb}`<#c3YNjnd!3)?S@0~N}AesCyphK*FU*?f25GF{f~?E=?aAhv>uzkq%yr&U&9%Y
zs>D&lS<e<OAp8-<J4vd8Q%dt1Bk?~#D=bXANx3++pr93I5O%)H&d}niqko=m!Bs#f
zv{&RFh&K*ut?`iii<O#+Jbz+!_4GUCi<kGX?ySn$WRi1f^F7w=kj&#f5kER_R8=iA
zj9wE7Q@F~rO*+oS{>xj|QEFzk2d!CK<3s~}r4QW-xRc?-vr}j~gZrE(^Tza!<b1Ph
z!PAjOu2)Lw5+|vxlO0#J-LA_IpV?H@^{M5^bg19iQ<n3TrZY=V)6e?5(QGo{IcKOV
zDMo#lYAMX@z#A$dn@UZcWodt<GUN+SD}yRfeIq2Cjje;m#^Y}gwX#%7W@gOPk}e3<
z2#tHYZU(Qc_t+qzbK=<ZO8Sy5ZNIbGDqpG!UT}ZzTgm95FY(C7R?Xp2$)D_S*Pi_R
zBvYUc$bebG5do`A2T&gl6Qdan(A*yXro%6UW3W!o<Eg5CNBj6}t$yU%X#V!=ox742
ztrhP`eE-z6!<~yJaszMG_Ki_T%Txy!4a>z1wyfH+d18dEYw%pqw990M*{+8k^krN9
z4+kALs^?Zb%d%Hgoh6z&pKgq%c(bE-glEkiGvA&5$=3Y;n2}%6;HDS`qg3g&7<D;K
z9;g-c%?6P+u(p<#%*<%ET~A`DHET#PG|%feE-{q8re1yF`KC3F3%6dpW2fvYdt)#E
zU`x1DjA(iOG@$RJ;a_ntsH1<Xr^zq_%a>!Y3jO8KHLr?iv5P#e7Kc^(kM<;+yfBe^
z^TzUu;lkbxdb{}yX-f5vF-p=O1y-mraegngm&L2VSnC|Gs#9X!9+ckA4r&!H9Vux`
z&KI`P%+U<{Gi-J&^WUvBJS3~eyCD28x9dg01mqO>^N{Q-5xNi+Oib>|KJR%-lPsux
zsgw?CU&WVr&?%AryF$>f&-U5$pYLlrcP-9mMFy?`x?2BXtSe7+9F8Znq5l9hdoSvi
z$qPp9yFB8XXAl@MKqYeb4a32#rJM7-TUSD<+*Vx_6XHwDUlW$c#L#~AiGjySug8@E
zopI{wSI(aF*nQrcY1RBlb8l})s$h2^i-Tx(x6k@btGU{Z%T>&&>?!reA60o57?Bi!
zi_?n&KzI}~RdUE+^H@1J<T~62JgoMt;FW2Myo_40LRr7Thi3L;Jsnnu@9i9IN#rg3
zqj0SBy}_Q8?`t<+WLEt6;vS@V00DA)!`L*skKDKs5xVA5=J{a@56@HXb-PL^p;i}n
z&I;3HiSfPMq?M+uO+UfrZoJ{B^@zJjp14l_*?DTG#3-X{)E+8BF$J|sbbCjSSnhd1
zrOr_5ccFGy?SqBZb&QI8|Fzxn)S{rcD{aGsr2c|jZ3GJOtcwhe44dQD4l&r8+V#AG
zp-OaKuh=l~VCPqZaHl8rw`+w}<3q2r-1L-BDO|BXpf>QxIce>z>!(YozN_{hnxrw=
zvgxV+g_}z^H^wqGBsC9gv{C6#u+v-BW<b@zD;W}~%PIGc<4O!eyR>B@<MlPq0>c7M
z#Kd$|UtL-VjW@8|FUfGD&F(9c7z0=60GI!#G}V8z0;n*`>-4E(kK>lm&Ax~dJi^G#
zEU;$}F&mO;04Rr|*_I~<YLdux3$Y;b8fpQJkPA1ZmmmCjQuj}Tmw#@Kdju@4dEMH1
z)Be|tiRYth>$q3$T|LmxE2LsRs-dl|(xuqeZI>DF)RF^Oa^<<cwA55N3}Hkt9O*{u
z&lyhe%J68}a5DZeT<M<-UAlEy&Mfh4{V@ykdruzc=&o5R`*d$#f-|qPOs8Mbxw>|q
z6@?u|^cgv;wr=f6rpnIywB|dbi*syP*R357woHrq=z}%d`Y*N5(2=FXgDa;2Y!{Pb
z3p{NYy3~&H5E^M>lY~0sI?^y*pirk!Q&WHLE!#mt-hg+GVYUKjj7=CJg|gw8T{(*O
zA=}1!L9^h;)JmH_O6Sj<2+X`P!TQ?6YgSOrw^~Cpsxmz^++XN>P)~9~SJv=iq^XrT
z@{~4+8P~#=5Za!sr((vX;4SLwyooVb#L}2U%VFGEA%}UTjZyWB15K`Qt&NTN-@JI*
zFZR6p*S}mq(D2&$NcTsY9Cm#h!n8vMs-M2PJ-M~TxSX<qVnM~DR_BgUy?p<iSPPU5
zJI%<bZt@k<4&Oxh+E%w;`LWwMM7`WoUSj6FPwDu?L@-n<M1P!;l0wEyLVBPNn+`Ot
z6hF+&!x4;Z)FW6O$|7S$p1#FjCwEeIz1d~*y==?skNk!4rY|4|DdhHi7FWf}ZfM!!
z$ZYrb=IX;6M6+}9R8UCV$<XGH#Dw`Ef6*wfJ8aVHXL?W6HXnrMr}|ZmyNeW)%I#Vu
zniF@#xj1J-61Q&JqHHGi?y&#&Bf7pjC1%fAQGf5fTH^Yn_b1n9h6MU3>E2y_$7;1|
z)7{AilUMxiXQo^TLuSd9Uk--xDc7LMMbjp@e}7d+LyWq>x4uV3>J6Br24Z3w=nM7t
z?XqxaMyd+{Y7y`I1+yjoV^{Fp{3U~@59#aQ#y^5I_HPG9i6WMgltD2@%IH-XMw0Xq
zNe40%5Qn~fJc`5f0Qm94R#zTC((;m7=;N0Gv#Z&gWjI@2)OV@|Zs15L?Y`($-apoo
zC`%od_EhkrP|xoX+D(*w`<{vw0W4;u8ryFj#4oR^e1-b+z5tKsOSc}$J_nt|@j17n
zAWiEq$E80?6_jm}N?m6pz1)ASmZW^A@boiE#=P3WSD-|ywhPn8Ldl$a+`oc4-Y!pq
z`-@Mb?CCkAqr(a&i%==hKDcsipFM00;v3+SNC7$@EMc19Ls41r*-KnH$H@F6eD5rQ
z8xTV1J-y_J)`vj}Dq~E!yQ^1&>>^+TK)Leto`Nz4PSxs`1lGt3I^*|Oc-ij&sRby=
zP-*c>xE1ZL6xjAb`ul1^+V@@n`a}}cICyg#jJ<nbJ#!F|=pYa=^CplO2oOs6?fdst
zOicW{cf*&GE9_{2Sx`#mdoY{f&Q5+d{!L$HV|LkZp(GhCCKMh$X?V`C&V5-lu4+f2
z%e>d))B-04&)zjT{xRX_pKS2j6db&kON{k>q*=rxL!u|@FHksgZS`jPlmk05A9l;H
z<1VN?cXoAa{MF3kKYG`(GE)^+ckQGT-B=_-UAJAk_^-5L1$TYU$$7ipzRi8PXX>l|
zcwPAY)1FvW&^vtY&RGxk>@-jsGMf{5$|JpR5i^Vih0x%tAk+IWgo#f;AU#`KLeFRE
zhZ>ofiB^<M%%p(8*bajSm=2nmj$km`qQ7Q;{UVd!ATuK46~7~@m3fmSZ^JSjEiEkA
zhk!G${%aZ0VCO4J{I{_Bx}u-N&n$Fs)ugLgnpq7FWfaR*>}T=!Z{OIhfWSE}0?4D>
zXnX7+BPDgLSFt4Zuz>-)d}Km`77RO9@_V*TE8tmocXunikFD@F|Fep=;)h6E-kqQ9
zhm$sGTU!ZG+?u*imG*ts^IpRrFf8{(D&m^4hud}*@!bkF=U=}57*+anmxp(sRXXo%
zE^pF7U?sC3)c7M|XTCk<?Q`x!4TGMDL2%$t_YQH^n8Zb%sU%yMto+|+EYpmPkB{AI
zdDs<K>3(c!j~T5Z!&YmtBN0hFZpltR;(^R{vga{wyWJ@FNaDulY1+2$t5dx=^abkg
z@->5p1SW?tjs>{+0L5G3C4`LF&uuRI^yE_Xfyjp?C1eaUp>ds^$#G6OfBrl?<SFPZ
zN2>mC5lut+xnpdnh(6MfiU!0`b*eZt-o)*&e)~~O7e9(fL6Sj>?vs9GRX<)PeX^V_
zc07)VVMLlj)j(#WBJMI3P(3({t9S2iA_=6>R3C&#;C;3CKJ<+tu7hJ^ne0y8Pys;X
z_s~6i<QkCPzkde)etuuF{r+Azexy;sPe39~cQ~<CRaP2Tx=W$YVv2k|Fpva)4oS7F
zH^$LDgjeqFF`97I8;xwK!y6`UZf?~+;KI0nnejnX@YumlU>wpRfZ4DPVdzYe(MT((
zj$xeS2==3LIhKXr1-L3LE9?4ybUmu;jw2m<jUU8pSacM^(m@?gqBhBV3e4Pq(ZA|h
zCP<Dam%cZFW(|e#W5@A)GN@Uz!3BFF6T>I5hRJUtmiEIe9^dQ1{YfK3f{entcySkg
zpf#+-pvR0}TZl$KgbRkSH$R{YZHf_ZM)AmD^{x-eS~8d|40z``n*1Ey6l#dHNgx-v
zEYa43%5AV0cYwj+-~0#vMWxU3J!n&kG0qTx%?q&jOuNP~$m;IC%T6(Kcyp;)u{C+G
z19}D4S~p}#7eSBaxqjY7W>kpslI`>f!Lp%uk)57PMM?H+z4aN=XTGwzaf_TOvvA%1
zjsNm9gR`bSV}{S3UT*UE1d`39(4Nqm*6C*Fo7uZ$o=1v{i5;@*-1nh^#$iHtF2(Ep
zoNL5L*AICS?lm@YXL3@-emw>MrK~(7s?N6R9ebMgM6K0`O;(rR%&WYu%VB1Bb5@@d
zS9GPNrV8YJRvE4##3!Vhqiw1~vu*XsPQ9++HJ-CqH>^ko-DtQ#IiwK2ZTh0Hjp!zk
zU%Pj`RaUdO{o*nEP}=S2o{7z8Q=Icp@_IgU?0X5OT+Vkz0VjKXUtc_s&Mt)efy7jg
zleWR=!__zv46jv^fKpIdWcD_WYBdNNeODH@<KXh0TG@MfvIWX7kfh0g?m?oh<>uB#
z$j2QgpA0<_fH}4}hfo*-1>0P`^7||XqfNZY+X%1rC)82MS;ry2fr52|Nl|oUq5!GP
zalJ`mN`m6wC0Aw^7OZI&&=`b^BFo!n`8W0bns4Dn2nZn=oZa09^vs)*FPd*bV0vbz
z5V>VRs)AU9Wpgtk@`+jms{=qcq$O~ouVLXF<67{9H=O)}jB@<I!O6)s+*`+tjEKM7
z&cT5{Qk_IkV|gR~`ReD-c3>oK0$n7{4`wq!3#bo5`<%171iXxhhL8i}3w}rK$dO5j
zCqBzp@F*K_blblz<OXsNH0VSQiOey1a#4iLWCM3c&Sa2ar_ap2oIN}AA{dfQdQ^94
zN)F@kJ-$4(_1?XEn526QS1O_^!w`{9W(OncG#wBo89?g?tck>2L$;@i8x`zw^PXLT
z^76!O$_AhSf6dO%_0Oln1>?k1^hq4UrEB4b46#0k^H6E!B)-H+xb@zlmjeJz!z(0o
z*#3_eYuuyp?x$p=9K_cmF^GjPE-T9bU`BwtcM|*H79ykQkcz6JU-Hw)Y26)W#WIgy
z4OIsoyJ(oN(oj2j{Z~PcetmwE=ap!!biK_R=NV>yzSLKZk4{@xP@Nl6cuK0lsPdrl
zm|<pvrH{L8<q|dw+)u>ZMq)YL*K%OoJ)R#Rp`_^mkI-%djMdA3rp(5QNV{`+OSi^n
zxrVxu6V`O^pbDQ)a`Ug5uPd>2p&BdMSzj{HP#dc>_QqVolE#vW{ia0)^rCB-#GZZF
zyBHSAa5cI&;cIlpo8&Jq)V9wyT;5pneS4%*EzdmkU!rA?xQuT${VH%jFCTDw-;_u}
zUSD0}mHS+)t&5;K!TmsA+t?Tkl65OmoDrpw@mP5`E=neCd-$<1ekd7ZqVdimku-ys
zh?sw#{-+0k<P$*whD2)NHDRi%jD^<^)tJ>Z_=}9J9(a!l-b=zcAQd1{)>vm4_V_-i
zRSWU~a1j(qJQw8dg`z-(n2p{NM=j5{!6>8SMdlCyvp_kGxpsQ?_aOpC?D2EBY_SA}
z#>dt0`v5GHF+&TBi$uMdl*EII?2zd`+sN;@9`5YO;_BvPV<VH_IOJs#5)#<I!jriO
z%$p(y6Tsx;B=9E$Z-ag{L?!(E`SWdk-ZpJ?uCA^bvsE}qF~6W_T9-Q8)aZS1S6`p$
zVA%|e6=cjEarvU6;OHYJx8nsPMjP?}(g4jPeIk~8Q{<&U2f^NlJf%kjRV6|5#8US7
zu^h_1=eXdC7zc8Vi}^8V_t--itP;^z3P(NN!pXU#0E9Ic*z2~r1v&s^R&-d^FQM9n
zLWbkL53+(@cXy9~*(T06JZ4<7X$yaYWGgKDTRCR;fD?bea=`w-MOt(L2@C9FZ!)Hj
zh}Be@6)R-D<}z!FX**Qe7;Mkg$Np+K-g#!o@T^|=8SjK+Z-wP^=x1e$m|V9)@)U#1
zyx8H5XvQV%UAzu$NG5<-il0~ZyA_zstA2$3Df7wpa@Oq8+2M%Beu0tY7W!@j-I(7e
znVFLZHckx`N-nZ2(0gzQ(R^YU3D8<4$BklA$6xjCm)3LVv+Z-bGYhu!^wb)}n|F=K
zW)HHSzH^8pj=57Web?9Fu;}6V_=5*sJ+d`2dTs9XDuevgl}?hgwQ_XSMwEJ?H$r|k
zLj?yBM=C0B+~`tJw-BK&j+y?a?TBt7K}clY^`)u)R!F>%Zr=RxBZ8P}(an+!5JZT8
zWyBdV<7H;k+;n!j0@2oGRa0`a&DaJIdGSe01G||NuG}sC<L6Inoc4YSQ)D#aw9pF@
z;);bQW&J9`Y@ST{W)Gp2#B6V(Wbj!W-3TUG12u6Dd~{YMOL!KzJuHX#IR-Z*!M<R|
zh79xw6IXA^Ald<pD^i9dzg}|o-2hSuhmno^ytC&L1mk2rveQ6JEUh~7NuV`DSoX>%
ze4P+c`M9n7;M#*=d$H;gxfh@qaUFWG>Y`i8@yw1lZ^R?MB0dRWs*<~QrQ;ri^A!p7
z5rWDWPraB=I^dg#>xGM(`*lyx%jV`#h*I@67W&H0ZbYMKcuf}pMo~wMy*3RmH{2Gw
z{ddySXg>4mX$B6{=mX~abv||c<~(%0*>|6S1KYhhm(-x^+QmV!vGf>#<-%e*kEaFB
zsva>?V{MMYf4EB5D|fNyGfhjl$iT*U6$;?xi=E3NH>iTPZ9GNULR~{m=NTrxmXYZ;
zb*SX;m%Z{qjP`c9r%meC#%To&gzs~fR<hyu-)H;$;qs53-QA*Wu|1cQT+{{F()H}u
zm^Pb~+O5OsaRzsd-;$82g+&q;!9#3eT*<EAr-p`9u*XR<3%*(gmbFRlB+2T5V1xt<
zZ`pJ1MoJ1FF0WyT?K~6<TU-~N`uZAjGBbm;=H{+P)?B-Y0mB4=fkJaD{K9BTDz5y>
z?Og9JAt3=Y;T4Wg93lGd9`5e$(+Cd%r}+YRbANny8wRwk3yN&SB<%%^fRKmg`#LKR
zNr@((fK0y{8VZPu+l+*E+`J{{2UW-nO%SddCCmlTkKogKPZyurZf&jRGxn|zIbdOE
zV;`WcM`{7WB5WZb1aCUh7>=4_7D^3B_}-sucQi1#qvsyQds%vTd51wZMOQeu>?!0v
zsIt$yxv3f%#iAfCfz})62}g9tnYM&rtZQfiv!MNkOlk(5X)&Ns>M0A*=HeRm8U&Uz
zh*Ai?bnt6XSmEy9`>QmCbg0u7=Evg&w!f+uaP($D!>PO|D#+WDMvEeYoz>`JTJ|&3
zBilMJKEAxsOxovo^E~x0YHOZ%v4eD755+cle>i%{L@w|{->B5gwWl)v6WPgZp-Q~3
zqOE>#MrStO2-VcvU`erF%X2?$*Y}Scxd$Ob%Ndb=wZ06Rlce01?VqNYHp@$)oWio(
zw98Jn{3{A4ZD2a2UBLlQ5_X_k$#6vA`oniI7GmP!9IG6ZC%rGAIa9dF7p?hYZY~pT
z04cUm<3PwAo1x{5AJEa+IfNingOPny9-G=jH%k07G5nl}?1zsZk&55aIf=k}NO|S2
z{1isTqdx-Su>eUMLrV~kLi{x-Q#@LYqesUOUz7?_1Tv6qpBA-nNjfJv17<*XzgjTp
z4+^J{`PZ*s19H|mc4^_~MAtvr=@4xZ)3utK+T=&iVb!sbk!yv8lb+uf#^RkxQ-mG>
z!SV;1e*=*dWn*34uY*7t^hH;uc1VzW24?tK^n<hSZIk}VF-GJCDVba!ppXSvc^!%5
zB+Lk$;!AYNS~#deha~B!mHA*#x$Ajp=cBX{*`ZOErjnM^o3}V*e7&R&p6TQGsy}Z}
z>N84a_F#ySo*JWM1sagEJw+DnSbNch95&LMaSsmT3yVIqp31n{aI21&_9vV2^R-Rh
zF@K9;w(>nZnzB=L=aG{M>C`e59jG+7xhS96gRB8YP5$~B-<-mn!|ge48X@gp>{HHW
z2R}K}7|hpJ+318C1UDOUw>xw6w__+VnM1`fs15~f3hrAImpdab5E+F&(l$n~B#w+g
z0<}q)XvB6cVB+j!q=~0$>SQ{SF|Md&>OXu?I1+xVlE|J(L5uqoM>Rj#JOk@*e|5<v
zjcb=(#}!_TMLfv~(3*ItMmI#EAtHf(C>dWrzHmCwF9ZMUUa2<zhH6Gw^pL-Tf<2BQ
zl-4w$0TUIyn?R69YZ`lAxgw3h2MA$I%T^(t5)kSs)90GPp)g6#%WH;`PuQYbVej6(
zn>abapm5<TJB(Jv4rMm1?kKbG;ce~F8ON|z4>TS65L80w7!K+0v)MXSZaBYh<G-_X
zaA*RV?6I;`!LN~rjsV9HnFtB|iF{u3O7}W^F^t!G(CJeRTLOvMz<0x$bi9d^gi0OT
ztWl4U!O^Q9UgPdd$aofmnTYStv3_Xtzs^AEc++8{J-d6;+3~-ZO*zuDG=KbE-ubA#
z(!=ibl!J1f|C^3Zjz^a&NNhe4j6xlP?-0Uo`w_Vt_)PLp0GP~t_Rhr+(My{}zMOk<
z^)OYF1`p%ai<`S812lsIPg`h=D|WDYWNf22TZ&Hyb5$$pii+&{^}Iuip_wVj#GF2J
z@6?nTVt9)KP>mo3C2yK-dT#Cv2x>A>g-qx}yb75Qg@bUmZWwA&lJ^jFcy6OO7?KQZ
z&YzPX<FS5-?-1z%g{7@nI@uU$42G_*vs3zrVPYle(a?G+K}Gaqdb;-YYpJ(09aAn-
z{r`-TL)(3a?Jb0{L6GncegCfQG86yhINWb9>gz>j>a2$b2N96{f#Lg8^vMW94n@)n
zwTp8)aDdJlUtcH`Nuvm4LSOUzH~iZxSDtkGAXKWPv???xh#u$eC^<FA0PMNArQ#Og
zG9(QRb@VozQd#)kMB-9aUek<5f>c3}y$LBOB;X<MP~d@+NEr<b1cx{IZ)s;L-6qaT
z5)MUbC75^c_4hR-93bj*6py9O1BqBSl=F~&lYpAhr^M>1>z=@}zqzT|+3CT?Jtj9w
za!Q!QoA#|L7WroCW~kwp^RXv<?z!1D$}AO;x#I&%dCXWty;5<0kQ(#zYN1O873KQ9
zcXv~)M3IAxVYn9k;ELt+7J*(%eZR_id%brO5?eIivgyV=$&RFor(DKauxgs&0Ub%N
z5#$d3Ml)m|6&1yvacw|5Omr>#c3@FpT#g_6r5<sB43a^>6{gSK%hhg_ssH8OjcM2f
z*2h<z>7GK#PbQc7`T6lb6!S$V4hsVyC#`Bt1D=10b>E+c=V<F28uk_?zSy5KRagB&
zp!rBM>xIqFvQMNLoHOiqU&q#v@=Nx{t(XH^$KD#GdHfZXdn>+Za&)zH5!1~6MJYY5
z8cv<0XK$Qqh1Z<BqMR`(@ATW;Yn!Dx?_K-4HhSFvuJ5bw$JVa3bbk48`vdL=hSAFP
zFB*P7<<k|<UHG_gqb8A-XB!0D4Q*{Zb%LGfnsAGM8X9_rOU2MpGdL43AC4S?IzxOL
zpVy#oX~|3MdI%5$;H4Q^i4nnGCj`=kBzrHHs`&j7o~l!yj}$Ezb^cKEGhu)8&K<Oy
zyw^KE(ats$1*bkSJb4O`x&Cz~Z>BxR&kz!o=Mlw~>pTQVcGO3xcoco84)ZSD#Rp5p
z2NMz!f<<2ZNUC++^|XwPdL*_eK5pvFYC^>#2SGKwyJ2V%fJ|FDIpKD5BYCn|bg6I%
zLBv452!vzgM1$aK3_?fGziS8=8K@<6dTb)@!>yRr<#UJU#2lV5?$(%CsEX3CN%*tx
zM%sY^esRN<<h1;&>-J~$q=em{W@=>BNmMx1k*tiBwpCnQ{Ahw4RV{90T=;8IBzd(n
z@*L1m8})VLyn38!M&ZDX>zq=_JN?6X>{a>&EV(+E80kc5#{GhCaP9>q%@=S5>zkJW
zh)N6Y>LVDOLSmS}I)V0d0dpb1whCY+u5vOs9)kGrs;a77?G22yqE=n4+FagZHEG>%
zyKTuK=nx&=!Yra;&o#jID(!1zNVzCW0fb4K!J>(}_uPMeUdOU!7qJ(TY(T?w)F2}e
zelDR3#9(uyz~i|w4OEuX)ah*5zYXhNHvJ5+cc9upC+vJuuY%5N&4*XUEA+-|*m<uP
zEAi^`4aFM5e%*htK7<1&Dih?j{D5^argS|IPdo5EVyFg!zL7diX?m3_9D+UOCV9r@
zA1+FTzYG^G{ro)GBl4BS5eck{VA?J7*@tFV3<D|p6mo~ab3hnI5c!qy0k}Bl7Mr-s
zJ?EVi|9q3d_9X^fCnqP857@i_OUkqN?>7T)b?C`&#PP>;Q9)IC`qJXSq3x2QO6<;N
zq6-SKHGki+%{2MBDLG<W3r@36Z~Nzpml=9Xz6H{$c#~)wXk|u6*sWhV2dF*1S=-g4
zUv}7=S7+*QiRTa1R22)F<cvJ!hREF)&YDmKA4;|QswoRh$rhv5V9-C~xf8g)JK)yD
zhLecy0)|E|1e||eP(+aWfC$U_NQn)xSqFF=O!3fys9*w|A0Xo$9a0=ZKj!^CT_Woq
zQaB<h;nxmEv2*>Z%eZLh-yVHFdA}r+I(;wyMytI!ox(T{g>Re}_&0<iz-w(1Tf5x=
z#sI#g>UgMfr25kGiTdN-oBl5DAMNIukJK0)iqtUKznA%PeR{rowfQD;{$M`P@NaaR
za6Zf^OhPVE{NRDE7@m3p?u3W9ElCBA_kczMZ$z;r=>QJ}y#?x?I(!r48|n75W->DN
zivHz1M&B#j_*YKveY|dZ;T{*A!dw2!wY<D+9aJ$?+x%{gOw$JFZ2eC}LWEknw1_@U
z=8WVRA0=8#v^cpjfGz2U?0%4>&X?sYW)oHXa&$i?Y}Nn5NR_!3XxJ!*BFGmWz{q<v
zO--|p|I4Vpo|Cf~J%h)>G#?t_G_(nteJEGS>`h3|W-HsD2@OhB?%n2_q=#vUGY5L=
zg&DP}z1{4Nm7o8nFSzQ}Y}LiXJ8K_P$NEJw{&Um_zc*s~H&uXEFoNZ+?5Ft`tdxV|
z2YcKLlr8ivGWJy60<ybe;(F6`dy+`+2UEl3=Zr?BZh@{BPjwcU$^vyl60|IbW85hX
z67PY1+{S-rBo@Uj(i+k9jzDWgK{~UleLPqy+$PVkQJ8F!==ertmFOeKbc;{@yYFmS
zo_wL(qn%+!<v_(L9n(Ow(eI0Bi8?wTj-ieJjAF-%WnH+o@L=Wl6-u{&gV@>fFebW2
zu@lUP6mO1q+>%AFLalW2AWM;isD6cV8=p+Tk_;xNt>KbWf``@~cq_EGs03vkdv^gn
z@<aR-cB{m+52*Ba6|UPsAy9bt?%hH`XjaB|T%=UU^K811KQdx1s1pbC7X`>96auZc
zPsa7t^ht<tCGvDp1Qg1zo;jK`a>0%+CHTCersDDI(u+K5Z_;V<y1VZdWFF2vq#_>|
zraduH`bxdrOp`TF{gu5rV*gWkXGLpVkKK?A;3B!_=pk{yAAXZ5`~x)+=7u#vnZZ=W
ze-k|+c0O?HC+ZCmpp5}<VKnoI=YgqV?<5O2gtJjjrI^t&;cU-R`CoPM^Xo6}h5^<2
zc1*$=zr^AV--9YFN2k}>NQs{U#&H292iAQf3fmwpp<&#7xH=@g7S7`)#|ZJG{&PQm
zPUz#ZzX`@2O_}I}Rx<GbMT<!<nw^kD^A(jhK&moJ^S=&<lz00J>#K`%K97^}S=_Sm
zQ~FUi>)z-GI^Jz=1FmN6^Xj?7f#GY;I=mUm%n+oos2tqv^L<NWPR^aMZ~FyrUmlNE
z(%l5FprC-j$XN@XGREQm7;^_0<{Kx*+;KjNoqTc!HipwEC*bNdE<d*!vpwI3|CbdU
z)<{TpEl<y8o-s!bJ!)N$II|GqvTk6TaaB;&hAW9c<Y>1PFbEC>AK;e>a9@bvtV6{F
zp6UT2GXg`!YSG|j!+1>w6++$`GKZR78ixRSoxs9Er}95Y*x*a@o->KOL)%|s%L+U_
zWHd_j5C=UOWeO^R%op0k8M^uc4lQ?{|Dk$UHQM**lDpCT@q%L&ytkVkUzEGM`p>|%
z<U7SOP!1X~Yn2(=z0dLoB9AaE5+YjZ{(~AAOh$%Hia{c#QE{MZB|%&@E5BFo-t7_O
zuXQUHbRR$q_CDJyuK-w$%8e1}3#RRYRNb=yb_*n3-i(YqmiX<6w)QCAGO1rKoQ!5$
z6<hOGi5_eCi5s(BZ@zcp%T@sqZlCIGstL(=ZxVi=S>#lU{uZNtH@mQHM=-5-T$tg+
z1oMN^L!G(Nx!OC5t!0ZK57&$Eh@OzTYZP+wnup825dEi<uS*}vlpDIP@Cj>>z6qyo
z32;opi{W?$cfX0uAjM0lm@6wTK7|>H-~$X{Wb505a|4-vA`V@lcOZblNMRMcGVs$`
zC~MG{xkB1Qcv8|gLnedaTUHp2Ow0>A8NIx{ad_4vui9P<5E1Bzh&0M=<c9-_S^(f1
zI&#<Lsodf_BDe+vI0Ea84cy|nd$J57kd=>REC(!sq((q>fnbpJ+}y4B<o2&q1EW5P
zu4Po*+L<w-wO2kkLT=IdGDnGMi=)D$7cnkJwU0K~n(`_enF|y2zy52esGVK(%*f`9
zwav^r*PrnM=EM&NVe}l`arD-7>#+bLE+#W1OCd96KuLvV=*neeYRc*OJ%0!(3umgG
z-3KN)A8xeHS$kT{*RZHCJoC)T*wAbB8#>or_I5l7qyHi}J0NLl6&ZWKKc?7>b-|Fo
zPGdODXODR{yY*2fTKUK%kLUpp<NRO`paSD_bnCbiYb(5!UrAeWhpt9t1zf8h{zOC}
zKW}OZ!BAG=9@{I&FMjXkz-4c&h!K*o7=>-w&4ex*@8KCZPV^SfJm=*tYbkgKsomvZ
z*9be-9fQY*38)v&pH~8|h2|Gcz?S;o_?ZvzN>^6?IHRV6;}vRxe>E-yjVA>jGIPK5
z6f}da1w6n{y1&|5KfGxKbHuNff^|ZypBoO}y1u?Y%iE=|f+vK-4w1?m$v|_6vk}Go
z8UP4UP@|7rqeLhPV5)3p1dfujqJ=31Ij%d(JUu){AGf3VOerYPhJ1wG5r_{+GFBv~
z5YMiQ3+5jHypaS)Twjj9Oc{3JN*6snJpg>;3qOWU+6d}QM&yEB4{=RwgpChKG7+-?
z5(AQx=H5ih8?EV@U>gS{{55Kzf4#sXKz9sIV33$KdQOghRWy1nY?mLyhlejt_(Ih2
zc;>qsT<4+g!GMndr1zy3z@UcGNv1(DKo%_Xr@=vg=v#<y7>;9IuQ8A^WDEi5_PlqR
zD2@#BpFRoiYClS2nd<n=q3F$L2kXDJN^f3NYmF4y#11e@ve~^W;}>T*zMfi33MSYF
zlr$th`{>c5pocd2flUV_pEbg_l#-s2@jA~)f|#U$h&*Kciv(}EefvsKjb_Y2)IpLp
zQAp4DD$()&;<&c5&G+wP>bv)p<GhZ`L{%Ba{FdR=jHbA5IDc?wZ8nvRAEj0!aL+2}
z(Xwj!TfW}4Hox{_^tWc14%Mf+Xh#064ODA?$c5K-rA&Q~PZXl#9aH5mI?ZH$+!;6)
z06SMiJz_{=6DcNtSfJUU9pTp?Zr%z+X)AclT*EsBV&)ED!}lNBxMtv2F_ZvM6(Dnk
z@@joHB3ZkDSY>=q{|{qKayMXu!?8ey#8K6PD8kswjo_mNp@M;C2!^Tj&j&o`&XG}e
z*rpvF9iK=nA;F(9(gQE&2lNQ&0}VgT&X-r=B7&o{IvEY)d#BqXC-Aum_lfg}<0}>-
zrmfKd8$Vupz-s|kw+J&;64gMc*Nk%LZP}0<42H4-o;f0sxO4vJ^t3LUFQ^Jqp_ZOR
zY&n*6hHG3SP!-b80XfxAaP>pWPu>OUs+TxcU;!ddbX<2kevj>G?=OD}KMI*`3j+Ez
zbcJ}I1;);ZRYh${hKk~1IrrglB;a_F9v%hv2y~Ssi@ngiDg;Czh`#2zN=#BEH{y9n
z3c-z}*cBlzAJBsEI>8-B_7dj_nkiC{0J;(le)Z+c7lf=7yizDdci|w<=5<Y5R+cJx
z=P}#B2Bve&nwf7+KQ9|CRV=VcB)z0b&Ph9ZeXy|G;k1!e)g{HlfW?&2#6tX{C}B}O
zf(L@^1L_&+E`n#mjboA6zzs+lMs-X098l1^On#8B-!c2h3;GNa`T!!36Xy$2y};i{
z@_SeR+BEyDt48S_t$oZ|8+yZB6`!o(R%7?ItneQ7d|B>`rB#VsEq>EaP06E{=PoOw
z?;8J4U1_yG&X0~N4iD9RGJEvncPf)1r>W~DorqLzet*9Mlec5|Tg#^WRBuX3z8U=1
z&v4h|tA3Gwo6{Yhfd4&-d!B=kxFKnd|IZ}uhPQ%*#I?5jKasea<u)Wg2B!~AEoz(z
z&@0HW*ySXqvjNFAmKh&*(2b(vB`G?MZ#a^1u70TU+!*0$vIJ8J1(di*ViWcPLg=r-
zI))WN$X$Y`jgMc)u8)dsehQPYT<GWZY-|De7dW4(belMaCng&4>pYNufJ7y-nP6Ne
z2QKb)Xd2L3%l2J!MgBr|ULMQ?*%#YTvTEYxl1L5?M>tJ4u5EElwCVgW+c9OVJ*gdf
z8AzD!TYZ3jNVvQVB{4DrN%si6oC^71aKj(FCkx`G#f6J#E-+xS4)}ZMeV~rW(<C$W
zzJ2@l@Fz#*DKtl3%fH?d7$1^&>E_?iRDem@$zhD)+#yj<k6n&)``vmlEZA+kUi)6p
zI@32F_WlY3BhRND8~Wm9%#%`{$&fg=#+~<<rKC^4WJZD?4i^OuQG;Y0x|&}PpeYw@
z?`9pvL!i7Ddehz_L$YHqvXT%3z(q3QLLvJih-I}g>)xbvM9GDHUQTxLqs=|uSazh)
z`bu4?FwNnNLv?m*6kfSYP~}pz4Q#^!GDy*FIF&0~QkQaO@<Ji~nO=oeVf>ReQK{NO
zS4-JNT7S!(9=+?Tr+e~XMW6Na!sw0;QTLyB^78UJAHvK6$8N<O+1r4=3HSy$98SWQ
zfZ{ge%>XvIGNp*<gF~p}7Z6JSuF6vuoTMPCkLF8cm<pH-VhBbuEABn0r<!LkM2qj3
zpSpPA!Z8QWfeRbxain0v5=mm-k+|Sz#%zKb7#3@=u!L=azX?dKC3<|n5BrEL;Qh;O
zwozy(GVayN4tO2Jdm*M_6w;Z9T3~9A!7)qpx0ttzBnK2+U6_^@=r@MIv8*iH#PA<b
z%Rtg9^VU((I<d-Asv8sNaZF_z_k$wE=_iPo*@XpnH1v1ahH*391kf<z&;YL!iL}6)
zYud9$L1zA_kBq0U=Cz=pGdo;t$b3xDc2Xw<uoUinPPaS!CtOHMd&RS-!pc^$Xr>~h
zph@$}lRI5cd8U&F^i@q4MKen`>(Ov8>$$}Kj=X?y0~8uZfwMj2m;?kf`|JF-?`tPN
z0L~|za@*{Js`BT7h?On7^7&e5LBo43F5Ubky?IF{_1lv>TDGNP0@U;UCt|3K46Q-5
z32$aMe$ye_^YUT9sX_^EZ*5{D+PPePlXfzJ<@vK7-iGQgTU^%P6nA?qyVG6h@8$iv
zsHF7lC;R2lhowS6qm>}H4ssj9C4rVEq1haKq7{SxE8$xH9!)NpVgY>z7u3%LF-Gti
zUNy+~xXG7O<yGDZ=$}knW=1mFDl#$zfj}}9#cDxGPsWg=n>TQ9#vz7x1$uG_Y9~na
zC}3d(LDJ(2Ad(PVO|Bn{z=-Hga*#Ss#N`nld?&6cA+5W~a+6xl@mh8Dm_m)N8Z=5H
zu0Qs2FJXB>7N7W~mXb&Es5;TDrvU*YQ$rwamqrhtu{h0liBNk8^-wkLdkTjfRbag2
z^l5NN30T6Tk5>p{5;TS~qf_lahMvDQMW@WKny}bLKaNODUoe;}swxzyeY{6PC(HRP
z6V>5BOnK7F(aYd^o0pRVA;O*E-?svP3b@}xK3*G3gwkjeZ{s-kD}PD#SY?)N=cT>=
z&I$U9!_}hI?f*pdp(=F1%prnOMZ2^Qn;AsS$gcHch6pY)lfyZn{{tyQo4!-INcgvO
z`o?AFHLvgUwsRSTC<20)hGgZd4^R36Ji``v0e9Mk%a^k-8Xj@=B8~uiqwC9;tnBS`
z1b8#DvM>p(m36WxGxIPK3y6nw6$^{^)Erna1oByEFjFlqI>A~%l4`IqE5@!;LD!7&
z?vj1O#EytIaR;8`@sN_Xmes>J*-^*hHSapx69&6K#JBm3@0-HEwN>Qhovk*zF)&J$
zWHB(LGS%YkJU|*R?pw5z44CYT{E7tIeGp_f;C^1j8DfmFJTbojqLCo}5U#xe3FwyS
zAZKmtIg8U#ji@)#)#cX0j-|_<Us)M7J2*}y`Bus{`mJc`n<K|f#$!`{d^2|mw!J*c
zy1lzw(B0c4FtaM*n7%|$@9KcdnBLpu!actSU{?mFKGfSqI=K6&-|RL@KF#t-`e(DK
z;jHZOd+c+zW-gb+1<fUMYCFT`-%wnWIUX1q(qlcaDHnIE=z~5O?|vdsZ~LpXV|VwV
zlO-c&!qCp{aLKVdd-k-0gC+!3a0D}w0_@tho0uMrM%#P(_7uS`aZM4m?8zzUSwXWd
zqLoCa^9eW5Ajlsm|AgPqL9XJ0*0iOyHCmHxEE?NT22vDE2T})IYyx}~@2;t96PZ^<
zu1FBX(3q3_S42@(To|UuDsF|Oc62mDUCb1jNUBe<xj;4;2~4-%#6d0zksU1eQoDE4
zS%MlRb13i{Zo}J%`<mT~{?)-0L>Pv~#B3mXrc!NayFihp7A3jnLn^T!VG8L0HOZGf
zb*c_;lVo=T$Yti-qcu3#g{E8~cr(yDNN4ww<ZSpy(dyBuy2r!i%E!k?E@J#V7Yx&x
zoBWv9?F(kF)b4cv&e~2CmpFn+06gyH<GqDA_=$HCyC24l6a$X0_;saDAAetUT)9I$
zS*RjXprnFaW@GT7XXr8HAooLZgc5Ly9QG<4idElOd)p=aYbePnnRTK?hQ<@I`OL|;
zoDR91n-$l)J;KU#k!82NY&YFkO`+V~S`;M!2=7bn*Tco+7!z^`@g%nR6O&v6pNr`^
z>z<hU+;r}sAG)e+%E|R@R`x@Vx_caT=Dm*6J95*Ll&v&2{zsG=^Rq~C5O1Y_fVuVJ
zLl#+S$u}Op<5t#qeMm24#%F`>fa?E_=6v!Nz4Am)0Vn#}Ow`|~LiCOe$rB)47py24
z=&LwhLCdtwUs!`_K~yyK9Uvt!&<5e<UPT+5o)S$fo<C9dL&BPkx_jr&oy7msU*$>i
zN;AGgn|&iRGz~X^=6D^nY0$N)ihTWW{=$V6NH#SGcjK4_sKSA}0jW|!I4$(v+rXrZ
zm5i(Xd2KBvB2*Hgo>Q$1G6>B=TTX;h{MH!e76**hW%;)o7ML0?^F^rVT$j$d64Vdt
zfQa3Z*58H|e-!f@C?19dsNIOT8aggHRDv<N^cbD~4aRkJWDJP0xhLzKc>4WMm@ddL
zCel)2DN!&y&T63Ad#ZKEwg~+kJwYUbq0J(T8@3$;-M7Kx1$R9dLIym1!*~&BlV1JL
zKDx(wZONA-8m-L~*;>F9vQviz7Epn-f;)AU6;>$R-JhVn#rlIZgk*d{xY!Be9{@${
zXi8&4P>-Xj9>1WSNo`43<%_nq<ivKh+PGC7`=YP1{ao6k*6FXhd8&brb`y-#^#9F=
z5>^QXxk*$i6K#DfR0|~C87E*1n~>1Lc_PKYJK~7mpt)Lb@Xu!)1RtusIf36H5<}&I
zc;kPl&@jD#aaKO)i_pQo#s`~c%Al^huE#cR2&04dnxBIn&s-^2<mN3eJ%2A+{)Ht+
zWMaXorgiy<Gh3BW?#ZArn%vZ!j6#)W%{6p!Ms$mbE#cVZ1i-+lll^M-c8H9Tj)M~|
z%gd*vYr}dvc^(ms9NM2pmG>X!X&8JU%bc2)VylyVe0h0!Ku~yV^%L4JZ17@>X&$$>
zEMKDfNv{>@`TR~4`yRo2Q43G`gqO32E~gnki^TlAbbM$K;7K^PR<&QHPKIB4I%M6*
zO<ZTz@s`9PW3Jbwzj;d5oUit=$rGtE^Tt(DVYiMBb^QM8zHTOy$#l6byxYmvXef$q
z^$6&s862vF-+;mcskKlItwQFJVf^utL%%h2Z@pG~ZX9&jd(~@GrIXw)jfM$3;>;zr
z#Wk-}w$W5KyB}a8lr^;t31g4;`gx(dzShXXJHuhUCYdxwdVszcACgp3RsBDmw*LRS
z;(nS1$2{rryu!f>?W0`j-~qPNqZ~8;al~c_NWI)19vS)C)3x7QOF&Jf!=b`9CWz|8
zADw=4q?e5zR0>Ait&3x6x4_7LS~CV_>?!am(|c5|!Alvy$_p2V;E@=3;|{>Zk@)oz
zEV&ndysfHv=XQA`<(|Vm60eY9-ndqdlzW#OxK#x;wyoyw^&JkWxal7vzTS%w{kA1S
z3JF?Gff$JlKSF_Ic+TYY1y@n^+avuZ8mHF&-JvV^*D&(GDKx>qyG24+Hb0OYUY4zG
zn3_keI}<{zwEmxHHpx11p-WH0Awle7$L=4&%W^7IH9K9mNEb31$8u)KY9du7bVR)?
zBjG*gi(kV!?2dcdgi05m&_AIUe11?ZLI%eMX|PCUdFWfhs7?&j9Dw>o=F1lzi=9a?
zY@Nl`1?^M=4pB$npH+-8p!c=ClQC(vjVCL8m?43#G;;e02OiJm|F+E%Z8KO5GFvTo
z56UWbwsou4h5h0@a&H%lUwfX{QKPIv(Q>9J^DLKhUE(U#Y3z=>70%gpHm`DXi;Sq=
z^#D3U0Fo*w`S0$sk4pVb=0F)k4Ug=qhW`G<_a#S;4vjy1mQ8=iBFf)@+Ch3KOyJ#n
z|3shuh9~TF?QF^x+$Unhy-Y&`5LQvA)F^sR0zunML$PMyN)`Q3%8^k~4l*z!^F>A_
zJ~JLDJ|uLQTK8@4&h=l8>J}TWg^RQ%#vJhp4i0PzibY{+15GM^BC4eR!ILhwZQlww
z+7F;UkUQddz|GJJ;S&h7d<U7(YohwK=`qYXN2QAjJ{_e}iJUv*{-(5q{-fTfT^F}b
zE3e$~j0$nYk`mnb<Lpk*w>(N{;^2TaDBFxBwH9ZfnA{^j&PZ9xgPuocDjHmNy)iJI
z`T3(YcBx`Sx+rlwB{{7~V_eFq+wQpL!$>A}2zWbyL36#mJkc3=<HilHx3OnRTatTI
zFPi&|HmlmIzX=dEoKZY#$Dh!Cp8ik1*<i1+0s2-is&_e^Yf;Rlt{YS*OPz`kG8k0*
zX>|0Txib#%kSJ4;_3g>?jZO(_{oUqgCA*HD{H+zI^|EYONABr3RoukE7RR6Ve{b$M
zyy1yx$&m;m$Z^#k+PYywP>HKzRQer$tJC?ERijP*7ZlmPtgIK+aWQRYZu-hm?iSe2
zVtIg<Dl_}t27HW%|GkEAKN36(`FLai6EtTJ1q|+}3oI-wWWQ3u=j1bEs(BH$`Urco
z>z3A(To1+5f=vE!K`veTFgjTwEBg%w_|oaZkeKktT007eJpm<d7ls>xWX~y`#9g?w
zFnkN@Q*+fG4%Q;8eE%hnI)RMmDUyqSc4oX-ckbBBfkY)6!!7U{Ybp%At)l&eS{tkx
zfM&G7*}Vx?r?Brp@&%!m&FQ@(2DOPUh8W>4J&Kpf<aQ226TvRk<1Prf$cz{lm>8c!
zJ3LdBG>_b^U=Wt5<J&GR1Ct{SE`Hh$Y0i+_XgfOr*aF_fm@}|n*}dS&Bh;P^J>N8S
zAaPfm!n&f%Zq9q<F6qYYFFGA1UpaUn@j!@S>6`DCIv>}pQSa7N-n>aU9QsFA1_lNc
zCkOG9bD~lX;o^#i(CHY)agnGZ0>OHt`vih*5ZxH4=_382!GyBd%rLy3>cW4eV|7-r
zE=B(E$rWY6V$BG!+IVUxHA+21N3}s|{Xv=g`~w515$~c1M34@&-E1&|68APhRd}2w
zW|nJ?T#_xsErM}V%)?6y4l#N}XoO-e^xP7fn-ZWnB+?hY9ggn+l=y{&=z;llcR$n#
zE<N>}9<QD0q#u=W$(fsaIZgAcHfO{^Vf+bs0N}hXT)b#dCQo+;-w+qh!^>0VW@b!T
zUf;1~$Ur_435$0H;i42qpCkJ9#z?{51awvZ5KPyuk;;weo4`S?uBZ3^q|YZJ9!xUm
zHKVr2+1Y)JcwKfluO)H3u9(Z*_v%|I5sIB%&TA{B-J)-Hrb)-s1~x!|%svGfa|>2h
zbdLpmrVu*{mw9XPw_IglvzB&iX|XXrF{Z71r_qvxEVPX(Rk44L45bq3pgON#AcCFF
zuA9%VWoE#(@67#e&<{Kb+Oj;hTUd{83_lXb%351nTf&9lIXrgzx&eZ%5j2+x`!27M
zk$Kbn6(ymu35WB#r#R4d?KX_{(={^Mc=BUvsB01iP{IIYjrd^fqID5QqSL>AjY6R(
z&m@TeIn;XQ6O9I^W<*vwg0Dc9UJ$4UB3?F(*SCc0z8%FHlQy0_Ivub^P=Zi{Spn(w
z62d<AAt@4mz8U=$)K*z&e7^OTg#yWOf!GnpqAu~P^T^=$RM?KY?EA8Z@*mx6?ghqb
zPerZ)i^&L(1GTkU@pA)@t?bV(Bqj!Q5-ov&V}NGGWh0;ah7}LlUzwVu#TQTWZbjsm
zVWj3>K14swcNyB>Ku@uo-PA4pakhZURE?h5`SdJ}RaJjO9%rZX_l<)`Bw}OqtI&??
zBD@K>Qv>`f9&_I|cV*Qq=HeVNdA1LgGjSSQd0<!^2oYjh#9%G#28hHBi+un?ldL*e
zs4ShGZxt6y0kP!UxpPg#^++Ns2O;(k2X^h#Cre<Zpz=dHxWK~I|9)hFSxXdvv>}*_
z#DvF2CNM$i17%VB4+S!Y5Ef@3UKkLH+^Gjh&%{;-CP3USXy}H=#$KX{Vqb>yzYdA7
z9L@jISLesuxRth+r(swWzKi_%PZZ!epa*EqgKfe`(a)^Z(4NBt4k(>1C^P5N9~~?z
zw5SQkkrfma1Z@BzC?GXRH|D{(XP8J|zj*^ka17eJA6OV%w@ge;<3X7egW)4%T}hfQ
z(sV$b8sr;GHTXbPBLskM4R`<JtgQ5OQkcREfE`xX))uZBIucm}FiLkuoyaQLf)7n7
z9EVgKLDrii+Wqlsh5Kz~c_?JW0X7__4L`&9FAz2)1=#v4Y!=1k<rwdoux{I7;Z{{Y
zbU(zx1ep}lGnP<qX@12Z9Slxi4KD|FyEG&Xm{=8EF7N$&7rK+r6BDP<^<#HK<<K_w
zfm^|SEu3gX5p0Kkbv<;qEkC?sg#an5Yl?oD%7d<H7JX0`bWCVx+TiOXh#&UvA<<}G
zBg|PRwtGq66)#N3ga4NXu$Z`XiZ1WMruSPP-=|?^r6lL2G~XLLE7`Nt=a`vj^o2`P
zG~v#x49r+fjCN&?-+7|qxA+QZOY_^Wr#~6)!eGD47OOnO2JasUosXJ;Sf6=QPPyfK
zhGJ%Qno7SQ(Q*Pmt%30jX3a5G^@PqHd!*MzY>)R`$EG&z8@aT1R;=L>ZIgZw4cjWB
zjw_OBXIrvJPj&7*yLi*u%1krnf<=RX?}L+|NQpm+nMY9}v>_0)<WOFo#v};M6uznF
zc<3ml2t$P?l7z(q7t-q`?-d9g0Yf3L!T9F`0KMr)QiS3Df*Xeq1n4^4<OKzeG0V`p
zs}(DPR>P|#MjH5QS1W<}5595Z6V4{HYOgq0-3XC|gfy2jUzk?Hw(h@&$_-17lc>Of
zF#u+gmv#D(44V<=m&8H;K|?4}lAes&)BlVyDaS{Mx_3_#SE(HW^?+}fVPW+-%Jji<
zR#H{~88Few;$OL7RA8o7T<UZ;%>AiY!563c?{msJJ;3DxEzlj>)Nk1*pY8#fHkwyd
zJw!Z_xR$+UTV*TeNRlmbbv6040H2OxwGI+55N;5#!Zf(D>*bjk8Fg>yOl_S9roza?
z)HL_l^&Ts}ZyF>a*sa7Jw9}%x1puJ>kt6y*e|`bRW+W5v;Ftx98BKf854aq;biu{t
zE_}NMb&WC5zn3_bDsZS1J`9jPNm4Cd!JiQrhRg$il81zXbm!b2G9Dm$&ot+OYJ9A#
z03bwqzXG$v;ma|kXMY9)Z6bj*xt1G1VnH)nF+CmnCd@!-h5e)g=1_P}^?Hd44&_rs
z!qVVCFvLYo?>kC>;OP}tK4?@)&<?E;)z-Aya=mBZQ&WxejE3RabFH?gKfadf6usn0
zn>&a-3g9HaLv=ao1&^<vmQc+nR+i}L`D)gwKfuE+UJb+sU8`*OPm<|hEkQc$6!v$l
z^F58WW(u3~yT{Cm#0uyQw=3?AJ5c>J`vc#>*;n0)=@ZgxR?Z(Rell9?Kqf0(ZC;n~
z!9yqK?8h~8-Cuv6su09obPMUS4sX7d_#0xPF3h!rS&WnB+2Fe$Tuwb+k|(feav?=K
znZZSj#>4Q#3txoi;mbaN`v-mlxcCvrE%A0b?a{$>)bI6(YbRD_peQgQ6J!i?rr~|0
zAKAJN#mO)@{t*~|+Ae&MI{mT({8#-9zJ8p72hi)ERF+Vv05N|E$B@s$AOqGT5sXWi
zS1KJmcoj}!B0Pk35>N}_-w14%wY`Y*^VnDr{*-7U@TUY~xjboxGYoSn27x-@s<J*y
zBFu5g8weD-Lcx%43KJG~uf9N>8-~e4CWL?V0Dj?%7hTra$4i~22QWJbgB7v5h_oNR
zL=u2ORoN7`!o2`^23Z<+5)G=v72g0}M4=`PKVP6xG(H7RRrKT{&DAdVVBedjL6RDv
zAbq|=Ri-aHp_@X1u+`1YE!QAN1-e*F2S0^lAjA<8-~8!AE|)HiL8q91qAUc@l1f<c
zJE8aL0_cD~hJk=z7ZGb+sGk*XwK*B6t4a7UVoV9ii+O|xn#bckc4Asb{@Oy#9rX0{
zD5Z4~!-4YbuA`fPALKb3?G9i_BAF=(avK&K3j5!UaRzwx(0Y=T7n}RgUp>G5c)ON@
z{JI>iNjK>iHjD+|PH;TsF5+jC`#H>#`g}blB3r|*vuo8xo%s2covSpr1A1*h;sKHK
z_YxyF&`df%T=)1@Aq?ku)`O$=khrbkKKJeUpRL3@VIWJLrT2-eoJpPf3r(xxIYRF2
zN1AI+e+&Kfdoh}hy;o*Vv1pY|>@Fze|5LN;q|p4e$j1Grtfh7JV>_JguKxYfMY*oS
z%;(@qB&g+cMV}1(6*jw){@FWm=ZO<MiespkjFAk3*qav(4Yy-rf+8a$JNKa2(llpB
z(jXeTk=D=55ZSh%KY$jwW=LoW_cZ>ot%fLx=oK^@JxR<j?mV2FWUe-mB=nNGk0BkI
z|2rm5)wua-qIg`Q3}lkyz|h1_l-_{<;VQ(PII4w_=^XWVW)DV64U=OMXm|?FErKbm
z+j9}<A%wFj>|^}58zVF`FqBnTErsP1s_<*qo11;GB_m<OAGs0^QB=u|z5V_DP^5(b
zm+LBbG~IjYn>tz$Dvwtuz)Al=M9z^TtHDxM!{LvyT_i{!UOjmx9r+6=We_EP?`#{H
zYr10<1rLIRXlwSN7?y0F>09MTY`nOwA46}2_6Xt@5Iu)fRH(09xk56HA*mR1_=<yE
z1Hl78WHWJ1nLr1XLPUsrkJ{J5b^OBzYxTVo$}lE@XW0J_T*r?h-;*ktarw$4hkJ0s
zDHZlR!&I%AC|z7U^JNFnFcX!x{c2-#9^bdG9XWigJ?};7p~Lq#scN|}Q?#3R+t}Sq
zsaL#})F1rPwwXI>{YZaU@0Bg3Tn2RUO_`co!vmf{9-1pT{t~BDjzvwi)gn%Og25B#
zHH7_`#tC>MXXww$=~NXuMy4pf+Zqw-*6-eV-R-z56u6u+Gk@}k|3<A{5sP;nwlLZH
z5)GmRxaFTW%Q&btW9oLlDbBaNAsFN(Rl|pP?Z$&q5vwI34@yh8tx?|S;l@(dvAd<l
z(+RvEDpk@5V)>mh@r62{IQV2SzCa+<a(3?44@gf)SUn^+8MvL9bOJB?DhyOzK*CYT
zhczC2l9CZ9j7SD>J<9<lyg9rf%~OhTl|_|h)zv<U=kVh}MKPm`D=jO7qUy!}L=N7S
zJQZN&i87fejnQ(zc%2S5AGQp_HX?JS(CWqi(btJtD(wK`H}7^Zi1Dci7Deqz!f_xl
z;Jw{Q{E4Wj-v{|wTj3H^ZOJyw+dy(nP?T_i=E9Z#8c9nl2p6xvV4JuN(^rurK@_1l
z0#MM)_$)1O&Bt={L_K(%JSzq#0J@!-R@nh^g^<JvMn=N4qRCIr%9>Zc1bW+bw21@X
z1K5JwLxtC^?5pr7OTL=tqSX@b{Abt?fIduuXu4E59t}&R6!IX%zGL!_p?lG2^rPqR
z0lcOPk43}4Vf1Y0)^tTmtx7BPt+!jb<h@2P>$r>lhHt(`3%BDd#?}r=^@h^p3U9Br
zx$K`G7Yd+`O7bwg%gPL#Kl;TV6mO>-9a|AF6Y{Ue8c6+k8v7~5uhgFNuiTg9==SZ?
zR{T11YUYrVK&2LyzP8<Qrk$KUR2TeK^M2ugF}YIroDCJ265(;{fG0usQupc|rPew{
zoG7Re{~5i4yT6mg299;0dzO${hU`IWgE<B4&GS<OM!%&LUB{R&UAm;%=!N4w!S*RJ
zh_>eZ*n?vYzWQL)R50inXSji5;8#%KVqv*S9eA0vC4hGjk6R!RPL!p%FhpYZD=3iK
z6!t{q@UBJFD~eST{h@yJ=<%8KM&?!wh>5n+!ZO+*VXk%Y;!n?dMs&)+oHp;fB!-89
zgG(GDyl7OSnB#ueQC-K0B<doaKniMc$_fOGhr>3doTqDBgW)8=_)%l%v$3O5`~2~#
zEMa-@mP#=>2$EI2dy<!p1`YHB88%mc0glHh+_@4B3UU$4UU2`~popU@v~&ZbBGw#d
zeh|IVVZ_kD39XuujWc#zC^v*W@B3fb>J?k5;;iupX$yT7vDaySMJ`=16r$y)v@&j1
zUfDGo2tbJl4naOHq6%S8(#UK$qNNq4_v%FEbuFhiA4wn%!dTdwaRQ<l>O_elw$*ED
z8^{N=Y_E~Z5`Eloy_XsLXl1Y0SsB@)0a_)CgGoufOV_RzA559tCfli>LHo_8wxq9}
z!;!<`?(0flo6?Jh`jHd*M91EB`hg@6sj|+paTH2+?;mCi^`_!k0xhfVm@|r!l=M^d
z?!pi)M#Q?P>CZmb)17Q(H2q?*M)5&t(+!3m>&m3VQpfj_{6V_<D}t7GnFnh;SpLP0
zO4OV6X~-8RV{*ZS60kRe?G37M68~20hzGrh=WGA&0UvN_twaTriH1JZGZ7JMk@%|t
zYcO$qL%GsgqK(@!0j_(r;0QW@SQY#QaYDEVK&+{))1+}p$;Lt;=q&nAGUFHv1YG+l
zl&x4Ch9V=My`i><#EGYmw?dLl5MqN)NuTKt4lZld+Qi}sA&hDt6ot^`7e-ws+5FI{
z;_nV#km(2agaxY#`aN8>7=;}9ai~#{2~dmTyaEzf@E;5#hB-h*YSGIte#t9>02O3@
z1nI3SCfcoWL=b8X^+{R^U(y&BQW`khB>-3<#RK(75r86wbj<+KC>|Vq0NB7=9@E!9
z4fPGyvxveiY>vYi#|kB#uE43epFh*Fc1d7z<M_;;_pR57=+o)rUesUDap_C#*)s+~
z03ob#JCDotJSDphqiKNpZzT8*_9=P3yz}gkmfPTIlg*1SQvx_HV+BoAJw~?!ogxEL
zu*GrKWq>r&>_3DTNMs}cHUT&2y@EzFi`}q*_C1mu2*yUrT=b5bHZ3x<RrmyI6D2jc
z!vSH*?Hx<lb_ASYr0f?*WHrxvKR1o2MocjKT;<-yp8^NWeDztJE|k>EnX+5(_g{O*
z9=>$(_Jib2s-^|ym%69E-MDv;(O7ur%s(+3z3<)$E1bm<q-AND93{DxoBRIv%RjR;
zbrn9`pmGbwz`}`hlvK)g-uYTb+@h~Eiw}fL?dlS7`60L-iU?w{#RWv<qmW;Lxy0Uj
zDN(bOIuccb?Tk8A9epgx;U}Z5(G-OIg0X;zh{L$#qo9Hz<GZl_NbYLlxqFhQs9`ur
z#@>PYaR!K#SYLvI2OIB^oM(7Tr;s0(a`5_HM7AMhdIZuwywTSHPZhRb=G^VTjxeAw
zo&$+DZZHy2C<vLfJCE@A>ELL=QkIgGq>NA_<?c#3F21c>QT}Kbw_&OTy2l^r3b^QK
zQNo*7dujY#Std?lqD=nUqdn+9_~lCo+H3;eL4l1gDSA9#9SgC9TLRJ_2yvw#l?{xD
z@(@GQ+qPS*5x@-U1v2PGb+ZGk_C&#pQW^<JSy-D;2dFoi)?r<cX+BQ(;=xZFh<X>z
zAG$PK2f79wjU+k`(BZ%*8!*}L$V%e8l+Thow&e>f1)xDzQ2hagr1!&OCf=<WF_ULl
zt;FR6U6fvv?GVBNpg(~>bqlnt2cb$wE!>5y4zWME@EH>owfhU}Cq~Fkl4<|DO)wBA
z6V1#>FOaC>CB>Pj^+Nw+R1)@A;LV#ZYb#OzW7U%F*RJ?S>vc5%1Ckk%m2e#GvC?@h
zN&TZom1B<4Szha7RB+rM>iAbeWk{}ch5pCu8859b_Z)UjS<sC?k>5VN(JO)M6Er`O
zn9l>f>MdklawDuZzs6(sOpcDR#a-)|3@0n94T5Izn$*%)Uu9BE^nb1fw=$`2&7+$p
z|DTzO5oZPOb=G355S0lwP8uXexqH-fsfnxvIyHV_VRb%*RWohagv5dj97WfC8wWis
zyU0`w!u>BLwGP#Fy^E7Y99!^6)nJhGERGW*Gr-NG3_#^hPsP)xX-I@7oPUka@?CjX
zp}#x*V<?n97mY*82C!WdL>E<b9J<Cc8r2D$xM|?lz{0y-be@pKHjkrM>ugdU)O|NA
zswkM~bN%-ZVuusoQEDAH&eZ+?QT86-T=)IoFiD9zLq<zUWT&Vkt3-D8jASLEL6WVa
zj3PTDdnS8?jFL@6WRyfkC_7Qf^ZK0E|GuB+x$pbAkNfF3uIoIm>n#0#-|_yu->>!N
ztlP#j``LcI6xoy)K0e+l+L5*@dN3@%<-=M`!UZOa^UNcz^TtrXOmrk~L<kq46cVh7
zl}ogZlI+>p*~sF$=GV4K%cy$ST;|&a0Zv8J;$2-wnyTN_y>hv5`~sZ>MeUbI!>5gc
zX#Cgd{JG+0f4d1yYu%?$=NUc)PrPBLw-}zBYzB@^2!60hu!VHZ|N3zm#G+=#I+g1o
zQNE(@KBVw45}yDQ`v*70sPh`=9k{TH2XA5_T3jseZUy<jzzH^buefGZSSF<wv<O_G
zN&=S(67<(^kJ7I9p$aO!!K2@y`~H<e=6rI(^6|YMaYyqnAKEIK?q|0xybrh}QDEZ&
zVt3fZvb>)^e>S{-uPgUHTp-Z9g?hWZ`?aGUYfDc#ne{{FJUED}bNx#4jZbXMk01ql
z+Q0tPrt$Co8}5+Eo2@!A>g=DkaPj-sRsdw)TQq>Pj9jTigo-Td_g-_S@=*Ijai~k!
z;$hFu#iI+l42PssI8(2?DYFOV$n*6-J(5?GY+`xjh}<KY>xe(pcd}y>N)aOec-SJ^
zrdga@+BDsSZEpvm%+<bqlxu6|<|Ru)_EPcvE&bGT^`&{j=GpLnxyw}6p$#C%*6)1@
z@C#^)Ti_J(&B*`o@8Gz7lH&7!w*T;n{P*oYv~pF0y^XSe4P6ZOy;R_QTPn|mXmNO{
znXhw<tPgJIuwH$36#o$0=5nU{0P~5hdnCx762S08c@*~h;5M{;oQ#SQJ*c_b7p_km
z`QNefOUV64a3P{UuUBy+i)F>$jlLmN@D^4hEc{=xm*Ab)hw<eX3NEni60;(>5Z71I
zn)PQ|`;Q(ju7BHm;HqNl!t25pSe$pmFXL?w#ia?Gx26`V9}RWY%f{={8<QW)3!JF-
zy<YVtgTa_8S$n^YY|n*(aL2N-IlhM^jR2e-l!sg>(-B{8Vh|rAM_q2nW18cI0*>OB
z-wF=(kM8+=@WMK`WJ4{y^t|Jto8`$Wj+!w{K^%&)C)FR+rqv2h*77iRGE!W!8vJKw
z@)Iss%wILJ;wdT3%s*qFQl9NWCibhYr(a*kuQw>08{V+`&yUw9-%+%1Dz|F3QXEn~
z{N;V&x!6sTS^_mj*E`^nkSmq|3yC@#_WdU40<J0wIWWLMA=PUFF$G=duTU~ray7)*
zsg6<Id`UA>b|FODrXyVu`-mU~M>yGNCjFh0k9L*4;fHj+tDDYbAIrbl*dr$u6nr&5
zMF3dmQEIGKMerw4ra<#pcj?K=*@^$YVZ?_*z3v&U!>)EgO`$Nd6z1l@I6y)F658%J
zmn2J1^t;G-2_7^HG4FNt6bdrid-!>Wk&S-W1<e)3SmzrXvM&jyC}^DC!mIgIUe5}b
z{0Lvq*W@|%Uyo^({%qr86`hPa<y<NH9b^*};~4T%`Q8;gqIs}^(`(DDLh+be0gg9V
z>287KkzbG&RF|BI(ZiL%LCZWDyX`;U<t4VXJ{EV%;fV9V@&L>nhgxo8MGpoKVvAbG
zPkl!%$WgE7`ma7~3Y8*NeIybaKTK+Q`)GT7O>q1bMwhklq&L|*)H`oxqZcV<;Q43z
z%mDV`Ry)iNo$9olDB^z?*yESm(bL_q^KwyAG1K`&6gC;A5oYzFzT7EFS{<5eMU%Z4
zLP74RA+;8dgw@|aE108Ix-ar7DBVA83IO2K+?^(-3uJK#2#@BgC6<kHtaLAT=jmo1
zjX#F1Kxh=v1xxXr(o8V4kJiH#@%CO1T$3WN<Y2{`$G@4>r~W~FFEt=jq*cN;MfOm&
zY3?*cZt{f-C(-Q5m1*2g*na$f^m^F(+j<78eG$XacU@@o)kd40j1^TGGT|GBb)RKG
z--FmFM$K)@^RtoIH78u_Nb|krxmC;7bES43|86_^m?h>kGsq>pPq<~fpw_vhOkI14
zaE|@^VTj@BbO)+Q<Z`jGv50lFT$vv&vh8EUhE#!S)2mQK{#TgnF_uR!CdZEo@HqUA
z{l(^faNj{yDt@~i(`T$LuE4K$7BQem89<)Rn036IT!pO69oajw2a;n|&NM}-#_z%9
z0DuTgLg!%HCaFF4F?tv;6;d?;UER*iw2pY2^5>ok?Y}j{J^@Z3f8iuRO=*}j`gD^}
z<?3D!WV~oSA*q}%kv}avY0$%8uqs*c>y9}&;UXG*r*>F(0QJ)itd}cMqlB7de!Nmz
zY<ZTw+G&}MN|1`>gdpeQO`cWbU%;Kd0tr2K%zlof!p=qxU9xa6h@p=^iCe#O=hGJ>
zs%Ot${IfiV6_`HQk%2DzD-aoI1?peEOnCcK6u5EfD0+3xN*70BwLlAL|Lr+kNdoSa
zfyBfccm9~<C*r^;C~EQ=+$?c&V12sY^W~qjF)2UsTI1PAP7^c7qo>YkxiGqJPfK}(
zCOzrt7Djqj)^wX~>-X*xd&8fpt%Rkem|Fp|@n$P4C^Ys|dDCdEBguZ4OMt|KLDjZ9
zo1f=6r3-C?R?@Kh;3%P2(10T9;`{2Z@!K`Wm$vSBjkr+EwD}+~+-AnziSCimO#rlQ
zd-jUidlOF*8bHmNV<*sf>ck+1qf?e!PNd)Ih@bWRxr8=m@dfAb_5ceL+(l(9V9i@o
z9lI}l^Ip-eG5_0{H-o=vQS_J?jpL15xH?;XN$JSMh5p;z?Q!beiG1PNe4&dHexS&4
zA>SVAxzImht&%Oxti`6KBB9dDS}N4?*g;}EL)(k;F_eE0GMM6nVXU_QQojZ9>0a7=
zmY7N9syzRn%Xx2N68ayO^B#p1$hqGNrIU1RFk%^mydU%rpB<LoQq*PfU@7B4@I}kI
za@<j}Q7bWVACigi`!yc12S4Ho_EI@Rt*TliyUrsV7%QZp;Of+G)zHvB{P`vee+KSD
zbi)P_GpT?4>*_r8m{`MW10Ee8PV(nYUq+WkvO91M3A8FME`A2<r7=<lSgy@rB5Q)`
zB&;8puq-^(_4V;>p~Yxx9MJJ|49H`N70?o*AA`+}*sy`oMuA(viCeZ*>9KkO1b`VR
zCZ8)kFB+r}ql7`3)?J$GHVCey%*-Y{h}w4kK*wP|efRjQbg<Rjd`juj*2{;ohMsYh
z(Ww2q&GdQL`t9lEWSeOO{RMxokwpuHD6qHxSQuPb+kWn{fV}JOy2(uDQ_n}vGZJIY
z^{jd$cV}h_$t{w1%<pb;XY+@heK;$i_EN*F((mwL=47_l^{%@DvQ>Tn&MvfDLo#qL
zR<YtBP6Jm<vM_-QVm;ztv;3*kB#@76QKX)qWM6R}?Q&XkDC2pb^kBV1<+Ca5*T4YJ
zHOw40$7X&oIAI~q4$hf204)9k^*|k9gF)+kuen`MqguFnLAi4`S=vY<%F5W{`;B;7
zd+xXLBjS9@$@o04F2jL?e12?&ZF2|<?K?bW6ijy*5|I?l97JD<tm7xpWngLf2Iyli
z0pkE&D_6d@RZdws>#fMa>a9AFf8KR>r^1*dcgzDZ@aXu5kx@uqA>8G8`~VV{iP~uZ
zM`F%uPxd)^u#o|^s-+o0l_^7T*n>mVvAaiZ$p56zr!%4V3s5p^pKn=@eP%<a*KK*B
zo6?;?)_;2VHLFGCEg#Y~Ij`C>Acz)hgV%NDhK|KkS|`G%y!`?<{g;o!XmfQV=bB>C
z$AOT{^fa9F4cZN1(kE6=IWA1%EZgMC7P#3mU+&(6*`A>krGWA1bU-ASX%7T^g?X$I
zLuYtDQ2KjS9&=$wJ)wL0uU)lu1=SyYmF|TKjm*4YGUiK{*++RReD2fJ$4e6sUdeLs
z9#fkG&;#{*fThWu8WKT_z9yr8GX;ryCW0y$;&T>$q9cZnVlSM?$b1O@=D9M@g|06Z
zUQVKx$AW3#Fon0G36qLp6aJz5uv+0PZ0;yCLyn08X9%N1+^4i&*~kA;mvBg`{w;zy
zM+s&}IlkHl+Yhh9bVcec6#e8;g;R+D%s@dP5xG%U0w`U%_nx2MCc;DtAZcd@ut{u~
zh8Elc8I?+A^|70S?qTmHIfp?`!g(CTQPqmIVxFF!c*T=5N)X5!J4)B{?wwZt-|u=C
zGe4qw&OzE?YHf{g$$*HC@n36w;xl=Cfw`2`k)N`7611t;iyzBN)VRCzp`Z=&G#=DP
zn9cZ8AN7+gacdH~@J%E6@DgL*g{v6~8td~DGT18zSN@ioeqpB1OT0KZUbYp=h}I}<
zFm-B+W!!1_%^B;H<Pz2MuuO;ux!=7bDa1VCBveHaAtuPeOvU66Q=Hz3>Es|OGXTP!
zOCYHOWD?mqIM%5fL~q}@lh_M@+4)69MTMPPg|~u-i56TfJKGv0Dzi=8@f3Vc(cH$l
zGN(^lcRytY2}$U{Y7cklFZjPp!$yE_DsN)47Zt4vWD%0p0@xP7{t$-&F;A0i5@?p7
z2_+G`gxCdk<1cwkS~?zkqTiwcE}lm+0J4+r#KrBw=N`sqU3V)ne<MteV2|+^r_Pjp
zj&}XCe3<MN$M5*Bwao?KgpNkR9daK&Nfh>?%RPbMlV!f3G~T<BO?Zdc*xlBHsG|g=
zfH_j%(6AGJH;lC1fz|N-0!6N`saXfKgn)lQ!~7+jh#pN`T*R!FW`e5-CrGTMYl->`
zVf;!R%Kcic@8GzF!f>adfK4&Y<=2tYT;;B-hhxU$hK90_P!#<*vU1^)orF7^Md8oL
z#yal+w_S^Z-~V1}NNZFr617p&eKu+Qw(b)(LT*5$+=~72I9v32=Sq8<Th)w1&9>Jo
z^$WZHF3)Z~a<q%t>_qel+i#`8s%)b9IRhu|?bu>&{KC<8vefS(n`l)@t3vha(k?;_
zlUW8Rm*xr~Uf@1LLdFi%p)n|+N08=df!KS?>HYin-^KOLLwo>CV2Vmg{za?sQ{x?J
z2KB3O@+1XVPO>@;>Uo?xlF<F=+HcH#{ABJCcf!3*r8^^^A88-^B<=a;wqB%bwi_{y
z_Pa*W-$5dHXjqtbpk`A=wuOZSb~C-Ox_6CiL5=tL#S3JO{m79pl;~fJD?O?DVBf*7
z6#}IKp9wMT2ucBNl<ZU3U2CukuAXdGq@yF7c?swVT!nd3=-9Cc!tp~487bZySxd)n
z+8J8tOdt8{TYEOsdsXqKS6*4O?XC}GC^u5&6x^KLWF{mnu++OQRdxQZ3Vv(+KED&d
zHnILA2*6olZm!2vQAtS}S{>W|qD++oPw`Zf9IPLcIt0{$vY-_YaMvUZ?S%+bBunh@
zp~c*m58-1`5oy6KS62~a<q>H>P>_&tOfyiWeczEHkdA_aSy%&uCI!S{r@(r;E`1vU
zf(HJKkN}K=|4Jc<HxoP!P?i7Mbw_kesFmKixk7tAmiGbTrqb^Carf@s)Gs)jRIrR7
zr2x9OM=>$V2wWgqH87sYLrH8br?$k670@gJQHj}(nPlffW=v>2i%-l5Z--T$WcWj=
zZ3bKv0udF}Q;SF7{z*X51<IV;xZ3WLSaoB95qv6A9#8U#!xBi|TOzar+KAUgDRYmB
z#W!eF%wTjyr*ZmMmFtg5AI;1Zbcqnal8t`Q&XCN2E)IJu3k&jnh>{4<HX0>!WbN2|
zCn<E80Ktd#L9XTbXYRh?+seho8zdD22tUXQdbGa4{h3oWf4l&7MHbg%dL{ZhlmQa1
zQnWU)fFCPDpmMNHDGpHZs(~>@ipZt>aU)cLG@hD0_lBH4s`bb9UgG${$Kr0{$&j<>
zMN53Z!ADU~4fPM_caA4t-*WBQs!d_<AHBxLH=nP+H>WtrY4o}6wYbVN>EP3n|8%H7
z-?w#GJB<Moh<<mG+4~iPqE8>A>&98XTp4Q1t*S0aZu#d|_t*PTaR$Ne`nwFjm`>b&
z;UivRSW<ef6#rvRiRort2V^P4-47;-$g~h;U}0rNP<g0^5Jw>e#TB=RNa)(?j3+?k
zs#bTh-2f00d2$eKia`31lGimgWQzzl_kFmsho+`lAf3ejF$AFch|S{U9sS6A5?p_N
z1c~125&cMefR5)@)<NYxMHLkipwBQi@#6fu01bkT!$aUj2$ZA3c?KmPks4|K`T!9U
zkZ)=)?4+RektxvB;QKdFQaej`3yx>xwa)$gsW<f-X`xUH&{9!R;YYm&<K!Ry4ulVM
zP9!WFK?me1BZPl>x!k$!8#ZoyhZt%|h7XH~Bm=*;nRWu*$&H~HD!?HeW6)%Gt$TbP
zaJYXuc3r#zjMl~SGN6EhPrpk*-+M!Mk}X6&Sj#J5ukpU4BN(wJv#=_l_k93s-P%vj
zwe({VAuO!QJCzl2<c+mG34m)3!b2d^@`8J`Ug>XTJ0Xjf0iH~<#{jm|r^O<eTmYl{
zLMV#Bc4}xLAJwqJNSzN<laS8V3_qKk<qdLtB43du#UPZBb;D=xdH(#KLAQl1q}Gzm
zB5VQ%GwrhUjkg=CfUHnn@zPLi+_({jg*Rv$yT-Nx>qdHJFv#AWAS?(q3atjoFX{f(
z(%znq%7Yhz%F1e7Pvk4BT-cq~R+a0hKEY8@2A2ji**eVnBJanoh?P~2oTzix+@|9`
zy)qGUym){4kzv|>-p8HiQz&ZD+xvg42J=nn3vnJ@V!1fW)61A_@ND^iCwd-w9J`Sv
z5Lg@p<{*oTuYC;cF3Cf+{?O1MPt<ib-(i2<bP^yEGjBRt0IYLllA*bd@Cj4Ql?4R_
zU6W9B>HJxIrzY3DW81d<6#2khi|xS#4b9Bt>b{3P{4k#9ectpaFN}DC@C5t9&5kYg
z`!S(&p|9lfrYFX*B;1A0d^`ce<fF;Zbb!pl&miZZES9!meRT<iEb^P_WqhG_0V2!C
zb{R252s{r6^F-{p8JK+=O8|t-s1b7KLuF_Z@mi6VqqqQtlLm*lDHJxO_mntGvkzD2
z0EjA7sIcaeD+7F(gS)Cea61R*<GD8`Pf2zqN*B1sEfcPu(fBJVeSwZCTVf<*MUN3u
z^83dW7W4?nBBoTk1bm07g$3vQ!a{)UPe{Sm(Stu`k)fGG?DZz7Sm*FMa!j!{?qOu)
z04H1rZYSUwIzmY}kM%~X3g(~v4py1t<mRS3iT{dR=|yKk!g_-dB1g*^x{|Be>G*^F
z%k4|6u9r1L^3pPP=xZ&rd5Zmf#NE{1!g^oy%+pFITaz2-Ez+8LezmZVU4QV{$tG^r
zaGY!GNi?@NJ%^Z}0U>A6uISS2llAbZLU*ChnZix8&%2kt>eP+i{!@QkR`lk03cp&l
z7v2i~-5v0eJAMqGyJld(xU{s?w;G(e&j<dk=a(Gzf32byyzBkdMa4HZ$>j7WUn{pj
zdJb)x>t|@L55<4)#CD(kVB%|WjA4x}M=j<VpWC-@FITVqmd<Qj`}<QmAK5hwY-}XA
zav$!A9NuOhdYO^YQ9ppav?uXC`U4D`Tb?t=vjaiXHbjbHAFev$Q;cDi*CuL78DG!A
z1)NU@aRT#VoT`)G>&^+Cy)4q%=DxHxF$fwK(IW)R3_NSy`<6Fvn6WIz3~$yjh^Jww
zlgJPJSmCTiv#%ECkT-e&v>Z(6@XSEB)pT@dxXj>nWJO(M!lz<E)D06%^(<hov|?PD
zkFu6u8@fXw3tAr!B_0m4DC;n$Yp{;{u)b3k$Du5KP^vjT6ZE$}kj$2q-uxa-a7y?p
zv2L9~hGrik?0gCf3vpzZ;grfCzoECtIur{=Ze`YMGGS!f2B<uu1j7kg=5!EdUw(9`
zawkuEp@nA#hhSrlAd`HWfBs=X@Iw-`{5B3xk$p>xD787DgZ>zs(I0Iluk0IE{B?4e
zHsw%{W!>B=e1n2m`}+FY-38GepN-zn`~!IrJWIXYyjRYWjVYAAIOugqG$;7z07&i>
z7ak^|kOx9g$bc6lycyuZ0bp`<XzaW-GnsI$w~_0P+Nvpj6B!6e2$qoXtr=9)7#SZA
zfcVC2T)w?rNOHz~-sg2)&n1l==_hpCb5iJyj?<?X*l1A5SZ><C{?aABOVTMU_tNAp
zpa1bt=RnFQ<E+F~t(&jeH14DZ1fHEx)fTnuuLb4p7Z^y0L5RF%I)>TU*bX22+f&t9
zUw@|aT4Xr3ZXH4#%imw%HH?iZ!#|ugG~5Y{(Z&&8M&%nnZ*>-sq!QSyJCT)Jd;)r@
zaHAObi~M|isBy2)$jjeHjq1Qu0RQVhOeNDid9g$)ib7)vsmLG59MCa6KuNQ;vxCB!
zSF?nu@i83b!Cru`e;NWNNR*x)8N+qRq;_JKNzmrQllE$0U^VK?!3!`m!vRnTX#*7d
znzohDs>nDGLqia7_bwHvO)|CMvUe0;*5kGO67Zms2mH1IDp1NyB@YUBio<$2lgrdn
zq10$Pp+T(2lZs_lpYh58z<Y=ZWo~xpbW;u2!GnP~Xzb^P<?!U+_wkX-w?{BD0^ZIc
z)`*V!$-$E*CTnF{rA>{Ee||Q;X}7#FduiJ0<Hm#>9peMXqL(#)H!8JT4z}x+vd!hL
zxPRBxx%5lp=#e9X)3#SeRb|cA2eb<v7&%KbRz7y)`Paa1M}FDUxBU_~NxCfJtYc6&
zNL%XbzF&XrVbqx9!|9xXiHY~yw$y!CWh1c%(0~um%&4IXOdv6bjzwU(-QtyizunW)
z{u@Qq--X>O*Xg)L6xi?GzAlz(k}AtfDfRe4Mum-wUJ~pZc>da{uwlN0<;`0r@#UL0
z4^gBGFLiJ<84n{ODsu7!va)c2vC=>Rw;xSl=WktH_teW=klVlvng`bmO2WpI*olKt
zFv@TcevP5KTcs$pbG{z6>H3U+iM7U+k7AKYU<TL$e*E=zc6N|1wW8O7!BI1~&jf*=
z2n|nO{IoLi;wKsy(qVJP6c&oWXkrEzk4n7M6JT463=FT(io-`ueF42VlBTP|taR!y
z0^t1L3SPFZwst)%+92o&=?FhV*vRzTL@H>Jsk9S0@g-#u&r1R*O{(JnL|wz8r3oWF
zXuP`2dHue9vjsr$8b=U9{3H6wlr6owxD61nrZKPyYga`0xXr%WXklrI^Ra>ClVGGG
zV<82ae{+<pl+?_RmJc61AR-rW@m-gvYTkQTma$Nf{T;$00cur$D_&XA0b1LTQ1F?g
z%^;RYKtIn51PmiHbLz2nqQ4^D9Qp-9sADLX>+iwa1tq;aE@ESIGl!5+5YRM52Q762
zWi+>I{Kp)oVruB5hc>G^<`;;1EH$)wSBX?!5_x&|&SPttlQEQg+=N?pH5fAcOX_MV
zb0uYld*u5^CuQhn@1*s)192C}&-?f9n_F6P4SZ&zmD}g@CUovRIa{cGKOkd;ICjAv
z*~}eHn3a2~&f|Y$fX5Ff$2`)Hh}Hg+=bC$_grMLStS-gtm9gaa-~ka2wc8dxqr?xS
zMnz*keq3L(l%zc18s`|5)xg5jedPdVs}Z81y>}1$nN@K#SVL=d<4>q#d_6Sc2riRa
z{!B&GYS2yq-HbUh1}TcBT?MdNqV`bTG{*^M+o$yxQWo)b`bC&&DbSL$@85s=`-`KH
z`k+;??aiaaC&SE5R#kKjFH6ky1`J!XmM8H{8uBA4`Uo-JA<~f0{dnUQ#~xFg3q9Pe
ztE)>CT9_@EV$uYmDd5jy3@avB#oFvZ)XeetYkR!>e=!^M+7Br|oC>}r`sB?*n-cBz
zEvnSnQrTx0&gT@Y8xvD(J9|J_<Htvx1a=YLP~M~I*Af~i%U?J)oc!R0Hbv83^LUno
za=g2{uUde7qWYn%34wdvI;zn{M~enss8uL|k>kw0i@?Zj3=F4mg^&xO<s6`M@T0<A
z<)){8^4uQ^*kUNROE#qQU84v;*KymkMA^Z}J%O4pGUd)+<$%b@$bODEgzaJK4ISPP
zC+-x8rw7U#Si15TJ+`y5>e<F%O2F{+4kNS`iNv#;@Z7a4e4Ea7x>xv9``OvONYVqw
zUmTyx7zq814i)C*B>-H8;;9oT6DIp4mb*yQ34`v(485E?t&9)=3z)<MpFDYz;>CMh
z$dU{H8d>vN_&I1855WS})1zk?CO9bpSPWLG)CKj<VKYU%hiC^vgM&|@j(7JjW5*(`
zV1)G4Z~q4m1V*IvS)6JLjOZwkVwZ;Ds?G!bfzp7J22-mK;sR7~f<j;{1x+h{C~+g}
zI>C!WL~>-C0XQ4X!(88AxcuNFQwQGKFQ^?P+X}N9?-dnv#spa*-fw2UioWSuA=^z_
zh7SZ6^BfPK)>6LvM}jNbaA$A%V^iBiz4=$|w~>2+LEjPu5&9=hJ7H(QJ9t+cpt?;J
z#+IYvUCrnwx;$)=G~Mv()hWTpSFdN%#QWgAzp?*dAWlhg{SXS?23WRx$=Sul9zOw0
zO^Qy+_$w4MOao|#x|r4@wZul+9x$KB-xVvcA($QIf%u@L5j*~)Cr`33Dr(X1vc%Wb
zjKPa#fvpahJ+LM0t5x#|6i<kA+b<uO;xzLKn(wzb5@FmZ!_JxLv~o_kQr|#kUy6w*
z|GKGv^2@<_9CS9B$;CxQNd4bp*I#4`SO8h9WR>DO9Fwd&T{U{hDnyd=2N1u#=pL^h
zC>voBk<_U*gr7s&YHDTG08b+ZpApa#5qESE!}9FWZn8}ihj^V-9_&IS#R)>8mpwg^
zP*i0Z+_ki{L~m<6HgoFCnX&4o_Ziu?{@SYA#Yc+_KH41C-5{jqx65^6-*3+?`$d%<
z2fIbzr>#a7=Ve}8>io4V#1OT;>7MVFZ{_)P^4sK(d6w?bbI{u<ed$45;GXgyj_}NK
z*75ilSY6B)y1Cc6S;DaIIfu9j^Hh6bh?Q8-@aUtcs3y#&utrN`I}(wH!6rb1krX#U
zADgoXN=kBUK{d(MQ@iQ){S9JPap2E$X%Vj66=syGjeg|I)KmbVCP@BC5GkyD2u`FE
zoRm_uW~n{tem&<TgZ4+6Yo`i)@7&_YRA+a7@d%z*l0ZNnM08PyEt{E$5e?QwYin!r
z{sU`fJ~3^b6+Mhg%zHlGNX6|$=w+P8I1?|v^rFPYR&4O%`+I@1-H={r!l>%2KCOTb
zS|7R5=E>VZae>dZB4)Clg%y7Xq$@3QGa3C6`rURxwc8wxuV0_$1LsoL*H`vvU1xv)
zPKYegEMpM}HSlLE;xF#)Jp|Sj)&#yCdr-x9p;;%kL8v^+0JWf!*fi<T)@P@t%Hgfg
zr(4dA=}GgZ4ChFjQ4uQWw1<hx!;<##IvjInfUrR{NmgmVnhaZAJr02Dj*dD3jBB4<
zXY$caV5DhkZ?^&iY{Qxd%Og5NVui>0k^(5ynlzIIj-NO|ytZcM=H0FT#HWCy-oAZ1
z{OJuq(^Bm5+M##6i<*b1)ggER8=%2QmrDLLc5FT!v)5)M@>4v}#8*RrLwfp`&^&d2
z^uUs>CcKFlV}e`vklZIwhoGqvqa7at#lfq55j+4^CT;e@i${`_>>V5eiZ?X1wvr>y
zZLvch-|9MS1?WylKpbT_Zz68v{xc6gBT@4u{D(L>?O`;`j8ESoX3vR9B8l*IXm0=x
zn?r97B?(YX4Z3T;kKhObvT6UV_psuoLICoxpqzpn5Y}?CClb&MsL1n|z9p0&Ff%jb
zWKFpf9!x$JSPWw9hR_^A2qzQO32bck!6h2!4fLChc+Wv@kZ(`89L(sLsq?W(VD0bB
z8bQMj9y}|Uye%Wl0Ew81=(}5=h_jNT9U0@$rS<dO19eM2HU=27>4N~66P2KO{IE~R
zA={-9E%5Ww$Jc`U(l081(5g(+Y<c=#+4>yKE1%WtvAuf)4MuhIM3P>=?a%$=K4LuL
z@yoq_FI#)r@9~TblVA^>U%`$C10W;?do_V(h*pw%*ZyM#Vm2ZgiW=I-p0<AOzdJG6
z8BY7_>Js1R0$KKlZ5A!aK+em{yMWh{v`y&y5aH4Uyyz?RkYooH%0Ahw2hgazqRwM9
zWweGe+-k^ydgLfYXI%1N&db4*QVE+XHcCvrk!16gaddrq`lzDt`q<{T<L~<RlW&Iy
z5#umyNwZ%&_Tyf0^L~zNT~E7qPw|%h^){$dL64JF?yM$m8XK&Y>M;QeZu?e9vW{?U
zn`46yW{g6(*D!3&E-nK5E$FS&g!~@wwj74ZBRdePn_~E6-Q@`k@3<$Fv}K{V{fsz6
z(Fa4bW25xAQ}aJZ<R(-koB{Yy{DsVaLV=23M<+|RD`bMk60vbqD$Fx6JYOuXi4hn^
zXGGd*Mymk^VBEFqw+esEI%=hxB}%68!NIp9BFcXyT{z3_P0VUGQ4<vKl5&(SR%-aq
zbgmC{-gd`AQV2raBp6PU0D;RSs?(e#GFn0XO!}vvr6HlL!okmkK8!#GKI;}R)9Qi@
zq6I5Lf_L*F%wVK?24$%NqQw+Gzz<Q=(xMEqUHMg7+&^aClYdRVYSBOD<KmJd8RIn&
z2ZE_2EPe-4C>hY8d=sOnMMiR0^TNV{4@|NdMr8$XE3&{#$bff+SG(ckM<c<~Yo`*P
zAs&Hgaw_I(6@wS5c4RY(*M9UC-IJ0#VvmW7pL0V}b4^>@Svb#WaI_u<6;(X-9d15i
zoUOsIzkTOUe~f>uw0wV#7#J9s;S?piwq)RFg?`Z=r(yu$4i?uOS{w&Hz%WBfFr@N<
zB*g0BGW7kdC=x6%V!I6Gvo`kOT{OLT@c_j{wCm#6;O&Plc;yupF+sDO1O$)pt#T#%
zy!jGlL!~F~oYY1?5}NY?#7ri&qtvy}UI@Npg-4UDK*4T~QuRlZXj3}K&jcJnfJXoY
zwV>9#>3wonpzt7KePTVvO3ed627&4kyRX~W%0arT3#%Ct!Bh*)71k2&#sg~ALWWmt
zc&Ue<IM}x-Pw|V2t9|=D>TgK#NmAOFMa;liC_89v-B#f}zLKKaGn>j*%FJ3z4x4>X
zEau>rmPfM~0CYg%=VK&Jc3iVNtzqTJHuobjx31%Zyj)em<4ezkg6B84o&!|_*N>6)
zZ)9A9WjJjFmzVkgx)WUd595>Lj&lWZyJEg*Q#x;qWf}I1-6%IN96$HdoBq2ueZ<<I
z%AXI)S7dzoWtboQET>Oee>fn8{m=~Rvz)A~w|=!pC3*5NyfMnq1V4Jj4!E-xr-|H+
z8%4{QU40NF+AsbKN@yRMM0!AI9Q*d2g5VD*FEl&^6f?t{`7fRYJK8W%WCj_g)wuYu
zFir}r+gsedUt=8DycwpxVMJzgU{?@mE;T&cuy6wi^u{LGTqG?pA^~q0ZUTaenPJj2
z!?Ywr(`|&D)zdK1=o(=M_iizJSrTvf-Ccy6TOKjreo)=|!d`=L=d)ys^|3X;rOW`?
zN%As19*k{hs?0Fcn<3UN<QWpW%y4II=6isy;<PZPNsM+VEid;+B?`b{=7-icAN(Wl
zp{wYi{nM$cu^QR{A64m8So;%kZVbd&qsOaCKTN<alq&dwct8`@LYY9YJL2xR@c`!Y
zyywq}@_!gZFb6mHc(@5&9mC$eLa6@ir17NmMGxsq$9gb>Yl*CmlSRcP2`{LN-pDXd
z$Ux|tf{F@&?tGlK{~~Bahl4!-f4}JT^g+@@6f@A%v!lta#f6l`-NK~(_|n^i+n2z8
z<rh?D-gX{z=4yQh3`P~54N!u!Vb6JluO8a5V+VP8%XwQQ_Cg$sG+35l+##XtH%=2C
zizkA^4+&r0sdiqk&$%zDy-g})-Nl!mC^@*-Mvbm!`bC+Au2~<YZjCY)?GpanBoXu0
zTmA4*<9dym=PpT2lLv-1$|vhwAPTYx&^dMel-ZJB9}vd*@D;Nk;oZX?zgBzrE<5v?
zg5=;K<=@T(w-uHsrWnc*OAAw%@QMfHXLN4{es$GM^<G&x+td)=Bl5R|$MslB`W)~+
zJQ&-+a4?{d*PvVxzx(&|<UAPq`jrQ@+~@i8=XiMK6BQRw!F`I0i`99UNY%xo#0fWi
zUk%0wQW&9{IBXTDq_O&x`x7eeHZ(a5@H5LGO$!Cq7cFb1sy_Y&KSJ&~&|&-F_Ts_@
z8|r4DzQJB0LI?yPdUYW0=>&hFDOc%ws-q0{$d5ct==rjE4|uCvR@(v6$qy*t;x+ZY
zwKQyIT|a+BO>I70DHXZE`AFT{1_H09xmgKQpg#^-x_wIN-V8F1Y}y&>r^tN+*=t1F
zS{u4r<d$`=b9@DfkkVs7HLTVrXGa!5yvZXR!4Lr(8c^4hfL~u6-3q?}mS2UGM-V-L
z4_FO^05Xu>CSlgrh~pry6;2O2^d#hfK(qDT%+ggW{1ELvrNEJ>@NhX5mCXo(PhI-%
z8j2Wkb}V_ux&Nz7rO)E;F657dMn^v#)8o-P2APF2WRrlJU99b@F8@sKk%JlxI5%hn
z*5*lFMpSg-j=-^Ak*E0dfeIycj}HF2DEEuUKICNWrncQ|*V}u2KZ{HIKS}3zP7f$t
zY=7Efk&-bi2nBU#N%h9IA0sD+Qcv-QZSEEKTG%w6X{PP7r%kf7`ll2|r)21LM{p*G
z@Aj#RkZQZw_N^*EMl#=3|7#(=-JAI`y^6-wNxA7z3Nm#d(ZK?v0Fo5R>WTUJd91K@
zP205?)7*0FiuU4PFGaoLLtWl)J|&pQuzSzns!yk)ww8FhZY(!dZ-<Y}E08u{f%s+y
zfrSK+Eb&~t^MeXTY|xcBijIzA8JoOfPj}(8a=UB1TlQhoPfWC(?oEvn0o?Dd;(f#B
zDITp@jvYIqoZ^>@ZiN(tHny~Ux$?=_qhdKZ#jE38m$_mVmyjIgw(A^m362ar3)+`e
z>myv;4m~>-5&rOe>363n*NLCYU;6iM&Jd$;7j%#QDw^nbbK8cSJA5P3SR#)Inc7*s
zA@g2fze;cNA(!$ci>E)ePaJnjxa)9#eveF9KE_j24HC)&e2lbHx8{bQYf>&0EQ_2!
znrMAht6*K4gnE+FsVx_7Kl2K97C|$50S_@AP$JdC1c4lJb_lL`u69_QXT19PyE*_(
z{2DXnloE^!{2(3@x+Z(z(JaI@?-$N}6dW+g*qW+&Z8&JkNaB_<U!mjS<blYe9ilGI
z);WV9-(o90BYq4`Z7OH>jyjYasKFMkds%6UFI#MnQ*6aYiKNivzTo`3Ph4+?1jn3u
z*Q{#LZ^Qd0>xj_Iz6u6(8U=1E_JGFEe@d!g;N;(Y{7Fi4YiHR5>r4|?Cymsk_Zz+`
zXYlV|C`Tp0b4c`2pbhcjnPawuT_~+WF4S4EQ3>xF`4!b8qj@u=eBBuDq>f9z_EO)D
zvTti9+pnAYX&Ss?3AcXVLaq8{En>pO;4!1H4_l9udiOKFZ9C6?9va-LSQ<;wO?+D3
z4D~NhQ<W{wGV1=)U38pLc8Z+t-C3C^ayd%$j&gY*4bzb$_xXhQ+ZU8Mx9~Kcn)H(3
zbr}fb;HdXxAsz4@3H?uIjTJH@zX5}iU#;iVIxBD7%&lns@_Pp|q<AiUYVnDd(rGp*
z5Dh8~JAO>o_GM2;WI6LxXMe>}7G4&&jvsV*@yo7WkC$cCpyk?0yJe~N+bjKs$900N
z?`m?W`*+&g@<dsMhHup?(#f=n=N9~tbs*kz;E@1j;ruo^+)ZiUXWr;D$uH+oi&4w#
zpU1N1tg3e``L0%b2Zu&&^omP7_I*Q7N<qx-p+t&Qb^C8^hw(u^_dYS#X3)t9(eNRk
zr^rxCGba_41Es=y#kBFjxMwzn{%PSc^X5}~E$aeQqG&ua*w3Bbb=mmTeq}l504?7a
zCy()oa=x&SAfKZ8{{Q_cEG61pTI(Ah+WPjMG}AR}+89Q;Z$0bQPs6o)dwBC~pXVJN
zxocW{I5S~Q^S8?f0|=q$+68Lg)I2m$wMyKPspzIHQ6qm%eBl^F3BxzB7x&})|9S^R
z(Y2ftN)J}uPhmj0U+cgg%h%1jo?fUmq*Z964iM$pt;Kh3Eq;wHnENzP%iO&yRcOh{
zuZ7OCCoVCAIe+Vyram;awzy4vA0HiaxMj@Az&)dAdDfBd?M1JRCtT*IRJApkFn*bt
zUwWO;fA`Ym4-w1WxB7c7t39!CR47p#n;m$)IQStRl`a2mVS+<(+X$aS$NRTwa^Wna
zlIx?Mhh^%qYh@OAl*LdF%Dr?dZZXL4Y}{zJwo<+Bf}uwenHBE`CwEm+qAVw?^W4JB
ze~#-ejwf&$9*G{1L_p-=ns}_a1|n|~1C3b5)aTjiJiX{S`0c(p8u0^s0MrNIS%2g&
zCR{9@5yMQtA4=e(?_A$Zx10YHG<4T)Z{9w$yC_rYm);gAwU}k|-8kZSs7LV0Z*>>@
zV;@-0t82YHvivf5$>jYnHU10pVb0%z2HL$UslHYvi;pL@1v8}i2b*8M(&8#Oc>3|C
zD(MBuy?=gCh6bsfId?i{ubao`&+;30=y-<N{@_@sslE8;cQqq51Metz%e#-KM(?Fi
zHFhKc8fgx2`m0LTp^<?flk+_2C1BSm%yj7eUt^V9>e48144^atPbyf*N_vot4PDyr
z8>Gp~DnJF6sArmeaN2A?af1iA5f%-b@XbI_56lAOZc*<N**=RQABo*=69x4R4dz#J
zqE8~Hbr^Zi7^BeYO)Jl2N#OUJ;y@t|OAsgF&yV9Fxk@2J6ZlC?>4HAH)$|jM59zt7
zYNC->+$QIE!yoc(i)T^OyvgY7?CiapF44L$4gO%$oXdd^gH`?9xjw3x{%meZk#5^?
zQu*B7_p6c_y4Az{J3f3kd5U5nD=0^JXl7Ga@w1k#QqmXVE!%@X@3**kF$s>3Qq$uL
zcgM}sE}!YKF`k(2WRurwm}fB=V@r<Uja6mh(MY(RP~H^7u<Zb~!t%JM{9me2c2qmj
z2&aC=F??CFJQwjr`4AN&@T(1%hJ-gGgM;%xmC@khI5wti1f<2}FZyNQj{_aBheIXR
z-F)ZH9pqE-Ywy{;yVZ53QqT4rbnE+1oQQ@6xO$!9D*$1}#shktOEG7V>njE_2#DFJ
zAYf<}v5=Vf7Q8zXCCR&9Z{4D&^-}+<!J(vSnkA>fcJDLWGHg?ng3Zh=?%q$`IL$KM
zYtuJ;Whn4|s(dEXA&vBzxrRRrA?xZJjUum@Ppw%oABx;-bg{ET5lsSxmm#xFhfwm~
zz5ZLR$9n@ObGn;s9@qU9|4n)6e5%;s(X~J*s1BFEx`bDLL20`Qo5Y*-F3q<1?=M-A
z&t)gCDCl}M@qbN*^P5=ya}!3bv_hy0TeDID*TejhT2V(aa(T#Z_=#=}GP3Zxur19D
zLS45NW^#h(08z9@)Y<{HIDu}#<}I}_)FRWz8WPbt%o}DGE_eZr08hdtD$1%})=kh!
zV3MGD0A-%gO;n%7#7WR)jHl?^OmR&$U#Pu!3{Q)u&6g%M$WAC=EEywcSaUNi9F;)*
zBrzMtJ0A?(D}5I5TF1M0#Pn%9SXEiO7qQdlGO^$aV=z!ZY+%15;|Lm_Ktu3ZYv&k6
zK_r>=-2_}3057Df(E~Ujn~n_)`$a6>Lm-M}*s-Ij(seC5cCVD%V*mshycnO&N}U%D
zKwQpOk`0Y#CzxDFlv4`uRd5LUK*fYU9RpiD9Kamj_@w?AS{3m6Wd}TbQyuD!kt;DP
zOZm*b=IN!T%Z*J<o4f#@B&zd}w168Q(QooS(L;wyVipdJqd5+!)TPBDutbdVM5cvw
zQ7{-O?!XR`fXL%}>_D-Daik8Py(>`ff1wl;ny)}<AWOKlV0=Mr3I%{bf=~k-&F@_h
zL|vZ_i4JYf)$>Rlcz;u6OH}iZhMrXSzypCQ3vu;-gO(O7p9md(C*nHvH%#f3pIyi9
z<sW=2WluLt9n(>rIGn#vcd1_J<KGXmIl__ENoz^%IZ}NUc3uYF7&P&})622kS4
z>$XdJJqJXkSpgjGv64O@CccBhO3Mme+DZ9^E&d^V3vH%}R1P*HBAkvw_(wIvDd($H
zVihY_6mrF7Pubc&i`FS?{qQ;_<<H7|i%=%+0ES-T`z~{^g4`u#733cF3Gc#f#PEVe
z0#?w3+SsAYRX46&MGQdK<UpCjeKo0-^-wY5w`9U}Xz1$=-!U%sDUkaBVHz+ayh$Eb
z9V+HC71p$0o@xmABm9fTbM;p6gRoe=_j<rj(8!y^UHNq?%Ss{dze`p(X*@cc$V9xp
z2#Et-Wl&(TiO@m7UDqW*bVS13;3T2nyH^eAFBly{0-wMw0yKmK2jBSm_BKu?mdkz%
zPzNj6)iyMMED;4xo1vY_NC7&Z9rjxM=4;sY1OCMtk9+?2)RYvW)h2g;Wnnz(=w%j6
zJDy|u7~F}uVFheN8PYrfGaze4N0pbFFh1%C+s9N+mOYU{{P?xcgG?!qZ;||3FsHh?
z=ik6A@djM8l0*+RSxyGh9W{@l6yz7$=gqs1KY|d0VcRyUjA!O}_>l#Fup}FNO(%4W
z#Rd2p|8K?XI!t>wY2gsx$LoUCm%!H`u+%Eg+>O@?Pc2G=dPXk%4OAo+9rE23kSG+S
zS;ymV1uTkW<6+n&A+g2g$`08Nu<n<dj)idWa43?bw-ox;=H?^_ABp`Mli(q2{gGN-
z)KWa)1rR_OWHX8WAa@1W&kc7;#hW*e;hKJiv>rzv6DDJ86ZpI1CVp{|x8b_b>Yj!6
z*7WZYB?2d&`+B#ow>B}(Di^p?{8;+MAH}Ubd%oIK?QVG)+bXg2tfF?sT{KnrXWFqF
ze@pgkIB@mlx9Ow7(V?^%MnMs5Cig7waY<MG+<&?J*{fHbw@XuwvphK`TfJ@d@im(}
z7U3g3wL$GRZn|+vEsbIPO)u|y{&iY^zUuU^4-McK5Xu-);zKWBQWcBQ%RWqL%q|t*
z5<DCj(l%UadYM^>VU!OaC$}7Aq5+bzaM~dKBMM)<0HjFfLuf5B-gsUeD2Ez~8sGZS
zB<MXwhu7q3g1!+}Eq0%~6x)%T06xSL<E8ig`wL)Cg<($MU@dN8)}RGBSBI-72f2Qt
zyLC{ZY|R^{Vzv3Zo1qgc6LYp1Jy#{ZKVqvGXN0@6g1}xE1>4mj+eCAbclO@&G8QQo
zto@No$Fu%7I?2vjrvERUB#>CGj6LiGUA9Y4P2F@7<dHnobn5DlD9D1IVEgE(C_f++
z_$)+;i2BRHue@pmisrvGl32E*1P4gw(&{P%Z0qPDOyJSHhd3r*%(hUVLVyV(d!L;+
zP!N>a%x<hik3?p?d$2u3YJfI;Qd3il*Z@6Yya>n^@}>vZ#*Fh0TEl!yVjYR6H{vfR
zh&EYE0!f|QuZi>|IN9258-T8otz0&i(6dAOme=?T)Ce>5Es$Fhu_2Luk`hMt)Z>SM
zFl9jV7BVUAyak$+j3<NZpmC}LFB%Y@U)0l#wk7ohia#TYA5o6imHd9Saj!2t?sWUS
z6%-X2aNZ4rG(A{w<@PsnIf#Z1WBN9nod>nAq9j6Mm)|R8!rWfIw~0y3-oAiB*52Me
zDhSzk4A4HaiiwHko)nIHe!H<&;qb&)P7NnVW1@as%w*PAc60xF`TEdbAK~W)(NlaA
z9_9L?tKRxcmaksC9^_b@Ii9G^XL8}l)vZdYnz4b>f@d~7WZL3!nSDAv^OHfz-!dIM
z$wn6AmI15zzv~j*@5;V;8C~Q0<oRO<`#@i%2YgmdEkUehCY6ou^TsI>al3?m?}+F3
zreT(eWsv#k#w*Bzej^BpRi)%VhoG&1s>}?|UYnm;*m<E!fKq}VAsNdL7?rX^@SUHz
z+|oqN2cS1TUa0E#w73Rh^9Yay<4!FerS8BF2(u-p?|;MK!MF?QzK1)a1Cj|6w?Q^5
z&fzr+z$@jCg2yqnk($~Mm5WHPi71u;X5bW4SIPAQG`tNrp{A)x5i({!Kz7!ikkAsT
zA(0MFPfrt}qs`14xi>xp9i>1e-5-vfZu(e6wh8h<4G0~GX~_>KlXW%R2D3kZvcj`L
z54-^=X3pC`U(wqPqe!v<impMEMZP!UQ3|@uoug46{9uew{;;yLVg@piC@Kj;2X5kD
zgzky*$=wpS)X5(qU>IEPKy4G>PZK;hJRCr%Fe5Tmm~fCpjzys;3*E?u99gobc$N<?
zV`i^XAdmTu`0`7wWk7*GK>VftqOBg+3_`c1)~d^08T(*%%G4d3m{@6D(Szs}8!i~}
zY2>Co-@8vZ&x8u?4(0pS$kz7FUx(kpPTQ{}zK30qH)e1=mUsSmqPMH4ChhmDA}^_)
z*S|NCj(i#XP{Zc;PLIzD$!FUvL)5}9Oe7_1{n9DIOPCLV8DyD?%F6qNgtl%A?Q{-*
zpR;=PiWDdVXhjqh6mHcs<RNsPBwa#N31pu?L3mtAS(%?n`#26E)#O!94ErHdN|fjj
zTrLix5FlCAAp03%@XuE~{`1F;H}Ctq2yTo8HakKAQ#3;OfzVcVC>WvV2d;u)l&AAf
z3J;-xQ7kCKqb}aQOd4aTL^p3g<OTB`)~+wM-b5AcZlla7N+m*fhyfDu4dC3ki@`(b
zyC;<261Qf(aOS;3-Ws^4P5=CJ5gKcF<SJBjB>{wDX<a1lymaAt>zr`z_7^DUP^6(+
zQ}O*wBw~C})`;?8!|UAG))vv`1Tza{rd-V(Nb5x;Wev`C<HqRC&>WiB*M&HHkf{es
zCo$)FPNW1U5*}~blKKy{VP9aK+>g*^Na7$=gu>2TOhI75<P^=T3D@*ZG<57EXMOvn
z*tW1qJzLrr@9cIjH1i$*#G0-w$M3&0w0%3ADZcK!G$fvJ;N~<-Zc4T2L%W`m`~z-V
zdO~tEx-<BUXPidg7oXF9c8($U;(6PusvU#bRT8ak3T#;?T5V3ynaG<g7Sj&qT3UR%
z=<Ow7*%zeTd|OQ8+J5G54^0dBEh1jsI;%$2yfX&^{ch5b;6Zgj@au-HdtgPVTnvnk
ziD|(T4ajRh`X-1&J7AQ*IrHh^lP7F&1Eu1mgW4J0JV&LcYV2{1f|pm}Mg!b#Grfm`
zWVawj0P^cYSXW9UE)eZ^bn;0IT*j(USh4`2-9vpK0@r>Z$s><}s*+J0tQz5QMn*=i
zVWkys#3;)0%D2LHvVsBVI5%cQ&?8ibV0R2t;zA3Tj7}-`grh(H#JK+x?AcX?Y4|bX
zQb9T)D-y1fGl#%5!ab1U0(~Y~3IqJ#4<p4PtY8LrNWLHxbWrz@%oQ-GXh?~8jVHWW
z^I_@{Q1Fr9Z3+PVV%ghq`w^OWxA{$w2f&i2@B^b-D-sm3TFMM5rEZA6Luh_nG0~qO
z@)J~*!t@&c)<-pLB&{DNA)K};`RDZYuVKSe=J(F?bQIvoJkuOs+`W4`^UKM!^mObR
z^@8UEd3JU0mCv57uSr@SUm?<SBCNnK?Go6AAZsD%HPA4T1%YJslHEVOU?7n?{R&4{
zV0N}3UL7nqQ~bn#l~(APcV<VD@L9)aUClSPXusJRHPz{$c{=k?W4*$3LkjzPo+B^&
z`@F{_jk^PnmT0SnWOe8I78kmduv5M392Cpa$+`z`rGx}YVq)pv3sxLuE^LoMqB@gi
zFH@-#MeOnGchE`^Un4#lHcN$j(5Id{cTRFNStjw3$E+N2fk^#bHpk1|fLBZ?9BqiH
zxw#e(kKnAKmSp5TkgLe*Y=qSh;;M$4nmd^C$WA%Dh)UVs#G;9uPLz%NC<QS5Q)Ps4
z5`8Fu6l9=GA&7$#yXDjyTRS0MBq@<#z`)zQ2D{vcI6nyMQZbF{<GL@;nj+W~belBd
zBi()uIKj4g4<`%`AkE1IjWCX6o@SS9i8simeTf7geb6mTLE|5;R&#N4r>oeLDFcs#
zJv0Rz?RI$h@g&IY=G9_B93e?o$3S}~Q=4VQ80+nVF-afB<4>k+@GG(q^ob$86cI<G
z?8U7wRN{n#s6@BYU*qzct-V(4e&ECbH=|W^7rhx(>Q&m@6wiI@Bkx{yuw8KU*8E{~
z?D?^T*LnSqbp!?+zSxcGHVZ!6lHKvXYs{ic(TLG_`|rQ{6}A<}-9`>M-{bQMyM3F|
zv-Z!c-~Y@k1W(DA8kB|?jsS=Z6yUmX>(tD6Bj@rr?Y_Xif!&KOUtfSzZh$ioP&ZLC
zAk!LB7EV=0%w7(eIe;9{Zl#*OzK1XdVir+V!hU<6%AWMJv;vDJMj|XikP`*TvqYDq
zHRTFif=G3}nu{x;{UD2DC%ft7&qyKg8h14nh8YsM1j7x4uCK5*npRLhEhXg<;x>R-
zr1~g9m|?y4e=J0<<8${nhol|1`aY0K6r?*?Z-I}Dbx-#(=quSf;hy2+Q$D>FhfxwC
zRy3%|WV;gjPi&cba3d#vGo5;;z7mJHcnl5!GDBIv>caLad|cv$$>cRf2~YhF00ZA^
z@1yW=P-A;YxFXJZi<cBSZ-3yd%lBOK;LS;cNg9nME~&Ylov}h75lj-*9mc-8z^REc
zMGb5;xPz$N;JCOzd{DxOyzd<X$qmz{A0AZZvNfP!Xshm{WM+jAmR`S$Zy}6D5{Ol<
zg~)UH*HkW^`{1fVxHE%M4T-E1+zi<)jCVf`ai3g)Lyq$`O50Cs8E;k%So;0G^Sw6R
z;~ozMyMMB)lw@rAnAsj$540!idtPxjXIp$2KiKo3voi#}2nmin6SzC`*jxp|yHUr?
z!GUXn*<(g!?_9#8-=({PMmP|a$nel$jOf}AwT<CAs<&r81k3_aJ>fVh3j!4Ss+4{y
zL?+>@+{Y$4Xf9K2+M#gA4+wekM9^|Z%pvU(UFtd{3Ub-mQbJ(~gzIUllhnUL92_4?
zqGLFS(F_~pU7$oX$?WOswZE>J79JtE3<=4}ufboZ+~THyNO%O-;14beSe=MV16pt=
z!JKHA@e!>e7L4KBD1uoA8<_y45>qr$&ykc~1XAF6#riTY2%|lIO>o03?Uk5l8tl&e
z@kU(59{35NSsX!0YTwLmv=gL0Z=Dq!#vFWnN+)LUiAjDu!9vujhaUR-gBzuyz*aQC
zBE<2D21PF4eKXsMFf?`ZL-+R*30(2UjW2OCAx!#2_we)vTr5t5CqIB93zq6r;s72;
zM|u$_l$X+B=ZQ`(G=WXHfF@ZL!ZQbVl<ly6QT6bsUe7h|?}7bQ&1b?_y1r<Y>rVOK
zUdqz)9vSBqE7%v3wQo%-h|R`e{_ptFw;i6M+nV`&LLQ0l1N-rE?p#Au->n0CUECV2
z0^_gG{yH`JxLZSzFUqHItaay|*t>_`iF{EHI(^ByB4%9n%$OZQAe99_WJ1nI4zXvA
z7?JNI!W%FVnSbeoAP?+x?SB{c{?3Y`^5h*^MzmORXDf1zUz~yS8k#M%@6a2(#JwUd
zUWzwTcmA7p8L%I*nE+%-l>!EdKdGTS`v?<;LDhXo;;pQ>c`wkmDI1X3Ou#!f+Z^_-
zS4zbW*zFUN%S{Uj>O458BLtceey#v4$iMg{kF@}oAUkOLCl4NM?k};+(v1rZ)%yCR
ztaPRYS%8>t6@#_OwxeYnLGgW_igv8&-kC^e$n1A#fut@KIwYV*BCz<v1*wSEH*snL
z;u3P7L7Zpp*eTHjoe5|Wex_Ucnc4)bfoXv%W9%k+KU0tckcr{ZC1Hh-Mw4Cvttb-L
zB2fJ+W{;b&<o=kjyO4A`J$JII<nRARk!gu5qdD;NlWP#LWU%q79v)H{C-mO^Dl08T
zP)-A8Sdvl-Eua}D2%A;06DJUV{Tf0_EFq=EoZKE>Q2O7snduSCa4-1dQ+&qHf}?R6
zqZovrqomOMXMYL{tpwd$tY0Jz4ZQ17NRPzLZH<@So6uX-3uGz{6_jiO25){HiwE%G
z>v31RCVjlUXIFm?zJu)%y4jaF;JLCd0uF9`^JWw{TngZ7_^2iHZrFgLg#L~M`dY)D
zp0d6ZV->%UqVg2XzqqWa-{BU;;>i}c;k?lRAz%>~SHy<*8PS5m&u5Lzq?q3*$d&@2
z!H3c7nEigLpU;7EOVqo3I!}?0d>__epmiiA0iTcTAqQlQhieGQ;(YJKqL4R;iB}s7
zLa+o#3maM{&Ws`k8{Y@cwd0ruk-_x{##803P8cLHl(hrKd)v{Ghzd`J3*dWDa%Q}5
z$67c!+!ml}7I=njvJL_&2oGB)+^%-}PQh`a7loV@OFEwzuHZVfqW|v>%MuoDfBm}k
z{<Ezn?TAiD8A-|bzL2+g;p9WgqU)Cynz{e%;1&C}Iw3sQ(WDubo=f!*%V82V&cu5?
z_pUtbx-wT2RGV6_F_3hkQp+`zHA?>c4++KxjJ{79>VAFw;ifS~SFSU4riD*1)vKXk
z9ca)yarc_}QUyM)XE}fSE2nx=v#e(O?u*?5=c<K5;ZR4jHU~j4+GwD_ko(=w&CRvQ
zHezZwS2UjWFp1@Id?jOiYD@<ru9D-c|A$iPiA}ezGgZ(@PK3{<$gj(&pu|Yg>P1O~
zxmeTH(?$4tZJ|K3@`*^H6A|l_!^w%KX)Cdsqx)Yf>Byl#3*;8!HbU2kdEWHOl{O-v
z7<lnqdmPUR_J5KQK*X{+jN=1?%q*OO^AqXuECnf`BY9Jv-2iNjbIZ%-il}ubC;sFC
zgLPyH0ccHO&%b}xau~-Pzu=DJB!v_$8TLeYd)d9o);NqiXH;X#kP5tE^Y)VnMaVBM
zwglc2EADi*e+@O9tfnMLH?YsWZnKnlw(Hv4)t<hCEb#C0m#v^L>hPN4sJWF>bQN(<
zl<Et&sdRQ;ggyw9(;Glg#IXeV)XV<<Xf#<&Q3D%Z*4BDMA`^h#MH9I?1c}CQ^cAN;
zz9<t;P!B9&f`g_W9}W^>Q@j&C^&*hoLP67lCJ7LZDU#zLvsg!9X{e7Iod(?-psFM5
zb8&=@7PdFXr6vMOBSJXAZjlV55Ma?tmIj>|yiiEw(bHiFzGP#Al-T`5$coJuYDi`P
zMzTxfVypUPB&wTa58@S>M}NT*GO9?FAQ;GyqhNtbb>!-&ShVFZo5}0yvY^ExUR8AC
zw}Yg9Wjss23uosX(#*-Spvm{yEdUX?1~LFf)}UF29=#4HFm5QRAdrAO=>^cvjF=np
zoe^P-n@Scy$SwT<o|>f1Hvvl-3LEJn$<#r{z7XRyTc%|<=}MQO>1n8s{()w;F2}YJ
z`kBWg+jZ|}k0IcsQRAr^MYQgf=JBIa>4}c7&BA{Og>HPV*;hHtXsy^samnWL?5FhZ
z>vr0`t-tKXT{<0a9CgeW$=@%=yQBR@oXYnj;q^-o#r9s0`{LJN{k)j%r^qx3M|hIo
zoL&`T%Eh;XWi>W3*f~;zr+JKJak~PQ%Zt}-G^KItx>YZ@{U~_B8Xm5d-sK*LKH`5C
zG}krX>i<>DqdeJZcu0CHx+NdscoumaYed5g4PGrGhtLjUsjm;*;ecCw3fx)9LQ-Ip
zV5uXY3CESB2wl4h%p_8HfT$j`1MwRH#US*>+{{dKm_t{Cc)%cM@~N$@<;XTwLc{>#
z?-D?zVX)mtH(&4>>!0vebd9N~xgM?%*t+?a*tCKghxbVuJn$vjQ2f<{td&Qz-zD%c
zZVWyf^!Al+YYt@$hoUe)4VS~b=`e<23d(#s<6Suag;Zbt=;Tpd{N%*Ds|k-ak%k;c
zAg^<PX3jI?7es9w0HMk}%V@Fi#n$b-??PG^utHc34tkS=?$ydalhd&hAU-TO%L|<&
z?MWQZS>f?w4reGhI5|@qOMo2#dM#MQHk$~FTAa3Wxc^a7NS7q~O%6%P%GQSFc+nY$
zUv1Whhd<M3@aIJsrX`nWP5E!S&+VJ%ou_y3_1zCm!?S7E=A^4D&9I-Mu9?A8dB-CU
zHYe?mRZAHk+uybPv9Pf8mF#epU6Wk(8DEpAYaI~5-xLVZME>$hWPDxVf_QBn)oa=B
z-NkaRi?`HuC2Q5yxw5txPd}eq;P{z^LA|*zIPSAuYhW0^cPWo{-=iy%dUWl$UqJ*f
zgtC(fAfg#?R`96m*l(f)d|pQ84o)5hOd-r@_=lnCV?qG9P2UlCF9n%seTeHDM;iy0
zhCvbwbv9T@R+t=Eu<wf%Sq=0UJOb#GzCMUmR8-Wgk7XUj>;C^+Q>%F_8W0|V_t8`F
zL+!x>$1lfZPi}4m8}I*GQHy_p74HB?K{YSSkn#yA!VgGC0Fr~13r>I~z?72NWP*xC
zlB<B)17)k}?$$vqF(Oee$fyY*v~S;CJf|8GPuQ%X?5*kS)I^|-KTK)?sBC`74p-{a
zR}S4|1ImTS#L2&eu=nug_X0$wjcUWs_61=K$on9&<y*6#Z-Xy(9_^9QAb$a7JztQ_
z{>WVOCtx**Krlc1EdQ3ftrP&$VFc9UM_w-}TxFmB-y@-Fvhef=e4E0sDFX@=xtReN
zD*VunYyyx?;?Xh#aZ6!|xQC5Rj0i}khfV~+PHN@n1BSC(0~bq(rJX2cfEW_I^q}D6
zhsLYbtM@QxV>CDbrydNNWR13F%<(FILPG&Yf)Hv=WN@|R0P<3B$}s!uaV}gW^6sNq
zIqM)IFqur~RdWE;$;zyp7OPIn#Zbnu`;Am{_MdY$zi)J;CSEyR;aGWCRd}?2?y}LB
ze*RFd)e;uP$R8&uX#|Id*S0*)F^>+)wBoRO9Vj!wc(`KjV`Js3_lwz_0T$nizfHvU
z@5o*+c++wQP<5WMlennRK<$}#_X1tmGPAXIRm!{6O8Ij|^v<)aWsf>f>)F>=KaW4o
z&ia<hRypH0-!cHa#@5ypfQaOj!C9ct=Lp^r&o2p&0c}bSI+7=e3=JMOtTVLaJ^l?X
z1NnpaO#-3R3oS^X^g<jtAy?6klA{olsT+1Jc{LAsLbTl)D;7Fa_4^-Ctt4*1;5!7u
zc~~e%a?{cClL$0OFi2X!<Y}y%!`w&!K%1T%Rp5<enfSlF9;uND3G4^X#^Szjm7#g6
zo2>-%uaYFof7BZ7Xhg{o1R)NJXCC(E{R<LCAEkr!32`kgIMWV^h`fIHE)*wJcsbb<
zP0}2JS)In=2*NN0VvtxVcf+S7X$fi=($>Oi28JN~#QCo+vTABU_<jX|M?mxv>KY#2
z&wvM@)MfC(D*-l_ir8+zMx>gv?cU89d0gF6r60jm$`Jy*1-alA3h=e@4I0rtU&r>Q
zx#2o&NY{HxVz}{tD}a_$R8gsY^@`HdbFF8|l~)k*-NvEK@K%FJxr>=8)BU%_CxI#q
z+=%Ud1+f$^H}NCkd6)iap>igz;#TC0JoRnocohx&+bhH?3<1G4hu@-9&B(mDg&hm<
z$q03_@xu7=X7dp)F026&-y`Mb>*uE!HPVdX0QPMt^h;U~WD1We-}E>pZho`in46%e
zR`=bea}(z}8nU+zJav4n-%$FP<@~{>O;NVd?kxV!3(J?1xLHc%HcEKL(6}<yCqI)f
z%J_IE#!u9s@X8iY3`JMoMt}X?@vNdCMB|~n>1B(Sp%3@-y9!h8Sw8H6;~<CBW8|>{
zFC^$<)J*6M2QM!#(p#l^Rxq_#0=@vsm#8xMIzZyfw%fbb{>=PSvFa4!wCg`oURr7s
zcNR>dVPRq8H|1SotUr_p0!u`H22rT<IL}16%YR6kH8JJKYkVje=5W!E3f_ZyX$P-*
zo<z1c$d8jyMj<GNBMA0CLE#IzB_&G^{F>)S^rQ4nyBSI-_9^-_AMM~={=aB@4`{Cc
z|8H1BX_8POS~63FvP&U*RU#o<*)uB?GK%a?c2=^tG?103L`2ET3>7809<T53cb)70
z|L@;*pZh-Nx;v+H>iZ4v&*$?R&*x)3osLZ&><*8Kd{|ZxrzQCN{kY1;tnFsk>weE_
za8NE<XWA^xAAA-(z<F^^+G{VSF;=zar&E!w-??5kcU;w*k`R)yI3yww=NGrlT>OFH
zJFW|9b#5MZ4tDVHG}eWQ%SDHud!^8Ly3bok*;@HQy>q}AxWjFW<v3zVAB<w9nE)2L
zwN-ILbzUUViD0G(V1RML4<IVqAD)c?deoH<^Yke!?$g5sZ~}T*Twt4V9wVuSL}J11
zA8{mXaK91TKdMxwyEyA`kzt~-mb~${#|ZjE#LyKEyP7u7JJ2_aSk0bOzB#8Qn3Nvs
zc#yp0;+A&Z$_8m=6PEI4I|FL}+>h5}35|`rJb!wvIx9Wv?r%z?${+Uro|#gxGvVLH
zbwb~$G_+sLKK%KK?F**;$?L_bo^ka0J301UePCH{J?+VD9cnzF{$C;6Jr>xf_qH+$
z_@gmgAbv<Z7d(qCU?4C_hihZD-jTJDYY$Vumd!vJ;}Wm-AC$q?=bcz%cb&NiJJZXT
z5eM;35b>}VE*NZP(qvLxaN@;Dfw7(A2#i2co`K&4`9m)u7yH)eZ~P%+_Q;1sEcvbO
z`SSOI&SXaVYc=XFVXQ_u5xmi?cI*>;Eq`ch6W^(M6^``n$Wo+w`pah_AyBg6an<w3
zf+ZQ2QkN6BL_hcSM_a1(ot$!r5tMze+MdT~$QYcW@lJW%tVLcUc2^pHV3<^0z3&fm
zL}tArEh<(p#Rb1+>~lW*QN^z=3%sG<J7m|KOp%v8vM{O<=)Zeai=bOjhPVXnU)W4M
zANVzL4t0w5C*e~cwqpn)01HTn;(@>rtRJ~)L^BPH0+R9QJ1?PfZ0>DluC||wb^IV)
z_Jyg#`k{f&NaV{0ZJKtoGW><nEIZtO?U!2&+<q-5BRAlRqdoI=&HDZiUX}|T8pGA)
z6pNYGKN+25tTt2|Iu-9XSXa*4pK0rA$RZ-1e#@Ma(dEQY{mQyOk4H8Nye8V_UaR8l
z>lZYGAr0-~;M|V-=Y)S?Ac-~A;9iBeXAjmdN)PF(oVt9mX}?3VA`$p(nePAlrTM3&
z8D?L+O}v{puk>!8<+nZ{MTN-llkUsMo|fOLT>5lCUae=_XSoe;nZI?>AJh6;`QnPl
z*{KZK7rx>LL=P6cbZumCJ=y)p%kYST#g+EgUEL8sOMkyjd?5JwfoemLni<Ebhb`?~
zb(I<q-Hjz!Em!>`nmFI)YKIhv)eX%LwD!B)xU)Hv{v{5|KTappCPIdu=dc>&T-P2r
z(E4X14iX9uy2l?eb`b(xVBdjTNB;^P@Va!~>f8n|$4YskIo5Ff*T#b&oavm^O<vR4
z<dJXF&zb8SWBSa?^{Tf@QLzkm+|Ro*lor0D<(d2$-?e#(O12M;0}S&wU+Q6GxW4jv
z;KhdcYneWKYn6s0clTctQA=})JfXZMjZR*<U;OFl!}c~a{&gBxG(^T64<nM%`mzV&
zIQ1)6?5sXkN+;$xn$7kkQ71^;&)02<4ccgB>sGL1SE+U9<1?M!t%Js4VduT8+S}UR
z;$moD0~3?`Z<>JAq6u%VH)>W^oI@hwr%$hp2`f{nS=7X{%bn*qcacMt%KN!w(4Gzn
zsZq-;{mz_EjQHU8L^xdGjFk7Gfwu#;gY2?`yv2&O|Lf&HOKX$G>bv{AoZ9}+jBS_w
zo1nZgv!QcJt#MO#dw+EqzwFSkTl`>%q{Tx&=MSp0(Cy{Xl-1j^%*b%EJIBjo+m`S5
z<XLB5<fX2;C*d%Za`EInk(0G*TITBZ>c19#CtKX@e>vS$ZXVwgwU9YBm-jg!s+eJa
z+<phw{(x(v@4j81xRal9gd&bHj;(}eAqRetgh8f_Qcr)?+P<|OTS`_iTs}Y;M+6Ad
zaScB4l-#hPBkRzS>q5KG5rfbsG(AF>V>DehQ`$B*K2X(9ij=l;66!cXALha&r=)bm
zdWX@#>A>noxY|&14a2ZEJd%Bx!qkXvI`9f@5$)(U1cJnX3=2iNrP;`kWmJlQC8i<H
zqrIL-nGxM(ss$+r8%kPZ6b=Qo*2LeSnqPI6P1<(&=Z;&}8|{BRH9osTIH8nI`)$Gb
zWQGgcpA5%t-ws$eXFfL-(x+!+qq|pWZ<}Mg!Vy^+`R%q>xvoc7<OU3zjO^0t$P4o}
znl{jAr&DTow!S5L#Eh}?eVT2-*H>F-_vnbY2iz{-&VSfqt9(RBq4jM)DZv@Wr~;v$
zLdCBy+h4IC6ueVhZSb;HE#F{tghTkr;^A!~CnJj;3ZmBrMZ>t9m%r-xn)C5}67K%9
zhv?Qoo0yCKtNI{eDNr=D9Fn!N;sxzOVj_*zi%g7-Z82dNHxr^}xyuF|eb;74d3)2G
zoS1kfN;f8xdBcYW&P4;LXD{z<sS%K`dW5bMN|!9OFupSilnl3xM-nxkky#8tiHk7|
zoYXn@?rnoR>?+_9I05UNTms{kfJgbjU#zHPylRX0G}bwB>W_tTQ}QU;jFlcfOW&6c
zOvZkV>#VV}cb{@MGw54yxYw|BMMy?yYN{waeJWk5DQ+^((D1zb{mc8;hs>n!L>faO
z?gU98-vbVkFnBz+<!dOsNXdNtLVaFW{0RT|)M3trlkStpn4X>ZRyf&IVrz9q_DyiY
z4fnNfJKanY6Qmt33OIdm+FEcT;nf9E!|c`HgL{qMZW4966Cce=l2uBYdWXjtrlV}E
zW|hSHg#TpaUEMrX3(q0Yg2R!rXU~F*xm|2O$Eyv+j`W7<cir7Lt&m;E5}%wLB9(IL
z%$c;F+3EfFpGo%Kr`s$r+`Q!Jw^lRs)^+d;#;RS887V2=QYjqsH-FYFHacr>vPZFu
z6at{r#;D8xS55(fG^vp?;yxN!KS}&{mZeg_9Arj64xMgX7u+xL3{{@+9?!70n$#=q
zIk6X>X9ZFpnbua%mCC2RqGNH_A}QO#C9EdF-AeYb?Ltw@5Ze*X>X)vrejiT0EqRd=
z#rBhhVVto>_>t7np!B>$Wx9PWvzRNL%%XDV#rA&rTFO_S)Ia)ihHAX5N|5GWzIfMK
zAPJ#RY?HfU-=8tLwtbT==OK0@+eK~K@`GVZW>V|gxEO6rOt*dwv48!xyZ)u(E_<d(
zyJJ7Q4wef24eCCIh%7K(MHtb;87Wu~u*>XYm7s`-wR7Bei%;E>tC|}I($jyA7+>8B
zcOKwyDDED>u3k`Tz2`#C5(HL=aQ!*YAYI2WaA4r;i9j^gX<)@L#S}yx8GQsFgFT2$
zFr&|bJ7!dE_Dy{q()7QRlwa7=_yuDSfdpf?@HPNYsE0|)kiuVMWP^+W>p`IFdS5Ag
zR{M}!3%C#X!*CeU*_f|}CxgDHV3EAp1_!=3xIzdBYrtM0Tu5R;ha^;kqetAeEYuxv
zkBB1r2xu&WTibsZn6E8eA)+4e=1>8HKUGSW@Bj_N@m3krX#oJqsHjjQV;Ct$^NL!@
zqtYFsWN-lq2F6lAQU)C(L6h2A&vHiih;KH8(EIy`-k?RHCwB%nN#3%e%;wZD5iBvk
z))x_Q?{HE1vTm8<Kx6rjCmB`^RT;s2^Gi23u$M^}uSRnx^f0u4Szi6ko+bI}@YMKT
zr~HZ+t1_&{@8=bCgzd8KuWfwRO{1c>vFcuahZk#HCrmrM+qi1&H^=B?O!O9hnb;o8
zEGA``+h~Dc;|)pMDl*-+QHW}Y%D99KoeEjUV^K+Cec4)T&BEs94o$no--gOF{wA}l
zR}Pz5u7?t|wZJf>aG^=T$D+0|P4ugo*|qzjc~w@`!9R^&r;cv@RmhgyHlMk2U%Nk;
z!(zt<uIn+*oL;6fG8@2^Tt%in(gBfPOlQ6fVAX4))(p53vAy79!<eHM*w$l29Ipv0
ztQt^#I((mc_u9x7%>>P7Z|rYrD&d^NC+>N~qq#=s_u{My=%SX(TXB{ue?w7>EK0O+
zn@FzI@rA*~y|S`RQucj7c;%K67a5eWnk43;o<kJaB$5@OaIlF-jC!i<gxD6%y+2@m
zcn8Q}JZOWYezb%;cheq50u&ZAFu#zxx~impVB_eTi%@=}`&7G@EQRlkyi9=cBglhB
zg-(V4fJ%=29WwMxfb)@YrkGOz(ykc=C$xS<w+_UKOuhz(y2%T2m2@4>Pe=_@-6A7|
z0q!XMAD)-{Q9(pBgg)vm-l(CWK}cY9BA6(1J~T=kO(6-ifCH5bK1RB9GtyI++X_jJ
z6H?^K)KDM;gf+rJ1^<wGmDbqkC_k_#XwI=}_2H<7bUqm%c5bO46takFx`n`ZXj4;B
zeB=2dKe$gycer_P1w1$kbT8eYA&`iZ5INPVZGanse@8NdUfyy@_9M=$Ar(0*8ESr3
zx?aDGqztYy1$x#R%UZtIH*fAr{`SRrllIP(qSjqrYhTSi2|%sc#X9zF-=pz;_Kez_
zb1GuLT*_U$UGNBB_P4|N>`!#;7VLXH?IoEWSv{ya?U-3}!q;j0w0}oXmbq`{jZ3cI
z9!?zOe`I_=G~V00Y>l{%TSR%!EVC4q`p)8)${h_Yn1t6#-MjkavDDlhp4{DPDMdRN
zg#6BDTPeT$O~0jqg}+pNwSCx_vzfb*jq|9coNg5D-rLS+LZj~AKNZ3<@!s^Q6SCj{
zW{^lEc(aZ{UXFI*4)hRc6)<q1TI}pi^M{rDR~9r!e<725FGMrynY;F{hxFtDN%+;-
zzbCc}Dx6J#K?vFL3uhHZZ66R2D7k;V1HcCcCEPEuw6OT&paHSweMZ5*_sV}7EzxY*
zvIQKcB1CV*gazD)=nKIV4nfKJaMTBi07JlNATZX!AA@C*w8t<<hbChml#V*Jt{32&
zipu=W^b|cJ<vx&07l;4C*R}Z+CM@Vt?GMcR|23)h|D6h3?Rztg6jV*X$N>!Jx1;5e
zcSPjDA@ptyxM-j!hx(mLL*tD>A5UOW(jxTLM9mALX;I2fY~{+!nqM{d7Sm36qoP{l
z4~B)GH9kE2V43wGFRDsiZzF4JXN}p-9fC=zCi?AC$=cqfXKUa62<+E{#(BIj?atEN
zpO7K-XKbMbZJwO-hdwIoYQ4iu+giu-aqNAeY(vW6qrmYkn+}K`U(9&<?Lf`M<iyp+
zGjm^lvHEt%uo9v4?qa*UG37Q%J-h4F+)KV3R6G74GseN8i~H;HlVF5(B2i%I&);~1
z)<x47tXp0M=*h6|Xsr`Fw3eL(GUd5%$~jaCHx&O=F5N=7uy%iK(xLhJq}B2rtSgt!
zCI#-gy1%@kYD84}(o4%7E?m0(K`uHILb}5ezj)PII_?c6&1p&b+e`T$m-2TrjvD<z
zQepk5S$WBC6p%iUvd8cn2dZ*Kswe(u%``*`-tvjO9-zcXhArqbf|{g)+ask5iJ(9^
zle@PZ(`(3NU_`ec1rT`zCM?~&JSa<2K{gw}^+ocDhQO}x!s$x~QbW3%8mKbK#Y4sZ
z44)eU9nZpED8CH0oEPLMJ4rJL4-Y3H8<mx-5~j$RI13`v7jO$nGy$=#`ClVo&pSa8
z2Tv3mRM}_Y;CTUFo2{#>D}4pI7taO<^{_uqK@q-5RJ2-ZAq^~P0FKd1@WO8a;;r`N
zriU$%dG(MHbMj(EoM(6}$B>r_Xq^f#m1G%{S4QICoOsvRq97q(LS8V6Jc7w<S0iSU
z7AiWD00SMWDol~OB*z#j8_QxI|5G{5Zw99o-u0H_lO$;Yr8j-`lT$x$Rl<~@S&*bX
z2(FC4^>VQvULyJye8&OFC*!8Ci$__Ar{46))y*`i{^xG1s4@)p{CC-NfojPOJgi`T
z(!G01p}Zm)SHb9$IWFL3w?INf0euQOuYU=ikz_Z1pbtTd5&hnq5$@1=e0e)HwdMlb
z2D1+(oTzIKOG>h0Vi^?V{}-*yXdUDfK#b2diC4~JO0+kQI#4PZC)aW5ey_m~$A@+X
z_|ul={iI`Ow41lDm>-u9jrFHke@kbsAU^$3Ca<oLZpp*0TWGlSEtl+uZW?Ef+^30e
zS&1<^pz<-zN0u2bvXk9KFAAL~^QP{qnbq`NZ$fWxES`GnCM8Rz_;AahrrC6NoXkBY
z+o2Deehz-<c>adkTrGoA@7;1>W|>m!<>B(A7fTKXQmi&WV*=*B!c%%W<y4Eh&)TVv
zM;?C6*}U0zZ7Y`_#ib97oz|~fMOV9DWnL1E4}(~^bfZg!K;Du}hD5Z>&4{&+#-z6E
zua8Oj{p3*B8~rim3MT3@q1S~6cQZ!T=~-HGTyGnMALckTo*2R0j{SgPg2!Nl?3!3D
z&U-mMHAQAE;O=AxJ%*#WInEQBOA?<<hQ}i|0nsQbWc>{OAJQ5(hkpXL@BXvbl-Rg%
z8$nCl4k^qUG9wjmFN$w6{s4hQ(l`YJ7=B43EARi5*tm;1Grcgv5AzL*z#*YK_eJIv
z1O%VMRV1Fms|j^-_5jLwB8J0WA?g;?3ke{tP8nwp&(3z>1|!RlBvoL-{7K>Lq09IF
z9~8%9c&QD+%}<|tBf9IrA|}+^Ak^*m&uIl>dkzlHgpeIz{~IKhlvd&VFa*5a)7J-4
z0xR@%TIVt$kG-Fl$Ac&nj4xouXostzE1UNdVHI}9FyOUy=hrwnPk(5DdIlW-2ttU^
z%ke=vbfU#^%fMA<GN}umO*q-Iz@Yj5B$_Y8pk^pv<e>AV6H;m1D{MQo9%Z31s1v9g
z3}6yj*_Sl@bz_}W$_-w<;r~qxDj1b5dly9BT+aH>X@Ku^vUMZgdkh#G84Vms8j<+!
zaH_AZM$sy3;4rUX@MX?&e}#MDe?wF-{=%_DJKlAa;1DYGtc<+^QhJjOI_~p!3obXf
z?=ACj_J>^XAPCXxa+=LHc^AB?{odW&zh{7fe}TW(!|+7>Goh65yyw;{H=mc@;<g&K
z(s6P39i(1WX1gu#KKyIPl`B<s0vSD?0aJH%SU$>)DW9i3!7K3q>1?|%j~9A$Qu1q@
zN51vmZFk!ovxiKA&j5`3z-VBR&7Kt&>9T*w{%UK&uIp%*FIAOTG$|&mH@;_R@t>5u
zoL43Ovy#`Bo@54n*G-O#BhyMRm09dTqp<D)J{sS{75_6!nCPuh%H9Sgps=SnX&8qy
zu@4d%Cg!-p|3^M3EE_I<N^3hielP;$v!$r0u2xt!ZHsvdm*k<|gv7*u%#|QRkbXxh
zGH`ilQSU&hPJy&L&Wm3)n8E30ptyr*k`6l_RWuQqAObi~r&2wv8cul#-M6YXMCz27
z?SO{>V&y_q<}6}2>LFW5x4!~Uv3f|xp`zkq{CzuN9T-xOflB=25Q~S$(Kg~f`;Y`}
z8&U5dVhpaHIY=(~aR@>2Ls1WfLJvSU&~X&F@^DM3K!zXMe5J+i2*n>*X0Od%P8!wP
zJdJHek#p%h>U1)Mn3&UuDhaMhjQd$z|6b4Y9_~HpB}nUw&WV<lwF4U<gYO9PhEai~
zrldSY>kB$^3+zss8ZQufqXE(r58nCqtr1L!V8$3!Iel;s$DFWc0U11sEoBH9E8^eo
zfuAg0&>N^JmfsBy8l-$HcK>cDZnbq{AdM-+$Zb-pMB)YRU|qG2dyNei8aiif^Bm%&
zFP}a=U}#&!`DPrYAS-(ZOoVB-%hI>~h~iDfSO1fxnvBN>4Mrxqp}|xC@fFGt6xz+O
z#Hdpz;cky@A|LOEp0&v4#1MLE4UKSoo+vV3paFxmf88gvRMKUR^TTrB-q*msL{ziW
zqboeRjV=XHio?(f*GA5LX6vpHHNZF{v<Nt8n%)~!qTAW^dPpNg#RWP4>LrJaB$D45
ztl_>~kS^oP$fn7&Hib@1`K2o7Wdrqd{z{)ePYXo+VvDJwyDhZ_El7vsRNq;U1Kejc
z=VjlrrjKUM*Zo}HJ;*<5+hWM0c%<U;4_;Rn*FWRG54LliIHT|-(PP@hoMR#Kg>071
z(ZhR`lqjjKvuvlQJR)3juB*|fU3!|<XO8{YSyaHJjriG$nAH4($$GKT3Jf+`HNG6{
z(3o74mxTumCQwxq?s<0bp2(k$|HoxC`=NC8LRDYSLxw%Hw6uW<H}tBV?qMbac(J*K
z1(NOyZvQ@phn?GGc=hUOnA#x6BQjKCk3o+q?*Rw}UwNS6>iP>gb2xCpx8TTZLK2sH
zJzYX{5iKKQ3uF)^knQ|opHtcAaaSH}KawOyjf)z|3(X>bu|vr;oSvx)wtEfrpL+TF
zVOmm_k?~8X<Jbp10gn3YNcu&O-oCz_d-ia0hLNgf2V!^@k1rq1o*s%g1_qG#LbbG-
z%{EW)?O|P@16?tB+aF4<NL*QKj{#*B{Dla(CG3${QD<I2fh343Um2ZorQ0GeMvUCX
z?(6A^L46d4uy=^vh+CHA#3P&_ECV~gi@6GWiR>6KVzp`ub<V%dE8)I{G2<4>MeKo#
z3To4stBm(1y=u00kp(yhnN0_A3S^oEnLq4pZIPfEjDDvJ^E+TeZ9s$8!V`|(2KnbC
zLr&?-${~~#P4)E@(6mAQ${u+c_V-LBCRC$jJHp;2j#8P}#2`#0;q?%Ot3IrSrGyxn
zh>{V<8JYY8cN0a!BjtPWq=RuMT|eH(25fe6ilR%UsK;b5Xa;WnnUnR~y5||*!x+Kq
z7eg)E6NGnS+d{4S0vCF=YKm00(lhLe6BtE~&J#x~1Nq+<^IqbA2eqv`O6=4$;j|ig
z%c^jUcyX_ho^fLYFwA^+@3Bt7&r2V_G<0*fUh@RhzGxVR_13S*#(sP@wh59pePdJn
zWha+#>;voc_F%SMK~8eCp9V@CvU3N8BBbPQ7@QR3x&9zGyEXB?sKc?zQ%|f`UbeQU
zjg=+cU~~C=eWJBybU{ARc;d-9U1bSvk+}ZqxtJ%OLBwp>KjpbAu%txr@ngYsDf)wX
ziHdV(CPC)X9wjBK;#sd8^IFb0#I91T^{1r!@U8RELz&)Nb5<Xy`1tnu$n#APudkKh
zU70)D7eDQi|1w$mm^!n{tIL~{WE-@6J?ER*Db(#~{=djhAC){+-7?Ue{9XP=*TFUC
z2Pk0f_;);Sc5Txxo}y>P`CtB<>XeShXBV5P+@Piw=k>m$L&4`C47+FtjL*#cZM%CG
z%jhuj-hnC_oH;9C)gJ?|$HPc-GqZEu3TVsNV28rm??U?qC4pB|)Wy&u2$%9MX|>!2
zjQxL9VOpTbPl`GCQqeM;My4eMj=mF+bFNpt@=XOhp2YSbW!D6q7=bfz^XUUTg%UG;
zN=^mxzh~H~4KOlfUoPi`HroKK1QbkJJxpYT6MPk-utEP*;vsAp)Gz1pFo3u)&=D{S
zrwf_m2}fMe_dXEWEF`@fR;Dy^^TDf~5!|p)^lBLe;VB%DxJ8~}n}ajQ_*|V#A%Hsr
zIzBWn(qGto{!7Vw=%Ivdc7}?qS&FH5ZK1eRqf<|8&sA%Sg5NPchB?<a*T0k1OwRV<
z4DL^GXX#hGP;4is)aLs0^yXvbLg`^?e31!?*~4bHq>Z0TX&GpHOenvOvw64m3>Bw>
zdalYxzTBlhTG0b%yX?A_j{jCE)9JnS^NMBN^025Kop8(rp@WCH{a~8_anG}=FZ_cm
z=OVK)<=xFGbp5q|W5yS#Rn1NfeRLQqkZgRd7_DM@;&e*N>6Yh;TNNE1KgtQrA5wiz
z%e~Q1U|{Z~6u&j^rc;a$vc0Z}Jh<GoMy0cq=}+a}nSSq<$Q1kNf2%!}vn`XwTxfUg
zidMfIx~qm&(p+#B^8oAWB;ZjbVUstq=aDi`yL<PgoGKtvB$Q4u;p7h7Ca@=kAan=`
zd}PE^<qxp{3<JdAEDXifje9H^>$Lm)!e%e9Nt~i@NPP0de~GK@D2>rZmOL4KfYlMC
zLv<9^2&^4%Ojk!Adeq1f@(rT(Bm%4SqO988@?Wl~Y3sh&+YG%S!dWqu=3Pr#YHHF~
zJ10!u5D*YRr8snal1}G%13Wn>1U8%>ONS*ux@G=*O;wFcR^&0&rBQxp`G^7;Ylg(L
zwm^&3TW+2Fp%9Lti+z|TF#8L?-?b!d<w2f`<~iYSU>$Sb5i0^PJYOSs^@Ypo$6yRJ
zL}+G97yrp}A#i38M4G#SnSfYSA?^!A6buvPs8k$K4)qA(4@&q0zNf{PW+73)tVT@0
zucPTi8|L_5Rl|)1MnSEWO%iqi)1TZpOh=I*q=1k+xzBcdpAA9_^^zLOlLot9lx@Ot
z-2F9zIloiqJu?{0?{5@s70mA1mQiL`1)RMoCY`Cqk0~J>k+;&9960@2S7PXBXEP5*
zbkr3v#f+b0;HBTI^l)7N)}x!vA!dt*g?i2(XA?V=^j0=@_vMK%18+wYHR{_Wk0<Zd
zbiSW@?z4FA;xVP;4Xa*~Sw$*pr=P67B3>1in0zlOie+0qQ&f4yh#$?ZJLMXcE^MK0
zC&J_cRb(|3&a^*kc&!sHzy0vZw>hVLTezZ2<%17z)#}a>la3BmJIGYA(y{6kab?Xq
zeWUdrk}fX%k$#9lhYzoTjOs$h2|-FTPWojO9&om?K}7Xqq@ap8jC)~Kf<z&aR4}Ij
z4?Kf2!R6bhHBdwXmiZPL!g=_x-|F&{)h|dui8$PcBOsh^J^oP|^r`3#7dmB$G3Yc{
zNaBWp`w|!R2B0Uvg__9efJt52F>6#Cj0=m4pLcXnBT^6O)aC|H-1%ZCqexRh415+A
zZ2$&@Z9Y-pg6DpBiMWRWXA*ZX%7li-Mn7br>O(kOUhW)V$VtXjp+k8NrW<rR8Oj3K
z5@jib@u3Fo5d_a_cyRhQGEUbh#R*)+10xA{6Xv332jkQPdvFi{18!UdQz*Q1QmgS7
z4TExF3Y0Sl6F9U~Ax(nlQ0eU1^&nT)oad8J0R({L+hZ7VfmMrwISekav+7m(y0whB
z@tZ9tfslPd7chdiJoI-Q3L+#plCBD_z+%Yd&`dvvuP8%=*dY;YLmVyW`3pfE!w_9?
z;7fKC`)m#EsJTg7j5i(<yeH94uI`DB0N%I_&kn1yBHn1!^I0%3WC+<tKv>PGf|(YG
z|5j74(s8-rJN0MEVDkEPGmUp8Ts!1;G<46E{b>AH<S>^_0Xp=ONp;jh{Fiqv;<IHL
z>W*iWSM<a-ok)AzFB~YPAbUG-`{DC;e>A@u7(H6<f2z>V#rWxC>4g2><;<{xwlNUa
z0%hiRQ_A*Ney%LJ`8rOlKy3R*k+W5nBDzt!Ja$)nLK3MzFs|0}oD`0A33F5kx4O`I
zqWg2XT$7x_??va7jI`5ivO9B56h3_`&${LE8IYwfz3q$#%+_;J-lb6V+C0Lo9Qz+-
zqw<E*y8m4tYJ`9j<e~9deh`=$s0{-3j<i>oBZmCPj_o^e;1*WX0-Oy9dqd{MNhsji
zC@`RskVZHG=RZ0Rru=IH3R~`8BrBn2B-1+0Q3HbpC0GzDNjVQ<Sw+ej=rehUjfwdR
z6=^0sKkA9-jCRt|y}()k^?I7>G>l+~Khex?LaqWKWXaqm%vsond<Fa>p_4hldcd<@
zH8yU5rx_!jHy{=UCpf=(SGsyRiB^Sw=qd8=VcSZ@2TW)rU@r=eNI^J@35r-w`!GA|
z!Gj0tO<O#AN!l31n|yGm;J637w;l3^`)h?KCnk!Z`9zC{FoQ<SHAH-NPJ`E)ca_yh
z;L_IC#&DoSfT45Px^l~J-n`i(WU(7avW%WyGQi|wKvAXFiE9#azCaW^^SJK6;Nn1U
zvxTyV*P1T%Q1O<1+}tE%I3XcHe!7o+!DJ42bunC|#QFIz5yaEM!6z>$G!SveIKMLf
z3lS?%-@c6iuOP)apm5;CiD;DMZ?N;<hs|H0I_>T%Hn#IsZhsJq&L`KdAEqYk{GEI$
zx(%*xb1zYM$R~lGqFFf^rz;xdDctwgb|*`e^hPOn?WDH1I##}tL;9y~#5Sg?dimym
zmfXBcgG(e%|Ei&v->9eInonAEj#tDH2HAc6axZNiW$xvR4i+CmlXS(kJPZVL&uE5Q
zN2zE=KXP!M4o)n*A{_GR$Nl8!j@y^bjWR~&$CVj1w-4?=A(}jO*VB-ybftgYdztQp
zLFe$i?>bXrJQ#x!7}f3Bv3F8>M)Rm$vimO15Tp`cWY}eB@Y>E!N<$@tv7Y<qzA#R9
zB({O(;?|hZ&rpY<w8g&qU~M~T`O&Zm=H85rK10%A|Ak!VM;(JFj9J?wa=DQ6yq!Rb
zqa^iK#o^17lloAV-eo%RsHOoOWGLs^I{xJAAqBR7|GG4HjofTpF=f$cco-=ERXv*}
ziC)~6-%;vJ%HK~s_m*FW508w7C){sFD(In)9iQfEJ^v1LaPXN~t&th6B0nQFyrl~)
z-|oG&s|lUv***4F)cddQ=iuU8dOdk&?a_@zpNBWFOo*q~8oHItTn~*&psHUk9ccQ{
z7`HezaOU#D$1+zJcge(X&w)>!i4I+?xf@&Fb-y{QAWQ$CvZ`Egw9IdJ?1X`Sj$QY+
z?;geO0OML(9QW;ce0Id|PzSBi-yoEYkCC_le;NTq&_x0<daQb1JGMM}*UjUKDz6S7
ztX%RRppapx8fW_Yc-2$0g6YTZ{hu!0IN-KA%ir!+C9!Y`=ZZk7z`2|E1EPXA_+@r{
zq30rUxP?scnolF|Xr7Pa-L#9!gGS!f%C+!^ARXiR@`t=yRaj>sfg2h&+HpU)w3xC~
zR`L7NxAB^=akuw>)k@OCe{<xHE1t<Xy+*l|`}I|`>9ENbsPlzghdE>_WtfHCeS+_a
zq`K+tnynuAzEX6Qx0{zo;F5pRqiYS#jW0Jar8%?rX;@ukvHct{Y%~&jgFSJ4Vbgg0
zc$cBnI>e><ORQ2TS#H~^<bbg^&p-6iMa$6h6~2wW5@0l-HSe{lo~oWI@&EvnC;qsl
zfYAV@4Uddut9*;w_Ftj2HIHcz|0^5D!zA%y^7*E;*dvRE>gl_5{t1Rz@^}?%%F<_T
zwexP<kCTPdB7jW<CWimC{e})3EyHepBPx&I-(9k&e`ACw09dKeE<GnELe`?<N1)46
z<uYdgj<p30IRq!DJNy?7JBb`8cbDej+jrY0hp&#F;XSMq(I0ex_TbB%4VR<FuYc8O
z$_Y-l$+o<}bjI?z`eIg_W>{22`^U);;Z-;HP{-6;I|B|B4mZ;2TRgfGTe?Qeyi%+p
zQeI70Ezq-QPxHfrKKu3`T!X%MYst1H?%zk9d}crC{t;(15~8R-*&1Wp*Jyiqd8<pA
zi$I5Y@D|>?Ig&X(-GlBvG-Cb=BcqYB{ULH2=#0{bzkPFxqs!|}zs2&wRXgTV4xMuM
z1*JVD>69W>MU;_ko<XzT++G{>6?(hWT5CN1@9Da_OPlo4q>U3ME{PWhhx)d-W`u<Y
z7;Q>>O>x~coc74o@AoeF`TuL`pU~iw_k1Zg<9n-}kHY-IE+N5!9iH9a*th{hXi3~r
z5ri{1IY~4!oLsy`wLnj8R{we+E8|Nv?<8)3rHR~v^yx6VJ=VuzS{DXcHU#V*Hkq25
z2JHHsl-a3A|9Pk7<>{}Wh{RTBTRd>W{zQpDpr;sT<gM>bz3CDyhep&GIH`-zc|^!f
zNUmmyzvAU%>U?81dCkDe(n~ADQ*yL>L(D~iQ<r7wHNVWQZ0%l7<PqV&2f6KRaE6Rl
zv*xJ6*9RwLEQaTAxAvc_J8fadQx;<Jb+AS<al-MyXPLDZUR`*4u8E3GUf}hqeJ}5|
zjNI;Kef>OtqjIM5h*;d%!Q)5n^e9kgYnLAo*`WPLVsR_ARc6jRzOuJzf$_q@rQ8op
zA4-@0rsq4RR{rhX>({4b7oX5io{|}*{d7nEmqGB9-y!T=tA&3;4L+(@Q`Jg7K78k*
z9@~DQ$iU!6<G@XZ*M3|pTB6zy`cGD2@=5v7TaXtpDq_B56diHGfw~XFXe-1Z(iw{)
z1Oguc0`avi+#q;1#vq@9L#k0|7i47EvhI8AB9>oZ(YXK5gPM%shPDyP?9k}wrjIq%
zKJ0#J85zEnk1B^5)$emv)punGWT)oFT_i%H8yD3%b#r!KP_r+jkw2~7^+Y}@EAohW
zKrct@LnF@3=pf@9a{XM`)@@aEly_J-mTPnhy({z^kN7=yNR^)Fe()}9W>!ageCTCc
z>+q-c+b<3^*&O_}p`7L8fz{IzOcH}$b&n**LXu=-bJDM+<-j@oy#30Ffa;waf7HKg
zj$FCAJa_KziG4+DDH((rDmXt5Y^J=+uP1lSKnU2To$$C2W=t5F4u{Sk+d{ETX<I+z
zWkX}ryTM6^(OnlVKCZ9I;f%98WwIw$YIyC+-(P)<k=$WKR#n}0{hiqEnDN(NbE^t6
z3UCD2|0_+U4demEg`{OHW@3TG%^%Beycv^ZO@L^E?dAhM2q%FYv|7mSg1%L=eeo3%
zEFey@U-|6_a`-ML{Agq<hN^dr3=b1H5wmUO)zxW1NRwb4(iE%yTFggs1~v!{Gc&Ro
zwgIcF)t<=5j05C84cb5pg4|Ow5ghG71RV|XZ*V&X!>^4gpCrZ<{6*8#)AV;|!JHYP
zV}P849<45EPYBX>o*$abP5_63Y>FtcAOtxBG?kfI5w9V`?&#41gW^tN00&%hS>*i#
zb(?m?uMz|loVua8c{6P5WUQwa;6F46WGDp%VpJ0mnNx&ZI?fSY3?@NSOlAgOdxSx@
zH}eouA(Hh#own4XHw-)g3DE;1A`5dd-X#)P2#u41UA|VaA4)pdP0pfO`GpKpJ_zuB
zj*X0v2`XqMZkLq_fg3S~Ggw`Z49FtlCnPhOnZ1NvvkCBT_NBSO-SlYWNOuRTA>7V5
z%3+q1&;F1!46zJJwSh0~7?Rp3NP-8d6O2`gc;nw1u>}j?p?@GW;g6@`&HSF~wG>CT
z9dWJrzHh?ze73su`#e>R42SG-IfOgLOvHtShMk#6<553YbaHh(Q@(fp8*7Gw0Ygj8
zm`2e!<F%^>*&zWLEZK5ehx&OMJ<hG0%DJrC&|dTHmFcH{E6ne_zzw_8P{E@={zDDq
zbZ-;R;|{5qTiS3U%-Uw*vl5rtd3~qlUaI{|lOa#e2`aO-9^SIxZqH21y!-ciRjc8T
zr%tHs62Bt;_uJofmP(c;S?!JeijGN>z3-m$_HFk*HRn_8eadF)C7+1k#CI9vnwRpe
z`-k3&4;8S7-#BrvB;8`(E~4wEuix5(_Iq=>bNz7@#c4C1?7k>nWcEYu$2{$2nbCZM
z?KV3epEBMSelh7Et4Ga-0j-4)#6;52(@SINkeC4q5Vc`J?ZAs;Bt0bnbwe{@52Z0_
zw&9!sMox$$A~A#V0W3*|(=MJ%^)O*zE+;L~@xg?IkSXHI#k%S(G~7s#Ixyr!X$&1k
zcC(=4#CZ@oO@zCHYLnIT4<9yNBg_E*_V)k$Ng@>BZ~unDuK&bfty|aJ+M0$Fj~HDb
zB)K0R{v1dk+erPtgSHNB3B)`Txzhru0S<I%U@7+$83&bIdC-P~m7Rm*oYE$egS*SE
zE@ZE$A7X~ER@Hma5om#w122{isG+~wIRu~$1=6)hSPelD@LrIt(#`Z-*u8D{_n#s8
z5a^hovPe<YLj%7bcq$Z&$mya0C5`UpKP7Tu-Vvk{P`)~0bg~@I2l(m8ussw(3Xa4X
zh{jFW<F^1>CS&;IfJzXP-Kj_?TkI3ig_u-R4{zo;BD(>XZukU^2I;+tvmLYb0F+8W
zXX@hOYpDMRT@2yckVvWf`w<0LfKwQk4jO?NTpE&`_rz*SBad77mvD@UHhl|EMBb{`
zwos-(u~%oCd|WU7cxX5j5PwlAZ=NeWHbVBA5d&w_@!l1VTM@Ea!(&`QVs(ccz6<a@
zdZ1nub7{iRBKwXUrTE=dwVLtq)#XcW7iP|w&~N)TqkSpmcUfpw+ZU@3SF8@@(jDQG
z;}a;gk{6A3Vh$8}k?gj5sEa2IZ|bLnPg_I0e(FE4^omMh2xvJwBT*NW@rcbO$)zW@
z@3ZlgFXZ_@8-J>o<!}yYq)X6Cc{>G{#jV|NzWdnf;DASytXlpy=GFGHDJxeMuT!*C
zDRMjSAEsKnX8j1)GkSWp(+2}7)gIrbx^(Ki#Zd+t%EA=Qr)#M=4(#hX>$++ExwV_V
z_F9y+FE@qxvTgDS^O<*-WSwn)r7T?R)^mKJO}L}8*MY7ta8B@|r`6v0cc*nt_<GHy
zr<RWIy{#piyj*bLc<KEMdeduc*ju&<&@fN8Ubu37=f$Qc>f#T5Xz2T>Y8?K|I(yk1
zqB`hP@#jj}=@=w7Zr!lXq_~%RP%ayy<4}-guDW-8d|qP&Q^zD|n1B2X_z)LfpP_b%
zTAc2SM)SM&7|vK?cY=--7RW;gD)aGK57E-yRF0$pPWI{_-Iw<u7jtYkyp&gQN7O9O
zRJX;Spw4~Q0to8c4@W(px|N@Oq#xJRb)l@)Rl%wNXTI?L;Ys0fK8$R}ncZ~7`6J~i
zcXu(UwuYP8lf^7)2r`fHghWyTuW#c{6*2GUpFh<u4y@CM8x!_|E|h<pC1=4g(Cpds
z^~d_-cr-YfF+tK>w}6n$Fs^R*BC;1++GpfjV5MteC?b%iiY)ea+(W(}t+Ie883zMd
zz0+)znx6h*vN{pIRwPg5T`muXR)j3$Po?>-BjgfFN;>L1;KB}xQ?4cr1lxW%2GTe-
zV`7a(Z;>zl;&$s8`^Gec3A;?@mz%-li11tF`OLi%ouxrQGYEms$&VV@LKc^V7CRx0
zZ3V&b3-QR%@jQO-W>OrB4+)Vls-I1H&t6avbKQ1j@$W8YP1?nZ_$c%D3zz?lO;P{a
zwHiia5V@Y#LCN2t;gcTo-Gh2(p2pEyuql_RQca2F8cw*E%up!w%u%$;J!M!`Jt#BS
zqN3u?wvE+w?7eeOxfAQ$`xgtJeo(vCnigI@dEc{suUWIgRhuFGXYHTwu9}O9{+!Y`
zeXYEeaoxx5&R?Rv^kQo5h4%FB5pWh5OKMy^R`bS&VfIp6bYI<ziN^+S_w2dZYI9fQ
zAm3lUC8j^z92c})Ym=TBt~P3099c-}H2VI><RX1^tMup^=TsfHfbdi?Ci7~0&KB{`
zcm?aXw9H>0F_kiI=yV>w@YbB}?to3NF8?OAgYq`iXY44}c|UE6-n9S4$V^~uDn@(W
zdq4T?nG}hbLHHU*UN(KUQPt5=yq4oEg%nH`MadkF&6q?*;+1Wvy(fB$+412Ja~+7F
zPK<Xem==YDdDQW%g*eIwVn<1$*m??Qlue}$LAQ9XR2{SEIR@w9IKCG4W_@U~&&pOO
zk3!5Gi>A$mk}g4+{bDYCP{XZWou7UL$=$tm160>!)*%NkZzhPYnJw?y6cJlUMsOYu
z4?u;Yx#YqCPGe7w0~W@7Ba<~r<OT-+6^=$g@3L8MQaCmf^9zIwB%Bj`Hi4#eJ$_sO
z2>%qTR|W+}>k)ftl8T2LMr=*YJXDOX+r$HdgMYevW*`!B_J>h1sv69p+LrYu;9{;Z
zb{Q#O5CRFQ+?TKB7$qbR)d^<K?|iT8Hf?Twn7E=Lv-pK82Qe$BDkozU5A!f67%N}#
z-|{MK<iX^?YU)!rGylLA$7R0<QwukLTT|vm)D}uaDi;W|sPgTdeLA$gDB`c>_jh`)
zlPEQxecPY)ra8&cjjCv4;c~%8p1><Fw*9cC&>tT=BOK#-pU044LzcI$dF`c`;``Or
zgGyfFUQ5qzI8n|#8!al7G>}a3PC4Xvs4GpEdcrANVZp{Z{(Y|6QCC5c&ZN>{3lC*u
zL9=b{t_xX4my2yrGUxp^q)!xamdbjw!(i*v2emd|Pj0c#-@USR+=20CQl;<hzT!f9
zQSsU9j+;L_uJeDyO0`*_>Tux04X2k9-p0%4zM*;l=X*Fc)&5uQXZ5$t3>=+3P`rQB
z{zuH37Br*7r#4pHsep&W2el*#u2MX_6Nk+UlVX>A=ZSlzIRE0m;T8{vO;ts5g;cUo
zP}5-1d}ExkufxI90NB3`r8Dt(JT2~!Xhqe5glBP_3PdW2xqp>yPV^&oeDUpM_B%!c
zgeN8{L15i^t<<bko1{D9)YYnU7bYB`{==oAlRP|k6PRa>5<q8?^$OOA1PVf6)_lF7
zwvmJ)=oXAsO+GS26$1^>KLZ75Xg+Of`=@Z4{_rDDBEDr<S@`3k=AMi*jacY0z}nI3
z;Xp;bJe<uP$tjC<vk4Jmkok=IF<Eh(&?k>|qeACTP+VwTUCew~c7n*=;q#1%b_Ox8
z=LWdhT}xw*{nG2%r(moz@%)ZmekC)P*x5|BaGvW7S`Aun7Ybwtm+I1oGrvt`b#y&`
z@v)D$hoNo$SF6^Co17biw$r+DMC3-~?!LKTGeP<G%hz6&FHGZBt5%aYnX0v?4Q|xi
zOf0>7npcoie?G#RPOVO@XWB{Kfm2|+xx22ozK-%Pm)Hi2<%8Q4ytl~)1RY#n;A}aP
z^4{O%kj`H3+7|&&A0ABAr3jt#erw6Bcz&fmh->vOjb@l*eQVR|O={<Tqw1O(#YIuC
z^s9jUB2QN<zlmYj`@8w-yLk6TJJK}jAN%AW(ou7Oz-tgLG<yDBV6Fdnd~}#Ij++~T
z6!c`rVeloX3E0vg`hI?YMT$%8#UFW3OxhXI;ZauHVQ9xl&(zcdD)-F*cbf??0(chh
zE4lVA5Jbk@TMZSG=#AP`7Cj4+_60>D3_iYoOc6$)M%*0D&CPQyl6H2d(gn1vr132=
zv}Xfiv)6A-KIdT0A4@7U93^8&TO`Z}xsk9q-$0MS;_+Rr?)L<DhiyUij0m9#k^OrE
zqb0e;bX^85p;aVzP_4wQJxSvzc#nn%g6cK-7h4hSO2*1#j5$9R90jTHj9cb#KkJwG
zan}@Lrk5e4lRC~H9Z7ABf7W&VBf<>~O0~ru&-hQ6v^%PI+RM??-%gJ5VF+Dvn=h)c
zFN#^Wl_M@_)@5{}<Xz35_pNuYp9tPwDw5!Go2x%LCug{CzPZfA&1BtgllLd4ItEot
zY!7Qi@dSp@+w1i$o9*oLbG}&je8$tMn9t~-S;}-_*_82757x<`<X0g+Q|nbyFYn_0
z&MRISrK9ar{=iAma^g<+;&(HbvA@n@BmSHG_aELjS|b@W5fQHT;_nfy^x5`<qWS(q
zYnha*1K)h!o{6)fbK5Qd>wEm(%pAxIu0E3gNN$Y}jj2h4_}1o4{Tuq#iyL6wM_-K+
zBNP&3RaMnUR%^7p<gA4#SMyil3tvY*N>7qS2yGXpHmswhq#WrUWU{Ua1$SWkeOwKi
zOJbxcsF~jkb-~*DYo%cc32kVsdtvs%{^MTk$DQ&NxK%GSy?FD*mZyr7m@_}I{7}^u
zxr4%N9z_M_Xt!@UT2qgP6-HK~uZXv*3P4**LqlV;Uoz@VRo?Amh=W3IP!!e%>}t**
zm=;jKL3wowPpn4gJC@`&ljnMlq6SbT0$$!=-i!d_Ha(9Y^teZLBflX7E)~yA0{sY`
z0g8@LA8TyDpDaAva@6Mi6=#xGj+E&=P$!Y{2*^6d1`tt%Rn43XD7*&r3>Yn1&i-%#
zTI4qcdXgm53e{MrnE(O}VxgOgj@EU}t~s!7W?vgRoMy~HgPkO41cIWG()YS)4<39f
z`K4dK*Jl$}95&DQ$@kPYV`jD@i8}V}f-&tTB!Wxva5%fBGFCH*uttZ2R5}`)jie;K
zoyw7wxLp(&0LgMn6m^CKOkQ7qU-?HTCL)CflBF2S?~5i*$g2MwB#|v!*NG;=D<BiX
z(vCIXfn5(=aRZ3Zbp!^$g%6tXG?bed{dW{4>-P_TQ|_=B;79#ge6l){ot1>p{riH~
zyD`jIv_M}QL@0<^;soe->a#>d;NbC~cYr$rLPCx@3$g9bIinhLbPrwRa#CPWh0|3B
zrneRSi${gnf@w4Vibs05EZ?wy9$yk@=BwbC@_wR|v#NL|HZ6zic+{&0Pg6Fuy-Ys6
zEc)@xZcF8OQGfNRnS8svrQM;U=c*bVMpU2fPg?n<6)X}GW~I_(A-Gd-cZVBw&7I`V
zkP(IGFI-NA`LBdjQ(BXFYr+?{_pOxeytXaFH=i<GR58=}`9Pa4U;MhtnJssJ<&L@i
zQ0{v0bezBIS<fxCy)su`cg#ukl??B@bMvQR_}_h&%Z+ZeV-8g>+aEvna1>#@C)E_s
z^w?8@A!y)NQ*kgJ^~CEtCg@TazNnn?5B0K%RZ{j3`naXuX&-Hj+H>Pd^>)~}Q7oms
zySB!;`sYmbEWgo9nu0soQs?~|3{v2GLM7LCocmigIT8^vtAufg@PXm8;3IL|2;bdl
zL!B=at0?y8+jDn7Tq83F5tz<oRY80?Bx(keZdzc>gbD62C+8-c4iUHc+rP>BLo;ND
z(roShs3^?hVT9R?#HBHxwDH1MA`bBvaEGJAO?KMRj*|V@U=QA11MwJO+H+1?*K@^@
zZ0DZBgV<y2oSXsO`5jhm)c`CC>V9)!wn7TZxv9Y?$v_)AbE_Br4R4?<GeuNBNx+6D
zWxWmcw%=gCK|5yRpOe>vn7$-534IHHaSm6EL|w*c@BJ{vuu@Ab?L+e|NdeCW$zFt-
z<qgROEw}D~MyXYa#=Qs@Ja}+!=j7;k{CJl%@?OV&n^X12<B>nUqOh2$TeiZxF{#A>
z4t67}J1KxMDL@z)#|RvU`vl&Kdt{|@=(tUnas*1D9$Dk8e;5}XYR`y0{7yv(2)`c_
za}MYngq5b)kJu0lM|Bmk%t3yP<m5gY!YlbHa4b>~)plS|koo&Zd&xtGh|T+(j;12i
z+oU6@oy0++9K8X7WGsZO?|(uI!E?E+?fB(47(~#H2UE2wh(SvSu%QvZE6_%YOELn}
zuVmlxm_{(g^8I=N`CqF}0)bIw@7d1V2XI}~=hip<sob5JJl-I5^~ZWEJqOW`byG6&
zm6kn`#aq1co66?<bH*x61_Vp~mIxjhEqTyxYI(!_o~UYKT(bPEwX6LX=M((jmc9GS
zz6s6z{bkj0Q*U+I(QifI?ziWk*Y~XR7o%&w<LOCNf9JY{(f2!Pd#Y?WLU=tRW^euu
zmR`O5BCAir_~(=2?DATcd-9BPMt$siy7Z}bH0+oXn^4wa-n&yt_Y?~}yKh8t1T$Y9
zc6FX=&%L5+{K3myZ0_~W@7H>^<jb_yew-a?h}V1Z)uG6GMdGc7-@WXIQ<t9<bcvt7
zeha<m^N#EXTzRW=6n%fi+Nz{E-4{N%4!D^Kub#L@xxoInVKif7@5=if6cdLwbk?}-
z{Vm>eYuUtM<Zt<-FTnwO&3e;#9cgc~Q5<~1rZ1@K`tG~uDYI=+8C)lsx3jp8?}u>|
z=j@ltv7|E>RQ||#Vyp<!rTj~L0<O!S{lsS=+2YjVNHkWXYgq6Z9I=}N=|YNR09a%?
zujcl1HY(|zm?qR_avauIeQ34lqmDysT0K)0gvFbT>WEATAj#q(Au5%V1-MZm8~BV#
z+b}w!;GLha{PtvZB?MKBp#UR}N>hwB)-ApTy+S<tG<^X^?7&Sx9Zstu3+oPv{NmV*
z8K_B?Sf@Uz9J&X0l7vZU=Wjy{ORi9y3Uu^|H}vV4m|B5f;|03G`AVPyBw@Xo)FA`W
zEz3X30MUZl0k63+ch{fTS0jo#yt@FkLn*sGy!kBpyc%_lh$L*!zw+1v$Ku-^rg}mX
zMQhplZ+y*&#u)p0B-z7Ve%z}6WCu+e!pRm;Gm#fVEv=?X=Zi<ZQ6?T=WwT%G_jnp0
z_nDGkXIR~)_^^Xj;K~}uQ9?41fQq8htxx0{2JB(@!hgqza?Uz3dS@r{Z1H$z{S|!F
z;@@dVq&8k=k|P3@0|Eo*|CD3&DAML;<?P7--MU|+OvILqvf?YSegd%|lu{yh_Ln>7
zMDvra^pCakabqJSSM#dX4qKDJRH8Av7~}s#JsRu}ZapLtJ>RoVGSvV#7@1-~5^(G5
z>*IJ|Nz2|0c}22zA$=Sk8M#nZJ@QlXO-KjN`WyvE>f<63#j0O|$AoGZdhN1#i}HKZ
z=`%wwM#wzmizrjG>`g9D?tF6ZaN4okYu(mR$mEAUv0B|Ctrqjxb*)oYqS>HX-Qco#
zFwe###g~hOjgH^!ym{A5XziVe`q84R_8<JW+)Xpg4>r=~|K+fd)pJ4A>E2%1&~-oj
zTi&co&h(+xUHNmN=y*{;iHvK@4UTU#$5~^WHLuqhd?~ue6Qu1YZJMI2w%0vDf_b}y
zqL1*c-GY9~KSXU!TSYlb=!=9rj##FCpc%KfT76}Iq_T#8n*Q#iqSftrjNFE-tP1yq
z#}j^f@J?OaD3lvMB*nC6dA`$({`-a_!h58d2ND%Jt}1=o!Z*JX&m>&Ky({|7^8E8A
zP1#faJF+y`Qk2%0(%#w>AY}Nx+NRmHVWh*Vd;!fC!bJy*UkN(!J_(O5Uic-}vdqGB
zid%n|4g0aIgz1*+UoOz=n7&%p^*gfBN$K{pE1%xeFiLFqD;^(C;j3cr&dr;AR2_`S
zOM582=j+!|f5SGjN1W~)@P->Kc^;_vQQ?Kh#JmJ>O%ygTg#1CE&&fpPzbIR5TaT0z
zWgGD1W3h^$I{1P7k(e@|f6BN7<Wy8lkv5MpeEs1YNsEEhQGx{~xs2|?9&N%EDps4P
zVqD%wDqBM6;4UG~<B>;WHYZ81fE5hehGB8<67~*>N(EM8jFH?Z=R(Q{T!YZUMxlMM
z!!z>%h0(q7nG!pX80Y!<!@$)ODlsiYf{Y^)Uz8r%_M9uxhFtI<(SFW+BuxB`(OA=p
zU!(EFze08fIeCC%dx=tMsH)bZw1moN7mz=}4zY!;KvWJw@diK%Q^HO|q7;i67^r$J
zdLDa2o&(asrqQ0WBm4O+5+iS#?1A^O=CqX5T0$zI9V7M@hv^UR>>rWqm6Y=6qwxa2
zIEZK=aPZSiwg7zd10IW4KoGq^3l}S7$p|ee$*#f=ovB^aonKfGA7i1VmBRc#;dj1d
z3<HK!Y@T$&DF8Fyb>G?OoGF_sq^+~u__PLRWgBV;+s2NP^T-%L{6(qeKn7G%bK_|t
zVbRf=CXzz&_s|;hA?!8@*8I(_$5DpkPv*fa;@Vb^D&Bl_OPHJ;HWp`=J70jCRpR&f
zK~y(vRQ4=gZ{9%L6}(>m>^<&8Ewjm%GgE&~_`Wc)6{szHMVYAea;7BwYV*D{j^{hg
z<Z`0Vx~q!Wm%aMjzRlXeKJncBffJ98TBd!V9o~6%(!cv{V1aarwLoWG=iB+*5v^I@
z?K43c7w%}z{T*HWn)D`-!i_@7KCVc+Jnnnq*M8TJ`Rn7>X+1VtgX1*yi{;);$9>fv
zmw4T(qD;S&mBylx{p5+n70GG&&`17Nl#b>m*3dID3Oszcq=ohSn$^L4z?VmZK_w=6
zUl+3+wlc>c$J(uHjQzxZ?fFwtH}GTZM=xdU?TW8I<Ijml1sWHJrf#cSD&u|D|4hF2
zvFjL}S7CI;I?ghKjj`F3m*y>&HvCdGC@gk1JiP5u@Pn_VrM(r0BA@Ka_~h`gB7s+V
z`Q+GA_L#92HhAj0>n-c`OI&@c^`;%V#drDAL<gJNZq&cF#yY71v1NbMZn{6{vU~qr
z@60Q!_*atNKY2uZFky=fW1*AYkJSf}2>FW&%_thNxjZKLo-SM0N@Hzu^6-3@Po&wg
z<8x)e5e|+|U~GqRE{{H{o>|+!Q!L`=fun*5fVHZ4Dt>$bH6<}KVwP+QcBXMlB|7<}
z8$+9bA^8Ilx_4rL+`wWh-`|W37>$mMbfOFEIQFaYp2}8P;_kwAvk-AaLL!Oq00`}z
zM{oBSbB+l5h`xTPc@<+hhBx1qpeH;vw1S_#H?r(QP59!)*#XzdBP8_=)ae+fGr)O_
zGB`v*fOT9-gp|d<A-D!q_(+*vaPMXx>k@lYNfK5!k@gENlBDxg5CY<WV*N9?x{~}p
z{U8d%`5G1&B~SF*tOMSf*7*|A%@v49sa&>lR_VtLmV~-j<I*K6FXZb3W(AgI=XNha
z=?cXX;0#1zKl)blirwXJGf7CtG?IJhAyA$sInYH$;#xB@N`H?jO6RZzNo@9U;TD8I
zBj@Om=BpSDV@LxLh27z-dj$*%@59#8Xcfl^9GgnJPE&<EpgPX9jv+i%<tZ(VY?l9>
zSJ&LCTVHwCtV^fQ2-S^I)>dPTjZ!@9n1m{%f9}m*3(>On;+y__K8^eD1yBcO8J|^P
zss7EU;?<yU&pteWTkwF}j(b5&8b|Y3EQdZkwp<l5IU3jgI{pqV{q6=)y(iC8((YVh
zsJMIX`l0<oiwzh3kNCu-?%w`L^kr3r<9D<E+jI(>MeUp@W>|uxl>%+z65dkhshqk&
zar(&Z-IlwR9_+tQebL?PS5Lsch+9(k#r+qfYMc5~?DzEA4O1??<u34WcZ2ii%WW0U
zjnP42o@;mWmmK|Rz+NfKGi;*$Qsk1C-s2s2+ND3tFbimJ6ZaELsd(LJ+L14@<D9S(
zqk!{K4tfnQ@67kzjZNve=0cu6Y|!tz`u*J(R)a&Ca#Ru~;@wj5rWbi?L%O-C==U(y
z|Md)ZnI1IP>|Ijevi#k6;hikoBO2MCBWezpnnFEX-pXyw{W|3T<>Fdv=GEnOpX}O2
zNGg57U^ObVW00%@g4fQE!c})1&;zs(iU<~FUquFb4!ii%Y$&Xhv9thH{I2%^9w6>1
zD_iZB3#(m8KhrFflgD8_D$zayDX=Ln2SQj~;)&uv9Rt1xoxaS!NYZo&Re@@~w7-i+
zjSR6b_^hU!wKMl!V1vO`Ky-+NzOnXLMsjQKhZ>jTtA7@#@uL=aG%gUX1Hx_gV-E9U
zs7P_4B<<JBsJ+hBvePxwo-bZymF61E@|SoRkiPP@wBMvSGS(t3bv74uC@|eOJI`?;
zd|ea`kJE=Q$>xLflvj}la3y;ssenD{#x3l!XcT<MK%9|a8ld;N7Ts;g4fn_GapPTW
zILIvf=i5%a#)v;$l$vbD5B=9)%~4~Mxd|dgx&b|f^NQ}Rsnb(ep6oJpHjN$FyhnPE
zMe_$K?W=KFvI-XZJRw(BcK1eE`0?z%b;VHj-NUn!soBN_4bL9>p0q(SQ-sN=Nq_I8
z@`3iyn)v~4W;x-teD{mkeZ_+ozp330dFeRXHDSixw*B}M>D3MON*k>Vt`A-OAYgXp
z5nJ^4w6DyZC#BBo(=keJ`*{GNS&5m#N_-66jph5Iq*m!Bb{A>UKJiie(I0S~b$XRU
zyFI|(^+%Lu>k3bv6St)CAD_U$?8n>dC=2O+&1Ut?((Ewb5ph!f*hGh=zm9Fnz5cX@
zOIs{1ZJEAw#EDM&DYJgPw$a$9pB8Q25=*-shmGmO9UpsLPPPi_%rpJjbK#`L%odkB
z?F}2LS9NFj=qRzgWh57O9$`(}&KkabWo~tmZ<6o#<ioy0bc3f@nVs0NmY=GP@_R=d
zPQ2ckZvShSVAdDA%1f*Ey;@r+x>w!3x@#w!OFD-VGG<%9c)nR(qxfew*|XwTb8bLz
zv~GrAK2-&is<)e0ooQul<M>RZUD;m`2D=k$c~7l7o&P|qVc~p)TmP2qhY$Uc&hsyH
z{t>&LF_xrIeEzd(WsfSo&~P{Ih`+j;0?jY?I`^;n)Lfp*u^HX9zVC7phOxpoa12Pu
zaWd|$Lt>c+4H7x_=olFIv1F{!4Dk0|aO%17b@p%bqI^cBlsr8H11Y&|0WAO_9D8^1
zZT{u=3yaycLUht|?%Pd&^K>lg$h+krMc|>L{+GAzqNWQTiTTAJ7kwFn9S%bz<Kyc~
zWI&83tPu9G75H(sgDNi<S0IElH;#zf4f~sp4>W_=gy>5Fe*Dvw%Um2B4*=*ug;0zk
z$#4EL<!z?**&#)xmf{>;tDq`JLvfnzbpPM4(-G?<K1I*So~@-yJ&@K@Y)##=#`j0(
zWcG+&kjTaf8?SXXg6n^;w|kz#v?Ti7`sebjY`aEwyjJusoum5iKbR->#px>@EA%d;
z=<%4UD4E&fTk*kms_NRVGedqf`kPN_ran&><m0i}eRG3ko5=B}GK&jugOx<O3gu)~
zDp|)@C@AbTUm17QiN|c2NO|xSi<HKmk-AahTukpu#Ghe`wy!6dmEA49%@o|{#LYdG
zGj<nu%jjnM4l+zXHF4BGYHM)Rwkk_5c&<rzXn5S){rvyv?aQOFT%*3JB$SjfV;Uq%
zD)W#Ml_B$dB$OzU%tI(cq(LQQOe8#%BxTGzL?u(mm@#vi9hL8Qb<SDudjJ2v@2pkp
zkjHaB_jTR-+I#<o9U0PK82Vu}L9q4M%%n@MtJcv7-`D;RP8tvL8Byzf;>tmLJe8t)
z`7uvH3y_OSlW*RSDK-iHd*|rVnXeuji<jLkSj(PdJS^^=do0D`+dzo*<8*q)bcUd!
zpA1KWx&q5b%giIT-jebfS)Ojo6DYSe9<imXXwJA?Vzzay`!DX-h7Yp&*w%bn+|u^r
z0LwVl%CS#2op}?(cCoR&tmY^=!F@q@i;!oK?f0XR1EhN`;c#`>di$5gtsWbw7=^hv
zkivR(QFa|@1d>xy>@jW(jnh7~J`+*dg8&eUPF@pISkO*J#50D^LL4{*ZwNs8UY=H<
z>{Qvtp$}9dzoXdM6#{Pwk7wkkN$ds<01n{8EHA*=l!i|Ne|vlT;QV!Ik}@DI`2OPu
zzqojd?YD+@Rdw~VP&vhKaVV7^tADqCZ8?ov$>~$&_cRPRS%h})PMej0il7(PTC*mv
z&%V3w=r08}C~TL@4(=H{i|LS<$@8_pzZ`{9XoJmzt+$vIgI|)A2aK1+nR*2bR<j1B
zsBpGXEuP^uMN4K`<E#bqPx?N==^o9qo)UE}gR^y$)gt90uClJoqx3sFIX<#`7jHcz
z7GLkX9P4+#|DEI9G0r(VrRq<20@emvHgoK^{UB%Qv*xt_KF`~3<%dRoGoQK|(|S>3
zCjWypbEI0Oy_4nM7Z&tl=Az%ETyyV^&nnJ~d@S3Sxu3K18ruewpN`RY=b!oaG`T)r
zXt*C{ru2Ki@QU|q9xA8!r7(aPB9S4ZI@+fa8iaCVg>t^XP1X6tWOuPPp~2gMO>o?J
zYH~Wmrt_$~7$=SHRce3jpa#uQjZFUhBTO>>*WWj<8r_k<PvS2#zN1P-RJY!GF8KO*
zURk|iF_5ESM4Z*N<=1lcg9A%OdhAlFrt#jV)z_cnc_VjOe95?yTTS?Eb#cM@<~`Rw
znfR<Z_E7ZU;L8D>LB~9YwmU1<ZhbHEK7C^m3-N2|!`2UxE}>Pv_A|p$Z|m356Q+#p
zzI#<mM;!8ks-#V&ctpxZ7a!Y*o#hcqcv7R`-bDq3FUW0hbBEjm1NpHmw|?!<KQHmQ
zriUeVzGR>N%U9w3=bnvfp$|D<DQdefFZS?Jw=C`DP)zVx;^9hHhY1GE!H3W_u?8s~
ztzv&vlGKykoNN8B!7~&y)ZSxn*P%8ndYy^U5g~~$&^>{#$IW+V%P<-*>r6FCh%H4q
zF!Pxi%n-Y-{BRt?Z))pzqxMA2<k){(QYYPDFLpYaJta@=N0L)84z!_z0xB4MEXe}7
z!B04Skex*EeWV$VKu&&qvCYJU*!qL@a{Vs1pj2VPL?SqfMuE<TK}FM7?30nasv+C(
z=)1AYz4sa|acV<t093l-VAyyRffI<|J@x9fqE@vmP|uLreL$4RLuf4*d64X2d}g`%
zwlle=BB1T4gMEYAeB0Ko35_1diO3D}9>J{G0G8+g^p(A6uks%{)SayXS35F=4KU;m
zF|pY~N0s;~hbJ&8hMv9+&XQE%+x>X2!3uH>)I7#890RZ-0Hah?@Y9`6^~AI&ld2Zl
zpcn0SP;sFE@1?5<|41K>JC1bx1AJQE$uD%4zqG0&B6yJD?iqTZ-Y0x*)Hp(6x1<yl
z9zow}k!AEp*90;hlrMgMtDtd6e<nF;d}^Y`fs<e9WWi?NAQ;RLA}a#Z9ymr|tOXhP
z0xCoDKDm#T1$Es!Q>E7R_!+T?A&_sflzacZW;u6Qp<G+vO@qbu-fh3}&FV{@2c~Ci
zE*3Jjs$@M*UA_16xa)l@x34c`9b_Eo()$l<-?`_KN~Lx!?mLHXEF=3CubI@=Jr8VY
zCC@I8Ive<8jk#}Ca^cgY=F8?yDObLcJg(<=DriSzhT27+UuU_Z(gFh<^`l&Fz1Gr;
zslC&3p2K?sp3(XH%*zLs#u`RhoIUr-@NMwq+q)@?dQCv|3$}KnBJ)SBzx8%i9Ir@H
z5|Uf=S#bJ0!*=HyUE#0eegcuBpW;&&59^t~tL~uUli*ez9NLvBaA3Z+K*crBwA$a>
zJX_}S1F3cE-G;eObcEe})^@FFl2KJ^T;z)Xl~1E$EN5B69$nliSH%~pJBXucRryJj
z`VvU`e=be%nrgTmE+5p>)(@}AJ#4BGe#_fKkTbCN#6iZGo3q||uSU4knm*<j&&}Dt
zUWvLx$*+4t5t8vQpp7V>OzeHg>aTtCSW2l`Ux{{K-}6Y>KK8Q%{ri0%EMI!L4WE$C
z@VMWqF<+q+Ug62!l+jgs;j={^He&RZfv$);-{>l7T<No)<(j5kVyAx@vU8p8>JS$h
zUim{;=6n){M+}SikRfq>eU{jGK?doA_m1;^#gOIIokj8lR{%2ffz;3_Hi0V$Np`y@
zSuf*9z3!Kz8Pi2x3z&8Wd-QSBh&$jHVi7DO6AgLQ1?gSc?PQ|qA|81HeZ%oiZn4+D
z6BrQ{4vQ>=1~ZJQGxHc^o%NK*G>YljFMu(LoU9W;fzUY6jUp8>G?)|8gpGl7WEjPA
z0vsP9Sc(ABc>`D1l1-pW!tKzMpJM^gsjRP$mTf(bNMUag#3mHCGic5=LD|O5NDCe2
z*EqNCwB|g$DugOHW>{ka^?1jdP*|J5fYJL)yN8Agt|I$V&mjVNwp_3RbqVe-w?J2`
z%l?R`oY0X78ujAET~JM!xw!rsIb(VPbj?G|0_xujC!rSYoxFVjoj3IC8QAvp2C|za
zAQJ^HN(7}Ku#AbTr(=+cneL;=p@!W>^PzBcXh>8h(WMYwH`v?+5tk#Ru9?$B1_%f>
zQ>iUk!mh1%B+K<eXbNJ3Crv&@C;4frt4theBf|p)R$=K$rpW!Cqh~<CaZU+4_saKA
zU|q(7&YKd-x|HQ{Vo->_0vxJY1-NC~+ch2!JIidD`NDC*>Q$AU{Eq;*Lw<cv*X+D@
z!$PqO57pF;$dfy)XPc5FZL*AcaH=RKdN+)U4V+_R?%4BS@+epKr6z3y?;_gU2L1*q
zN0M|!IdYoqIc^!G@Xwf24^geQaQUgFA0F$>aPs*xWrrvGKw7JjH+lawe7UCm^y{1F
zC(^yQi1tMvjIT~Z3Kw_L_erF2_Y)_vu1Ooyk8JwY=PrLQ{Wd*QOm)k>s7|>(`-yW~
z4Gt==2=NJ>n2LGr@VDBoQl?TFjNGn~1(A1G?PQaUxFRc{z>{#-_kGB*)pOB-UtdVK
z6^@H)6fmb8by>)F$X}P)PaC56xpb9XC1cqgT5-mS_X2ON)_llsKDY39QpU=81+?91
zB}_$}Wj2&H_@G;LKxcY?w9CWQ8y*;O5AfzVl-CTQytXK9o;y2UN2{+)qje-*SBr(l
zTKe5xR+?jPhZzTomP=kX)nh<#$vS4Y!nSL_{(5ON`%%GcS&4c@i`nFvqP7_w=d<f2
z4$L8|+PAQMnZKQE6`G&%%ZIOHMg4e^cIVM{G4p9jCf@#yCHH<Utx=AqTQ8|?nHA>t
z>fzXwy<bDd@D!h}V9o2qhV!3zS0uSO>?<T|f<KIw+&5IT;ZeAv?in)u?5d*O!G*ge
z&CiSlIX~RsJ!?Yae<X;$ErSuk2w{ja$|$uI6umC=N6OZY+H1a{_q>|RfO`r5v=i!J
zKK3+q-u11n-hu)wSNi&bX?|1x6wc}zdFsa+$*!y|r>kceQ8x&e!Ijvc?WbzV>_Uv5
zdxS>mN%p~)PES4c&*<ve=9pmWmt0ixhjUKhR{Pl$gQrs|sQ$l#m4VqKr}k5GT*XUn
zpt0b7`!p}OUuX&wwbv`%skn5%`>TF3Y};>=r0H?I(o#yb&Nh0JzU;%RqRfm1VSQJ)
z_;arO*guvPDb+Bl@oLl26lW!CtxrNGu_6m$9?vxV6A!Co$*$`^(^yd4e<fylx1?73
z5vHz5yMVgKp4Zn>F9vaHpPF20{U)}!meb*jX)d>rOi_WE6pzsHjRWCaSE;26-v%p`
zyE30r;7~K83zXhz>XfuRQeBmthWdDy{Z;*Sw?xnEei4BmZJR$Xb9ryM)b~pgsoXsV
zG_2eDS80jSS2MErIZ^^zeyr}4=jr?F7*ng<t>%l>s44oNoS}TXEu(pL_eD1mpVC8%
zLD7P{UxvBl-mRFoN=cS$f7CO1B)!#P+=2gb&M(o2&I3Gqt1O%v7pNCRGpC+jDzSIr
z-N=;d#T8h&h&1+|TLsxt+H?Mg^`$)%uGZvI<#$Kad_5(-Cnme-Rcb<hkhyX*!(n~?
zF>`8@qU&hC;TFDcR+L#Eyi4#)Bu(b?eY&3;Ew&?ZVHxcBzJKh~NKRV_&jS|OT;D1e
zZ~+gwkGt7bhEH9z5FO+A;mK}iz;64t!>ej;!M;{0N&kg$?6+ByXqU8;t|t8L=K~XR
zS98+Sn-r~$3uRMIDjjs_bI$i?^z>(oGaFNRFy5b1&7FE&`$2!{HrDLojn}>k*cs5`
z*bHc%F5g#E9rrNro09kK48Gu^wh_9-t6r}U@MYie;}(vP<8q0)o`B4D{KHPE+AjYp
zg^Cj=_MXn{-jm9GddTNl%lUO7V*Sp!HL@n^BRk`ozLuHw%{J3$WwFT!ioED|%onWP
zTYCS}_FYBm(kqXY?iZFwXHGJ%f2}{l!kryIKhv^gqfHgm^=qkn;i;E<&&Gqlr6*id
zLMVJCdo^EKEaY#`_&q<{GZrqxa-Oi6M=okg0OB!&=Y^2`{HETuXsKPEZ2$OFCy(kD
zQ`ra0EP^${6gdEAEKV_NG-{D}K6!dmK;*8f!ZzVJ|3WdQ?Ey^U{DOitGhWWgnAmtc
zN+cY(5`d;`L~|kObC<6x4rIAnMF`u7c5G|UIS|$rtqz8fNb8SXe^+19(T`kU{w1yX
z%fq00e&d|Qw<j7ub3_C83Nt?P@DF=cv*+nd$(ji7{J665rd?hgi*-jN9Q#H*&NH2x
z^OH}Bd!D!LysYEmo7idlQ&9$AB|MJbykW~*HDpDr@=LPd{c?z33N6jmM18HeN%ptb
z4q1IxXrFHx5zJk!1HcYBkd$g{Y-irKi-z`5-E3eH+PKiWrWdpZCzo9JQ$#yy^G#X0
z@Ap<O4LouzpLm<+`j{$0QI?Yi(btp`lJlwR-Y*ZExfEYVW1aEuvr-KlUGiumaU0Oe
zD6HnZE!)=rI6o-IW{#6vg55QS+39NOK|5t#&Qqxa?4yFxS@BI@e|MZ$XgH%R|GQWt
zC@g82LE}M3-wuVDieZcF{IH!vRz`xgKN#1roeg)`v9o7JW})T=(07F%ndtkWbtAt9
zSq38#78-PP#!Fn~)+IIwwPk3GSBIV#cD?KNs%>Vfq3CpA$-0A_x0hvKM&{Pk3mv-r
zsb6^Xw#<5gIO}_fxlWwQm9&ZZdW;h_Rr_jad(7RY*upY-fBl$xWtOewcpyZJ#Z6>~
zaypYq2kCi7{M`JK5&8b$&F<7>!ORL~Q5u`e-nW+BO)8rhcIEpptxdYqnZ%|VGQK7t
z1_30ZaI;^MH}wfSK4tR&Ivlgd(!bBFT>P=7glfIO1nZWo((NF}j)w~;$~;XhT5aT8
zsIi+;8x&HuSKmjEUxW`hG*D3p{C8v+2!qE>7(FPSlK$C$v=#tRkhKABKcIV^j$g^;
z)7YG$-o}SIgcOO<P{zDaqPe=ZbGbQK$0$hmU-5an{1i~D;i#mXto+KYF{<iIvn+Qu
zzCK*~>rJAzh8OoUjUx?$lU$}Pam&;tgL(~1Hd!4L->%daTeNQJtmBc0l)V&i?1$Xk
z!hYKq9TObhF4pVIVkxf*IdA*Ttd|z3WoEiOe`@$7wdc62?9f%m&3l9=x7;e>Sw|&T
zbd73Nx#pt>#%@1{+D07waPLRCHQ7u(pNAM+3%fMSiXi!IHoCt^Al4>l(oD@HZf!9W
zAAZem{<ZaP2Aq<(oj#?LC3njw6&nN>AG+k~vBp#$(R#4Osdr?btl#zz1AN(i?Bo8s
zOAg;q*3{OZqx4nSzhO3LedKq>0P>WETrc-U8m_E?$h%<{{CleSib5m&&Qwmu8@tMe
zXgs!W>h14%@S7I6^rvN;cN+W35TZ5LGDwfGUD&zC@=eE$OFSWo+FjJEo~^x|m>_w9
zE^};n@~d+ylfO#PyVId{X*xOsTV+c53c55xy|}bZ&5wJ@oj@0Y<GqZ!kEf{!YfQ_H
zWBu_mrrMoTkv@_O>SF_k>ch^xl3~UxjO0&G#`(-=o3&54n#^aMtcz#ud2;%wU0{bR
zxBGnmH?{h?XzIZ!_N`AemYUi@iCBMbgG)?YO|o-S|K25^zs~`N_e{F;JM^_wy6xw>
zAAiq-j3TgSPlico9=+T(d3|jow=X%B;iIbWe;67ADgtf#v-5r>R*Iem2L|bhAJ1$(
zh!Klumk;L@0#7A;4ixqg?dRYqY^Ktv3J73hcKem8Gi=ruq~_mjsr|5$xcN(!-|nB>
z`8V~l?{ja6vi*<{@5~#bx+u<e#V?drLe(oOw()%5K=(%aNnVc67$x*<pRe!VhuKHp
zZMV9!ar^Fx507Pvyky+F4O2xIs-uqmHW>OTA`xjBRT*AtnI(F*=5F1#UFstaPhbh}
z#8?(<``o{~WV3!{vY?HAczj5iW_YK8V_9%h-hHRCV2V@2(4YRP6R2p=s|jbz?b=l>
ztoi<3yyxg{@E9jN;vPNHM0Xa*GR1j&)?WTNp7aAXs(WYmFr<$i@7HJ$n{*#pPuJ11
z)t~jz#C+k~$@%MIg+rZn#pw-!T|G<rpN0*2L@E#5RP*n$CvNex<L%5vX1)d;5%U~{
zv0~tc!E6s67}Y2>++jzSUU+<DSIH?#?IQ^;o;lBRYP>4^0pGVB!5z=75x>x!sy-Q6
zSSSbF8O9;nc^we$xu0A%RLyKP{JZLja%;X)#Tw6@Iup}96>1{YicKH)2Q<?sY)$7_
z5pD8_Tv42wx^l{HFzwdUxHIe4Oa55Sv>kE$CEl!((fxIE-?W=VvCFPYPI+)<JqO+p
z;fV@{l%dgAPl)&+=Xju4s_PoM5|kA|Pt6v)d42l$XU3q_`ubp%=9)Gh)NmK(DS1qx
zG;h3I8k=S&9jBqEU-{MH!O~v2R*MYMtPZ|uieU>6K^h>eqfSvmn&rHG9UTk(k*uWt
z)p;XXL-8?#YG2nD%QgJC#{O!Y-P3n?%u-m>N~wyrub}+Mz)k~uei0e~p{OlA%oavl
z7{cCFfWzkj9z*b*LoP$IFmP7QD>q`_XJ(pakufOU(Qc~hq;<~Px_@e)lhBQ6Ru-06
zkDdG<b(H5Q2?<xhF9&dBAP{-4(o#C*j0)4Sb^IcZ$V*A%3tgh`vrU>rf=saC`(a^e
zkhFyJowkn%Wa?{_gz)dFMqDkrv9%k@OoJ^ll0RA-wSj949b>hPn59HaS5pDQwSp8y
zZS759Na^gWpwZPX($R++M)AlIY81=xCVct+^{~t>eLqpfb(ilkFftASh_k{9!)A>N
z95VQ9ete=5b|K$J5tqiyZpkqg*!CLCFAx(kCFbME!@lWcicn=`B|6M>Wx)(X>T^P9
zE2XBUI`+u6_8g-tTgP9qGXa)M2Tnak!`4XxQ`Z3Jq5Vu5NsKiZx%&iXLY?Cmhs%?Q
zpoFXeWldg&qtuOPmweCU*0J;*QF&`DVCs$$pt-kj>l-kQ_<8=Q5EYr<M`+vIL**3p
znv?f4M;W9)n~sXDNLEg7>2r`0<-CoRXIDSjEKDwg{EEw4i0=)b_v|J(l$8xS5+J18
zy?+B*Yx+&f%!<Ln@&EH)q)H}##80iqiw8e7J5&F28RS}?uW4k)ay_S_P*x2~gvWQ;
zS6gP0@$P3{RMKppQ`HNcNi$3?4oxnOG?Y0nSy6dxG(44FyutniS>@+cAemDEm27rU
z31I5$GtkmHY;JCTl0B(Pr2uah?(}-%dZKDBJoiPsL?Um#dL{Pr7Z~7!8LvN}vj#OA
z?Ef}1F=;99WHIDSGfWhU)x^?<qu)l%ZI5l=KA+sh#Lh+jrCF(fU)}=mLZ8rJld7BY
z(PIM6oQFj`D`<9+>vVc%*tmLV4Y@{Da*ZwR_9q_VjsN|uiJX6~_<w&@aeirW@jGY-
z;H~O5DQ}A0MBeE{QNC2o!d8l3v#>Vng+wzIOSAuei(>GFt>hxeDw4k_*Z#ZD|MOMf
zfj8Fmyx8dHF`r2$?hZsb;RW5$ohzXiyr1(nk+NbKfoD-M9AGE&hIt|PyV`Ciz|Vgz
zCEhcHm~Dl6fBVD_KOpe-Fn^Q5(=2i5%3O<Kr*qRu^gC!VvJaAxcVrk`+V<Fby%Y^`
z^Aai+WeXTAS#>Xim_wMgcv!G9L{1DMj^~kjHB&iy1_oj~gd_(+$*agP$}<NdUD9_3
zTM<h9PLJU@*57Nr5lNvDp-*Z!VPwPsh4Eud0a5)prnB|p^;G&s`(TRe?i{W^;i#??
zG%TVihSyO7kdndYWF8@gZ<nH}w1k1*fHGFEEY<r$oO0Vb4s&Mx0EW*Hwg>X8X<X_7
zu!X=BJpDC`(2Ve*MHZ!RM9)DTc19wGu$SOUx*FGD0VY@BV&Bbp7a=gE=h1M}U+jk3
zlbA)J#WMurS1;t#XTO#O{v1|VNxMJ8EPe@I<Wk&s4%7+jW`c7;n22bm6QBsZi%58V
zIs&xrb<8WACqu|dW13tw;HSmnm1Tv#zCH(;IDMZx?84^{D(T;KJ*t<ZM(NTDWKuN!
z9IKHsJOy5<8oFEOqg>EFO6^8t+^h~1u7vrKrs|o$kv3Yrj*)eHPM?Zao?Fy{&#yT{
zKwU~8no{UfaV5h}oPFDLy4|F)Na9<!mgx52v#A<CGswYgol&fB#;Q>e)Q0AKbad{c
zn`oG6l|1(J>C^b(_TZZz0CwqPE6hPHU`XvkFsTJ0-AqjEPK;I;5Z}JNJR7iqi%^1y
z(TkF7I{<4GjTBv95MG4jV$?!kZNW}2;HNYuf3`oNNe;;O=fzT1(t6%p;sXv~iB6tb
z-O6&$$~1^`5EiaF?C$O!b@4Cgir^p_-RfA-_3`LN`3kUr)@|4z|ETZgO)VoMqbMuH
zL^L@bVIQlurs-g<b|R9(gD~7n4tbZkc|z;U##V~@w0k>IZ{V2NAt2znH`A`@3t)tQ
zh<A<I8ieQ#Js4K?`<@s;%;2!$j7p)eA8OqG-!61c`*#-#ccOht1wY(-t<y-T!1jZC
zRhmPG!tceT&WmuuJc(GnQSN&QjmWcHqhFx>V1O(a#;RshbkW=+LJV*L!2+%AS^({}
zj_Bubf}F(p0`{pDhTjq?F%$p>T`D&&EWlqY+p3N&-uL&?fhqmhW>_##kZbLx0PA5<
z<TG309H(!1s#0wq8Nsy%omKeJL+JE{!9z8Y=lsEnz-<%PbD2acU5~mM*fQYWkE0Px
z#l*rgkRvB0#c_3feBAL(U2QFyE<v7p;G^ylDapw{U`P4K3a#Zr`qNK+iPP94qIlqN
ze6Ec>73VpgRZXaf=Rt@HT;_vCkg~EeT<F&nbTMM0i#!|-eh12J&@SJ@#sGkd$el4`
z<bg-=%Q+#0A7r80rlz;von6%_c@c9g%$AM;crhyWkq7Sb6%K5bb`l5SuS+a+0Xp3X
z4o(eeDjZOW;TIusH_##NHP@fxq{2A6V}i(1Xoz@v#`6*~0i<qWcu}iTgOWG|u}p~k
zPjPbzLE1WJ0%{`TLihckeNCTl{R{T_P)tkJ%P(-lqt_gY1<dD+!84)qX1cD1+|{#Z
zci<6T@R+bhSQr5N1U|@Na4ZHPlmqT)oVTmS((>vC6VZ1DWjY$eZozatO^#YU{XsC=
z4)ru`+I3IjXsr5|4VNFAQYNm?lI%*@bfoDj5=3lXxjMB+ya53L?$0tQLJOTv8-0Jx
zvBNujhm6dZnQr8qM8IlX;JO!y*wy9TG`R=sV?LaFf6hri{!Z#Kd=uL>2=)qu39Tt|
zqxN$e_VPpg;mB?uPutf!$rc+ELuls|3Xx%v1Qv&Z+!$u3H|055V+xTX<`z-@)>CGc
zg~=iq(fvTMcEX*`K~vJ??-d9-!=D?H5_PuWxZHHj_AB7bQ+1+X#S~$JSk=2CqQjWF
zvCzY*{v~)u#PkKxI{mxdzKf0Lf@k=#2em{7U5|Pqt*Bsq?i_13lH0BWbIuZTQHX`7
za;{+A$n0hUHQ?AP8!H0dhRTdc1@X(*(9+KI`fpsN1=tPO9xo)vtQ`mG1!lqXVe;}%
z<b7szOu~Pq5R?++cX^lOS<4ap;CAfs^cGc+^AH4)zBSsOPNq8qo2<X|Qv@m6s;czh
zltMyNs>`mLa$pjyT_{|o(t9YdpK~0j+4S13y$t`mI23cKt-vj_^?M*500Sf5^cGKk
z&8e5$E?$>1#4*J%qGK=lWET*2)2|T76E{GTFH3eghgmNXeJmd2&{Fg7d%TDo1oI<c
zTseqU-Itx&UF4O0WyvwqiqKjJ%@&(2&XAYt@`$4pHxVAfC@LF<F<?ne%=uW2HK)1I
zbh2w8nyu%R<M1y<u#|$f9@ZTW!*On&pZ~%`L<LoxzQgszd^pLxRQD#5=ur824g!Wi
zeIuXVBSeK40*a&}=F|j>jaErMUF`EdTKpy<E7*TVl&b=a>yF2qGNiO`HCEAytl}rK
zihq*dsBEJ>gkOENVC)<i@`QFw1)zt>^dJdv!aC|=v51z5e104$OE^8`m!n`9OfVt0
z&daojw1g@#V@4#oa7h;us!cE0RRZ+|HPC3?JYBsIwR+fi8s|FjV^?lhQ0Pe)A?X4i
z-y_wQG!Vj{cmBd?`<}5Pu-rl+&kKT=Iw5P~Ddd2OC_YQL+~&v|@I|B_D~IgnBv3PI
zA^psdkP!0k$ec@U#9l(ginFW?&~(w$eLSM(RJci2u-=B-F&!$F2fKB_%CNxbOnuL{
z><9lnp-pWfoeLh*Bcf&`KY5aRIB#X|>9?KP-FWU&C2T$&7Ux($ipZS&8+1*x<vd)h
zP-i_pu8`bs{H=Ew(@irH53;ntB-E4jb0Dlv>OHL~x`WisP_KWmjcU1|zw2c56NwAW
zC&Z)FFQ}{E!g;SXhqQtH@8$~SvrE&1LJ80Rdh^kCDQYyl(o!2r?Pf%Qmg?%`7Xe!Z
z7Heb6kAg(?7_)&W0%0l>E$NY1kIxjDWHrD44(0OXMtebu(8y!t8vmu5(L07%|N9~!
zbuCH1{>yIvUw&0V!w%_+3z!2{R(QiT$Qhn<|L-@?j~2N~uJieN0QXAT528h`qefB-
zc*WJ{xP#Q*Op1C8*d5U#e&qYXf4*OSk7Ur7KQi*l)xh|5-TL)AK<&jY!)VTK$5#0+
z_Z4(Nnv#xhL{5m}su!m=tQX94Ou(R6k12yyHe#T5u@i5*4b}nyOn=gu=gxl)pa7=f
z9l-4&*>S)uBa(|lwp09To(l<45|Y`*WoaBi#FhsBGeq}BkWW1MNlhbUo(&2?VoHVH
z0;x?g;l2$DS<c&XYMXKSH(qfm{##27f5Yyzf~fThvZ_wtyi~+y7ODON$(}3OjmyMQ
zju@FDxe%s8Y#_q8!uc<@B%44#$kTBZ;xj^b=nDwy!MqdssY1sekb0oeejWe6_va2k
zW?A?=Z;^3MZJh=&B)-Lm1f9IQA}u&3^z=!YYo@X#vuNIg%5|#S`%W?&U`^d8T}+B3
zBJc-D5pnnSKjP}K9659^@!Y9S?E+W%{mb6oUdJBcQ$Fy~&EE42ixVv{ah>U()m7Rc
zJ7-yVU@DDbqF;%<cKKeI>rvBM;_iYUbRyF-aGs-cVO9rE(sv&|Jd0Aq)#uuf((j+L
z=<*%={1JgW+|p%8)C(hur)!19^|oO@;CYn{xZD2E7Pu3Sfl$OCiQvVElZX#i@T7q8
zRx~_@qDA8Ib~kU4yH3(n3{6YIfJB4mrth#Y4>3UmJ^xC}tQQE^AZgg<yW>NPkXuL{
xBD5uhY_flAwODe*|NnSo{&~;;TMy;R#+%a%lO=SXK2-QmMOj1XxuUt>{{aU*`a%Ez

literal 0
HcmV?d00001

diff --git a/tests/triton_tests/plot2.pdf b/tests/triton_tests/plot2.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..56b835edb943c428073df1f2a1ea9cc52a593485
GIT binary patch
literal 16044
zcmb_@2|QI@)OV(EO__=c*OZKRzFbr0S(%ctOxKW^ONJCeWR^J<LPSLhAt`ea8jO)5
zBqAv^`S!W$sYl-L>G!?g_1pG7>+E6ewbt3|zxP>3*g#D~5+#L&370*Gm)62ia3tK*
z?kG%N9*!^x^diC$s<tFsH%})x!ob#v=nF@K3Px~6MHtb;0jenTTLTSG4-y<hu7EH*
zV0V;gPl8LYU#bU?G>u8NBqAKUPB5?~k%&GXa2#|ALl`^TI=FZ^!SO%t`gqzK6G?DO
zFszyeV1*b!f+Muu0ShWWa@8NXHr)C*c2Iv#0OA|s-iHXdTW23(MD+Fa^RWl>f%pgG
z>k}PZY*jo1z=%ljheczhWZ-Bl^xqoD089+D_JtGH*;DrL@B~*VsOs;+fNuYko*vP|
ziR27N{TNZh#SP3Cj?i!eLQo^xdpZyywtY!HL|b=QKu(L9uIFxP#)j_eJ%vh^jcDyV
zEDFu~u5cw5ZN?>or6f0e0@ZK~pG(j8&nL1kV=wRoQ}y4f_#~B~n#{NFOe*t5&o$X$
zw<A1!B^QrKpMG+=OTTGG@bKj`Pc`cs#7x@)&f_Bv?1<+q6&yXkJl{NdcWT8yU^&la
zRQh!HLOat^!Y)@5$7KoEho~C2Q>Q+i9jo6F-Ep$}G;LJk)jQ%iY5VYAiZw!DSMvL3
zA5FhqlX~_N)1ez1L{ZI3ne%xl=~GOu4!=dSvF2=E6Q0^wmOxLdncd%|>xUZ<QNj*&
zhdFkH6xoP=L`iEZt-AU~-YsCJt16p+N`2StnX6BS(lOuO-RH5V@7}O86`3Da%c*z$
zZtwyV^G*3%$^OIGyE#~d<??scoaQ8Et0|w<xl@m?<Q<HQ2)X;5YK-;9d-|6Z5!aL1
z=s5>P-Y9MxadqR|!ya-y<0Kz-df|j_xmeGos=ld~l>H89ok)J;T|vkE->2ptE4uUq
zAMK0wK%AWj3q^1VxQq1)2o?q>+!Bi6jlF(o_KAH{tMelDr}#0B{5w4*`hE*ftNdR!
zvH8VKxGla4Wa3}m2j|Ems<L7Du`!=ii_y;nO$LWz3>J2(?`dTXYMiP1v_wb$n6_KK
zg*8v*<_?uxCCqt4eNqwB?6ic8h#a-bsHD<kH{8bIma5C`53>qRH4ozV+=`!nIycy2
z8ZzY8a9nY?!Ps-n^w5z}tI-SJs9sK;Ytx}{?N_0ueOfv`xYv}KUx{vF;r2r2dH;cH
zE%)UqWMFuzwyn7BnTAJZ)y}Co_!|0XA=&Np_V&%fo5b7O(jVR~EfPxqu!8%T=}<ne
zTVC}Ld2i~`leZr76TKhbK2bcfIzHyNubuJ2SwFnsHRh9oAHO~+ekVcae91nM&o2~S
zHZByNAj~jhck})10*t~%oi8q(GMPSg`_p^n4hoOmZ7dfkWMm?yI#a|Kb`Nz<uyawh
zZAtT;urup%WU(^dA<`q;eu3a=ywF_LbCNnLSBpk8(P0bYjMzY)gXL)P`FaYi><W_<
zZtvZbv;&#FTjRVOl#99D_d0Uio(mInH%f@sax9||qi4c+-OJ{j*Oj_@WzJ!MOYrOX
z1*-b{$o)H6bnWI-tPL)r^uk*!2O8M--p)OYVSMA0d@qY5-L0Ez5_^d!TkmjX?w!W+
zXlbb(RpLv0r)@o^DYuRdOR<b~gfKp|WU5K&jI(W>QG#n_dNUH$mClBAp~^*NOzwz_
zMm^GQMQ3H(N#z~%Ni{HXtNy~-()ZNg*p1F8sh&B&+@5Qv5Z#u(6(NQh-za`$jA#Xq
zwxDZpCTrrh=IojYoi1eVndfre)7cC|$GEnJQo{WO?@hd?i~72UbaBjD%5PWs^~t~~
z#c=N3aTJ%cmKArqQa>B-%CVvLOo^%3W2QG0m`Hz9$V^E>QH{@unyTG#x4Z0#xli9e
z-<;~pe&FH3^gd5_Nb#Fvyw$?vF_&2DJ(9)U?UAGVTLtwUnk9<6J6`vehn=UdpU~02
zR$O8IMGM7vexxiVw&K8)LnbmcGHc*qlH<<ZJ1+Mws#zV`&Tn2hTo^kzXVh1-rg8M~
z%mvGGpOsEhrN`uoQs}^ubeu}QYE=uxienLxJ@vr$Q}7qT75n$B=@~tIESBd;DQm(-
z^El+Li>$JvSFmN@$(@p%8ZBD8w%^*h`pwa&j6Iiw&Q|VR#*CWtn^Ub0E-8kdQBf-n
zbeEIjM|bqKZJW2N?5IAj*)`)Pe>YBGI5@&MOz?$(#Boi!Y6s<jc^S)0ShmKO{6cme
zL_`R3JfS?^NuKtjNbaJReH1o#Z|&(bm2}UXlB+#Er1_pE&Nv2tBnICeyz*i0^_w}`
zkL+Td%`>p_mTOJ!7h}9t&Klfk%{FKvXzR-BzPYqNsO3JzuJ_ZAwqPIIXdG+JNqu~J
z{J@ET8A~=Bp_LkOieN?)drGg-9(nr@d&L_O4vDf9wg)d6AE}`Ka&IhF)hRc#`igSU
zVO`0|l&Z<tlmTHsnd3EI2Rd7&0y9k|>Mhev@ebbV=1bSg4cqxTh4w#R{U9m7$jlVH
zBk@z_xjnosIm4?BW?H&ZX^%C}9XoSSHFzK=)4{u-)$3sUhZaS3&q|->Nt+J;>Tiz-
zF6T6#X6jywy}cT$#dT8Dj;{H58^L(6S?Rj`hde0)#|_bDedXrp80y9;=0gJ!*yf4w
zQu$~bCazSGj3TccujEG!jED|N3CZz$6L09pGTA>rbxWsztc-i4v#hsxAc-OGlQK!s
z>Be=1^vD4RRvPn0*Bj;na)Aa@wxnvkArAAb7j;$xdbe&_9J-fy;J9uqR!{lLm)glA
z%XFV_LrCF=oBM$o$UYJBlPGB%{wI(iJ5z{g3Ag@9L;vp0e>hYOQW|*C|L~>?DY_n1
zC`Q#~#Ym}bjh_cEd??skn>l)NSVZ{Encaii)sLpv>X{q!CSlJ;oP4w3RdIe%&aK<g
zam*q=Bj$DLR1c@!yZqyWof_8WA}uo!j<VI$hJ+ooc>OCEOC<_Nqym`x_gt|2#JaD(
zCztmrPKsWdbm$UM6l;Iw%gM*VU*phYNA;}Tj7o#~<PWPIoSvrDj1jQU*fBM(O#epb
zzOzMi+A(!1<#&rW9|Y6C8y-E{euK6o^O2mWWBFT>k(9@d)BL>ci^U7CFAcb=bgz_)
z3omI6L}7eH-Z{5UK5c)M^nEm*S~u~UGyjLN>mGelHuc7`>UIwMeac*75AI(!;COPo
z=?>$zk8bL!qQ1$`W{xyHVsK4&+a93vnTGe$$R1s0)4}25{qtAl2YZ(JEc!`&e<}$L
z0hf(n1}XF3ve!>gW^07gQO!399N5CqyGD{#7+5<ZZglyMWJJVXR=O<s)qJjdXU4`R
z%u2@hKjwTuV?PHwb~!LLUL@ugkzp}OTVNmT;IM1EoT~HGWWcS2D?@Le5NHAm+t>D*
z%(Etp94in%&$4DODzypI5c=G}G(d6x&9r*5z7GvQUBvQ*e8j?)i9-tA1xDt2@9r{n
z)eDJRL{3sYp=8%wU{jrqNn__jA4g21k5{AR7GwvrybjcOSTzxwFt(Osa$*nV4yzuk
zGTL`O@5=m6!l;xHjzo007?hXI(3uo{jn$kap5dqTB=w!q%bjkP;T#`z%0$lRVy9Uj
zEF4R9J?_VT;CjV`Nf*CG*H!kNXUg3Il%IA8vEE{e6-oEyH(b54t5jCX=B)6mrO@ZO
zX^zK(jI>#ir;e9(ICoOwd(PH5?P$%`<yB8Ogv~6M)5a}?F2Aa3SjKxNe%P@RdF;iS
zICDrprQ*pgy5Ft0ZX!Ggnr{>y2L0c{!x?IOG$R@7zHokR+|u{1UZf@W^ry9cqX!&x
zO2Sn&!glt8lnB%cA^Q1B3hvUL6HY#dzDgX3)VzOnOq(Mt<K<!h@Q1rviTju_eDxWo
zj|y7PGPbMZ735jb1H#*6k#$@B1{{ZC8u(vU3L153q(A9rTY4-;{lK{D#hY+8_tMY4
zU&<KVzYMYO_Ya=Ye$5^|m0s3J9OpdSVzyPm@U|{0Bx%MiPb9B?@5NJYibtc>GWI%+
z#oW8Mw}*N5_MFqJgZ$3cBbVLni#2rGp4?^9*H58aRik&R!oJ)7{bcu@hW;-s`}s{+
zHxU@LdHF+NsJ{@{0YVBjKjXu|NJZp9u3@FSmoHc02Ubtkrey6;THx<^!p@TwkR>Qs
z?$|bL;Q)6WGuCUl`{^bN`<3M}UV+qD2HU7)ufDQzj|&Mq*8J1D&1mQGD`(6PZyUI;
z*LP^UlhiPcy-Q9rp~EB2n!O_4@9Je^GfiY3V+5(HDHZN(Qn1vKfS#O|Nfx;fJO61|
z!k=)0`7HxJo}Y7SMJy;Be=2`AaGr9fkMf%J$O^A|-Lx=#7yb4=L%Vl5uOp7!@h9=#
z+RNsvlC3Po&foP$tY}-dL0RRcTq8rT62;5YWfxDrK4K-giM*iQ-9~v~3I8oG1p~PR
zHGamogh<4K(4wFhuSTh)<NS+jRN0~idMBzdLOrZunvAH_>*K;#bFYQnja7N?@#^iV
z`|wg#Blx2rmT1y!5k8q+mL~_Z&sN$#p-~;RHRlbfNP%__;mdtkgzqlmtf`hr%oTxz
z8BBuc1+n0Z0ox_!+VPemDGC$tmqtc09fcQDAMA5~kP4G^?4_1qyFKQ>t}pYjPTMGs
zI~6^{TjVbgQYPPiNp{*n|52G>*5H!^!&xi4y{eB4IqXksBk^{w<lKC8iojXBJRXCm
z)sG*Vo?T{l5knZ&@mQQc;m4LX!ZpRkmf>`g`-Q{WD(&~v76O|{5ZX>}kRXPD`wIyg
z>3Xy%(G5>=Smi!mIM*F$ba15pi>IrqQHfZ645}3w@*wH<Yh7zL@5qko!`Ce3i;hcK
zT4V)A*Tu#QD^@+vc*kF5O_HjR;n7@VK%W;=EAG0|o42Bp9!Z<De<6?IehA_FI3o03
ze>qdlO9ixYxzMDjN~?z<cQ%_ctL;=WXK{hSMf3YF4Bx$7M$;Vij4NcY-@QbClSai|
ztC?~}X^Yxys>#))1ScW(yPP9VcDrq+dT&r%<2F%C51ws{E_qZOSFhHrctHR2-gG@l
z(^d~-?jv7Q<DMQT(TJ5`7gHB|4p#Osn8gILeIk6-TAAu|<ByW{=v$0=&4+10vpurW
zCD`O;jBAb!oBOd|<GEe)h!n<`*5{>n^X-ZDj|aY!hAq1M>V4?)m0s&BFVrz#)2L`}
zMk}6=7Y)jnDBqb~uYtK|yN$JPxv8CM=Qp4FZP?4M0yoVB&fT(8i$CM$t8j<9Pj9}3
z(AUI%-);VUU)~K2MvOmvs5a{8TP6R>h7Vp<7x!VN^W8Vm>F-A<KR}N3U%0GFWR(HZ
z0EtB!BeBv(NNKzg5`{C=LQPQ8hh^TjLf+ere8^QSK`Rk!qwIibbQ3f-F6Q0Fkl(iL
z8r!|_c1N#5iY<l>+}k(dXp?gc^xr(E`i9zPsDLAw;{2?{fB0<uWz{UzskQzG%#j3Y
z`s*oY(=*K&SWpps5(+EH{JzrPcAdx{tTPWv=@?wgoDwiLTrnz^vQx2+-qoGQx}cEf
z%4S}1=RHB<QkHK6Enj2}H71Y3K13URyLd8<pM5{0-)?4$g8MbDc1^D=dgbGvdwkJw
zB<_h|N_0?p&J`LBe@l6TOClAIXGfbqqMBpsV6w33FWF@n8!n#OM^DN(ZNAbuRyo<{
zFRd!MI943;{<E`bhD~Iz?nkqLBaw=kC0YLOQdELo>dOgq^1=$xa+2b=f}3YN!anbN
zXteOHV|j(=I!o7AtDHY2h=ERqHaw?<ztE|A{5@8Hov7DLl<8rxp#yu)0!JFZ4Sn2Z
ziuqjx4MSC+1|Ln@p2M7Gv^w_B4HA{^y!4UmcuvFOC3148$0R5H$uXB??SrDv3)lkJ
zn4R_{6$kd(pI>IM{~{>A374C}YwTb6FLkh*sG;bF?;3lBX}!!y`f&3Kgsv^m={@Tj
zqqlJjcxYVY@Syy*u%J+X>VXge)v}_mSRWyQq7`j=8vnG!Hdo!U_}S!Qj*CO@$19dJ
ziUv6?KECTM?8-OndeBa2-<EfQv-U>tQ|7^iAS<of`P44{-4E9c!X$_zJ}_Zr%bsJi
ztS?x2u7!(-+m^dZoth(}pRRpAz1?a)WZAAwDs+3<RKq>yEyb7FZ_>1L552>SI&V2x
z8>@Z)(qfQ@f4<wLgKt)MZ^1AleHx>MEqNMxN4KPhSWm0RpZO-PWN5DRwf&j@y-`$$
zme=;ltqFI$<Xf`5bY)s8mCoFG#TB$5JTQqkbS*l2f!?py0a1Vd!qDWD%2~Q&SGO=9
zc4)d<dZ{>l?u~r-Cnt3ujku?=GP3+B7LN(xuO8>}T8vvsSG;l;thjyX#XG*2IS8vy
zZ+Ga<Ml^4toy`C^{%?#Zsm+@PY<}jiPzobMVIRxdKCry~em!dGiE<E^3ZvbD`{h=L
zylqKMiPe%Arjwf7?^-{j?dzYJ!9}L27?Wd4dka4Mw{Txsns{b+?NYuKLRNsSGiAI~
zN$|MrjkdE@RhVz2!+f*+^XzM4VpATr6jE2-DXkjuy?>fGXgHIdmnbIg%6oL^P=qzB
z&ak4?W%T}$J5&}g@1&I~49)N3^_N}TWU`w8cj>=?o)~mBSOm+l6l_u3_rN9{x57lD
ztdtr`Vs5KQ?a*Ruen3&l7<yAUCp_9IG!yQ=tp&bats*OiTa71&BKhH%4%HUn;q4up
z@UsaP#{R{|b5nlOx0y=q(37C;r0h-if(cx>m$r4wZ6_v?O@`eJQR4n$)1{uQ>q8Bv
zQ(L|eE*ScCLjJ4{5p{bF&-BOv@1IfpEkZ}Ih)rUOBM=$VvDoEM_2wACRBjgyhx*>k
zj)T(`l%;aU%~`H7N8j2LCu*L^ZEe~0$eK{%;C(61&%{s6ORqcaqv6P^zj<niCNmK>
zQ0BYaZR~-26PJj_xvTG(mt)`uM2t0C=HP=1v?B2#X{F*`=iNT_>LQt`zp1ciPQ)s`
zWejWWGG3Zsn;jqbp9-__3}n?B+}57V&&3n&f8J{CRp08JHSZ|7?pxf~cF(^$mf7du
zcEm1))0ZOlxoGi}tCU4Qx9sRyOxr}!m#9a#Z8GXk>CLb1>+Amfor+h~@$)94+yrc*
z@R<LGO6o~+Y*hS=s=@p71Xl#96uTYKqWEP``vEtj#wTX*Q+4d&Plv)|ro&HH36Ids
zU!``k|M~{+fn%GX_6s#F7<W!J3c20ll16&(jQ161xXRAs$Q+b<i92_jEa&K4{)A7_
zyGN_4ULTKqylXc?I2RMv@qmY}YsUEbDqb$XwzlJYLEH1P{uAP}2W?%<bsy4KpRaRN
zqJM5o7%ElR#|M-Bw8>mIgN0xN|DWe1IKw*k79`^=j%EiEenPlw9IlmIee#^#P>I%)
zdcK2)(S=r0ejQ@wwu^<TerJk~UvMn?%KR~DJd<~jzt*@fJ(z2IdQ6}WPer!GvKIrs
zVM{ifFT?v~x&`r2!$!4SkN3+gwdQO}J2}2`OlOy-o7qt^#YSEo<a}j1B5GDsy5cW%
zo0i@OWj<}ptbRtcy74%-#9*>T&RZXI*qTQO<xbm3nc2!%wXwiPDm|g^4xw({ik7o8
zGwOK%D491sp|PRox`Zf{jb%y|Yiz$9t(%<6+AAVM=)0beYGB$wscSTP=yqFouJY&#
zM&9XIf&p{30o~FFCH(YAqeg_{t?ouCsw(ZeWA-|$IS!%?)OgsZVq=~M3wE=erk(>|
z+om5l8oDK=ee8Y1{NQ;myB)8mL!RZ0sxQ(kl_6^sN4SF>Hc`bUXbz3~izisY;C4JU
zit(X!<W953pt%yK?XkK=YfD<Ip9Ffhs~d^ovQk75eyPId#-p;w)0>$Cqh5PB;DyE1
z5ogPVmwRCELt-X5mPekYSE^z&oCzlwFk)AB@jTJRXM2gU*XBNN!hB|OCsCQ6=B==V
z_Y~OlSHXSSShyJPWwFN!FzV=UUAyL!c=2%TF2$zzsvOBF%#*k^vu}&OOxKMQMUp){
z8(tmGDPg8!-JOzMFKBI6A;re(f>YM-ZnTgLt*bu#eb-IFT1KT$G0ooDMhSU$UA+ps
z5wAsz2R0GWCh$_`ZywCJI;KV>omy~_4fTmVpA-#K?~mSP+9vE#BQm03#Y3MZ>Vaue
z-FkshBFfr3Y$+YdV5Mo0aDMiZ?X!j%>iCaEMjz%`QZLMwy^4BEL8-FS@lV#Uo8UGy
z<}Y@r`UV~DKzm>6U^rys^zJ%d+F1D;-%hGNpijwg)_s+?m};5+fVeD3@a(94t$KQY
zn#-a`PuKN|@0S=U{nrdkwp|sj(CM^#>`{T$MhrH|#AmqPN|-7MjxfIzurNOGL^SM;
z0{Wg~<sAaDRN)bG(*By(>oZT}(uAmDYLh;w6vE!}J{8VS6d%qsI=^4?HCM*P>EPoD
zTNGMG<Dd7oJ=_teaZ9qe_h_073zFTqH_f{=IV_cZtE!XcAuK~-`-31A-2He$Ue=u^
zFB__dl@SGnSB>gfh!oS5)<d%6Se@{ME%#sSjr;g{>y@vEr8kk=CP)&C#Q((tWTbmT
z5Fp8A(V9k+tVERJfuh5A)F;0WCzl5&=TZw%J9hJ{PNwdgF$#VFJA3!DgypNE#rcjq
zyI$+OuMqZ)ewNyOmenpM?lRX5_pNYl0lEqmP27|aoKmlAuPu8-cco3}-F`cN_kGVI
z{R=X#rN0e8D>;gmmFreKGHAM&C**$j)bR^1FeZd3i_)EGb~QQ9ZT!+{J2;jHBkw7W
z&uKff=i2e;#C@WKn@lhdo=UE~aJ5Kok?=LO`*lIL`PIIPk1-NS$`m|F-tvZFQYBjb
z^Sg68a+7h$v-kOu!!O3@>$_ph3d1zRbt4~@$)g4;d$-VXdK0{54CsAwcb*#llyI@F
z=)y@;QskUBLGi{xt4jyv{4Z*>P-V|GA3fsfKVp>j?nR)CrQ?#qt2+x_-OH$AuTrH;
zQbBJUj`5vVJ*jrB<|xDa#yQUJuE0q4tax^w-uIuW&!}wWe0h4jjsQ!IDtW&(K=_mG
zMA6OU&(pBi6J6$))IZn6zr<459CC08f8Dm7#yK?{`#s_Q!LMIwS>If5-9){cKv6XI
zFCJNa!@8^B9R96B<aQZw4Brqa6%f!uT*DXSP?xBwa%gun8P_^Iunp1C&`OYEao?%y
zRx2;9Vto2cc!_JwOloOXQKzwle$R(d^J|k_W5EZdpT1a%K1`Wx7=F+;j5$fJ#%5*E
zb&s1Ng8(YZ02AtRALd)bhN9+<yXC}{D#p0~S-04sFNn*;0kQG`<avR8H?o~CAF16P
z@K%&oW#D;QT@b%M-Mjd$_MH+|$4YLT-?Ceelob<aR?pP-grAY=aQ4<RufF(9c*QQk
zLYBj{+)v7nsq^|(bG>h{Y)!3u)*WIPGHE@>M|W?R$VxE9gI(5#H<8^Y$QFb73m7kH
zr0dfHXB_s0S?6L_XeZ>~kZJ?&tW~9)Ro7s)Swg*ziqSc44zIq{*IXUnsTBG0dTD25
zx7KjGZ1lsV*qRi{$Y3>z2~@LubNGDedtTnvvd)f5+E&EiF&6PpPa}x@<1O4nww!IY
zoD*i{e*9O01B?rrN`wZ+W7ia0d?l$Rk8AXV9+|j!Jz;D$WxLCAru&m?LFIaKR|?8^
zyB+X7yyu98(`{MaZrYAd*9KUP>L@uPZ(|<$zTEr7RO9A$f4tUFD>u)CZ)Q3@ksekW
zX9SZjmI%n_7Ibv(fxSx1;q?)tvYpAkM)KKp(EIX*PTaZJYK*qy+Xk(Qtowo1GL_#M
zjU8_Vigf$rKP{n~uW-`s=^<RZa3|f|nRJf5z96Ezb^n3=4Tmsq`3ao#C3fJ=lM6?d
z9sMxd5o1H+>>%#%Ul!lJmpk#DLc;gB?<Q*51mH^}|9ip0VDQFZ!-1q^D=LbDO=_f*
zHyn!5X%A`GA5v6yN_2)v2r?w4@0L<!ut&PvxfR$r+HG|(hoj)N=$gk{GPBvKHsNLy
z+>b&31v@yf6Q=>|XSZmLQsKgZM<1?SiERMqdhB;N^^i8>q6qWHx(!c-hYOn~Ecup&
zD^x}k=dwGET9&t0a&${x*X(AkmV{9ovMZQnAvgt|b}voK7JKPj3_C<u&9STgl=hZW
zM^|Wh3o&qmDW%prJG2p1xX^&Fi#J`2&z_i*1@#wRh+HkmTT(F3didh3Zeb6P{{Cr-
zmIp1`xz^gNxmlSyYAG3SLn>63q8d}=6*W;Ep|kiH_k5Z?Q@n-3oy{Dw<!zMpj@i!+
zPTSn)JuMn{h@rBW*KN^~J*|M}>Nxixa`Yk6*e>s7InC2aJ7V~|*W<YB_oL?w&ssNm
zy-V*pM%U~7eb@E}WA>aWp_-Q~*qB^o8lxL89F}Q0{DGao+!$?tK3js(-g(dEpoEyl
zo(q+QwykZv79T&bn7lcDdJ{!#wrltc^oGITG(d(naj0IyZsD1vGTNl)O)xqN^A~HV
zdZI2fH9y$e<>V(cw((7Qqu)gOuFZv>_h7eIh%^bi9iFEk<w|v)laHUf>V0)ddV;#S
zqDhdEDND!L>9W>`{LgbG7Q(f~qWBGBGj}FS5<RLzhw)4|ZloC(CX~lsLMDE?>Bh->
zB;QiNFJ<4UW--L`@mikt!oIrE{Md$*1r#XyO=hzR%*6oo^xr!UBZ3D2N^ifxLg1ku
z!}Eh+$MN+pQ^_C)l{d*KRnEf1|KaIKlUuW-)thNUY|<0Qh>^|o9i?n@Mp0VD^``vK
z=Cjb(t8q@$?M8+7CkiIKJHq!h6<%g&Tdk_N{<@tfk=Kk<Fi))!-O@b0GyT!Ka!1P(
z=`M|l0TDUkeUfcvG)B8dWaiE+=LJgM*cyE&EBy?N$24a93FY^>n(-l@xJ=C8y>q*@
zz2agFl0*H&hO`(7!4m$4d`p<UDE8^0UFy%3!-P{Z2`#mxr57tb6}jIB;-v4&ioLP4
zFt>lKxN9!8RRaAc$ZU!9p|9-}19m?D>(nzwHY_ndrIq&T5Fsi*%g{8STJ<bb7pjf_
z1M`I@ZhD>1@*H;)h1q#h+g~s<<()jjdnqmlKT0{7zt5eMmibj>)8X4;oH{#PQ<f=8
z^rpk!tX+S9tD(Q2k7q7)Gk3iSz((W#;#^PCP}_$}nXax|d?~{5@(cS6@zWD){d5m#
zw=%^lkt|;2#$AL<9IAhvT<YBP0)q;FL38?qc)z>Zgpvtd+ui_|=l?!viFd#|lfLt8
zUpb>=8Ozr=(dW}GFHzi1)&0b$+h(n=D`Y8mlvy<kv+vM*W-I8#ye|tab<<Zt8a}0A
zmSLOZVY(B;mVk}a;*Y#?uHX^1GF#j=jd;8d$CpAxA}Q)%d@*X)SJM4Rx4w*P&#YP5
z;zTO1wYQYW4n*1RrH^>39fmGti%MFJ-#l18`rbJEB0zWQ(e@|f!Cf7T_f2eC&h>jJ
z;h(*FQ6D}2CGPsv)aqBNBQ}=Ne;PP$lbrzSZ;s{lleC#t!STUz&ix(55tzm)`MXzY
zo#*dfRi*U{`#J&ll9%uC7Lp=4OvfdNpW8j&SP8d()hn~sQKQ(5QXa{dG|TXB8|-BB
zy^lswR%vt$%I7z-v{})yIb`rPG{Oa}6IV??n4ewhu9h1~ti9=YL?OR1W|pp{oZ?XE
zx7xNa-TSMDpG;(k3EQ)uUJRQNFv82_ZM$VM>vQEy<;Xd4FV3Z}y{hl#Xl@D0zu08j
zn*e##-y8`mB;I3gLei<uufo=p3I;^;jvu&u^z^&6>w>y<3_+CkagjYeyRKw6McJGi
zZ+R?i;=01oq9iQco@K*aSn!xfGdajkhRcfg=B|WS71N(t>rxy;dRkR#g`Go#%Zy!~
z7kRTc^WbP^L}zj?)o;6fvBYTrn=*o}O!2K@x*ObW+`o3YwEp2L&7EUX-#3}nCiqqQ
zFLoyiadOO|NU|<9olgkSszis4o-7o-8T)NXXt<@<#v+-ry0K$IvE+$Qw~*ZNZRhwW
z4(+nIb?w39Y{uB^xVua*M)dm`iez>)Zo<<hxDbu{i&uF#Ljp56pPF6f{H`PvhX^>3
zzqjlA-LAM^Q{H=4Q8!chvlflc7W2P0Rt(CL%Bg+c-+2@}m3~vwH?*dz9&t6LF~%|a
z)IFEX8j5Ur3f2DJVnfv(ygg3~jrW#6r&c^u?ZGl)e=97bihn8wZnu|PLb<C%oqfA|
zw@3l*E;t?-&6pc$H!f^V=L*|OVJfq`f4YAmP2s?vUJ@tzX({d@7d^YWfc$Dg(KGh9
z7TCvVwx_MEWk;#%<-Q^JZ`s1`{gBe(qE2e%M6+kbQsve|pTARF)HF%|Q$DEQ7qRtF
zWO95lLdDjX_@kt6XsBi?u0}j+YwBlg>){KzA0J<ms<W*Rc>jXXv;9#<<8Uwp)JBcy
zYwzRYMe_84gEJW@co$*pXGbCjIzwXscf8-$9fS+3Z0vfyy~=usup|lzLX#x1;5ZQ_
z4c_aZ(7=&{IALfAeOr=`3ptKh3W<cCCh+%9$r^@$m@@$3%^;K-x(8y9)jdEoFckd!
zE9m+s35HN}adaet&}ArA*%A&#WB7X6+7saza2V}H1R=~Is2K~WV5&qP7hhL67NC_N
zqK_vW;pqV;LOKRYBxfHYC_93fXYk*}p9n+v0v-{*M1P_O96@w(awfqM9xk8(9=Hjj
zx1X&WoB&3!g(K|X2zxlf0Z>7_GmsC61b2obT)+hw$PJEghao^0U=S}j!W)i)EEwnk
zbms@e0y+x>?0|?a5bKOM<l;bb24T|>68b%CnyiYSZ_9qE`Zr~fCHp^U28i9w*2x#h
z=C5?5>`Rsz0S!)dpb;PeN}@4fHBhzn(pnb<5{5AQSp;F`AOPOQUfILRjR+V=7?X(Z
zrcgoOHh?@MI0^$a@GB&qJU?hUmT){0`Trxq{$KmS0MTNB6=Ly7xC}-Hj>q6(1mN1F
zWsq>RG!Bj-Ajt^__=N65^)bK%$T=`EQ2+myU_b9;KwT(7ef&%~3<?+tBmfyKNT4Hv
z3|t!QvGBl(abR$1DB;j>Gyw+#3696%;W!-V1Uy#Kz>KA300Y3}$T@T$0}=@Emj>;j
zJ_#}ekgwCAoIDwfGz`iiCZI_{36H{%+v32)*ZTl<!MNly*omX1L8w1SIB5boCjd8(
z2Xs6N4JNogE*6Z71Llk&K<%(_9LQyWu%Mir&`>=*SqM-LjZan@BtXCe5GV{969?Lm
zh4Pa*C@0$wG!hoNKtdvd*oLMC<sgyu0S&jFU^p;Ea!W|QzY2iC^)Aq0#?T#zE5JF_
z95RES>iU@jm4Wlh-+I7GgGwMg6Jj5-gMYCK5y{2`dV*U0(+k8D5(y*U`_TabPk{eS
zkRhzw0AvUMPGngFyMS!sw?wuF$R>U!vaS5E3CJFPPY_?^YtRQ|8$S~?b376UbO?Bb
zY+#c_kO4Y@>;kM?zo(xz@iT{n0`v|e=TP~#MAr5CeW=bq39<`Ft5E(cr1f`PX$uD$
zBYUBLmTz*{C2&i2aG*o-Eqm}C%6iEG4)jT;5#eZPqY9kI`htaCUs8Xp+~^;!4O;1e
z1lOC87k_eG0_fcdn8Z5S8S*LQo?L+OuG8G$U>4+Y+`)sgUh)9;@S_B|3Gl3wD|o_z
z@YhQal{^*<xB~J)IvD657xiN}Z^&7Z>-)mN0pfaz?1ey-=K2+IOjz=uz)6u^9rnk-
zz|s8}b={u<b0D{XTpWl_A(#DtC9anO!NUTTV8H!=2akN0>=$wC!~R;Yq3fUCM+4aW
zdRM>h|9(=WjQZV6|MO83LRA@bg0Qy*$2^dyQ%3)f)qqR<RSok$Rzrd>kD!WBuBiB%
zclqt4=ogESgnmrn7ZDQH&w1%Xs|>gXD$xg1{2^<7G#uFdIu$^fbvgg)fZXC|59@yU
z=Vx8NV3UTYk2}CiKY)?66b>#4{ri~!D*73?4PmhVh}*^(w7)_dEKu4BDi}vvNm*~B
z+2d1_l*w&nwcl#X&3W3TO>pAx>iOR@N%(6fUp>Yd^xz(24z|ChOorz)6~@{)dV!;T
ziY+(mHf8iT&Hebc?tdXoY1H2{3OMblL~f;^v0fLe$q8mQzDEyUQflXYNUrhPgGWVI
z)XJ=C1(A9?pQ%?L+EMxzT~m`&vt@}{Y?JqQWIOr)W){Ht{r61VlN6Xk;f#?Wyn#X9
zNcn^n&z-1P)cfzHa0_)UEf?Jvn#0QAg-M=+%}rz4ich2HHa3<aJ#QZZvae32NN<6k
zhvvO$$|3o1iKud)=0n!CFACtX8lilP59?x2cDfz9a#BT5g(bd-!sOe_H#<KfoiD2&
z6L+pYy^n_&8t+`h9$2KiNwfyEs{C6H>)%KsbX^=Ev=00a^lXtoAoK$;le{+k_yz*^
zyV<IOj{u=P$zHH|@N)Acxw+WE{V`I~QYZ<yGl}HoD~mw5|8q;q)5l2^h5(xg2S0o8
zP2umYyc`_icDDAeV3Z#{hyq{>b?@Top$2__xmQgVjYMOR7&IP<2m2Ul3sDH1|6nV?
zhv*0cfB**r$l}Kj05cqL1CH>2XpjX!Ke)#a8VZYtmeqgLFgOswvyp~Jf{AaaCk?Ie
z8)<m3d~Kx3fEE8=G;o0jkJSbm^m=6j4ZMQiI0h1l23wdv>iy9l3M2F9+yK_u*cKd<
z0ATX({!m!VA3TFy(Vy}|5s<*`K)+uyg*x0w!=M1L`gc7f8V%mGZlvM<oG)7X51Aq{
zNC3z-w8dZmu--_+6E^A>M4m#<1N!~LGZKphZ}K<N@DK*sP>%q4=YP|1C}`)jfd+xc
zjWlWeM!6ty1OUJ`)B}5mKiUG!`e!{H0H7P&68@a8H2P0jNn;_*1O0x<0ASTW#+3n2
z+{St`xIgS3DMR?f){ww7{*W^P`-feDT3{2iffs`GA3URwD6qBvcRdsm+T3iU{V8V@
z5(3N{>Y-47%nb!L62I92$;Z~kjp#%Es@&KmhzQmfIKs%&6Iv3<=tJAX(GyNy63OQR
Yz9d^85_u^?VP){(<8)#50~)aZ1EOsslmGw#

literal 0
HcmV?d00001

diff --git a/tests/triton_tests/plot2.png b/tests/triton_tests/plot2.png
new file mode 100644
index 0000000000000000000000000000000000000000..94659c0a41e63112a0a69da5cfc3aa655e9219e9
GIT binary patch
literal 51996
zcmc$`2T;{Z_bo_JR6r3$FrX+%5|F5Xl2i~0f`ST2l#HTC&OtFCAX$<GMGzxM5JX9$
zNR%K-4oVbBk~7R|zyHj8GxO?I&8w-Is%zbQ@o>)Xbno7K?X}kKduP-XH`4B;rJ$hL
zsB}tRgMxxeje>&m+<F@P<l9o#1N=+UK|$L=)5hGv`I4O(#pz29*R5?FtgVdqI+@wo
zTiIL_Jt%%qn18ROgTr<EBZ7ig|Bn|Ow6U`gY@=O&7jLrR`Y9cI3JQix<PYUD*;FeE
zipqOR^2g4(#0|$gyKGZvD)ydz>bzzBEjijlxAt5<K1Ru;V5mU3HhI0^>2qrsQ&?mv
zr?=6uZ;^lD$3w+lK<jtTit_mJjXy$;pDGwwG|5xBM!SDsh|i>Zf@@fOOuS^)huP6Q
zQHvU3Kfe&grKKg8<>{s!(r#iD_*w5)@vh#VAAQfI>BTS$Tr{$<DC__FaI!V~_~SD?
zOtcE2rO}DuY5E`T<mTpj<vWdB+$nxdb^6bbjJI$5`l1Z`n=?$-awY%Qi_h*g^bZdY
z-zsj?xn{4lbo}n4PIa$zL<`zKe!TJS-8(AAGymT7cG9yD!P4g!-(Idxlug_ve(f(F
zA|xb4t}W;4^hB0LZTH}yj?wW0OtiQ0#!PGJ=QC_C7PuX%m09HP*Yv%4v-yLwAdN4j
z56#A%KSxHs*2=ExJu3O%U(VGyFFE);HNm*y>FK43D#3SodBQG#jr6VF+xF0yRYj&K
z2JcyW;MspY@}=<f9o*z&c$oaXIp$++D^Iz&NLbXwQ9kmRpIEbIjntbn{~m*fNg>pO
zPwnC1tH$La`{E>QOW2E)9~|(QX|c$@*0FHowkDPfZ^WbAd*%5xe0H`?*Pf$CkG^*v
zQ~UAaJf(!&6i)z)AQvz1y|-7IzP&jAl8WWsBcT{oz4s0qSXfv(WK{kwPH7PX<31Ug
zJvKHrfnVH@vX)16GqJK(mj<x36u66<RYqj+e7OFL>f^_cb8~ZVt~90PA6_nhho8vE
z$lMmV^Pg|RUNS#9z^j`xEIov$8U6d~Q~qqHyG{g`Po`Pbw<2%vr)u%BiBH*f96Wf?
z$0<}#U!N{}<oow?jjweTKRAuN$;jZX%h^V&@bR(COWM+&kDpdveJL&d)zkB2h-Q`@
zoBZ%$oAfScN5>TH4C8sLh0sd|3HFYTo;?2HPo8k3rKSC;(tgZS@~rm7@o|^G&tzWa
z33pUP4g6&>^a#Z_36G47OyNIt=mGwFvO7SqKXtGyNI*BoNND@iW-*2Pu9N-STsbeC
z%^shf9cWOO6^JO@NaH(tO8me9THlYwAAQ%+DMYp>$=K7DhMz8EN~NTx35kq6nPvV}
zJI8v5_v*4Z`6IjZm-=h$Ar1s0UT}T1T{2+mon1PM;**p2{eptNeEm97Pn&W^ihX9Z
zqiQI<$e`KyXHU-w2M4hqFSP`%&yH582o`*<2<N8LrN4cAJfyryLm!bZyq(@}y<pK&
zrb0|hqtpk%+^MOlB?ql!oQTq@s+Vs{_i}Qs)zxh)VdhZO(9~RYRN1GnoX~rrFlmeP
zx5~;Fr#u=*@A~>uZ`!o!-+sBA>b>&CsybRYaEIuf43n}ys}|K&2fguwwF2&;dnYwI
z@?9tYPEGX|-=O~f>@2l~g+*(wjk<$FcB!j<fAu~gq0R2@?k~<gFNrervN|hc*L&)K
zR$3tTp|2`xz?VU0@1aBI1=+-}u_ErwYvLp$__Q{;yD#ch>|$j6m{lvI@?0b3x|7pW
zujK{n<~PR#6NN4v&r!A+X?;8Y)0e@Hv&dD+Z17u(m`x`uK8X3CUUbT7#!Kz*Z08mh
zj4dqg=H`l@xVz~`mFU5SXx<C2womqd&H6oXm(A;uRl`#W35hdBUY=?RQWc#A?$5Q-
z_tezXIQ*`=fyf=aI`!vAKu!EnQL{=WoF#<}<I-rMOH@`?R{4`PM_pW8&g59@l$4b4
zFVxgZ$H;oiAYQm7C0mkS<CiA?yi7ND4#*U8pRvv_C=iZOWu7M)qQHHYX4Kp8*h9&9
z30rn)x2fVEKOQt0ddFXQeUT)B0Jo+z{ZEaJk@t6r{~0igvpuw(zB)$q?m&Y3CPhWX
z1Lt3Su6)2J(5jth$NAvE`I64ggu_=`-?)q$FD)<UxlJEXQc`Mpx|Lh)ZwZ~?nLInQ
zi@Ddne!0JEd~)(rYin$B@_u%9_P+>R?ALxy&Wx*Vhw+OoZ!S^qKH{)<?_QrM1Gjs~
z1ew=5jvxgpyuJKmyOfKNu&}V3?7e&Umd3nSpV;<%IhSq_A1t%r_kd69PhY<iQfjrP
zy0ikG$YnHdK*DS3oxuR|w!`4J+n0a5IQ#nIp#---yekVsf?;7{+W9WRhc17Avt3tP
zd;95!hf_3Cl(Vf{!ctVCE=DXaE>14bb~WVM7$RzpW4m;+%<mg`^;K@8Vc4U3=FDbF
zN=oc@oI(I|pNqhGjX@>V{;``&$v5NPRWt=QytD10RrLwv*UbrBOUL}irc1`y*!bDG
z=UWg3eQ%o#8aC!!%(nc9T#^;%zBFfx51BaATggYh+|p!i^+Rz6U0q!R*S>9c7}(PI
z80c6Inj+dgR^|uRtX*sSvzT&Wdgw07h_w66nrwY<Jm9CcwueQlD-RK(zq-3i{1`c=
zywnn9zE1R2%@3v~zRAq2d|<s{!v=@p=1?416I8LK`N_fW&$s^i^$TJ8?Sr$;mteM9
z5`u<BG8F4JvHnC-T$*Z7&x>UH+2Pz}_9bu!KHcnPvw&e?oVv{XEl!olGg#GwhK1FS
zPu!jGC@2fsU6q>X^`fflwXV3Hp59#7>dIXlGyV4tm&o%^|Ik{HM14rIZppN6%efza
z)cISgI@`)z4@2ysD_;_%-L>C4@GdXTre1B!S!n#e)V_66G~cdIxnp$f&ySa{3<_c$
zhZ_4Xdk7ZJv7fj@e+ggwy-ADr%KTlN+)VSYJAbas{-~ZBY?x+~pm3iVzV!F!M|?0f
zstg4)zqVYAh}r1i-K$G;;~rD>imDF}-;WWs_*UTVT$3OjaQE)I(9qC)1a1EKmt9k%
z9S@_Uw{O|9CHl}6W*mqfM6gclR>q_!Pj(<0M@L7aRk^UQ<gXJF668;w42z8X@=7O5
zXy<+WPd9b}|AU1${`39$c6u5>gfCcm0t>>`Wj>mU*p9RwD*5zjx^JqvS^I@nx*AGi
zMotcwj7-9<TWf;YWP=I{3OdvLgsi^pfA#7Wf{G?e(6F(u0RMq6U*D#xr1bI2mpkR<
zrw&|rRgQ0cFEDUT_L%Rt6ctgEFZ9DBBYB>Shsm+=_K^ufh8J@9eMbMOpWphxlN_r{
zlMH|bQl5)5rInTb+1X;MT;ZK}kB=vFu)Dar+O90kdn_98BU>357%&Wf7{75MjcGrd
z_mc3+$_iOib#?W|bVKzbuVo4EmHZV2hPrpQCQsE9ui2&*6|Hha9=1Sk-yvi~fh{Y=
zW1=RBUMg8r;4$2sf#3HXNc7(0W7k({JKQW>xUz6Xf81qtd3JgMZ%@xA6Nli^&QI3V
z(1@1x_DYD<z!6q>eevy7&%LeOnZ~8G7t-`9aJo^#`5!-ieCzh@L4Qpg<*yILQvpj5
zvqsHtF1f`IOE{0R;u~aJHPGzZwadfP)2i;#v9vN{^SQsjZr!;<_4mszo4U7Gv<_cu
zKZPx({N0cmETdxf<<lo$<VyM{^{3?IDA+uw7;!iWM4$-VdB~qZb}0nV?RQoEd;xdI
zdq)m_epRhFM3_%{x}d<t?D8LT?HwJ1b&sh7m<7IVOU1H<ZsAm}%QRCV5vuy~!fThs
zk=*GX5wl7mWL&TLK9=_mgH)DTPYc|p-w#Boq#G3cZhgx~q4`wx7b;K>wkjE0<pE&2
za7Y^8>G0vhF7EF3%L|U4G`ynY<Kyjxo)1wX2CMGkf8wOwBLQT(`}<ESE7Mj~RN#nr
z|NL3}S~vHUx_Vhx7aNM?@<sguw+Be&LnH6rzeiF$o@dtwyu~W(71#RqN>6X^tqN22
zefw_A&AF&@Z3TR4$+;3)T3gG2RWUYZ@9gY+_u+%Z4i!~Z`U@8>kgDkez<lPp1}ELD
zz(7s>CsUEZF5TQ~9VHD7;YhHQu{xi|d&+oqGLuJ>o4$PE(q$2%EiIy)wD{4|GGDmq
zfG7w1el9M%=|ATwl%ozV%VqZJ+KR-eddzk>ztYYqVZYEZSu3j^yhnOMO3261d-(wt
z^>-P<q8o?PV`;q1<L}3HZVyZSw{f7X7A46#472WzX@9+Ig@$^h{#w}l9c)$r4#2|H
z;0Z+Tl>N7F-}vdPqYmm<S|oa&l$T$F9GRSwVrKjB=fFUe#bP*)BHp_U>E~Wh5SM_!
z{kB{i-R)zuLruZRm6PLTY$jqmb+RoP6FnxB5_;D?(@O7@Hgg>>Wtm6r<TWgm8fnW-
zH7N^n`175&jb*6dnNHTzm7@7l%_k=}21rd#i)$i>23TaDd#=H(5`lGO5;SP<&R^;b
zM=n1LWN^?R{}d9JT}rg+Q}@}?DSR@()fVJ5AdT`W!J=2e`^0CrWp-`__%QICKHpyx
zuYzyXT;wgQ7{pqUITaZb*wkK8u|Z2qYx&~syLUD5uK3~(Yfs3(^IASKGc(iD*@Yxz
zef6q9TI$=khb(FnN*f!Q@qWv0EiEmVY;4j6!{6uS4bIpH1qE%te=@)c*+ofBt<l0=
z{ucU?KYivOR23D=SlbQ>hF{dtxnyCX2t<_UFu29m))vv#Jvy3JyQihOnIKq1mZ@?i
zzm@RNpZ@+Yz>)$Js22P|uV1~Ia>B-+#y$W;pf5T5N?Ta}xhBubMkHGe4UIRsxwTPV
zmvWBg17;vaR8Jo`?bNGc`yPo72htS%5mK$byKa{G#+O>@=E!15!dy*G;^ra;PMhDn
zd2_D+q0KwTp$loOn%fRjCATzR|M=s<>}js!$HbG@jjUZqI<2}lmrexOe-*bw+IJZ1
zj7Q9F-MQ2M;lo`jk^GlX2brhi<KiaxyHFu@ioB#7Qq@z9OZ^dY1o4D~g(WqS%If6g
zgs7!LDMu!B{dJqgPQd$G-{koCJ}IfVjk^xN@mhAH*~D6o+|>Nu@#V@y#c;FClhdIw
zfhPz0qptMlSI-=a+4$pY(Qna#m|FJ`_bp6J@(6ZhL>XYup5OIPP!f-n4TbHFKjL^?
zUK<_Y^iY$<;>^f<5xTq&>5>&qfH0Sv(!SoNV_8o}_vHM`3v=`H9hwR5`h2415AkSi
z{D%$JDw(ep`(QF@ZyE`ptK8h&{QD9!HY8K3Xja1-MQHr*-@S(qM<PNF>c5wtpXkeq
zzfn0RAwts2{hf#W?%(G;crfVi-|N`a=SgflOs>WC^^A3$9Km|Fv0_$RkOIt*Zjm{a
zS2N$aPI76cs+qNBTd5{U#UP#c>k5e;bsB!88Y9B2+yGQ$YiGxfp5)HPT_U#K@_+_2
z#h%;NC{ko?Xq9;qT77{(MfpJq01uK)9l)%0+gwku?BB^rld0eJZU$cr%Na@le+PfO
zWT};&WqrhZ{OsAY%#N>KzaDJK;=Xk0QgdtT1p3~gR<~=twRC7Ra5nF$#UBy2tlLZ4
zgf8#Z(^yfo6xl*AWF7x7A@?)1TX?zDxqrig$}CT5l0yk3GqF^Xm76;-KagngtK@c^
zjAyKm4+ZM|lc<6I!hU%y4)VdCE|1BLC<NU|UbW%YF&oyeue+Kqr@8(bvQe!)IY~-N
z8O?*vMfMZE=zC~<Z$v~eVFQqh_j41h7Byg)fm7Pt)~5O594|VQPuS<I^Kq=Ktfx+$
zdNX$^8sxwLTO^7?1kc%<$coniE@~2G)0wz$vokQA(`)tMRYOt$ygf*u5A!^7WY6l#
z*s6s43_q~8mr<z|;G2%u58&vyJ<@I@i(|Jx16H6(*@!LV+`oT+Sx#7ZxPaF*dR@xc
z{+JH_ljisof*J)Tz?(R5KYITBd2;g8%>6y-*BI|mZWZ}Xc~z_Xp-thvtSnIkEr+CJ
z3;^ENty@36x%7!gD~%O(!sO%4wclTA1$TKZ-rvS|K|4D%AtA`GUCU`w(AvI$cH4nB
z9`kl+>4HBR8KJ8}Dgahd&;|Pap1z295vUyHF3KBSP8$KHRZ>?^Mdp+^a%2Li_1Djz
zK4`!2RN0pGH-Yvv(ha0h%*G04_h7Y>Q&V-b<HuJ6XE}P_R=RA=+?DQUS|OVFFgA9f
zc(%8c#n2Ri>oNINygL4<xK^#6xq;gt=Mm@8>QD~F-;J*yD(uQDNbesv?FX#yxi8*X
zTv2fk5EzHj2*pC6>`1>^=jvk7YERxk0tXk@N%8gKh6B~0dcY$oo;$|`x?&$f9XoI_
z&LrVb<zVxYtWmw<7b)M5ayX2DR#IHy8&Ir0o9?^1&KQjNuOA#7)O&ZG(%ISB^W+S^
zJrm!B>f;9|^N<eri->GNhlbE0XOfHS4vM=)sOaQd;Q<9j#UYh@>?Ht5w%4zh&s;pf
zq|V;rd2rHyeln&bP}86=d@@Bs|K0T)zdqd^(C$P_&EHl&*-(ZSU%o0*Kp^K?Fq>>=
zQYYAk)9A>eC2W&Q)7z_6<BuGw%A*)+eBF>bX2&ip92zXU5{*C2?A}0NC}wLyMW
z^eX3G{xJHvMrbAIB~_LOAQ}C3As=jri1Fw3I09%6pCBzDThs9I@g;aISRpl@x_tQn
z2!$v112z0QnesM0-=AxKE-me_uco-WX*WCC_VlI<6GfTTC41zVn=fDT5lCBDSO@@a
zZpDXI66HJ1u;|)ZC)xRQy*w&Q|1lf^yND5lHR)~0LWWn|N=#%MD_lH?j)C$KP*$9j
zYZy4bo?pL?CCYd<XIU`d(<(C((O~Hov6=4*sc!mNa+|LGy<?TJs`$0`a=VRNwr-Vl
z8rHti5e~|YbbQ0Z!~B2r^6YM}EH8>8i_x{csz%_l?%plwI<X&LpZRKUf1x?6y1D;0
zzB?a{_DV=ZqYu@IFmvuK^jzeR9755UUZnb4b9C&D+w|p~hpqiS8Wn&2dLO(1BO6;{
zPqkV_7$<4Bxz*x|TU&PmkmD(oR8>D)iv2Mp&0g};r+>17QGges9<|)5So*ZSE|>k`
zWL#X_DHW9-v<W~um&A5vWMzHo=!k#!PU48uupibU(R(GYGi_c`%fmwofMlWO-PDu=
zT9E5@b|r{!L@&PxK!9=t&oOX81GR}|XzRl`Rg6Vq_<QLY7*fwZIZ67vorf;(Whb~4
zZ;iZ>hsFg55d|7~i|1_8t<rh_btXTHZ+!mp#eC>U-&uPwP{8>qvUL6*K9`jZEVd&L
zUh69Snsc=+Q(mT`>hhgqBD+F+sRRWD(H%eFKiXEEzdX~%ulKIbc=4J6DJ@vTQX`=^
z*u_P+zCB`=n`Kw#o~*Ec4H`C&^YHKh-f_F}`Nh^pp%1pLqo+}AQC-(49y51PI^Lh5
zz2V6*`DYj39zcS!K<wTYsM&hV(vk;N^X;3{R9{)NfvVOsFnI6X6|-*Nfdl?vLclK`
z1gfA-{t8+HsW7;xNER8i7Y({X&5-lSUEGsmUV!`0@FtOq5iB{@Eyr<IuoNfLKBdbm
zD4czKeC^Cgn<8@K<aa}4gr2hC+HQB%P<I3Okwe!y^Pku5XE85gnBbRM51?g^Js<8W
zN(8mZn%D*CB#Q2E6Prw6L4h==yoSCaEOL7O1TEqB5SounE5f8Et3^?2Te|hZiylXd
zR`Xml^}4<N6Vgzi7%Z5|pN!<!IX*kuG1#2J!Kam0JsYO0p|J&J6Q5(Mb09b%;EDXb
zE!d|{E$;HBKuzGRdC-!UZ8@(CH?~*5cO04n*)*~H<tV<3)bdmVUYdzOrJ^$f0hYS>
zyaEa7^bMD6HJXDIEvNVH^eH&WF@68!%DSn-aIJHBP9r-3t$u;6m>OxDH5?fK@CY^c
z67r69$NLBAg$oC&ruA~K?Ivj(dCsFZGv(=1yPhu_!C9zZzka>2{g`PP*gd7?h3Smk
zTyCHhe2p`irWGC|cU+^RQ<p%G-nNbjM!M5`QXf6!G+|$ZBfMeLrbg$VJLqW&mnKy3
zEiPCp&-M7vFG&Bf5c}XYImypNfGCLS1bi>i%io__FB%qlNa9mWDkFHaFaIEoa}cX!
zQd3q=&Qqi*tn&^WL_)nhI_B$#?@*tlP^|y3nh+*{7`Efx3N-ZF<yKdg9ldXuCnY6q
z7dBplpk2FXILk_G=k$HKn4-IrQwiZ7o40M_1hHT&wlf7l;oB2MhQazLcfY^Z)e1cM
zB!XW@1HU}ce(mz*7i7V^fBo7A-u~+kNgVv{p&>qX>FIL`3;y@-Z<8}NF`4AIP>b6d
z>dBtT&8c8+-O2B+p<$ZnH@qdZpS>jhyN-O?HtqDa40}11BSHWcnR9s5*LZn(b^rNu
z0JH?3_1Vlfu9N1J$!OT^P!XxFIOBk5ppVe`;PjgHh{GuWA|9@A-ma0?ETP3mz3IY`
zGO&fA_?L7#=xPyQs~uvNA?O8^$Gc1Wz^~<ocmtnn<X+Rab#jUX@>Bxe?nB99XWz18
z2d`y#o!g(5tklk~)#a{LrQ5XIJ~uXAz!^6EmaN1)02WFQEZRQ6H;pXw)AN9Ub`jn{
z6W_o??2xoehUjn+Z7es)>@b2rbqP;K9@*Bxfk|9k-0J(Y&{F4VR1E%O$BrRPx$)WI
zAQqLdqy}CSy-HTC+0UC>T9k~89=+1dRin_!FuvU>vlooYf+PsC&2sD<9Mk#e?^MFM
zPJiy~G^mUe-~%-iimFr4UR$fqrJlf_UN93Yar9_FaBwi`-kD7#L6_u1cR@>Z5Zx5{
z{tzyl)5^kPz<^bv+keTHnwnY_!K?YXtIH6zF~$6AY^HUKNWhg1<p9OW2nRItd-v_z
zXV?9CLx2+s01qOi8zskcVJZ~RL>X;@yu2x>7M+9#DER|JIy|Q`KLoS49(@m(Edu#Q
z>g{aN>asc>`6ZkB!^5X5qXccv4&c+nK}u-%rlh1OVdYE#HvffQbH<ZWi$m$i=DI<<
zk8<VObk%4?vcwZT%dfm8%OV9!49<(4#`hRKjW5|{q?5kkmaO^9S%yVkROKM=O|ies
zyu7?h$md)D*kO701C>utKQsmYLvOP`CnqNpt*6xVv=9@wC|)=L#H^yM?4J<D#lFhT
zemF_rL6C9&b+P*e9{)`-Main{VIjdxg6xj+i|ya@?Bkja+iA4eX~f0F$M*q@g@A)D
zzqyv~bAA0;^V)>hP4hEtHfBhZTNoMlLB$CR3E2#i#@El%aHc9skVOu39OscE7m;;&
z+1WWx25tt(iV?R-0I<K9W7BmIK>og8`}sID3G7JfVQ6_sU-!ATb}T_~3B}5)@l}kr
zj!p%77Q0tbv9SlPUArdYF?U_kb0M4csFNyCMXI-<O<T@sC`x7kS>#Dj54L)Hd+!jx
z7U%UEMBqWNG?BjR7%BnoIC*$@YW*7q8&XRvDwJgAd$$5UBoDXeX`<>RYo!}3NRnfU
z!*A#@emm}nqcVi611F!H)l%;6=}7?<_AT2=v!&4U1NpnigZeM{m}hsXIGJ9E<2oI?
z|NM({p`cEc<>haILc13q9}jA_)c6&;(+J2-<@HY#Qvm<JJv+-$a35T@UqL|ukgygO
z$_y+j(!&crHSkTq5-e6-g$448iYm}u(6tOK>R93j5|WaA(JwB%j_t|YQK4kpnq?78
zA>ur$_gw!&4roRt^s0ShMXNO#uK|ITaX?c*akzCN#85#_UPw0(;0jj)!_1FeBZP=f
z+)?xD?St)kS$^f=k0oLtY9J+T194SJy`02UFT)@6*2dmHFfamOQpwWt89wCR{rmR;
zl2w6jqAgOCdh7Yr%x3~-s#>HL#kA$O(CJa#PWoH1#Q9*abK;_6{Ai7tc35~f)AsF_
z<DQ2h7Hy!XueN=K=h`NRHC5QZ$fB;N7l*_!=&xa3Em##;)DKGPfDd>xsWyA3u}%Tx
z^S9Bq3lN7gJ%!P+oS;}PO^m^Il0(fuQMkI|&a3}E+s|)lWpT_HtP6{v!S^a}P=Zo?
zYUBt*jp;~AL}m%7xBT8WGdUTqW#FnHC?2D#k!h+lk6J4)-wQ>K8M-LJ5`|yFcJJ7h
z3JikeRxR=gj0D?Y>)V&5+TzyDkD|aPUZn73CA)gemqsVM9w}1awz54vW=V>Uot@>N
zUI><}FWT<ImWc4~Y$!RDpPQPryq3ll=kY1YsN@>?F5~>O-B7fd*R5MenT*%#Bvi0@
z%^kyGD{XDPm>xbJ55C!nSMzD0-iN2JYneDp2XC;bZ=|6{#ZCqeVHoBBYC2FhCWB}v
zlr^$5A=NlJZ-Z&aUh5k<?FhcP*N9E1w`P1mPXDLeW2NLXJR)0JS*^!CnYU~y0dR3>
zVn)!AUV(6$-Q7f<q0Dr-Tw4yBhEP(U`g`S1rVpDBl*CAPJ(NWIj+UP^8z4k8q0fUP
zeK4|V9|Hq}+w>m=;5%fZZtvB_#M_D45NL!!QsXO4e@{1*1=kNe-8(nl0~`b){i?10
zL?yJ2XygP1S@6y}#$#sro1nA<kuD!$m2wGr^k}b?l$70YkAX=ZTdH~@7dj%OyNlVv
z-YXu^z4-rh4tartvv8H|>+^gNWkH#}Ss6`lwQxsm#>lcz+nS&~(y^;c1G1>}QE%P|
z(bG@^24y{4tl&<3<Gt!dxMIAI%h2oGsZ8*S&?;<%a3%my%E*HH`x_VgQ2ON9kN(gy
z>_g{W(J1V6Ni*5_$FlBq3K{AnROysuH|`Y68%cyf=B8DsFJ(Mc-Xpoor>3QMl|H+|
zq-$*{GSK>s8#%?qA^-+pHmE?R#t*)BKbPh(=gyqvII2D;IsY0MT#LfNA{C4U;;OIN
z2@E`z&<tRfU;ll?Y?pT;hze|<>ha@L1lS%fG`$w@7<=D|^ON~V^@=UzmET=OMYkXB
z5Zyto(N%SHc{#1mH>i|#-zD^YI^ERfou&~{ix0FWTAk2?H5Yoi2lXN0vBI3uH4*(F
z7cPN6t{~bX1Px`Xf@!b~`T6<JG*W2y?AarBwKal4X3mG`A&!5}!Ix2ebS$6Rk~Rs_
z8IGtKa0Kblo;~9^;`k>y*J4lZ>(>I%!_GZBv#+bi<xE8PIlt_6D>Ms_3)Xk8ZKRmI
zv2IcS(HSObdO3reYc>e&5Hilw{o%sBx?@l0=(#LGVbKrHV^0BOPy%dGnXk3K`v{fy
znfvGpP7(i~hXsibEuP8IO%f^|tnwhZ<QtVkV`GV&A&zPg*BF_YK0iDAWc`K>1U9Z&
zw+>Oh8@cwmwy=9D?~NNb;$*!Oe*d;yUi;pC_FBM^eu?|__4NyBg{T%6(Hp03A`)Ci
zV*42&qW<cbPqM2^;UljamcQ7^A_@D)$L|I}YOvTkc><~iG8(aZxEYu$R-*JW*H-un
zS=6wi;fgnz_Z<yM)6G4IrM-3cZbP!tRyobUCrL@8k`K);xK$s#fmSo?^DD7M)vb)u
zH_>hbdID#}NZOk}cCXg**W9N`HMe0s^&P4<pV;E4V&8RQXL<G*YWUcjI*wnWs_Ejb
z{bQ7DMAR9Zf@x;baRCxn$4P3=CXWpb1z;n<?wKNzStafEt3<4km6gRwK+#P?%!6tD
zIXqll9?G!;=o!y0cC9@cNy>KW_gPT;lOZSVq9BW*=6@BfmGT7vgk2>C(EE8XJOm(U
zb{ZNQ8o2yg3ndJ3)s1&jjTO5G8Jp<UZZpFbAZ7gm0<zX0TXQDESOKVWJNyCR-0J<k
z72!JFlED07KYtn#Ik>CP6NF_qd_J$BoHqUPdhaxX=0Njzd!8uvF9iZLtHgB**j0`n
zKR$Xia*+tMV2)kEDxrLdS$(?&X4Pr5{T}!Wa9Y(5;(#F^12hp%3<PV2!=MIQJXH{{
z(?=kWk)nZ3(L_dGXZJDO)rmh{uh1g~2*!S4%1X|jXSlojCWI&)0pKtZqhg9LLA!xJ
z8E|l*d2W<*K4$8qrUxX9JSPd)%~<~ACTRU%APdzQ+sr^<K*!}@S9gYJorkTrZ`>(X
z7j;u~(Sr|iAiM`q-V6SA#P+sT{t-@n6ZmPY)QWLK<cB-@`U<^?R8eY=UBud}HjCy)
z>wB204baJ##NGb{yv##QL%$gsgsro46qK~u5^WDedH2|uAfgPJfE_IxliVg&iAPN_
zLYHom%Kg#k&2>d0fPx;{3jJ<;diuxx=&v*%ceJ6ms?U8U%L7d`5^S#u<OXOK7r;Ui
zt(@7!5RHl0<?pA!HGKZ@<NQuBOQVd3LQ+zCV2aogG8))u(!AWZedm{B@&fB@Y-1yc
zwD15HC^K8dzYr*u(dU-7wCI2_Nd^WNah)*zhwBLrqnp3-;{_*z@kcPuMX&7Yd@xqq
z|H+dl*tS~ZCw0qT!eXjVwgSHp!Wg9QX7UB5rXsMgE#Uk8dON2}Zf)3_jLw=scQDzJ
zs4dFZufH+yf&{jFF?wwJlNYlc`_b9;K1AVkgaXn#lG_ytuEjqfAOJCXk~E)DHm%u8
z2(Hgxzn&)T0y2<@U2i%6o&H46nV560FP_IDBqI)q)SU+oASiPiXU|^`*G=AA5age}
zeihI%I6mnwnXicaF)4K@mPVD5>(N@e8OlQHi_Fh%(UyMVhAj(63f)=MfKN^^t$p)W
zEv=@K)oqK>#zNa+a#{;D|Dg5RJ#?)(R|BG=SU{qCUJ97dKD#;bhr1_tp8~hb&y@F2
ze!#~Cp}#3iOD~sgEZ)AC$z`p?#_W@#I}^)4>Bj!^)O`$#jxGlkh>}CZX_#8FE`6eb
z+-%sK#Jk7GWA$?@#4YqV-<o8dhnp!abve;~d_`|Wt6J{Ov9Vr{Y3js7zIZ2Y!PUim
z#C0~#16LB>@ea1}EIKZ)<!P-*K|{FJTwAuj;JFNk(IDhxQZk58i)K5Z7^@uFi?T}O
z$3MSZ<l=6$6l=;E{@ff}n;Pu%QOc+BC7yQe=c4be99l?8&y;R)hj<jYmj&)1DF>;w
z?-PS;^~6W3j`xRPQn0wO{+W+OeLJ&*939uvm-tn|ZBPGWom---i0aM;cp|=ztStMS
z&Js^g&pZdEf=0S6f<}k_t~FwKMSb~Eo(NeUd>c!c-XbC*9MlcBg5H~FJ{2lTW3=}T
z+cWAV>ZNtRH-2VG()(x1ThhfV&;5sEiZYo;v&FBM$wwP0XT%blYD*nES>0O9cAF>s
zpDS*aW+Fuba{YZE^3IaqU-M1H;Uj2F)317&UU*Sx%Yn>N=4e`LN{<_&a++dVG|wdy
zpZ<HGZc2QL82X%>zP=kaZcKq)1}tBv$K+`w!cQ=xfG856Ubl(gQfFIB9lb<g|769j
z{-Ni>*E5A~Yw+wbA$Az(0ef7Fz&UNFzr&x=!4!PQpulb04(^0MIy|k=_%h$VH3RXY
znkcgy2o!Nnh*a<uKc5847{fqVNjJvvdE?w3ZF(l^8LDHJY4qPuUb@{~pJi6XjM4#C
z&SU?wf`URlgh9n`QAtL;%Cx#DI?vBMrUHrJ;^sCnoK;IY>Vl=Z$0r;{TDP&WvEk&b
zr>E~F_)uXN#Q72<AyXxMTGlgXP&ve-<If@(1l5MPiPlHPhlCXWmn{MBNi0f0PBQIu
zAu1EEJG6CmCm}yh0NvXTH3|^U*x~nPo1$f>$Y*8#il3@1v(yD{$Ul;e<@0@cn>XV4
zV;4(sn;{Uam$l{RK)504@yb7E3g*Kuaq{yA0#i*cjummRXJ2Uw0@Xr+a8(3FsPo2%
z67gpSK@6%}CA-Ar>dGvEv(pYMORfN@Q+takz+<3pZbw$~S{xBa%LQdq^t!Wi(@_3&
zqwXvH50U8juEU>n2kbXC5q__}Cm;4oh9=6n;<!C{q8Qw-O){1AX5+IdJT&tHJl_;d
z-}^QDGxNVo_Iq`JNr`FIoR+<O>_Hp*FI%04A4}p^$JCB_t=qVBzc0<kEvN;&2Kn#u
zS63F9k9mPd7R1-u2C;+p{EG;z|M@h%Ja%?x-)VEz9llE|;DHhW&5l8)E-folME`1P
z+X>1r1vV_gha9@n7y-7ILvh}Dw4E0PEs`)H=&n=rKRAh8{?3yJf-h$pfxr(`$^xOp
z*4{oGiC^j5xd?+5!Zn;Z6G8|dd{I-hZDFyoFQO8qTs2}3Up+u-)b{N>c)P6i6A#;p
za{=C>@C>9SMz4I~4*d>xP;YK|iHV6|0d)v{3to#EF*Lt0lrHea4lD0E-xpQd(V@?}
zdp9BVG6BK#f;mNFe3zd7zrpzIUwrf)E7jkp<FcKQaunbl9D*F7r0}4dug>s*>W6I2
zpO8gX2Bg(!i!-zwQ<R|vTQ|4&-(Q?p>2x0}kP0jgyGc9oP_VSZNXYN)+qcBT+Y%|L
z{YEbEq={Fom#I{Re|U^9yT<A4hk<@eTJo8zN6z!mCagOj7uKMV(6;ZJv3=vz(x%r-
z$I$iLf!-7EbUC3GC$W!?nSV1@K1SL-$6%n%rsx57?G)&T;nue*C}GKHAK2O9q~iMj
zjF905<+P146qYjpu$M63siVCzg)~c$2`oVk>F3dlq#!iy{{B2hDmRdNpN{Pja5|tj
z(3W|ybE_vrp#CW%e&E<tku3xHhf~%YAXrE`>k44=Qm8V@N**5hXjKeIK#}+%e~0$O
zv9#OEq#~%=A3!@i84W7wQ}4lyj{XnoOgJ`AJMitLPj}G5G6S(aL!CMYbtO4B!{{Rw
z2=6Fl8D$rjcY$oO24I#POL=8v4B#kY2Za!Yh5>DMWN&Y;hb$d_z{1U)%BqPRW-lc!
zijWntZWiLzN{b_`jdnUhaw2hciMwn9F!>^i`IS%>#Qmo`8^c))T#iXeOQ$%Ev@$0O
zGKPYWQ9?@W1(6Qv#}qFiIOd_aP0jRn5zXKJ;ov->6TvR`rZg(ZPb1FXzk5G>7!SKm
zxqct7ocziG)f-H!J4L*eVpQ4hS>>tcYA7s>Y_rO1(XhIlr&Cq*Aa*fFM3q@5<Ue$b
z@F%hV0UhJMmi^#CHRx>)3cRBIQGIce_EY)DO|*N<U}&6)>-gZT0uEciJWgirr?0gk
zJ!Fy1a^B+>PqC%oI++6UQSS`kI}u=Khs5^*X}SuKV|oI5v_P%DCN#j_=_bS6-^5t~
zI^HpFd1<NlftEpi)oHG9!o(LY{NZC{B*(n8v{V6YUub%Usp82}!gb=PXI1}&-l&Ma
z;IeQdNSNP!C_&6}Y>HShGuY9XuObg?YsHDoUg46hz3Equrn?s*Bl$EiOGXk_B11n6
z4Nz>^y!m=<%TvUeKaM2n0$L&s^IgtDnKK3YWu8ZhA~ZH3ywOlqq09)tH6UWsDOI4R
zp%I2+aDoC3LuNQq2!)jSdzb6uM@*?6yEtHXctE%hqzeT9+^@TA@H^LlNV|KB`Y&%C
z<L|Y%s6Q63F<N7EUi&8RisSy6M?Ev^Y!rPoH~jq`)Sj62lvkqn*CmEcn{xd8H-o4_
zB_T#LfH#Ot!q?g*Htjwl51$ysY#+!ZeZN1Af>lApH9&Q7pV3FZy1a^$Kz;G=6l68i
z=kBme!PrdvlgPwCzvG~u01HXFRnY%$<PDB(3P3x+t-@Fj$~LIcaM&z|1|aQ+M?}cO
zr-m>nD=S-v1}tDGObZY484|b7yX%h=xY;4eg2X2bpWSYN1n9DQ1ut~0_xzuk9FS`H
zse%6;o6`%bZ8H;-X=qf#^2GEsC(e4+rb#0Gf-QBQ@h-~Aa%ZLh_z8dMG^PM1+zJ2)
ztvbL<JX{rTh@f5DfF$gK#Jc0C6F(S}s+`vlp@U!~G86U!(?_~LkZBb7oX>bA@tG38
zuMztC;m(4GuswGV43vRXbRCFy=7B5~v@CsK;<W_SESZJh9I&`o!(eUI{!SQOb4giQ
z>fSz0rp+UD-5mu%%uoBIjW)JklUgm=s`A)n7>+1rVxzosCll=f&bTBRbNnDVIl0#*
z!PoahT5E1bM*XTdpN)AbzbFwHAC0^aZDJF%JQH;F?(N&cu$B^_h%I!5jgz>dFn|Ha
zh>+KkO9H?z|A3j7RsStl@wcXahOx1i2Xzj@SxCfjc-{F278e#^>(AfRpAnP(=^qEg
zxo;n(4+Kt&vnPp`9yDoJG@)$JHVRW^TkgQp5J>l6obt{rb!a*5?d`;0jgN#QF$?xk
zoV6ECP~^9R$?C`99f00co3oqo(r9~L{=%P^umD|*cyLhvNEJh1aj_g)flb9ojjj+F
zNiPHOjERDL_*iEFy2+mL^KsQsCRspS8hDH=K#VVk2Tx<O9q%5h(i?0y#(ee_Z+gUa
zap{9rU495369b+5lfxiwXG)9LDUR+@f3?Z6!#*uhv&;2TZGtp&+5ea)T0K+!?*7g?
zL#F<YQxwEmkEtNQ7<i7l@;5lJ!6Xkc!XWJr&Hs!k$}r9uSW81g&<4SKEy2ity5G@v
zuGtG|qif%T7M8PMJSE^(2wLvF1Em6L5G$<ZiPjeJqvDZ^XWw2vj}<4>3>cl-+&Gxs
zhdVw*!4&k{71iPGGm|S<u8hY?t;cZ1F91%-NQ(<6$L_XgOq>G!Itl(#84>pz(p_nw
zfqBlgj!MWE_(wf56QtMHJ$tT&IzwGUr%rLYMeX$IuicI1mSW7&8Vh@w{JMNV!u%~`
z^Zxr?QyugGo&Je)AlxifoWA;K)t6*XQCy%jq-;_5z#<2I49V>i5xpO9!iVlw*%j|y
zEKRL$(Q!wegK|6F0uWnS;7c*kQGskkarFY^!$@K{0U?5}x#aV`tpYW(m`Q+L;PQ_H
z#QOjkkKv0za660~CylOLQ9=19+B6YXXZkeiz;lUUm?FWoe+LFCHZU*@AWJW(cp^lI
z1`9%Z0tP@Mv7H3h!+UuN3?rI!V#8_3vQS6&by81{6;Ye>`w7lDNM#|UMyQ0<NLkZE
z=H|WSp<w+)VF_NC83_PQiGJJ!O%HQh>zD%6Gx$Jhk^jwMF^f2;AB&a>tn}$qr^-Fc
z>||m4*)HQDVN*EI#T9-J&=iD26{rzgN5>yg;iF|C`%e6BN@pX68W=PPLHp@0gJz+J
zYe5iP3#fcY!IHtSvy@<KG*;%z|07<~{toOi-_rDtA|-%0paS1d1XoNEFxEv5kl_sQ
z=Y+rm3qw;}S*ffQ`_%(7hM0A82rRP}gF~=WCgal}I^IU&BcuvhK`?V0eL!~+X)@lq
z6X%u^1m9tda3F!i$auOHmT4RHmK9eT36%p~Wc3;rxSdCH32O&W&tG<9Rxd#f1=A!y
z?Rzs>Nr8UW?*?|zDva{3cV1(@@_yep`{0?}y%iM_9x#`X?ZyghgOo>3H-BI$i@?SG
zpwURFgoK)j`2tEZI^-6=VJnwkR8$mNS32i4K*w9~Oc@y&jNl48{93Fx$7S4yP~jP{
z;A=NOVMatKY{Es-jsWhVc`^~6Az~Wp@8^#nj{%3JfE8!{5Dx}7MJb%i_{tSNWbH`2
z=Hm9d0e(<tPry>J4>g*IbUGO2VRl}FT$!4Ewe149IU@O8ZhXZH+Oe^UU=9opWP}u9
zOh*K#cUj`V0p*p+#8p4QR@mK?0mV#_UGny*n2YSPdZ@}p9LSt|_sUsYTYqk7&^&(P
zgrnBcJjVhdNF2QI-$0gDL4q^;UH5nkE9<K$vdBfu{qD<e5^oQ`a~V%UYCZ-}Coi0G
z8hE-v7~XEX-yUw~ra<YjsBgsfm45vAE1_u-SmOaUJOBzJjLe)W9RQs$U`D~C9)OCC
zF~M>`+x@V_b(!$<^j!Bnb*J>V9&zZ^=eyb?vt>naa&wD9$4E0MP}bJgmN}QFcmjt7
z0xFb12#psXT}^%Zlni+g9dF=yeaTPt?3DMK&Ou!?T+~jI36IaTCz9DB4i11>y|k;Q
zdk*0kz<Pv@IG^q7@gJH>A#~hJ|2rwisP!HwRksByO%#rKTo{{<k05%sisNkT)9kFQ
zf9}YMhF3`;mK3aVn$d+c<`hFdx8?31k05i1do0kt$Dk&oN`mgsfM#~sy15tx4xO%8
zDfJ^SV_u5uROXa?l<L{LU8d{xb}$w4CV*y<@<MzyzS22?VZ3Kx*o#&c_|WU50>s=F
zhy|1KBTy6lC#Fa+LP>?@obFRjoX~c9X5k2?;C1nJ5l>}`FaP{{)O&!EVRWB7-q5P|
zQ)`bQagOdfY|UdW%(PZDjfs156Jr+J281r%z;%D_0FB~w%PJ=u%3XDl!{*e2O#j6X
zF&)m+h=VD~uGXY9{4V8oitIJ-sTX}%ZX^_2$bF1$;QL26xr7MrN(E-=XsBpJl>|7@
zE4;12w418VL;C(nckM#z%a0{%&k=5_yXz$84I#&3RL!5Y3Ohl%=?Q^|B+E;5s#G~i
zw=M2b#Zr$^KbK5MA>>hMxFUXGaR+s*Dwi4c^qOyLB>eiV+6g_xc=4yvZNf~gZ0v2@
z{jq@Q3HT08c&e8Uzvd}<_gJ7wU~T)2BA>nBqAuIqC$CI!up6P6{4iG7gFg+y+^1td
zi+6d1r*uLI`9$y*M#E@N9#;rWrfap<6g1-aYnbig+?6y^smZfP3pCU*ATe@o*sKT@
zg_(vRB-t}C3n;ecQb8~*Ma<8mSkmb-P4hF^+DZ2~O!l8f&|&!Ivyl+--7YuB!I}f}
zE}0<$OqjS-`I?6+LSa&9ML2f%_se3rYm1n{{3$RRLD@qzz;7^rY9YYiKM8_<aI&Dn
z$8Ts5*teybBjv+nM9a<1jUXoGf>LuKV2}>!P)SdqbT`*?=gvji`F<=O?f5W#M0R;<
zE6MIaFlbEA;-Rfi)RAcpiv(91pd=IsOSFBV%`TBcJ5te+`{EBZ#gqDSw0g>z)7TSh
z<X=Y35gT58*zy|P3QYp#!js$AY!67)Gx>8TpesR|2z>Bh+oP65$dFMELya4qooA0n
zs*S(PfDsNB-CD?3(USIDjg5^UAb3=)-yx~iK}ub2E-mF$(M5zlLfKe=52|!}Ra#1F
zJCr=Q5I&+d!y-4{dL{iV6mFy{N<TlpN64D!obE!|?Sb9{n{j}AdzD9vM2sp|iWo2d
zvm4C(bFYt<89r%|84(b>$E3a`Lww&t*v#x%jJtjT5eJ5cIM>Kr2=hZ@BD^C@-3<t!
z!|BK4-^V&rwF-_#3g}Y(932h%XjEt63wtmb_<<<<xu#|lP7n&Tb^R=$gJnx5CoDUl
zNdiDA_3>CBw1IQDag@7Jrif1rHU?vhC{Mpp^z3Nus39HjKs5o3>xUV}Z65J(9PkT+
z3}j9T{dxi%WCcsW5n@*w=`nEuovspD1a$Sn#04kOtLqr{Ag*8rOBonx&hQ0>0N3RM
zH3$7#AJD&B9*Q@{gdRJOb;6nXb7-gv9|XGTSIJtSV1JCYsi~=vW&+(quN(g?rgDTK
zhXRw3AzRQt-9TH}?;;`M;wgzg8Z9f#QH;NSMYfp%M#zIu1k3!`rmHZ2arDE&L>p$&
z=0-n^&7mcmiirvI+A=u-ryKzu<e`w%Q?SR#`E@`K{I%ipdE%fPUde`Haju=^HYr}j
zApPHV`&!2B+fTvQ<pSsQGmL2*b!vBX5OtffM20U{Wb>5Aq~*2)=N>_1L6<%8OW&uR
zeN_W)wzVM`QlPRq%E_tV1zsH%J>I`LZ0ipDo!Y^8O#T%?2Fc7X<o!#20-oAozzoKO
z8S1z8q9;wi$%opSye$$pp*?=&{{O|JM%W9R{P8<TyvH%jwHI4Wz)C?)ZkHF|mBv@0
zAYxnIUWvMO>((i#hVt^LXQ$CR9Q1)4M|>~s`L3Gs@+Skg@56W?>AQ*V$GWRfzi_@E
zv&2XdOmhEs?~uBNrv1vAl;q@7h@;N{QK$~#CIy%_C;TLO)hdAJKIn`8-qC&Lm7gEn
zwf_$sM5q2a*YI1N`8pIZ<<&1rU;pVtK}>e+?C5HlkzeKkE_$JDX4(&^ZJ?zM1NS~S
zfMJn)ckkZy00m)(emv%g;|uUPlD6Hq{QO|hRe>T&>_M4OF5t6>0Hi#JVa{N^`<zFi
zq4HvY?v<Am)H^uY{lO<+0JpFoqjKmjOp*DRO|CY-c?`pm0$PRxM0o=jJ9w2JEF;)`
zGjwWO_Ut)`l+Oa9`1$#lkupJmkf%Vx5R(>~8%{|{$*$Vt_yLd-Z`nD-GHY#tU7tV2
zM2khD(y3E^gq%T#!v(G__u0U}05>K_wtze!_M?Au5F#;Vv*Y88uxz4H&LFoTNX}gO
zFD~o%Z^HI&WgOA52Z4z^b_yAl04ZpRd%<JAnS0g$;6Kt<dG0^g46zhKNARz=tPTS!
zGtoB1ag0}uA!--<M3N=LcJ^<l<k@M@vzI>Mnv9C5*dG=bm+LV7qP);E_M55N;*8b2
zt5un4rNNgtrc^Yg!e$ayXb8YMNB3xhL*Vnlng^Vkp_Tvd?MI-y`hUBkL)j*WnbCw1
zN%WSH$P$&%v<YcR&^sAZ|Np~@^nIJKD6unP_Vr?*BiJstd8FU9b!GLKup(|yg<VKF
zjoVVImt!kxv-Yx+q=iU27sN}9LiWxht(-oXaxZVsvp0iOLzqeo&^`bl{xfY}9lZ}+
zV<b{eg_fZwC%El!)Ot<9BBzm9bYv%p6N{i}^m7{YG$)w*24TPJ?(N-=;zYnd=)Knl
z%)56B_y9duA_?+Cqz(b)0;7Eh!m&@{&f?iK{+el5<3vQRwu*In&gw(#QG-BR+M05l
z^5>2I%tu>=)_+}exoX4}%f{2!H`Jwg`G9Kt#LtnX_ab8hfo=@eSM3dDB_x_l`jk(d
zS`UDWYd>~l!U2h?3~5vXjUsdy&`@##FU}x<t=pu$mLxE-N$$)@@N9aeqq$lHc8fv}
zvzq@?W-Pjt`7@?gac~)T?j*`JncKnWb^RjwkfY9{+1f``)zyiR`}wmxnJ-2W!3-yJ
z6K6VVwI7<nERa9a>hgdt=yXZk^&J5`fum-suMQRycr=md6oWk5uka%`&PI%*IAdV*
zTh3M80AhcHCy{@`?!6%<Fz`ar>p$fJ7GNGQ0{uEWyy|t;VwRr*oY?A_;eLyE-m5G5
zGp$!Bz@}%w!iK5EDpWzrf5s+zv_1FW0U^E+^t#Yw&L+uk2si@WW&j-`ncN1ZIa%v$
zYx@gT9z4?<yhW$mkN|9~>X@~1&`I!|(IE<CK{_bHaZo@*D!*<k0BT}*{3ev*O#A}G
zJ=%+0rCV=Ox@@y_8yMRpHoNv^-I5Hiqwctb9V9y75a^j^nC-%`w!?S=et>FIF`nP<
zrDdMIR+!JGpGC=>$bb|bUgbtYLY8%pSlc$y(V3vBA`%)Z-~^c3EX*CCe??9*f^Sj^
z)7LsRRj-ewwfJd^H2bDJz4(O%lU$FmCiJ_Hh*iyF1s7I#r2D#B_YYk!x-$RB1iwmQ
z1azkp5n4SX<C<sa%9(!E8TUj0kPm2&f(nFLGfO~}&pc+^YH@L~`>5%a<~RFb*T9qk
z<L1pFCh=H3-QFGdPr`e*UJf`{5|Kt6D$vg`Hb!;j$`F4hx#otnB#JtFw#{qAk>P$w
ze-Yo3%eSo*Gymi;qW{a$O8;Hz(N#5W-UJD2>+G1s_AR^U3~O&rIS6f+>m4=Z<NGa3
z(cW&?<!n%HX-fYFRwV@PE#O8Nm4A{+T|ifG9~7qZBDn>k1rHJu(guJ5H$c`UW7sg%
zOmfwE;)VzdIArr)?84Y1kO10h_Wk>B;b9qJC<BJVC`OZ^c?`(gUd(;LdO9T75~y2E
z39f<?*OxRpPw$p;sY`<E{(qhAx_B)H3Fobg+MZj;v+bfm*5+nn9AFR7*jfl*lZ6D0
zODoF9^Km>N4UAc3dqN~yj;YuXULkL1C-O)?9AM5Ol#`vk<apjeehBR6Uulnr&U2rY
z+M!MP#K#FhyJT!hmj1Ns&P^V7`WxlOO^t<mujW-ZY`sH&BWu8@RQ+PYdZ}5dx%r#A
z8F$&a9tq?XK%bo&>q^A&5Vh}DMJA-Q%p#^17^uR@RW7~dj9hAQmbQhM<^iq)vaZLR
z6v7>}J|UR`w+oZGRAPw(8$oW~L7H}T@y$D7YPug|CjBuM3H62{scP}x4F8yX3H*gS
zB)&8?ML_|gM7sc+iiBP7dQc=u$de>w;9Msu5`Iho`fLR@0-npt?!rwk4ATrQH+gO-
zF3O=8v>#(mxCww<tpQ{V5_0=cQ~Cg;*V-T2|KIthY}@S?uk78m$MkuPkr0`%5(1w>
zZWtiVAAqd{5KiI4>*&4!rSGCS!1pRa5p#iMi+CO#6z0)h;);|DhToR3G|{lWfDEl)
zj6LG`Z(!~CZCYp>fO9)Z%R%I!0(?sTCo)WjpOQYJXnAHAENfq<MFviA%F<jwd;I`n
z_RyV>V2(<O{J-xw*{S=|e!W|cFPc`^ziyX7sY!WH{>y9stCSXIUolDn5(dP%I$?xh
z@D(>cylahxH5p8#Xu-rEb?`JE;ai@)1+gcCBlm}x4f6Dh@h~2hz_WXx8Hl+b@;$%P
z);oZ`2m&&f0l9%6uX!u9iG{Hx!{jb5;yFRQNCX~Ybb+qtI%6n$a7_q`eBf9~876u?
zk!pyca{@A|cDdop3j$C>UU{)%_GNXx)|)uDh*plGMkWLPY328`p}Ki245mU4!&vfR
z*i(5y!em0+XRL_dm+v>jifncq{8<WGA`u7^WXh)sp0yW-bdv>M&9x;3(Ll09w8wj6
zto5_8RtIM8k|D5Sq?rqR98vnwQ-y+0DyYH2>=zO`gV#<E6_POw8Mqw<5aCQ{*NB-7
zV+1;ATA6hUmuGYf4B$&LMa57s)`~yYE5qoXb%|W2fy+;bdlNmZW}2R42c_;w5jAz@
zLx?PlVsRWk%nUmf)zzc8^9k!xhii`9)$Xsf>D)iO$n<cZjlkxM65Tws(f<d*)lPl%
zbwI&}d-s0+)_x<375OiwD@$Ttvv(610gM&;N6Zc-sR9X%PfS!cYUZ$8&~|6JrH>`&
z|6VhH@kQ0|R@|+o?)&jf@-}XTUk!{r>sa&cttn*WbW1cpj56)8<(s)4)z9RA_ZU<(
zge|+67!#liv!FpWDWKbx`Su7Rp<V6F&wJE&W{FOxOh09VT%FYY^b=o?@G|+AvEexY
zzoVsGMNl=-5dItF%|6>07c7e6vd1*)#&OEnuqn!m)rr*)uXHJrUkj$2e={@J^b;Og
zV(8MPSD<{tJiYDqaoX!auavhIR~+s8XKi9SG;yfMv_HLQ#h7R+3HD!sRfxp9Zj0J@
zukqa+erJIboyUKgWXC+!ezg9U-9LV+<R&JeA*l3|nQe&te(N!@l9+aA6{FIn%YXC2
ztG}-~{J2HBfZ9WAy$CO%zib63-kuW&XNqpS3`6%gDWdEp&Rw2mu<o1$wjnp>fT-t#
zyGdQ5(ekl2eX)m_P0xRxk`pVmjHW0b{vFk5p&J0e)UjpXU;+eRD5tEfoYt{wVcL>u
zCbc-6g_tDG7#Z0I<jva724_w#^6L&n8uC*q?9LOS^a_m0`-Fbhtgb4wV7+K>Cs~FH
zmJXr@F4P>!>QS-3t^$FEWK%fUCfY}VY{_L;z@9%r)209~lRG5P&-`{IV}C_n%PxZ{
zQFAaB!g%}(gUVG~M3u(pMAm*S99$z*5Mp+g5PR$#*fB6j7#(d`72kOux3Vb-I@{a#
zAY-^*o5eeufz!#K`ldq0;^0LlSNq7U%$an|kt<)w#FJ{AL@1J}$dyL^KTYX2kM(%>
z*!WW>w$FRBUw`^n{_GN+RejQ0v<dFL%O@2SE(vYVTvK{pYA0y7^QQTUFD)KhhT~d1
zBv(x6ZmBbm!*V=bN6EzKwJ^vnec8nTL#6VO`LN*QR1rxNV@|)&(*i!1Ce`4kjB0?7
z>GDedvcxpGD|<I=ztumh^w>qOIn#`e#`jm~+7rS4{+WKiAGvt&DATqf_mk(rWo?o&
zMYU3s^Z;dK1pmE*6}e_3;9fXRBbgz<pzE8QoElqe-5l%3fExs^g8t<1mj+NkP)h6Q
z==>TTtpQS{oPz?gUBq-fL^a}K23rHs8WSpCpXT1=H1yZRr2^WRFvO5I1*!0;&Khv<
z0Y7~vhk?I!7CtScCVJdUNBChM{EhZ^Kp<SCb-TR0oN7?>?A&%AK}y~1ImaqGEmnnn
zVJ?(4)pty`W*6OKq18=F`UIv5-jcdtg<Av)M@L5=k5C?e2W_3S)<h$*d)0uOYP{xt
zt%Gu*gQsC+WF+?@xw*Qz9fABqAS$L2aa)qq^mk2iZ5GfE>CGToRl!S<*3^Rg2O)R6
ziA2RL!iKU1gR{mkX2Z*U3$uV3Fpy9+NRKLcvC~7DufiP=`!UO1`%u{A4!VJVo)S1G
zv;Fob7?QCoj57s?6~O62x&O$K)}&74(6u3u!TOsoz}5hH;13CYs&e34PEO7gxdw>7
zy;$c+xYV|}w5{e$d0mX%%ihTqt|v$}@hoDIiG_t59rFYHy^@=oTj96T^MjcwDZDE0
zvyXU>n5h9YgWc!AzuXKkUSdXSE}9w0NDsP81FDb%1pW}C(4WTFq?l>oQU>DeBDBP}
zh6Z50<8@q0)8FAD#cc#pAadsaequ;L+!6^0_vnyoEdnNS6u59%&}P8i=eQIGhXmF&
zq^5)Di6bFEo+8#YG%piCB+780!@72@od;j?zq77YfR&t@Nc37zLhl8-QVp~oH~6v#
zFxnO@LE<FJ60s10Patk*icDOkP~a&CkILi3EX=7>;xe}5wQX=U!H6zTDmDli5eSg?
z0s<O{=tQP1K}QSz?_M?-NBF<k%?#_fB58d7Z(g<uq#4kQF`Af#>Lu_oSW{EeY@)Y<
z*r-ra$&jYbdxz(xZ`TlW)xWXN>(_B_#b(I#(Fz~7a;a_x4MRpjvA<PlI+7uDg(V~$
z1pcg;cx4SEgJJFQV^4=iP1LOZV`SUU%R5-u^gXWAbzt{%44EkyAkdOQ%}UO|R&a)x
znlJ<3uWbPa6HEWF$FtCJC=$aX=a3*WJq-1Wy!0t>_zKdmg$c^4VJlIiw0jA>CKkwf
ztAn}+_1+c#*A)mmjyU|L&J_nefvMv}PH%h*5C<~X7h4`vNy<nZ!bE(obp@w|g<Jel
z#V!s-THXB$2jRE*QdJdziBOogH&bfvxzG^)<bGW2C{>u`T+ns9SjzFBvKqdlU6VS(
ztv7z{5%$20+4O3|w{PT{7h<#kWsdlx&Y$mph$i$KbmW2+a68Z8cK|>ocb*VK1HWz#
zJt+SE+C*|c61o2q83NgAD+@~*s6%o$AOOuiz;7}q05T6NfR2;G2)|Ft5^$O@m^xB5
zAe?99)GRpSb|}XSue6V0WCR1A3?OfxA{udL03!>F#aVIOg@hXcLEX9iMRy$@7FL2^
zM3=f3cfr7h>5G<N!h3br8*J(39Xl#u?}a^pG#?;465K~6AuLv)H$t45eD-7X>2Jdm
z2Z5PbUWn#s?t1S?CpX3|A`*stCjv^Cc<A9AuR&aF$E9MJc3evV(6d9-{4X4f!lvb$
z$zT*5IP%yQvNkZbkt_PZ77$hgp1M+WEq=klXf!f84juZ@{r)t}IPm%t)6;=-&x&zL
z*D)*|E;&d-+p?hD<vu1&#>-LFTrq6*8)~M^(Fx=wA$Z0xMX!cJMef#{!<Bs)PvF4Q
z!w@%)p(m_)YH$aRMlNGbRTf37b#=jE<@x_yM#@_C)zq0S3y}K`ZXj)dLO?D!Ko39W
zdipC;03rA<_KII=41{WK_MEP@KMO8gA!MIr`>@@R(>}ss7A5<^>A&tpa5y?rZBnz5
zp;vP0k}Z@d#Hbve7+E{ds|S~mQDX2Ow{EJW+ayHJ{QX;=@fGi@!{Y=(A1!zt$U!Je
zbn>GwD>grT;dyMNrQq(Jj~fxSPop=wv~D}avZ@@nk>&{1mCC3AYD2@Dw7Pp0(oQKW
zcO&CMKQ^(kQD3+^*OPbCZ^D$~hUO=`)x4|Ot+yVWX!Q7ZODhHx>7B*+07#I*$WlSr
zAd_vN(#frFaLrN`Bf14ziBbaq4t^OA1QL#(0=ILfLdx=)*|Gp<-8{_MzuR&JDL|63
zi=Csh8W|p@FD7#|V5cdgam^4M*gt`;bX1urW`<in;fz>)O9uAeMDA~4mGOwiH^)_0
zHfLvX!Nopo7fM6|gbGS>|7O7w2FUw~bO8>A;yW04+<HbBKjO}SM@<5AgviIZXK_~@
z>mFIuJyO0g|GK)~(bl%UNDDVYO^xThe?I|Wi2@`}x7Hj^Em9nzi_ieSVblm$RDCbX
z!rVwHMiIyv1wU(s+ysZ4FUCLqbS<LZ*Gy|?e){r-21|yOz(iv|WdBQuY8<5BSBKkj
zgAot_4eLB#5!nZC;qz49@z3`SXy}o@W6+D@z50t*mjx;C<NuAb_m1ZJ|NsAO*|I{(
zDr9G8lTl=^Y_eCOY~pD|vWke1y;oLNJn=%2Y_eBL_Q+n}+vD~Ae$VH8e!tK6oZtEV
z(K*g})${fAc-+TrT(6g#CB*+wAA_$N34#ka6hIiK11)+}nkx4=upcsUb92AidE*mR
z?=x%T#VCl}Haj3WjDvW<)s-J=K~A-M0%k)|U>ITmG4m^bP({EQ1;PlBZS1rk!;S!<
zi7K=YxuuJfCsS`*;XzF98)NlAMFmkXf#bsF$lp4@;+Fzc-(b=IE;56Cwlf7K&`&;)
z$H4(?11A~azW&%Oh5v#}i$>54fto;15Q59!Kgz(j=ILoza|OELkh$(~+u3SA;QvYf
zPY%|PAXOq7hLLVbXA8GWKZ?Et9c5vsd^~&<f@&2JS;HzJG-T^IgG;!}f*)i#x9Owr
zF-u>h5F76HHhT2Bry!Z3X(<NygdzZ0LwmXPzX=wtFT1Zmu!I<Bp7cn127%ohFeacK
zaH(xs==FhjH42J2i?MQZkeR}Q{(tKg!J}cr_8A(G2*(wahy73~1@P5fxTZKv8-x&w
z%_BHoK^>zg!!9M21_32-_@J-_VNp1UeOG=#EKo~p=ehVj)$4G}5^P}KvJ_wa^;E!#
z|N0M{$`JYC2-)0PeD@iOw5zW0S0E0koYqWu|IzwWw}ptj2<Qkv#slZ7X`wJ2(()it
z?l}DKHCi_z`~Dy(<oxlWI}wimV2Al-EU#qk%Z9YAHJr?#drN|nkN^nzkp4Hs+?5<c
z<Iy};hMrd6%lbf~jL>#LfLi5(oZt}uA__9(id@`-2M%ry=h+jV0c^;FpnTcG@+~s?
z+ZCSjNF5_1dMHoNgANpFkp*gg17&nN#4oEc0=<Yj3DPZ4n!WFOO?6EKkHdjXRENha
zhz>);uhisqpfuiSM#rZUdRp(zl}MI|f$J%!i6_Temag;4m9aQ3p_P0=7f$t?jT!$p
zX=8&-<Jy-~E^&5&=cxBBI)YtT!n@sE<rouX;!n^1Ke<^E>{p+=*^>G1JC@HaZTv+c
z)-W1|8xSeuj;C0F91Jv#&tHQe^Gtkd(@1*x;Wt5P=s17hx!!$>Ey;JlRsOSP9hL=x
ztGR{*TTqEx#_rLBS~mjM0UiasU!;x(8ot%4rw8p2Nq|Z2;ZM_gcU-6!a38=ySA{T%
zXX`&C!-0iBvY@#QK0S`OmvJYM7CJ!uYPbWmKWL}VK?(#cgxg(z`u%RhjRNsi2UK?u
zpX0+~5<<eZ@84tK>Kg!;7+i?5(4vEY?H0mOg(ZJPr-HKNm)&&d->I-^#z<3{ootqO
z3vBAYW<`pngxNRyRYy{qme{({B#|=rLw&Z`ub=}#A16LO_=a5z-q63&g%U5655NV`
z3ak1MLgGF1!@#q>B*lQ;*t)+G60w*_ofy%vh&~=pS|KD147@N=cDh7J$il%90jKw6
zP!_}TzeGw3lml^SG3Y>=<=jW~Ulrgg-Q;zL|5E@~;}SSwDf*vXv869N{~xZ{G^yX=
zKyL%qwbSjF6<(WWuf+e$6`Oj(J3=jFtH{f@5d=1chrk0?oPp@2O0NlaJ%?fC4TQHs
zBas7oBj^!8#BBv{uU>zPF#+lgcckt?N|FZ^EM%ua)fV!r9?6<U032h?K#I?81G&`U
z$;l9aNFnh+vIXQ1cm^#X(5)YR#>loeof%B2Fhx;a&ldfMeLhLGzu`tTXJN1GtsV71
zi|Z35L&oSVzfpb34Y9<qATK6=`iZVv?YfWA5_6g&`GSn8P+#00HGVSC5*WC@Iok(7
z=VUmkGkPPT%qIXvWT4WZ5t%W<^*Vxz9OSLAJ`|y@0lYBu_;@n>M}*Y{ayLX%3<ov>
zAdIyp^7yZkaVtRi;E;rOliM;3Hn?_xg++rCm9J?FODX#`R36-r$}~s{Ak8f>sTTlA
zf;F6n!1THeG2Sa_=uAL}Mh3D=E65xm%hzssYzrR8`*0IMj+qA%1W>jh$XGA~_96Fo
z@kcNUy@hz8AF7tHDpcSgy5l;BF*7p*_vMrq=p8yb!k~$cIIqB^U=JYyTwQBZ_26GL
z2#80YA=x-cEVH4;h};7R9}JFBqACgy+C0BF^MV{0aVdrQsF;0~lt?r{S|SjdKx<zJ
zBM>M{aHS$7g8BJYh<K4pT`fhZ6?j^3AwV?>8+MY#HmNjJy1@+q@sAAb=hg12aZ(pB
zHzP=AsKp0E##7}m#D=8Yz(H_fjs@^4*t_5ZZEr^)^d-n?pwU(dIWWZS&m?X_rt~Uz
zAB+7%I@ZQlkV@QuZxl$Yc7+yxxB401cUShO$Q?c&J*KZP$k|J5?BWr9)%4N)XVNPc
zQ60kS)j-@6g?~6$BEB@pCn~x<fmo6UUUWRP$z?PpUj9~OX{Na&Zg%qCyEzDl3Ss#C
zACynuT8ssJZ-fg35{DfKy$$Og0{#?Py@>b^p7|Fz!g1q3HMQ))_TU{82yH-lmji3x
zH}Jn}DnZN|84&@UMq7vfe-&tJIQ@Km!1jWquCOk1L3Y+45e${tWe?A_AIuOCBII`j
z;{)l@0}Rk#46mNTsf{!&k$e_PZAj*g*tPgT2|P62{|?a^L@`L{%fv)RzCkby$gc{`
zPDB?2_pQc%!}R=*8cQ1p6Ioa)5nK|yG9?)Vb8grv{=YSs8!;CDliV_uR>ISn=085)
zml0oJz2-t{f^c2H)PZEs;GK>G4*0|BMc~r9NYFtMvTC@@)EN1-K}h7wNOuGhcigzG
ztu5{kdb@jlyf#heboFCi+GfwNLhiBM&BdAnxDS$QL8*xP*$^%wMgEVvlIBO5IL2k#
zioSoo;;_C=Q~Orrbc2_=)+{92VBQrkKTjXeelD|DUYM7ZRM9=wYG9FMPB4RIOEiOR
zE0PTgyYLFN!K$Y$5|(ZN;weZiphYnAbh3uU4p=}N6mo8X|5sBm$CiNyK;)phoCPcf
z-08nos8)>6XAk_JiJ@km$IuchO*zje3m7$|;Jhz${G*Gt){uGAk5z~>ljrxy0mjum
zhICd+lnvTp?yiMNrb;$Q3diIBC-?BL#m(F7P+$XTdS&kg939Z)!GSG_xO>TN{8)UD
z_DDW9w0HQ{=xtTQ`+nZz2C8;X9I7<mm$h|FdQo#;akAeiyrm`l3Z+GtXgo)FO16yk
z0Jj12Es-7zh!np>0-O>cHL#YFA&SGo!h$lMPfX@L5N$%?6fjEhr7d_MJpnU>4}uMV
zb|#?$nw?ID-GzO|>74v}`7N#Y<!#Ya52;IYDQYLQ&5E@(#|_uN3+`g|U+0OLmbH+g
z>)oa%?8shVe&{E88}bjxsb93w+|@#ZJyzg^Sc?iQEV^zZgF%F@%WTd~Sd(S#dsK(>
z!HNFYGCXdnz25N=(|UCMDlz)EtcL|_1+B}{eb7uof&Zm|GVh~@bQv*?i8K7IA1=^&
zTw7fvVu4qe6dejHtMU|TxQ{kTerscTU#R<1_O{pgWvT#~1yq3yxnk6o&e8ojp@|ej
z7Qa1Q?mXF)aTSnLtzya0zwJU(RL@=~?Vn$$7&(u|0{kQWVWn$_mUW0xH&m4sQNhQ&
z-AN19F$Zt1fJ7tF{-4OHMSBvL&(+Taf0g-#v{=p0sqqAOuE5VqH_`Lv<o&&*hlKV7
z->`hKNRTH_SB2dGQMO6=RrtKf@UZdS!w_H1zN7`D`i5L|aBW=z;A)7#bqUWX5RPaA
zcNruFyRyNz-1FY?NE$1t8f?^w{_w_SdF-I-8#v|mr2jC+FT_`)&M$;Umdrw$AEURb
zE=7gM9|*GG1o{b-6_B4%-Iuu!1qe_*K*S!I;}6yTMLFqW7J2BEfQ%EF`$4v*CuvT~
zkK_kPhZ9l>A84#{cO#lLq=F2^6|J04Ceqya?=o;}On_Mo38McEO#EIbViYTwcF*|@
z@4;8m&&|l2jQ=w;$Ek@Mfhmpog1ShE5aDCN#-n-IKNPH_PzL~H$aH<u6%9D3Vq=02
zOK7<CiTU`-o%{M;slzatTTuCdi<ckzyv{wKd~pHbMDk4xYpsR*x~bnH&@a8!P!rFn
z9|_>FA5=Fk&Sc!s^=+HF>W|$-Du&&K3a9OU@EZSH3)L$YKsX|BM@Z|ayY2KcHGjt7
zpOsAf_%Zb~?@y*5sf_>OmQ=_!_}yNE4g6QWgCeE{zidWv;<>R_Rp5j-ZmnsE)7Of>
zO^M$&NQ{y~D>Z`rLZoGBD~Mb=|8&W}RkG{^Gst)x7mz0rJ|(cH0b-kVNhd+N_{eA&
zWc*0m=1yX{Y2!YMMUsn<lnZ;<BmA=7Tz)72$CO%UJEx}AnYj@eOSJSu&+BFES8D$`
z>WZ*sdW_4BuRq(^fXIZYeAwV9fRq)HFaq+O3_M~;{slK32xHVi6mMALNDWapAM|v{
zB1$i(c(>I#Zt1Yn>M2f!*(vOroZH|$8^?XZ5IT~?B)#{XhepaV>*yI4E%6PSEN-Op
z<GlmpP^O{ZDh7c95Qva^@h4aCbwykPLBb=bs=|z&EDN{F7oKKD4ar!>Wez<)$_sO7
zSns}FpXFBHknhmei_#Kt<7NfjM<>9OLB6;K1)L@zphH|raM3IR^l%<xISeFs0)%-Y
zl-8*W;v&OUZyPV0D5)mJS9|+hEkh?i*dR$s==WS2@xotaX?i+I_m1EhULNK&$}#L#
z+`r0c+UsAY)j;8v@aAvmybYOYKn<0TD$zmZHm3r6>x*I|_nH?pUhn}NSsNtjxapYs
zSQogpS-}{HM0}xD>p2$n9qsP~#|hyxzvd1Z4)ES@)`>p!xvy$_fLE$2-@&ppGbd<)
zUBPfjx~x|)_^(#{zU(da$dgC>vU&zQBqbU3qCZ@zYwg^h%&ivO(u9AM%rZBFCZolV
zl6~bcM!;eA4hv~_Equ(sWL(4%$)c}Ru!_lAY%j6P2D{e6D(LA;avI$7Q-X_We3|s{
zt6^(17POiSb(m4yCR*?h<+pJ%Y*VR@I!6gpd>#Mj)34Q)@%&zYH6WSvp>A;@!}E6U
zfNd4U+?&=X<0CiflB0XDy{>L?GX=gBv2RXG!I;hB856$sE{_`dC_V-F?pUo~>E%CH
zQ^mJ_ZXJl)AW@gUOQ!a+XtnIlbktWRx19=92Xo47VQ|Ln{wwc7XmAcOQsn<ty(^k&
zMaE~L-9Cl=?zaE4vo3)OFL&G^@to;@^I1zLideSO;w4`7INN(H5rGTxLprfY8XRwh
zR*`b#&<!LwI#!#_Q@aX0HzR9oFV09(Gt&NEvgT5<r>k;a=Dok<-ViJda=&HkkMT?5
zI-K_Dz<hdd#m)ZvZRD$Ge&K>O1e_IF*Z^Dm`?i2`JVk;Bo}>kWoK(TTJY=uv+pfs<
zj~l<@vg^dask0{)VZ@UPT0*;6Trzws0w1Btv4P0;!Q}xE`g@?x0a{NEtUbi|^Q8Ic
z1;l~DiCWvCkTL3sdS?qfD0(hx-fu!D$!)HQH^(J(lBb8}Bg?;ve3WGCf9MX#xGY<U
z#F2Uhf{ubrw;!?<1PBin+#e9%%k>m_V>vuDd2b_7wZ*M4``r5s7i$yxhnF&j{gIFQ
z8HPUtt)JgrP*i|u&l>a`NCgghP6IGz3z1fX(!Izwlj;sEx)%4jMGTuYW)TvlGZF#^
zvhuzG**kMsDWCsC!>G?iU$a1rpy1g-6s`)PK%#~s5>gCC%!YwLN0al=`}s0D>>mZu
zM^;3}Z@NMnuJgAr`%~cDbe?x+iIO4wlNUbpfpzOB?Lr2ZR4VoHe^%j+Y~&E)BLJd9
z0i>r;7O{c=0dZdf<^-7p1eX@P6l{n)iRpz3GOT$A|CtFjG&g)I(1csnT*<a?YpMG8
zaLxfg-pRg<@H`ULrye4CgJ>fLO(ZMcPhAj6Gp7FU&F+Vk03e+Lj6DOCKB3%-+)s$S
z9guUtWV;E?T9xw2B0Vmo)(ORYBMbQ}dXJv8jX#Y`FEbR)&%Y|>N17}73)Rib-%w=x
z<?{{&cgxn+@iCPvR?O`E%}mdUfA{3f&mK%$C=)>Dy9g2XZ)geR!(%@vF$a7S=!{bN
zFd47F=l=e1*NEP}+`PADG4ccPL*w?j);awW{+s^(_S#r@x<TbE)p0yCr2Pd7tp_@I
z-nfUy-?z=?4Ca!9H&y;U|1QA@vSa9{*L!cXKtSA7K8S<N)d25U>W8xHS1BlaRVeLM
zhNfE_94g!>Q)S3@;?_LVh0M5#G~SNt_P^|!d*<JIz>IEw;KP?OE<^3^{0Lb&R9aA<
z0&h0pi(`Wme|_v6xLmUNZI+IB3HL)IkxU@ti~89%_7CWk5pp_$yuZqPzZZjBG1@uh
z(jKKGZ6Cy-_pnB7M==9!x>XgQ>S)sO)S8N9{{8oL^DUtOz6SX`I9GyUpI~T0WQcS?
zpfjq?)F!1~M?I9d_&q&@T4p-UZRKxN9#fhW5xa)GzvS9<@l9ojUxLuG90uoQ3%UIj
zB5j9`{L2`rs-Xjc?fG(Z79JN*H^VU)GtS(<h!NP!o@l0GA7kpEKFWG=e@^}PaGt&2
zY&HUWJqv08&J)!Hmowq^z(72m;O9d@u{H%U6aW0F8&^r=GZl$qw6M9ElYh0Ml7cfq
zbWWdmWn?UI?RzR}v5WaMw6@7>E+}zrEyLZWfZ`H0S8%BdGg)55oHMqLBRb>ERRA;Z
zdbryN`Y>pwL#IC>`x{q2mN&+e?2cLq?7s>+8J(DX+CkEi|2~-?ugksAP(>K8b7KYO
z)jTw7kPI351M-5G%y(ZP)LBs5nD$pn)6`LiU|y(YyQ69FPDOj$n5HI-bYjv2XkL(o
zUzZXJ>mH|j6F<M%VmVI6zs~xw0f&_FMNUo|{r!Q=DC`F%q#}4fo-;Jx*`0Hl$fOI|
z>|r|#TQWT*-eOK+@xbz?D<CP6U2oPwj#n<c*G+!iAb}EsfZhrU3gd|_px!{bGt0}%
z_%vIV&;bjFaS)JfL#9JxKM64r0vCc_6}S_g&K^GsCc09cT(H<Rztr1kqr{rPSI+Yr
zR~HpHej^=swH%$WIC0UAEwl(H$hDN!U^=gJ`~vI;IO48eTtN%ltmPl{!sNBYB-i>J
z&7KAO_lf~lU;s)+*LsY>atR`gm|ujd#7bM+VV;@%e@VPQ%Lus;-c$+tij%L=Uf$9c
z^=E5Z^6)9y=~ccbliL058YdU=@f9*l1AkWuqcF4j+iJwHPf+<mO7<~=BgDX&(L9y-
zk`%22zwW>4>t7)J%L2965zWeMR4YcVs#Bq!Q=O;U`!I30YgyUMoGPj<XD}+zQA7)c
z+Ilkn^G6RO@6-!51Isn7!z|K6ap{!iY1Dl*{~Rlrof=WKvVzrg1-7wDRR3-@B!q!j
z^q;4FQp%v!T^=rsR~!dpOdFj1hj4fh$u|c|rKcM?juJn5B!s(i=+?_V97bd`QE^@6
z?I2YFy2vP?owDJ%H9z_bM%^16<wc8O%fm|2Iw^UpV+#AoA!B=`#i}3|*{4D`9a;Lf
z23{g*VWjfCGOB#2wAg)xo8=nl2iO1*4}EbAB;<pchEOiB0NoZ%rU6)s8zn-82DSaK
zrHW<V0wb8~ugJt&XVgN+CWjVEbK>NyPL^}2kkvNoWL}#h>JH(MBWj&>W@8EWl&m+-
zUm#^Rf6r@B2aO|S%<=CPcjsrf*p&UZldAw!iAy(oCM8J&1TOrW+ccpcLKnM)yzuGx
z8sERKO*IfE?>@HgT+$%a`ed>7yzXt;xJ-1BcAd(j8xzh${?&7>7=4(Fm^H4ZLRy{k
zFnUl<OMtX*Br5)E&O#`a&9yWpj(e(K@4N0K)aH1tQ2o={mOgFd?%v=;`D>F*Kek?3
zIgp*!m}Ew(WW8?JBh=uOP$S(PZDK){Qdxbe*Q2!$t!n=~1B>wfzqdRUaks%9<%=|_
z;eyQEVciI^fUbF4v8e{!lk>qhpU+Ioe^GM=?O7dLH8$fnX%R@@!JSodl>T6p$Ze9$
ziAfZ6(4UZNgQl3npVO;m@cl)kD)#TwAXjno4F;Zo?Yklzd0%=3B?x`lH@tadp50Te
zt<@}ilc%6plH+qbFx5McIJJdD#;jlRRZ?Y0(c>^4YF$O0MAED<7efMnd~O^w>=}Ij
z|NXf?i9l+lT2VPFU$0woNkfVR9E%=L$*<rm$2xxPRw>rGsrml3yDNwD*QZ^OBL5LN
zb;F*K$y%@8<z%TG!+S2bt1FH7kjOtIPhs!w`{W&7?s?>xdd;4&@R#o&`(fwQ)3eL~
z4wD9)t{A5(t=qRJD$TqPr+ra+nJO4!jZ~F$2k35$P5ie05La<b2r2|ugPvaYZCk}|
z!IT)lB7TC`jM0pXhsBDLH?u+1XdMCG!TS$y?S!;mvgwwetmU`nAU@<1dO~_r)zPe{
zFBLUXY|%-4={-@Sm)u%!TcWt%wGvAe501w~S}*zMIdZPF29QLf)V#E<m<SGOdp8`Y
zwlwBnB22ExlMKk3Vp=oq3_1@`oJ)}7k-ZpoL7#jV2X*Jx$>!Fd{H<Q+AI%JpP55+Q
zSIs$)#XAM1UEc3R|IQ~e&PsJ4a8`aFR)jw#PsF(vYpZ+R7`PwsFj$l$`{g_1<rZ-3
zs=Ff=Q4OilA`53iVgPC{+)>`9=+AkX2)Fz;Ws2JHc-6$tOs;B$L-takWJQs!iCK~E
zyu=i-D{25`bT9D(A1anr(p+H^g=tR~iq(=eF3TYQ)NYH8{~B#14WkBf+lR$!rxM2X
zw8$L_VX%rU^mgdr@t$K~ZUz~Iw<T`0x^m&Qwi>D23)+$}>tSWB@%A07ZL2L!0a@B|
zlEBP_wuNQ?Fy-;v@Nv7jS3{Z;nDUWVVz}#DF(k1iNlruaWEqr+I8O<-c(=^wE{FYs
z!=F%*^rwoO0JN=k#G+wV5vbjIk~CvkUtZbZP-DY@Dx7N<yWgRZYcVFN;<HiKaxsa!
z)4oOx0aw*$wvDb|&ZJAa*bYxLG1++We0$IDuUU`zK8omN#gf1SNj$-j4Ef6+8g66p
zW%yh(53aTLqIX$x5T77z8bft`vkHZCSn@Xf?^i&{PtyTB<p2;&{R304Kn*GeN^<~G
z<O4Ozhh_<U7YIrO64a+qP)BCgK*Y$sg3LI9MuY901BibSA9h~=4OP<ERCYg3U@TVo
z{+!8u)!L2N2i4(`A=tx3xw#3}Vjf1u-z9t~78d9GWNLmcU&7QAx>@9Zr&lUC`N#Vd
z^IOWwF1E!P{InJiZ6efzu|?-Uw+M^kb}(X>wi7PLEV-TfRo8iGfw!13bG_S-#QVWn
zA`F`Cuu_G?76L%SYvtxG>7cE64NZ5D1^IMltwHf^34zl>$NhU1Kf)=42pBR4^7yX_
zRs~5Q(gWAfvsaSP{*gQ|h`V9h>~*xhOMcWlZ8b?Tr+pN|qDN=Ki7K_5pTw8CRO_i(
znvyuEUBlqh6+7!u=VQ_GpYX)xPG1#{|Cw-3E~=)+HqI=rJ3jhyr$LC^i7<QeCL>D2
zG33mO;&CUvn%oL$Xl6%SBgS84!5fU&O~FP_p^Or#tXLL&YRmSY%89j>**9d^1auDK
z;ko}VG=(D<pK1f93_%aepjHr(50$|5i1J6qn*DOm`@X%{RjsSiO(I~WD#oq7P98|{
z*j(1UvnL|@eV)P{gN9<=aX*=vZYq1Z@IIw!y(|ifjYJR%;@y0{;j^{N^Y9nJ+#?p^
zDKa;Q{*q9d#qWo-W@9%jMEG&*+}X<oQtWn;`fZD->XmVi^f<1QU2kM+NxtKM$d3?2
zKQ@8+`df-HSKm54W6k9Um<uD@F$)RUZ)cmG784RLeNw;M=AiakMGW^73$rlIqkYG(
zQEw^544Ndkewol+3qWtter7H$$?(VJ@mRa`n-AR@GO?zkluH0+1Twp&!YEdVr=Bnd
zyNuP;d7fQw4|3bL@9_vg@eSCfsb}@xQ<IyFKDgH17lEv3#Pd)OR2FD<ouABJ*cvwj
z+-hp-x>-d9tW^j*6+l%8k+=22KQF-pyOz0^boE+~W8?2?Q;*<?sgFd0<XbVhmUT6(
zbtA)X=yU{bC^)L<wlUanGGh%sky~TtNe1PV4sK7bG<zVwG@i^m5~Zy@+^bG%Zrw4}
zLM{&F8Fp!oG$HetTk`}DpOJQp%Z3l)PIhItUGBALl1Z5i{)5&MYTuc#7tzwlULXDU
z6ljIKsSxCW;3Er>4mjoqwjn6oiP4}}PZn{Zha&Pq>8BY^O}Sn~WCR+h|I56jT@VZ)
zQ0mylg#`?kV?JTw8d+<u8N6UDW?$h{34h$#lw6K8DzOCAiKit_IHA#wbGc3O;N1S5
zI*$o-sSX~6`c?QT=+;-+)7ud;o(IoDYUY;7)TwdvRf3-?wtj4~urX)4%jN3q4BCa1
zzt6DoLYUkSsGsm((jRp=Xt6!Y&~p<r82yq(r2p;Gl{Z6!g=^0BkBz?JNit$%yZ75>
zC}pfypL`hjVyDE4PXdnbmG=*#1e5Jq+t@--qNOE=H>A==eazDWAKebzCt8t^g*STb
z`o5ho-}+Kd=PelL1Qn=c^XEsnA*~sFAHkTdfXunr233fKUDCxT4RsOqWB~8cfbl#V
zB+MYJ*&VG#d?C+I54n#Z{A(N7zP%H}Y7ynuxsq~K-(aeu!HBrH_%Us~OO?LxCAI_a
zLDkMTW-DwCH?8g;MBz4O&9kxG>_CNvE~HAlcf-%az%!Z70^L>kz`OLJKSxSIdZc?1
z6+H1S_1U*x&TOxK{61<?YENlr)!z4(^J9a_oj0X5vx<6;r<i6&6JPQ2>PEe^g#Lsh
z8<JoOAi5XGmE3I>699kr?`RVUNuij4gUq`|MB2bw<ZV$~`Kj-QMf;xtGpwM?`ub7b
zQ&1hmouHHXEF0A>2=qY2$PIFlb=KQr)Tp0aUbcDaSMQ1C_G;#KT3`59AJDu?zLg&t
ztoAXS*R~cywUYAcWOgpDOqa%IqvcgBQqwTI>gAQjoW-BITW4&!a!H>@ZzOY<zsAgb
zQ^j9pdu-*B5QzKkv5-KI{f#?AvgdqKY0PZ#6EC~6FMz%ndAeO8Qw-f0utO}&(}llx
zfTk^q<9;lbghZpW9U7!G*C(zlwL41))=JMUgwSBDlYSNDcF9}Na3s_pyor53iFoRV
z=clr?-_r~M4St~%WP!@&FDdw~BgSLnF+V*TP2eR_rD@MqRcik5B<F-{ZeFY6Y~qLg
zzIuF&@e&c<ae}CY(~0+cgCtyO+!@Rj3<JT0=<3Qxk#DIpWtFSr_;Rn;gP%+J$WV`i
z>gcy+fd1~_686QiBvee{iDrV_glvRKk{#|mM0QeO-g3^m*;rs@V4~U)vbmJoIir;)
zu(sS7aQ#iW!=KLYjUFzMhMd~p-?lbCYvs~;+`&!K8W51__2gk4`S}rka~k$^gIqG!
ze$!0R4Q?@rq3EnXqTFK#y4TOdf^!G0*=P>u)v*d*ft(71K4Xd=2?x|+1SM$1sKFPG
z2YEoy5>*wrsSq<J<VV{8N<)Z0KMQ+7U^A`$2eb~*%ie~I4J$?K5OmG&;IKf3(18#f
z$!I~Y=nCi<Q2r*)W}X&TxM3go8VSUEs!p~hxp}VWQ{~KjYn76}*~1VJV?#6}B~PHS
zJcLif6TEEyPL#~d`!W_5VHsHn=DG1@rR&Y_ue>LOYG>bDR9SNh%U&Ie{q@f1hYeQ*
zu`tnrL9;;tbb|_L?7!m$n&{numn9HSDW-!O0aWUU%0C;*b${2!k%=dNY!F00=#yc}
z)(sdp0f7dhs^i)D)&&mRJWvD!2n^9#!rvtU-<Cbl0g#Rz$YhS_BC#qwgC7akShGpd
zJx;67evnLEB<MB8dJPWiY$-8=iqtgszkO+bq5lvW)urV0SZwAVwYxV7R{dPVlJaYf
z?V0=Q0NJ{@H16KYbk$c$tyu;v6DG;){@2hQ^f4XngS!<g6iq*|`4Vu$yZV_paK)7M
zKa{XB;dwKvX*Cd^l9phOVqRdp+Ps0S$>_pX#Hva5ixsx=Y2(+iRSQ5{BDe;)70D?n
ztun<hp)$!2b7v$!0e8Lc%y|U%#QWc#)IMF^q$b!k)}0A>FSWeh79Pe=y!mj8U?B#s
z##X%4Zo}{DciwijNwxi&{r0?k!~OZoC9<C45Km`2d_J!*z2dn!%!i*<1Ua6J6j>w^
zli)2IklLodV5ZKDkyty&UrI#@ezJH>RZ@3p`Ya<}R8l=p!xL>bXCz{Cv;Hc_529rs
z_FPQA{)7TywA@^ugoC6eRxeu-_Jp(Ub~xK-xJIee;2K?rk`4GaelGuMgm+@n?EhiT
zC9;b&dyj!{iF#lrH7Li4*?K_(zH9EyspMR7f+U0YS22{$)m~Tbh3>xkBJ%eE61uvL
zITXC5217$#ed{Psg_XoVU2^&AiLJrAs-|S`k}TT<a>RuG2K5?PKE7e165OZJUb)*p
z#5nO5tGG)6wNoGO{z|z2P(6j%1Zy;l=T9ki88*?z4b~K?gmIA~Qb!SZ_>xCIS8J>U
zk~jWj|A9mB$As-3SC01%|3g&vheVZ{fgOeFT+wOl<FxU@VOp0?&f6>J>q_OQopQV7
zE({){p!Zy-$6VLMakjVnbBTUP;jn*D!mj4U?Ul0ZwK<d~EW6RJJYVrs@-J_GN0VQw
zDa}v3Cm9E63509%?_VC1h!L+f$9HD*KB`gH$(g|12xBToA`xeJgn&jvin)M9edlt7
z94dOnqu2y_-u|~~(V5kWlJA{-SmN9lV+1_tc}qhRR_}azozNa?qsidvhGKjU^KF^9
zi5on^u{=9+tz1IwnwYDpPW`orM%;NXcQTAPXCEhqG;C-zW8qq03pK_|<M3wmDwSf2
zWUSA;4`io9k#9^WjVOf$LbFl>?<mD^6M9bwvlcpXFzLkB*AY^V2M?@4A^<?tS753+
zlP={rSED7iFu;lw#cH{(S;TNhCID;yz?EC~BgJ1|*p74E)V-#yBWwFpSC~BYx8Cq^
z6TdJxL(de@CA2)Hoe{_Bdc^qnLh*H_ed~)rdE>Up&?V6#`V`D#bs_A(;<9wrhQ*8n
zCd^1ax~Kw0eLw}bAU+<%B?P)@u;C!1h(RiVs8tXlBfw^^RF_1uUn-9|;Gl}QgK>Z0
zj=}c+3+aGNZ?}k7Ar<wmU4or=JI0NS^Ngv8FK%Ir;E8!t;xPmb1m3l7YfsALc=T$?
zZ;w@IR?7}$h!zZ@Bqs^Q<jbN<5LJF(BmSV)_A%t$TGn4b@%)DQJ%}L&(NDpb0T=*y
z<CNh5?F1-?ahw2Wy6nHfB7c^TvCzzYJpPAw+XxPeV{KOxhLlvjyq2f&{r#D45zzRP
z)kpN}Fx5@A&8a|*{@K=`!o?!q-y@>DYvHP&7^AN#Qk!SUY!SI)KO}3y)x{h{xu7{R
zXi~O)WvY{l>)OcmAv)MWV|Nt!rGjStUue3U!;T7!C<HV}CU`D5quK-N0_1dJzCBM>
z@xmc?eZ=|Cv{rDWXmEFXt4MeSS7Bkr0=w9Ac7K&gPjZSK`}LUb({82}d*5dQxv(Wo
zjf_XR(k~v4Y20{i-}$Qr^C~JzJWsekv{7QOXxr5#dl<T{-jd!wK8%2W&+(ulOVf>`
zcs;#XT<K(0ljd5t?D~aV{dtN^!PP*td3kG1>G&s0t85?YC;gfdW-X+nWw<)FeX(Sh
z&Dm)UNNh*Kd^h5Fw|Z_aH{;tX%lfZm$LAL4kkVc{ja+ix^_nBeph#gX<UwD`z?<uu
zPA(4o!&x8?FYc$KLE3ooFCc=0;^9lp(;f(Zf0_$)w9to8A9~`(zHogcFcleOWtC}d
zTp&bMV#>XGHM+l9it1^I$Ld_4R7!dN@ANUMVr9i3q6fveFaYrVJuw>mSAFf>s#}$O
zr}^As1+uQ<`}So-6PdU-rF*Bx3wqH$7W-+|Gb460g$B4aI#3&s^mVV%wF5~nEiufb
zx(eFovqQ6ddSW~<;1KEl2v*=3k&=F=J%2ITxO-U8U3IbeLC|>L`b`|}8w>)8FT9od
zG;VUOB(I#NwQ@LXB1ZQ=Dh6`$T6{42#4D@%Hc~OSlqEQVFhY`$<0OTg0u+C5zBczB
zow@Z{C#Mp`-<PK;J6QD){h9jpD_sx4?9^}Zv9xn9vD#~{^0LH#eJVG6{c6@{NQ$L{
zi#YWzp7oTHPZ1IwtcW|`A$c{Vd&NEIUU5T!mzu<?{0zN{W|hVU?^5CQlg4cMVJZuX
zqD!AY{xqV_3b0rGwBn!QHUX_5Sq~l6gWvM0WNchFX34a&K~14|rDoS{*&RDa@}U>q
zm7rI=!4;a`n^IrC1l@c!zb~PC`{*dgfj^HjD(VHFdfTjt=@)Ye;!V3E-k(Wbg}xkG
z=H$Yy%ffTyj%<#?Thy*p-aW$3XdFk|Y+vRoE%}H<=8k!R#o;pDx3ViAn4I1oOL7n#
zOXJR;t+t39+-N!}Gn(YRp&;D7Hu$S4{V@Zz`ojRM^Vg*LJtMV`TV2fsq8c$8;zaXV
zhD#;A;>1@z%7mq0?GgliB2cc^53^^S7>tUa;wE2@ymQI-3=6Lrt5#j}4W`8P7u79A
z#=bQj|Fi`h$eCQDqHdi{Y|Fe`>OO(-P|ej8t4WaJ`aKjsQO=e2CkN=Y^@?@p)ih&2
zN)Y4B$WFIS5^-a(WjkhSqsCB9ngQ8)7=a2Snj^JlL*CvC3Ztry)bfX4Hs^GWjJgp+
zAT%FfGb7#&sJZL{{zXUI9VPnlG7qmKj!6^MBX(?cv3=4t?@N)AgqCe>^XYy}Hx+Am
z4u8A<X#T9HUT>5^_jsMKN4br`RPV~p8Sd6$EdK%i5BA<DdPVHx%wvVpyHbS*PlkuQ
zq1Wx`@J?Cl)0S^``hqd`X{R-dpk(UB?c|)x`Q&Zv&!>xedV6g^7XU$IIH)MWFNASV
zO|4_z73qQ^X3+-^9#nmBefrwigF$&C$#qMw;90>w?$-mk1&xt-pT~M{g<oM~M=_Eu
zvR6k>TG@5ar#(A-LZjPI*6Eg}8@^*5$eFGv%piRAm)SdS)}mji*Z3$0Su))o9EX;h
z3X=mHPe!0A84Kot9WZ&h1ELemci%y!kAU_eQF{ahDNr%=mB(Mn`uK<q9g$n)ZBiaI
z{As?cE8|A-lCUk2iI>#rPwl-U1M}9v^V0ODp1u%D!xby1h|1RN&vT4P1s$Pk=sX?Q
zS+5EUM(ZA&vRNTr%3hy>n!oDV;t8|i4Y>xBA2dH*9A^>^HD)EgPJU^0eaRf{X<aJC
z%=_$luNaK6MQTImAk4eE(E{N3qvh;aP*^;R*Qm(-5~b6Xy&89R>)KH^CyOYqd|x>8
zc}jzz>SS}chO}1s<^**NqXB03BUCu!i%WjRpK&o_Xj<P0{qR-^csyWXbj8D%PbE(-
zrNa)bhc_9IGWkC3Tt(?<TeQFY=a@EJa)4dosgo)sc{QwCx@KnIL4MV=fpmtD!GJR1
zG;L2(@)Dgtl7(UO$)Cr%x-zFu;C%iqCtK}1z4eNjoA`W>Pt3DqX_bqM`Rv__{&dQG
zq2DD*zsqZ0X!9Z6fkWl4`5{VIE0(DgoXj^}XL;Bf*|z(RqDi8eSOb=G39E~jW8G+}
zOVsN-^+OiJGtyU{;ulV2b3H%rr<Sj#dv4keBkL^uu&HaI54-qAm3R9jC)7SN<2(Q1
zL0mn>;5n9Evz}`0-}BstQv8+s64~{mvC@$IX#})e&RhI=PILaIi114iqmJp9Cu-Wv
zoSLwGjqbQcHDnTu{ic(}C10htB5s~R`8t++zH`60gFV7&ndIbMnL+PG->aLO@%S<!
z^MpuC@DNC}>((lJXvJKa$fW*~)4URYU}JL=$)FH^C;%Uxj8al(-4>#}(W|L3yKasV
zhHts)zei=(cSqBt<Z&NeVM%Ck@F<!3<93$$UdxIjA#U}s><-5}Nzj*Ri1X4fB@KOo
z6||`-sQi|i+IgZW+0Cl!(MO|~zor!D=h5V2Te>e+ZrKRwyj_|Ie0S_}d8)xeQfGux
ztnbV?jNI%{ZxIBeFe_OAwwJJfQ5jSqL8&=<rj#<8*Oo9WW-6BY)^&|B?wkx=cr0`C
z{92+5UNN?~-CfyR33&3Jk_k9>?F)Q&9)Hmk#vakv{Zk>0pLjiNO}nP_Dbv(618+R<
z&uCBSay@p}Ym3Q6tf`I5k`(a6by>TdTOXExOaw&hK-7?uHvn>P3~2mg2Tecjdi+U8
zOH0nkC<PW$)_5{^|Jn5jdfXFpO*KKC4=66a;4G=RVZGbsq|bVTs!=QY-=P`Z8O{Ir
z8ZpDD2v&k&2-kw;BW{0xtaCRi^@O(Ivn{h1j+Xo)4KCG&<Q~bI0l9B9r@uK3X`SUu
zwkMqII?r)$eRlFD{KwB!&uc|Sjw5vIgZTv&m?Nu`HSR_vUYQ|#aiKUO#c+WU=~=wK
zF*_`b!JzFaH``^|^W0SoP&6qR!p^i0C(teO`jk^~7zQ2f;mMprxzw#gjhTUBQy+-$
zvd&xI`l&a3aeR;KADq!yUZe0AE3Vf`qJ(~!E2x>iwX0K67CxF<rBDA>ko7DZp3vbZ
zu}bnQl_Fab)#Sfp?~waSWBsyYJ|N=b8)VuLlRV~dp2d7GQk0UfArq$d-eT<`t;n^B
zHq#$Wf>SdjW$RgOL*dC4W0)<cmtTy}Ycf;OKJ$;NY?DzAQQO$8CSpd*!qPwyYAAW=
z70MD6HFJ_2PR*?@ZkZWSM_22Ux5eYIyUn}Leh}15DYZ@Htykz3Sa-$c2*(~Ral<We
z<8O+_Dd6Y&_5k&V!13~YtOj~ta&gSDV4SV^^wkgMhg!_}`K{6nVyJ_LB0<?0Cufnv
zW7noW-J2{PdJAno4P4!?gor8(2?2e0p>ICS-VL?wO{T8SA%pu?(Sks$MvYYo-JiMD
zPD-7!vpZiUT;W3*MMrdn48M3?vV{O!3zI)z^xHjc+@GuND=kXOBl7ndbi491(}!2F
zPXDpEFpRP*ipd}xXF!vVZCT$P(WC3t^-xYMxy+Dc-dYH74*Tme9$>(@ud2$*#q|or
z<uCxVpPQXSK{cX<USMXoStgL(`7<?zoorjQ1%W>1$|J9!W4RHjU%%TY`W$f!UbT+m
zVd?&6I`ojKyGgLL79<}#N)#xC<+p43Oz1Bmc6?|7k@gMOk51n1vkQVLg(`RV+9x*Y
z(}i>|H+>o}S_+6UjM(idpZg0!AK&SNzQFT%m|L&|Lpe|U)a9$|<`k9%$w-^zKPTsZ
z*I~ZE=a9xzz93BAygS$%=ZgI<WTe5Xo$m$n-Qld(tD^E|*Gr6vW}RQ$w$epA5@B-Q
zq)NYzp|MfYc&7Q9K2XEJ=~r~5HnXGm4V<qe{wT-J@mXO>y{wb~-}j}Q@>0pZ#6K*y
z_HKKdSF+I*7E`zwS6xIPre8#h06GbzIq`U-ooK*$Az$_%S+S2sBSN^H#W#(EDdft7
z<F7KEZGv5L!kozp_r^39!Ppp1fn~ep7Wt1OR{ygaF4@wM-ZBi~M>s!>j?z0K?k!W|
z;S&yb{pJha{EimQpFgQ`&AX;=S8O=~p+R<*<uj^(RJoii(ZNPze01;DK5F2rKa$k(
zz!~u#mTDFj^W+fzgdt^D^d_#&WZ>B7=jI&1oV@{^Y_!lXFI1eNaL*^>+_RV1EuPtv
zCDnxNPfx}T%E5EuWG<#Z`pfPN??TYd`T^;9Brnn=EEmUI_qqMg@A&VML|rFg<wXVQ
z6Kba53C7RIhL3bDW7HK@(f?Bak&JJwUhI}db-o!zUyk{e8Nx)}YR9KcBqAO4_66*F
z3tP?B(Vvowh=;LyBuv}msW(+eZ?LM4M(k!Q1`m<RoCbZp(Ptd7uOWDMike)4z<sos
zu3(V+UO=NQUQv%nQ7>w|WaR@MS#VmTZjks>81Gb0pqXTXg<0A!<KRto+G}xi?>zx;
zjP~Mux@$=to5K2cgU^|Rk;C*p^E9+{rNP4y_YCbH9<pDfU7=5R<TG5nWBfL<s95|b
zy%Gg~df^I++mJOS*1Yu(4Br!(dcO3H4jB}GzLV7A3cyK`KmUZ<s|peQV@}|fB==ps
z#$VNeCZ{<!@>}B!URpWsQ;c`tiq0MSWq;IMZ9Z4QE#PYo;xV=uwx=Ce!7O4<!JC#J
zuFK^T;~f4rlsL4KovkgE`-xY%SCS;sb$amCi=4SpX}^KXI2ZvY?K;#RNhRCF2Bc%>
zi$Mb|np#3l*3l302+fbEQ^6ylxmhTVaZu?6>g1)^z*DQC?++qG?o|~`6#VF6w&S^G
zoVSu4(}YQP5t=iZv0Dx2t~Wn%(<RSMePK-ye7xYZ=n;j*Mu9c?Fvy+gQ`=85;iA-v
z$xQj-Px;KBX+3`yZjWBRM_fdp6~cmMq5PheTrZK~h0Er<HiR1TE-&s@+A9$cF`66K
zA)iSq`SSvv+sY1?7!NRjW<=D6A^=PaBpsmHHhyJiQ!uuzERf%+<6^RlPC;?@pjgX`
zF-G=0m;FiJnP58hTh!Szt-)!jlRwu(vb9b_dxuadIutEpl3^**YSBnv<%`~?pw6gG
zeZjcPRE48&TXgx+i_2yCf0dNv6s~$VXg+hM@Bb<sl~{5s$M!3I-+0k8-PJIuviYx3
zaBvIi-TLxI_zH`fmj<P&1$`BTyH#2r^_b%1TuIQHu<IHFbq0oW8k|)|^R0hEKl|wh
zb@%E`VqsYfb5LgmPq+pNXzLcHe?J)&zN+WvB1xjBD?K56_3gF6TKXs5HJq@Dtb~m9
zd}GREyH4H+YklECFAWZkIa&#z%mvlozI_Yi2tTR1_IV~TF<MpQhw5e#yJ+h$-XUEE
z-TnMBjJHJL7Z`LsnX3#dG#|d=vBjqZ(DQ?(EUdg)8xw-+xydIZ>y293Oa*DfBw-IN
z{G;gA8TPLXe^X-M4V5AlK2O1O!xaAX_r*l3?c?>TD_0sOR7XwzeC)eFebY&@eZ+9s
z1?_AR-};di?yR>#+=fGDM{k`GbROs$y8*04au5r4BA~BS+7D#0rKOUuM}N&ruYC0(
z>-cUx_HgEG`$sP)Tn;XKHd@!qe>che4hmUz;@L+YBuL0cU!Q)CMO8rh^Q?WOPLxhP
zaWu4G-6u{5@8Y{QYkv;?<AzBFg&ul_tmxaBSn61=g{{vI-U!1h=|cHiG(spLTcf#^
zTI$Yc$m&%$$qRuX2$DOYRsDGb^qb<)GkY_4gZClZd&h)vAHvi_oEV<)%6QjhJ?e~x
zGvb9Z?HcWr`@Pb8oA@XD#Taknv&G*$nI=rC!_sw?Ak=*P5#{O<OrNV)vFNPU7^3s5
z;;5P)<MUn9Pk+Vb$~6t~l&S-M8&!51n~rGduHrsX9ero-{WYb+)}JhE`;<_fj*bpc
z2kooppxB4d4<LWc;)FUuMyqAJ!f|`It(%G+Ge~)LtF%l5@!SkXaSG1QGGX3aAV%}C
zHg191)%lCsBDNGOrMs>YrAj11#hOA5l*{7RZs|hDY-nYFrd3|}Je_nvM3_jp`!jLW
z)F9>h19E<}uw;Ew$?cRvabl|Mm9jw;A91rZ9uf?e1?)&D_rNwAcNPIl<h)0qr)RAY
znktJ%2jhmi!RlPvVJz&g-WMU|!zri+lNyQs2mR%Yf7iiTRWOmi=3Eo!>Jdbb&Acuo
zi{d2Tq|58<YbdrcuWhi+YL+3&@0pLMbR0IsW20Y~v_HXP_Sf_Kn$jb+|3{W|X0=FN
ztIE2UCd4XyAs~;FU@sxVp1vi$=)IU53rN2nLH_VVQeU97puhrTs6W;{0n7KpnSEmF
zXQB8&N|6fls!WlGT!&!|PX*DlMjf8LtdZllN@MdGT(b3n=5STYw^?<`-djGBxk$9G
zCVt>@i&>bt$ec0>_1a0VTJ)&EI7q2Vk8aqoyy-d@X9=AY<~!o*U$gfo&U8HB;^3D#
z`=e36l;ZRd#+ZfRk;o4TJqNMv^Rrd+D)40jad%_vE0G&BKfe4R@!k!y(H6af?Lls_
zt*nNyv32#DZ?9~%svu32-;{P;X7WGECDb%-Ms2o)yyAmsfw?*aha=m@qS>uR{6`vD
zp`zokF&-PC{4Y7PfmX%2fUhaqj)^7PsSv*K7(VS6mUKW)>(56s@{Pa8Vv~Wzy9=W!
zkikn}OnjN=V4w10=#RpfN4o#c{l@_MU6M9n7QgmXv)9+F%Rp|)&++#B8DBwO$_Qq6
z36}1rbbqnvHSrwBjLOPk0p8hqtl=LY$tO^p%1(UPPn}p3QFN3fFV`#HnMLGX!Z~hu
z!47+DW~GQQ=)u@w_uOjsZRBQKvGHIY(GxDjTtYBZ5<r#%#~9}Fbff5}Y0s;W2HMwB
zI^S|HR<Bmn>u^0~tqF3?z3W1x68sp1L<-ayQ_mPk86m(sbgSuogqm-+Tob!gOr5c_
zn^E^rD*1|~jK-6^un{vn+a3pDK|N#bQX30AUvBKDmAb+!0JgQ*&FhU~5T$w5p^`)W
zXkzD#kl83GrYLPk-{9@jm~yhb`I}BDRxEWq(?#*$=P6PZuId^Rcgci)qt-OcsKxct
z5!Ad*sfStrz6_Y`oU%5yMJ~2a)q)1owvJad4GV)u+R409w{$1BAN_DwnjSp4O~&bT
zW?lT5_#3~3WCh80{b3oU1nToUM$^1h@*H8qA9CHpi>(TjGG`tZG+L{zCl^uaF7GHd
zlBoj$idj%F9vW428?*IK+5h8K6WQ<o9gV|2a9x+Cb(@T7H=ux9cQUvU;*)pVd)T^;
zMTD9gkD1sgpKX@aHcq>;K3ko*-5x(#pNJw5l6%>u;YYH}fcJ#N$+)NO(m>){ohs|-
z-w*USf16e233htuZQOL48r9VosH%I{f`k85kEldtaG~`NU_g-xQqHrFhsmg4kTD`G
z6K~*qUG-buRSJ%`*We^#9-_`DiX5(uv!>1vH#L%x&CP8)-YdfEzNeh-v-1;qA-6nK
zH}AbZ7&Buif4q4UM=ptJ#82hYJmY_s$<FufJx@p5JdqXg@f4-N{P<}$ovJb2nnN8A
zgd-Cpv9Z-~0g&}yj2DODkZH=(R)oqQG%{@~83Y|)p~`KYIU*lyr_Sgs#K?7s8^p#6
znd1u-kv6lrSz=0rjW6f!b!i#xAyt!vs^?Q25p}tP8+bn?i!*J)rnI<f#C6qL2a~ha
z>KTEy(_aGSrsB`mz1|^bb`Xt;V_9bgkBE%9YG7{)CqGm@^T6$6Z{a;FDd7g@%!)@K
z$kGjGo{vCzu9pIDdh<o-A5KXIa{@(Wi_Is@)%k>)1B=6b@8T?kt8@(ur4Le#XBrJi
z)I$DIxOZO*#l<W)a?e8-t_V|>XQVIKy+%XxdLHS$cGf4bPL#FGHKJM4y|ebMJTUcM
zv0H)4rC|PKdzyvRER*(Sx5`J3$9htP)+^!-d6t77>7znr8GGqJce%vELPO)y(>FW<
zL7;+(S@|fRoTq~x@9Tm5g4)Xd^fp<>7XO+Ly}X~?r$%Pqs0N0lW2rSGJXEeG{iU<V
z*gEWAzN3a&U6-PYUUq-cR1<L#xu;%6pgl0aP_<;IaN{qjhkHf8!lovB%OAU<U1<ht
z*QT6}FYW=~iZwfa*>PFKW}km-=b5>y7g}R=en6FV2N(NFrV)p=?4IJ{uuyY|ewxQl
zap#{Dr!q@$*CR8bDkl0Qv2k&6iLZ&pfof$7DA>Z2FGWNP-6$CDD@t28kr^_|>%E+y
znYhY=SCqf|O!FeUaCY!m5_4N;cy(t-H%LWIFFPk^<70cfUeL;GtgpA${R*#W7(eCm
z@v*zDK}=|C9ktn_Ort*<%F(Ck(a<zsPIB9iOixRMKu^Bz5BlD4X~RUH`@5idw0_Ey
z(ZY^b?J$5I4GgwFvoK=jWO@^ETVu$aZeb%pHP{VS|M5(Ymy5be-*cs4&{9la!Spy~
zbrtz5_KJYl5Kr!<hv=%h*lSbDoEV0XqN0ZKm$Bsp+NO=cxeOQ7PhL9J<WN+qMBg3x
zTKS?yr2nUst_Pv!o{_u>N4I7van$j>j_igU(Xr2^G<>8V;C=&l3LCIG3&)tJ9BXy}
zEc5A4{|yCYo0_}bA#vV<YtIP@_k9A_Uyj7>$WFVY5Hvi~vYOJ!$htNdTPUqns66-c
ze$AY#r-*-*;fSWkx)Ej0!orI5ycaWJrEILGu;g34!kU99c|G-83F1zP3ES2qj`C3H
zh$O<;#XX-jeI|*C_A0=Q=HlY~QSBqR*csFDsD?syH!QDn=cGOkpV2=KqBjH?Joe|>
z^C30S*Ku)kW4Fl|rN4oH@Cb6{@y~vuz>BbfcfM!#3FeNN`Tn^H%5x<Mvb>=~mkeyn
zmM4l4q+Pb*=<k{pjEj0QX|A4Eb;ZyVXg&k|tAE!D@nkLKdU-yxDrZzwEbaDbecFB#
zpQ%hnotNSx@M)Te|Ly@fB+FvVld1*cT7=Z%IaiA3zm~}TmR;1OX1t_NpqG`V;vP*n
zr|?|*uGTB+PkC%on(txssa34hsLAg(C@mZUPo5S=cdO@9=2tzJ8H9n)vA`<Zc|Uvl
z0;W0uw}J3+-8>!y7GGdwM9R8JsQo6^G|@eudOCA&jM}M7TCB{Tm7Hv%9~KSj`uS;v
z9+H@bPfevv`YOlDYh7NODaDh`R~N3*nr;Y@6kJFf!MWe+=w0M4ub%8y(9Nlp$vLzq
zl)+9({`;n`2LX;T{_|k%h{XP!n+DHJ?ZE4v(=b5+L)`cQ6DA~6d^Js-oh|-&WEtQ$
zOE6HiTy$|5@P)`B4FsCvPtkOOc#YHFfi4tqZl=9>L%d<(!QqB_)Y#qrVS4YIU5+Bj
zA(=xOO#AK;*NnVOCCzp9<dtmI;<~$wCb3$r-D{*=aSM4((Zk&r_Fkb*H7emcX7VH3
z6dX<#Qp6+?1X~nE!A$q$-`cZI48Gxd-X~THZUV5Ik2$IK1C0aWSeG?bZj%u<+>I9n
zv%xj6B_)~p7JlD1eq0|0GD|IeeKr^JP*(!=Q0d({G}rKZpA|t3DLsP(ygMJ-zxHKv
z<GV}iwA0|;j%Ru-5W2s;exI*Ok!N%8v&4gj2U2NCiTac|-_!LvmbzkEldcZ0>A1VA
z#YINFVedY*9376*Hen*(efUddY((ez%mgQuL1FM-yiEmb`T56em(EO1Ir^YTqIc$j
z$aK|jHDhL~06T|WW(ll-poWqCPc3KBPUW8yLFUH~v|?MSae!c8_XF%seDY*(RoTbq
z4#4*I_6gjWAyqM=NPS3>JHE1S`n%XEJ&)-Ai-hDje?~FSV)C~qHxoW+^$N$9>k8_8
zjMs}GbW}Kcq)GmFvm6gSF6eqg54W&dh=V8W>|_L^V$#W1Irqlhxbosa!g3)sspzp=
z7<iMb8$%u=vE9Z6oCUg>tJO((8J@)ln$$DW?3<xmFQHxl$L39G>2zp0gIM~v_z7U+
zyMQL;1GD<T(yCUKnllOS2D4&v-J`bg3Z?YZrKquT9xkrzl9DAui}1T1rNspW8Ch)>
z$$!~g8O!Tqxk6>Q-Qu2UOuHxr3WuD?xyvkz5bZRNeK~9UXZ(qfih$5ylKipurS;!8
zY~QH=^=7YCDw}7Z#|yzPo_{94PY_)#BrG5(yt5-z`vkuRCr|zNck!=Z#i!#vC@4LQ
zEKK`|&W%V$GBhga)2~sxX6fpbQmY78stkXqQW4(a6x!j`-4bxbptl|PLs2kvlYH-X
z!BU^60|w`5Ka$(VK%YMge%T#xRgDp;VSqCNL054bRe$+#_tQI|O>KP>>>Hj$beq8;
z#!Cj1z?`c2;ua>x_X6vT=OLL_XRXX-RVCuElLu5AA;Y4=oQ=P<XGG&8)7jBR9^c!2
zD5*&<dkQLs4Ny`2qpeAP*TF%IUEMxa40F~Wn@tBM{pAx7_1)xNyMaRC_8!NUn-r5g
z<%@QEy}B#F{qw#27s0SNJJQ0Vs#~EfI^?)->G27LNvTF<64lC?+6+TK7hP)9iM}+}
zMgF;ZByoUz{jREMaYqMUY_adWfh#ANpvP`E)j~(DyQgnJdW>u%IrsDw!R!@(YP5q%
zJy}i9*L5_cI`{&QdRF=vNbw;^G;!;o=Fz^^45C$DnBe1S?8+IMza#iI^>|QW!#6rB
zgsnt*vEq7kJ5>RtuoAoNoA`)%@jTmibetRobM`4pMkz0=g`%@qh;VV;;FrcEr^vF+
zeiNT|gMBsB_rh(Msb2rR`F*`G$Ktu$s&Dm*UK`{6N_lHim1a`)d1egnoupmi@NWV+
z@igZ_jKA`ugJVS}ya{}#$CtrOE(1a=spl~H%WC_bOgRky1V#*KHTpi>75!q`QVlcj
z0JW*}IRFMG{BRb5He%Cr7g^c=)!CVcL*0e{pJXjdwj@g`DN9<0WH;d{q6vc`TZ?_k
zmhAhIl9b54WEnGKDf=?kN@R`6W6hGKu|^2tcYmJm@2}r~zwdKhuIIWmW<GPyeeQG4
zy}VyRRufeed#888Z=}2(MY^sy2!xFs9(9hGJdDMpm$GS<qICVUT&ah+3>7}y466Df
zLTcEryq}%j&nJ6_GMU;@P!OwiD>D0J%xJ9)M4s5=KYZwS^0h3LStYlX4>^(ynb^a|
z7<SrO`Gaca3GcPDItt<p58HiQ-=DlrhoP17DwLgh6F{FIDdZEyDD*h!%lX=8V(E`V
z_KK+8P@S~`+Dj!M;f!SVcHHL}0Eg03>*cbyUL5E;>N$XQfj&a|M6*Z7Dn9L%aijl;
z$}!h`f6L2t{@;9bf17mwOKBXjpJ_o)-#}=DvcH^b$8ogy)0>MJ9P_bO`;h)8T!ah*
z=kt!chUH4vwFu05X|;GK&DFK6D!GuqeiV1DGRc%<HR1S)g64u6XiFtX!txm6fEWe>
zjs)dE<En=uAX-DH3>>TT9)Vj|jIuM7R(eY3LC?4V8zZz79Ym!4KYaKA<z;@(0QCkf
zrzQ|HgXADRR1!}^6mny>kVzz2weLh-1HY0r(fJ4X=7JbZGJR`8!I2@;PV~o{AwhF_
z{<ofLNXe$A9=I7XdH1?@A+z4rmc604lAx>~ZE*1Vun^6U*`{F^9G;Ne7}p{nt9anZ
z#+g0FBLSt!CoUSZ-oolqE;U^?*czrO+rF1cojI?54+U362oG&-Htg$w?pCICSP^-{
z#Aj1BIY+4yfP{b|ajbFyMMKbnq{V0#A!@}G_#ddg#+bWl@LRI<x)HR-`>kcTJZJXt
zcFlGNb}%xBC_nW|_&O9(;YBS;mu1Lrzkbd9)>1~Ju1U~LZE7m<bm-hT?i}W9CaPF|
zMK_cov-}#?j*e9|E05MTWY(!swR|bl_V|z<UB?;v{EeF-uQ+D^@fP~wj1g&nmv3F$
zmY3lDB#o5df3dtVcajt`g_BVezpP)5#%JmG2^zHA4{<08KF@3!8`PLNqax<IHz%KZ
z(UyiP^l|nvAF6#u)PP<MA4XUsNYRUJHJCH?W;;H*UZocEQqoANe-`6+Q)akhms8S;
zfLDZ#yNapInsDP{5|*qFEnOLz))^Hpk>wfH7Fm?7IgjSRebcpdT3U`HS;_92>iEI4
zzJ;+OSzlk_rTS1&Y?ym5$V<v*k$&(cmy*Q)$z?IKX}3yLqw8Tp_7>;3hNFT>2gO7_
zcysmB*NielkSRR!j)=Wdd`1M<KK9fJw!6~$m22oam9z7SK{RvU+3SsqqdR1D{uywv
zPKB*2%LtR1@a&vKC<N;++?Bl|Kx%F=4OCLLy4lz0tbb2ceRubHbdAFvg$-*XVKCQT
z97JZg^)Aw+E|PHFj%H}-#zRhYs#h|D6`69~n`1QqBO<;jQEqMi$xR0BgE#elm#Ajx
zxaPOaq@eisLXL1~tTHLdb(Q2QF0CIv<Gn?AF|vD6MHsFKRRn^b40eoHst3iBUKdV`
zVp{)GZ|mD!X#ZQL%0b`Yr;<UMcx1Dd940d&|3oQ#c_}hsh@M#&9c7rCB;r=ZuM|jY
zQ-R;Z*i@i<k6c$cU>6t>rABS5)17Lf+O%j_GAVe_by%kn#92#m`KCsNx>i+EG<WY(
zF6d#Ix7emIuQQ4x`fzKr_gbIDa&dlLA-(R$l`Dzx&hg|$<bM^Ho5;<h-ai&^&@_RT
zQKWxEWhfX5e9nw<I;uYZYW#GV?d1+y!nbqQ2Mpx;5BIlqi|n^1yUwu_-Y7a>QjcZO
z->t7uep1pxiWJ9HI$ut-P)=a-oyrU7NJ!R9)ASJI=KjWNm`+Q~J`f$<|GE8=@^kof
z>0s;YY}gik@7MOf?YIdBbeQWBdM&T8p<U)^Y#oY5sra-Uv&hhC2RV<VJWadjgmC$-
ztK7NGKXvTiTsvW1SCeKVOtLQKKXvjzNa)&=3wT#M@y;CQzVOIvFPj3)j64lk=_LwE
zsm6}hbNty6`C8Jfs<DZ9=XoA^0SUvFS2+C`W!7uh6aStzkRifaLV9{Zo)DT3T0lqq
zC&*@ohlhj8UK#{KtSX07exkx5&Dtn8=aa%8UhvQ@jYaQ)n22vVe}yiG!VQQ34V5l-
zH`^vtMR^2BH7Uo>NxR4yZ<*Ne@Xjb1Yp4fddChD+dAUv>Bu*4)Mc$Fl5+`!Er^#ga
zUZQ;$3=xp8H2o^z>j?yL=h{VC!=gJ+iso&TKS9fc78H@ZGnTvqJu`~Hiu$`f(BQnZ
z#)G~yj@Cc%TkU!}^H%L0jp^f=f4T417i&JeVsv}!J`;6h$Ywz$WpTvQkS%i4a{3`2
z`I*pp_>iuty{M+Ra{a_mT#`%_yWYL3R^@!Qd@_vrl08kb8R1h!>3XbLEv@a*SRB!^
zTI|8+;(bYJ@^4OIzZKfz`fYI|Gf!+9y+0itUG+r7abvPiIjmFlr@c3+8>#*me*3BO
zyqfi6%Wnvt^pLADj#+sM%l3frqKt(_Dl<+vg=y?!>Tj+yH8;b@KYa7KvUkz6pYu{2
zYd?;M*N5E@aoofzV^$YWLs`?7CUI2GmXFJmPZ#YtxbUA|e6HE?5bToep((?&xP9sW
zBLc_iQ%XKqicr?kmA*_EK@fp*g)|?6=+(_oHggFCwRXZlDi@SzS-)4y&%oct;lH(i
z!7+L(G`=&9ITaZ8S=->Y_k$w>+ZHrjhU7!7>~;cy!rL98f6f*DwN8$+4k>vk^YSoD
zp@*QBHb0x;$B*K7w)AWsaFZ4ut?zcaY0uSxKV!k%%S8N{5t&dI4&IDv<XLgx(eVz$
z2vcw<D{N!L_Tq7m-*dMi^)T<*FzP(JfD65<CK6_Am4M+1fRyRrIk~Oynlz)wm~wf!
z(%cQA3<^cr=agGvQ9m4(`ABx{hqO*;rlpL$Z*?xte96Axg^d6yr;FhK6%|!d(EELS
zBI*EQ<hA@k^5RXmX?70#V8h>#!JC;*p($;8pNSY&hg-=f<qYt=+t14gxQcJ%Mh{sI
z9h!PpDREE^8leEI6p#_mfks6J>ApZ+i^=xj$$TEjgk^~JrORw-`hIQFgDEPq@o@<s
z_q_RaM_G!_=y0ru7whZFlN*2i3QFx`n@K&bEdGc2gLr-IXnaN}$TYF>5+=?eQ3egh
zekU4}r7+yE0ftT@OviF7*4_dMO4fL$^Zk~P1Bt`uUSr;oaK_0Vs|Nwi_xIa4i)yHZ
zGa0GyP>C;`;Yt%PVD$0F5-txAGQ)WhDWZ4i@k6Ihm@EA}%E!(d`p*~X)7F<^GqqCp
zLR;N#xy7iJhTY+G3{JPQe=KiA*P|yUa1Pu|=a1W&LimK@HX`1)8YxF`kf67Nql-(x
z+Hq*6YXuRSDggJ<{`u7^jF5>z_Wh)WhQ?p2QG<Qg8aF!1`Uqd_cAEotDvC*q#{C6V
z5c?DJwkOMZ{n)#(V~paPC44A!-3!|@o+;-g4|9?!paCL4N(OgeWweV-+O*8SH2utj
z;Oi=gh0VQpW%#q{HqTU!9nQ&{uj!4Ab>D_)KowML0oUp_<5!f2nV76>0%F@Ad5lo=
z5TS}}QBzkxxV5zv7J0lwLsm^ggC2x3XCP(vN&L`l=H5JRn`SSs1G=GUXR7YwbYk=$
z#Iay<2QdkS%HM=uvyS+<m4^ASV}pN*KYkK{jnD8MZFJw&o+&D|$K&wepoLsmRWCmk
zDJ`4v<d-M6pvL&W)io7dOln*{&pL3&ofT<91X&?a*JU>w0C4S5BXe)jrlzBhZwGN?
zce3aj-0Bv5Os`tJq`}DVKSPl^Tp3oit(nUwOnm?EDU5d*DcWy6-eST^=GmKT)W`yA
z=5+GAnjQyVlI$G!+lV-V_*vV`jMp}4Sj~uEt|6h_Washly?qUBJ3Q@NW&T8g8MRy9
zgxDpk#$}y4q>$vwIoWLZlDSo-=%iCC^UKIbXRHX-gBf{5@gin@&C5nS-m}UPSO1m6
zP}1MM4D2|br$F%uqBMzjS9MYEI95c2Vr`Lceb6itH=HUUiRxA8ZyRpW>D=?$tLuQB
zNZpq=o@sQ+{k_e)Y>k<}jG@EY(Z)BSBBybzr?8?$s;}?)Nt8^ISS&OO?D+y>PfV%u
z%+<))K6zo8n{)zoGe$l1;m8|#;>aENzMX^wf^Nxs?KG^u9skI1XWJKrL)De07fdAb
z^&3L_Ab#Qv>2_d{y|CiCsndriksQCa!6W=*%@*=v$)2x3d|ik@2*omU=N4Ff;Qn`|
zP?dO4g3>L1J?63WE(um5fe=z^Ls{AI=O>g#M`21$vg@rLr70Y`a-k!@(;*`|u<0lC
zvrKt4><Ge<9289>uDf(+v517Nq+G?6-)8!0UDrT3-0t@58WzVEpTS^rj$0Vp5@l1u
zvU1k4a!AxTxF7d~AG|H#<6c33MG0_w3MP)gf#oh+(0GwOpKF5J&l|C-SmGGrZ#;XG
zc%v_#<r$+x&fjZnRNho2J=Rm}RMO!PEDoomLgW&A7JJImu&}#${KrGNH^4LqI|Gif
z<t8mhYEHxvn`7}aJ}#A*026YaoEdA&velXp;lNZAzi1OnmzfRytofA^{O4|YqKR-z
z3uUsWIWS;%_BgOqkB!Y73+F(W9m=Djq>KFfMde4A+gYO0z1R9)GlYeBADv$pWezt)
zcFGx4JCGdXE?t}C<vaLGjYHU_t|2>n!jn$$x%&XF>FPJuGVL@<^&hh-6x2<Eka-t~
zNvG_jhQWK&o=Nf9?lDbau+b>Ae9+_EBuLV_)PErxH!sUjxaMIg@Nc%LaW$^6r{ER8
zW-8WxVl?6#D~V(fzCceuHctu(fgMHd=;O547EN|=8Im-wLqxYP+V`KW@mhX9ICV^0
zr_Z?Vu`7g7IM7iQt@p9o{Rc()mc0yBaYdVAbYI*cm8(>)btxt`3ny}+A|TUke~_0o
zS#gp*sBOVM(30`(EVGB%=#m3|5sf<*ACGq}l9zC45+{WY;GmcSfz6wFje>Kd2MyW#
zAbhiKeyZsPlgN3;GZF_qZ?{C1a<;q2WU!F9NY9B@>ZPixq)pRcT22zdE?HcNoi+R*
z?9{V!Hq+W^uiFf`NDCV?1*PrXk&}~5t83)$sx)aZ6Ci<EmJa@byHw|`fK{%AN4}Rc
z65#th@46q{*k#YxD?wRQc3I@ra_@K0Duv-oa-bN0q_}YN_uL4<It3SPaJ#|*;VM6T
z&cmR-!8%XFE$@{LQ(gk$%)=igU8iF417*D6zyaQl2=@bG#$jpg2%1TRMkeJ4o1Erv
zt+NV?<WV#Zq_mU|5{;K{(KC4H&5Cdnd9oE?5#e&F`TRceB^Nyno0@_cuvh|~K+rn1
z`=*9x&}5>mxPc9nOa9GSFlQ1`m-s4K<dZLF`EYmF2dh(ZiS$nXXYxDwEY14fD;L#N
zpSgmm8||Dnrd&ueGwWI8<2Csy&wZt*yS=oleVobfcUHv51MDgz^6<9%wEzz>M_>#>
z0e`F{dAE+A3ggIL?Cl_wC|=;@GYD)j&-KB2J5-L>^B5<*)!d6^`2In=#I4(s{sY1E
zCAt^I#Ed=F^yM1;l02~=WxRtUpQ5q<MyRS1q|b-evtO`(T?ShMdc2OCn;SWwN^_q4
z`|FvEOb#?tFDJpJ?;|?wc8S|J7DEPP^bLM(Uk$~I#b&P$Egrp#JwnD$6qT|Z4wL>y
ze34@(UsHq)EHl1S`O732%oX%zDS<%i+UZr~m!GS7o@Zx(#mX!$z_N%k%&xY6b>Qxa
zyOz7VHC*l8s5*|)C8{U(5$CEGzdsibsjl3VDGIw=c3%C+BTt3%yL>P%?Z;}0Tw7v#
z3LO-Pt|kDDanFcEp0midXfP*8w=rmY$5YH8)hTln{hX-aTg3m|O!K??I$`yjvq%X<
z{+MdTUtdb`BoI(=8FDr&-`F%51>2^K%!<G>d7MqY5iVqk3Oi0OG3r|)?mo)zkx=mQ
z&6iuj_bPvFzVjp`<*qtba_|uozS(u3T(~fwrS+|FxMMmoR<wDnW>Yrzz77+(CHiEB
zinB7!I|JW~=P_}!U{rRpa@r2`M5RyPTX`RF;O%+dr3|Z;L`MaUkNcfGX|i+E@31cP
zCCOm)7Z&&a-pP@>1MjmEn^&Om!YPhptavZLEHc_}d6Ab8N;xLOvcVrH?2wa)nI=?T
zVysx$adh!x(FNFtY99*VM<s)flnmcfA1A=L)xUg2l?+lcU0{&eUT?9MnSPESaC+93
zOiFSuT;5aGY$80m^2i-?sJ>11bN+Z4oTpGaE%xQ#wvZ>_aC(&&OexZQQ)xME3u7v4
zz_Y_aS{NIaI`}EL`iT==^ktFxdt6Nl5w8N8)e{Ri79JFm*P8OjJwO2T%AabO8j+!+
zI&=<U{8s+d<pEE;q~jk$OKcpWh448vWEX~me?rutx&p_~WH^}79Bf2$(|G;7fJ%<*
zUw^1uoXkh<HUz8u6=w^CIC1r_Psgk0vY#H_T!w0XcI7`o-}g2ub>y!ib63U&AM=La
ziu}w%AJ_A+HoP5;jl{;W(=$GcwPL<fRE!R#lctjoiinumE@ja_LMMXfu}+5?mbKaL
zd=Sz#5AB0mEJRBZxmAX72)+?LjBYtmmSy?+o&Z6sl(MJA$St3_VmVd6`ClHZ@B6iT
z<<}KLzJAriwdlfNRW)K6iRqtqBo56pN_gSLwXhEKKKjX{muCIWE9W1F(-_G1uFnD+
zcn07h>*iiiJckH`fz)O4^g-B#n0hbb&>|>qv~U0S#BH0;kJ%sc2Rd2$JxxzGQfAEm
z4n1T@t27N<`lJJX9SZpM)Pk?xaKO_XC>_?wMS%l-=ka9mBYH7uc?<u&u3XuS(7rHc
zE*hR_1l)<Fh8S20wW(!!b|8y(2^RgQXUF<TV&cehJoL}QY#$$8C2YRYX4JtL<u#N1
z3j+K{QbBXR8-y=tuiv_50}N&0zP|scdlRvZqZNP7QGZrX2`k(fb`ANFm3HHey>ofb
z!2sS!X{d6m?!Jb+Dmy(>eeO}lD<xuO?;@4>&ZM)@M>)@McL_`*jAJnh?uGF2Ou|Sk
z1%9&<_y7Llb}2(X05xT1Cy>{P48@<3K5JxX_zCXdh?074ZY~65k<j4YX5fBePfyQ`
zTq|$Zy#130kuALotwoSEsH)<NYzc-y?Z(t0k>tobM06Rulz(AOX^_HkR8Cuy9fThd
zsi^^T-x$!D1r^UWkWq^4`-zCT=_vU<J$Lpj%?p`z<N;{$jvPmh^o~2AMiU>0Q+dZA
z$nP@@eBdsi7k+_>C00t^sX`J-Pew*YG}BkNraa`^+S@^Tx`Wb8-jWkwg9!(!)Con!
zI$W$&n60u~Axp1v+3#|~ygcNY0jx#;s$fF=OomM=q92Z^oW6}!HW9N83lEP=O2W;S
zBf^@ePv^wt`v-tF04JAeg^e#LHvhfAn=Sal0UNcEC0a~z??hE^38W%jeemb)$kPF5
z=@|46&>#&2n<MV*8GftG5SK@~BB48Z4J5*Lyk`EJ7pM5{Ta-~?h$Dh#Ac%VrM9Ps;
zA$=HlXr)009yrk?lk(`7FF6r*9pE$uU(QM)Bjh?JLy%KcR7{0t!W4z2s!${{4Pt1k
z`6|0lQe5hj;HNsb>)j|wv5zC?OIljmLVs~|6vO9oarK>^gd%Ll(-x)IiHXP)t$o#&
zc7=kDQrq5>{~Zd_5i3w1p75f(nbP^`a<^g&bkhtr1gaqUTZr0sdOQEmSBUOzD#*z}
z5Th^R<JAoexM9nm0=5Z)0E3>Kwc+o33I8`W{4y@C_vNf4^7Osper&o+OXJ|cguyk;
z!XF@HT!^~Rz!upFS=bU|$-{gXg1}e`KkC+q3IYTLGFTUZmLth~=%|@T+{8SL$W72Y
z1<=6#mGLIOzrR{NHv-`uM|_vbNPGDBxFv#pfCP!g?b~q!%V|kTH*9UsCg-)S%AiwQ
z8lb7AsCG#nWb1*rWA*uk2=tKWn9qK9HzTGO0S5%7a}Pwd);FZ!EC|sjknl(A>2ZP#
z9zq-M+^!Fsn}b{Xjhi>2Fdo@{<#+t5%{PIL3<@zikVOP#{J#q}Dr?&=GvHOcBG?4A
zEG<u@frM&%{5eqmMJ=+<DMtgW>ZqhKW_Jq`;T|B&vOH2<I_3Z(0tH?Ge;c?~c@D}C
zzjASLtwa6RJe1J&Galx{EXyDY-<~>szxTH?_Isg~=g@8wqj0|z@6&p?ol*xn(iDt@
zLA-De?BT}u606WXC>WRr9e`~J?2`kQp`U*at{n22vokXlpLe*j-}1@W#|M0os+@zP
zP<lO3e|L=<wqHA6O8O1t6QhPti4NrzV8BKep}=<1O7jog-}&yTnsLSDzZd(%BKGm~
zt5b#~DX)J9+5>e<@t69#=LUdjur8a^KAqj&15*HqdMaISY*B9ix*oxKL3UwVH1STh
z5f)3?QU<w!R3Tp8JZa#l??Xr1I@mK6meC7y45lY%ZS$(!M<Av_4B+niEEHmdBF_f$
z^2h3xRa6>oh<!7$-;ZpVFRDEpst<OtZt6lV@2Y_AxOt$>6zu(lSzE7Pg6E;o?jo7;
zN*9pq^f54quLsN$M0x)-&haN*b<YzL5;FG}+;J<cd7Y3zg$z%Bq9pDvUuqG2ZGX5M
zcve(f_=2R~nfl`*=aEW~zH4aoZ&-)5<_}k=eauQMgN3-cb8KvEj9egivFxF`4-$&R
z%Ej*u7L~@5+mMS-*;V@EM_hs_nGHW`KEA)(u-^(<mM$O}>H_X_ZlE}0Vt&}+=$L!C
z$t@k7Y2fdHp3B?+Nty#k4Lk$`(o{z-7KHm14T$e}Ru~x=tib22LB^9qP;fN9@91Pm
zFH~gs41?uGw@hT>@t<cMC{AG0puX$|3*~q~Lv(bsPg?kB#{8aAs^kay*|>j%tY8Cz
z(%1a1M;65cAnSYqkZK^^Pq1(YVFfNh!A@l2sZQF7=Ye9M1pETjj_=A<IWnNUMqFD3
zkxm4~-QRr(+yJrBH=Q%qDg_mekkg|9AWLP}2C$}Xo15!G!_YwSXqnxsiGjTd_P|C*
z*|nZ)>@sVEEUs3AWp>D-1YayeHBkZr0YK}=AvwQR^Jv<CbF>xEoW|8|qTtApmP3T5
z02DB2N*YM;)kk}9KuYUAs3ZJ^?0sQn_rQF4Sy_KcqQ0ss4a^pC@9(fn1471A1osRK
zzPqJ^pkXfww&=9Fvr<iK4Qm%^`GOzKR}FT)j{q4L<fBA9dFm9c9AwNV24D?G!=iA9
z^j<Fnd#H;r0mz{NTs1Z1P!<}M4@{b0knDU1{xs8dfC|+mpJJ|zAq69KLi-iN&TsMf
zsA1>YnCNI08idmXE^8pw<ysV5K~>co3#jx*@>daFIeuhwU+`fdFA1XAB4^JsVH*Ab
zJuw7!U~2J~t}aBl6xmsj`#<<Q^T!kPMOBk5KxR>QbR>OW{<y5H+w8@|!!zRcMT!QQ
z8_x|Th+f};)6C6eRDq1HP81tbXNYVWp!%^2O^LEp=(sWa0%GBal*Vzt(MaI{gkz5o
zkG5c0;wl`EA^0CS*Fc?Sl>6hQ>RBMMOo1?{-B(xZuGA+jfHr3oJ`JrpfM$0GO9MRx
zY6q`Enl3m@98BDmQ4cO73x64el-uK(25JH18?!xlQ6qJoZEzG~%F6XVwF*-IXlPKp
z$wl*sNB{eMe^(f;#yQa9LfNTs9Bc+!!(fdk)OUFYX-(6xMTWuv0IA$`b&;ueX?lA4
zBGAsV-@e@%4`nCJbNiDGK|J=h5d6T4h{e}1l?PW>SD_SQuBHplC2y{}pSh*7>#^<t
zd1t;W&H{)=b+km0?axYa_1gIK^e$))`~$=Dxx1UuK>NUEYjZO?qj&(S)k>h03Ca#y
zRQ7(cs}|<^0x(w}gTd^2!VUm%@5?||r#gY_1^Q$>xD(XRUFi2bRlVF$v)oz(UO_me
zQxk3!X^TK|k^>5*GNN(|(2%0iWgsvZ7#LgtLM2!qNcsGjRoTBvqvZ2@9IVT!$?K&0
zj**^TGvMdjy1QoqT2iQAw>V$!Gu}uGwh&Hr=-H)1IL~K*M+awUH+T0oXw`+i&hz<n
z!1xr@hDfdRhTCoeX6LN5^ej~571VzMkQ+lIY!gX}-fnOAoXBfk3K0IZ0;9NZZM_OJ
z3zY6S`N|>Kh{o6bw6wKTeh1wDR1gOP2Zg*|o@+{#K(cr^_#n}$bdXR<hK%fAP-d6~
z*E{|G%Xy*~iC9z<4HY&0gB1|4LaM+3*n-XH)ndAB1pSu4d$ojQ3vd(TK=VX?2c}M`
zSPi4nVbhuXvGdCJXPwpvg$|}0Y4hz4*eInA0N;-_2<{e@jSAe^_n=nqI(dEp40rrp
ztI!m<RcpXU#B5jc^uKpmVxS-pK1OyS(wh1L3>|XNg8k&$y0jwP8?3=cC~o|FPsc}v
zGgT4VCQ5zQ?NxQ8<ptOv9mL#-2sA%=f{>9%0DuFP`Ju3G-a}Ow62bvXHuFyfqzO`K
z4c^e}MQUmXqW3^9hCnT(*g1rSEo`(n$Dw_j2524MR$LuK!Y=u4I4T2hmRHIotYrf4
z9>WTj0z{vTA_@fc_=FnZZ(-f8G}6_<?F{HamjP)7asfz)1;K0ZYl!e$Rt}TRZD76G
zK;b)$vRN^Nk~%U}G5`S?4^p8B;F(v_xDnuY^JQ{Xa2hyv@$Nxn9d@hiE2^ofNg9^~
z!AHXJYqac2|3X^UP<2@uO7MaJRNvwQMlJTYjmU6=tLe1vV`LM+??Vi!&^@(wspiYP
zE2w!>*LUDPVgTv(iBLr8kNgQtieTYY<UnC!V7;KNt-TIz+I)GqvKZMM#Y9DaLXIIn
z9nOR!F5rWZ4E{R5C3U;Hcwln!?k*Hn^uK-kb{!rGxb#it`#PPSos{LODK;g*ezLQ$
zd@Tk)=MVg39c3?_foWHc|86)I*IlcSqia~~|6DN9f38Dr{(td{>=r5ru99<wo>jm_
z^}i%299;ig=iP#g9|k1IgYxVO{rS;RkF?+eCPM(}-7}PbBFwh+hhZ8=_UM<-pDn>b
zs;jGW2nltS+4TW-K5D|@IKg)tVnML7E&=%)HlIsgOLxR2B+f}mO~dcSL_~sNvLH63
z2j^`sp|K>6?83NXkkzYANK9<aO*Gfi)MP*ei~{%f5HL3aCWgyFM(nGkq&8?y?1JUd
zp>t*Q1LD2m-yva%?2z!1fOVpUE6_7R_53qPTz3OD{6f-?&08YpPjf;9b#Vw06@bGM
z@W7doYYPn|erAp~{Gkv0(<1Dr+yyd?kN0;sw|?FVWN8F{$*1fmhd@4&^FG|3ii={R
zpFaoZf0blf`COv7?)}#Hct}9Jw0MoYIq20OTLhrwNu|3$On2;e<>cffTzfTK<vImB
zz&}FXIl5|FNKldnHm@JExI-dC5=iR(kraT%fpBCcn=<bRhvUnSYDZ_MfKfj%%zNyZ
zT~#-E7fvfNil&en5JLi{ndU324>F48r99=)QL@PFWSeQ<xG@2-Vu*`T1_LHPFoWYa
znazRtLjsa9t$hR=c^qV%5pJDhAkbk=em;YLOj5*(h1m|IKb~ZU&W$dB6%1B59ft*n
z;K=R+WXuC_9ObueG4(cmeujL^QxI;4$Ssm025iqWu?)YLV9SUA0su=LGSWG+Lwh|6
uoVgKuTzP_|Gyb!w|DA>Ye;W1NKHX@UC>LF-1{V$dcSA#0y$Ed?@_zu8nMZ~I

literal 0
HcmV?d00001

diff --git a/tests/triton_tests/plot2.py b/tests/triton_tests/plot2.py
new file mode 100644
index 0000000..d433548
--- /dev/null
+++ b/tests/triton_tests/plot2.py
@@ -0,0 +1,69 @@
+import matplotlib.pyplot as plt
+import pandas as pd
+import numpy as np
+import os
+
+import matplotlib.gridspec as gridspec
+
+cmap=plt.get_cmap('cool')
+
+if __name__ == '__main__':
+
+    fig = plt.figure(tight_layout=True, figsize=(6,3.5))
+    gs = gridspec.GridSpec(1, 1)
+
+
+    rdf = pd.read_json('tests/triton_tests/info.jsonl', lines=True)
+
+    ax = fig.add_subplot(gs[0, 0])
+
+    # now plot the % speedup for different batch sizes
+    for j, batch_size in enumerate([2**14, 2**15, 2**16, 2**17]):
+        all_xs, all_ys = [], []
+        for k, marker, ls, color, name in [
+            ('x_quantize_rowwise+g_quantize_rowwise+w_quantize_global+w_quantize_global_transpose+standard_gw+global_fwd+global_bwd', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
+            ('x_quantize_rowwise+g_quantize_rowwise+w_quantize_global+w_quantize_global_transpose', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
+        ]:
+        
+            xs, ys = [], []
+            df = rdf[rdf.batch_size == batch_size]
+            for embed_dim in [1024, 1280, 1408, 1664, 2048, 4096]:
+                df_ = df[df.dim_in == embed_dim]
+                df_ = df_[df_.dim_out == embed_dim * 4]
+                xs.append(embed_dim)
+                y_ = 0
+                for k_ in k.split('+'):
+                    y_ += df_[k_].values[0]
+                df_ = df[df.dim_in == embed_dim * 4]
+                df_ = df_[df_.dim_out == embed_dim]
+                for k_ in k.split('+'):
+                    y_ += df_[k_].values[0]
+                ys.append(y_ * 0.5)
+            all_xs.append(xs)
+            all_ys.append(ys)
+
+        color = cmap(j * 0.25)
+        real_ys = [100 * all_ys[1][i] / all_ys[0][i] for i in range(len(all_ys[0]))]
+        markers = ['^', 'v', 'P', 'o']
+        ax.plot(all_xs[0], real_ys, color=color, label=f'batch * sequence length = {batch_size}', marker=markers[j], markersize=5 if marker=='s' else 5)
+
+    ax.legend()
+    ax.set_xlabel('dim', fontsize=13)
+    ax.set_xscale('log')
+    ax.grid()
+    ax.set_ylabel(r'% time occupied by quantize ops', fontsize=12)
+
+
+    ax.tick_params(axis='x', labelsize=11)
+    ax.tick_params(axis='y', labelsize=11)
+
+    ax.set_xticks([1024, 2048, 4096])
+    ax.set_xticklabels([1024, 2048, 4096])
+    ax.set_xticks([], minor=True)
+
+    #ax.set_title('  Linear layer summary, varying dimensions', fontsize=10, loc='left', y=1.05, pad=-20)
+
+
+
+    plt.savefig('tests/triton_tests/plot2.pdf', bbox_inches='tight')
+
diff --git a/tests/triton_tests/plot3.pdf b/tests/triton_tests/plot3.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..19e93a24eb4a38dcc82cce0729c3e8995a096054
GIT binary patch
literal 20122
zcmeHvbzBtP`=~UmgtVj!hzJ7P%Pys~N=Pc*DGf^q2GU5kASkT}5`suchct+a3JOXp
zselL~+!@gCYw)|T_kQkw_sf0`bLN>d=R7s%i8*KZ)#VjM5Ta-Zf8hwUpc;aJ!lBOQ
z=OL1kP?+`w7b_@C&WvE@;A{hhshinYxkHga15K#3G{nlu5^RY3=>|n-Cju0;(*UM>
z#{9gM1pz9yd#d0~P|_lp5v-u-U4Xh7fneq41jT@-5SW&&nWdeR4HWzRs++TgmK6bN
z01PXy2%uu+O@P8qIRYriem}~6Kc0db{e%wUPXa)^LG0bE0PJ?rhiO{5JA1fU0Q7+P
z1LLb&S=yP&I(q{n!hs(SgBFG35MppV8ji(7kw}~<4v)rSP{3d?Ie<){FLx+@7g-r6
zCuiUc0p6$y`G+;&<sZCMv2wB@*g_HC$5*s-0H}w;6deGT$Xi)BTUvocxD(v0%p4)!
zX{`pT&LfZMA1$9-VlZV5y|Z;^OMJq#U5_MO_&{;wgz1E7wDlu5#W=^8_7kIv$1b0B
zPfcS}PC9^-5M~X3y{O|=FZ5)(ui}cKQ$@Y>75(jRRvywuj!wsn>f3L5J-9nM-Z!K_
z)c0}PDA&b9M?op_n)sc-uJl^;5iBCsi^Vh1WXo8mUT6Bufhm@UQpG~|RnbLJd5BK3
zFNQj8>x#KCSu9iOXpU@-<AHO0mKC27hh`s*DURE~L(Q^s^@pFTN91pn-`mzQ8Ja#r
zP1pVOxJA}=0^@9PqO5Li{5c+m1CJ4I6`7`T@R!s_?6G%0SgmGl;UpD^UVRj#CO4oZ
zr!J);;eDpHwESQrbo<<DiY)pj-PiXAYYQGZ^IqUEe^hn%X5HQ1D^DIgUo9BbhnN^?
z7tbClN3K|W8{K%;_w2Z_4(t`t<ts0!*MpC;St_?}T1vB3HuDT+qMolr<y;hpNMs*9
zJtvQLBne*3^14a5V-ynHk@ZsYRqN!lW=4c$qxna6#~z3E$f<GMQF*>+FS@l`q#vwZ
z%?KnM{?w7fJn}62Z4R@oM_6IkRff;;F`e&L)hA1nN}gPM7|7&ZHOyQ%GHw<`W>rXs
z?JY^2yKTllPNQp8`neSOIvsZver__s?Qz3{o~4id#3wZ3v)FXA*U^RY<wQbkcJzWa
z?9Q=1M|5kF&Th~z3w>xi5~<Of@x2pMt5TK$NG3wxcbc-OfTA@!GiXWm(?ERR0Dwk6
zfQBuAMnCej7?GBn2LJ3(zuS6dC!!aZ`k4zajuq9<O^?@5;hu!8&WFr@e%BS^8*D5V
zrO~)T_%_Q);CWj9P_>}t;L&?V;|IU=`%l)kU)h&*WYCmuzc>3~gMcp5Ok&>%nm`gW
z8r~D}X*yBSYMIsq-j;{2R)_C2ebJxPxMIFh7sV>Yd=Vc}6dy83>3SWWu(}Srd)X6J
z?MvMoGms#ek{ZGu>l~{)Fz3rLic{8LTlA+eE9J4hJE5z=Jc3}n9fL|rBd)&|pcFE&
zuDj%!8734s*1<DGB75v!45?ah9b-M;!;{?bz>AKQDcK*wxjQiTWs>>&3@r_pv#C8P
zP}8Xlm(81e+AtL+aQ5<a*Vjn0w3UVjW9uH+PUgB08FHnf+Xk>fnvQGcy<ZL_z;M$J
za`Arbi{_s)$I{##WgY|_jNoSd+KYdtKRy%88G(zQ$XIk0nPusF_JC8kA!BUSL1bJ&
zvtK>!<Bbxp54KGaCfTOZodwsIyRtu5Cfn+F%?FFQNE!+kPnrcDz!xb!D=f5PI+t)X
zSibok`k4L81EPp&zxP%CzP-g~BR{q2ONKf$`bL`ut{!mZ>3lJ2kML42x__@SG1gj{
zP5HT9Ghc6hn?vElis9Z?&CmH7jVYdCUAYmw0^%sAVYZ&)GDOk9YZ?tfX;Q6_RHMw{
zkH!)646{{ZX=OB?X%N3*t)sZUN^)QQ+cPwjBHq)6x5?|X*7o&6rdc&FExk%hP^!{r
zUcHq6l|(mODyN{8n_&T0M~}gWA1o-XDXY@bc|EYH2Fc-JZy;5H>UOdxcBPtZtru^+
zU$9<2E@;0Ioa*pAzfSL*9tXRE4;B+bs5ohH<BaO{GQ5h+=V6C#qxU=l$6i6QjkU^I
z@<Zy+9$Ac}TJBKIZsws|8CJhi5#?oHDMfjamcF+A<t^)btpl4hJ)LqqLvP*NR-@Ji
z-1!Ppb4sr*JazZIuFZYOpI{rIfz7?B1Nj=8Z%9k^lJuDvid9RG=n_di6TOnzxsbV6
zHpKpCzxti0lg)UFT@N)YRkMn?ZBje5ozr*IakPGYEjih_$hogbw77o6e7V>}l3{^m
zHH?>O9W^5GwWG2thImc*o%BLm)EXmYRz_i1&YAaDq|u&4KJfd&x6H&|o@rAHW_n>o
zzg9YUxz>beBJ}mKpjr`^lGe3`F}BARcT_lzQk;2lh77hJe>GXjkf_h}y+vsma{2P5
zWuuvH-PZJsnl<Z%UNY?~m=)>I3U#;_9t4_-7Srm7OtCkz8z2uja@=JFXNSGQk1icG
z8+7<8^5Vdy;S;%cGUGC>cvcuIT9}}VddI_>nKIl$nl{G2qQ;ke5|7hrP>k-k)<3)M
zC;D<mBZl0_rB|o!?cMMj_-m(Q-4o9obu~ZC1RY>abB|r*(9TpZ71Ctt_2U1+v4PTj
z9Y!8`nBzvVLT?S6@5ZYNxuMEfOUAdi9lyf;?dLN_9*CVU9F3ms>;58&wjDvf#)<I8
z3G+v0SC6GH-&?<Q_%xGK-7EjKS_MXiqh7s1x-K^v7itw=l!}cl1T0>Zf$7X^ZXO%<
z9#_d&_owy4#8fPkaiz-R3}kx|&NuG7O@B~ECUQec32SFf8ZFmyHP5GH6WMI@LPj=}
zdnv`=T@8Ng%C%97RI`GmV^$I@(QDT&OMqu}Is8&zUIxO0FTH-;U)q0uf}JGsTF{Mn
zno=u^Pxl@tS{f|87`u!z=s$R)*^_z1K_P&O5`ih4u^2|9nnE;uZ0<M@1}0)79nlJN
z;se#XOE*0xF9xhS2y@#wG)mZ{8BFPtoOE)A^y0^ZDTrC(2Xlhf1|n142F)_V_j!lU
zhZeMYk}lx#@5Qd$sNP5v;Iw^pa@|9IbgCn|mdswQ{E+mOH^x`$YOAF0#Rf>R1cqE}
zilufV#<)tGnf2yj+KxVSg+y1bt;KQEGsL-k4vL508VSa6x;>(~DpKWMYrs0q(;xn#
z-Fz*@D2Y6N-ExIC#83$)`^gJ<ELy07*~w>}4yj40@UHds>%PG8q^qs_GkvyLu4Edp
z7^XwnBf@pq7lJRk3+gWfrLX8TH8)MULKr(qQ2~zkZ$WNE;2M)!4X)DIWUMus&yP)*
zH1<e~I&BgW2?Z|fr>+_}^O@1Li#Mur@?(<g_@cOB#svIX`DY^v5f8drq?FD<`dK5*
z+1CMm$>)ZBr!xk#Qe}7x9O3=s-cxlD=ILwCsovyW(mM#>->Q8g=<a7_W?SnMtkj+2
zlqW9hQQj$!uKU);M@n(Qxr$Tyz=pBLSf{L0yTyRe{-}%Ix5RV%hYl^*Gj<X<Jw^>?
zl(?^|%}rVu3M!P`#&HqGw)Bry_Lb+`e?gH4HEIcdnH#5ba+h}`>Vt}n-^WSG;ctiC
zU_JO~scs0pFYYLZ`lqWR4d;h39sN_R1syz)HercM)C9skULZt6vM6KNxmVt8NxXd1
zu@$)RG3U_}y@2<XX5l%pUfT9v!ndEG&&bX{MZ}%eq&iRhK&(=|VocImOTp%g1#y=D
zqHtseXNfzGRj+r^x9`bgxyW$=B>J%{r_ngms<)nLKzf#Xy*|^2%5kPgu-9c9*8E%R
zjKk?P#~-dL-lD$$s()anCD+1N*5I=5B7+Bc5uzj|zvUYXc4_j<nxg>zBnNG{j}}$H
zWKo3Utdm_(5;d;CQKZQ|@=f(ML_|d-=LcJb{O0XB(pk=$X<Mt|F}(Ci_GTu+{XEa=
zCV1}|$pD_~W)*LnKG^AOP0frU#;Ys_=)z}})kITM;6e{=HrnEe2Lul0pL%gkry$#5
z#CK-G4tfgljmZF&*mL>#zWL+lhZ-^G6OD6EcD(&MEwowe8)_g}C6TT^>VP$oHgtl0
zc(`3WN}c;qn@$Av`ds>G<?Q|<^i!?S5theaQoGq~o^0+j@a{6aRf1z`J+V&k>WzUf
zBFpSUj~<R^thQ9_v{e=D^-t(g>`;m#F@)R5<c%02ZAjAmDVM|aD0nQZ%`O>CJ#${W
zA&s@)P`LqDQ=QX<1R3@eKO^?IB}wLD`GtAY@^$0s1F>h>r1V}s_r0$x&_aLY9(lbg
zfA>Dv+pzPLuWk_CY;>i1z;lz-V(}O`hE2?kJpRJDkG`ydr+KK#rs!IgMz_qGa5NF)
zQB!v85_a52gt;;AG@CG^_im^AY&$Zdl}vJ8N@-;9m;}EyKU#5{n%8l(dz7A~XI>3{
z<wALK@&VCrJyF{lG4l(?YMon&_Lr91KWjazs@ia=8a5W54`^47WleV;rMJ>b>wd|U
zi=QpNEQOX*9ZB}OaK_Hj$9Z(b$t!tiIOu)iC~GRI0vWZ<h@K97QK%q%s+m!4^2w+-
zr?d0u#W$PA+mYMMgC?`X^X;(V*&ddmw)IadEN^axzCZP*W#zDpxzFv7M{avjJ2$Uz
z-Yl1_VSRRMdOl_h4As6z7T<%moiGFpO;897;zuO66Tg5!1E|pt7!nNMev4u72q13x
zm-qz}QA5)Jr<C{2tEB&e^IHqcV*0%07%IX#BK1CO*}>E@J%q1(oaKI=i<XL}+8r<I
z^SNSN5;Ocg-_RXCqU<YluB*%yH%Q_%4#$SbCwC><OqyJjrgr8u|C1Kv&k^YNFbj!A
z|2vLSnpLqR2<onfkfa6^O{uynSJSmy+znC^2!t~IKAANq4LrwjNB*wp%@<ZSrzVot
zG8{iuXMG^gzX5gcaP43=Px@5JaF|8J>d14Oy8)kEY0fj(Eis}P2YF7lFt}+(^A<)I
z2Mn!pj+ltO-(+VyL~u~|QI0Ff&~C1CD`${M`d}0=7m#=3$p_S6(VSoI$Kb-JIcit9
zR_pnMn{wWqRG{EtsUPg(x-Xo=`E<DIGRa$`d4JtA_ax^I*u6RHqs-hr)lI6x<|t9<
z_dw60Nt<ekrHALKerPwV_`T5eiIIUuw9W-~-e%39fO)BGjNuGBgL3owsW#H7`lXG+
z$BtLF_qo{GRPVviJ>pjEU&tJV!JLDumz3{g$jeiNOerQo1cMDvNQWkNS=rjrT2K1v
zv9z5aKgpJ6wlAkK)!o#`trA)JWM3Eaf$l$%K!L&Z?}`Wi3!z4Jfr=-$sM1LJR*U$n
zwhmp#)==<8pGG=^$CXqp)Q7TP1tpR=`<DuMm>L<AFw3&ASxyW~u!f(uW~om-lF#_$
zu<IN7ObOM~>2&3T!(&0yB&+Ya=Jvqw=S;(o@Lue1P>fM#XogbDt)<B-?c4TSE+2gF
zKXS#OD}@liWYGnaKS!8L3~6smh+MO^I1?yhI7whv(_)Jbudz1D=rThNI@hLFHE5f~
zKAX$hI9QvxTxcCqtb;-Xils2Hn+kck(XFoD#?24M#W<WZ>rZFTDT8;%Zb}`{a_@H!
zjosukakDq;Pnlw66)9l5XQeVQXLi>?g!)6Ij92ICQ=g(`IQ`->$*7F9<sKx1*^A$V
zf`W_vg;e5{oq$J8ZcRE!^gzSL%bUwNN2{;DxiT!k|Na{1OBRLmN!2QPTHG<{_`oag
zmt0EIKS?<BSzC|kXC;SCCQSD;n=fQteA%sNq$kk&A<$a<;fw~Jl>)1J_f~;$?rTwR
z+My#i4L;K!ukFv^eu@#L5+j_;wh}~J-2HmxiSK3va_qc{k%MM|?;%NJd7YUV3Z*b!
zi)7a6aT%)jr<-i`LleCeNMsg1m3R75EeyXo|M)&d{`Fo7LF<xPf~KewYX}eb<4<>%
zCbM7I%l3UKImW+o@<lMpO<=*cZR+XccQIRUB1x5_i)?w8$BLbvi<;JIi7S{}s<{=~
zh3lxTsWS~$H9w+0u<D>7C+Hsg?1M>j?|%Cv2Nv(s8)V$sua79xo_#rdM{V(*<jelG
zL;6F6LwoQZ%&YyzdnEcVra6UJRW~vo%D}aoS+J$M6X&G*ay0c+7V2qwY7ZaN51Jww
zBxY1vVvw5)OJqERya<~?UVMm@SQ3Ak;&P_a$*|d~8D(ZLCLz=%VJzoWp?N$#^X?)$
z{*9<6hG1oR%O^8+e|Jo15xpMaShB~7!Gs0Px9koE{!FW<3kA|M&@=R%OI``~7d;ry
z6qinD_weZV++$?FR^s3-^R(kI{R5hCfh2bxjrF@61>&Nn@%-;r{6;botuOj$o}z~b
zTrBLc?Iy<d$Jf}fwxud_D@2_`UoVk3g<0}jdsk7nhINfzX8jW6HM)I__R<is^p$<e
zTSnx2Fb_;R{?0rU^4}E~qjAcq1x{V_m3gya-}8l9f!2(W&)Y+qolKM`_$w;;%`Nzd
zVTdpI(2*~3nCv5$ZQRan3ZDs5YPvUeis@?dTVqfEE{-;<<Fu$lwaI6DbK2smA1h#`
zB<Yba_z#G~YsfubSicIZ<9S=gr`e;JG&sbt@<fQVQ>$Y1y+4Cv!G`<S!u^h4UoonA
z`hGYy$rw7FRM=oO&K%#WOD?5RrHr@~^T8ogAhY)9tpEq<^P%#|M{UN!8XJ%H)6P}R
z+q~1^u{C;q+tK2V;_3FmdKy*LILdW-Dw_)Q0?XEwzDIRKU+L6%wCVR?7?_s*jbT{a
zzw--)Emw!D!^O_^W6)?FI1;H2M<X>(A|?P;r9in?nfl{RlfsB%%qR~xvb$B9>bp0H
zL+`8K!yB?0+U;}AVzAi*7ceLM8!kxHUl=6J8GIZm4|UgtAZfVH!Qm72w{KTqU#wrL
zj!RLCS>ov!WaLWmPT}J#v2GvMw}e`cX{of<e=etEyt_8W&6^Ou-z+%R<$2+_)6FQ>
zZO_C$U5Z8Qmuq^)2VOL(JU_=`BRWiGVVBl|?{JDRVl0jHxOZDiR|%d;9Z0BXPJp^=
z=d5%@A*W_=u>v>47e5aRd*UzC&hE!X@-R<-5%TfJ24u}$SR`h5li4<U{e@ehW`-Zi
zLB;Z1!+araGSK9aCxQFHQ3iL}R2fl5o}TwYc?VL}3(K-IG&NlErEkv^-nuerVkoi)
zzxMFikZAnB3r|X2B1)czdKMo9TRQxS&xKpDK*V}+w1^~CP+jG61?q4={Z%DuL_+a6
z|GkW&tM%csAD!OK1~fqn<TRnZK6Igkxjbwvqc~R@>bRMhMO1?Vf;{a#Ay10p2>xpm
zB+#A1YVPbwfv~&0Q6ErIf;WYHZ+Wu_&p*Z*2*gQEK;LR=hIQoLO6WZ9*qHzkw;muB
zW~dsoWK_j<)tu6dU`s%L;Lh{py;LaqI9q(iQnj~`FXiRnnc<W#oGuSdURkOowiCF!
zzoeD-2H=^i*T%!J6snQ0X6Duy?Sx>OHC+1XmpvE~Umu)4$dGJvg>BSwd!1q{M4xvL
z4({PnqVSl%;Gm|mQ|k%J;b|trj3-Ms`YvedysrJ~Y%iyoFH{?bXoFwsjH#MbHezrM
z>Ud~eWFVP$QPe;`<w9spcqG4c#Ypl3PlXXdv=qms^l3jbT}b{;&)tE{FS1EN6ftT`
znfseA;kU+NevLyVG?j0qkTNBQrvzo&oHW={8D!|qrem4!<fz}$YZ}#9m|a7Xop+AN
z-EYCULRC&C>v*z-_``{P@^cB=_hO=K4l~v>zqT>wG@Tx}PgKOFEuZ8&*B+YRdnck+
zzD4?s>c-I|6_K-TPFidxn+Xw5FA~Uv^3k6XKK1LA_3zgWyTI@nzj^Y@^m7NEU~#AC
zpTZ^&p<0m)y{5`|)6C>?rLkc>5Begms>)u%)kBHTT~x|vFF#&Avqc!z@A0U0qs%%n
zsVcKnLtCU++R}oQPLCAy$r3JMPpwr%HJTluf4<iIn1ubCTkQe#ZF}BwUEUiH%;h7m
zIk-zbB7Ls1*ouGN%-H0xnEpKTJ_;qo<NvBU`26e%&$7B@mx^1*Q8QVNd&qPTuU70Y
z%x4+A0-Vv%a4k4mOcO4K)r2E3;EYC0b@h6cA-s_j-gWSfFokfqsf;D6!GTXp>kjvU
z{aNh?iWnOGA6vWR67AEdV`KRfBlI3F?q5Bpsv4)RkpM<%nt9^{k8ynMZMhV=>FuFT
z+8{hBRdHN=(skYabcn!1!ct#idECXmaa_)NS)=C@*YR@u`ZTYW#uv>yqUN$jp&Wgg
z^h;8i_6&NZk3Qmsvs2vbC=LZxlA<z+EH0fwR^6FO<Y82!_TZ$|&uOZ(H*bEYKOh-7
z;`CL~+UiIkO|+%#$U(nQ=q&O5gTe_|EF)5{mt>x%gGS$UD4#<k-2Yg@b1FjC*_ONA
zV`Wp%J;mfiK8@YE^l`)XY_e(4fby!Yw@Hxn_52jig*aKCx2h7n-Q18Iq=d+^2fi&I
zoUU#h@6ufQ*0J`5tC+55(=crh4({QC<NrdY3XzTU4NywbZEYDU2;|k7Bk_Pyk34|9
zXgW>15J<Ma;)3EKvcx0C%(@h(Ek@L%Pds|-CekrNM&}}M<yF6STGF7GUF<0x!I2z>
z3){3dM`G?=7_dlR+i&rePjU||_wbq#e-of8#I(DT0bcXsU1EN?A7r(#eVJ}{t2lUN
zP{!w=EVcQWrV_(*u4aVh=!YUGnk!0d3vC-ni`r+pP=Of|>e#S?ft(G`R<^q<6VJ?x
zva<|f;=ByqapMIi_%4dyZ;!92Kz$<^ADZJ?WZV`KnszcH61}@{VqNpl$EVRRH9n+f
zMhhLY=RW`HT%ZyC>0xQn+eo$7k4W_2K1wW*dbN0*+f)409>nh9ri%TAqlH2~1Rk>z
zG!a8E%Mr+wHTh2PSeGAGB`eB$lDegnsEpdLoIlM!)W+{R)bT(oltsQYC5%m;D~%|&
zYwR@1KK@~rjy>?%!}G(T{$eKY#xwZADarb8YHjibKIUC><qY@UJ_{cp=PvNc;K2n{
zH{N?|+F4CtT+|wW)|SRVb;tX(YEt!npQq(@PwQ;QYG$XDpM@Ro>0?c&tKnjMy$5Q0
z_*m$_2&VRARnmd8qO2;y6y3xFNiGoHn~jO&`>Jec1ojwqFLw&_7rvcBtg;&^lu~}}
zrazzG=7ePYX)8q4HkPK>66=|K=Ud=uzB~ruX{HPCOC6tjEGyo7;m=BNkTEG7z22cS
zQ%YPQq1BRNA9jA$!fK*&P=dUbqt^(ZZ|RyH;i2sz<f77-xT^7b-BT~&k`k>I<VB%7
zr^8sMWAi})#T)k)XxGA^X9TpATIZoJmnZ}xFC`Wnb4hpjJfIAxCH*GLczq)L#4PpI
zwjQmO35L1xanI?irp_1WPrf|xIF{!im%nGa;r6@d>yNfwgC+VNuoZDGzVo{N+_T-p
zJdW9&D11cl&a}O#{t%n^n|M_FMBdln-YV1NngEr>_2bX`HnvE(1+6#sVCB!A*6wPF
zAIlzKS{~+vo%Iun&TfuSnC$M_0uclpiGYfru_!1)44A4ANYu`fg75hQ6dv-gskLz=
zXp68IoyU_%F)VSJTZ1s4J0Eoa;T;16BvhD}As6?+bq}8g0if}(<0-^QFp%(2%lWEh
z@_peWk?ylb3S!rsEnYZiHVo=Q18NxkpT6=BoAD2+;D1fFc#qV^V)H%L3Bxc!>fv`b
zXWTYH^HNo-T_WM5E!O?m{(FpE*0eqe*=!jH#F^jBXHB@}E%dI-xvZM3)|<b^-w3<f
z(aA;G^FeE59V?MlUEQ&j(>_u-botnvj+vdFau?OZ^cw3ER3lpWR|QhX4?)B~??LMx
zwjPQ23l*1AuZkoEQi4W7?79s;^Z7O`;mUd2D<{`K^A4~mXbNFc;sjwH3H*9mZ^SPq
zwa{J&o^-Or@(U@z;!F6~`XL`Lg-tQ7y?&NdCWlV8#b4f!61vO5HK>eDbrE8$&KPM%
zZO}LpNX~|Eml{C(b4-USpl<DS2dNuV7{hs~Ppgt|7r8~>G7jgEZvH686dOl7h1u5q
z_Q{>5SSwl}*2%f<opD+|EeSnmTxu<!k#4Cd1HBzaMzya&U&OEGq45?+IbSvPiO*pz
zuBn<)nf3NAxqYxn0j(E*vIw(>^YJ(HqQZX?yQZX<k9?NaNN9RfPji6ZsZ!vzlpz;Y
zil7s!S&sZBwQ#VJ>(!Mc_<lnr^{Di@Y_n%|A4nrt^E8(i=@M?v6}}6eB_ft(x84J_
zJ*+ws^%wDrs(ObbAib|O5DdIwhO>s7B3$zRw<~g;RB_3+%I`8iB^V@iTCMTnoja;0
z<wDdF?LIm6_Y{|IWm6M-ZmVk_xW`|5y4&!HQz`ls>}4}9GTHt?)O5aYpkB83()f!(
z!K?43kd4-5kMQsUsb1O`waT{Q4}%hkhe^V!W0qxeA+y|1`Lm*r4PVzxR}+~$n0#x-
z_hQsOsn$1<BLnSStPzS2MD7fnPsGu|8MOuyT?=BbCNPrA*(jYu@6UbQ=_8A2io|E8
zJZg3^CFv>)%*nl{SxaX{G(&9kN_-rB+COSv)9BHN)eZ8yo5o^$@NEx216aNE?@u^J
zQ~5q0f^v9Gu(ClrB^n`pCeQeh!qnDqY>97d2I*l^>pmX2sf6PnG<`cE@%0<R2JiAd
zEp|NOm^}Tll;1t{Swdety?I!~?SmiK9{98IQkKdpVWtm5iB)=znlT3Um6`h051D&9
z9)A|(nUh?UH0zB#VJ%o#qFmam-rSgZ*s(s~;>}T%Ha=LtfIZQ?GR?M~M=X(*Y3*fD
zqxAUvDa*$h=3J*EJ`+Q=Cum;=#FpK>mnZQFznRcCnbW6t?|JEJm~e~?5m$_>q{daz
z{F6hAoM{~yu^4!K)1g@ZTVblI4k+E+t4jXLLA`~Nh!<r8`zV-Q@vb;^Dz^;wfZ@+k
zx7zb=UO7t$ns>!Z-`6qB){*eMrPxZ6I^S~M#M$$;X5zx=1)PEPiqyMDOFeySh&wI?
zC$dF-X6w8Tg~(lzFRDDh|6{{Eb6?MeAjXtPMy`R68>H7{$(i4VjMv~H3Bmav$-VhM
zn@!}E$8O9(CMSCIvK2NeBj2KlOwU=``A@d9kl7~qqqm}(bT&6B=-(H&?IGShJS!yn
zFD7tRjhcHv@^w}!hy@4aUh6K1dV9B8ZDVuNNb}|8m`-&xYgJoznq4}rcrr?q&XHZ&
zp;}T*Rx9M1f4+U#hlGNZylyRF)&Au-dPP$Q$9#3fo{p}B8WYEA`0JQmrHzrOH2w0@
z{)mIdeqKbdI?B(k3F2PKfFNaycwlodL5N!IS)b6kudv%zFN8|G;px1`@2A?{HmT<H
zo)x5!eKC?)<HMs$xe!Ti(JgG~m482dAEyc-B`iX>mZp7>hnmJXmAug9dE|9yDF<IJ
zoiPR5V2PIkx5vYSAL|U-5^A3HUDCKTWi)??vXMjJi!V_phmr9fyxYSIL}33SSFaF*
zXCOgPlDa?g7dUC?zgF1wpmAe6pW?Yv)_Y<!XElpzrw@~@^!rl9%<6vo8R64$@{KHU
zT<W(iLM4u#R5@u8cd~*zfG<_I%;<WGwosYo+j6_sruvuq&mPN1x<qb<y(ib+JoCXY
zVM#ThI1aIKP`g$lAmY>)V}%iY#Qc^#yp-)Tm9xSTvcRy?{Filoror87kRe?AGL4GA
z*z6vJ?%`9SP=65;iD)XjwL+<f-62L9s4o-~lJ5!C-jB8`;^Gw)X-!uUlfhx9FX}-b
zW<PIv7}<Ry=xuR9cTnHS;m6{kT`}R6aUwy!^1>5{7ReU>#e$FA-0Owi9c2`4u$NwR
z$38y|wBi|WWqW1D+-}A^p<Cj?bJy2fE2laC@Qd;AZRu8b5mJ$hiv4~j6Ss<^#@6Fl
z?AES34i@>8s7Tz+DdBWD<8FM!MBk=LoV$;r<8#pqdd(VQrl2ZRulw7hgJ%`XSv;{P
z&l@^8M}5;h-5=y+sCbPp=2kwhWJXR$_Yugu=rnFOAri9>sYL`g4jtFqH@h)6!XKhe
zS<lv;EKO;;V1z5%qSms0a6zEYE$eAM<zlIga(_R*=;os&JzK&J#@d{~zBaWpYIWyO
zvpjfas(f?(bB%UPDdtqe3?^C{TB$y4TVFpde3ZDnMI`Kg(R~lG?BR2xkbj|nz|`zS
z229O;f|Vz7m(KJq-@O}N2PBjjA2F-IO~(acdQX(=p7IapHcuEFTH`O3eG@&O+O65T
z#!|-ACsM4`NB>X+LaM<irJDj{=6%|?G9!M+<@Bwq=O`aCanuH!+81#C3k7#B3aUPR
zqOHapsY&90_=UTjD`lA5k+3T{wKqov?&V~zNa>|?jm9hI_H(JK%@DPAww}r`I<=mW
za{aV?T=MLtQrVT@hB!%SB}9kc95&1`i|oiWcP@W-3zK+BJ8`Xb>NA}g(<bf^!H9GF
z%kFSHd@^86%;CB>&h`@irVFlRp82+f?CF%bmH)!zIHtHMbY3IgsM%#9smF_Qz;=s+
zrE|=JInGb%b}0jm9j+m?;ifUJ)p(f^Pumb`k)A3{ZDD)lwog=8L;uaPT(h=zZvE9|
zI_>utL-r8F&mQ}amv(>Q81Ce?{hFENiqQMGrbsmR=y@;y8gTCa-M@}jrX}S8!m6~a
zsD}1K)2_((LGIi0e(6q(7E(dlSF8Lpr9|yX(wPtOuvL6~n4c7-peL>Eqj{FDV=Sbw
zt&3+QLwL#mlu$5_diZtrSP?6yhknCYn)~+?wQ{3M!n5JgpUWMXxlOVRcs=5d2eb&m
zM#ihT9_K!<d6N}hcO{1iLA3`pdw9?&AYt{d)L=C6PJj<K`weml>gP1P_!4?DcC(%)
z|0NTND?u|sLSNgnD<nw!!5m?|Jn<ES*o2o=PzzN@0mHmz@X0&1XL+72rXY(SVr)ns
zYvwjh<V?7B_#bc1y}iGEy`r>u@-bI5w=OeZrhEgkwPl7qsdu5o+Te1MT|=~YVA`?g
zBJH|lnjEij^VilgFNoYH4}Fx9bPd9FHjL%6%*PC+$V;COYU@G=<~dKfM1-lw`gvY`
zb&?wIE9|LpXa#i?!8r4ZLt#YbDu3K{d}}pfW%NsbX~x!z2(fx`q4x&*dKOQlIp!1E
zgpu!kbXN$=&)Wm`qZhL_r=L+Xpsga~+9>Y5!Ut!iXq@$aC>KxDgJ|bjroGwBMs<2a
zlBqtLpOGu!@hB}#<`om}?1(h%8{(;~<BrS}wC~EAjjOIQpJug>TO-O>nYsFYyZGaS
zx}l*%T=RZ=cmjao`tyYd<}Y4|h-jR0Baxx3={vR(XnlLsBKcUz#P$$nCj~i8_z8mk
zyNrliP~mg6ld%Q1&7&xU|0r3=<zqvRx)Ud~p{Fd=F`1qpeO9<%xL&8~j(=W4ZCyyW
z86h|_)A|;{X7g~!>gj<wqhhHPnT|rk7Jf!nm1kyrHnhi6kfP=8Qex0)Mcrhx7^k!B
zD26C>&`F-4yEk%rNo5!!iWDQUZcJZuVbO$Ooya?gId>69lRj0PegB+p;iriNZX;Jw
z0ajQc=gKOUgjK_?@Y9Kt4d0yTR^9K%k9sRl_p%I*`}TBvYSK1sy)oo;0{iUUXl>~D
z*NEcj>Ge$#6H|lGKNTEU(C`Nj5r2~pR*gADD+h$bYiUiacLGrj(~|Xft8EwS@5xbk
zT-}_2x=2d)yB-!LSk6R59lOCf-cSa$csGFC?x>V*LCCz$646ceY=7C!;NFBp5LYO6
zyp+sppldgzWUx#=RM!CIHHuz8yQ~+#()Uo}b#!&PwTV<#L)aW;YYEXgzi-v;SCyOA
zjRz-^h4?KPLq1*oz^jRs$UN{sd(Q3dwX)YYj=3<eY!1jR%#%IflN{ZH>^))xvA=k+
zfqH<}1hU{*U~PxBA|&s~)K6<WEFspDE^K<Kg1Wl<*p66Fsq<V9<`lKia?c<-q0p9R
z%6|8F$gzN9H2V@`7#8<HX%D{^f&L3^mWpnqZ3dTmtV6a><h&5fym;pJ`H+R}Vm{@X
z{XWDN5kdX^9CuTjgH3OYw?5(5w*LaGLE{&DoMK9woAZQADb~jvchHc#oFnR8>C6Uw
zO`P?m{x;caep^4^LM^+IJXgjRE)3ZR!4GNKwFjzh<=ebK$Gt|E#kp6~)cf{n4Q<~p
zsO?%Od*mg$wFgyuc$`SYUvL_ufu{x1EpuzkTPF@jz`W079qrkw?}->V%iU-gT%N#_
z@<}uP4$q{Pv`>m?TJ^|K_j&YmQn`q`Uu8ut>|R_$n007CquupNqEtyDxuJnO8gi`M
z{ZDhXj+Ts&N?&{EMEBa_!PVpnp6M{C`B64unVx(FMi$3DfgDUdka&2LJpcN!R&HC;
z!K>s%XK|cEGeb*>QfH0~5SWoq3ou;=sTdV_CD)_!o-xkqqn{udp0?2!o+qi5_y$+o
zw+~n{N^E)SbVAugi*xBp8Tq-5EuvdW+DU)%2l=z3x|=%N**yf4HFLN6UQ^Z3kUx7&
z-s-&BSr08UCwI{LxVaPLY|Y$&hZm+|_Pvh8V1Tq4uqj90%H6`v&V}IY21SDW*M$C)
zh6Bd{tg)JzBd{4r_V=!L@Bf!19XN!l8NtnNXP1yD91hMQ!0$gbBM1ycP95011Z<Sr
z*~$cgDL4VUd%&$t|7@xH0fNBf?X0b>fQ?DuP9y^;xFW&b#mvGAiURV$E>^$>C1A@E
zxX8o8+0oGqiUvFtA1gO!D9qUjpn~89)Cjh2RzTev*v<s}xAU}uz}x`@F+kjJWoKhc
zfPzc6tXw_J9H3Z0{bT^*p<=*A6(~#<iUZiF4#fk5nL%OZz%WplCD0n!$^?vQ3xU}I
zHQ=H>6y^Yh0a;8ZU}OL>D9jZK1BL@6LV&_NpfFD$kqHcQ0a!Q)>|%nQv$G`F0vrIJ
z?4S3F?Fi+^oBV%-{*%~t#P~nR2oS%6nT<QZrN5GvjQbAv@JJwY1daf*QUr+tNS8Bn
zIl0RlI0UBqqY7*%12($ZS;#oqI9LIQ!?Xxij%UG&s+so=MNk9^jr?h^*$#amIR;QH
z9RB~JK>lz0K>^uKG@y@Yz&F65a8N7?3&8_9J~2STNMM3T;o&<41K<f>2iv0n&Dc2t
z$_BLm-xbJ@>nNZtSinAh6b!Hy0|5safI|ZX=m?L4iUBL(uz)^efWgJUf<Z!&cnkz6
zfF5F@7!1$}kbV{ebXp7tAOHvI;1Rrz0t&E^PYk#p>=Tc}1IJw$c-$cdB?bYHAQB)^
zV8J3#JNIG$!gu=s+5+S5)PW!vDTdoA7%^Z+A5g~w_8tqsu?QqU;O@9+U|bBK%P2f}
z9~z1QjyQl>;Blt_6Boz~kO|-s9Dhe>AOis$0ER-qF)_eBJ52e39C+N(A8;fzcmfAm
z1fmU+1|EU3BM)%6-2%Y?B<|b^^7o$#fZ%QyfC_@QVL+?^%)#41HTWT}A4dRNASe1$
z4`?x<5wHpvL?6_HUr+^sJIVy~1m5+ZUO=SaaLCTJ?;YTQ-H|^Es0h0{0P4Z7Wrx>*
zUVu9BQ`yl6P$zzr9bNgZ6QDl)TtK{b&VfEa-S|;J%CT?^AVUCGPzUxXcpM-TP%i)*
z{B!xC6F-h1QvkU`c8*~Er?MmK-RoeR{}fO!K&gVqe^yTa9P-Nm`nEF{0+a8~dS$>e
zsQ@(Z!c?I<t6c$@Iv~Mam>Fmcb}X1Vple_a0?f|9pgXW#a{vsvb7l#MaJRN&ICfyW
z^Bcgh-LswfAIPBtXOJB$0SI{a(vIN(+^wB<woqV#+o{<>fz;wo%^oyBJ2eL=`um8E
zz(fPWAb>>xgtc?k849d1+N}Y`Y3Ka{K#>ce%Dd1X<_vf^c3QbYf!(w_eYim}-$!r<
zWVCzryA9iExoZ-E31jDs00mxF?$&lpALct%pf%iyjDS%+0J-h9@q}W(k9Pr((JpMq
zgaR+%!A}0!tqWfKVVe{Y&>aWm=j&kmAJ=6NKU?$vY;A_g$pDRD7G_Wc*fC57`9C%T
ztmQw=Q2%2yxF}%qfrj8wTKXq!e{!GxA>k*L`v>@Q#zPgHgLdeKsR9rEcdn}<p}<qI
z!%|h?z2tXYQU%^lerLHV1`0g-Km%Z(G!}~Zp|)aBAceJi8!)kcXSgc3TY49&h!FY5
zc@uH8bMkP90x!6KW%~|3Klr-q6a3pdR54KuR0RC@qX2udf8=t2NB3WI6pk@cw0=<P
zAmByzeo0N4%Z6N!g2NFXw+f*83MWt6DUT`*%K(}GOiR;pEsE05Z;<T_bgxug-SF_|
zHMl&LB_1xak7wh~N%{*1m$<c@GpZiVfrcyk9s1N&6Mm)J;oRLTvV5|1k$FVg-`>7w
zUxnM=R`5Dz`!M7<mz7_nZ64!=Jmo#!%kN0zzl=B!+0n)SG6G=4PtWuBk1_mz`e^(-
zhy8y&M}V{Ne;*Ct(Ex4Ge;IKevSWe&%LsrGp#SlI#t1xA1Sg8dq7iTe5E3AO&$;|^
z3S@J>dli7|`L9j|O8xOWr25jkCm2oma})xFK*Kd3Pd>qDz||iUQGIAqaIaLqa0F6K
zZYp!Qlv-3&Ky+US8J*!CnK96N`adQFh{Ay1KaLPq?BD&MA1DJjKShy~kQp%s8H!pO
z(=yQYcD_Z*jPtmTsW_NJNjzMaVxG>XW_*ls9BloNwTrxbr9jLc$p3-+?pK3g%667u
zh6{+)K=*IwBRU>HLT1NL{=O*{NKgGkxE$~y959b}6iB$aI5-m=?98E_C{Zy{gfP^W
zKyYyvhrt~Gb4k?M%|;Lc0}^kR9u~lNb$-6f#nKvTZf0Q*jPkt)K_CSLc5mnGBoBU(
z=%~Cn5{^W{QAj)-iNRvT^aX$VijTLOl{Ewi9I+4}2LJvCq%bf*^kohG4-B-`;2+fK
zI}CxtfW-a^!(hRz;O{Unp7{-i1A6)c2CDe)?Z9~L7Z`8?GV(VV3XIZzg`qG&*!>#}
zj)d>g4oH*y+74Jc0p>n`=??*r_6Kdi2b2D6Cx-u{ofsU9*M98}i0=PvhXFPp|K1J<
zq?3Mw;lOm{?=Tb?mw<o&$OsKQrN6^acrf1nwH*o#M&rN2FbMqb?chKv<qw{s#DG-O
zulK@%EYlzD(8xb!ga+oOKkfy;LiJmJ82BGJ!vO{T<6c0y{}>m@hW!D<!tsEC{e@mQ
z7X1fL;aD7yn)|Jt7#z$?{Cck#3XI-=gJHn@>2EMGFoORLh6j?-zrk>DFzWxc9q_fT
zKlqHp!2fKA#r>`ua2y^Cb${&-zsIwHM}awn-`Zh;^yaTHz@UH`jbGXUDRm&<_d5(=
z*6%O`;t!bv+OkJG%pdxP0M-=$PA>w91X5PNjf=#98KYnE12SNL;DW@1nW<mf0ha9#
z+He>k9r&Mi1UEA~2P?OoZ^&uc`B(vSClsdX><mu#JL!T`PS!xK2H@Im0>+(S=0@0=
SW)V0sBoe~UuW&{Y^1lFs0*>PV

literal 0
HcmV?d00001

diff --git a/tests/triton_tests/plot3.png b/tests/triton_tests/plot3.png
new file mode 100644
index 0000000000000000000000000000000000000000..e83178d7a65f7f2c78c9b9ad369b13a6c1a3a917
GIT binary patch
literal 58335
zcmb4rby$?`w=SK6G}57fBHb;GAT=;_N;gP%iHdZ0=P)24(v5_4i!_qb2qF#VneW?s
z|MoxUT-Wis6c~q@XP$RGYu)Q!_x*lUS5?5np~OK#Lc&vgDXW2mgjRrrge;DQ0Ui-@
z7;FJwgx%$I-8G%9+`V4AS|X{uc6V`bc6YEfqxZCQb+dJL;^h$J;AW$@ad&rd6XE1^
z{GTUqIJ;VNF5qB&055{=@>0(Y3F+Z$#9w6Ci&9%8q;+LQSt+P@*8Y;0zvkIh=kGDa
zjC%FvykY$c2aX7OR@SG`_iUVNrm)mV62tR|2$WEIlmfZ;;ka_0zcr<x)ZsXcI>_jx
zq-f9R)#LLk@bmaoGEcA9{U(_mC*zqN=f#{&wv)4N9m|AS#(dhxbf!Fv6tEb=2&Di0
z=LN5p2kQU)#31VuCz<r$|HlvpBOwYW`mbk#-$|B6f&AyE0*#mSO8<E&C=RwP_W!(a
zxDrFi)BpJi3-as<0n>lphE?vRmS7(I$AM=IwXn2>#gmK@Ef2Ra0u-ZJ;eabXl?=Wv
zi-c{onP@|uFoKYmmFzQ_h6dofKJwY*JUm$%Vb?J52k!KqK$_%qJ2%L6*=JkJgI88~
zz(Wp;@Y}|`hWJ1o_zuSEYJ@#62?g(v7w7|lKrH9`t!itmMksyH52Jg{ep{c05zJ%>
z=925_={<S!gv4Ls<8E)}9?m!L+Yo`}K<#gJ#lDG0Y|>akaQG3M6jiuuQN6sJT=Jew
zo9Ds2teo7yhh~BTS<=haxasTNf&ckc(%XtS`&VbsW&2l$ABp4QrM}EWFo|a$r#+Hh
zU%OdSW{~CA(pu3A6(G=Bih9Hy8Wr_G;^z2kuviX(bog$m-}#~Yuknz}(`_9O%?%Nj
zFapvfzcn<`{#b>EIUBT_b|;#QUg?(7+!WI!0>(VFfZlGu!zN6XsmANWmdH=nV?lRs
zOKial7nsh~j!6uu2rg~>_Wt<sqfN&95?fhWS(gE()M~R{oY;lZ;$l*VDqG6@{QNIA
z6QL|Q-ry=c|5FRDB}`-`;GD*)HvR7Qn%v<0Vm)>$U*?0^5WmXltJRI5`)j(4lKA-e
zpPz5uK9n%+i=vQtk;~gOip?Oq`AyUfW68=*uVletBU@Ngjva*2d8h;ddR$yw=V!|y
zA+JNjuFqLn)XRa_ju`@u`iJW(xf0oh3b7}rV=vt1EK|8Hz7e$F{#_tCzdRY@6!!h|
z6l{v+{1@BdEa60^S1C!?i!-Cfri@&}-b)5`BZSgeCVH*j+~-SPbSwU+cnUGpWxHFA
zS`AK1O663<UuK0F{9kjX(eh8&I<Y9nW^4p1Vll|pF^4=|O?bt@z`zjlP~sxbbPkiw
zUvjEMW#>nYc~dMo1%+ave6-CBoRqWm7^Ti`W-U=o;@O*A-?QBb807Kji+g{kmIHxi
z_nmIF7q=U4{K{tr)40uT#`BPW{`~2FFrQ2pc+q8<nJwzYW7>&SP*4ya6}7QjUS+k?
z9^e#v{`KJt^^U**tC0+?!`xZ>S0MtO4y#7%b$G}6oBUE(3^zZA(|OrU+Oxpb{Q$1Q
z>AZavX@%cG-E5kGBjrN9<MVF>`VCGr><0B{rsH{1HW~6}W@cRybOC<|Qw?3Q!6NwV
zzem|lmBgo}>Qoy~@fio4X<^_|${x(u+0K1tq6@m=&f`e{e~`kXqdf-x94xnqJ`_8a
z?0PdfHANxeFH}=gGhJzv*&cBH*~|H-;PR}oUvyg9qxOq6-1&OPSJ@&SzotqbD#X&V
zpLr1_A-1`z(S&D&cf!J)Sou`hwc`oSMvjn_r#|JJt?dT2#J*={*4GcX^#kH>3K9&S
zh7t5C(hqXEZoEw4Fw*DhuoxgZY+R4Qp%Z-a1TC^x+R4c&{rvKGKiyoj$8)fae;Y?G
zey{u7-=6#2p3PqFl;+w@6rj%<dC`=rW}~bg|NLs`Ho_nF?%nSh9g`Z5J#G0I>YbC`
z-k;@F?FBkj#)#;_CT32$|L~{J*p$Q+^CYsB8MQ-4l{bu_n{GMa+z5o2%-;7;O(6F4
zK3gbC34URad4D`E^KhclNHm64e6Z^+=FWVbz0}tJWbrEym^M=5mS5lFJ)o1wx<2a2
zT?xF7PBjTkM{HC&uXS^l8+gSBv|?!o3k_3MCNB^Hqna%uCoPR~)NwC?)Z%rt^=qO~
z?0Ub}X+hkq2P^RAw}Qmog?an+p{To2sYyrRkE~{23u|j$>rv`u|5KIr%PlH=TCr~+
zdJHR9)YJ{P!;ar&lPq%DUQ#kIg{4#t+$JF5*h?3yrc3W8Ju6~2#FC4|w5PPiB`0&J
zb-VG#md9p*XOTP?TnxNEP|gyHe{pw#8my8jP~$Mib9dfx?-MY*xM;XFn*GYkiWz(m
z$Bzrf9y3~L%FM2AZZ&fbi$2@g;PWmX)LW0`Y!;^)uhq>O7do%BBeCg!39qxC{p|hQ
ztS_3XAD6RL(%qeJD24qwEN}&`Rc_X=-{i{l^~1w$aD6Pl#W5J)S8Ud!9YZZlP{~l$
zw2a-tj?3Ci^(_jfwp7yu(oOlsKf|e*Sf|!{BN3Mb84+#i>FNI9>boB;XY1G5K}uC=
zq@|^8reTBvnbFnNT)VSX4<(hAA4F5~vkHCxVmsx%5wCCoJ{F#2t<?xPpBU@?vDUlO
zW#|jhAosrh`X2dsBT?<MX%|ZS{hi;{pB<T{W)Eb<Ddy(pc3NolIx<FF5CO;e9xWXs
z^iBikHpJxvXPcp6(G@pOUPrIdg<&L95OcNT{+4s9RE-lH26u2676&j@QTjv7`!;Uc
zfBDN}_a|Hz=WSOqlgQa0k*3c&3aAF2(?Aa93BOk}Fc1<3Iu(PG#uD;W=Jx6gw^{91
zv+Dib?Z;DB_m3cGxqMD6TwPsZnx**9o;`DloDnf-_ZN0tsP6?u&AcD~u;oa?%-md2
zQSn**0XVSLa}Mr1lf|a#y=Ff_4z-@GG(x%o-xvm*%`oA2HChglX@Ao1^*d_o#}iy!
zof+G$Gf@{bKl~-BUtA}PwW5y`g_3Ah@UabhzJYRBE<o=Qq)r7_{<(I=>iyl({SR;=
zcXoEZILsw*oA<f&(|9#L5N-h%9;CBga7b*In)yM<T66{@8)v&6Ew}lDQ(Ix!M5LZx
zBlG^j>)&g=;0m@a_Jce|l_}upIuJZKHparj@?n49!EUw^PxAWj0q%DNSy=*7(q8ZZ
z2mN!5T09Afh}IH{p;gA>AoCfyI3mNqgHi-Id2iPHEJf7DjkaZ7#vxq=lPF3t=PXeH
z{vL;XbTqHfk_(U8BMW8fnpA1JDf#FtUVrT#NPGA(0zQ7cFOBu{BU(XL6t!@|J&1p#
z*5htmV>;`_#y5!KEaI^{Uj6zjPe3rslPBW^a=1t!^9_LwPUEq}iG6V=1k&uLlguam
zI;Eu&pVO`Ba-CREp~gFc?uneY0{SqDknELy$YTzgJT?x8Z%=PRdGDTMH8P_bg^+1|
zZ_eX$UKS%FCQcXi;yBxzwFap<idH=1#r;h!eWuOaXG_FS3UmQU_El{un?tF*HskaH
z4nI0cbqpbgZtcJOs5Uk?CyEpkLoJ&tiOI<NKm}EEcXw}!@!A@uC{fAmixyngb;v$F
z%l~EFSYrF*;IC_ayZhm&X3E4-=#~fzT#!cS)!gUg7^=jPgLozFhc-ylg2q&h=~WL~
zABe?XfAFG=`_<bdH;(H(pVT_6e8R&!@WSo=KCkt+<&KUYo+ZaFshvru79T%K@hT>#
z!U0qX8ww9+@Yp5TwPbupkgS3NQAM08Cnt`Kk~d2pvpxY?jg5_=nU2osBUUFTC*MX!
z*gfAaxB9qA%gD@qu_XqeP9m>a2|%KU=yKKz4bEeGRUI)SR;S+UH00#{h$?-4xI`i5
z&2`j%T^Zy&*-*$M9mruRN^?P4jq>`=K88S|;n9vOrK!Z_265{Ccf{T$vZ(QZtu9ec
z4;`>D1Lyw%jYtv&uN6{UQc};~gN1a70FiQ?DvopERCa^D#U{6%rIv=F6Dp_15U*vQ
z4=qRSnd9T?C#R7?wO@4EdQ(hX2blJk+ghY&lfmOi4cqQE3-#<iK0Xd}pNsSCmj@DA
z=Gy!O?=Sjav`RFv@SljVplIS-4r#k83ma!W#yRhL;&poV^qS@(D0o|}VhZw5Sauwz
zOcQg&?9D+=scq%b?}%Z0GF*0A|G4o+p%XXP>bqOP@8<o}dn-YS_N`;$9yorg_}h0E
zZ{6f~h^#YuH6G=;;zRjuBy9|-Gv@Zk=)`{s@4gkjUjVOikQ1mM3MtSB2%ori&M@x8
znd9eI-sjIFO#&}_E%n-b&tATKd3?3VqL#B!)p5tj$r)=Bben9Q8<0{|^aMbc2uCVH
z!Y=Xi#jlNT)?o$>9H3xqf&$DeDw?@r;h}J{a(|b)o#Ph+KqAkZHQ9o~!nsx-UQi2#
zKY?cpX}`t5y8zhdrIM1_kLuTK2K7;K1a$X$Kh#aybGeph<(8m&kh#Z{yH-jvq$_;L
zxyY!&$&xfH0t#5U)rAo~PUwMrCC>32rO16o<a;qRqMvOh7)Nu&hkmd3&(&J1)x=M~
z$EO(ti>ucE6!tEelQAbgUJ4}4n&Hw+r{<5nk>qXw9ww%xeG5Uwyx2@Nu>s4F;y&)_
zk^TP3Kp~aG2n!eYv4B8IKdoOBGAhRS7h6rI_Dd^eW@3<{%==?##D4b>TiQ)sZs*39
z*jDJ*MFienkxrMne*bLw3Im_|8>r(xmz${{0mzG2pk<Jd$N}$^vgfs`8r?qnaq>WJ
z=7X|~<?pDT>v<mmD0u@SM_o=CXBCn$VJ1dcaa`_o>AjkkiLw~yr!ktH;KNgyopv4g
zjAxhs=FJzstDVq_GytBox?HWBRo9lhh-v8_HiC-w^=nzc-Q~0Z%H8OGQxkw&5CRYf
z+InhPk_~g;g#CZqz6`M9ef{PQ2Qpl}|N82To8qBD*!kiN=9Htr$!J!*WD<;QL$w0S
zORz^S08v@@e@s~Fxw`UHwO_$!w-4rOS@KX!qp1W-02=9)mvv1^NC;hW+BUhrA}>|T
z-I{#Gxf#jXPA?!prXErQeklSZ<B3lOg2Pt4G$QUUWeq>a0bXvu+I`;abu{YOu++EU
z++k!!UujsM|2Z#^dkYf<7g>R3xf~*>VGE<0vM_z&^7xp^g}s_GZcG!B>~2a|DOH*q
zT;WPB)2xmb1(rfYN2dlFJ1PMOq&yIb91C9@7g7Lf!KW5dcQCRA?{ipxy#zX+o+-5#
zBj9*9?UZC*tiF8+;*at1<F}wwiUn7P2XrERF*HL3a*^S&u`KND(R-CGF<Rx?+yPha
zppw1oHOmJtA4SOzA9jq0jpcmm8wg4rm;Z%}F#zIb3+zVCNeJ8r0wyjqbBKS|@ayhO
zc|d|3)V#{Az+L`8EEQ8tO;cBN3_q)2f9a>H&jbc;u{Epk7^cSU7NMk0b%)vZudPD9
z_5$uL(Gj9BqF@~PWHN88*w|7}Gqa``dmKEbRz>3O?B;aQUze8~Ibu5!FFp1jHIHa>
zja79tA6D4v?tVYhOq({W^wJuBR?e73KSYH4XnNJFDyWo4Bfs+QM`USZsp0peBB
zF36TzPn|bd3`#bA+Nmz)W#n3q{_8{YoWooAv(13+bOOs#R7~|QW`)%qmc>{@5`1?g
z4s?<H_MRK!vtsyD;_6JI4k7Q;rYD2e>wVGgd*7p*+_q0TQ6C<EH*kJ)ebC_c=NBY3
zeis2`Ia>C4QVBOAKI?zd{q#NbvZ8{Gh=@oCq=%-vTL%Fu``OB30Lxt+3His2v6`Nu
zjU4*^o~0pe*+ZcqF)*QADk}c~eUm3Rp5OkP5|a<9t-aECefs%C(!t&1V4rKf_~c|c
zL&GdX19;iVB9%pHalDA7Qq88L)$mg<`ay%{r5N_dg<M=(PjoHEo;4lWzjXg{-3-N}
zB+w|`ZB|5+7H8fTXdDSdjh%Cr_Fhwo`bxf{_vEqC#WH6n4T+W15>l(|Yci;wJB9#C
zTL?4{m-UfWdk-3eQVD9%Dy928PEpI8z=OuL?!2jDNrP!kPwUBdjHV#u!$H%4C@TPM
zvii4{=J-Z{CXCde9Yj=U{QjUhDDtFEi3A~xe7s3l3wu*1w<)r7kt;=ZF|asIPfe$6
z!-@%Q*TU&?{=QuiI!7i!W^((a<VBGtb$tzk_uRLKnYqu@lg?`yMMW3X*a<`Wj7FZ0
zn3YW<#aQtW>NjxYd+ZU-)qffiF`6A18e~n8+Vsv1+ESJxJgfElOCnk?%-HRy0<V6L
zhy5|;?*dj(h<faR5!K=hsvEv4y37bn5{m%m2n|XPXZz~l1#mW~2+cp*TRaa~z0R?J
znm3Vr4?SVVg~RGQnW0>Ef_6PMGo735HWgSRBF8MfZ&g{A9H?-<^z;9kj#-mp@sg)E
zdWxbhFOLy${kPb-&A0Xb?m8_hK9G8;m4}zth^Jt3N{jEa(^4~StT2cTa3Br1j=qKO
zf&y$I`*Af9Z(bhn;5puu2=RRVB<D@DqQX&GV#iauHOX3=Fsl2HYpe-`OgDR=TLy6d
zJ!mgZL38A?Q=CdxVE|YG0Q=WgyWW0rTFL+|8KM>M`0^FP%gXZjEyyI3b@n>l=4L2c
zkxeDGx&?(bvI?4|mcJR__*jo6`0YOuR+XEg>0&kT6}bctv;}os6W(=qFJi#DDFu2o
z8l2wAUzG3rD*FaX)JHvV*xA`ADK!`Mh^WQHC$UGB6BYOe=;OEl#;D8SV|XG$`3g$H
z0D<fVxbrc@$Itj~eEny$(f{3SQ~=rE3A=4I?q}*M?v!-DHBmR|Y@j%OtFEVx_uPB2
z1U3u{?0g8zfIJT|CKaoM&AG2~fer6pa<E6{=;r_B&cOO;^AnkAuC4Xn?x#O{vkz<K
z>?WYaZrh{W;Ddwhz66be;jW-Ct!Yt7Ni#{Ks)`B|A72s(O&>8QUEQ<==`FIz-typt
zhHGpH(+MQ^lL_Ti0}NARbiVMjV#8Yf(B~3cn^c>$4DA(8X|4R$T+)-KwIE)rVR}x^
zsvjqoLn+*#Ev60l1F3BLtDnMYGMXp#7Svi)9m6;8Oy-Fw$v=?ML_2P)+GPg?)?J-H
z{1{HZ5sC{7=tA%PzPY^-=XcY%pbTG3WT`Ruly!ZoHhOz$T@z3jN1(;lX5-ZXqPAS;
z;U^-@>ThEMT~=tR)Kbjb!HMkRGzL~yzv&ZGKL_5WSLBL6(5ti!n=aFQR1^`z{Dc+0
z+BRelg?5srr-mNP7)YWQ4Dt*MfKD-LMWR(scoRhpg%_fyeg<}0=BXwbG#z8&BkFgE
zZfEO@<Dkyf2m#~iM+z?NPufW@7DhZ7VDyP@<2#Hug7fh(SAhBuJw9kfYF>ZESc`7P
z#vjSxF9da@Lbs;d(xMRn_o+gKhtjC~C9lF+3kx~sV>+jFB(35diPRrP_!iJo^Yi`v
zom5>}i1CcDcpjIHC;i7_8F8jEv;6vP-rMd54NXm-pYO=iK$qaP63{TzT&7vd<NizC
zYB&v9QbU6XfMja`vO$(_X3a2gOb4JKIZl#YurO)CQDBzvE(=AgsXw-Gd-JupE81TC
z<KBl3JcN|wI&6`HB$N@)*d8SIt_501y68E@gm;oq!ci1KB#VS9$t`cE)|FSxDcdMN
zNco|gJYgx2c(>$bxiG6}IF@5$#p|P|w_#~zHZ%-98p}d9VmbO_d!m|KvN32BQKrqF
zthh;1aYE9_GXvjjs7xrZ!h%UcZNEAw$jfU>m4_*GtY)BlJU(W$91Uf4B%mRW?_^!|
zTos3UbtHC*8`m2_O@bg|zuc!sJguN!BHMYIesQ#PU7O2(N0u{it>J9ZR8Ud`oR<x&
zD*-}75I=yYbX#z2m;l`b;I(u?i)>Ku@H5l7y{tP0mk{YrUL4C6EjNOhQnnC9RXn<k
zsh3W=t|-qlX9(Ry!EQSl(si3K5Z0zh+&;s%we~Ym5!#Hv3IP5uFqM;;f`)v5uJ(go
ztyL2norwEWPy)Z&)isa6NjI%O>tZ=CrXBZ1M}C?*_?w_`F*L$-{)5{!mS){ucx<my
z*E@ZliZ-U$$w=DV92Z3;f3&KmCQMeY$vtyO{7q;ST@YKHe9~#FRn0goD5zmh3gi?Y
z>rq%|5@FV7;ZUtU`{kV}^u4ni|NZUJ*WzCIdnQ52SG;y)k@h;0>urzYHYc^Jsg2Mg
z$sD};eVV4Da14=2!(ID*(i}g444x4lj&*W+y0h5C3l8gQhJ9sOw>Cz)Arxae5fr<&
z;6Zg(^Ho32-IBqjRkHz@t9tLD%GY4a&Y+NYoo$`irmk~i&*ACjBuB>EhZ*K5cOmxU
zJ7#&>n|zvRmHhVKkq|T)se#vOCo<?~DFhrI&CSgf6&1xLBuE2FO%E_XI>tVhmV!Fr
za1XMJ_uZXSe;M~=Aa6eip{S***NYAi!f>z6a5VE0<LRN#_B*|VmN;!GZ747Md}GgF
z6->6CFZ<nG?NuSl$IYK9HI6-SDv%>)ssRbY-qh4YE#xA(yP%CSV!>Du7|^{t`vI5J
zU9WV{w+kyMW*+*z<9=(g>#c5Vv)`azbKEZ*wwfCBkYcl=z3;t-<u`(`m@5;en2gdr
zOIm(4-b~zGk7W5-kCWP3t?I#e$R?I<lb+SsfE2*g;ywwBiH8w2WR6iKC>l)exL;%y
z%*V#8j}q0Cy8co!=AlBU1f48E^9~}k!Bh{>(2oF_3V7O$Z}E>onfj0;?ssxFYm$0V
z+_l8DkcabPK7uUpw6n%Yuc0bF@O>PF!KMTLE%p{e^m1&ooDH^Sv@Wi1!Bh6FAu~xu
zW!9(H$+~38C=JJ(OxZ&vEtl`BdEC91#NQ@Q(kOzN**D{Xlha?cWUlpOu4^w=K2+|E
zWBgGSxngSeb*z#J%QV;ic@JOqH%2?Nj?678E>5;>+1Rj1NG#8b9XIA;=b5l|V^Pjj
zei=jsDLYY@x~qeAPI-~sFYZgeUfr?FyFry^WmiYd2uIO_J*j=Gns|D{pwu2^3;U6C
zqhBuX=_vrt;^qKLuDht@JM-~KKp3ZP#z^r1-c!q+T(Z3uD)0%=FniMs;E+<^M<80*
zm8GZ%gAA)!2_@OnEhZ;(1rMe_@3%;VTy+v3&=<XyVN<ol^8YJHKp7#-f$v6vBH~%D
z<#EZ2qQ#^F$}*fIRDMfKuNkZPsZ7`3tf&WHc+eI@wX_1Pv42P=mA<Zz#7`Cn<qr_I
z{ZSOWO8fQ)L$B-Kz6p06DVgw<v)6B5A!0ZAN@;6(ZL}afxfwpF@vL+tTjVvTMtQH)
ztcL)d_~7m*Ch7}U8v!^4d7Cfc7Wpvs<r&tCm2=+aUcq;_VL^JI*?RUPAyY@Yb$@@a
z-P7%6jHX}kTJVjjYeqic;r#ZbLp$)N{Ep=B5I$6S9|=y2@B@1DKMmZr%o#s2^8(5l
zZXLr+c3==28Va>N$OM7)_PYLdS)ipr^;UI0k@qVcK2r7?En^YZE@fym7}SKm$D?uu
zy~xF%#*^&gUA@UETj-TluYZdVZ~anBz%s3uSRLrYqJMZERwM}|MGl~GbKALEHJE?a
z=QjA1=IY8t?qhOnS7#>SHCnF9B?>zIR@l=M`x)2t6T6viTG~SaZpKGif4x$IAISPp
zS}kOQ{Bd=DGzJ($oi*+N?qSby{F+<duqPk#4!Az&Va#!hTNlW@#dpt>X?o~|BSc6P
zdiXQQx20sF@{Re`*`Cfx$d#1wtk`hj@Du+;N&ipYC#jn)V^M@!EK4dSQ^@D{e|=vq
z@lTb#RrR(IijKO66FdLAO>5IH^my+Q?*zIz?+Un%|1kBo2==dm-4UK#Y9kSWD;Kw{
zCYaxa*BIHFK~T|H9#yGC4tE4csBO2*>ByY9k|ZAiqR#Yiu?Y~63B$^y8e-<|=^}1h
z53EPCo_+Hl93C!$6n6VPQYe7}?stjS0K{k;03dUxBZ8Zi{nMY+=%n{%%0CNeds49)
zfN92ci5lm5;A;wsFi_l0Y<bF>wPJjY<U=k(eazF#FlOD#!N3riJe<`w?I7ZKlWReW
zx5ty?7!6Jam9YEMOy0@&BWz$O(4|~mTuq7XO{wio?wqntZMwm;&A^KlNz_$lu7KCw
z(_=-dYj^V;H|(ev*s~d`*J2I}DBvrNRHQ(A+${a(Wh++17->FR*Xf5$nnwIz_<Wwc
z{L&GJxMQjycx)Bo&+=iCrH}W@9^1KKLRP6OyO_K}O57}kRG(HNGkbNFh!j(slW_Ha
z6`^pi-UazH7_`vf8k;y60Zah~E?Wl;D;UsEPq(GF%F4>Z-oKx$(Bp0BPdQ@K8k>a0
ztL<@X$y1dV;3a?3c3=YxR6A1sobt_h{*Tj>YKlVgEy~A_=6QHJoj4y&R2PkTxE;*X
z;tq?VXd|GnQ&Hz4G0V51Z=DG_s>|_@!+Ls>cAUSF=ROBji`6mB(F;NEfT=;_{^udq
z{C83tEYR6FljzG#NbDx1H{hFBkyky;+woj*;affvQtqRe_<0!Lt_ieKTYDM<O#o;J
zf(As|2Xh8b-us7%`aw(*rqpBg71r9VRLB5m_7kVBr2xdjtKdf~{CeSbEYS&5On<2o
zS-8FNHH60$80Ogdv+*u+K%ufSv=^|0nI=A7FT-7)^?@UwKpuWo+U4;oi0Zcs+g2_q
zff+}WvYYJi{K~5=+!M(t$+ypVAfo$D#Qj$%h<&4!TR^>w0Rn=}urY3kqa_O9?FqOR
zVAFNGIzv!#>k(wWxbGi&KE5xXGua0j_&6%3IX8a({ynX#T#<#*1W6J2{-mAbN9Dr7
z4<24E`a!}X9%Eb-?NZg(4f+FPqs%WvGqYqqh}Em%Vn4%DB4t;1elu9j^A1fOi}}0<
z+cSnP)~R*^>mp#OS&99S_E87A48UPQfRrE35zmx*ixCf)vG~Ud2!t7Qdqxgc2J23l
zrPl^LfhGbTghx>N?BGu0O~0PLJ(lTopANSA`b;8RwcyRwPN!d|ym=;(=&ljEgQO+l
zzU-1s6|%n1%3&UqOP=rDL{}+9>KmeEKAA?BhzBj<fI4xv7Gn;oEc3MWoL1)q<CF<(
zZ0CXbyw;$P9mF+nkh_-wRRT&bvb(ZG=zT>;LgjXYg2S7Wpnl&j#YlYK#ngW-ljP`-
zEYkRpLwGs&1Lbf7Pn0B6O`BOm?d2~>rOjfR=!g|I=ubfPL9judMqotPxRLM*$@}Ja
zf73zzg3WTPFqoDg2CSemACCyGK+Wvm!G!%O=%<yLrK9r*X?aLIjQRr)4W-lv9jjTz
zvjP46r&Y`~mX788;>~D^%W~Yemkm;^+vi*Jb+<W2$zEGg_MQ~*M!)5B-Y#(Z9n%iL
z94rwKLx7+c@;P}zNJwZ1Mrr>90cS_+=S+iB2f3vKp~(wpDRlZ)HmENpsk^?#a08OD
zOmDc0{+831)MudjcBr2(+=hrkJcz_fYD};kP<#t{+?r8x^HCTJ+*SGQBbxfZN~k~(
ztW6nlaZwdE15&c>g*)~h`KrW>lmdEQ1O_Y%RV(IP4|XS0Y^f8nn=wOh4pxq&{TLeb
z7}6AjwD**Hsqz<W%_D@C#7exWBezn+Ql*|<kz+SsThVB1P@}FpN-5)S(m+zMlE{N1
zi*B+`<(BLjgN8{k)?~BVQPZP&KqU|brZ*ZI8ZQ+U0SECNq}$Iu@$GV}*q~j}P30Of
zV<=L!&9;~GD7B>odse2^B2cIF>yzc!(ASiB2mxpnswW)<_zPBdrn0WrAIA3czI*RG
z3}a1;jgc?!n+*-dkxjNtI~aR$zj%*_Eud|R5f?fb3XjE+)S}1TeLk&HvK~~$4b#xv
zEPK3+O-kiQ;*H^r?s0#MQQ5^t{t-q3Z-+UVD|RaMl|LPgx$>+=Pm8^#Pm+1E8yVv^
zt|+fb)Gexd>*)Tex+S{AKIzAbyo{D$jGX1OlqXbUV7qpNc5Cm$xsyw1Er&iQT)Q1v
z=F6jcScu<hTLcKX@V^Tw#Yc0O&n&et*hXgbn9em*tV_Qua6s?e`zf4Q_H1{o_G-B~
zQgWuv&+AWt%mC`Zz`zrhSNv7G6*j3{u*<VF_*+RFf(&VCtjNg66=5CNfWUd-*2gco
z$*h|kwDsWcqG3hQ?YpxoBG%{j`ciK^Qm?e+nlUoI;^Ibb<p}+ptec?O-n_dJeFy`r
zE{a@j9tP^zx<~L&HZEk+eiTx2{Rnu|UbKFv*s5<~`Za_puMahLoq@d_+3w|T2#f<a
z0N{OkPAW)ZmgEf4TojH(K<r@U(`fAEl)o`6`pmM&6v*!A*Uvp;oFtUipHrH*Pwlr9
zaMnQ{=kaq|ic%d5=71=p|8CM(&k|i`L%3hCyDI#0le!cB;Yd@>KR$5Xo~dr&{gtw(
zg_vWPM;ad<>5W(ADO3gLduoz{DA8Hm4jSvPB+d8h?;x(fkI*cR4H?3Y&<(^(b^(Wp
z#jo=C2~PqzbVB$3u?usbv|V2fRStd&zPSmt+&|B{a;h{kKrdos6l(Eu{@A-T!I#=>
za92UW6aq8d<iOpPgF;+69rL(!(Od+%s8+;C)KKbC&kJ#KN|DM#1VjEFdWK7T47HHz
ze!OZjmS4id#C?9u`wqF3y^*eqgIcS9;609V^L0JFxh(EaI`&S9snPE<@RsN~4Rjw$
zGH6%ksnXmipn3mrgeXANm`0I0s5EW2IVr1M$vf>{&K>FxCIo8EiPhO+y_-|Bj@X|H
z?e5ehLe{fCdhm{0X?w@H^t|PFmP2`A-=jC<>i2(gnuq!2l3Q?!INX5n3a+a1fFPs0
z8_W4e-0^!nai_wCgAGf|<SZkPU6Q|9S)tN<hYyQVg^tEDAVlFf@-GUU`n)JlNryv4
zKI}>e(s^j62RE-AY30k4kw?S1`3bZ*?L=KDSabdoI8E+<4e^2y*7SDTOq<VQPq(({
z(wtd3M^630Wo?8)?el7<rfJXQTsZB7WYqdoD_j{uGqFk0!%;a{Ef=PemYI&9vQ}Hl
z6o0+Z8|3Dn_J9{11`B(ub|}iv;IlnjS5^?u8sKH#K4)ToZhM*A8T4kQbXa(Z4}Vrf
z?IY8dso086?nTVB2#gFR);@hQ%3YqMP#m7#$4uXVYAk%xhB<LJg`8M(&GT}5loSm%
zy1z7JLg%k8jK_wGEsIY4-0o?!-US=39q+NTX)N~(qM2llW|R@O5&CIUjlvK$^*6<8
z>ggK2yS4B0;Kj2FOFOEvr1@zolCx7!XB2U2v#2T5N*5i-KY)Ig2kJ=SW!M*90(1zf
z1N`=31O>2{=B$nz8qZnbKcA^@Vp-fqH#^brmN*)J8Hm|k*2Wx@D)Nu@yZ-Qgw?*RN
znR=(%Y_b2e+aoWES8}C)TxnbIS@k}}f7lUUy?41U=g$wkaoQ9sMab-wtShx5^+AP?
zh-E2KrNNf{$g0kVYxne++W6s4)?4@lAC-sm$|KUF9g}?d6eAfZ-bpd+(3dJC5+XN3
z^Ck&}($1#+3N~Hl0~0;bfuu`@aF8c2ZDbv6RF=PbG)_3%Ifb6Yd2NrzYHrH?&O<pN
zo<517`$ZP+T~ZIB;<Hb$R_T(&eo2#AQfZH56O;}ZTC^8!UPsrr6y|f-&<w6n(|jxX
zQ&HTZUel5g$Sx=B`$~jaEu`dq((-LPKb)$qG*>FY@g4Xi_ij3iOGeR8w|#=hf>I@+
zD%R*F`F4<vLL8qCw8dYy3=Jq>pHcU0drrSx&mnTWk(04BWy)V;S;_lcBq7_IMoGH#
znvL~XfQbLk@-ygcn||`dJkKP=L_h1T>Wjiqh+JI{U^cnicc#WsNE?Zb7ydUtrg`R(
z@DBEU7zR_YmC983C+;rEcX#CUP+pD>sd%px`!W8oemkI&xlfr!WRz;D>H9swyseIU
z#O05JJGnAzGaK2;nQ5wp0Z=R!?2@t{=D1x{zk2P8<euHra>OhqK^q4-4QmLLl(V5G
zEX1*r0#qTAn#Q9kUy8<j>FA0^+~6v8emFC7E(&?Uyr<?w^oPR3YE0Df;AL1~0C)1_
z^xEXJ<=)Yy#8cnSO%jZ34i<XcS)9_09%kad%qkb!Q)#bezAKV3+B_-L@DNW|E>@73
zl$Y+FdWZZ7ljdxkTUZahiUzr4YEvwbFQ=tf7&Bv6(?c-eaooR4h9?&{`g!|{)e#fl
zE|X!)&d6#*JDN%%O&1d1Lg(MZ(KnwCaX<1#t}@q`u$Dh-Zoxn6ye5b4ln3R1t~1LL
zY^T*VZ*`I-Exn+g=@`#-fZ^<AK6@Z`@TS)2>F&o4w|Y%CJL8Zu%3tJJyHD&XZS<wg
z<n?x+;4-kn5~iHpp{@sn<|6xlmbnk?um#!Q_YSb4D)G)2?ZmY{GWMD(alygFVPpSB
za=1V@;QVAx8zCCSCklt#wqqXVapBrMVkKI)?D_T{{#%?ztG|vG-hR1?BQRycA=~R!
zl0SdTTusYAZ~Sl@uSy;-bqSM{dN%?`mH!+f<34R}vaMX2tKM4|VHaaRUWN*Hiog;Q
zh6R1+TMgzG?s%cs-A=jdSM5(o+&v~Qsju_W;6c7^Tqf4XfjHe!`e|D+%+##ZmOWvk
z>AlCM<~pR_O3H7)$dabbub^;9;WhuHHjR+Y5l1YzJ7{qx>cm<FX0~0GREu>#lwVDj
z^cdHU!7f~w^FY>8%8`G|nG1hz{8~mkLfw>^3u%V<$ZPuL4|Dadvd{!|a@5RVV_37Y
zQ7~uJ=4P_uZw}9Xka1ptuOSKA%+<)4zo~7m%2E0~dzjx5+|`jhnnC$e8o?qPEosED
zgq{+Ckv*EUp7lmDkx{et_Z70;bYlR!sYd+EFBCH}V(N5<h(#7yxlTt74tz63%;kXk
z5a>-iX2MvNP$2wL6KpU81iRfTYAC@)o)+pmNrfurOkFP`p5I0^qh&`8w_ZbmPEJvE
zTE;|Y<cC56)Nk=y@-^B6i>u>$Um8AFS%^9tMeo&I;_D2>u@klytt;}qC9+TRpC%vS
zi@?m743<ff_zb0i8u9ce{rYpqKfRLPA~KLs^9iIJcc^Vo=wXfABC=SpuamkqgybO`
zX*Q*%E0Mi{#k3GuyEIx35IKDLW#b^~rLlK&TBFPA{L%+oR?Au#rmtQL@mj)zJbNYR
z9rSGp#?qG=eHqxv2pT*Ol8}h!x5T7sN^<BhX4KdMGdVt#J8Oq8$c=dX(nPRdT~nP#
zFescI#^JfWn6-~$_*RvsOrlrR4vQwaE=m5kLkS<WK5^u>621Ek9tRVd&!@<3-8J#f
zTBa{5?JhV!+t^meG?=~UMn<WnU@l^qDbzz$g(zdBOoe^_=$#uAB%vO4=x5$usoW-A
zY)?gZasNDl`aj3v$63O%lSfgbGsSe_tfroc{H-~yxhs%2*=~$9PbEqckaedKe`#ab
z^20+OPw~mkAmq^xqlP9vb61`BL+R)?O1~YL`>)@7-wPg{ywjYW@Sstd8s|r>2@>j-
zL~Ah!Ulmq{A+s+_2W;qU)j6W^*kvJ#O4wVp0(d61DJvIduBFt0Oz#(gN2hJUIuMiZ
z_6g0MJkwRXw5tlx$w{`=j^G_fXcxZMEu2dr5Q#L{PVV*hq~kI+G0Y5nb>Ag2Vi(#R
zR23EV`{6qtl(ToIq%GMa3bC$o>wSy10z>4ggkKzB95r&NuQ0QhQ=z|B^d7{m^6|6t
zbP#xBj4hdS$|vuZ<NWus7(-yY7Pz|xm4&nujxaV@^D@n7OtUQ=rbS_M%?SEok(Gs%
z4-W~y&GJj=2<$o}HY9eEUi!Q`5!)sj9>~G^By-JZo4N`!_zw?tA@^a+h*9trkG@Y^
z=8`?~@RtR>Hjn2(HTTu*ul282;qb)RU3>!#X3$kS^i9gHQbJt?lfP>ns+#6}@R$_;
zCkHWdy`+bWd_$&{k^8t0%aF$n30bD&!Sj&0OXgmo(G9&~q<gRyG6oSpq{aA-%*oP?
zn(;xllpfC4Mt;^1_x@V{ptwfk<eS?e1~D5e{#Zy!iBPov)39SI8X?sIsglQ%#uPE6
z?+2l5&%Tk!^wNdC6lX@nd3YyF2u!kpV#awi9^FF}o|c%Zr!E3tSki@(m+HeRZSNT_
zd^2ppgijpuQI#_~>^hg@W^FAGwHd#J-aDzCgnupRl)SO@8TDW4>C{mfZ(5&2u43yK
zvOj$`nodJr(%k^P`j|WY+l05uAJjuOC({rUjZo#YvR35<!v9``Br{lq2fh~WpfK*P
z<@7fvW05c%9{<<FUQ&31bo+wapMs-18&g0ECu4bQggO%5V<Qr!|KQ9(61DEzcH)3q
zKl@k>O%UDTdvUstO5LLG2R%=q@<aIohkLxj%Q{-oWDF=H#-{NDJzJ{TKP-5-Gfph&
zeO<{w<G$UjY(3;cji(h+T|}>Geq-P@LZuN4^w?npj4q1wtONlc21Dl^hp$0HhX-XZ
zQihU$Ooufug#6vihll08KfUW9tgb1?dC62FrC)%fe1LmmlO4kf*&>J-G-Rc;ac$MM
z`umn(MoS8#;6H<$jF4Y3q@+R|&oax{>b^_jebLv5dq#V9-}29yA!rBTDd`IK!;V&B
zDD(<ftM!c7{LXdNBTofALr=3fABE#uzq5!jc9I{ux@l)lWuoj!M>|BmEgZ2;xWkvn
z%SA<MW2b!Vu}RXM`gbiU1ZJCOi=O^|0Om9$a`;x+vaA*Zj_aT(RdT967x}M^0?G`)
zYea#b`d5g#x(+?A9mTQ9D#`B0zkJZwPL~Q^oP=X~V$9Pve*8`4{j$)!0iy;{Vt8J_
z?4Uy&0sjvov7qH2kX%6~?0$aObkbT#$<y2~P{cM$W3Ax8ir$kx*XD9rl^hj45@Td!
z{577B`YMG@YS!o#9j9??8qj_c($bFhlA8<ziVY6ym2kl)rP&R|k><yckS}KUp$HSf
zSVUQjz>)Sqt4E2Ymx3ik^|-|!m_GU|`XeZifmM@|iTo^9($aJpM;R#xQvxMWI@%%?
zZ(l0<;*ye!<`Lc><aq|Er~fR7u#uHIRmgMyk*%#Q(i3Lp$vi34s#yO2oAfae&;=;f
zK#nXQOFL2+D=`QJ#zQBYLlk^A1VHk$8u7dm_A6Gisa+1FIPR?vsHbJ>Oxx!ne(EMr
z>ELHDW%9`L4-Y82B=)_k?{B(;{C%=v&xn3!5n5s#7Ft=G;{0<GS2sQA?Ev4aoW>QB
z8+12k=>tSwfDy_^$eJa#SaSWP4Gj&uZV+z{)O_iJ&a|2(%3UCuJ$9i8u^AX8AR+W@
zK&h$>{0lSXI)2yd&`P&X3+SvUO)~l!4p-;3Opa{88=wBP4y<J8ObyD&1Np~Thp#&n
z2o_&-9J2=*ve-q$cTUlMSHvjzCl+A?tvIru08ee;)btK;{5*j--azM!-g&sx;sf~T
zorMNYAbaEhdOFtGH`#C1@o7XoEhY-&vc&yTfV8>RdW;s3i<_TE#`9$;1f8h0%aegD
z+BvXjuon9auO}Y;%o!>PN6}Ny&BIB!f9IQUhXvniigMq`Hl_RL(*C5nYgU~m;h+d_
zj;Y)Orjbh9gb<+B2VrZ+SA_xrO3JNnTuuuhdzY1$Z?4GXvn2wfZ_AU70g21dnm6n6
zYwPPk1&4S7(ihuxku3wDpc@z&*#t~y?{{I{PudmQ_Fewk+GI!qnRuBa+9mZu_0RYI
za(wRk(}+D)%gkpa<6Mw<ZzkdUqEIQE{KGI3El;M;RFP6Z-GoQV#<p7-L~|%o28Y4F
zCvyz9O2PmIYH7>@FDHaO=+W8tM2u@lqp93V=h*%${vd@uq~Y@&K`(%Gy0_gB33zwn
zv$BSJJ`z7)Yy={Z&mh)-;2l@e*H;7y$i6uidi&t+1)8O*K4RZB)x>*&uq1-rq}B?r
z&OX%{X%C3pQ|zysTXrXZH^oc~YhVVyou#$t|3>qpIwZ9XJIHQ4m|VntwWv3=WbeVv
zt(TLE%4XWq;Q_-t0tuowPr#!YlRLUB_-#JnZ^iLl>j&mE&WA=vE5p8P#SAv9LcQ37
z(>+DY8=Q)P<W6^Z3+|NgZ=wp^)S`z2MH;oJ=kWSf$NgPP9@YB>d>WCSI0hL+EDon}
zlZudaf=@;v>gn*$CSzk`|2bUBguy;Xb6V8S>9%;X1HEUr*)y5TBL^-O{@41eN$6)9
z64BQJCEU?%SHhozv8{L`quF3&&7*5K{*}tgVLh@{G0(z|X%0N_PJ>4BLY!tNlquPD
z>Yv;v`~UgL6rHG@R;EV`?eq9Iw_!nUy-CA;uXai)z>pjv0!78dch_rh-BdCTytD+O
zkVB6`9v+@wAehf~XV!1eSNbi`jHuJqfV!X0ZW?Cl_wOu5oR*i3ZP@YlX=JZPeV&HT
z`CK?09T;Hfkmq?R8Mv1pLK{bgHl)n&0#_AP3O!%G!+b#^ebH^a%F$VA#n1Om=Sb%8
zL5Ne5?oDZHu3X6Q%ItsH)MU>#w9wX@wsQ)BDsItxJ(|yUGK`FUTCjX2=sx?gLd-Z|
z=gHV~J44ZNasE#5MaN2jR@*#R)GG#|^-E7506Gi>AhhlhQMfIgo`xdy=+$EU{0KF0
z2EYB*NbI`7TxVftEi6BF4f1&H?DQ_qIvBe%vhN1HQ)AjopFx&%2(unVG~^xZ{%C1J
zeWvVf5mD=lD&l{)Fno8YTyh#H7r}c288=E?N=gYn8Id&bCjr**=d4MP$DG2{7me7=
z)YN_;Z<?#KCkMHaUP5BoG5|=P5WXcq;=A~CxBFkZ`u_PPWn)7cOWZ)%h<dS<)`6Oa
z*#pot9xSx}I{MO2T_$k$_g$PcmU9+*Aa9AfX<CgTW+jH}t2q<Q$(xzR&h@IjFu}n4
zTd%F*^sieZnR7Mfn2z&bUW1g`TmOGkS^ZPhrNd1@&<_57*FAgKc5aL?9RPLpz~G?S
z>DCDPo`~oEOI_VZ2qk^Pk|!1LQLsFF_7MnXYJo!mVRq^GQl|VlM6nYEr#6oaIpDeH
z%k3U`3CtoQht$4|prB$IxjvsK+Y<#d>$^uD7Xc~2_`5Nw*f+{jvtr~xyPjKu!5C!3
z(puxTttxT*M^nV>Flx!E--+|?A#gAJze-G~Hts*w3&M*IeUtzHC2^Pw9`v8L9*#xZ
z(#U6n9RX31U(}@q)J$tm369G!_yqH1G1qv~2PHxGG>m<Y&uXZ7G~;F8T>B+6{6Yk1
zM@tLutjUrOf!KlbTLBHX85;2DnAbR#sAdm>tey@`EJ&bGIjpp2?@X1}`qo9svHp{v
z!>Yis6Y)Ma-Jz0_N{#x=x<~xypV9vFORA;+HQINff~zM!#@z)fP$=DzT0E*U`c@th
zYX(x4Mt%<~Ls;!)=PVdINEq^_GKT2EhM9sHI^RH72e@ZAH!s*BWsw7U_9D%dg|?I#
zm1UbuB&=1oHy+u?@69`L)&3r>i~)T^8ozzY&<R2f?zAXWp<TYv#qsYF2{yO2=vleB
zYn1E6fF7ky*nd^;KVB1NJS)*pYVwv+axE)uY=LNZ(X1~}xv0;wg}-0R;1C+RLTtlC
zvr7s)8&ntkvHf@X=pya&o;`GVU??~;<Qaw39C}MCsvt;L{F^kId&L$XPEP`@+LN`j
zV^tTTe=qaD3(<dNg4T5{db@!HrrvhbjqUBkl$1Uy=T<Nf!@B@R%JoDH?WVTQr=6AW
z&1T096?*lfc4M}S4NWoZ=s)@AF&y)7RTpK4VOjY!2D*wPw?<zD@sExC?N>M2mAvhk
zry_N~!W<9pe(==94*74oXMN?eQb*t|m%(tLkfLe1>g>lqf83FPYtJyHzYnf}3}#fW
zEx9vxy>@kE!`7CT$fmV(z{q1M(P6%Dvi~>?O9Ej_wT=XRgd}3wJ>i73vnl|;jAn}_
zrl;>XW}*xMU<lzaY`^i{AqTTNPxC-PC=zVnGJw(6iTY#pLpGiRDfCpcsDl{PmZ<ai
zMk}E@-W1`*Uq|w|A50rn#m=TRl{2-)Je+`p4VeF07W)laJRNtauo*&)eO^5OTw8lP
zO$5$Gx2OcCHZ3p((0DC&@s5do1!`CSfQ!M@_x2b`yqq7*8<3xYF`?Ii(5l=j8D|EI
zY+Y(Bd^QOyjB=<1l^62t?coiEp=GO@JgJ8L2l&iZ>;smcnjxOqE*27&R#uZRNMYz^
zjB;7C$6oW2^IFfxC>qgvQwiW%2n$047G4!7bnZhc*qsWamK2~WeO;rgv?7H?nACb(
z;bLKrz<43uoP}F+2cCCVdz?Yk%_mH2myw^yzt$Z6%h+Hd<38ILej*#4{E#}&`@JTs
zsT`@2Ta-L`B#!iqyhr}?jLi+hmF70?k9JIPmBcYuYG4QsWTefeJ|LceXBOBihYtc@
zzkcl$nP$L7R)wOpe8>`p#jyztz+<F{1@x7Mz<@*zk;kmYa#TRJ4Dk5{=OvnDSjtW|
z7y2s(6+i7)U#T(=*$#RA66FIHmmkDPV@f^bdpvAnb#PGib!Qnb{Fnl^d;QSwM=6<0
zShwUfmno8qg!)OabwLJp&z|gmlD+9_XE#p3P%39Buw;U1eM)r$B2pTBPOZLInT!D!
zRU^<)A*`PWX;w+eB&cz~38OiqLLwcWw+6Db1&<Fkp5m+raODmHO}}pbd-Ml%5Bl4w
zlF{pW)98>|QTYC<MZP=E;g)_v$vO_tN2!T~6n2q%5dC<tpU3spmfU4jw}bkTL+d>z
z0sfa_u&a!f$fZI>y88U&FK0i3@t}5<F<vLIo=O4ychq)Hiv%Dzq6mxKU92y9E;s^1
zR2J}@AcUhS>;@NGna-@m(V!;!a|#Nkf_!o^p+HBv_!Zbw&OrVqN*s^{J~E%<E=-?4
z6AI<cWztxLPynID|NbxsM;e%79URy|RVf8R=CH7f;#rfKM<F_2Yqn8wgB2z53DCtN
zag-FvlCXqSAIp*@Mk(#R!mKRja<fH+2iZbiOHvuWebpAs3uC-5=)*1A>p^VdCfO{j
zf6OKDYfXVk9subG(G!4{K<zf(>|w86X*iIqW32bgkpy_l{6N$28mJXp|4hDm!o<|%
z-huz{;dY9F(@)UZBp@93P~fycM|^w<CwYGL(VstpFb|OgC{No$bVAVX>ou^BlKG^I
zXdXGX<|@9X-(@ss&G<PTwU*1l|5Sio39+rf#Nxg*1tWf!keH~b%3&U44}uT*DBElK
zXO7?DPtXHyYz!p!es2IS34jWqQbVBIZXD2&p{p&F@61H9K=larA^Gb`#F+Q1GjN*D
zi84na94&cr7IUU<G+(%S$t3z8SaQ6K`1rpHBE>2NGe>|cRmUt6WOYdjR0x1fZ08~T
zD(1l1x4B#;@=E5+^lC6oO`0kFi8jP9>}eku<mXPgV<oqzhHu-HQ8bc!4~`uW&!iXv
zhr2Xd1~}C~&nI5F0vurM`bqh#<pA>LvTD);*HAmF_TFRQGy?q%DghPMzc?LiKMNyc
zck00d8<A=(Z!9g8QUNa9vo<4)8zN+ehx}JdzMy2KqiY#1Dm<2rSbg#j_6ykpJ_SqQ
zHd}O`Qu$&xgOj(aUkAKI2=_0TT*E(q1Ob#ZNW!A{>eV`ESkR|Ra|0uK&0bFyDFW0T
z1-c*ClMO}SK<Wb^8ygRA6F5xHycSTq8S*$?$XT&wNPl45kYh`KWX(gpRxex>-}xej
zc7c6{X)kq~uZq!*#uM!Il$v2OY%th0kbNC1p3!>%0h?v>5CPn@3omcn%CHAmUV4g;
z*8f-vaTJZbmgI6J0=z+#mp7+_1-iFJBrgI4`sZLF6(I&|Z0zR#zP`4WChW!>aP{XW
zun(W=Jx1*^UWFunY|0k-4IAj8UFBbuUd5e;{W(<^&)&FhhVhMtlm;QIK!Sn`gDHY%
zY!^syP}QiS&cxN9`QtwhUg{Jwt^VD-pvy5>@oT$x8SbP`iq*FVu2y&_5hdjy@ac^L
z7qsp73JL%PyX@*F+XMW7FNPmsyBpp*dAQx;du9jnw>+TcuyJt<fov8e@s#0V<<tYj
zb2!>B%(}mRwFOZ1RVv5XOe{0FBSVHx@1UUb@-Pr&?7s;B857uzy;_~1d3q5LheeC-
z<s$4AJIdPZ?_Tog#q&_Pby=5*H=ow|s4qGg7j)Hwl9ocK>4$YC@}jnFLZ(CENM5<*
zZjhR8Laq7FgQO0KAUH1nUnb+}m-X!B&5#*z&jf@c8u3>`bPF&LzkpKKye}#r)Rz4p
zHE;Xrg0euXT@7v^fh6Fx_zkGqAMx9PTTqN`g8*d|7Eb^6?Hf^5EVw!kK>nHeWRN;0
zaUBKB`~3%3fEyqtCf1DiM2~8NaVC2rsi3MnUa`HEfyok61gc-WYgt=cLEfg=<Lu@?
zo~CIenq^~w*eYGMzLY-;e~=P2VA`w-xE&J;H6i7UkIa9WZC32iHi=`9H27c$H9>cG
zcjM`(sIcn>7Px`NYj8UT_rt~Xcevyz2p<Y?t9tL(^doM=f#qx5t9IDD$3g42&y8@c
z1)MMGaLxBDxB2-THf>+**N%a^3uLHK>1(B^pGcaKJ;7q~-+y{c0kjP-A}j7G8%Ml@
z1mX1QXgP30i5&a3w^!79%EwPK(WekWeABms{lV&n{EM1U>leTTq_F9AgIgCUs;Mc=
zdZeCZl+*yRE>3PK*i)p9tu3=UeZ7uAakUo*zSdko&JJ$nK{Giy`BGWA;#l|{K|%8g
z>w6wxe6G-b4tNbKkVPvoA7K9k_PW;yw!zj^>y->sabqFX-n-)rd}>Mb1WJmb_AZYw
z5ibfgd`O^kzRNoGF__{XNB(YJ(mhnH4lqXhccCRkECpSE!@lBzF2o#oeZxL{m;$+b
z_xq>4srBvcZS&f>3!r{W1Gdono9!2h%E}uJD}i6FY9~sf?SID9J1(HaWn{2|8=c6i
zpNgbggDqbKaw-HEd5ifF#pUjDdkXjxQ@g*+7%?)L+!H_l#8e>fGCOlfU>DZ%u}@$r
zm_w3ia)tvb3(Yg{PLJA2n&}fMDawYAkSbT8G1|~S+sR0!`;dd5Aq#zh7@rfN)Z#E|
zJ_gcS0veiw({;dFT~bT<KMIxzxH|s3;EWoVlY_5bf$IxOUY?z@57^!seO!f1&}^Y}
zTGhU;og19y==ZezKYYD)TvcngJ-*p=hcwcHut^E&6hR4LONdH`2qGXMAuT0kfg&9O
z+l`b(N-3a#gltMcK&2%FNr~@Vp7*`?z4v!Nzd!VNJe;-HUh8?DIp>&Tj5%&Y!B}6v
zQ@`5kVh|ma+S=NB!hN`cN<rXW(t96&F7BcCEc~j<M5<@(;rwj1T<N74wp9AW6zx07
zS9bB7hUu{E8oS9vK-h^@!QMXC1-qjK+`3633hnf5JqeIP!a_A(LTBsI>OL@Ux!JrO
zRgei;Bf`1bV~RqXudD)v{^wZDL*(EBWp6g1DHd~S#%dcWqh*WN2A}8MTv}6m^86~e
zzBCu8=CDDs!lIrt6oK2@3q}ZYK&Vp!ED@CUv-t^<0<y9Xfos%PXu!sK(%rJm@!;Uk
z3PQ4mp#Ktt@nFF44o+*UH}l|b0a=4zWr+XM7jyCb0k%u|FR~vJ8U4GvlGJ*pDi|B(
z)Ao?E`kf^Y?Q@cDf!0=HO`d!4yN9DEaFdE=OBejpiS<Nibd2<bDr-6)rSv3dA0XdY
zCuvJ<HUF17(FUs1IxEgDqy<X{B^tt44^;^TgpjCutwXE^sEh~_D|Vsm2k+rFISSwo
z$x#)VLj45+L>Bi~`ji8zHZT}?duvM=gLjwb_-~<{rT8Q7eM9ZI$#0)#qXkW03cxwz
z?Bvv2Y|M*z7eFfa4z#c}01u)Np8z<#?6+5^RCj(noK{|j5@82e^9cX{W*v9kxU~(@
zztu+K>n<9LjJQkp%7>TS)q_&RI2C5jy;PcOFr!jX^?OZx)yST&1FcFfcN%S+`coVq
z`p~DSzdW2}`%%k-%h$2IaZ6sGyldH6^n5Ko>;0zqv5wyJ&w?nyIepxYaUtKQxbi2f
z9k=w+YSsYaGi26c!A*JdoLW1uE+9Kmf?WPnrjif4lK0b|YdT8TCK}XO6QU6q1{Mbo
z*nmK?4IUrX%_kxKMhU5_(t}V}T>Sa4H-JLRxepZnQ1C~Z0;M|mSB=Bkm0~@fz$oCZ
zt^u}P5q22*xbHX!Q57bFW&g^%Z-5jc=wNT%7(^s$k~Ke=?vA#;fA7`Ga-rG~r2Jp^
zM4SiFX|7f4y@RFDSemZ2eF)0kYn)f=mnG~+j}ds=Ma-!7`OQ-Dsl8;&{J57<L3~;w
z8p?E;H`8sYbkG-w4z<P?596SO&~jE%8l%e8A}x7@b_~BJ!V`s|hD|qt>}>qo{wA@e
zLe1lL{L(os&x^m{CQXeAS-TW=3d8MRfP+r4S$T8#x;UGV{+TnAWp&Hn;Lyv1G#UJR
zz!70uW(Pm|74l=Ke-M)wKzKp!5&-$M)tiezC52NqReKte`dM>bLM(46a?I<M+q?x5
zqEqDtm=z$N9b#KIjD*X-IcRTppEol(dup7)4JTlKsJk({%b05OeOseg2va)aZB_T>
zw3$Q3?R$<D&G{Rd$+^qphtBRpUBhn};WXe*^6Sn~e7!gEGxr-{M3Bv1*2qVjcouy2
zBhtnS+9gUlPy7!(TI<jDn8BlW)i&9|AL1COqz$Cr5?r*3q3XU5e@p?$%e2Ho0uI<V
zI44|TH7JaE5u+fB&I1#mF`%C#S}REY*5Sl^3D{Q7D=^E!%K|bDyUEI{nUrT})cxez
znrafa`3>0c^1!-;%D%tG#|7k4&7jf!UbTLQuab==%6mxA_gVj+9FvIS;m1vkPYA94
zP&mm)o;pIZ%H7NM!S`ip3`TL;i`0vmC5|bz1do7oj9%Gf7VImdxsk^2h&Xfzo~)8q
zXFwOU19k-=yG?%(vyGj#X{ZJ4szxDfIQ^dMQw1*rsK?N~AU0Iro+K7F&h7$F6W1@V
zL_sf&0Uwcso-dHH52Rj*zyZ3p4mo9@RU_c|kpdwNpiftbq31mZMk+{v_nGNJS`>&0
zidEorD$mx#Jd<d>oAOUspGdn3%P9!q{Ct0l`TjIrn!E1H!cF9r!g)`FGDnfteMs(&
zD`z8nzh{$TUDh+*Pt|RjMXlPnvVOX`+(oPBi@v>nlArwqME7Q;i8gTQVcB?2DtQyL
z>Awp$h0a~eS;I(kAd#e+Twc2^3+E8ItXt2Zo|=(i0N+34>mss7k>D)qR~L4$p0l@}
zbNG9{2I9EzDuzMcjUXayn1)z4%=Z<Lqtc7)UtdC87a)o$mDjJu8*?p~_$u}TyxI$9
zJMgNo4sRJbsLU0qmDsfRZ5R4i+hgSRp7D>ajGcS<$>^$s=Qni*=g&$GN-Y+P7M8Z8
zv}F<Q!beyIt5bMb+X}4fyyXPY)?x>LY!8QQtv0{k4X<s?;bl3!H{WlWxj^TP;=<&O
zPn(aN$|H-%*CS_m>KVO(gkVxHnq4dUwCnZ8GQwC_G8*<KsPL*m7>=(Mg`JxT5L+!s
zkVa~Jjzfn-P*|8O96VuCp)hy=P%M(FdwWkO9tXb!EqE*mEX3maG1@FYiTYiHU-ihn
zqUB64m7eUIcRF5;e&s1Yg#J!u)PFVj^k0p{9ojOEpH1o_AH2Qmh3Az$f0WqXRA0@x
z$KY!u`1OOAx08}zuOAbaoMy?D#y@}G4$0@giGr@)KzuN10NcRhqh?dh%{azYozy4F
zei-mtnSzr}2+~tPksVI5m6uQV^!<i?$_y}^e!m>6#HIJ(TjPlYR<I;W9``5)7ZccG
zihPUmA5Cyt%k+~i0-cx8#Nh{a4PTzWd9oPlZ!{!5;ri%XZlM>!pPVIp;ST;&(3ekd
z8r?Wq1<k*rgQGEgHn#muMiyp%|2*G?03;rGzeEoeyvRd+DX9HAPWIjmo1qgiSZdz*
z0bD4ep-V9G{pQY&N47R#H>+H*pXs2jR0tyR2DgL@{~-pzzv33q+#`KXW|0@8aiHP2
zv(wb78Is$0;<fk-PXoIX_YxOzfwh(O(K(|$e4A*4a5+9k_OriiS#S<hjV6k2<5IZD
zZ^_FygeMg-6fAUBQHwY~HWnotmkBvrk~GbK5}3Irg(f{5`324ev_Ji-0tV&BasH2J
zxGKO3SLNrX9x-SWm|3WFxYdKxJR5dmK=O2>-$>yGWU%*ha*V+_sjsik!_?N`K~|Qv
z$?QDf+k9eTCApo}pawf*WaPa0bA*OdE)FVpu)%8qM0^LLon@uN>9et{@~Paz@l>iI
zZuS1SB>nsJ3Nuyc!u_+!nk)>~hW5vVpX5?%OPr=XI(Ibo7U#wyyS=*)FJ`c6;?u#D
zCQmf4ICaET!lWk4ZUy7OqjKcT!p<iXd!iD;$J<_np~sW9WcMec-Zlw5yaOVqO0Ywb
zTjph=ya4wYV6Fg%X%v@DhyuYcE0!lH4vM_&`g&D4qwkPweXC#Z{tmenv~Xp>A%Q1g
zGQyjC3+&QbW90n0%5597p$NGPA`)Sv^!Ly+y%QHVi7zR0m}-f(3f-B8;F@2{MG|b~
zG~x^-^JrxWsl}~v)+SRH&r5!5<oNfeWiTjnGZ~Ef5L!{ko&hh41Q@S<dH-JqKpLO?
zC%#artZJAo71N6x4V6b%v&ctX6A}$L<0ND6`8mo{KB=Z!{TSj~h(7`=2&#se5tkh2
zmMBU%hHpdJ!SXyIIe7*!-XG9(lG<WR{EMB84^3*rIaH%y#2SGY-v`|C$OmKWGsTsB
z-8`adD*1S8PqWEqQoSE~uG2}MB*fjA*Ay$B&dIIqD&*=HE#8{P+13;Y^yy4yF?HwV
zc?9I3+X`OfOBSu>XvO6NG!Bbj|CdDXJJ*BrW<zy(xX`&&Cn*etGr742wx6oa>_+IB
zV<~{;1ELO%CK2I>ci>+h*MiZA;S-rcrb_^kv@}CM2#hKaDWS3Y&M~lR5q|@f-DdFS
zhzpBHCT>c9f&3)RHYZE)F0=g4^mns3fn3xf5zl-1^=FYCmjpjP{;A2@O00Vk$7K}z
zq^VY5RFMtcQz%{in@))Qv5bk(OU=|?JaOi)iqhoW5R}!$jvfJ$4{*9*lZLTuLxN3>
zNzT?L&BdMJeYjV)8XvWtxehNn#p{@JteQ=I*x|o#!V|W4L(a$%9yS6#KD(Apk`J`B
zHR!$Wf-MmOZK#&rjf=x!-`%6u@Ctl?;r*FOo5{?68EQQ1sj#NNic;l<>lPQ?j-|G)
zG}*_y2xg&QL=0uV;ijp-`^T2F$&2c?feMz=Zds?m;|ljheKnKDY|GrTUkiKcZLYTM
zMnBz~#;Z?oVnmMXTtqMx#?|C}$-Qzkxd~f4KQ1zsb5)H+QZ+m2+P#m-wV!TOvkx!Z
zPXtW5jrl(zABxq{t{hzw>V}>V1&s}9KBwH(CRh^lH})a^LZp5+l*FWEN15%pY>4AC
zbIj$%Y!i+&7PmZR<}%QA=E-^*U?<9*dgn*xD|s>z(IH31=w_jWex++z)vHc^Up74m
zB7LW;?i6hwc73eAVw!s87-nuJ*{0i(k{=)m9nB8%!F)H35W}hd$5&x>zhtKKKCjQv
z5g#;{a_3qLAq&Son1lO6;_|DSEI&VKh@G!Fty|XS2$nuqzavgxyar$^xXK!a!S8#L
z!V9k{ZQVq6E#FtQQOYs8*3h^vf4j*E@Y$BN*y&FXbwA$S-p$u-ku|rtO(4b^%h{<f
z>&5$2VA-W>QCE$Ai63h(@u|2bDcx?#bM9lAsB_5aS31t2Lf_LFi?})q$)ZK*Yan2v
zKO5TN`}fRoANnM4p<Xe;R^$_wH16+SFOHpXv_4{{*}*?BJeWrpO;n^qRbGzj#P*D+
z3I(j3=3z3A8gZWii022Oaej57kT8t}EtdY6t?MLb1JG0oUI1cV1*P6R)Jqp^L*&zo
zPFx!l2mhuPr1J{6&=Wb=2j!y}Hzt+rKl!dWs||fB?d!xg<Tm1YXO$ORr^lH=8zekC
z(_oUkPJaIS1|zPeI6?IJ{nSK~Je?h6ePE~8u=5|2BF?qF$ZLAp)X3*2xA&zi;Cj(1
z+_hStbF*Ac3LfVelc|o4h}P2w9Q}|d{Z5p#=b}*|ZNu!^y)*x=8;y9FQng%f^G(mr
zvZ)>eGfHeA6lSOO^j-q+4zz+!$XWFQ0u+&46pB*Bd@hkoAsJX5JGG_x!XHS5^K={5
zpEB|OGHTyw#vSK$vum&uq4*Lxxvdl(_V-3vel~r)ZFd=cA|Y>+fB2@X>TB(d-9sD;
z{-hZ$sQUNo*zZ@XuPD=>rX9R*;)K`x#n=B@eg6&>FVp`PM5W#@)-(m=-8T3a>5UsV
zQpW@!?SzMoavQ+60!I8qHSmShsG!@6BbvN+B_}3`%>(Nm>_$xIc4+MpSNB>DQl}Ok
z8h_tctL}+^@Y|oi!?+CM3%PCLnUVrGNhKGlLgKsVA4EAV^yN*3Ik!iu({ga+Ir6d7
z%2(4Ftz>k+ynR3X3H$Kb+>hXg!Ny9X3)lV^)#3aWr3Li39l^~YoJxEAUx=JX)qr0X
z7|oeo0n=7(lL*a}cYs8nF)$$JJ8|MZcv_nMzL#I*{oA=Dww7!ExLbgd#wKxpgeO*X
zqZ3PddIinOxmb=mkVz+Hh$oz3Y8m>W41Tv_opG;}7dZEiuPV4DGR4M*8=F|qWReqF
z6$cghUeQ<3DRXry2sO_ZOl@iPidYRe8aBOFomS1+^A+et;u%tm%++>7qvQ<KR?u-z
z?L3)Y1m%VnA~pkWwh~++oI>^WbUI*yl?*O^t8fn1iLVS-3PQW!_s^03ci93sr@Vs>
zw}SZN^>^?i44%)oOf@Rx%vR@Vt@K`AqmuJU9}=O_jzI4EG2C^Oh^r2GPDE&*%a1g4
zNu1`yB#fM~`j&R%Xsqx__D#yYKyJA>lY*gWI@Ftp4La$hNXgRN1l~{{#_iqBB?GV?
zB~rY#DGqx`0g7ZvXDN99sUIP<bfk*aOh38|wpjddPDllGRNUI~KpZFGf9nMQgH8ZE
zgTGi}Ke-dd<i(3Aoxg|4lc}QfB|ng!5e(0W2qPXBc}rFc_nH3<dAgtcSO-QAj^S@*
zyjyG{o2;%pQ1rU@fE+zy=5*28Z05YM$%N%e)(w-n$Pk7@OqBTPLL-Sn>B0rcNgfL7
z_1$(R`Cb5*OKK_MU>if~2Pj=7>sPhG{Z7-#>1k)}*@wb?P)|WEC2lJnnaZ8&qd{sO
zJmq7?7(4vn=Gr;+RhCtrRaHC=N47^jOhZHNp+i~#UsexRtQq}HK4KO*<z#&GZ{y+(
zpNQAhWRElJ+NV*;!#x*phCg0>4)4Ui<~(BZI^B(JT!c+IltLWc;CtySgZb)5tu}Rp
zj)SL#4CBw%%5fo~!r{l%;W(TK^k1GR-f)QKI*!jPz=`xKJBCWH$}oH%?ca;39og5I
ztf+KHdA<D=s+=9G&#Jwh1I-Vw=>&&yXZr$ayB}$vZ%DjRqm&P5zhP!!8hYQ+$&`I)
zgf4h$M%5mdSZLUU-B{8k^qBF+$=Xcl2uZT2k>hBlj}eB2Je-M2O-77O6r+~1aMTU0
z??T}QqbRPz)<ys@*et4Lhu~C|z(UHbHEC)Vzeh<B{4^V`vU*WRgqtNGh<LltHBcN+
zp6kPXoKl+-`x<$Nc`uk3Z|W6SaE;xFCx3iJ`TDKn6==|ybW=bi){DqGJ*bCeS5;no
zwZx6H!-iN98~TZamU3S;?B*;$du4~JKW20-#re*7oJ*>uV5!tUS)@Zxj&zcAUQe0x
zEr5UA6@bH#tweKlE~vBeKlnip$>QC<$>Ayb&rUknarCxT6>lH$qN(6Q|CT*BlGEZr
z1WgDN?(!pm2_cP;U~rxSHku4Lb7cp7qXZ{GgNch2^!j3hArvewO373LN*7+$aBSyB
zIcn(JUpUDXttE2AE&S5#<o(o^$<O;u*Uv3}TMg!3vT51r%ooB;ZW3(RYe>3{Z)-5w
ze>{^m{5c>lC4M1jtM=Eaqa^9<<N@!lUX5-KWJSJA?&`vegE5~TEZF&a)c?{=mvhxl
zV8yUaZ%u^Ff~pqUO!1`DtQB_6k&z*gNkijr&8Xz`<Q*NgH7oKibW7)(jJh%^2@?)u
z&s>k99Qilb>Bs1-VmiX{cNqjs%&Qi4fS3kWtP+Ta1o$l@R<}qe1=^|EfB|D%AL2M3
zO)42&&`UM--BgYCqb*1p^0In)|LDqk=H@M$G`r^sg+C&clv7IQ)ny$-_iix{XPs|p
z)1bX1gQ0lc?D~B@d_t5)N4{+A4bnJoIfMXqeWC$K=T`xvKml!Y!H%C_?)sM$ux$?A
z-?;D?zK62GfQa%!<@KY{=0=Biu0{8suU^DUQ_EL;#X4quX*z;aWW!xL0`KX<c-awZ
zHpyeqyH6Fn0H#USDDZtmdeIQWnV?}II!z&vYi6NUBr}{`+ZOnlWbTx`*T)f6J0gs<
z`Ikd(wt!L1Fxm4haw=&FWtW}m(@mmz^a?^b9_%06`vG;+Olj5EZ}3cjI)->}^@6P~
z-UCWB67F)zjbtfifiuo1f8tK;ckvaS(|0@ao|aMRMVL$qLoV(hI0uQ0jbGh4B#(w8
z`6V9(sWeb%mK*+f3_id3E{;(UUv?uuxL)GJ567A&(<YYyI)NwHf;#nS`;f$y4D&!4
z?8v!(Q6(mS`BgdwTaF~A=AYm%IFlF4^9{P!Gv5-Vu7LaM@0E$1loV#3pt(G}2RMC`
zumsK=>zKVfX)#Gpu<Z$;itQAQeNc-@3qQ=wCZXonaYo8Sa14>`1cJ!bvFa1B)XfPP
ztcQ@=^ck|+Z^|#CbM_MB1FtL0sI}V1vn-Z%`<nfFmenLlWtw5&piP>K^ls*U&-Z)i
zxo2sFsjt+p(*bWRr1=FLoxi$dd;WU3W1ax!1T72i)k&?|n@g7}+<_zm#wBcEXAQ=u
z)l)HC!2`OC6l)R8cKBZn91D~)(_gtIlOFKido+DuPQh4>AN3PZQ_D(AOLORSbaYhm
zTSyrVftHO$$!mnKL5<4z6!Ynd*m@23=pz^2schH#ln<|H`>f+mf!AR9aAl7#Tj3h5
z*y_`d@B4+1?4;|eS<jB_1$PtqKlvni_LB0deyIBFqB7B;lqd1#?ML{$rNQ3w^24-*
z+k1D{sZUa0<c@q(zUp7DFxZUVqfB3(nmE>+JU-JH_AveZXivP|A9q)<iAHLsj~@$T
z1Lch#uJJ>XMha^@i9<F9V8~T?UuZY>W#Aov$1&pI_;%~7V{1GM!VFZu{v0P@VfHEJ
zkYl|HEtMBzzS+V<*e@yWY=}wh7T57(qZzvMpC)gdZbOn`#owT<v73KUtF&`LlF(T`
zdo!zS@#uJPitM5CsoS=kUN4r;p4<P<e0((XJ*)XIsRdUowri1a=QeiXTfo57yRn)O
z6+dsEXT<dkjLnaYGQ6MPyw2(5(!V~b^{qSG*)O{1r^<}al@{Y@pOXjf%`e1?ZO)E$
zD;fs2cII3bEDdhhU60%;+E35FrtH$K@@{^+|HtVcjKDqRIh>D3US{GW^fl8hW|YqU
zTzJ`<ETJm4;&S@t%{Muhn9^*5=7kXdX2@$k0R3_9b0KwZnL*XpATh-77`7`v&>ZPC
z_U-{i`bGR@acI-DLjnPZT@TdMw$g`CU3)E$L62s*nUu{+6FS#vvM%RdA4KwJMiG@p
z@P@NRgkggQ%;?q0WAgR&Qsm-IlIHPzI`{A%LwAOUEy1QNLBiPB*#8;VwEO?f{1My$
zyJvX9pGz)CiL)B)a7poz8`3|KUJ<vTs|zo3MGO_exVUIscwxDWniuaE#KrwKA$cF8
zvTGukP@EY`+!h;UGVvj@wnmG1ZlvFt>+!WwQgch2J@%`0W;c&KJNM*VnA=>E?;0Iz
za=T0D*F@2tD4WZ%gKaDL*U4XX+X-KE8pD2z)#q;cgw^i#26y?V_sNe735f$Eww88f
zW+mrM+v?`amiwg~;z&$DtW)4{fwG={|IZc}k0?RFP(%Ea!7=R@;Jtkn_NUZ$=L8Y|
zjR7N8!0v(Jg|Ktvu9{e~Lvm@3m@NW0OuT@WcK!U+n|BMIIC3HPuk}x$Gu>Nc#08HW
z>s|+Dr?OBhflc@sa9(->oB(1nn$;OS#_S&`7m=eaE<CFYHg}bu62FYlOWe9ZbUUKb
z<atSp1Ew%4mZ9Y?Lgjl5e%H(;q^Ur3?JLj&`@*Er5NI-kN2=JHF^9?k7L&D`8WDK;
zSDgVX)oIMo&jI^Nw~C~sbN!Nn3=i@4yS*g-ChV3MY2`>H+m^Wd83{Ol_KfGKGLnT@
z5>3kPU^9(v>!zG0wR4Le#nPQM6kx#f;2QSS29YW`fow^Y*06eM(-QBL%e8>ciP67x
zF6JI9(dsRHOvj&#jEOm7z`8QbR(+zfTzwlXV4-5*;tAchM*!v?0U`$^sVxu4_TwOw
z+vfZ=IENt%U=-HnH)MUGLLKaF0n;+ByY=c{q|i&Rt~P5N{GzWKMVx8j8_U830`)&X
zWy|W<^r5_X56}JW4mL`qG0#ndR%`r2Bxh}RC!g6#FD`(}$L-`+S@1>k9(G4DBJ$m7
zyi?cfq8W(Z*$z>LA$)y+H-$JjI7mAIWR3Xf^dRpou{roEP~xU$ZO8}nbl*vHbY|Le
z8!M&f#o%v|`n^>l3Qpt<c9er8rJZ!~JYm)EZMf^g(b;a?Cn;2ezuRYxh+XwVt<J05
z_~h?)xoVhu1avh|HQR>Q$0=>XN}k37e}4%scZ_n99WD`mQq#1)-qH6nT3&ThrL9Eu
z22(2VgtK8sCjhH;71FTJ(E0}GGV7nHsaDQ&dgJHFL&#YW_ib>+*7$j|&Y*7uvA2ie
z8?f}Cujw+`6oEo4vVqK1IeZex^3IUV0Rf#j9L~`<o)g^=dM>_IzK4-8JB2WGP>Qjf
zv@0l<+KZ|bW8s`yA|#gKLF`M_J^o{lsrcPkfu*}Q4fcdHK+FCf!{uRzP;LNU1skIq
z;N9B~CK{jV`7lFtW){Z&b`6!!pPY!`<Ssw6nbdymqMBL7%&tJ^ORVcT7wrDWMmgao
zhnTQ2x|;H4OoyUJyN%hsuD+uCDJw)hlx8<g@%@YBnoyH)6MBA%A02qzAc0{pZ?|kf
zrOqGIq4k4UhzvP^wl&f(y<qLf0{uue5YX5I6-4!LZ(ZE7A{;Ta@-vNQ5D)=`OaJUy
zd*HqPtJ5O`ZvB$dZrq@CK!`;iZ#M?Ld54@ZJ2ysw4gpPCdSLB&UsMOq1Dv$618#n!
zM%pP_$_pP?{<H;q68figSv1@+3zWZZHOaH6WHRKZuMYXO*n-15*oko?gD#M+7!2S5
zZ`ydUwY2c-k9rwA$uWsF(<LyPv6{HwUkd(}B8VQ4m*O3!tl_e6*Nq#cFghf;oT&e_
zmdC6Yf5eLvLovv5_4JhK<H9Bpt3UY~NmNIZyp)T_EobW|n9L^UpJtp~CY6-=x+SxD
zEuq7~Euq87`@%^BGRh<J!yp@C2McacPY4SO#~@HKIZr@1m{;BdWd#t@pTLj`!0(;G
z`Vo3z)xJUqt`mj;YbV`50Jif1T$g|h4oD&E^OvJb&o5VXOBvU4Z>Yo%E+SUi|2Voe
zIZDuDBa?9VR}XYpu7)s~*FVd5-Nwa!<jq}<?J3`$f~J{{x%F{OKD0bZ3-<1yd{Ns9
z70qe9;T_*3IHT6&W!>HA{a?kt-NK)y=ZR`JQQJffXh;pD*~mU>%|o9r#hzwb@<>)=
zN|g!j8unLMJ%YJMvdXr=x#Xo@25R?ni!tmE8MHhA)Eo<5|5OiEJ*s|V@G>&-0i4M1
zZEpvFp)kAwI<N^p4s%5KAV>FAvHUBHe`b>UVQy~Dp%Xz@pdW2@|6NcDa5NCx$<DQ5
zOFy=t1%l|^KbQWI#MC>IFe15<#T)w!?$K1gKW_ZI+RJoU!Rc4MAH!sM-##qMM$JC1
z^*>S5^iKFl)q?VcIs7GedPi&8-BL;{2K=(z2rdbEFUpVPlYPcs)S@>Te(SD|i8DR>
zM6EIZ0SFNa3wPxuUNjdrxiGV8PDC!~Z{<~f?Z3^<Jz&&*5fdGOi(n?pxiodD?kvUB
zAh0djWv>`E2ZK9yuOFg{VBqDot*8fM%V5xUAPKX1pCOc)Zd$TdAODw5W=L|Va<I&L
zvE&MA6b_4(yF8G{U2yZ>mVfp_{A6@uh4dBcn;dlu1CFgVKJ{S89W^qphGrEANSR$n
zd~NSaFy^N#Cu49SWU2PQm7`zh?#;<DxYjpPn`7LVO;lgSQzdVl5H>M(4%H?toFUdT
zQ0ybceY=w^UQC@ixc@FKiotmh-~mL#5zS@;lp-2P^qvBH_tmwb?xjrt&P#u=La~Fh
zh!D}6F@=sz5+@6*l(&;UP`8G@Hyk;B&IvX<>H0t8fuN@F1RwMc-_VRtZD1rf50tLg
zJX9AhKg-)MwQn31J@cFQYUCDaV3ix^p?rqYQ&*iuWdm{6-OYK^-DGWo2^j7v%E(7E
zoa01MW5?UuzctL<r_UndAyOxO111NY7*>lbdAK0#g<Ln4Pn#8490OS%^^cQSw3%N5
zJrVl9-O#zdUABnuV}Zk&@~8PFfDnhzklX)16e#O^adL=shTrGkED4e*A6&+Ev?fJb
z`H2#Nb1c8ZaLThvIPzLvSI$yx{6NklhEUV&o&>j@8iA;C=lt5KaVWMQ(UxYKhDCGQ
zNqtJQC8a5u)6&bQdRSM$bsU5?h7ZBO02<z)NZ~(zyx8(AJp^9!9`b3NnDKwplD&YD
z@K=H|b)Mz|b0u*#4NDZ7<(}K+%2PAM^u&kSq<Lhh46HLGlF%c(O#e!cWv}5##iQ!i
zJx+N+?Hih;dEMlL-){3UYZ?&d0))-TQq~t82ozz!52dE3e+;%3+9bGe{mUP_yRU4x
zndi>^(``$D0+T)*-Z)a1BfSY^`bxTj=Q%Jp1Cq20^wVKSE0~Y`ZYnH@G<L-H<;OH-
z;Ow)-&YYrkAaOgkG;j9uLlN9mlNX&Ie_&ghCs{oav$4}=jXdu8*V}D-Z#Ai+H}ZlV
zNbn5<4rWiq7*i>Q{*j!K@aK@^HyrF<`x>+;LC33Z2&079Wt=F0)g!re17VL!RE>Rm
z(RBjk06~Z?I+R);y1RvigrcEH1ToPk1djvCP{^+Wg1GX+jb(4g2B`&6AL5ClU!(9G
zDok@L8K8i36S1{Eu0#8ZCG}EWXIkTtv;+*whSElhG*42q_0EGmzkFz~9Vk~Lc$Llu
zc8cT?GM)xv5aLROs6P>+<3ytd7z9gfRf2J6pWpZr0q!z#39zh@I)5q955n*oS-Yn2
z_yczNhh)BF;<)0j5}X&q!YRT-$MLlC+a!5W3_|Nb6Cg<6G9i8IPn2ZB(qh}TqJ>i}
z-jYInH;MkZ&l-g^<)Ro!J2Dylc7MAH2qqlI_vC2gAk!6~gm17Lf%qOU^TZ`!F3&sZ
zgkUgGcny6cPlRdUhp%0`dn@G*cN&qZN0&djN69b<>Esiwj_cIC)^=XbCbmI;+q+fk
zOLYt1=qP?IZuZi*zn|5z1s^s5GdozNY^;i|%Nw2Qmn-KIs{c*iOFMUmGmMka=tX+l
zq&NZ$FSN(WY0Cay_a0pL*-u<;beNLFEtUYb9J0Jk^bzcdvO8^i$2C>V=r^XD${SRm
zrw89hBv!^n=PgjX5k#NOHuyf|OuaxwLjfP~9iS2&@S3$@mq0B)4X)HbfV=nmazQkg
zm`TWtOoRx5`we}^l_g>_(1Do{wqjK<p_cqQv_MtH=AXjlM_$8Pw`yql@o)VKuQG_h
zw&nSKmv40q5p&E)2)=a*9w*eXy3XBkwGftefUd|63R&R)+Cw6C6nw~$$x(o~ILJKN
zh9nOeKLyZ}!`}9<1NSN~#RSYxWp<XRTJ$z)4oO}ETJjWW9w)J_AhLp8yt5cQ=9@-w
zA9^n3vi7!X6n_C##7IPN@r76?g3ub~Fw+KkoshKD=zgN6rgj8E=GcvP?nGXVY^WVp
zfej;T-$D|!`E$PfB$e?SqEiuO1i^_rxC0;7iKFTy0}|!3t3<u;6=GSm33l*llIPG{
z`L$mof@*&Wvn<Oje`F#|_i`UG;bj5DFpl%=P?n9~#)75r_!Okp?@O@jpfU|yEUmJH
z=2lMVt|%bvGeCG34bhvrY-*x~YioMkWEjjEg{~&sMsM?iwZ3-BU900HqaemwL0_@s
zT$Ko=)+X9JH-#%(e!8<lfJgayP1epcWcYf^3ys8xQgZtdUa~qPx4_UV=2a#X{8TAo
z3`k~(P$rPUYETm(J<V<48zNK-pa2vCjoE#?cEI*J%jvgh8oeZ?kn64V{uFZ&3-PmF
z5)3xKPEqqmM!^D$n8E!nIN5Y%@<hjzSnHcRO#*g)l%rQQ^TW<b!4bOho~EL>&ep{^
z_Mt4MN)2u;QiePq(xuZdD+k=wreLZ|E-)jIbQ2^FFs$L$=Fh1PvGS+zm&ha=xS5@o
z<IVG8li1=N-KNEDr>A+I5e7-7$4u9bIP*t&0SX?ugljQG`Gxm{=a{guYwR4I3&%W8
zTk_q__a$r?QSf8j00E&ns(24+>Vx|yVrKY2$e`D6NM#O6%zjXh0DHS;`&+`r*KVm{
zoKEAk^F7~oj`Y$M&y*~I!T^<`#2^og0GXo!w61n&q#}d60%4OY25(EFAbmxMnvl8u
zf>O30=4dp^E6)v^5aF_$9^&rD1kai0s;nyD*;+>f$|_;CWq<G!h?_<~3{P&NKG%79
zsw&@bG-5Hlp@}Y6QkplF!&!TS%s14U=GCgPX%vIj6`=Wpgee1=PyidRx60ENQItbj
zLjC6A8+Q(vICll6P$78?!lXj@7|@^l)1cMPll!~QpEg--?vD@jgV{PVkA=<k^244s
zm7ajz?Q4y|y6@ZD*~C48ypAltoRG~Yo|ieF)1lslOSJ7>4gO3^Zx+0$Mb#)fMp7RW
z6ekhIFfBB6hwn9UHMjW@Dyu*Ke?Gp%Ek34;LT}||554DHtSdkpyW*AuKAvIFr<hX7
z30|YTaU<HA3Gq=sm#zA-K5!iwIt1hZIJEz9|2DDy2E4!Fh7c8C!@6uNJWytO-2Y_2
zYja)3J&oK&<F;&$R#roUN+W}IKwcLI7D>pPBT3!Ayt)J39~sxr$AIu`0M7nn9urmN
z!A<7FGG<}7B{b#mlZ#@SI<1hP{LYuAkSDf`Ko0q@4;OXreI%bjWx)mu0^3LJ!<=2t
z?|#x1omX|A_wPciX@UY1`O$_SN29#wpwR{C6CzCq&;yaClhO11{3}gI${3510skbW
z*Wuo&`}=>iK76Ivbf0(){F9DnT{)K$SS9kI@<S%NS^4&zhJ{WKZt9Vcdi{AB(!6MI
zCTzy)#j+rL$U4ETj^4P-OBqaJs9XD;k{_d6c0}tKZEBVZ-GGEA3M0E9JduOpwT$Fs
zAIuZ1V6&u?Ti+K2TG|-!_|F6ftHL@2H53{FP##~0@lFOXtB9QL=<4{L#jkf~znFLo
z-+b3xVsFfRbdDr!occ+5$u2fXDOnIEGn&kl1p*>A)hX3@42D+$Iu2m%-mtiq|0IW*
zEirGh+*2?bXElo)xRG1xNhc9S;q9G8A#gn02q*W&#Ux~6Z&l8bcA=)L9Je^gK=m>s
z{m+3f6iTW8LzQ03`L=A%Px_?Av`4nGU&r@K5L6npnf<qdJ~*}_JMG$ruF4h*XCTkr
z5=SxvSziM#xkdV`J7EzU$K{>tpT0TKnj32!!xO3$G(0^w_4sy;&3q#YS~1hxRyY3a
zobOO)!7i`rLZcdZuq^78BHHAe*nn6y)bQ<|<yY(2i^eVyq-`%0gJmWGzOKHvs6(5Y
zfcZe;##}F?d13FtgIC0<?$fv+CSpS(rr<CPq}KON#nPPsBn8%})xxo$#b?FY4$zKj
zeN=w&Wt(Hn4en0O2a?-NrBUSQ+OqY5Wpc%93FNxx#eR@fzP@>ct08uH_3itpm3M|@
zUus@^d0cM}b@AqUnB5=$+ehMTkL&3x-K2Atm|aIIesmWs41<Xe_p+>imAzH(c*)4(
zO~X#)uItzAGv@k7gd&x4j7qUX;DEZiOCc7zHjFeD`IyLZvM*enF@Fx^+Oc<<60qDx
z;!R<&v}+qQAiSHM`Cl_D4Dkzh1lL7@aIOorg8Ryc6#V6(_2XauPqn?s-9PikH}hR2
zHGTSxjN7Ald^E;`k~XUwt*h*N_E}83x2`Hp6kM#z9oam8{I`go_T2{z8?TigvBvOx
zX_mi+Id-3^z)m|Z-1$Ex`<L&H+<$hF5&W~<u3_)zHAZ+%9uMCApuoZ&rw=_1wWdc%
zG8`xKk)#df$-e$FylT&1Sq0w&M~(-ER8&qfio$TVJIfKqvN>J3vNrBN0aIeEE4r~<
z7{GMld}b3j{`Wu#)#3*+(b0^otQPJytq!6)1`fBMdF>ii<cPn~mu+?MkY;&V^Hk~y
zE5#CxpE8?dhX(0vXn5u)FAwU>(a0+r(O1UNgA&oBPZm#=it*LU5*BEt9!DtEZi|96
zt%T5%CNOG|0%k?}k_(J0{cXW21d%|t-DT#Se3`r#CY7bBxaK6JAUGcq-7&a-M839_
z#18Lie4jp;(#oYvfy9PHQgdS$QUlGD|6c_>h$16MA>Fq<cb7+vf|gby=tI10yJqM2
z@D4A_{Smj_jin3Q(R~?-LO#|wpR9D0FSmOm8%g1Z5wudH=D`ic^*iZ=k9@C6sq~f5
zX7)>(56iQ)DNd`?;#<@SaRD0a>;A+(M7(t38#Jp7_}_#99OG-Q?d4U-4&CrRO~>pS
zPE63GG7hv>74I;a#|3j?l&Xs>_iP)~k{GnN$Dq-Gm>eU%yKqthlv`tG4dfP(OMQpI
zm$Pq1Jqm!23BtijsG;7tkF)@j{d;4KQlwEj+0})C$JR4)wAz>PqPsU=cV!a~<|IuL
zuCQdjDAZc^bnCEk`+51Yv;Kg$laU{pL4CU^CBNHAaMg;Q#cJU!&G-|w8Z=JJnlUW!
z5d0}MRQ(a|%8|EP_6!S>c64sOs=On2FggcMPVgozWPyBppcR}AP>`R;#+RyiO`>3?
z?EmHY`arC_{>6)oMcX1ToL^!3(X|7~t~BK;Qtt-xKdy>fuhWlecZ<>J57eStR3bjc
z8qYvNXMo0<Po15lS!Gu*C3n`_$VQp7xruq*S)qe;NPs;Nj5+@(^!E72?sE;i^kiHJ
zV$rte_vSciMS;!w4-5N;`=e=^%%2$q4xb65)Ofv3vm#A1nrn&I=$hwGdF_Tc>d8h~
z|G4Cdc_n{U_--+iwwW>PB^nL16j3?qN-pcdxv|)T*xEc>+DuRJhky6d`6Z&Ff--~G
zCPUAr8`Pqc@x-q`r8P2|$JG~l8bb&WU~s)+E{J)~Eqz|%Wllt9DMrN4BLNea?a%zY
z5qBrrO~q6$%61t(^H`Z%C>?)Pk6GR78jPfaVZ5zHAXa#a&#=hk9w?mBCwTew>>M!H
z-Wbkq@@)FvpaCFKT>2Su8<cXcZp-=&es2{#yHa=zM#Ya~m3CDf$!X(qufQGEX}zWN
z`byrrCoQKzVPv5>9-B8fkUN0BCG1ol{m{5651{jq;i03+V`RmwIKD^Ymj*PF81ggm
z*L4ZN@LZNLbnENG;Kyun9<<jIcQO(Kd0#*}?qG$g%G2dSDmQ&!iVc&XQeXrDUK?wB
zms8qN4sXHVB+>NA?A>uY_=!E^{-y`HMYxOsnen39RVDxVP9xIMP<iLK*MD+R*>hVj
z8eNoJy`Fay<U!`6nr6U}iA$jFebv>2)hc$xdC;w6{lBa4iL1she5v5@Gu5E>>zCrK
zf-9?jj_@}LsgX4q!WCnU<%1dczmO)9TX3wen{0F&;T9iS0k1<l<;j(Z)nvDC9<RkU
zh`mF-7Cu*zt{LNoG9{w_q<^Qneg3s_$#TfdReu-Jtg^?wx-~B-r;^;b;;1awBgm7s
z*oZpA!?rh>pW$MM^upP{GY{=-f_|6ZEq|nm<omvJQ-<bZJntqu{@S(}BxzU7gb9vk
z$dG~AyfW>YI#TixR7@kAY@$&I2~_8@_RWmw@~&IIENYP?DNQMVx5H6UPC9JNYU_e0
z|FjjzJIN#vhdcyGy+HUw0`EW_$wr|xOZx<NFRWJ7Q3bl(>DTMGDvLBv5$+A~5=#V!
zA-#F|zEa$m=)==2*Vme@o4n0Fuedsf@?i{y$bU(|f6jMGC(HXZz#LL?=}HyeE~S8C
zw?+bEnObLH^rW2Q&tS~zxw3-a7rTAb4(@Q+8T*HM+)~cWB%+<!UMxP6--f>#fdfQZ
z_WBn-Z4H5lx&kwyzLR%vg&=hj#c%nW$V%KD=7zeQ!f9_=?JM;CFJsinl7H%)YA
zuPAceV<pXb7M{JJtU!rHC~KyyoC8ufe^m~f^B9cuQ=$%zqS7SFB>zb)5aJ&XOVaGP
zSz<}u3S>y|CUZo)*qzH|rFA7bRXm&wuZwnNzi?@;p>^}7a79n)`ZwHbyLTY&woU8*
z)5}d==WdL2;GTd^pjn+J0UA8*enTubbr#3#6p*3KPh7I6Kr&tkxunO|t%YaBpl`fX
zIsK2$?8~&<yDzWtwb#zvq*!8mb3D{kl`H#;rfx}MOVZ7h#d|^>FD%nwBK0ek8<G6C
zHn*3Xv?&^Wf^AZeUMcTofyi$Erbd&9;;XrhmGzNYxbg^F>{;_%v<VlM_`SY@D!dRP
z(WmMJj$C2XI9*L0EQsfg+FuzJ*CWz9bZ$G+Yqz*H%3H^!<GzsQk0B#1LESM05X~?4
zxOBxE0#L?Dr1f-k2*8YLkZ2xZVKLu53zYWBm6gMyscG6i$pLBOlLbpdy`Pk=1#2Bv
zW<@V8zqO6XIHj$a>-zI<!uNSriK}z#FF`;52?oVNe;>wI!&p1fe)VKSBYw;=wluP*
zxjf&p$#u;3D(bM&A2f8GXEsUGxfW~9_K+Z^Gu>y%Flb?vXwv!9g@5+AxywRVtk?3W
z%ux~g?ohH~jhGK%yX9{I`;ix5FlU9n9L(Wix$FUU42KV@nb}Eei~8SxCAnS@Q^X~B
zER+6=3g?X2r?g+!lkoK6Q@CsvHWUDmv#GzROBn>DQ|4vcTrW>uhBDR}#@E6y&1k3`
zKuEIJeqCW1nB~Y|DTI}FE=T<n%;RlE=AAAM4u}tgl6$FCd`jb`Q%&F;X)$QW-YAV`
zW)<L#Uf@KWM+odi6u6Mr>D^_grgt8l=$l-nWw=>+qGLjcVUV#!ip-Q-<D_NWLWwR(
zKFF$KM%;_w**9ox+Yq>`xaGcUu<@cEZ*QjDB+Q+XP2AzZIaF)}-{OQE_m}$No)4&%
zbb;8f2-Ju6B?S6`G3RMu820PeuPzum&7&4n0iDMDf|8F{6{QOF?SJG;vP%&w1cp@~
zHKSQP+jPIgUk%R?I7%gF3aAQ2fZs~&PpOW|+htTwFNZ~R6}HJhkmt~PW{}8dt|$Fx
z@^V($Et_K3>>)}<KD;&GLhWMNcNh;o4IF*+<oCN8GvGfk1-L{pwm`Q*V~R<H^A^UA
z%wn=%Glh<Z_^bR3uO@B7g{1>1)C5q7t`tgS^eRkct{I;Jhnf1_g_3%x>j6n%3P;8j
zK)+@Ua9-Kay>0z#p3!mu$&!JdfXaqR)`VWC8_f+1r@Rz_&tQUm-Z|U2IbxSa9a^sG
zvlN77(j?o+%pCKfhRmGiUD+Sp7JfKy|9A7w=j!An9w_<U!91`TM4b;M`+1FM^I_}I
zlLf8y5W6yA`aYdr{LNoUfF@PIU|}%1iUM&8^d7nZHH4u|JsQUiPo0h(>r2{De@YZ$
za{K68n!VAgST=}>4l=1W>bJnbWO(VO2hbWLok1d62o?}9Axqhd7^}QWe(!1*J$jIM
ze02|1$lQo#<5=M$GA?k-n22E(fL0Zw6K7W}@sj??nONQRX77e{0Z$RDRR1mteU9d5
z@I^LNesD+0l23K%MUSR0mQ0!r3q@;T3}nqa@wg+hP1(y0N}IllO2nL9q7ywB9ib99
zSdnq6@axUmxwN=huArnADHMw@9nQJFk$8i!6FhPB5^Oh0a6xc|>C-TKU9uCXIGrFA
zE5Vr;Zga8I1}DVxD7DScEssxaqVB@M>c@OVef)BSFcKIBE?HiSd&~QI_Irax3grTf
z(4D9`@)@;YRV*C4XISCk(~-GL`Mi$rP%+cGpeXX4p0;Idi${q4W8Cv+zg^T`k-y#}
z1jq4|ev#4%N5X)<0@KEsVQ%g-Wy4c`c9N@16&yHE@xN%hSu*(6K%pBiaW^SRqOvUI
zUzRm0x@xaR+=t!Y$mC2^Ucb22r%sTbxTdR;mlwP6!?R1TF)!*8qmUwzs;f+8uakgr
zzx2HF<)1gp-uww=2Hdk1W*X+t0drC6y-`Hhkecu9gy<mC4u4f2IYNW35#6Sb-FRN4
zsYSu996yy|<984cFu7ATb;<oF+j*j*2BxoNFr=PAV+&m=#mOEFfCvaIirR322@$Mc
zd3TR4L~LGe+skMgraE~6;`$5lA%KzYmlkfqIuVqUBa~kc{Qrap^{+@>X~pY(GAhC5
zZCueJIB`8m`#4Dc##{NfT*|tQ?2wbg1}WRB$Ks$<#z0(o*1>K9W8=PV%Y6T|8uV?M
zQa3MR&HgfL1augrk-{T;=uf_M^)psNt)UTJE$#DXx^^AdTMOj9J*iXSfnJ-k+kg0R
z{q)-1#0K?=lgH8VB>5c<B)u%al~StR5lJe)nz(b$Cpyw3EWabr{q%rp4*g#7HwhL%
zNv{K92NR=f2}?JZz93j(hi}(^5Ne8{8N#!b@i(xrs;htaAAzOF=XQt1f4Rd|R*&oc
z$%zR}<XFm$@%UV+;a<F%^2Lh#rr(pE??07aKH1RSf4*7U{d_Mth)_a);g&xHyTjD!
zmo40SZ;BXN49rhZWkEugKwwt0l28fYb_%;Q>k)YRX^-i{+oELRv(K8$&eSvJD)(#*
zFiR9H-_hrfz`giiE=e}LZh~$)OOBdH-6r2ItGhmhbKD&|DGmf2R$c81e7|krw1T^U
z|Fa{h>FJjoq{YO=K@3~r&?&)cP}6Yik!vG;_-#$u-mksV{wExZf`|CCS{}su6V*jL
zX=;?C^@$s!qrh6HY{|A|^a%3npzwcCPUWJ0FVXhgT0If<r|=m$YQ)bu@LajaFGZPF
zbTH;(m|n@Wlj>IJOXVdv@VzolIkT)PHsUr()<kAS6CBsGkOhe0sy3L?oOoi0%qk<*
zDudmEPzh5+r=Ran8r-Cc#b?kGNQKeUUC$@T4N*aPXcN@!h{cFCe?BDT)JetlvkB}r
zjYvh*Go7S~h_fk^&tH4Vw^Bi+KSKBH!tB<YQ+67pyB9x<mkJxds`%FYEMKeSUQBLa
zPBj+4M>9Osa%!n8s5dwV-!6oHM3RpgNyTaZc#JX#kHcS2hKG1HZ0{Gj#@;G%?!wcb
zqg8kRcFJH%9!EHW^+M1%0j^yjn}+y>$j5c`^n5^q9jN+d;s=p2QHF`Jlp$`iziW+q
zhFO|8fM{d&`(*;|c^<Ay1h~V<S!8&7$1B%blxx1%t6@>VCnde*OVHO(*`<-@q!IXc
zt+y?9!ftyY)j^>6Mdz4%!X9Yz?iH>Q$+)kICy0N}^Moe<b9nw*9?m}xPQ6S{ME7xA
zhn58Ygk9#F_aW<^;$0jnpG{U-7D)p>M$ZoXBI?aLUkgC&MMMcNcvltnU@;^S)Cm8k
zuP-z-{SBL8f}!u1F-qVW{w66xO>iw<ASUkcKO=_OmLvWk{b)mr7PUCBwgfK$TtX@a
z8E$Dj?P(7w6?wSO!uAEf*M4#!ruUKCnobYt=>2aT=8{?^f|}|-_MZvgm6KNR<$dm5
z=Il)6KmMtf>vK-4PpP;{W;%Ue!N7_E$uUZuoe>MO3-x!J-nP9UGarQHfkIMHH_;AU
zyb3+oV0JsG;L~J_nR2ovNOdF5%Jv~?)5D_LNuu|;`Dgb#{XZNMeQXMKJP@#>>m4Qk
z#DXjpR9pu7N%^h0N37HvdzKcO)X}{<@`3rYT3;u!>xgE!(WCZFWIJKc?(nMd_8gu4
z!m|2P*=)L#iHoY8$9E}P1UX&y=B^XiB9Bg<wv*$VhMDc!6>RLJ!&<TjJ~hR=?5hr_
zI%P=E1t%#9x#gkHd-))pitD(N9Py}Kt-O3ed;AiG<+lN|l9zw3`>OoN5vjRi{*}MC
z=h@Plak$@QCC>W@5dHf!!+!a<i{|+qXZbql*RUKW$>gK^;Z^sLBAenJlj>H_$%5J+
zsr(FnDDyw_Cmj#YPpVBScUbpZA$_KS)8^zE7=2l-GsN=Iw%<aztS@Y2yT?*dm*!-W
zz6o*G=$Y`xi$0~aloU~qw#k(#-MeUMT`d$L!fQb8L8`7Wb3A{+_e0JbxO22?KsRP6
zX+sFqzLH_x!+ZL<Pb!y%dF70e56ahf<xE?|-`RA#_#w~>XRAcVL}qC|j;|N=@_3kW
zUAyV?tAOy1Uth;^cgYXX_ek=CMaVat?G#L?%?}*Uq`o-=??hAoy^n6nmFNC~Yyp&M
z$($_oxonst5Od)2x+VYG+SqqAx0uk3Zzt=G&8yT$iH1bMfsww+LXj$0<<j*nB7CH#
zc?xf6Z@MuWtInK^r`$lV^7rOpxDd?2D@ljeaW*-*HjVk>Zz5?TuVYWEPO%6y(s4wa
zBOjxc-yE#iTb7dKdsWfaStgor!L+n<-2G9xOkq4JE>UzvdT!)iovD$_cxH#$P)K-(
zH<4xc<6Scz*lLkKamAl+wC%lX$_mdR-vg`^oAsK6mH2;n{z+IVXb|mj`5pE%3{3x_
z`yqhj*l~PE200y8Vt?=8JiniQlDkaI@CE<d(e+BjG2ESN@#R&Q`B!rP@TD$=cf5I#
z6Pamx@8!V0(%3*T)%7BqQ{PI;)Kkk;-YzT*R6b{_73ffNC(YDKI+H>bOs<okt#1Hb
z5q_O#x+v@BgZQk1jJuz=<J;0!<k(2^4s=PgPz%JS5&cbygbiKf2?&U^A~{5J=!<P-
zQ*lDZw~Y0)7QR=7=>lWVdo-+76{j<;3v(n2)l*wvtDE<AVSGXkNur_uXG?w1`1TK7
z!nfUB)PePv7oDF;wF=o<BZb=H-rJZ6Y8^S9r0cFDUfG&HT-U}KcBk@KzHa_mW{67q
z??o6B)dcbd;z$KCk!M_b{*aFZa#-3mlj`)$25$CcsZ4j%`Sf(X^<UQ9A=yRkEfh??
z?nLD}QdYkws!hFI(#(S8tfjPjnM@}z5k$=h)0By%DVsDz0=R6BQMJw6C7x)L^Xq3B
zu4j%jL|+<3N7Rz0o-;r_Kh>NdrF@{ULU8L8a)cim7SkD`@iLH9dW$Dx8<HpURU<mp
z^UYO<GufEs!deDONH@HpV6(kAsJ>z{DQZE)H2gR<(PApg<*Jx!0e#}jM2RGPeSHxx
z&T;FUIkvslD96Q|I67s1y#_9BafBsFBJAujOG?e;L*7U}=0jV?R(9l557zOGAJ2(>
zH+|b{7mRU{zk8rW6hud=RvX`uOnQD$Yu_<RB<;Xg!j98&mEB2bDjp{@rqi4h$t1Gv
z_~49==hy*<6(wBic`%`sbs%HKCU<ha-VYUIX1w|L`j*b07q-o23D-6Ex6OJ^UVWf6
z*>|jIxz}LX>0`A3o@S!pM-}5ddYiVX&ipZV8@pq9#Ak;Dx^Q~b@8`8YrQt6UD=*x!
zXe+L@UHzzP-JLW`Bt=I&A4_z4S}wu+v>68z3QLb`nQQcgAAPRMWa8~k6#gF5L5_Sm
z_L2yUjJo+3o(<yql0xFA!L2OVfmTMLs!Ik31}^Xe9q$;AUjFAkg+yF~F{eEzvx`EO
zQ^R+nIzDiRM;=GHWkSFzfWlT<MkX>Ti56<An9R&f{gFYhl&_HH6uPIvt6NNTr2gjv
z&&TtGWBpUcdC$^IFA#~;Ubtl8W_8+3U!O|ZZy^dgO+Ux$*npDQ3>T6PT>GIvlFb#q
zVzPQ_o=HpZnfUfr<9u1_3v=W_$R<l5-@);D$Hnr~^Tay2d~Y|u=zr2px+S+V>e+bu
z(j`t%%s}Z*g!<6gi8wi~?#$*C0KxIn#Ec0u&6$R?&vcy5GhG_}^6iMVbpsZbqJ{mb
z=E`W~s)^?OuKSUC%jXBbHEt=e<q=yNlF*Ea$#cn<=@F*h#Uj=`c}!HOz5V?>Gt3PT
zV(X8ViG{c73#qGw@g$_`|GnPkXT>-Fyd;eIwUfDyW$H%lM=LU|=P%-JuwaMEZS}yD
zQ>VYHtIO`%wFG#S7fj3kKJUN3+1#kT5`J06#P*KWtot4(S3LY9x8a3dZJBGKOJ18=
z`r`)=(6X{G9r{0g`t%Drz)X+9a2b62-mI!gNYJA0Wn?4(x{&myG~Kv=hr`jcEIx(J
z>Yp1r(T2&=IX`E6wz=`agRk??L*&Z@@cEA<t>bsrXW23uJSWsYOs{#DE`qpXz~T)&
z@0zs~HX!_>Q28&&7@W!l25y+j`(DK;C?J0es>Rz44WZ6XNhdZraaS+qVIC^JAsDjU
zkvMvR-7y`1CNM9l`uulHe%Gf@_aUiu57O6<zdDA?zXH=LgI<0GJOts2Lv8-z{Mtu$
zN0yDf9iOyxi_piGMb^NmAx905jF|hJgV(K?EFpiSowaSaWWo8Heo{%CTW_vbWo0gu
znD<js%-nzCTArR4eR}@cs&$^pBsh#qpFA0(^G@<A2!1MFzI-=c=Wp-eaK4h;F7YiR
z=DZC9W41<^ji~3LQ))RZj_G7E6kI*+3g(i9m;1934AW)BGU+xsbL%Z}<QahrrR57J
zN^pY}PGs2tq~?^K9y!=O_6MjbD=XtJl-oqF**Q40L@PTQ3QkK%RllyC33^hE_HwsR
zbS)BaCT)L|p0IL}-O)S`zjD!S?DBeKWTc(Ddm=z#-{<-YhHL%Az!Nt<H<!<2-u~|j
zM}E5%Jy0Dl;^X53K$MoTF+H%E0FsfF_Wp4O8IWE35?Ql<7w(BRee8FhPsAvCditXp
zq4gbAVyXHk{FklzEKL(n6wy6qGc?_+YGLmudCc;!KbiTZvN3)0uaWt$i&SDv;2QsR
zMRrH|BNuf3b$R%pN(>z9|Nc05C;Ig#Sg?Q<X`7fZKs$v@O-)VCW6W|Xcp_wrdu)8%
z{_52@*wM(y`uyME@XZCtYivo0*bi@|v9U402My~3e&xTvK2hgSPZf=3x<hi8S7UG?
z^hDdM6@Zara&mYV21>{U1qHzvhz6l8$3w|r5r{Q|l7#>MnF{ae4hL7{!&KGO?46uQ
zR8&+*$jH6{>HX5UR8a_Wilt9hw{+ZwgUIlRywV%whQZAOu|u0&ScnHV6nvHoD4Hl}
zXmr5g<i_@@eL!Gfo^g&kFpQXIM&901@c3GP2Sfu?fF-3twFwXoiLLDfQ`J70F=*wP
zTn))#cT9Bz>+gG=)0VH@Sm=%_h66~(CoRoD%_`0?)AzJq<R=Kago+Rq8W2x)z&7T_
z|Lg6|!?AwX_2GvGBFQ|Z5M{_1ktperxy+fz6iVoeGRshg&_JXKWhRk%3Wd<OOhqa}
zWQd4LgL==qz4uycuYDZv@%tU`vETj2I`&#c&-3}*_jR4ud7amJVYM`L*AzPDja1B(
zh&%sI`SRzegpD#tFq06c-#gK-?hyr_u;Je{G&HCZZ#ynj*3|UC$Wf!Gwzf70N3!WF
z{sROh`k*UA;fi%=n<R?HZQHiFjI}4N42A5??ua7JoZ1^dUT$tJsGHR-GPM2DFTt1V
z?%lhKm~mmFd<Pq*F}Zv9?%w*KfG+vxwdjROS1A_Ad6BdGFCXY#|EHG4sO~PYphF%*
z_2}xKXc!u@lMg}%7Q+<#U>r(mXm8K!FM;xej-qmUPEB4Fae^!s|M_jf!PWJf+{>fq
zP17+g&T;JpHYTInH4OC)Z!(uSY{Vj}s&--*L7r~_^wKg43LN^zLD@n!$6n?~{&{^H
z4w?J?c}5vqTCXT(3FU1=B&DOsyL76_zj^p@#m=2OqY@INy<S2;l5gXS%h~z-c{A=-
z*>$THbJJZx-{qkYVRUjDJ(<LX?`U4_Emr@1N<vGRwQPE$tm8_!mxQ6dT7|#^J9K#{
z?bh1a+4aAAb!hNFu}&*8gc)nRL_r1#?m9-sj<L2ozfPAWAsSO;wr^+CS5zclJLtQ~
z4EAd7X@SP&?fdt1_+K5qV<-(HleDN$nX9X-lP<fqm?tUW1A*Fz1Pw?dYUd{l1xp}Y
zF<tP%qo;pQ+)kJqX=V(Bk>=yS|6WCb!PzQwSh~kg+;eNdN6A{(%JD^xe3af??c&G)
zYFz|^{#tGs3I+Ph)rJF!V#dUy$r}Zva!Ct!&m~w+rHB0fMT9IZ37hQhI-`jkgHDYj
zwtHtjtvL13mZ*nPR0DQE3RN8R!}oQqAKR~Azkbp;^F`qe6e;4%E8`7(_-xkW$oMtt
zdqSQWc~3ib>}c{fmCT5YjC2VWYQkCf`trfzy0Q;Ld3m||00iZ8(3A*>i!)%VU<Kvy
z;lmUPtPus0I|P$EB>p<Z?PLibz3oV*E3RC*(trPGg3OWdtg+^$`B7P{jCeeDGJP8*
z6yC!s0bkZ0IdVimXyvL^g1BE$;c$+7`TDkCraKlKce+)@iKM#xf=lF>aI|<ux~@P>
zH+N8wE%!{w`JHp~nu)4r?#bovKHS{g4KH6>$OpA2iV;2GdS2cbM5>r>OeI`I{)8^B
z;q~hc<KyGpyL`7%8k(C|A$Ao#QpJtf2Yof^JisX*BOT`QGPknEG+<K*gGiyo6?yhD
z0bh=%T)Vaz<AM+qYaKYSANpbHv=P%5UM{Xf7B!Fa{$v`4R*o!55}_bh`1A3UcI|rj
z<_-Uz-#@qi{P{Ct5|f|%aj_lj?FIC#An^k25)P$P2K24XFNjm-btNx#`5CCU%wdxT
zQQB7jE!SkfOtp1%gg<z&2b`uS6#2b{R)-Sry80QGZlHuhtSclcN{_UA?#vmQf`S6P
z1FzwxRirc46!`wxEjo&lva(sz#*(}yoUzrO)(!*B<p1gYfV*!(9QxiO4pKsQothN@
z)_Cyq6C))J`ty4wB~3W*GA^A0m6ergco+Q$oe-JNA&xUlV{bzv<Z-f?MOE6lQ&3LM
zNb4^zuQN$W9LJ9zr`ilr1Ox?XC~s$G3co1C0@}6$ws}IHSYTPkfc%}YfZsiSK_`<p
ziHl#^+n^?xi;K%}05f}Gu)yO*SaX558kS;*<FBQI@=>vUC=vf}L1TX_r~f|a+}J2(
zw;+h8UvNi5#@fcFt)U^5OgTd(wZ3qxfI!-#&(J-VJ(}@&Q=LRHIC=7<$c&(qp4Em8
z8+25jjgF2+erp$(?xj&fsK|7&gm6g`OK4!Rq9%70J7Yh%K!)f2b=JoHBX5t~pGc0U
zI7aYgR&?qHE8*Yn5&x1=b(+JIw*O21{kH_`sloowY@E+({h#&8pQN9+^8YnA|IZ&a
z=h?u|-$i`vv&knQnUUK`@0C*dz0?SajDG?N^Q6xF*|joeY|Sk#>OvPyPVK;-)omeo
zh`VP;yyOQ{R1D`$LrugBXSd;h3y8xv1jcaRVAY==v*~ZA4|~v_h{PGx)7J;+qD2&a
z)ZCnVqoVZaJ!!l8^KkxDOE+j37~loN#e@0j3rR_lV#Zl%;B;l=<*A5s>tQjwDgd7n
z5$7Mjd^$9MD!ckEW{zC??()wL*2MxY$sg}u4+9}8lqMIiUd^5N2lhJ$v-b=V>oBnf
zUOWZ^4*P(fkohsH^9TTHZfV}Bz`BYRcxpe!DZITa52VPp*ls1T^}H)zE9aL1ffjCf
zIbNo8LeD9kx*OV0S~aN0x%5wYdK&CvqAbIKGGkKGvQ!|Nst&uc-C{{P4&PxBOi$t8
zd6Js{0}r?0yVpNId|19b&x(6M*wAtE!OV<BADQ33>V+|e$QP&k4$99!!?cQJ7z30X
zOq~7Y?pBlrWKxNgV|WZj;_(tdUZrtPi~%;})lyCj)iWWtOaR7Yy&4#3LJMH@Gj12h
zwIe4^+})wCungC#u_uzGROD~v!0#AnDUPg@suYTml@#Y?m)G8$(cZoef6N;{%79bm
zKHA@u$A>eu8ljN~zQxqw;CdH-Oc((5nyFrOM4{yLuipn}W(6|bIe5i#y{how(zmM*
z^ivp%l5H{9NAQ(xNht?}C}OOedP;FB3Im7|6c%22=FAzTkY6gi3T_c|bDrP{SEIF^
zH~RrcGT-5!XUwNjHG_L!qd*|E6@-B%2??u-_)&EbmBIP*=ks<2;EA|#|I35Xiqho&
z=Y4T9CFccS{68S;|3I(*^M?G_UzKh7zrI}mD?gfk=nap3fl3s;pP%33XU~de3rJb%
zA#Y=2Gch^2m)uP=?f^-gym#;3{kf-l_V)G^{u{|3pFQF*ENFS$*0vWf5c_HJc9HYL
zy#f*6;n*?86)VE0o-#NUC8796P~4YmVuoMkq?dO4_6m%@B**_?6%vvhi!Ro=jXHN>
zTp#DGslA<H_3G8HX*=*`P1%Ih4;)wrhzXN8W*o%A(hG7e3{Q(-LIykJ4AfMCCvc_K
z=wz}oZ&V4buiyP)X2xzR_<8`fm=_~9boc{bUtgf+=Qjw&@gZ*O<+ik<q6Cs#@W*G*
zo_&5pq{WtzeD}wX)ov*JELA7Ve$gpLt^uC9keo~x6tv7xbS}ToBCbhN9bd0MKYUcq
zX&{@IF=>;Z^Z7bAld<lO_?J%(G5^OAko^)f>>!HU#Ot1<i(uN%mjhWRV7;Ty(ePzW
zp^Nq~m7#>fza5~^y4rg(^F>>0<>BX_U%5>8|3{f*cG-)>WYhZ?3<YAjU46f?T~I}3
z1Bw@*oBY{=M4WSd;*6`Or`J2a6NwGPc<ANJY=`A|u!KwI)a+}=qP5soKh%XuRc=1M
zhj^@;f|mqYSy}T=XqxAeY8?K|d@U_4_sYxn<LtBW@kyj+<C9*{63#eiU|>+}vx<)H
zVNVYm9uode3vBE1-2n6l)J;BRuO3-le#z8y^Ei@bXMx52<bnPAJ20Jz%}F&z73poo
zy<Zeud~AA7;(L53Gg=(4+H$YB_za2W$M5x-Kq!hKo_H)Kw|0kTRUdc`vIq-(6DKqm
zm*7;YvC!Ju`taE^X1tOn%n8h)aW#s`<)ydb%z18#<~&e%N5iH?NKTFwQF$LE$OwyP
zxuk8Q#u-s)85v!gvnY0q6b(Yvgx0*Yj8n^6{Qgk@zPb7N+;$s>^K}J3k2dH_2$*Fr
zz0cyfaLZEc+8el3BEQ<7I1!J?7Tb;I^>%hPzO=N|sL!xle;$=|G0ei;kA5q&KYH{W
z-Vch=%If<@VqxLo4o8ld9k0H9do$+v@;}ccnebryh4M-|x?@2B9^!YS91B>NQ3ttn
z-&uqAv`tcyFg?RrYNq+SLw*ICTUazcdbD!y-n|(y?3qT<_|goj9I&&G0SM42je{L;
z1}ZTFQT800njO2b;YKC+r@2<h{K%@aYk6oR)oHA(tN>>6%y%>H;mvXcf@CkxqxD1O
z>C%(Mw3dmftJ2HqIt;6Nmk(-dH(~=8zUI0rYa}oKw;0Z#gqD`dKRzr+0B5P5i;L*_
zxHw3?X(*K#!U7qEueTbLD@)(LMf*GC1h=B9B9vDSc5X#~+X;Q+VDJxjZeCt8cQMhE
zov`0;)vrDD8&yuP#~VIpEv1QbkKcC&^9zk#T`UCmf<thb+pVdoxy`zAJ$7D2T)fDF
z`Y9HOtNO{%0~z-XPFt=dC!d2Dsj;`09YMSarT}{*Eu&9;=syGDNmGA6H%fygQprqo
zZKkYxzYnK@hJs&?bIgrxTA^Wo`J&6~>Ejb=A|6>+r;3tm+W?SkMOU$tCU8GoTG(L=
zklPz{1En{7RN=8{m9LL0v8(*Vn;5`_Mx-i|d|{>*hGfpLaD7k6#&6%gnU}h-;I?&Q
zVhXl{t1$Jcj;z??CswGpG8AL24Ja6Kd0e1QARA4(KEZ}o1ODlRvcP8-l9xB}F3y>C
z^udE^ZrQ%{xz7%Z=@{_{oA58fDPPmp_T~jCa1hw-1P+ewWYvZfCr<P~2zlVb51cXa
zJf8~zfG|7|)CfsQ9T*MjDo6EikI>-Ko5Mm5&)c{5!dteCpg7L>22KQ6I3fXs>4hto
zE`?#ifCId?$<uo~GC~Ur3DST~N<Gz*az)jaUevfZTMT6PKvAdP&n4OY@f)Hs9W{c0
zv^0Ef6T!}cL6~1RFF$@Y=ZP3>rWp}wj!D!MaUgf}_xGzEJXlnH|C8l*1qD+p!4~ne
z5*g-k$(Ju1k7UoqX;>_9)?GDHJm?3pt^-8J#HbPV#QKdJ<1rSj=6#=!lXJ_R<)zVt
zevH+PKf5J;N7|;E9U!0;kt=p$!bLAtehq>&r+6s9!&w}~bU<^ZQ?naLkxc*t3d<&C
z!g#@Kb_8r=Ge{e(ag2w#PU0~;hN5YVB|XG39v&N81^lSu_vy}~Z|BzW$DsUi09B*(
z*ZA5fdewk0RD>5i=}x$3V4gqf3Nf>V4>uDo4+`R?rKJX(LjoeG)RpWEs}S3ylsAGO
zj*5$GMv$U%sYWg%sNq&HW5O#smP=Y_+qSjvmF^ZT5(nB?!qSd=$NHo;>^!*=(*)%2
z5&aILG1(Z_k9%9(-X#6tCo6W@HRA)r+HEcNFw)=;dnOc%rksAt(Kp1peNX(lHyqcC
zuy{CY&4`Hiuu=l5Fb%C|fB)Uw6v^oI?UOTM2v9AlJ72zWgCEAKD=7G!8c5+d_;eJq
z6XTDh>;BPEh&kxjtl2v=P^R(f7lLSn&W2N`PGQFBp1Fl-N*-&;or7rPv{!v~*45WX
zX&yPZj3K_T`1p0?>VQ|moQNYnBs@`KTZ(2S^Y!4|x)nRo!to`D6)@rBaig*3U<ZY4
z6C^b+2s3hAi5?6$&S)0KE>r9XabYlody7wm$FUjFHrAB;>8(AR@Qy1_jxmtOiY-*b
zXkk-AVKN3kV_y_=I6ZqjfBp2s__?)Gyz@+~GX6!e&q@;P47e3;wYPF}SE+7f*raJX
z2!I#~DW?-YoqFaT3YM3w1$y}Uap>H+b996v3<(K&T^Dd@bVjZv&%$@xg_3olB@sM{
z4LxP67F@d!P#oOcVlXN?3gT}+zBCIP+X~7ORO#tOMRrG|2fBIvV|MQtpO}c!h~-?v
z<h5?yI$Y&FKsUpna1g(7|E}*kb)Ym3<kD@t#tUtS39F2Z75jOEq#N9mJyFo2sGjO8
zN`Qk&RQD~Mdz7Ns05G8L<UTyzg|Rd5iB1{>3PeEUxxL`R?`_fu_)N%6gdVnfU13%%
zFQ8HNUkugT5`O>w{RvBB8|Its#~)#<!)D|@fVbg~AEh5%14+R4{rmUROLOTizoOZ;
z63YOQyB^4=B!dAQlMINHD4?p!ueO)D%HiQzINg|@z7vQ!G6GIWu?*{^H9e;7$}REn
z@r2yQVD>tg9)a+30)$bo24<n8k-}R`nEXiSNW!@D(W6cf_5yR9O-~mjeh@zaWYnwk
zPT858b6b`lUxRB${8j>v+ulH9BRPLQ1h9w%Jh1a9KV$iy!Rd<td4m0PG7<Zm;dz$r
zYlEwX=tWmsR|hk9RmXzW#8m+;CPOej#ijTdNlUoe*)D@Pp2<odaUV1m?wS{8^s9_{
z;S|xT;o7+Mte~ZR+|(3iTYFki@6|nr6=LiR?a!WNgFL#_F}8>}6McmbR38&Y0i&Xb
z-8tAcw#=crfMkjRI2_fGU)R^JT|0qAIjr5cRQ%LY)5C~GKyQT_mSkmoPDxE=c%Y3r
zE1EQT-K?1eQ)yCUt7=&vST(R*<2AaPCJnFIVF0#++FLHK`G%!BB9ZEXKUc%>>adH8
z);Z=)TZA%jJ`Au&MmyJpVVX=zU)9?WcD!b87r@Ci7<D`!-`CvH5lg%vhij4Kk|>=R
z361c>sE)?Ts_ST6Na-!i&l9F&%@F^F4LP9pGG;!*l?%%ev0dutkNn_i1Txl(U*f$?
zwYCbG^lYu$@C{4$RQ*n$j{0>s>)@>e8#itgky=1;%SIVCzoq0AMlryFlsRZ=$*Y}d
zG*Ihzf50aveg@$t!W9W^WhfGW&g(BovJ(I#BEdT1PBBKwM}5GLYlDHoTG1_Ci>T;I
z%FDMP$Iz<T+S)qb&A(UDP6b=Tux1U5zE!2CAkaJuOBXJ4TX(k+I~^<#1(fX&k#w@M
zvNC*Np<y)KaRXF#55_a83uIf(ad-E~j}#ZsUrk@3KB5&!)F*cPTeog)Z)?l#tj}41
z*{4y$0%~P3Ma7CoV~ibm<B$O*;4EqMC}J>9Gk!xl80JnmJ*g4(B$kZOPh!ATBq%5-
z&+fr)6zmajAKC|cEen`8*}UZn=Pe#54&x8CM&i+*dK7-Vo>XVQt;rs4wA-J0s@k=@
zUcI<P9&G{<T$pOlVOmwcPv~P_p8y-TxHxHi(#tFT(W6IleHW9HH8Ic1a@PxkV-sL5
zs3z-c814F$l$0(+My?8i*Pr)j3lp!Zzx>sd6a(TYkF%Enq1)7(nhMdup=zI4TxS<R
zZ}RtIqN399^m{<U=|1TJ;?=gZyG3U6W8&g6K_p+idsk{1VU22HFo=hmiYl85V47K3
zsiX`P2=Xi{DoV<>R?8?i5%Z(^z(pAVuig04Vmo(Q^e4bXC#w8qsjG47u2XmC_$d~a
zmfiRV#dhqt0t<f)kk{Tb0}4Xo!80kBE~%TDnaQJz6B8Ysj=XIEIGYRVuSpsIr2dyL
zU%Y=Vc~v6;AS}fKu<F+NB8E!gq8lO~Pe2UnjrCI}eS9)u6s?ug`sU3IxC#jdK5J_u
zJ%TQrO}i2Qz5<JVMB>%l+G>m#^BgWn<daiZ^(`Yhh+r3yj*d<S&^}gS>?E%N`9PC&
zUb5I+eb1YQkVPp9Z)*K6qps3Hug)9vuaJ;3j6-SCa7~SoTggvFG0g5HwCiUw^$pG(
z`JF!lK!$;yUI6_!hv4U!75-Se4-kNzpI;yGHWP6!amgwt-WfY+Cm?iB$LHz70ch**
zPuaL9c$;O>6z>Nl)jPLu@52X5!%H1No3HJ#TvuHo*fA`F>B1`%lah*$-?ZldSTFJN
zdRQj7p(Ma5)%Q-YOer7P{dLHx;1WT?IGy`3fB$xLG#o)89X%Ksv{(M#oZJ!l5tmKt
z;K5dOIWOM484rgjye8AqK~(oJ+1Nnw1hfEMOv@0N(f<X@wXpRy8h-{4^j%HfjEu2H
zo9rawl9Q9?LeRs5lb4apjJP;3fWN<ghP#!eWd_!DG|2&NMWBwyTFeBjHn2xvmywm-
zi!&6lT;nrsR(!V~b6**n_MlT~K`<CC1W$I0pdn|bRHW9pSyD<$s_830!o#jE!^Iys
zELNu@bTj8ZW_`aqxqZeo===~n!W?JWO~eSYW)6(UIdrKyN5`=+8<XN^j4V1!uBW6#
zk+z-9QSf$%m0gf~8&%9qPKx~;dhvpjLP`zN5}NsmM=04>Uw57$4g|=FzM@+bfqqMK
zg7|DK>(_^#SwS~~t~dPL*1;E+^bcGY#fQ4vAE8hckdj)5vVFa~qO>$KA`^un*zP%H
zKwRUQq`q~1AP<ajGd3Ea&VcSzegFQm23xpxAK1TtKb{B6(-}mTbQ}=3fN<9m=_zw_
zbN1;v6GQw1%^)JZ;26=h2n#>zQV8BAQ2-#^ZN@){=VKtAgl<nWOrj(4ifKeA+U%X2
z!a-NhnS*iVYNwoFf3Pm6Qbk}i=g748K|106&QC%2#p7Rd0PjrLP1KI$gs^PhZx7Uf
zj#w+ob7Exw<eDNgsCvorbqLSt8%oQ|r50p!0MCg8l|t-}>;Yp=BO-Mb+3le;psE4*
zjwE0mWgO|2At4Db7Qj~UA^Cu))12@F8A}-@Fgsn#ugs1uJv0<d*zll~G_N`-f`zzI
zxMHI~kx|jnXKHG8QApRtJQziv%gd6?iTMvPi-%|XiZ-EsSwk^LdO(NbEK1V+pbtMn
ze*f46i<5W}-7EAxWGN7|0K-TeWFHWg!tEks)J+N<D6b4)SuD435hOB@9%J7Y0FPGq
z8J|NyY;0*+jThMfxFCyN=af|s9S=J@NBe)`%DkIxg}ybZ{zx|nB`hc$e9??CZ`7lL
z>?ZQ6EjaM(@soHE#aNX_?hmP!(X|K-3pkVU%ES-#JrY<b>bT*^eb*E{T2N5TfyG_(
zgPDT-yPqseqHI6%q=9@IV34v94{_2C#Tpy>v^34Zi<>pcUw0sb#N#$~{t9GJ2}xoF
z1>JKm1lquFW67ja29a?Fqxow9UD;-f8Ggs*sRS;qCw-i2*Z9=c)!S<;{4GFexz(cE
zb|oe2_U7R4rKPP(F@svzsXCnbDKkHxobX{(?@g$*iec3fIN!__6%)f+9e8E`bCJ&|
z+$4NA=kfL{12fjw*Q2TAS3KtK?(T(q6!%H|q82q_Ev;x@r8I}Ly?rR``h~#e!i`T&
zON$;(f6^+WHxYW^#Ks5)Z(DhRxE5uVVzl$cw!_jlhB6dyutrm7<V`apceqS*A6m6D
zbkXf~c{v0Cv}ip84maW!I5;~;f<HvjmiRsDZdQm><nJRUV+UMAwgVG4z$!pT5A3^|
zw|D9OS5kkYzU%}~0OYa1SA(BI(jf3z%<A%AD1iw8&dJGPZM`L4P%39=`i(f48)oLY
z?bM%~m`Jp^l9`?D^y}w0w@oZ!frjP-RW<{~W=U_x-X!C^MV;X7t@54W1!Jju<0!6?
z(&;$?Y+8CI=OJ$L4Y7_B+(JZ5S5s0UQeY0wS=C0y!{_U+!s>f7ZwLV-r0~I}QszU4
z4y8NR;BSzYML}Vqom)U8-&&J|MnxDO_Lm}4k|T<l-WJsF)V?I@O7Kf?;==#2zd~=~
zd=4vimDbfoYJNhA9f2ZjO_G6zO|`dn4tD_06t9A=|9wm69gYL9Ud7JpLKl!`A`ZTg
zk&lm$TuHPZ)ej#Qh6_&|PU+H*AIbiOn0)cthH{+<k%0Ele~D38=c?1=WWD5}Y1(F5
zDp(~CLv;kA$cl;z8GSpuO(=)OUufAGtvKvDUt1gZJ2*Hv!*y_QkZA0&`Pd6_9t1H%
zl7q<PK$!%RcO)`V^7KG{2HFkJPmkpm78dyF3SHDfkB`a2!voDgI@DO0VdfYVK8fUn
z5pD)W1;h<-Xeg}0fsIfwz{E#)n-Uxi&)_CDAZ^T0A`vA!`}#CZOcD+HGw<Aai-?fn
zV`*U_C?=-86bz=it5Q%Lzlc2V(6ATF;A+THJhz4M;o&o|N~CINq@z@)graFAuw#dr
z_vP*AS|VL?0OgXJ^d3B_x_-?J*73b~@q%OHYolfmtso4zv63xv!O{@FySYBUrr%K0
zs<je_JkdsE$&Fm3poH`1BXA!PKfC}kKv}GWFH<-Qc?vt9le+0{_KhinfB(%ScXcg(
zoqB%e4pjfEu<1!8>zML>W7pZC2MLIOBPi3G5U*lQM~)so%ziDaT1)I;^D$RvNARtl
zKfbub+(T=o1o$1a@3|a~;)yC}+#7UnM^PFzX?S!oen$Tq-;ER5llOg%D2i7&;WD9E
zX%7C41e{zYJ%tu}(tzVyiVu3kvT;$wIT556JKznk!s(n~zUPs}Q(?+@J~@y4zb}db
z&#a}Rqto{dmo?)N{uFjo+u6^Hz0xke;_3^gRp+a(>`u7jsILl01DmzA@a{Z=Uc8{R
z^ubCguT!V+w%7xMf+R{$aQHCo%2fDr2bT|72P9))u}_j|o86@n-t=~zzB@FTwR!hh
zde9m~2qK~=fND>ua<J1dSt$g&<OmCa07iDRVmP7!oPw<5BYLzy5^IFW5q`<k7MWB*
zWAsYiT{H+w#O}eV!@9;--z4420%x&Uhn0gP5<AA=K+1&oi}$8}@?=R4tq@ucBvF7c
zzi{C~C{TqXPE9AYqs7Itgk40nyf@cm1mRi(Tik?%gdq0{3k{{fyqc4Qe&}*!F=~oz
z{}wN=A3N+Z;tuNf49Ua*l=n(YBg)DY;Kdm0sF+Bob7DpbwUOYSJ)6KP918gB2Uy03
zI3Ren#0m&ITxDPaUiRbT`1tBQd-ecHIU;*N*hVy9251`^76t(|5{LkPrLnC|yH}YU
zW|B4L78V}D@fN936%dpT0H_&(QhrLkKn|iXtkmSeMdHT(Wn6zx7{Z_=w;8Q9GXYCR
ztUZY=4aaK<+R1syDqTwp%Hw6(boKNeA-2h4|CM#6Ck^r}*J|I=iVC78K(I?dJJ!0+
zzpP*4HmXvAi&}(-gby_vPCWEo_>!&o45UMa5P$-1v$8TTo_UU^t=*TdTGYlPkXSZF
zz6ZOpdF@kI2Zu8Ry8(%NdU`g%MC{`A>)W>FPhI+jHBb(yh|KTVpP6$Rgv4MS&gQV;
za7m)+7D7A$bezl06(fBNunj0W)?r6Mii)2cait}B4|=ahh(Q<erV(~y%IC3HSWPN<
z6vDn%a5^j)PW@oofdSUNfEM;19tlWy>QMZVI1LP^!7-f4qj+Ki`OX9hgO`F3MuP-e
zgg#P1;)d0Jxb26OtAX@LY{tRAGKM#&rlzWIxhx2@CnzY0dT=XR4PImI9E2|gmB(gz
z?9H1u;GE8ZP_qXM13*cX6J2S0S2$1{TFezLXvzDltZNCP+@5WS9i`|5uUVaT$biQA
zwUsX1dBIUnfE*_g6Zj*>wjE*?3Ae{$dN%tK%1d3kXo0#V4(-EjqQePZzka=dUTjp<
zdR}qBey@*%syOod+>1m__qhxwvv8P|$|^zSfytTXaa5rMT2hB}V;&^Ej6$&*1@Rg^
z(`JN2+!B`0S-d+>3S$jx6mDo^bF)V8v78*lUUU{6f#sXZrVs8}7EWz#Xi%FO3a_5z
z*x54mf-&)zVh(TZZXqFcmz*{LUugU!{d@0aw7*)~#KIz&%E`h)16C8cB?I>l=onl7
z?##K|R3?E{JzWj@7?8$ylUkOH>U!yo&zoLMRpOq4neyY-RsgO7E%BsFfSrYQ4{Ws#
zF`ZU~muX39sc@wFUT}4ZNl7A4(B5>#gEx5)9Ms*{w^c$y;uDw^kkSkbco^YG=+OHd
z5x(4(gDWPF#g-2CEeN$e&@^gGB^%>MU4dqsR|nRH{N9a{BM#L%GG`n(;yb?gK3%x5
z9^@ql4>z{~uyW)XUfoZi2ficEwDtBTqSf?mX{i%Zx|qKe5j<$saOA|UTuDr%LLfkj
z;EN{WB1exNWmvoR4)jJ{A9JFS2@R0dA49f+->k7IaPCZtpQ$4KCtUMf^d2)@H5NwS
zzE#7s&qmdD(OPONumAwS4Huq7IrE(tedA?+ga9aKgC9gMaXnt;1xW9Lu;w+Rv16aQ
z`s1#yi%7nx!n#12#_}h_2<`$@-rB;fq#Di$+pEhZX-P%?zEf0m5Osc2L;qB~JJj4X
zX(&}p27Up`B^%5+?(Nd_3C>?Va_Fnr2kaca10vxvx=1JzyHJxz^B%S-3lW*owQv?<
z>B5gh{?+^X^>ySYO++h>?q?umkf=pgtXSdpqTs4bj{ESCyu5rOG&|td3~@2hJJWCe
zGKP}77k)>V+72IfbW{gaVP$%1yL8<|%z6tei%ostRkF7kycsBnTog*|TwK}n^)6Q0
ztp-W&fi~R$6fDfmFW^Z7tfeaZ<QZJa13BIeAzRy%Cqzz}1Ewc)ot!n>=ys=~>SX1j
zlDllp6IW!-tE3El3%+dsbqh=Z>Z03=i(!YNA#l5pnJGf_MZ~unR0}$<*}gCFtu9i9
z(t*Q3(_NgqwB9EidZu?ZE-!85XKnF0aU9~X3W4x5V6BL*stYk#_jPh-rvVOUwg<Me
zp%M^WYi6tT!e^rM46ot|JworG@zMibPeiiSqn4IS2*z<6Ra2$x>h)x0Wf!rUh(0{&
zS&D2p8cY-D>)rtsW`G`=cDeyOUqLNef{Vy%hM+(HhJ~58x3{RWvgJ(h;DeA`xI#JL
z8N8wA!$agGJQ*aKIyf3sDmyznIRosRocl4g#$1Q?)Exs+dESCr)W47`ijYlNZ6I~9
zcTgZzde5F)V6bs))fO{0`#=IjrMTes;B9E)<7ea7$E+TWM=)B=eDJ^l&edJBK$7H_
zdLu3kf9-w8ovff1h-MG?6T~+b)xaeKZkY!Y3cn)Ou;rk`<PDh6Wj{tpIib(e(N(AC
zg=o@%q{|+hn=%JHCUlt?{C&x~ZX;3lrrn%2A5s5ngeM_+aPbucg5<^?cuf$!-auK(
zP?-P(TFrdla^SiaLW<P9hVnqn4^m}C^v$bRsBnlr*MGw#-*dj&zO{e)k5lLN?c0ZG
z3&cHNnk?J4E<G{#37A}%8a|xCeS=jz-8<^nvR)036gAi6QbmO#zmlh#{4!v}VGoak
ze}4Z=iTD(+f2kphhRNLiQfQbisizA-{rqWh@eX0VQ*V(IaQ(&&!up{?bVYrcu?QU7
zNh~+JyDy=UoQr;}H);Q=s;FE?UAYg(4}%7Xhnkg>Fht74mA)Juy#`3l(9`qYK*e|v
zeC&Fm6uqRA`EFuD)I=z;^j1<=RIXd-GIl<YCrg-X97a>VujpLqg9BVd^fL;v63Rd>
zyj)mV*txzIf9}Ykgbw*(S66LH#1K;A_IHz$+D5r1y>Crk$i8@|9|@SW1rqJ<uC8>D
z2W*D(0Toa!eTR@LvgITo0Z6%m3%}$z3^Nse<y(D3Q%#+TZwEW?Ug!*UyZrHRQ8Q^D
zK6XqOGL&~yQ{uI425-LaUS2dVDJ#qD?;qiKffvM@A;g?1_l2Py)C`z<07#vnhidx7
zWsV3)@yv)yLkz-<0|yRN;*>zTZuaJ7t|8hJvIy{n-aXDAOm~1SFt@Ub9b`9tS$RA!
zxX3B+NI`YoqF>VQwNZbqN<0{oJ!wuW<rR9O&13#>5oa_t47ZeMEUNEk6a(`K?A*x%
z_(C*0l09ax-^>0{*nR1)|M{t7>M1QmNt8~76|XPp9+3W&<<e3r0wpcEN2um2S!0r7
zpsvc_qCwXgl(bV>nKR%vU5_6A$mi&p;y%t~eQ2?0?;dx2-T)Z}X<Z|ZSNlqi#-0BV
z*YZz|e!oP{7KKV=`$MNV&6yfMem(M^IvD6}OvC=W=I?Ec=s%=VvSuPgCiaj2Zn_2v
ziGTaifE9>9G>G>Fv&T(xiSQCF>*uNG5Z+R*UR^U}7pYPgoj3h)4<0m_6|jVPpWGpJ
z3|M%l5{yD=<?!W&B`=?&xlMzQjvdl>o&KItFtnuq-~>o&Q8aLE-n=~R{zsx^dKub4
z0jx=e)<#_5ziDj<P5Ymsm<uj9p+OlXJx&vG(}0US8#k^4XzqtJ?(t)Kpv8wsG5Idc
z=7t2s;o3PIJxX^~Z#Cv6VAy>?K4HqEbmBb#XvQ~Eh&6`OJ?!pg1#*QaUL(qZyps?r
zCkectccLD=c6R#yQN~*nu07&qa&7=2q+~@7B@3K%bhWfXfjOXX*0Islp7%kd1+$f2
ze*dQ>{@On9%?R7pZ!B`zHTX`N;?NN*lR}T8J27>@4}wZc=F_hNj3-S`t%e@!8uX_C
z%m!~>c1EeEhpMONK%}Fn22C*BpalYxJI0#FdC;AQ)YcQ4e@EAl<<DH0hLFWhOQJIb
zMkBDz9_>$Tj5Ku{wD1CYIfp_dcxjl9FlvMmf|8aNq#%r656F8U51^kO@e$Qg({Iq@
zDB0skS&DQ>WWH##IGi|P>kNHk{szCv$+XwjUGnXJYuNfLuXTIg{rw9{#q%Jxgp`!H
zpFVv`7CCq38gCWckD6sQU>jSK<`~M~^uIsUo1s#6aB?!no1VFvnre26(^lg3X4Ghl
z(2J)5@R2TSX(<(FhiKs`zlZAn0%e0w5rznc0h$Y!FK^yf1c8$Gq!FZ#d$(Lp2Lgfv
zw;lCWrT=Gf<XIY2V1N{(DC}EC)eCK;ZEG9wK++6E3G)hGhNB~!D%1#k|7Rd8!ZO6P
zqXD6pI4E*MFoSSPHcjXLxCK!L7V;2TI9j-bkHV9nA^U{zDU|}3?zvn=007EIz+OS|
z!~q7|^6<%%wVa%sD8_)R!ekyyowBYyEsJU}oD>PE*+70xPoJ*CFGQ~##=0EcSo!Wj
z$O!0Z!cf8tRCpwywL(8hjldOa930$el*^8qy%AMP<RWRMLfwL66A4^}tq1(1PEJYA
zu(@vfgRrvX^y3thGUP-$W80?_;kjV>|6Q{~RsW6`+zHcCeEf%?qc#OCvOsyXGVN_3
z85f|CFO55l%eKnE^C`Nnv|tv{y}ega(TX;X#w$F&9bkLu(fuU@KZyNF^$+l^z^684
zPsBA4z8Ksnv@;enpU9SEv|gjoKOw?;wk>*OlX5XM!>koo@svp|3r!rZ9#Pa(`{ZA+
zeNlDe)~y7{zQ_Z`kN}L2cxh>Asc%M}mz~}5U;Xnv2=9>Cu(!WN(i%q7K)rfO<#n+W
z9WEIW0H9QRi;Ul-;>_Py@<rnn8s71EcIn7no|qy)Qj<O2FH_d~aA3gF`-6}7uixDs
zSm#I@{V3_XU=oW%MurT~>(4E%-QHq*u)<^LEM61%&jg~`LuZ$Yz69kh;4W#EU_*8|
z)M=K1lHdDNpgsdHBWyjYtfXWQ2@6I8$cPg}DY&q)pXV?-A`i<>Mg%2fN%Wy?D|bk@
zq1izMKtRD*0J3S9?}zo7<a<Kfp$_;IdF&l%P=-k~BuI}QDk6;94TJwjAIV`)dyEra
z8{dxOYMAv9xZL*k!-s9vn+*EGHTk~MiHJ>Feg_=H=L{~sS%FASg-467^$;3pU3awE
zxOsRQaW+Bf?}hp!G;HHZR51J8-10i_pZfntML_7e(V_1?$Y=#ELPA92`Yn6zZ#P%;
zQe`~fszEuj0SK3#nYk7F3j{28Z`-D)^#kosoF!XW>)2`8p=*Kl9q}FymN`N1rC>)F
zY+JXPP*6p!1qY)J-GvwS`w(#tpr$mWbdf%KH<UR5svaRSlKB`R6%}ifDx;0q3epVA
zo3kjan>soe!B3q=`!afg88j<Wz(W8lukj~5>sg521^pH*kxIi{AVfMWlJ{Ym1Z=>E
zD*+Y`Y&T(*a7ZJe77%4;0K~O1ae!~aS@Z~@ZqZ|3iY0hE`1|D64N9IA^sgHM0A-In
z;TBxR38tr~C(IWM56>DXZ^5t_R|>wtCJr(pf{-$TLaV>RV-xytLfiJh{(`8iK@>HC
z>*z#phx~Infj#j0+`68N>m1&^J>ES1x^<jBD_*qh5NDz}ZK%KL?*qDxXs)DXXP?8M
zjU$8-=IBs>)DpV$eteuPLaq$_CI=vQ4tm*P$9|j@bh>E_I$sHciaou}4G<9eGoB;Q
zu%@=}F42Ai<#M|Jz%r%=OecAwM8H6s6ZB=6)RmAe%42N1v^$PhLHw@}h-9Nt{iY-O
zrtJJH%b@Fr90omg-P6sMSA!=antjrEvHV@ubnN7bB8-VNHZ~IXYSLZ9Jz@ulAA5Qf
zj`XA-2-PGvvYsZ!dOEBAI!Z>gQnrGE0Tg_QJnsd#4DBT=Nlx9myY8l5G1f@()#G5$
zC~n=_Vbnbj?Ew!|2xLVgl}e53CJj*NA~K+^Bnn-ep<)E*lkQL_Pl>8*F?q54!|i=r
zb;tvwmh-3z_d!yNnl38);H?p870+g8Zza?o#)N);4EZhb7k_5+As@WD6@b7<4=l)-
z8;OQ=EsxwvT<(@gMlM7El6>g<20_ddhG+NBxqa4ECs$!es0Ak>_Or0$Hqf_-r48ha
zqNh)~dZ4Vi4_sHGNlQy7`c(A(8z6xQ#oKVe&=<zzR#BjGUPBtoxZC9PUf&%=m{+u3
z`<5zJF*r`4RTTxxQ725>f-MX+=sINLJh&;*SMm)u+biwb6)Qf4uUL%pjoVoJ$Y*L|
z;%$CWy*dWyaCorPd}#%$^c55kf2;BDMj~<J_FhO#i~y*!2R6d&>_&oR^yuXGwB(x=
zs^c|8{zSa8%n=}6ddgd*IxQU?@!~Fb)H4_lV<x{CNwMMia}M;5GNu{R-d4lB+LY)E
z7Z(?GmL&&8ADJ_u$*m2(>o#f(2TM#RB3~D^lde1O*f)sSR)#`B+?z$WawSn>)SaGJ
zPbtUb97@APtUU)wA)MSXi5S2tsR)LdSIJX=g+<c3@&YdA7M%ys-O`YbK2aTj-RUIk
z)}1{N5}=4j%WZGU>QKy~YfQ^3C}g6m&B|i<zo{Ckc`{09-R|elGr=;f=^<+xpmj)0
zOuXZJ6<R;J9Xqn1;a$&yB$odeH925q%-;d;pYoF*L75Vpg)4UzW7*nNDiWNCv9Yn?
zO=wib1DQejpg?Z#=wQo2`!fNlu4sNoo~bfRdg|`U)T8&2J>Lxv3x2Oj-5sP1eNkfN
z6VQ12lnDeXD%E@B(HdGc(63D@fJ(wiI<B}bZhh&>2_%x}VT1V=3Oj~<M#?|FsnNvL
z$+mf8Bc9tOken-@d`E9nbuyA5)jX>Tsn3%=nlrT;zqja?V4tg;j7%Di`4y#vq9SRO
ziF)p-Ti%x!7D^VH7prR>O4^AYRg*kEx#j&MaV~GbBxM4{v$AxdjrjP{qll7{66ykm
z)jH8Yiq5gWHFk1mW@hG^Nrd@KvdAH-efQne53$Ob{5_~!yCKlB8Y$7xpi(cO&FK<=
z=2<qf$`uq9nn=EwLXzq3>A4Nojd4LM(+I^hQN|Eyko)V(izv*+0PIKI^JAZ#FHSaI
zgsvzlG5M;+)Yj2K)oK}U(HomomVWQq6k<K~m2uxWqn5gW%)1qyFU_t%aAgG6zYUbC
z=sCo`1H|qT{G<^`Knw-%Uj)mNT)EC?J}F1Qm#f~_$I~+nL5*?f@}*1kl)rDPTBZ2n
zV$%v(zmLO)E5d$s`5(NYtby|(a>W66Djl3mS1GtcLnu0;qb8uc*~-t)4@r?}%}*3c
zZLeO{JX)5Nh-cxj&Zb+nDta92wNANU`hmLmyN?TU31Oj`H=Ecq+sYOJx-|NXkp~39
zu})5=+T|>xZ3<36EKu5ixgcY<qURkq*YYbv@ub7<?)rcx0vRI@vUSwdLOq!--Mo1K
zsz$QOOi&dT<iN?Bt!r|AUBNi5)RP7DAy`6r`L~yGeDymo+9IxvzykTlQF+(ym52iq
zFADh}<dEPExJ_u#VoNkb@vh<#B85~{$>7k$Kv}*^9p;2x25WbQhS3~5cwH&o_j)?i
zQRqLC4iNTA#>>2EYRY)h+NU!zHYW1Z4tiba#kUnJK;-s+rHA1J->5PD6fA_b_4T<r
zlry|>jLzsK5UT5oX0C}4I&=WYOL*S0*l`EwK8ns3La!zg23nsq?284Y!3x5s3*(-o
zk%G|N+0*k74U%x&YGlvY@~by)FzM=c$Sq`b=NN8I=U}2BRm}s}Q9@soH-?f%VzpPm
zzba~^&>~4d!XgOykE|wlB?XGx42VSC`gqvb!ckVBK~&Z29^miK@Vla{Y!yYtf03Sv
zSKeS($nb-gF-z|*AB^~o4)#h+_)cK0*vQC;_#*ua016pg1Y-T%J7^B<)I!n+LUkHq
z$^=|Y5x`fZefVn^xDIV??Tk<ROvf*rtur!x1>-Ym-(b9jnD+IUIWV-vmx$Dq?NI)c
zjjO7w-D)>wR-vSWMhhb})@a}9r`SFS4l=YDLZycBLedaYKUQXxOGN@HKHSDiS(PA&
zZWISLy-A{0D800&rN6`Y$k9<0)Ze(aS=w@bJK*ORbyfCuuc`c-TAu2&XL;T4f<7bz
z5_8M{y@&r3j6J4g_98)bBJp*l_;461-OTgP<($pEoB9PH1ETu3c%bO}$4of${f{=j
zXgqBwy6K(9(^v&f{342vZBHUXA%F;u*AIUmTH>|-Tz9A9o$2`UUW>kN)LPBxMXu-J
ziN-73jA9xUBJ5Vgy>7H7Y-+_XAw6bH(4)!9jAVroDT7^E&aP0cME>>_W?e(32`Y=C
zakepz)%5C>RZ13yt3dX0)F_HiRzDjYthfI0rFu9<)XZsedYWjfpO@H>Ij<4Y_`@C>
z&&3JD0=owr$%1w83lT>XbZ`6b`2HV45%DCQNI&#+;pP3wu>%8$BlwuSW2QnE*=wpg
zB;^{Mon>TX)G$85!pa(k%1Z$Fj|f(7+V1Vb;xHl<(Vcl!1%^4|cQWVe_RRtUl!G@_
z8gV<`zI{u9Hdb0%dU&1}r4UH%5r6<C-w)jAe1;RTJ(>9Q_pdfMV^}G)My+bKu=Mw@
zA{VtHbk@7O-|l`)bLY@#dD%N)W`ea75}18wU#~%L2gkgrwKcm}v+%Io)&0}bf#*$=
z9P*qBh@m>BrE^(((70UB&tKS8PD9Ui6W$i$r!;y|cMeZalLdqJ5LsnDeRW%tnKV@)
z5o|(LOE4wr0)tlXU3x8rly)H3`4DO*oZ;v3x6PKAR5EXzLd_X7t84N81Io;K$k4AS
zKLZ>lKO2aR9x31;a~EjUaK1bNVTWr93*C!jOhHZ!cX4AfG6#2(5Gbhs8UQCS{B{n=
z`;Sft%}Pv23?&botv+pOd0rnfK;#ALXh5DxsZm-1x1pK8g;#-4sZWRj3pky*&!3y|
zs)paai@->Gvho$z|AVf&<?FukPqts{#E6{3oHhDgQpm1Us?ZtG*wCiPqOAr&s{n>(
zPG`=HbtGdDS8QeO<HuU4ZNM=#HZ{?Lw!mnM`dg_yDC`M{Lrospeys^Y8Zz{Uh2!aS
z`WSse`9hs8Eh%BWS-3hBi8qgb-xkb~q10VrAk)79OraZicM#J%=s^(Ch5ufnvw*{B
z2H!0Z2SkGz6(8S%MUH3i4@H0R0JQ*+es|8wjDfVT0jLeK5AZvLpwAJ(Nz~e8aTe*s
zA|XU=;^Nr@7OAnXj|-ue%>HArI~04V=>Q%zgM)X26)~9#JuiJ*ynNnBm{MxI)qE0n
zgF0mD6gG*g16l`F;Tlv2q=u)6?&#0W`yi&$5)NGmkRkSt67QD6F&_jesP(qV+Vr%0
zahNjZ<(VEZCgUZT8@eKGXItP?DGX^53OzM7H40dPSilxXFnqi>ULoe<n~R%`qoJ!_
z`m4$L5L7%^Ar$!$)5r~Ysp;9-befv2CufRuELzJl#!R#&Uy3^yN}%0NYF_-tVw!o~
zS4W0NXJ=+?j(7GFE04y;y|+JO@bzrGNlcdW`JpRb@7JB+tUlYF_^QC-Lh{L{(?9!`
zENoFjspFB7VJOrphVq<_AZenVgmYty2D-`rSmRr0t!jks!+JDur$l)1pVl4Fk&dAK
zQt35%cEHvU01Ad7Y;iPJ<`!OhBCrGKrLgnxh^Yt~CYH}K_liwh@>0l16C|1$pe;eS
zuzcnfp8{w{3m7IVNpo^>ki%)qC!mcx@PN*zN8;r9=Y?FN%N_;_r-P`}i1phc+9j)a
zVpl&uDl!UgTU;9=6g+=O=@mijZ-yNO>=`mnJOCcx#z+9<&5<Z%$+~F3t#HiAAb-m`
zx3iPhJf=-P*8h+~4GOGB1I_Wul`HKbPVcYv+fI7k0376yBVIItJ0vq<IQdv8N((d@
ziC!RtUr-&`MGdB|q~I0&pGZG+Hh5w#hzTf`h!p@*9WYDAv;7Dek_Vs2Hjb0dk04Jx
z7eGrzSFd5_m8Zu%q6ktXF&pX4Kg0}B--zc<gemy1Mb@p4Iy=|HPKKy6K~T#C|2z$r
zlCh}P=dZum20^S{Ig4`^V_AYB9?bP700@)GHe#=d(+dj(dskO7%R|Jb#O#LXGvB>C
z40obNh@?=s+E#tai?68($n+T1zX**0LMIXWR00P>EFoPh+X4y`-5c`<!Kxr|JwH#G
zV!qIzv^G3^1(Fu}rBP6%LLvcc9eXt23DJjv48lR<-yuV&u$bg{I^Cg?im8HgXs;7k
zgwIX%c3bpQBQS0gT^$42Jmci#B<5oTv4J^K=Mq@7riKQ})&tko&^VUCG=Crl<(l}s
z@XK{J+zW*I|1>smbpk@62RMott^O^$tx6St5o>e_5lKb`&5CT}&~1q>M-j0V!=n!o
zC!h|1gg8E@!X7mBTL@<Hyve?8&r_#b5p3pwT8W<!^sdfVAApu{$R$^@x5HZ44&Vfb
zAq?q>G!8Z}6J0LX3$WEBIAhpD5EdeE{%9n@3}A|3n(UYdgbIg55!O4K$Q&8yR;mZH
z<9X9P(Nv@HQ7<E1U9H8>dm{sSw1h`m=VJnsC#Ltgx#rH_K9!1{=)Ark2jjqC(NYlD
zC_wpvSilNk(}>b;9%FF%HsyDg@|Ymi(Zs%GVx3Biv!QIR#Lt2xHXE^@B4--%b@J}f
z#sz(|f=mHI!oH3|d^qs=&w*uFkMnjGW>0tR9;`!i42>}YG01ol$>C5631)qn?qdee
zExtWI_a~|ZJR%V?QUuLB8~JKvE@;QIf$BX5*#*a3DI}AFJphFo0YO4y^=@?Q0c{*H
zNrRk*!i-ux*nm+c=-@TY%~NCwqOGOQfpdj!^C0oXK?WjD1D&!`?U0v&T?VVR7t(!u
z7Z-YzyIm^ymfV=bz)&Is<|WA(6ka26)#==0^@{Df31-da968b9>9#e#ae;w>kbcKN
zCQ$`XCPe*6@8_YXpxzMF)zt-sz|PGr%4>2c*Q6VdBNw$5kxC$-zZ)Ih2kgQ=UWH*H
z6tw5io7IAv0fulcSP$Ox_7dEOvQfWXwwB7qkM_iHNW?HLo&NnR2*bC0C}N=K;X{i|
zYsP*I5~5y^(xei``R>LsF`V+4`~RdbG3R_P@MI`(f$4d!@j22?M)#i#v^d-(10G0P
zZJnJLVBR$W(G@3C1Ue)-sF~Ig4GB6BWhdTP%2OQR3qX_v$nd054HT4%3*ZfvlTi2Z
zd!I6X$l+GG4b|7Rys~#bh7&_p*CQB^svPX~BnnzCrpLUjtm=51U<_br6AQ}C?)cmG
ze^;W=%>H*JN-1!^kkOtc=YNP%+Urrb8G-yHV`1cVRabXo6M5u9_MAsp*eT|i-H<m?
zP39_crRwH}ju_%=3IlZ!F^Pl2UPND_1rV$&_-mJ<VlvsujbDc{Wj`wLEHH9WPcK53
zGd1*J4|xQTdSWo2i|?I+q+}fFOXoqW4scC|IZ-`Dp{R@2TBgjPgck%eF&yC9YI+%S
z!KA&Yx-oL07K?E(IwZJn-@cN2_tKyt%8|U!yg^9~sAx;Bi4J~88i<S}326n{-P^z9
z<xlt}-MFqNJu*6}5vZcNGssfK;9JP8t=R_|7Y=XTdQA1BPUa;d9_Fgc0goICJ##Js
zq)7eGy&5)wri$i%U1#zP-;M2>8kvRcJQpbi5)K^sD0C!TA+gLHe-A5VK`4-jI0{Ov
zf%>2tQQ|B@2oEBq!bf#`T`9}2a@s%(&n+8G9ipT`uO2!omeo#u!tpd|V9`kM(Sa5L
zhr$*3A#*l+$1HP9_d82VXN<Yt$<Nn?ON8j>3K1bou*@$91{l6FKo=st!#)VTZHytY
zQidxqqp;S`-~W<{cxKacUT1zM{nb%JNWtLrF5;|s78)-qt74}WdGvx`0s;bh@U0@f
zeO7$516J`4GG%j>nAMGHmz~<`^jsLx74P2j<jJt~D^~7#9T=*bhYuA-a4{Nflm#$=
zygH2j7MVTs!93-cvw7NM<JU%f&ObYEs_1_G5YL)5mAeCcizk^lr6Ov>62$LM!IqAg
zNg)XwI%Oum1I!_Wj!x+IJioz_<qUbkPnV7Vuqd(Bfs_=wt4)|(_7q{4;P{85PyaFM
z!F16bM-r)aoBWHKtbAV{!&KWpTm3VZZ(ceS$pp(MJg0yC`4(FB0iQhskLdj<^|2j8
zf4z3md${JNI!(A`S?NWMmVQ3s%k!Td{H!Z`3oWhZA8`kWBrV79|3{Y}_A;Sl47};!
zCE|5av@X8myy?c>5B}+w;kFV3a}+fMN`?1-T#Ur?DhpzIz-VRX=QC2^Hj+DjU8W@^
zCC}O@$(W<r305C_4;>;o^7P^a3k4F(eK0Ngi@04DE3&Z&qE(8@E9~mkm%4Va5BYWL
z=FN@hVPWnTgSpK7{Ik0nxbuU7z5vzW6w=ufP?aYfd~9RBY!p57rrnRwnD{Sa6MI-7
zK<IX2gQH#t*iEc=X3jLScw+%)qB8(<kb$6&K4&yd3f|Fo@8566tRMsh_#|~*i=RJN
zZDn^#(#kdYH0lS#oEYFrGk;fNk?{}NLq6-z2HAi8uTTR0ueiR<hxGpPYF+qXq)Ng6
OX=@yy-c`2``+oqs@&#7_

literal 0
HcmV?d00001

diff --git a/tests/triton_tests/plot3.py b/tests/triton_tests/plot3.py
new file mode 100644
index 0000000..beaa811
--- /dev/null
+++ b/tests/triton_tests/plot3.py
@@ -0,0 +1,193 @@
+import matplotlib.pyplot as plt
+import pandas as pd
+import numpy as np
+import os
+import matplotlib.lines as mlines
+import matplotlib.gridspec as gridspec
+
+cmap=plt.get_cmap('cool')
+
+if __name__ == '__main__':
+
+    fig = plt.figure(tight_layout=True, figsize=(12,3.5))
+    gs = gridspec.GridSpec(1, 3)
+
+
+    rdf1 = pd.read_json('tests/triton_tests/info_mlp_autocast_ln.jsonl', lines=True)
+
+    ax = fig.add_subplot(gs[0, 0])
+
+    # now plot the % speedup for different batch sizes
+    for j, batch_size in enumerate([2**15, 2**17]):#, 2**15, 2**17, 2**17]):
+        all_xs, all_ys = {}, {}
+        for k, marker, ls, color, name in [
+            ('standard_compiled', 'o', '-', 'C0', 'standard compiled (total time)'),
+            #('standard', 'o', '-', 'C1', 'standard (total time)'),
+            ('my_standard', 'o', '-', 'C2', 'my standard (total time)'),
+            ('sb', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
+        ]:
+        
+            xs, ys = [], []
+            df = rdf1[rdf1.batch_size == batch_size]
+            for embed_dim in [1024, 1280, 1408, 1664, 2048]:
+                df_ = df[df.dim == embed_dim]
+                xs.append(embed_dim)
+                y_ = 0
+                for k_ in k.split('+'):
+                    y_ += df_[k_].values[0]
+                ys.append(y_)
+
+            all_xs[k] = xs
+            all_ys[k] = ys
+            #ax.plot(xs, ys, color=color, label=f'batch * sequence length = {batch_size}', marker=marker, markersize=5 if marker=='s' else 5)
+        
+
+        color= cmap(float(j))
+        speedup_over_my_standard = [-100 * (all_ys['sb'][i] - all_ys['my_standard'][i]) / all_ys['my_standard'][i] for i in range(len(all_ys['my_standard']))]
+        speedup_over_compile = [-100 * (all_ys['sb'][i] - all_ys['standard_compiled'][i]) / all_ys['standard_compiled'][i] for i in range(len(all_ys['standard_compiled']))]
+
+        ax.plot(xs, speedup_over_my_standard, color=color, label=f'batch * sequence length = {batch_size}', marker='o', markersize=5 if marker=='s' else 5)
+        ax.plot(xs, speedup_over_compile, color=color, label=f'batch * sequence length = {batch_size}', marker='o', markersize=5 if marker=='s' else 5, linestyle='--')
+
+
+    #ax.legend()
+    ax.set_xlabel('dim', fontsize=13)
+    ax.set_xscale('log')
+    ax.grid()
+    ax.set_ylabel(r'% speedup', fontsize=12)
+
+    ax.tick_params(axis='x', labelsize=11)
+    ax.tick_params(axis='y', labelsize=11)
+
+    ax.set_xticks([1024, 2048])
+    ax.set_xticklabels([1024, 2048])
+    ax.set_xticks([], minor=True)
+    ax.set_title('MLP Block', fontsize=10, loc='left', y=1.07, pad=-20)
+
+
+    ##########################################
+
+    rdf2 = pd.read_json('tests/triton_tests/attn_info_ln.jsonl', lines=True)
+
+    ax = fig.add_subplot(gs[0, 1])
+
+    for j, batch_size in enumerate([2**15, 2**17]):#, 2**15, 2**17, 2**17]):
+        all_xs, all_ys = {}, {}
+        for k, marker, ls, color, name in [
+            ('standard_compiled', 'o', '-', 'C0', 'standard compiled (total time)'),
+            #('standard', 'o', '-', 'C1', 'standard (total time)'),
+            ('my_standard', 'o', '-', 'C2', 'my standard (total time)'),
+            ('sb', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
+        ]:
+        
+            xs, ys = [], []
+            df = rdf2[rdf2.batch_size == batch_size]
+            for embed_dim in [1024, 1280, 1408, 1664, 2048]:
+                df_ = df[df.dim == embed_dim]
+                xs.append(embed_dim)
+                y_ = 0
+                for k_ in k.split('+'):
+                    y_ += df_[k_].values[0]
+                ys.append(y_)
+
+            all_xs[k] = xs
+            all_ys[k] = ys
+            #ax.plot(xs, ys, color=color, label=f'batch * sequence length = {batch_size}', marker=marker, markersize=5 if marker=='s' else 5)
+        
+        color= cmap(float(j))
+        speedup_over_my_standard = [-100 * (all_ys['sb'][i] - all_ys['my_standard'][i]) / all_ys['my_standard'][i] for i in range(len(all_ys['my_standard']))]
+        speedup_over_compile = [-100 * (all_ys['sb'][i] - all_ys['standard_compiled'][i]) / all_ys['standard_compiled'][i] for i in range(len(all_ys['standard_compiled']))]
+
+        ax.plot(xs, speedup_over_my_standard, color=color, label=f'batch * sequence length = {batch_size}', marker='o', markersize=5 if marker=='s' else 5)
+        ax.plot(xs, speedup_over_compile, color=color, label=f'batch * sequence length = {batch_size}', marker='o', markersize=5 if marker=='s' else 5, linestyle='--')
+
+
+    speedup_compiled = mlines.Line2D([], [], linestyle='--', color='gray', label='speedup over compiled')
+    speedup_baseline = mlines.Line2D([], [], linestyle='-', color='gray', label='speedup over baseline')
+    batch_size_4 = mlines.Line2D([], [], linestyle='-', color=cmap(0.), label=f'batch = {int(2**15 // 256)}, sequence = {256}')
+    batch_size_8 = mlines.Line2D([], [], linestyle='-', color=cmap(1.), label=f'batch = {int(2**17 / 256)} sequence = {256}')
+
+    # Create the legend with the proxy artists
+    
+    # adjust plots so that they dont get squished by putting the legend under both
+
+    
+    plt.subplots_adjust(left=0.2)
+    plt.subplots_adjust(right=0.8)
+
+    fig.legend(handles=[speedup_compiled, speedup_baseline, batch_size_4, batch_size_8], ncol=2, loc='upper center', bbox_to_anchor=(0.35, 0.255))
+
+    ax.set_xlabel('dim', fontsize=13)
+    ax.set_xscale('log')
+    ax.grid()
+    ax.set_ylabel(r'% speedup', fontsize=12)
+
+    ax.tick_params(axis='x', labelsize=11)
+    ax.tick_params(axis='y', labelsize=11)
+
+    ax.set_xticks([1024, 2048])
+    ax.set_xticklabels([1024, 2048])
+    ax.set_xticks([], minor=True)
+
+    ax.set_title('Attention Block', fontsize=10, loc='left', y=1.07, pad=-20)
+
+
+
+    ##########################################
+
+    
+
+    ax = fig.add_subplot(gs[0, 2])
+
+    for j, batch_size in enumerate([2**15]):#, 2**15, 2**17, 2**17]):
+        all_xs, all_ys = {}, {}
+        for k, marker, ls, color, name, b in [
+            ('standard_compiled', 'o', '-', 'C0', 'standard compiled (total time)', False),
+            ('standard_compiled', 'o', '-', 'C0', 'standard compiled (total time)', True),
+
+            #('standard', 'o', '-', 'C1', 'standard (total time)'),
+            #('my_standard', 'o', '-', 'C2', 'my standard (total time)'),
+            ('attn', 'o', '-', 'C4', 'SwitchBack int8 (total time)', True),
+        ]:
+            rdf = rdf2 if b else rdf1
+        
+            xs, ys = [], []
+            df = rdf[rdf.batch_size == batch_size]
+            for embed_dim in [1024, 1280, 1408, 1664, 2048]:
+                df_ = df[df.dim == embed_dim]
+                xs.append(embed_dim)
+                y_ = 0
+                for k_ in k.split('+'):
+                    y_ += df_[k_].values[0]
+                ys.append(y_)
+
+            all_xs[k + str(int(b))] = xs
+            all_ys[k + str(int(b))] = ys
+            #ax.plot(xs, ys, color=color, label=f'batch * sequence length = {batch_size}', marker=marker, markersize=5 if marker=='s' else 5)
+        
+
+        print(all_ys.keys())
+        all_ys['standard_compiled'] = [x + y for x, y in zip(all_ys['standard_compiled0'], all_ys['standard_compiled1'])]
+
+        speedup_over_my_standard = [100 * all_ys['attn1'][i] / (all_ys['standard_compiled'][i] + all_ys['attn1'][i]) for i in range(len(all_ys['standard_compiled']))]
+        ax.plot(xs, speedup_over_my_standard, color='gold', label=r'% time occupied by attention', marker='H', markersize=8)
+
+        speedup_over_my_standard = [100 * all_ys['standard_compiled1'][i] / (all_ys['standard_compiled0'][i] + all_ys['standard_compiled1'][i]) for i in range(len(all_ys['standard_compiled']))]
+        ax.plot(xs, speedup_over_my_standard, color='indianred', label=r'% time occupied by attention block', marker='P', markersize=8)
+
+
+    ax.legend(bbox_to_anchor=(1.02, -0.27))
+    ax.set_xlabel('dim', fontsize=13)
+    ax.set_xscale('log')
+    ax.grid()
+    ax.set_ylabel(r'% time', fontsize=12)
+
+    ax.tick_params(axis='x', labelsize=11)
+    ax.tick_params(axis='y', labelsize=11)
+
+    ax.set_xticks([1024, 2048])
+    ax.set_xticklabels([1024, 2048])
+    ax.set_xticks([], minor=True)
+
+    plt.savefig('tests/triton_tests/plot3.pdf', bbox_inches='tight')
+
diff --git a/tests/triton_tests/rowwise.py b/tests/triton_tests/rowwise.py
new file mode 100644
index 0000000..c5acb8e
--- /dev/null
+++ b/tests/triton_tests/rowwise.py
@@ -0,0 +1,43 @@
+
+import time
+import torch
+import torch
+import torch.nn as nn
+import bitsandbytes.nn as bnn
+from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear
+
+from bitsandbytes.nn.triton_utils.v0.quantize_rowwise_nogroup import quantize_rowwise_nogroup
+
+
+# 256 * 256 * 4096 _> 0.7
+# 256 * 128 * 8192 -> 10
+if __name__ == '__main__':
+    torch.manual_seed(0)
+
+    # hparams
+    repeat = 16
+    dim=8192
+    layers = 4
+
+    batch_size = 256 * 128
+
+    # simulate forward pass
+    x = torch.randn(batch_size, dim, dtype=torch.float16).cuda()
+
+    for _ in range(repeat // 2):
+        quantize_rowwise_nogroup(x)
+
+    torch.cuda.synchronize()
+    start = time.time()
+    for _ in range(repeat):
+        quantize_rowwise_nogroup(x)
+    torch.cuda.synchronize()
+    end = time.time()
+
+    print(f"time: {(end - start) / repeat * 1000:.3f} ms")
+
+
+
+
+
+    
\ No newline at end of file

From b373034e31c0d0796363e389f4b6f02acfd77a71 Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-47-23.ec2.internal>
Date: Wed, 29 Mar 2023 19:04:53 +0000
Subject: [PATCH 24/97] test

---
 tests/triton_tests/attn_decomp.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/triton_tests/attn_decomp.py b/tests/triton_tests/attn_decomp.py
index 9e8ed28..fa86995 100644
--- a/tests/triton_tests/attn_decomp.py
+++ b/tests/triton_tests/attn_decomp.py
@@ -97,7 +97,7 @@ class Attention(torch.nn.Module):
 
     def forward(self, x, attn_mask = None):
         q, k, v = self.in_proj_linear(self.ln(x)).chunk(3, dim=-1)
-        x = torch.compile(torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask))
+        x = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask)
         x = self.out_proj(x)
         return x
 

From 8645d1f71cc78155887bc3ba082b1a610a05e31f Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 29 Mar 2023 18:41:37 -0700
Subject: [PATCH 25/97] Added normal quant.

---
 bitsandbytes/functional.py | 76 +++++++++++++++++++++++++++++++++++---
 csrc/kernels.cu            |  4 +-
 csrc/ops.cu                |  4 +-
 tests/test_functional.py   | 10 ++---
 4 files changed, 80 insertions(+), 14 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index b38ba1d..969250a 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -9,6 +9,8 @@ import random
 import torch
 import itertools
 import math
+import scipy.stats
+import numpy as np
 
 from functools import reduce  # Required in Python 3
 from typing import Tuple
@@ -152,6 +154,70 @@ def create_linear_map(signed=True, total_bits=8, add_zero=True):
         #return torch.Tensor(values[:l].tolist() + [-1e-6]*((gap//2)-1) + [0]*2 + [1e-6]*((gap//2)-1) + values[l:].tolist())
         return torch.Tensor(values[:l].tolist() + [0]*gap + values[l:].tolist())
 
+def custom_map(seed=0, scale=0.01):
+    v = [12, 10, 8, 6, 3, 2, 1]
+    # 16-bit 7B 22.33, 4-bit best 22.88, FP4 23.25, 4-bit 95 22.97, 4-bit evo 22.45
+    # 16-bit 13B 70.35, 4-bit best 67.16, FP4 100.78, 4-bit-95 69.39, 4-bit evo 70.48
+
+    # 13B 100 steps:
+    # - 4-bit evo: 86.02
+    # - 4-bit norm: 78.73
+    # - 4-bit FP4:
+    # - 16-bit:
+
+    # interval search on normal distribution
+    #v = [3.090232306167813, 1.4589770349449647, 1.064410327932115, 0.7896806653244509, 0.5646884166925807, 0.3653406435875121, 0.17964844284441311] # 0.999 26.5
+    #v = [2.3263478740408408, 1.4050715603096329, 1.0364333894937898, 0.7721932141886848, 0.5533847195556727, 0.3584587932511938, 0.1763741647808615] # 0.99 24.99
+    #v = [1.6448536269514722, 1.2040469600267016, 0.9208229763683788, 0.6971414348463417, 0.5039653672113453, 0.3280721075316511, 0.16184416680396213] # 0.95 24.53 22.97
+    #v = [1.4050715603096329, 1.0803193408149558, 0.8416212335729143, 0.643345405392917, 0.4676987991145084, 0.3054807880993974, 0.1509692154967774] # 0.92 24.81
+    #v = [1.2815515655446004, 1.0062699858608395, 0.7916386077433746, 0.6084981344998837, 0.4438613119262478, 0.29050677112339396, 0.14372923370582416] # 0.9 24.68
+    #v = [1.8807936081512509, 1.2980047163986055, 0.9769954022693226, 0.7341502955472268, 0.5285136765472481, 0.343225833559403, 0.16910470304375366] # 0.97 25.03
+    #v = [1.7506860712521692, 1.2496468758017434, 0.9485350408266378, 0.7155233557034365, 0.5162006366043174, 0.3356393360829622, 0.16547334454641704] # 0.96 24.85 23.01
+    #v = [1.5547735945968535, 1.1608220210715001, 0.893800631179489, 0.6789921163940618, 0.4918050830048072, 0.3205236191093902, 0.15821711945563585] # 0.94 24.47
+    #v = [1.475791028179171, 1.1196635980209986, 0.8674156943957149, 0.6610637542614526, 0.4797170937629045, 0.31299335020578195, 0.15459215234139795] # 0.93 24.85
+    #v = [1.5981931399228175, 1.1821583959486879, 0.9072289939325966, 0.6880384454306778, 0.49787602226482025, 0.3242955535308664, 0.160030379970179] # 0.945 24.287
+    ##v = [1.6164363711150211, 1.1908453913294612, 0.9126463450304729, 0.6916727602238111, 0.5003095327012462, 0.3258056171348078, 0.1607558311941979] # 0.947 24.293
+    #v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.207
+    #v = [1.6118251211466303, 1.188665228776879, 0.9112895004060624, 0.690763326564427, 0.4997008778346997, 0.3254280317127771, 0.16057446047146948] # 0.9465 24.30
+    #v = [1.6027040905517569, 1.184321770169049, 0.9085808314549837, 0.6889461706317986, 0.4984841229538408, 0.32467299997597887, 0.1602117348657326] # 0.9455 24.293
+    #v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.37 22.88
+
+    # 7B evo start 
+    #v = [1.62129629, 1.18870191, 0.90848106, 0.69108646, 0.50515268, 0.34927819905,  0.14122701] # 22.06
+    #v = [1.6143079205628337, 1.1888081407660314, 0.8990131955745421, 0.694373759813679, 0.5083033257326773, 0.3452499746844963, 0.1148939728228951]      
+    #v = [1.614442766030303, 1.189401918639665, 0.8998038168964273, 0.6953094818279475, 0.5073264599048384, 0.3449003790823619, 0.11428378427205564]
+
+    # 13B evo start
+    #v = [1.6077535089716468, 1.1914902148179205, 0.8999752421085561, 0.6967904489387543, 0.4949093928311768, 0.30920472033044544, 0.15391602735952042]
+    #v = [1.586363722436466, 1.202610827188916, 0.9003332576346587, 0.6904888715206972, 0.49490974688233724, 0.2971151461329376, 0.15683230810738283]
+    v = [1.5842247437829478, 1.2037228884260156, 0.900369059187269, 0.6898587137788914, 0.4949097822874533, 0.2959061887131868, 0.15712393618216908]
+
+    # mean evo 7B + 13B
+    #v = [1.5993337549066253, 1.1965624035328402, 0.9000864380418481, 0.6925840978034195, 0.5011181210961458, 0.32040328389777434, 0.13570386022711237]
+
+    # theoretically optiomal (0.93333)
+    # v = [1.501085946044025, 1.1331700302595604, 0.8761428492468408, 0.6670160135425023, 0.48373855304610314, 0.3155014472579608, 0.15580024666388428] # 0.9333333333333333
+
+
+
+    if seed > 0:
+        v = np.array(v)
+        np.random.seed(seed)
+        v += np.random.randn(7)*scale
+        print(v.tolist())
+        #v[0] +=  (np.random.randn(1)*0.001)[0]
+        #v[-1] +=  (np.random.randn(1)*0.001)[0]
+    #print(v[0], v[-1])
+        v = v.tolist()
+    values = v + [0]*(256-14) +  \
+             v[::-1]
+
+    values = torch.Tensor(values)
+    values[0:7] *= -1
+    values = values.sort().values
+    values /= values.max()
+    assert values.numel() == 256
+    return values
 
 def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8):
     e = exponent_bits
@@ -168,7 +234,7 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
     values = []
     lst = list(itertools.product([0, 1], repeat=precision_bits))
     #for ev in evalues:
-    bias = 2**(exponent_bits-1)+1
+    bias = 2**(exponent_bits-1)-1
     for evalue in range(2**(exponent_bits)):
         for bit_pattern in lst:
             value = (1 if evalue != 0 else 0)
@@ -176,10 +242,10 @@ def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8)
                 value += pval*(2**-(i+1))
             if evalue == 0:
                 # subnormals
-                value = value*2**-(bias)
+                value = value*2**-(bias-1)
             else:
                 # normals
-                value = value*2**-(evalue-bias-1)
+                value = value*2**-(evalue-bias-2)
             values.append(value)
             if signed:
                 values.append(-value)
@@ -502,7 +568,7 @@ def quantize_blockwise(A: Tensor, code: Tensor = None, absmax: Tensor = None, ra
         out = torch.zeros_like(A, dtype=torch.uint8)
 
     if A.device.type != 'cpu':
-        assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64]
+        assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64, 32]
         cblocksize = ct.c_int32(blocksize)
         prev_device = pre_call(A.device)
         code = code.to(A.device)
@@ -585,7 +651,7 @@ def dequantize_blockwise(
     if A.device.type != 'cpu':
         device = pre_call(A.device)
         code = code.to(A.device)
-        if blocksize not in [2048, 4096, 1024, 512, 256, 128, 64]:
+        if blocksize not in [2048, 4096, 1024, 512, 256, 128, 64, 32]:
             raise ValueError(f"The blockwise of {blocksize} is not supported. Supported values: [2048, 4096, 1024, 512, 256, 128, 64]")
         is_on_gpu([A, absmax, out])
         if out.dtype == torch.float32:
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index a2691be..8f33161 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2953,6 +2953,8 @@ template __global__ void kQuantizeBlockwise<half, 128, 2, 0, 0>(float * code, ha
 template __global__ void kQuantizeBlockwise<float, 128, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 64, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 64, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<half, 32, 1, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template __global__ void kQuantizeBlockwise<float, 32, 1, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 
 template __global__ void kQuantizeBlockwise<half, 4096, 4, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 4096, 4, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
@@ -2968,8 +2970,6 @@ template __global__ void kQuantizeBlockwise<half, 128, 2, 0, 1>(float * code, ha
 template __global__ void kQuantizeBlockwise<float, 128, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<half, 64, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 template __global__ void kQuantizeBlockwise<float, 64, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-//template __global__ void kQuantizeBlockwise<half, 64, 1, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-//template __global__ void kQuantizeBlockwise<float, 64, 1, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
 
 template __global__ void kDequantizeBlockwise<half, 512, 64, 8, 1>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
 template __global__ void kDequantizeBlockwise<float, 512, 64, 8, 1>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 07ef850..8044c66 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -71,8 +71,8 @@ template <typename T, int STOCHASTIC, int FP4> void quantizeBlockwise(float * co
     kQuantizeBlockwise<T, 128, 2, 0, FP4><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 64)
     kQuantizeBlockwise<T, 64, 2, 0, FP4><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
-  //else if(blocksize == 32)
-    //kQuantizeBlockwise<T, 32, 1, 0, FP4><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
+  else if(blocksize == 32 and FP4 == 0)
+    kQuantizeBlockwise<T, 32, 1, 0, FP4><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
 
 
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 54cecca..cd4728e 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -152,7 +152,7 @@ def test_dynamic_quantization():
 
 def test_dynamic_blockwise_quantization():
     #print('')
-    for blocksize in [4096, 2048, 1024, 512, 256, 128, 64]:
+    for blocksize in [4096, 2048, 1024, 512, 256, 128, 64, 32]:
         diffs = []
         reldiffs = []
         for i in range(100):
@@ -167,8 +167,8 @@ def test_dynamic_blockwise_quantization():
         relerr = sum(reldiffs)/len(reldiffs)
         assert abserr < 0.011
         assert relerr < 0.018
-        #print('randn', blocksize, sum(diffs)/len(diffs))
-        #print('randn', blocksize, sum(reldiffs)/len(reldiffs))
+        print('randn', blocksize, sum(diffs)/len(diffs))
+        print('randn', blocksize, sum(reldiffs)/len(reldiffs))
 
         diffs = []
         for i in range(100):
@@ -184,8 +184,8 @@ def test_dynamic_blockwise_quantization():
         relerr = sum(reldiffs)/len(reldiffs)
         assert abserr < 0.0035
         assert relerr < 0.015
-        #print('rand', blocksize, sum(diffs)/len(diffs))
-        #print('rand', blocksize, sum(reldiffs)/len(reldiffs))
+        print('rand', blocksize, sum(diffs)/len(diffs))
+        print('rand', blocksize, sum(reldiffs)/len(reldiffs))
 
 
 def test_dynamic_blockwise_stochastic_quantization():

From a13a522c4c3dfc5cc90e5b88ee29c45df15c6b75 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 31 Mar 2023 11:20:54 -0700
Subject: [PATCH 26/97] Added first triton test.

---
 bitsandbytes/nn/triton_based_modules.py      | 85 +-------------------
 tests/triton_tests/attn_decomp.py            |  6 +-
 tests/triton_tests/full_matrix_decomp.py     |  4 +-
 tests/triton_tests/mlp.py                    |  6 +-
 tests/triton_tests/mlp_decomp_autocast.py    |  8 +-
 tests/triton_tests/mlp_decomp_autocast_ln.py |  8 +-
 6 files changed, 19 insertions(+), 98 deletions(-)

diff --git a/bitsandbytes/nn/triton_based_modules.py b/bitsandbytes/nn/triton_based_modules.py
index 9fe0b69..0344464 100644
--- a/bitsandbytes/nn/triton_based_modules.py
+++ b/bitsandbytes/nn/triton_based_modules.py
@@ -133,7 +133,7 @@ class SwitchBackGlobalLinear(nn.Linear):
 
 
 
-class LinearFunction(torch.autograd.Function):
+class StandardLinearFunction(torch.autograd.Function):
     @staticmethod
     def forward(ctx, input, weight, bias=None):
         X = input.view(-1, input.size(-1))
@@ -161,87 +161,8 @@ class LinearFunction(torch.autograd.Function):
 
         return grad_input, grad_weight, grad_bias
 
-class MyLinear(nn.Linear):
+class StandardLinear(nn.Linear):
 
     def forward(self, x):
-        return LinearFunction.apply(x, self.weight, self.bias)
+        return StandardLinearFunction.apply(x, self.weight, self.bias)
     
-
-
-
-class _switchback_mlp(torch.autograd.Function):
-
-
-    @staticmethod
-    def forward(ctx, X_3D, W1, B1, W2, B2):
-
-        X1 = X_3D.view(-1, X_3D.size(-1))
-
-        X1_int8, state_X1 = quantize_rowwise_nogroup(X1)
-        W1_int8, state_W1 = quantize_global(W1)
-        
-        X2_pre = int8_matmul_mixed_dequanitze_bias(
-            X1_int8, W1_int8.t(), state_X1, state_W1, B1
-        )
-
-        # X2_v1 = torch.nn.functional.gelu(X2)
-        # X2_int8, state_X2, = quantize_rowwise_nogroup(X2_v1)
-        X2_int8, state_X2, X2 = quantize_rowwise_nogroup_gelu(X2_pre)
-
-        W2_int8, state_W2 = quantize_global(W2)
-
-        out = int8_matmul_mixed_dequanitze_bias(
-            X2_int8, W2_int8.t(), state_X2, state_W2, B2
-        )
-
-        ctx.save_for_backward = X1, W1, X2, X2_pre, W2
-
-        return out.view(*X_3D.size()[:-1], -1)
-
-    @staticmethod
-    def backward(ctx, G_3D):
-
-        G2 = G_3D.reshape(-1, G_3D.size(-1))
-
-        grad_X1 = grad_W1 = grad_B1 = grad_W2 = grad_B2 = None
-
-        X1, W1, X2, X2_pre, W2 = ctx.save_for_backward
-
-        G2_int8, state_G2 = quantize_rowwise_nogroup(G2)
-        W2_int8, state_W2 = quantize_global_transpose(W2)
-
-        G1 = int8_matmul_mixed_dequanitze(G2_int8, W2_int8.t(), state_G2, state_W2).view(
-            *G_3D.size()[:-1], -1
-        )
-
-        grad_W2 = torch.matmul(G2.t(), X2.to(G2.dtype))
-        grad_B2 = G2.sum(dim=0)
-
-        G1_int8, state_G1, G1 = quantize_rowwise_nogroup_back_gelu(G1, X2_pre)
-
-        if ctx.needs_input_grad[0]:
-            
-            W1_int8, state_W1 = quantize_global_transpose(W1)
-            grad_X1 = int8_matmul_mixed_dequanitze(G1_int8, W1_int8.t(), state_G1, state_W1).view(
-                *G_3D.size()[:-1], -1
-            )
-        if ctx.needs_input_grad[1]:
-            grad_W1 = torch.matmul(G1.t(), X1.to(G1.dtype))
-        if ctx.needs_input_grad[2]:
-            grad_B1 = G1.sum(dim=0)
-
-        return grad_X1, grad_W1, grad_B1, grad_W2, grad_B2
-    
-
-class SwitchBackGlobalMLP(nn.Module):
-
-
-    def __init__(self, dim_in, dim_hidden):
-        super().__init__()
-        self.linear1 = nn.Linear(dim_in, dim_hidden)
-        self.linear2 = nn.Linear(dim_hidden, dim_in)
-
-
-    def forward(self, x):
-        return _switchback_mlp.apply(x, self.linear1.weight, self.linear1.bias, self.linear2.weight, self.linear2.bias)
-    
\ No newline at end of file
diff --git a/tests/triton_tests/attn_decomp.py b/tests/triton_tests/attn_decomp.py
index fa86995..b70bceb 100644
--- a/tests/triton_tests/attn_decomp.py
+++ b/tests/triton_tests/attn_decomp.py
@@ -1,7 +1,7 @@
 
 import torch
 import json
-from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, MyLinear
+from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, StandardLinear
 import time
 
 # class AttentionOld(torch.nn.Module):
@@ -116,7 +116,7 @@ if __name__ == '__main__':
             va = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
 
             standard = Attention(dim).cuda()
-            my_standard = Attention(dim, linear_module=MyLinear).cuda()
+            my_standard = Attention(dim, linear_module=StandardLinear).cuda()
             sb = Attention(dim, linear_module=SwitchBackGlobalLinear).cuda()
             standard_compiled = torch.compile(standard)
             ln_model = torch.nn.Sequential(
@@ -360,4 +360,4 @@ if __name__ == '__main__':
     # import pdb; pdb.set_trace()
 
 
-    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
\ No newline at end of file
+    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
diff --git a/tests/triton_tests/full_matrix_decomp.py b/tests/triton_tests/full_matrix_decomp.py
index de37b95..e2932d4 100644
--- a/tests/triton_tests/full_matrix_decomp.py
+++ b/tests/triton_tests/full_matrix_decomp.py
@@ -4,7 +4,7 @@ import time
 import torch
 import torch.nn as nn
 import bitsandbytes.nn as bnn
-from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear, MyLinear
+from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear, StandardLinear
 
 from bitsandbytes.nn.triton_utils.v0.quantize_rowwise_nogroup import quantize_rowwise_nogroup
 from bitsandbytes.nn.triton_utils.v0.quantize_columnwise_nogroup_transpose import quantize_columnwise_nogroup_transpose
@@ -350,4 +350,4 @@ if __name__ == '__main__':
 
 
                 with open("tests/triton_tests/info.jsonl", "a") as file:
-                    file.write(info_json + "\n")
\ No newline at end of file
+                    file.write(info_json + "\n")
diff --git a/tests/triton_tests/mlp.py b/tests/triton_tests/mlp.py
index 1ec85b8..8aef105 100644
--- a/tests/triton_tests/mlp.py
+++ b/tests/triton_tests/mlp.py
@@ -3,7 +3,7 @@ import time
 import torch
 import torch.nn as nn
 import bitsandbytes.nn as bnn
-from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear, MyLinear
+from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear, StandardLinear
 
 def construct_model(dim, layers, module):
     modules = []
@@ -41,7 +41,7 @@ if __name__ == '__main__':
 
     # construct models
     standard = construct_model(dim, layers, nn.Linear).half()
-    my_standard = construct_model(dim, layers, MyLinear).half()
+    my_standard = construct_model(dim, layers, StandardLinear).half()
     switchback = construct_model(dim, layers, SwitchBackLinear).half()
     switchback_global = construct_model(dim, layers, SwitchBackGlobalLinear).half()
     #bnb_8bitmixed = construct_model(dim, layers, bnn.Linear8bitLt)
@@ -61,4 +61,4 @@ if __name__ == '__main__':
 
 
 
-    
\ No newline at end of file
+    
diff --git a/tests/triton_tests/mlp_decomp_autocast.py b/tests/triton_tests/mlp_decomp_autocast.py
index 3a1fc9e..54bd5f5 100644
--- a/tests/triton_tests/mlp_decomp_autocast.py
+++ b/tests/triton_tests/mlp_decomp_autocast.py
@@ -1,7 +1,7 @@
 
 import torch
 import json
-from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, MyLinear
+from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, StandardLinear
 import time
 
 if __name__ == '__main__':
@@ -26,9 +26,9 @@ if __name__ == '__main__':
             ).cuda()
 
             my_standard = torch.nn.Sequential(
-                MyLinear(dim, 4 * dim),
+                StandardLinear(dim, 4 * dim),
                 torch.nn.GELU(),
-                MyLinear(4 * dim, dim),
+                StandardLinear(4 * dim, dim),
             ).cuda()
 
             fused_mlp = SwitchBackGlobalMLP(dim, 4 * dim).cuda()
@@ -163,4 +163,4 @@ if __name__ == '__main__':
     # import pdb; pdb.set_trace()
 
 
-    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
\ No newline at end of file
+    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
diff --git a/tests/triton_tests/mlp_decomp_autocast_ln.py b/tests/triton_tests/mlp_decomp_autocast_ln.py
index 2596278..0a50cab 100644
--- a/tests/triton_tests/mlp_decomp_autocast_ln.py
+++ b/tests/triton_tests/mlp_decomp_autocast_ln.py
@@ -1,7 +1,7 @@
 
 import torch
 import json
-from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, MyLinear
+from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, StandardLinear
 import time
 
 if __name__ == '__main__':
@@ -24,9 +24,9 @@ if __name__ == '__main__':
 
             my_standard = torch.nn.Sequential(
                 torch.nn.LayerNorm(dim),
-                MyLinear(dim, 4 * dim),
+                StandardLinear(dim, 4 * dim),
                 torch.nn.GELU(),
-                MyLinear(4 * dim, dim),
+                StandardLinear(4 * dim, dim),
             ).cuda()
 
             fused_mlp = SwitchBackGlobalMLP(dim, 4 * dim).cuda()
@@ -162,4 +162,4 @@ if __name__ == '__main__':
     # import pdb; pdb.set_trace()
 
 
-    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
\ No newline at end of file
+    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.

From 30d21d585c7b8d962cefbd938c6aa006d162fb58 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 31 Mar 2023 11:33:26 -0700
Subject: [PATCH 27/97] Added triton test.

---
 tests/test_triton.py | 44 ++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 44 insertions(+)
 create mode 100644 tests/test_triton.py

diff --git a/tests/test_triton.py b/tests/test_triton.py
new file mode 100644
index 0000000..acbe32c
--- /dev/null
+++ b/tests/test_triton.py
@@ -0,0 +1,44 @@
+import pytest
+import torch
+
+from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear
+
+
+
+@pytest.mark.parametrize("triton_module", [SwitchBackGlobalLinear, SwitchBackLinear])
+def test_switchbatch(triton_module):
+    for dim in [83, 17, 128]:
+        for batch in [13, 128, 256]:
+
+            standard = torch.nn.Linear(dim, 4 * dim).cuda().half()
+            switchback = triton_module(dim, 4 * dim).cuda().half()
+            switchback.weight.data.copy_(standard.weight)
+            switchback.bias.data.copy_(standard.bias)
+
+
+            for i in range(100):
+                x1 = torch.randn(batch, dim).cuda().half().requires_grad_(True)
+                x2 = x1.clone().detach().requires_grad_(True)
+                print('standard')
+                out_standard = standard(x1)
+                print('switchback')
+                out_sb = switchback(x1)
+
+                (out_standard.abs().mean()).backward()
+                (out_sb.abs().mean()).backward()
+
+                err_sb = (out_standard - out_sb).abs().mean()
+                print('OUT', err_sb)
+
+                err_sb = (standard.bias.grad - switchback.bias.grad).abs().mean()
+
+                print('GW2', err_sb)
+
+                err_sb = (standard.weight.grad - switchback.weight.grad).abs().mean()
+
+                print('GW1', err_sb)
+
+                #err_sb = (x1.grad - x2.grad).abs().mean()
+
+                #print('GX1', err_sb)
+

From c4cfe4fbdd70088c2ff0db1ae81bfe01c35fd2ae Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 1 Apr 2023 10:33:03 -0700
Subject: [PATCH 28/97] Added bf16 Adam.

---
 Makefile                   |  7 ++--
 bitsandbytes/functional.py | 68 +++++++++++++++++---------------------
 csrc/kernels.cu            |  2 ++
 csrc/ops.cu                |  2 ++
 csrc/pythonInterface.c     | 41 ++++++++++++-----------
 tests/test_optim.py        | 43 ++++++++++--------------
 6 files changed, 77 insertions(+), 86 deletions(-)

diff --git a/Makefile b/Makefile
index 7bee7ef..e114160 100644
--- a/Makefile
+++ b/Makefile
@@ -12,6 +12,7 @@ CUDA_VERSION:=
 endif
 
 
+
 NVCC := $(CUDA_HOME)/bin/nvcc
 
 ###########################################
@@ -59,9 +60,9 @@ CC_ADA_HOPPER := -gencode arch=compute_89,code=sm_89
 CC_ADA_HOPPER += -gencode arch=compute_90,code=sm_90
 
 
-all: $(ROOT_DIR)/dependencies/cub $(BUILD_DIR) env
-	$(NVCC) $(CC_CUDA10x) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR)
-	$(NVCC) $(CC_CUDA10x) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
+all: $(BUILD_DIR) env
+	$(NVCC) $(CC_CUDA11x) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR)
+	$(NVCC) $(CC_CUDA11x) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
 cuda92: $(ROOT_DIR)/dependencies/cub $(BUILD_DIR) env
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 969250a..8bfd668 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -73,6 +73,7 @@ if COMPILED_WITH_CUDA:
     str2optimizer8bit_blockwise["adam"] = (
         lib.cadam_8bit_blockwise_fp32,
         lib.cadam_8bit_blockwise_fp16,
+        lib.cadam_8bit_blockwise_bf16,
     )
     str2optimizer8bit_blockwise["momentum"] = (
         lib.cmomentum_8bit_blockwise_fp32,
@@ -1125,51 +1126,42 @@ def optimizer_update_8bit_blockwise(
     skip_zeros=False,
 ) -> None:
 
+    optim_func = None
     if g.dtype == torch.float32 and state1.dtype == torch.uint8:
-        str2optimizer8bit_blockwise[optimizer_name][0](
-            get_ptr(p),
-            get_ptr(g),
-            get_ptr(state1),
-            get_ptr(state2),
-            ct.c_float(beta1),
-            ct.c_float(beta2),
-            ct.c_float(eps),
-            ct.c_int32(step),
-            ct.c_float(lr),
-            get_ptr(qmap1),
-            get_ptr(qmap2),
-            get_ptr(absmax1),
-            get_ptr(absmax2),
-            ct.c_float(weight_decay),
-            ct.c_float(gnorm_scale),
-            ct.c_bool(skip_zeros),
-            ct.c_int32(g.numel()),
-        )
+        optimizer_func = str2optimizer8bit_blockwise[optimizer_name][0]
     elif g.dtype == torch.float16 and state1.dtype == torch.uint8:
-        str2optimizer8bit_blockwise[optimizer_name][1](
-            get_ptr(p),
-            get_ptr(g),
-            get_ptr(state1),
-            get_ptr(state2),
-            ct.c_float(beta1),
-            ct.c_float(beta2),
-            ct.c_float(eps),
-            ct.c_int32(step),
-            ct.c_float(lr),
-            get_ptr(qmap1),
-            get_ptr(qmap2),
-            get_ptr(absmax1),
-            get_ptr(absmax2),
-            ct.c_float(weight_decay),
-            ct.c_float(gnorm_scale),
-            ct.c_bool(skip_zeros),
-            ct.c_int32(g.numel()),
-        )
+        optimizer_func = str2optimizer8bit_blockwise[optimizer_name][1]
+    elif (g.dtype == torch.bfloat16 and state1.dtype == torch.uint8 and
+          len(str2optimizer8bit_blockwise[optimizer_name])==3):
+        optimizer_func = str2optimizer8bit_blockwise[optimizer_name][2]
     else:
         raise ValueError(
             f"Gradient+optimizer bit data type combination not supported: grad {g.dtype}, optimizer {state1.dtype}"
         )
 
+    is_on_gpu([p, g, state1, state2, qmap1, qmap2, absmax1, absmax2])
+
+    prev_device = pre_call(g.device)
+    optimizer_func(
+        get_ptr(p),
+        get_ptr(g),
+        get_ptr(state1),
+        get_ptr(state2),
+        ct.c_float(beta1),
+        ct.c_float(beta2),
+        ct.c_float(eps),
+        ct.c_int32(step),
+        ct.c_float(lr),
+        get_ptr(qmap1),
+        get_ptr(qmap2),
+        get_ptr(absmax1),
+        get_ptr(absmax2),
+        ct.c_float(weight_decay),
+        ct.c_float(gnorm_scale),
+        ct.c_bool(skip_zeros),
+        ct.c_int32(g.numel()),
+    )
+    post_call(prev_device)
 
 def percentile_clipping(
     grad: Tensor, gnorm_vec: Tensor, step: int, percentile: int = 5
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 8f33161..e7e57d7 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2988,6 +2988,8 @@ template __global__ void kOptimizerStatic8bit2StateBlockwise<gtype, oname, block
 
 MAKE_OptimizerStatic8bit2StateBlockwise(ADAM, float, 2048, 8)
 MAKE_OptimizerStatic8bit2StateBlockwise(ADAM, half, 2048, 8)
+MAKE_OptimizerStatic8bit2StateBlockwise(ADAM, __nv_bfloat16, 2048, 8)
+
 
 #define MAKE_OptimizerStatic8bit1StateBlockwise(oname, gtype, block_size, num_per_thread) \
 template __global__ void kOptimizerStatic8bit1StateBlockwise<gtype, oname, block_size, num_per_thread>( \
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 8044c66..a5a23b5 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -741,3 +741,5 @@ MAKE_optimizerStatic8bitBlockwise(float, ADAGRAD);
 
 template void percentileClipping(float * g, float *gnorm_vec, int step, const int n);
 template void percentileClipping(half * g, float *gnorm_vec, int step, const int n);
+
+MAKE_optimizerStatic8bitBlockwise(__nv_bfloat16, ADAM);
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index 6a4bb0d..a485a09 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -57,19 +57,20 @@ MAKE_FUNC8(rmsprop, RMSPROP, float, 32)
 MAKE_FUNC8(rmsprop, RMSPROP, half, 16)
 
 #define MAKE_BLOCKWISE8(fname, optim_name, gtype, gbits) \
-void fname##_8bit_blockwise_fp##gbits(gtype* p, gtype* g, \
+void fname##_8bit_blockwise_##gbits(gtype* p, gtype* g, \
                 unsigned char* state1, unsigned char* state2, float beta1, float beta2, float eps, int step, float lr, \
                 float* quantiles1, float* quantiles2, float* absmax1, float* absmax2, float weight_decay, const float gnorm_scale, bool skip_zeros, int n)\
 {	optimizerStatic8bitBlockwise<gtype, optim_name>(p, g, state1, state2, beta1, beta2, eps, step, lr, quantiles1, quantiles2, absmax1, absmax2, weight_decay, gnorm_scale, skip_zeros, n); }\
 
-MAKE_BLOCKWISE8(adam, ADAM, half, 16)
-MAKE_BLOCKWISE8(adam, ADAM, float, 32)
-MAKE_BLOCKWISE8(momentum, MOMENTUM, half, 16)
-MAKE_BLOCKWISE8(momentum, MOMENTUM, float, 32)
-MAKE_BLOCKWISE8(rmsprop, RMSPROP, half, 16)
-MAKE_BLOCKWISE8(rmsprop, RMSPROP, float, 32)
-MAKE_BLOCKWISE8(adagrad, ADAGRAD, half, 16)
-MAKE_BLOCKWISE8(adagrad, ADAGRAD, float, 32)
+MAKE_BLOCKWISE8(adam, ADAM, half, fp16)
+MAKE_BLOCKWISE8(adam, ADAM, float, fp32)
+MAKE_BLOCKWISE8(momentum, MOMENTUM, half, fp16)
+MAKE_BLOCKWISE8(momentum, MOMENTUM, float, fp32)
+MAKE_BLOCKWISE8(rmsprop, RMSPROP, half, fp16)
+MAKE_BLOCKWISE8(rmsprop, RMSPROP, float, fp32)
+MAKE_BLOCKWISE8(adagrad, ADAGRAD, half, fp16)
+MAKE_BLOCKWISE8(adagrad, ADAGRAD, float, fp32)
+MAKE_BLOCKWISE8(adam, ADAM, __nv_bfloat16, bf16)
 
 
 void percentileClipping_g32(float * g, float *gnorm_vec, int step, const int n){ percentileClipping<float>(g, gnorm_vec, step, n); }
@@ -194,20 +195,20 @@ extern "C"
 	MAKE_CFUNC8(rmsprop, half, 16)
 
   #define MAKE_CBLOCKWISE8(fname, optim_name, gtype, gbits) \
-  void c##fname##_8bit_blockwise_fp##gbits(gtype* p, gtype* g, \
+  void c##fname##_8bit_blockwise_##gbits(gtype* p, gtype* g, \
                 unsigned char* state1, unsigned char* state2, float beta1, float beta2, float eps, int step, float lr,  \
                 float* quantiles1, float* quantiles2, float* absmax1, float* absmax2, float weight_decay, const float gnorm_scale, bool skip_zeros, int n) \
-  {	fname##_8bit_blockwise_fp##gbits(p, g, state1, state2, beta1, beta2, eps, step, lr, quantiles1, quantiles2, absmax1, absmax2, weight_decay, gnorm_scale, skip_zeros, n); } \
-
-	MAKE_CBLOCKWISE8(adam, ADAM, half, 16)
-	MAKE_CBLOCKWISE8(adam, ADAM, float, 32)
-	MAKE_CBLOCKWISE8(momentum, MOMENTUM, half, 16)
-	MAKE_CBLOCKWISE8(momentum, MOMENTUM, float, 32)
-	MAKE_CBLOCKWISE8(rmsprop, RMSPROP, half, 16)
-	MAKE_CBLOCKWISE8(rmsprop, RMSPROP, float, 32)
-	MAKE_CBLOCKWISE8(adagrad, ADAGRAD, half, 16)
-	MAKE_CBLOCKWISE8(adagrad, ADAGRAD, float, 32)
+  {	fname##_8bit_blockwise_##gbits(p, g, state1, state2, beta1, beta2, eps, step, lr, quantiles1, quantiles2, absmax1, absmax2, weight_decay, gnorm_scale, skip_zeros, n); } \
 
+	MAKE_CBLOCKWISE8(adam, ADAM, half, fp16)
+	MAKE_CBLOCKWISE8(adam, ADAM, float, fp32)
+	MAKE_CBLOCKWISE8(momentum, MOMENTUM, half, fp16)
+	MAKE_CBLOCKWISE8(momentum, MOMENTUM, float, fp32)
+	MAKE_CBLOCKWISE8(rmsprop, RMSPROP, half, fp16)
+	MAKE_CBLOCKWISE8(rmsprop, RMSPROP, float, fp32)
+	MAKE_CBLOCKWISE8(adagrad, ADAGRAD, half, fp16)
+	MAKE_CBLOCKWISE8(adagrad, ADAGRAD, float, fp32)
+	MAKE_CBLOCKWISE8(adam, ADAM, __nv_bfloat16, bf16)
 
 	void cpercentile_clipping_g32(float * g, float *gnorm_vec, int step, const int n){ percentileClipping_g32(g, gnorm_vec, step, n); }
 	void cpercentile_clipping_g16(half * g, float *gnorm_vec, int step, const int n){ percentileClipping_g16(g, gnorm_vec, step, n); }
diff --git a/tests/test_optim.py b/tests/test_optim.py
index 3df2dad..92e3ed2 100644
--- a/tests/test_optim.py
+++ b/tests/test_optim.py
@@ -26,6 +26,8 @@ def get_temp_dir():
 def rm_path(path):
     shutil.rmtree(path)
 
+str2bf16support = {}
+str2bf16support['adam8bit_blockwise'] = True
 
 str2optimizers = {}
 str2optimizers["adam_pytorch"] = (None, torch.optim.Adam, bnb.optim.Adam)
@@ -238,7 +240,7 @@ def test_global_config(dim1, dim2, gtype):
 
 dim1 = [1024]
 dim2 = [32, 1024, 4097]
-gtype = [torch.float32, torch.float16]
+gtype = [torch.float32, torch.float16, torch.bfloat16]
 optimizer_names = [
     "adam8bit",
     "momentum8bit",
@@ -256,6 +258,7 @@ names = [
 
 @pytest.mark.parametrize("dim1, dim2, gtype, optim_name", values, ids=names)
 def test_optimizer8bit(dim1, dim2, gtype, optim_name):
+    if gtype == torch.bfloat16 and optim_name not in str2bf16support: return
     if dim1 == 1 and dim2 == 1:
         return
     p1 = torch.randn(dim1, dim2, device="cuda", dtype=gtype) * 0.1
@@ -269,7 +272,9 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
     if gtype == torch.float32:
         atol, rtol = 3e-3, 1e-3
         patol, prtol = 1e-5, 1e-3
-
+    elif gtype == torch.bfloat16:
+        atol, rtol = 3e-3, 1e-3
+        patol, prtol = 1e-4, 1e-2
     else:
         atol, rtol = 3e-3, 1e-3
         patol, prtol = 1e-5, 1e-3
@@ -314,8 +319,12 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
 
         err = torch.abs(p1 - p2)
         relerr = err / torch.abs(p1)
-        assert err.mean() < 0.0001
-        assert relerr.mean() < 0.001
+        if g.dtype == torch.bfloat16:
+            assert err.mean() < 0.00015
+            assert relerr.mean() < 0.0015
+        else:
+            assert err.mean() < 0.0001
+            assert relerr.mean() < 0.001
 
         errors.append(err.mean().item())
         relerrors.append(relerr.mean().item())
@@ -335,12 +344,8 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
                 bnb_optimizer = str2optimizers[optim_name][1]([p2])
                 bnb_optimizer.load_state_dict(torch.load(join(path, "opt.pt")))
                 rm_path(path)
-                torch.testing.assert_allclose(
-                    raws1cpy, bnb_optimizer.state[p2][name2]
-                )
-                torch.testing.assert_allclose(
-                    qmap1, bnb_optimizer.state[p2][qmap]
-                )
+                torch.testing.assert_allclose(raws1cpy, bnb_optimizer.state[p2][name2])
+                torch.testing.assert_allclose(qmap1, bnb_optimizer.state[p2][qmap])
 
                 if "blockwise" in optim_name:
                     s1 = F.dequantize_blockwise(
@@ -357,28 +362,16 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
                     )
                 torch.testing.assert_allclose(s1cpy, s1)
 
-                num_not_close = (
-                    torch.isclose(
-                        torch_optimizer.state[p1][name1],
-                        s1,
-                        atol=atol,
-                        rtol=rtol,
-                    )
-                    == 0
-                )
+                num_not_close = (torch.isclose(torch_optimizer.state[p1][name1], s1, atol=atol, rtol=rtol) == 0)
                 assert num_not_close.sum().item() < 20
-            torch.testing.assert_allclose(
-                p1, p2.float(), atol=patol, rtol=prtol
-            )
+            torch.testing.assert_allclose(p1, p2.float(), atol=patol, rtol=prtol)
 
         # the parameters diverge quickly. Here we keep them close
         # together so we can test against the Adam error
         p1.data = p1.data.to(gtype).float()
         p2.copy_(p1.data)
         torch.testing.assert_allclose(p1.to(gtype), p2)
-        for (name1, name2, qmap, max_val), s in zip(
-            str2statenames[optim_name], dequant_states
-        ):
+        for (name1, name2, qmap, max_val), s in zip(str2statenames[optim_name], dequant_states):
             torch_optimizer.state[p1][name1].copy_(s.data)
 
     # print(sum(errors)/len(errors))

From 7f87ba83eeae47bfb6d092007dd6ca42fff6c57a Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-44-155.ec2.internal>
Date: Sat, 1 Apr 2023 18:46:04 +0000
Subject: [PATCH 29/97] cleaning and refactor

---
 bitsandbytes/nn/__init__.py                   |   2 +-
 bitsandbytes/nn/triton_based_modules.py       | 196 ++++++----
 .../nn/triton_utils/v0/fused_gelu_quantize.py | 190 ---------
 .../v0/int8_matmul_mixed_dequanitze.py        | 138 +------
 .../v0/int8_matmul_rowwise_dequantize.py      |  18 +-
 .../v0/int8_matmul_rowwise_dequantize_bias.py | 160 --------
 ...y => quantize_columnwise_and_transpose.py} |  64 +--
 .../nn/triton_utils/v0/quantize_global.py     |  34 +-
 .../nn/triton_utils/v0/quantize_rowwise.py    |  61 +++
 .../v0/quantize_rowwise_nogroup.py            | 174 ---------
 speed_benchmark/info_a100_py2.jsonl           |  60 +++
 .../make_plot_with_jsonl.py                   |  38 +-
 .../plot_with_info.pdf                        | Bin 34302 -> 34876 bytes
 speed_benchmark/speed_benchmark.py            | 101 +++++
 tests/test_triton.py                          |  57 +--
 tests/triton_tests/attn_decomp.py             | 363 ------------------
 tests/triton_tests/attn_info_ln.jsonl         |  20 -
 tests/triton_tests/full_matrix_decomp.py      | 353 -----------------
 tests/triton_tests/info.jsonl                 | 142 -------
 tests/triton_tests/info_mlp.jsonl             |  20 -
 tests/triton_tests/info_mlp_autocast.jsonl    |  20 -
 tests/triton_tests/info_mlp_autocast_ln.jsonl |  23 --
 tests/triton_tests/mlp.py                     |  64 ---
 tests/triton_tests/mlp_decomp_autocast.py     | 166 --------
 tests/triton_tests/mlp_decomp_autocast_ln.py  | 165 --------
 tests/triton_tests/plot1.png                  | Bin 121873 -> 0 bytes
 tests/triton_tests/plot2.pdf                  | Bin 16044 -> 0 bytes
 tests/triton_tests/plot2.png                  | Bin 51996 -> 0 bytes
 tests/triton_tests/plot2.py                   |  69 ----
 tests/triton_tests/plot3.pdf                  | Bin 20122 -> 0 bytes
 tests/triton_tests/plot3.png                  | Bin 58335 -> 0 bytes
 tests/triton_tests/plot3.py                   | 193 ----------
 tests/triton_tests/rowwise.py                 |  43 ---
 33 files changed, 420 insertions(+), 2514 deletions(-)
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/fused_gelu_quantize.py
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize_bias.py
 rename bitsandbytes/nn/triton_utils/v0/{quantize_columnwise_nogroup_transpose.py => quantize_columnwise_and_transpose.py} (54%)
 create mode 100644 bitsandbytes/nn/triton_utils/v0/quantize_rowwise.py
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/quantize_rowwise_nogroup.py
 create mode 100644 speed_benchmark/info_a100_py2.jsonl
 rename tests/triton_tests/make_plot_with_info.py => speed_benchmark/make_plot_with_jsonl.py (82%)
 rename tests/triton_tests/plot1.pdf => speed_benchmark/plot_with_info.pdf (76%)
 create mode 100644 speed_benchmark/speed_benchmark.py
 delete mode 100644 tests/triton_tests/attn_decomp.py
 delete mode 100644 tests/triton_tests/attn_info_ln.jsonl
 delete mode 100644 tests/triton_tests/full_matrix_decomp.py
 delete mode 100644 tests/triton_tests/info.jsonl
 delete mode 100644 tests/triton_tests/info_mlp.jsonl
 delete mode 100644 tests/triton_tests/info_mlp_autocast.jsonl
 delete mode 100644 tests/triton_tests/info_mlp_autocast_ln.jsonl
 delete mode 100644 tests/triton_tests/mlp.py
 delete mode 100644 tests/triton_tests/mlp_decomp_autocast.py
 delete mode 100644 tests/triton_tests/mlp_decomp_autocast_ln.py
 delete mode 100644 tests/triton_tests/plot1.png
 delete mode 100644 tests/triton_tests/plot2.pdf
 delete mode 100644 tests/triton_tests/plot2.png
 delete mode 100644 tests/triton_tests/plot2.py
 delete mode 100644 tests/triton_tests/plot3.pdf
 delete mode 100644 tests/triton_tests/plot3.png
 delete mode 100644 tests/triton_tests/plot3.py
 delete mode 100644 tests/triton_tests/rowwise.py

diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 8e3a598..c6141ad 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -3,4 +3,4 @@
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
 from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLt2, Linear8bitLtMixed, LinearFP8Global, LinearFP4, LinearFP8Mixed
-from .triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear
+from .triton_based_modules import SwitchBackLinear, SwitchBackLinearGlobal, SwitchBackLinearVectorized, StandardLinear
diff --git a/bitsandbytes/nn/triton_based_modules.py b/bitsandbytes/nn/triton_based_modules.py
index 0344464..ab76f4e 100644
--- a/bitsandbytes/nn/triton_based_modules.py
+++ b/bitsandbytes/nn/triton_based_modules.py
@@ -1,26 +1,76 @@
 import torch
 import torch.nn as nn
 import time
+from functools import partial
 
-from .triton_utils.v0.quantize_rowwise_nogroup import quantize_rowwise_nogroup
-from .triton_utils.v0.quantize_columnwise_nogroup_transpose import quantize_columnwise_nogroup_transpose
-from .triton_utils.v0.int8_matmul_rowwise_dequantize_bias import int8_matmul_rowwise_dequantize_bias
+from .triton_utils.v0.quantize_rowwise import quantize_rowwise
+from .triton_utils.v0.quantize_columnwise_and_transpose import quantize_columnwise_and_transpose
 from .triton_utils.v0.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
 from .triton_utils.v0.quantize_global import quantize_global, quantize_global_transpose
-from .triton_utils.v0.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze, int8_matmul_mixed_dequanitze_bias
-from .triton_utils.v0.fused_gelu_quantize import quantize_rowwise_nogroup_gelu, quantize_rowwise_nogroup_back_gelu
+from .triton_utils.v0.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze
 
-class _switchback(torch.autograd.Function):
+
+class _switchback_global(torch.autograd.Function):
 
     @staticmethod
     def forward(ctx, X_3D, W, bias):
+        # reshape input to [N * L, D]
+        X = X_3D.view(-1, X_3D.size(-1))
 
+        # rowwise quantize for X, global quantize for W
+        X_int8, state_X = quantize_rowwise(X)
+        W_int8, state_W = quantize_global(W)
+
+        # save for backward.
+        ctx.save_for_backward = X, W
+
+        # matmult, fused dequant and add bias
+        # call "mixed" because we are mixing rowwise quantized and global quantized
+        return int8_matmul_mixed_dequanitze(
+            X_int8, W_int8.t(), state_X, state_W, bias
+        ).view(*X_3D.size()[:-1], -1)
+
+    @staticmethod
+    def backward(ctx, G_3D):
+        # reshape input to [N_out * L, D]
+        G = G_3D.reshape(-1, G_3D.size(-1))
+
+        grad_X = grad_W = grad_bias = None
+
+        X, W = ctx.save_for_backward
+        if ctx.needs_input_grad[0]:
+            # rowwise quantize for G, global quantize for W
+            # for W, we also fuse the transpose operation because only A @ B^T is supported
+            # so we transpose once then call .t() in the matmul
+            G_int8, state_G = quantize_rowwise(G)
+            W_int8, state_W = quantize_global_transpose(W)
+            grad_X = int8_matmul_mixed_dequanitze(G_int8, W_int8.t(), state_G, state_W, None).view(
+                *G_3D.size()[:-1], -1
+            )
+        if ctx.needs_input_grad[1]:
+            # backward pass uses standard weight grad
+            grad_W = torch.matmul(G.t(), X.to(G.dtype))
+        if ctx.needs_input_grad[2]:
+            grad_bias = G.sum(dim=0)
+
+        return grad_X, grad_W, grad_bias
+    
+class _switchback_vectorrize(torch.autograd.Function):
+
+    @staticmethod
+    def forward(ctx, X_3D, W, bias):
+        # reshape input to [N * L, D]
         X = X_3D.view(-1, X_3D.size(-1))
 
         ctx.save_for_backward = X, W
-        X_int8, state_X = quantize_rowwise_nogroup(X)
-        W_int8, state_W = quantize_rowwise_nogroup(W)
-        return int8_matmul_rowwise_dequantize_bias(
+        # rowwise quantize for X
+        # columnwise quantize for W (first rowwise, transpose later)
+        X_int8, state_X = quantize_rowwise(X)
+        W_int8, state_W = quantize_rowwise(W)
+
+        # matmult, fused dequant and add bias
+        # call kernel which expects rowwise quantized X and W
+        return int8_matmul_rowwise_dequantize(
             X_int8, W_int8.t(), state_X, state_W, bias
         ).view(*X_3D.size()[:-1], -1)
     
@@ -33,12 +83,15 @@ class _switchback(torch.autograd.Function):
         grad_X = grad_W = grad_bias = None
 
         if ctx.needs_input_grad[0]:
-            G_int8, state_G = quantize_rowwise_nogroup(G)
-            W_int8, state_W = quantize_columnwise_nogroup_transpose(W)
-            grad_X = int8_matmul_rowwise_dequantize(G_int8, W_int8.t(), state_G, state_W).view(
+            # rowwise quantize for G, columnwise quantize for W and fused transpose
+            # we call .t() for weight later because only A @ B^T is supported
+            G_int8, state_G = quantize_rowwise(G)
+            W_int8, state_W = quantize_columnwise_and_transpose(W)
+            grad_X = int8_matmul_rowwise_dequantize(G_int8, W_int8.t(), state_G, state_W, None).view(
                 *G_3D.size()[:-1], -1
             )
         if ctx.needs_input_grad[1]:
+            # backward pass uses standard weight grad
             grad_W = torch.matmul(G.t(), X.to(G.dtype))
         if ctx.needs_input_grad[2]:
             grad_bias = G.sum(dim=0)
@@ -46,11 +99,37 @@ class _switchback(torch.autograd.Function):
         return grad_X, grad_W, grad_bias
 
 class SwitchBackLinear(nn.Linear):
+    def __init__(
+            self, 
+            in_features: int, 
+            out_features: int, 
+            bias: bool = True,
+            device=None, 
+            dtype=None,
+            vectorize: bool = False
+        ):
+        super().__init__(in_features, out_features, bias, device, dtype)
+
+        # By default, we use the global quantization.
+        self.vectorize = vectorize
+        if self.vectorize:
+            self._fn = _switchback_vectorrize
+        else:
+            self._fn = _switchback_global
 
     def prepare_for_eval(self):
-        state_W = self.weight.abs().max(dim=1, keepdim=True)[0]
-        W_int8 = (127 * self.weight.float() / state_W).round().to(torch.int8)
-        state_W = state_W.squeeze()
+        # If we just want to do eval, we can pre-quantize the weights instead of doing it on the forward pass.
+        # Note this is experimental and not tested thoroughly.
+        # Note this needs to be explicitly called with something like
+        # def cond_prepare(m):
+        #     if hasattr(m, "prepare_for_eval"):
+        #         m.prepare_for_eval()
+        # model.apply(cond_prepare)
+        print('=> preparing for eval.')
+        if self.vectorize:
+            W_int8, state_W = quantize_rowwise(self.weight)
+        else:
+            W_int8, state_W = quantize_global(self.weight)
         
         self.register_buffer("W_int8", W_int8)
         self.register_buffer("state_W", state_W)
@@ -59,80 +138,29 @@ class SwitchBackLinear(nn.Linear):
 
     def forward(self, x):
         if self.training:
-            return _switchback.apply(x, self.weight, self.bias)
+            return self._fn.apply(x, self.weight, self.bias)
         else:
-            if not hasattr(self, "state_W"):
-                self.prepare_for_eval()
+            # If it hasn't been "prepared for eval", run the standard forward pass.
+            if not hasattr(self, "W_int8"):
+                return self._fn.apply(x, self.weight, self.bias)
+            
+            # Otherwise, use pre-computed weights.
             X = x.view(-1, x.size(-1))
-            X_int8, state_X = quantize_rowwise_nogroup(X)
-            return int8_matmul_rowwise_dequantize_bias(
-                X_int8, self.W_int8.t(), state_X, self.state_W, self.bias
-            ).view(*x.size()[:-1], -1)
-    
-
-class _switchback_global(torch.autograd.Function):
-
-    @staticmethod
-    def forward(ctx, X_3D, W, bias):
-
-        X = X_3D.view(-1, X_3D.size(-1))
-
-        X_int8, state_X = quantize_rowwise_nogroup(X)
-        W_int8, state_W = quantize_global(W)
-        ctx.save_for_backward = X, W
-        return int8_matmul_mixed_dequanitze_bias(
-            X_int8, W_int8.t(), state_X, state_W, bias
-        ).view(*X_3D.size()[:-1], -1)
-
-    @staticmethod
-    def backward(ctx, G_3D):
-
-        G = G_3D.reshape(-1, G_3D.size(-1))
-
-        grad_X = grad_W = grad_bias = None
-
-        X, W = ctx.save_for_backward
-        if ctx.needs_input_grad[0]:
-            G_int8, state_G = quantize_rowwise_nogroup(G)
-            W_int8, state_W = quantize_global_transpose(W)
-            grad_X = int8_matmul_mixed_dequanitze(G_int8, W_int8.t(), state_G, state_W).view(
-                *G_3D.size()[:-1], -1
-            )
-        if ctx.needs_input_grad[1]:
-            grad_W = torch.matmul(G.t(), X.to(G.dtype))
-        if ctx.needs_input_grad[2]:
-            grad_bias = G.sum(dim=0)
-
-        return grad_X, grad_W, grad_bias
-    
-
-
-class SwitchBackGlobalLinear(nn.Linear):
-
-    def prepare_for_eval(self):
-        state_W = self.weight.abs().max()
-        W_int8 = (127 * self.weight.float() / state_W).round().to(torch.int8)
-        
-        self.register_buffer("W_int8", W_int8)
-        self.register_buffer("state_W", state_W)
-
-        del self.weight
-
-    def forward(self, x):
-        if self.training:
-            return _switchback_global.apply(x, self.weight, self.bias)
-        else:
-            if not hasattr(self, "state_W"):
-                self.prepare_for_eval()
-            X = x.view(-1, x.size(-1))
-            X_int8, state_X = quantize_rowwise_nogroup(X)
-            return int8_matmul_mixed_dequanitze_bias(
-                X_int8, self.W_int8.t(), state_X, self.state_W, self.bias
-            ).view(*x.size()[:-1], -1)
-        
+            X_int8, state_X = quantize_rowwise(X)
 
+            if self.vectorize:
+                return int8_matmul_rowwise_dequantize(
+                    X_int8, self.W_int8.t(), state_X, self.state_W, self.bias
+                ).view(*x.size()[:-1], -1)
+            else:
+                return int8_matmul_mixed_dequanitze(
+                    X_int8, self.W_int8.t(), state_X, self.state_W, self.bias
+                ).view(*x.size()[:-1], -1)
 
+SwitchBackLinearGlobal = partial(SwitchBackLinear, vectorize=False)
+SwitchBackLinearVectorized = partial(SwitchBackLinear, vectorize=True)
 
+# This is just the standard linear function.
 class StandardLinearFunction(torch.autograd.Function):
     @staticmethod
     def forward(ctx, input, weight, bias=None):
diff --git a/bitsandbytes/nn/triton_utils/v0/fused_gelu_quantize.py b/bitsandbytes/nn/triton_utils/v0/fused_gelu_quantize.py
deleted file mode 100644
index 50451cb..0000000
--- a/bitsandbytes/nn/triton_utils/v0/fused_gelu_quantize.py
+++ /dev/null
@@ -1,190 +0,0 @@
-import math
-import torch
-import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-tl.libdevice
-
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_rowwise_nogroup_gelu(
-    x_ptr,
-    output_ptr,
-    output_maxs,
-    output_fp16,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    arange = tl.arange(0, P2)
-    offsets = block_start + arange
-    row_mask = arange < BLOCK_SIZE
-    x = tl.load(x_ptr + offsets, mask=row_mask)
-
-    cdf = 0.5 * (1.0 + tl.libdevice.tanh(x * 0.7978845608 * (1 + 0.044715 * x * x)))
-    x_new = x * cdf
-    
-    tl.store(output_fp16 + offsets, x_new, mask=row_mask)
-
-    abs_x = tl.abs(x_new)
-    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
-    output = tl.libdevice.llrint(127. * (x_new / max_val))
-    tl.store(output_ptr + offsets, output, mask=row_mask)
-    tl.store(output_maxs + pid, max_val)
-
-def quantize_rowwise_nogroup_gelu(x: torch.Tensor):
-    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
-    output_fp16 = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
-    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
-
-    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
-
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (x.shape[0],)
-    _quantize_rowwise_nogroup_gelu[grid](x, output, output_maxs, output_fp16, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
-    return output, output_maxs, output_fp16
-
-
-
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_rowwise_nogroup_back_gelu(
-    x_ptr,
-    in_ptr,
-    output_ptr,
-    output_maxs,
-    output_fp16,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    arange = tl.arange(0, P2)
-    offsets = block_start + arange
-    row_mask = arange < BLOCK_SIZE
-    x_out = tl.load(x_ptr + offsets, mask=row_mask)
-    x_in = tl.load(in_ptr + offsets, mask=row_mask)
-
-    cdf = 0.5 * (1.0 + tl.libdevice.tanh(x_in * 0.7978845608 * (1 + 0.044715 * x_in * x_in)))
-    intermediate = tl.libdevice.tanh(x_in * 0.7978845608 * (1 + 0.044715 * x_in * x_in))
-    dcdf = 0.5 * (0.7978845608 + 0.1070322243 * x_in * x_in) * (1 - intermediate * intermediate)
-    x = x_out * (cdf + x_in * dcdf)
-    
-    tl.store(output_fp16 + offsets, x, mask=row_mask)
-
-    abs_x = tl.abs(x)
-    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
-    output = tl.libdevice.llrint(127. * (x / max_val))
-    tl.store(output_ptr + offsets, output, mask=row_mask)
-    tl.store(output_maxs + pid, max_val)
-
-def quantize_rowwise_nogroup_back_gelu(x: torch.Tensor, y : torch.Tensor):
-    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
-    output_fp16 = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
-    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
-
-    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
-
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (x.shape[0],)
-    _quantize_rowwise_nogroup_back_gelu[grid](x, y, output, output_maxs, output_fp16, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
-    return output, output_maxs, output_fp16
-
-
-
-# if __name__ == '__main__':
-#     torch.manual_seed(0)
-
-#     x = torch.randn(1280, 768).cuda().to(torch.float16)
-#     out = quantize_rowwise_nogroup(x)
-
-#     x_real = (127 * x.float() / x.abs().max(dim=1, keepdim=True)[0]).round().to(torch.int8)
-#     max2 = x.abs().max(1)[0]
-
-#     print(torch.allclose(out[1], max2))
-#     print( (x_real == out[0]).float().mean() )
-
-#     # for i in range(x.shape[0]):
-#     #     print( (x_real[i, :] == out[0][i, :]).float().mean() )
-
-#     # print(out[0])
-#     # print(x_real)
-#     # import pdb; pdb.set_trace()
-#     # print(out[2])
-#     # print(out[2][:10])
-#     sums = x.sum(dim=0)
-#     #print(sums[:10])
-#     #print( (sums == out[2]).float().mean() )
-
-#     import pdb; pdb.set_trace()
-#     # import pdb; pdb.set_trace()
-#     # exit()
-
-#     # repeat = 16
-
-#     # for _ in range(8):
-#     #     out = quantize_rowwise_nogroup(x)
-
-#     # triton_graph = torch.cuda.CUDAGraph()
-#     # with torch.cuda.graph(triton_graph):
-#     #     out = quantize_rowwise_nogroup(x)
-
-#     # triton_graph.replay()
-
-#     # torch.cuda.synchronize()
-#     # start = time.time()
-#     # for _ in range(repeat):
-#     #     triton_graph.replay()
-#     # torch.cuda.synchronize()
-#     # end = time.time()
-
-#     # print(out[0])
-#     # print(out[1])
-#     # print(x / x.abs().max(dim=1, keepdim=True)[0])
-#     # max1 = out[1]
-#     # max2 = x.abs().max(1)[0]
-#     # print(max1, max2)
-#     # print(torch.allclose(max1, max2))
-
-#     #print(f"time: {(end - start) / repeat * 1000:.3f} ms")
diff --git a/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py b/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
index 2ecfcb8..69d4b0c 100644
--- a/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
+++ b/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
@@ -5,10 +5,14 @@ import triton.language as tl
 from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
 
+# This is a matmul kernel based on triton.ops.matmul
+# It is modified to support rowwise quantized input and global quantized weight
+# It's purpose is fused matmul then dequantize
+# It does support bias.
+
 def init_to_zero(name):
     return lambda nargs: nargs[name].zero_()
 
-
 def get_configs_io_bound():
     configs = []
     for num_stages in [2, 3, 4, 5, 6]:
@@ -60,130 +64,7 @@ def get_configs_io_bound():
     'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
 })
 @triton.jit
-def _kernel(A, B, C, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr,
-            stride_am, stride_ak,
-            stride_bk, stride_bn,
-            stride_cm, stride_cn,
-            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
-            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
-            ACC_TYPE: tl.constexpr
-            ):
-    # matrix multiplication
-    pid = tl.program_id(0)
-    pid_z = tl.program_id(1)
-    grid_m = tl.cdiv(M, BLOCK_M)
-    grid_n = tl.cdiv(N, BLOCK_N)
-    # re-order program ID for better L2 performance
-    width = GROUP_M * grid_n
-    group_id = pid // width
-    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
-    pid_m = group_id * GROUP_M + (pid % group_size)
-    pid_n = (pid % width) // (group_size)
-    # do matrix multiplication
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
-    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
-    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
-    # pointers
-    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
-    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
-
-    # rematerialize rm and rn to save registers
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-
-    w_factor = tl.load(state_w_ptr)
-    x_factor = tl.load(state_x_ptr + ram)[:, None]
-
-    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
-    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
-    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
-        if EVEN_K:
-            a = tl.load(A)
-            b = tl.load(B)
-        else:
-            k_remaining = K - k * (BLOCK_K * SPLIT_K)
-            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
-            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
-        acc += tl.dot(a, b)
-        A += BLOCK_K * SPLIT_K * stride_ak
-        B += BLOCK_K * SPLIT_K * stride_bk
-    
-    acc = (w_factor * (x_factor * (acc * divfactor)))
-    acc = acc.to(C.dtype.element_ty)
-
-    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-    # handles write-back with reduction-splitting
-    if SPLIT_K == 1:
-        tl.store(C, acc, mask=mask)
-    else:
-        tl.atomic_add(C, acc, mask=mask)
-
-
-def int8_matmul_mixed_dequanitze(a, b, state_x, state_w):
-    device = a.device
-    divfactor = 1. / (127. * 127.)
-    # handle non-contiguous inputs if necessary
-    if a.stride(0) > 1 and a.stride(1) > 1:
-        a = a.contiguous()
-    if b.stride(0) > 1 and b.stride(1) > 1:
-        b = b.contiguous()
-    # checks constraints
-    assert a.shape[1] == b.shape[0], "incompatible dimensions"
-    M, K = a.shape
-    _, N = b.shape
-    # allocates output
-    c = torch.empty((M, N), device=device, dtype=torch.float16)
-    # accumulator types
-    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
-    # launch kernel
-    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
-    _kernel[grid](a, b, c, state_x, state_w, M, N, K, divfactor,
-                    a.stride(0), a.stride(1),
-                    b.stride(0), b.stride(1),
-                    c.stride(0), c.stride(1),
-                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
-    return c
-
-
-
-@triton.autotune(
-    configs=[
-        # basic configs for compute-bound matmuls
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-        # good for int8
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-    ] + get_configs_io_bound(),
-    key=['M', 'N', 'K'],
-    prune_configs_by={
-        'early_config_prune': early_config_prune,
-        'perf_model': estimate_matmul_time,
-        'top_k': 10
-    },
-)
-@triton.heuristics({
-    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
-})
-@triton.jit
-def _kernel_bias(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr, has_bias : tl.constexpr,
+def _int8_matmul_mixed_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr, has_bias : tl.constexpr,
             stride_am, stride_ak,
             stride_bk, stride_bn,
             stride_cm, stride_cn,
@@ -236,6 +117,7 @@ def _kernel_bias(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl
     acc = (w_factor * (x_factor * (acc * divfactor)))
     acc = acc.to(C.dtype.element_ty)
 
+    # conditionally add bias
     if has_bias:
         bias = tl.load(bias + rn).to(C.dtype.element_ty)
         acc = acc + bias[None, :]
@@ -249,7 +131,7 @@ def _kernel_bias(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl
         tl.atomic_add(C, acc, mask=mask)
 
 
-def int8_matmul_mixed_dequanitze_bias(a, b, state_x, state_w, bias):
+def int8_matmul_mixed_dequanitze(a, b, state_x, state_w, bias):
     device = a.device
     divfactor = 1. / (127. * 127.)
     has_bias = 0 if bias is None else 1
@@ -266,9 +148,9 @@ def int8_matmul_mixed_dequanitze_bias(a, b, state_x, state_w, bias):
     c = torch.empty((M, N), device=device, dtype=torch.float16)
     # accumulator types
     ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
-    # launch kernel
+    # launch int8_matmul_mixed_dequantize kernel
     grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
-    _kernel_bias[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
+    _int8_matmul_mixed_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
                     a.stride(0), a.stride(1),
                     b.stride(0), b.stride(1),
                     c.stride(0), c.stride(1),
diff --git a/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py b/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
index fa0b516..4af054b 100644
--- a/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
+++ b/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
@@ -4,6 +4,10 @@ import triton
 import triton.language as tl
 from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
+# This is a matmul kernel based on triton.ops.matmul
+# It is modified to support rowwise quantized input and columnwise quantized weight
+# It's purpose is fused matmul then dequantize
+# It does support bias.
 
 def init_to_zero(name):
     return lambda nargs: nargs[name].zero_()
@@ -60,7 +64,7 @@ def get_configs_io_bound():
     'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
 })
 @triton.jit
-def _kernel(A, B, C, state_x_ptr, state_w_ptr, M, N, K, divfactor,
+def _int8_matmul_rowwise_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor, has_bias : tl.constexpr,
             stride_am, stride_ak,
             stride_bk, stride_bn,
             stride_cm, stride_cn,
@@ -113,6 +117,10 @@ def _kernel(A, B, C, state_x_ptr, state_w_ptr, M, N, K, divfactor,
     acc = (w_factor * (x_factor * (acc * divfactor)))
     acc = acc.to(C.dtype.element_ty)
 
+    if has_bias:
+        bias = tl.load(bias + rn).to(C.dtype.element_ty)
+        acc = acc + bias[None, :]
+
     C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
     mask = (rm < M)[:, None] & (rn < N)[None, :]
     # handles write-back with reduction-splitting
@@ -122,9 +130,11 @@ def _kernel(A, B, C, state_x_ptr, state_w_ptr, M, N, K, divfactor,
         tl.atomic_add(C, acc, mask=mask)
 
 
-def int8_matmul_rowwise_dequantize(a, b, state_x, state_w):
+def int8_matmul_rowwise_dequantize(a, b, state_x, state_w, bias):
     divfactor = 1. / (127. * 127.)
 
+    has_bias = 0 if bias is None else 1
+
     device = a.device
     # handle non-contiguous inputs if necessary
     if a.stride(0) > 1 and a.stride(1) > 1:
@@ -139,9 +149,9 @@ def int8_matmul_rowwise_dequantize(a, b, state_x, state_w):
     c = torch.empty((M, N), device=device, dtype=torch.float16)
     # accumulator types
     ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
-    # launch kernel
+    # launch int8_matmul_rowwise_dequantize kernel
     grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
-    _kernel[grid](a, b, c, state_x, state_w, M, N, K, divfactor,
+    _int8_matmul_rowwise_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
                     a.stride(0), a.stride(1),
                     b.stride(0), b.stride(1),
                     c.stride(0), c.stride(1),
diff --git a/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize_bias.py b/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize_bias.py
deleted file mode 100644
index 5f524c1..0000000
--- a/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize_bias.py
+++ /dev/null
@@ -1,160 +0,0 @@
-import torch
-
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-
-def init_to_zero(name):
-    return lambda nargs: nargs[name].zero_()
-
-
-def get_configs_io_bound():
-    configs = []
-    for num_stages in [2, 3, 4, 5, 6]:
-        for block_m in [16, 32]:
-            for block_k in [32, 64]:
-                for block_n in [32, 64, 128, 256]:
-                    num_warps = 2 if block_n <= 64 else 4
-                    configs.append(
-                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
-                                      num_stages=num_stages, num_warps=num_warps))
-                    # split_k
-                    for split_k in [2, 4, 8, 16]:
-                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
-                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
-    return configs
-
-
-@triton.autotune(
-    configs=[
-        # basic configs for compute-bound matmuls
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-        # good for int8
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-    ] + get_configs_io_bound(),
-    key=['M', 'N', 'K'],
-    prune_configs_by={
-        'early_config_prune': early_config_prune,
-        'perf_model': estimate_matmul_time,
-        'top_k': 10
-    },
-)
-@triton.heuristics({
-    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
-})
-@triton.jit
-def _kernel(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor, has_bias : tl.constexpr,
-            stride_am, stride_ak,
-            stride_bk, stride_bn,
-            stride_cm, stride_cn,
-            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
-            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
-            ACC_TYPE: tl.constexpr
-            ):
-    # matrix multiplication
-    pid = tl.program_id(0)
-    pid_z = tl.program_id(1)
-    grid_m = tl.cdiv(M, BLOCK_M)
-    grid_n = tl.cdiv(N, BLOCK_N)
-    # re-order program ID for better L2 performance
-    width = GROUP_M * grid_n
-    group_id = pid // width
-    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
-    pid_m = group_id * GROUP_M + (pid % group_size)
-    pid_n = (pid % width) // (group_size)
-    # do matrix multiplication
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
-    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
-    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
-    # pointers
-    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
-    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
-
-    # rematerialize rm and rn to save registers
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-
-    w_factor = tl.load(state_w_ptr + rbn)[None, :]
-    x_factor = tl.load(state_x_ptr + ram)[:, None]
-
-    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
-    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
-    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
-        if EVEN_K:
-            a = tl.load(A)
-            b = tl.load(B)
-        else:
-            k_remaining = K - k * (BLOCK_K * SPLIT_K)
-            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
-            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
-        acc += tl.dot(a, b)
-        A += BLOCK_K * SPLIT_K * stride_ak
-        B += BLOCK_K * SPLIT_K * stride_bk
-    
-    acc = (w_factor * (x_factor * (acc * divfactor)))
-    acc = acc.to(C.dtype.element_ty)
-
-    if has_bias:
-        bias = tl.load(bias + rn).to(C.dtype.element_ty)
-        acc = acc + bias[None, :]
-
-    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-    # handles write-back with reduction-splitting
-    if SPLIT_K == 1:
-        tl.store(C, acc, mask=mask)
-    else:
-        tl.atomic_add(C, acc, mask=mask)
-
-
-def int8_matmul_rowwise_dequantize_bias(a, b, state_x, state_w, bias):
-
-    #print(bias)
-    divfactor = 1. / (127. * 127.)
-
-    has_bias = 0 if bias is None else 1
-
-    if bias is not None:
-        bias = bias.contiguous()
-
-    device = a.device
-    # handle non-contiguous inputs if necessary
-    if a.stride(0) > 1 and a.stride(1) > 1:
-        a = a.contiguous()
-    if b.stride(0) > 1 and b.stride(1) > 1:
-        b = b.contiguous()
-    # checks constraints
-    assert a.shape[1] == b.shape[0], "incompatible dimensions"
-    M, K = a.shape
-    _, N = b.shape
-    # allocates output
-    c = torch.empty((M, N), device=device, dtype=torch.float16)
-    # accumulator types
-    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
-    # launch kernel
-    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
-    _kernel[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
-                    a.stride(0), a.stride(1),
-                    b.stride(0), b.stride(1),
-                    c.stride(0), c.stride(1),
-                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
-    return c
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_nogroup_transpose.py b/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_and_transpose.py
similarity index 54%
rename from bitsandbytes/nn/triton_utils/v0/quantize_columnwise_nogroup_transpose.py
rename to bitsandbytes/nn/triton_utils/v0/quantize_columnwise_and_transpose.py
index fa3a9a9..4e53475 100644
--- a/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_nogroup_transpose.py
+++ b/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_and_transpose.py
@@ -5,6 +5,8 @@ import triton
 import triton.language as tl
 from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
+# This kernel does fused columnwise quantization and transpose.
+
 # TODO: autotune this better.
 @triton.autotune(
         configs=[
@@ -26,7 +28,7 @@ from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_tim
         key=['n_elements']
 )
 @triton.jit
-def _quantize_columnwise_nogroup_transpose(
+def _quantize_columnwise_and_transpose(
     x_ptr,
     output_ptr,
     output_maxs,
@@ -51,7 +53,7 @@ def _quantize_columnwise_nogroup_transpose(
     tl.store(output_ptr + new_offsets, output, mask=p2_arange_mask)
     tl.store(output_maxs + pid, max_val)
 
-def quantize_columnwise_nogroup_transpose(x: torch.Tensor):
+def quantize_columnwise_and_transpose(x: torch.Tensor):
     M, N = x.shape
     output = torch.empty(N, M, device=x.device, dtype=torch.int8)
     output_maxs = torch.empty(x.shape[1], device=x.device, dtype=torch.float16)
@@ -61,62 +63,6 @@ def quantize_columnwise_nogroup_transpose(x: torch.Tensor):
     assert x.is_cuda and output.is_cuda
     n_elements = output.numel()
     grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
-    _quantize_columnwise_nogroup_transpose[grid](x, output, output_maxs, n_elements, M, N, BLOCK_SIZE=M, P2=P2)
+    _quantize_columnwise_and_transpose[grid](x, output, output_maxs, n_elements, M, N, BLOCK_SIZE=M, P2=P2)
     return output, output_maxs
 
-
-
-if __name__ == '__main__':
-    torch.manual_seed(0)
-
-    x = torch.randn(1280, 768).cuda().to(torch.float16)
-    out = quantize_columnwise_nogroup_transpose(x)
-
-
-    x_real = x.t().float()
-    x_real_int8 = (127. * x_real / x_real.abs().max(dim=1, keepdim=True)[0]).round().to(torch.int8)
-    maxs = x_real.abs().max(dim=1, keepdim=True)[0].half()
-
-    #print(out[0][2,:])
-
-    print((out[0] == x_real_int8).float().mean())
-    print((out[1] == maxs[:, 0]).float().mean())
-
-    # print(out[0])
-    # print(out[1])
-
-    # print(out[0][2,:])
-    # print(x_real[2, :])
-
-    # print((out[0] != x_real).nonzero())
-
-    #import pdb; pdb.set_trace()
-    # repeat = 16
-
-    # for _ in range(8):
-    #     out = quantize_columnwise_nogroup_transpose(x)
-
-    # triton_graph = torch.cuda.CUDAGraph()
-    # with torch.cuda.graph(triton_graph):
-    #     out = quantize_columnwise_nogroup_transpose(x)
-
-    # triton_graph.replay()
-
-    # torch.cuda.synchronize()
-    # start = time.time()
-    # for _ in range(repeat):
-    #     triton_graph.replay()
-    # torch.cuda.synchronize()
-    # end = time.time()
-
-    # print(out[0])
-    # print(out[1])
-    # print(x / x.abs().max(dim=0, keepdim=True)[0])
-    # x_real = (127 * (x / x.abs().max(dim=0, keepdim=True)[0])).round().to(torch.int8)
-    # max1 = out[1]
-    # max2 = x.abs().max(0)[0]
-    # print(max1, max2)
-    # import pdb; pdb.set_trace()
-    # print(torch.allclose(max1, max2))
-
-    # print(f"time: {(end - start) / repeat * 1000:.3f} ms")
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_global.py b/bitsandbytes/nn/triton_utils/v0/quantize_global.py
index 6d23aac..229721c 100644
--- a/bitsandbytes/nn/triton_utils/v0/quantize_global.py
+++ b/bitsandbytes/nn/triton_utils/v0/quantize_global.py
@@ -5,7 +5,7 @@ import triton
 import triton.language as tl
 from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
-# TODO: autotune this better.
+# global quantize
 @triton.autotune(
         configs=[
             triton.Config({'BLOCK_SIZE': 1024,}, num_warps=4),
@@ -42,6 +42,7 @@ def quantize_global(x: torch.Tensor):
     return output, absmax
 
 
+# global quantize and transpose
 @triton.autotune(
         configs=[
             triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
@@ -97,34 +98,3 @@ def quantize_global_transpose(input):
     _quantize_global_transpose[grid](input, absmax_inv, out, input.stride(0), input.stride(1), out.stride(0), out.stride(1), M, N)
     return out, absmax
 
-if __name__ == '__main__':
-
-
-    w = torch.randn(768, 1280).cuda().to(torch.float16)
-    W_int8, state_w = quantize_global(w)
-    r_state_w = w.abs().max()
-    r_W_int8 = ((127 * w.float()) / state_w).round().to(torch.int8)
-    print((r_W_int8 == W_int8).float().mean())
-
-    # print(r_W_int8)
-    # print(W_int8)
-    exit()
-    repeat = 16
-
-    for _ in range(8):
-        out = quantize_global(w)
-
-    triton_graph = torch.cuda.CUDAGraph()
-    with torch.cuda.graph(triton_graph):
-        out = quantize_global(w)
-
-    triton_graph.replay()
-
-    torch.cuda.synchronize()
-    start = time.time()
-    for _ in range(repeat):
-        triton_graph.replay()
-    torch.cuda.synchronize()
-    end = time.time()
-
-    print(f"time: {(end - start) / repeat * 1000:.3f} ms")
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_rowwise.py b/bitsandbytes/nn/triton_utils/v0/quantize_rowwise.py
new file mode 100644
index 0000000..d956647
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/quantize_rowwise.py
@@ -0,0 +1,61 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# rowwise quantize
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_rowwise(
+    x_ptr,
+    output_ptr,
+    output_maxs,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    arange = tl.arange(0, P2)
+    offsets = block_start + arange
+    row_mask = arange < BLOCK_SIZE
+    x = tl.load(x_ptr + offsets, mask=row_mask)
+    
+    abs_x = tl.abs(x)
+    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
+    output = tl.libdevice.llrint(127. * (x / max_val))
+    tl.store(output_ptr + offsets, output, mask=row_mask)
+    tl.store(output_maxs + pid, max_val)
+
+def quantize_rowwise(x: torch.Tensor):
+    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
+    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (x.shape[0],)
+    _quantize_rowwise[grid](x, output, output_maxs, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+    return output, output_maxs
+
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_rowwise_nogroup.py b/bitsandbytes/nn/triton_utils/v0/quantize_rowwise_nogroup.py
deleted file mode 100644
index 7e63f74..0000000
--- a/bitsandbytes/nn/triton_utils/v0/quantize_rowwise_nogroup.py
+++ /dev/null
@@ -1,174 +0,0 @@
-import math
-import torch
-import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_rowwise_nogroup(
-    x_ptr,
-    output_ptr,
-    output_maxs,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    arange = tl.arange(0, P2)
-    offsets = block_start + arange
-    row_mask = arange < BLOCK_SIZE
-    x = tl.load(x_ptr + offsets, mask=row_mask)
-    
-    abs_x = tl.abs(x)
-    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
-    output = tl.libdevice.llrint(127. * (x / max_val))
-    tl.store(output_ptr + offsets, output, mask=row_mask)
-    tl.store(output_maxs + pid, max_val)
-
-def quantize_rowwise_nogroup(x: torch.Tensor):
-    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
-    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
-
-    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
-
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (x.shape[0],)
-    _quantize_rowwise_nogroup[grid](x, output, output_maxs, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
-    return output, output_maxs
-
-
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _experimental_quantize_rowwise_nogroup(
-    x_ptr,
-    output_ptr,
-    bias_grad_ptr,
-    output_maxs,
-    n_elements,
-    M: tl.constexpr, N: tl.constexpr,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-    P2M: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    if pid < M:
-        block_start = pid * BLOCK_SIZE
-        arange = tl.arange(0, P2)
-        offsets = block_start + arange
-        row_mask = arange < BLOCK_SIZE
-        x = tl.load(x_ptr + offsets, mask=row_mask)
-        
-        abs_x = tl.abs(x)
-        max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
-        output = tl.libdevice.llrint(127. * (x / max_val))
-        tl.store(output_ptr + offsets, output, mask=row_mask)
-        tl.store(output_maxs + pid, max_val)
-    else:
-        real_pid = pid - M
-        arange_new = tl.arange(0, P2M)
-        mask_new = arange_new < M
-        offsets_new = real_pid + arange_new * N
-        new_x = tl.load(x_ptr + offsets_new, mask=mask_new)
-        s = tl.sum(tl.where(mask_new, new_x, 0).to(tl.float32), axis=0)
-        tl.store(bias_grad_ptr + real_pid, s)
-
-def experimental_quantize_rowwise_nogroup(x: torch.Tensor):
-    M, N = x.shape
-    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
-    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
-    bias_grad = torch.empty(x.shape[1], device=x.device, dtype=torch.float16)
-
-    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
-    P2M = int(2 ** (math.ceil(math.log2(x.shape[0]))))
-
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (x.shape[0] + x.shape[1],)
-    _experimental_quantize_rowwise_nogroup[grid](x, output, bias_grad, output_maxs, n_elements, M, N, BLOCK_SIZE=x.shape[1], P2=P2, P2M=P2M)
-    return output, output_maxs, bias_grad
-
-
-if __name__ == '__main__':
-    torch.manual_seed(0)
-
-    x = torch.randn(1280, 768).cuda().to(torch.float16)
-    out = quantize_rowwise_nogroup(x)
-
-    x_real = (127 * x.float() / x.abs().max(dim=1, keepdim=True)[0]).round().to(torch.int8)
-    max2 = x.abs().max(1)[0]
-
-    print(torch.allclose(out[1], max2))
-    print( (x_real == out[0]).float().mean() )
-
-    # for i in range(x.shape[0]):
-    #     print( (x_real[i, :] == out[0][i, :]).float().mean() )
-
-    # print(out[0])
-    # print(x_real)
-    # import pdb; pdb.set_trace()
-    # print(out[2])
-    # print(out[2][:10])
-    sums = x.sum(dim=0)
-    #print(sums[:10])
-    #print( (sums == out[2]).float().mean() )
-
-    import pdb; pdb.set_trace()
-    # import pdb; pdb.set_trace()
-    # exit()
-
-    # repeat = 16
-
-    # for _ in range(8):
-    #     out = quantize_rowwise_nogroup(x)
-
-    # triton_graph = torch.cuda.CUDAGraph()
-    # with torch.cuda.graph(triton_graph):
-    #     out = quantize_rowwise_nogroup(x)
-
-    # triton_graph.replay()
-
-    # torch.cuda.synchronize()
-    # start = time.time()
-    # for _ in range(repeat):
-    #     triton_graph.replay()
-    # torch.cuda.synchronize()
-    # end = time.time()
-
-    # print(out[0])
-    # print(out[1])
-    # print(x / x.abs().max(dim=1, keepdim=True)[0])
-    # max1 = out[1]
-    # max2 = x.abs().max(1)[0]
-    # print(max1, max2)
-    # print(torch.allclose(max1, max2))
-
-    #print(f"time: {(end - start) / repeat * 1000:.3f} ms")
diff --git a/speed_benchmark/info_a100_py2.jsonl b/speed_benchmark/info_a100_py2.jsonl
new file mode 100644
index 0000000..53cda62
--- /dev/null
+++ b/speed_benchmark/info_a100_py2.jsonl
@@ -0,0 +1,60 @@
+{"repeat": 64, "batch_size": 8192, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.28139352798461914, "standard_gw": 0.2811811864376068, "standard_gx": 0.30258670449256897, "rowwise_fwd": 0.1994594931602478, "rowwise_bwd": 0.16159191727638245, "global_fwd": 0.19502267241477966, "global_bwd": 0.16080215573310852, "x_quantize_rowwise": 0.03306940197944641, "g_quantize_rowwise": 0.08210167288780212, "w_quantize_rowwise": 0.03385916352272034, "w_quantize_colwise_transpose": 0.08635595440864563, "w_quantize_global": 0.09237229824066162, "w_quantize_global_transpose": 0.10007619857788086, "time_standard": 0.8651614189147949, "time_rowwise": 0.8776187896728516, "time_global": 0.944625586271286}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.262625515460968, "standard_gw": 0.2806223928928375, "standard_gx": 0.31118839979171753, "rowwise_fwd": 0.1828707754611969, "rowwise_bwd": 0.21236762404441833, "global_fwd": 0.16665831208229065, "global_bwd": 0.19929558038711548, "x_quantize_rowwise": 0.08227676153182983, "g_quantize_rowwise": 0.03310292959213257, "w_quantize_rowwise": 0.032648444175720215, "w_quantize_colwise_transpose": 0.09015202522277832, "w_quantize_global": 0.0988692045211792, "w_quantize_global_transpose": 0.10057538747787476, "time_standard": 0.8544363081455231, "time_rowwise": 0.9140409529209137, "time_global": 0.96140056848526}
+{"repeat": 64, "batch_size": 16384, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.5731917917728424, "standard_gw": 0.5709454417228699, "standard_gx": 0.5963630974292755, "rowwise_fwd": 0.37662312388420105, "rowwise_bwd": 0.281747430562973, "global_fwd": 0.36768242716789246, "global_bwd": 0.28043612837791443, "x_quantize_rowwise": 0.046547502279281616, "g_quantize_rowwise": 0.15532970428466797, "w_quantize_rowwise": 0.032436102628707886, "w_quantize_colwise_transpose": 0.08635222911834717, "w_quantize_global": 0.0947415828704834, "w_quantize_global_transpose": 0.10129809379577637, "time_standard": 1.7405003309249878, "time_rowwise": 1.5499815344810486, "time_global": 1.616980880498886}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.5341619253158569, "standard_gw": 0.5690865218639374, "standard_gx": 0.599835067987442, "rowwise_fwd": 0.3233291208744049, "rowwise_bwd": 0.41359663009643555, "global_fwd": 0.2831108868122101, "global_bwd": 0.37280842661857605, "x_quantize_rowwise": 0.15563145279884338, "g_quantize_rowwise": 0.046741217374801636, "w_quantize_rowwise": 0.03306940197944641, "w_quantize_colwise_transpose": 0.09020790457725525, "w_quantize_global": 0.0925213098526001, "w_quantize_global_transpose": 0.09945780038833618, "time_standard": 1.7030835151672363, "time_rowwise": 1.6316622495651245, "time_global": 1.6193576157093048}
+{"repeat": 64, "batch_size": 32768, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 1.2199915945529938, "standard_gw": 1.1069811880588531, "standard_gx": 1.09761580824852, "rowwise_fwd": 0.738043338060379, "rowwise_bwd": 0.5549229681491852, "global_fwd": 0.7219798862934113, "global_bwd": 0.5512163043022156, "x_quantize_rowwise": 0.08748471736907959, "g_quantize_rowwise": 0.3023110330104828, "w_quantize_rowwise": 0.03182142972946167, "w_quantize_colwise_transpose": 0.08632615208625793, "w_quantize_global": 0.09445473551750183, "w_quantize_global_transpose": 0.10032951831817627, "time_standard": 3.424588590860367, "time_rowwise": 2.9078908264636993, "time_global": 2.9647573828697205}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 1.1040829122066498, "standard_gw": 1.1221766471862793, "standard_gx": 1.1548101902008057, "rowwise_fwd": 0.581938773393631, "rowwise_bwd": 0.7480122148990631, "global_fwd": 0.5537159740924835, "global_bwd": 0.7232688367366791, "x_quantize_rowwise": 0.30193477869033813, "g_quantize_rowwise": 0.08745118975639343, "w_quantize_rowwise": 0.03374740481376648, "w_quantize_colwise_transpose": 0.09068101644515991, "w_quantize_global": 0.09645149111747742, "w_quantize_global_transpose": 0.10189786553382874, "time_standard": 3.3810697495937347, "time_rowwise": 2.9659420251846313, "time_global": 2.9868967831134796}
+{"repeat": 64, "batch_size": 65536, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 2.4533793330192566, "standard_gw": 2.1938569843769073, "standard_gx": 2.179361879825592, "rowwise_fwd": 1.4615543186664581, "rowwise_bwd": 1.0522231459617615, "global_fwd": 1.4288239181041718, "global_bwd": 1.0450035333633423, "x_quantize_rowwise": 0.1691766083240509, "g_quantize_rowwise": 0.5951300263404846, "w_quantize_rowwise": 0.03337860107421875, "w_quantize_colwise_transpose": 0.08653849363327026, "w_quantize_global": 0.0940859317779541, "w_quantize_global_transpose": 0.09976327419281006, "time_standard": 6.826598197221756, "time_rowwise": 5.5918581783771515, "time_global": 5.625840276479721}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 2.1698065102100372, "standard_gw": 2.1875128149986267, "standard_gx": 2.2887587547302246, "rowwise_fwd": 1.0762326419353485, "rowwise_bwd": 1.4638006687164307, "global_fwd": 1.0450668632984161, "global_bwd": 1.4308765530586243, "x_quantize_rowwise": 0.5953535437583923, "g_quantize_rowwise": 0.16899779438972473, "w_quantize_rowwise": 0.03240257501602173, "w_quantize_colwise_transpose": 0.09106099605560303, "w_quantize_global": 0.09546056389808655, "w_quantize_global_transpose": 0.09852275252342224, "time_standard": 6.6460780799388885, "time_rowwise": 5.615361034870148, "time_global": 5.621790885925293}
+{"repeat": 64, "batch_size": 131072, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 4.858218133449554, "standard_gw": 4.3631307780742645, "standard_gx": 4.404045641422272, "rowwise_fwd": 2.9063820838928223, "rowwise_bwd": 2.094462513923645, "global_fwd": 2.8426870703697205, "global_bwd": 2.0792782306671143, "x_quantize_rowwise": 0.33241137862205505, "g_quantize_rowwise": 1.1817105114459991, "w_quantize_rowwise": 0.03374367952346802, "w_quantize_colwise_transpose": 0.08633732795715332, "w_quantize_global": 0.09231641888618469, "w_quantize_global_transpose": 0.100012868642807, "time_standard": 13.62539455294609, "time_rowwise": 10.998178273439407, "time_global": 10.991547256708145}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 4.246581345796585, "standard_gw": 4.42587211728096, "standard_gx": 4.581417888402939, "rowwise_fwd": 2.1114833652973175, "rowwise_bwd": 2.9050447046756744, "global_fwd": 2.0806826651096344, "global_bwd": 2.85966694355011, "x_quantize_rowwise": 1.1816024780273438, "g_quantize_rowwise": 0.33330172300338745, "w_quantize_rowwise": 0.033445656299591064, "w_quantize_colwise_transpose": 0.09065866470336914, "w_quantize_global": 0.09239837527275085, "w_quantize_global_transpose": 0.09984523057937622, "time_standard": 13.253871351480484, "time_rowwise": 11.081408709287643, "time_global": 11.073369532823563}
+{"repeat": 64, "batch_size": 8192, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.4859529435634613, "standard_gw": 0.46338513493537903, "standard_gx": 0.42321905493736267, "rowwise_fwd": 0.2761557698249817, "rowwise_bwd": 0.20775198936462402, "global_fwd": 0.2713911235332489, "global_bwd": 0.20639970898628235, "x_quantize_rowwise": 0.033095479011535645, "g_quantize_rowwise": 0.11894106864929199, "w_quantize_rowwise": 0.03125518560409546, "w_quantize_colwise_transpose": 0.1424551010131836, "w_quantize_global": 0.07288157939910889, "w_quantize_global_transpose": 0.08071959018707275, "time_standard": 1.372557133436203, "time_rowwise": 1.2730397284030914, "time_global": 1.2468136847019196}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.3920421004295349, "standard_gw": 0.44424086809158325, "standard_gx": 0.4759356379508972, "rowwise_fwd": 0.23231282830238342, "rowwise_bwd": 0.28430670499801636, "global_fwd": 0.20883232355117798, "global_bwd": 0.2741999924182892, "x_quantize_rowwise": 0.12018159031867981, "g_quantize_rowwise": 0.03195926547050476, "w_quantize_rowwise": 0.026017427444458008, "w_quantize_colwise_transpose": 0.14733895659446716, "w_quantize_global": 0.07734447717666626, "w_quantize_global_transpose": 0.0788569450378418, "time_standard": 1.3122186064720154, "time_rowwise": 1.2863576412200928, "time_global": 1.235615462064743}
+{"repeat": 64, "batch_size": 16384, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 1.0111741721630096, "standard_gw": 0.9267590939998627, "standard_gx": 0.8254274725914001, "rowwise_fwd": 0.5434826016426086, "rowwise_bwd": 0.4077926278114319, "global_fwd": 0.5318708717823029, "global_bwd": 0.40537863969802856, "x_quantize_rowwise": 0.059738755226135254, "g_quantize_rowwise": 0.2299174666404724, "w_quantize_rowwise": 0.02545863389968872, "w_quantize_colwise_transpose": 0.14269724488258362, "w_quantize_global": 0.07300823926925659, "w_quantize_global_transpose": 0.07878988981246948, "time_standard": 2.7633607387542725, "time_rowwise": 2.335846424102783, "time_global": 2.305462956428528}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.8095316588878632, "standard_gw": 0.8607134222984314, "standard_gx": 0.9204968810081482, "rowwise_fwd": 0.4275888204574585, "rowwise_bwd": 0.5485899746417999, "global_fwd": 0.41000545024871826, "global_bwd": 0.5317628383636475, "x_quantize_rowwise": 0.2301819622516632, "g_quantize_rowwise": 0.059254467487335205, "w_quantize_rowwise": 0.02466142177581787, "w_quantize_colwise_transpose": 0.14865398406982422, "w_quantize_global": 0.07582828402519226, "w_quantize_global_transpose": 0.08231401443481445, "time_standard": 2.5907419621944427, "time_rowwise": 2.2996440529823303, "time_global": 2.2500604391098022}
+{"repeat": 64, "batch_size": 32768, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 2.0658522844314575, "standard_gw": 1.718364655971527, "standard_gx": 1.6660578548908234, "rowwise_fwd": 1.066897064447403, "rowwise_bwd": 0.8070804178714752, "global_fwd": 1.0473169386386871, "global_bwd": 0.8021742105484009, "x_quantize_rowwise": 0.11274218559265137, "g_quantize_rowwise": 0.4518181085586548, "w_quantize_rowwise": 0.026501715183258057, "w_quantize_colwise_transpose": 0.14259666204452515, "w_quantize_global": 0.07484853267669678, "w_quantize_global_transpose": 0.07976219058036804, "time_standard": 5.450274795293808, "time_rowwise": 4.326000809669495, "time_global": 4.287026822566986}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 2.7549192309379578, "standard_gw": 1.6954988241195679, "standard_gx": 1.8179528415203094, "rowwise_fwd": 0.8649080991744995, "rowwise_bwd": 1.0746456682682037, "global_fwd": 0.8023083209991455, "global_bwd": 1.0471977293491364, "x_quantize_rowwise": 0.45225024223327637, "g_quantize_rowwise": 0.11286512017250061, "w_quantize_rowwise": 0.0252649188041687, "w_quantize_colwise_transpose": 0.14732033014297485, "w_quantize_global": 0.07537379860877991, "w_quantize_global_transpose": 0.0807642936706543, "time_standard": 6.268370896577835, "time_rowwise": 4.372753202915192, "time_global": 4.266258329153061}
+{"repeat": 64, "batch_size": 65536, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 4.098430275917053, "standard_gw": 3.3501461148262024, "standard_gx": 5.560480058193207, "rowwise_fwd": 2.112947404384613, "rowwise_bwd": 1.605246216058731, "global_fwd": 2.0697638392448425, "global_bwd": 1.5953518450260162, "x_quantize_rowwise": 0.21921470761299133, "g_quantize_rowwise": 0.8956789970397949, "w_quantize_rowwise": 0.02710893750190735, "w_quantize_colwise_transpose": 0.14268234372138977, "w_quantize_global": 0.07259473204612732, "w_quantize_global_transpose": 0.07899105548858643, "time_standard": 13.009056448936462, "time_rowwise": 8.35302472114563, "time_global": 8.281741291284561}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 5.586959421634674, "standard_gw": 3.358360379934311, "standard_gx": 3.6434978246688843, "rowwise_fwd": 1.6269534826278687, "rowwise_bwd": 2.128206193447113, "global_fwd": 1.5950687229633331, "global_bwd": 2.0831897854804993, "x_quantize_rowwise": 0.8954145014286041, "g_quantize_rowwise": 0.21914392709732056, "w_quantize_rowwise": 0.026203691959381104, "w_quantize_colwise_transpose": 0.14658644795417786, "w_quantize_global": 0.07478520274162292, "w_quantize_global_transpose": 0.07964670658111572, "time_standard": 12.58881762623787, "time_rowwise": 8.400868624448776, "time_global": 8.305609226226807}
+{"repeat": 64, "batch_size": 131072, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 8.229725062847137, "standard_gw": 6.791356950998306, "standard_gx": 6.806455552577972, "rowwise_fwd": 4.252471029758453, "rowwise_bwd": 3.2062679529190063, "global_fwd": 4.175614565610886, "global_bwd": 3.1837262213230133, "x_quantize_rowwise": 0.4321373999118805, "g_quantize_rowwise": 1.787092536687851, "w_quantize_rowwise": 0.0270158052444458, "w_quantize_colwise_transpose": 0.1424252986907959, "w_quantize_global": 0.07348507642745972, "w_quantize_global_transpose": 0.07829815149307251, "time_standard": 21.827537566423416, "time_rowwise": 16.63876697421074, "time_global": 16.52171090245247}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 11.279478669166565, "standard_gw": 6.7345499992370605, "standard_gx": 7.206875830888748, "rowwise_fwd": 3.209315240383148, "rowwise_bwd": 4.256397485733032, "global_fwd": 3.180190920829773, "global_bwd": 4.177983850240707, "x_quantize_rowwise": 1.7836056649684906, "g_quantize_rowwise": 0.4321075975894928, "w_quantize_rowwise": 0.03205239772796631, "w_quantize_colwise_transpose": 0.14675036072731018, "w_quantize_global": 0.09316205978393555, "w_quantize_global_transpose": 0.10086596012115479, "time_standard": 25.220904499292374, "time_rowwise": 16.5947787463665, "time_global": 16.502466052770615}
+{"repeat": 64, "batch_size": 8192, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.5776733160018921, "standard_gw": 0.5300231277942657, "standard_gx": 0.6005913019180298, "rowwise_fwd": 0.33330172300338745, "rowwise_bwd": 0.2957060933113098, "global_fwd": 0.32876431941986084, "global_bwd": 0.29108673334121704, "x_quantize_rowwise": 0.03466755151748657, "g_quantize_rowwise": 0.12264400720596313, "w_quantize_rowwise": 0.033874064683914185, "w_quantize_colwise_transpose": 0.1775398850440979, "w_quantize_global": 0.09503215551376343, "w_quantize_global_transpose": 0.10617449879646301, "time_standard": 1.7082877457141876, "time_rowwise": 1.5277564525604248, "time_global": 1.5083923935890198}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.5164109170436859, "standard_gw": 0.5367249250411987, "standard_gx": 0.5876161158084869, "rowwise_fwd": 0.3132447600364685, "rowwise_bwd": 0.3396235406398773, "global_fwd": 0.2943649888038635, "global_bwd": 0.33209100365638733, "x_quantize_rowwise": 0.12357160449028015, "g_quantize_rowwise": 0.035997480154037476, "w_quantize_rowwise": 0.03213062882423401, "w_quantize_colwise_transpose": 0.17676874995231628, "w_quantize_global": 0.09861215949058533, "w_quantize_global_transpose": 0.0998862087726593, "time_standard": 1.6407519578933716, "time_rowwise": 1.5580616891384125, "time_global": 1.5212483704090118}
+{"repeat": 64, "batch_size": 16384, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 1.2096501886844635, "standard_gw": 1.0663382709026337, "standard_gx": 1.0961703956127167, "rowwise_fwd": 0.6396733224391937, "rowwise_bwd": 0.5173943936824799, "global_fwd": 0.6296299397945404, "global_bwd": 0.5130060017108917, "x_quantize_rowwise": 0.06211921572685242, "g_quantize_rowwise": 0.2361498773097992, "w_quantize_rowwise": 0.03260001540184021, "w_quantize_colwise_transpose": 0.17679482698440552, "w_quantize_global": 0.09361281991004944, "w_quantize_global_transpose": 0.09913742542266846, "time_standard": 3.372158855199814, "time_rowwise": 2.7310699224472046, "time_global": 2.6999935507774353}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 1.1065565049648285, "standard_gw": 1.0664314031600952, "standard_gx": 1.1266544461250305, "rowwise_fwd": 0.5352050065994263, "rowwise_bwd": 0.6464086472988129, "global_fwd": 0.513765960931778, "global_bwd": 0.6284862756729126, "x_quantize_rowwise": 0.23620948195457458, "g_quantize_rowwise": 0.062271952629089355, "w_quantize_rowwise": 0.031460076570510864, "w_quantize_colwise_transpose": 0.17675384879112244, "w_quantize_global": 0.09486451745033264, "w_quantize_global_transpose": 0.09898096323013306, "time_standard": 3.2996423542499542, "time_rowwise": 2.7547404170036316, "time_global": 2.7010105550289154}
+{"repeat": 64, "batch_size": 32768, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 2.4367496371269226, "standard_gw": 2.0806193351745605, "standard_gx": 2.19624862074852, "rowwise_fwd": 1.2554042041301727, "rowwise_bwd": 1.0227933526039124, "global_fwd": 1.2322552502155304, "global_bwd": 1.0152235627174377, "x_quantize_rowwise": 0.11792033910751343, "g_quantize_rowwise": 0.4639364778995514, "w_quantize_rowwise": 0.03241002559661865, "w_quantize_colwise_transpose": 0.17657503485679626, "w_quantize_global": 0.09655207395553589, "w_quantize_global_transpose": 0.09958073496818542, "time_standard": 6.713617593050003, "time_rowwise": 5.149658769369125, "time_global": 5.106087774038315}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 2.1935217082500458, "standard_gw": 2.0055584609508514, "standard_gx": 2.1882541477680206, "rowwise_fwd": 1.0396353900432587, "rowwise_bwd": 1.2542344629764557, "global_fwd": 1.0161921381950378, "global_bwd": 1.233428716659546, "x_quantize_rowwise": 0.4642195999622345, "g_quantize_rowwise": 0.11782720685005188, "w_quantize_rowwise": 0.033117830753326416, "w_quantize_colwise_transpose": 0.17696991562843323, "w_quantize_global": 0.09416043758392334, "w_quantize_global_transpose": 0.10101497173309326, "time_standard": 6.387334316968918, "time_rowwise": 5.091562867164612, "time_global": 5.032401531934738}
+{"repeat": 64, "batch_size": 65536, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 4.804681986570358, "standard_gw": 4.763372242450714, "standard_gx": 4.064023494720459, "rowwise_fwd": 2.484843134880066, "rowwise_bwd": 1.9691288471221924, "global_fwd": 2.441786229610443, "global_bwd": 1.9574686884880066, "x_quantize_rowwise": 0.2294592559337616, "g_quantize_rowwise": 0.9196549654006958, "w_quantize_rowwise": 0.0313781201839447, "w_quantize_colwise_transpose": 0.1768544316291809, "w_quantize_global": 0.09644776582717896, "w_quantize_global_transpose": 0.09847059845924377, "time_standard": 13.632077723741531, "time_rowwise": 10.574690997600555, "time_global": 10.506659746170044}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 4.0907710790634155, "standard_gw": 3.9793066680431366, "standard_gx": 4.302978515625, "rowwise_fwd": 1.992940902709961, "rowwise_bwd": 2.4996213614940643, "global_fwd": 1.9551962614059448, "global_bwd": 2.457551658153534, "x_quantize_rowwise": 0.9200014173984528, "g_quantize_rowwise": 0.2293996512889862, "w_quantize_rowwise": 0.0313781201839447, "w_quantize_colwise_transpose": 0.17882883548736572, "w_quantize_global": 0.09540095925331116, "w_quantize_global_transpose": 0.09880587458610535, "time_standard": 12.373056262731552, "time_rowwise": 9.831476956605911, "time_global": 9.73566249012947}
+{"repeat": 64, "batch_size": 131072, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 9.655728936195374, "standard_gw": 8.261296898126602, "standard_gx": 8.064884692430496, "rowwise_fwd": 5.007706582546234, "rowwise_bwd": 3.8615092635154724, "global_fwd": 4.920527338981628, "global_bwd": 3.8330331444740295, "x_quantize_rowwise": 0.45276060700416565, "g_quantize_rowwise": 1.8306002020835876, "w_quantize_rowwise": 0.031366944313049316, "w_quantize_colwise_transpose": 0.1766495406627655, "w_quantize_global": 0.09412690997123718, "w_quantize_global_transpose": 0.09780004620552063, "time_standard": 25.981910526752472, "time_rowwise": 19.621890038251877, "time_global": 19.49014514684677}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 8.033104240894318, "standard_gw": 8.2889124751091, "standard_gx": 8.622754365205765, "rowwise_fwd": 3.8747042417526245, "rowwise_bwd": 5.003921687602997, "global_fwd": 3.8315393030643463, "global_bwd": 4.9162134528160095, "x_quantize_rowwise": 1.8304847180843353, "g_quantize_rowwise": 0.4522763192653656, "w_quantize_rowwise": 0.03413110971450806, "w_quantize_colwise_transpose": 0.1771189272403717, "w_quantize_global": 0.09519979357719421, "w_quantize_global_transpose": 0.09930506348609924, "time_standard": 24.944771081209183, "time_rowwise": 19.661549478769302, "time_global": 19.51393112540245}
+{"repeat": 64, "batch_size": 8192, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.7954612374305725, "standard_gw": 0.7456131279468536, "standard_gx": 0.8799619972705841, "rowwise_fwd": 0.43267011642456055, "rowwise_bwd": 0.34622475504875183, "global_fwd": 0.42615458369255066, "global_bwd": 0.344250351190567, "x_quantize_rowwise": 0.03748014569282532, "g_quantize_rowwise": 0.13304129242897034, "w_quantize_rowwise": 0.03294646739959717, "w_quantize_colwise_transpose": 0.2407953143119812, "w_quantize_global": 0.094633549451828, "w_quantize_global_transpose": 0.10305643081665039, "time_standard": 2.4210363626480103, "time_rowwise": 1.96877121925354, "time_global": 1.8842294812202454}
+{"repeat": 64, "batch_size": 8192, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.7120333611965179, "standard_gw": 0.7622130215167999, "standard_gx": 0.8262209594249725, "rowwise_fwd": 0.3702230751514435, "rowwise_bwd": 0.4419572651386261, "global_fwd": 0.3479123115539551, "global_bwd": 0.4306286573410034, "x_quantize_rowwise": 0.13308599591255188, "g_quantize_rowwise": 0.037495046854019165, "w_quantize_rowwise": 0.03398209810256958, "w_quantize_colwise_transpose": 0.23782625794410706, "w_quantize_global": 0.09853765368461609, "w_quantize_global_transpose": 0.10247156023979187, "time_standard": 2.3004673421382904, "time_rowwise": 2.016782760620117, "time_global": 1.9123442471027374}
+{"repeat": 64, "batch_size": 16384, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 1.6292817890644073, "standard_gw": 1.5109702944755554, "standard_gx": 1.482747495174408, "rowwise_fwd": 0.8386112749576569, "rowwise_bwd": 0.6844550371170044, "global_fwd": 0.8220970630645752, "global_bwd": 0.6802082061767578, "x_quantize_rowwise": 0.06883963942527771, "g_quantize_rowwise": 0.25641173124313354, "w_quantize_rowwise": 0.033054500818252563, "w_quantize_colwise_transpose": 0.24027004837989807, "w_quantize_global": 0.0967271625995636, "w_quantize_global_transpose": 0.102948397397995, "time_standard": 4.622999578714371, "time_rowwise": 3.6326125264167786, "time_global": 3.5382024943828583}
+{"repeat": 64, "batch_size": 16384, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 1.4877021312713623, "standard_gw": 1.5015341341495514, "standard_gx": 1.529306173324585, "rowwise_fwd": 0.715944916009903, "rowwise_bwd": 0.8529908955097198, "global_fwd": 0.680088996887207, "global_bwd": 0.8224695920944214, "x_quantize_rowwise": 0.2568177878856659, "g_quantize_rowwise": 0.06864592432975769, "w_quantize_rowwise": 0.03343448042869568, "w_quantize_colwise_transpose": 0.23645907640457153, "w_quantize_global": 0.09399279952049255, "w_quantize_global_transpose": 0.10286271572113037, "time_standard": 4.518542438745499, "time_rowwise": 3.665827214717865, "time_global": 3.5264119505882263}
+{"repeat": 64, "batch_size": 32768, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 3.261040896177292, "standard_gw": 2.8816498816013336, "standard_gx": 2.8357282280921936, "rowwise_fwd": 1.6594752669334412, "rowwise_bwd": 1.359265297651291, "global_fwd": 1.6287527978420258, "global_bwd": 1.3503879308700562, "x_quantize_rowwise": 0.13146549463272095, "g_quantize_rowwise": 0.5035959184169769, "w_quantize_rowwise": 0.03438442945480347, "w_quantize_colwise_transpose": 0.24086236953735352, "w_quantize_global": 0.0945068895816803, "w_quantize_global_transpose": 0.10332837700843811, "time_standard": 8.978419005870819, "time_rowwise": 6.8106986582279205, "time_global": 6.693687289953232}
+{"repeat": 64, "batch_size": 32768, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 2.848360687494278, "standard_gw": 2.8955675661563873, "standard_gx": 3.0499882996082306, "rowwise_fwd": 1.3900883495807648, "rowwise_bwd": 1.6595833003520966, "global_fwd": 1.3514049351215363, "global_bwd": 1.629263162612915, "x_quantize_rowwise": 0.5036592483520508, "g_quantize_rowwise": 0.13118237257003784, "w_quantize_rowwise": 0.03438442945480347, "w_quantize_colwise_transpose": 0.23709610104560852, "w_quantize_global": 0.0951625406742096, "w_quantize_global_transpose": 0.10216236114501953, "time_standard": 8.793916553258896, "time_rowwise": 6.851561367511749, "time_global": 6.708402186632156}
+{"repeat": 64, "batch_size": 65536, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 6.4978525042533875, "standard_gw": 6.462603807449341, "standard_gx": 5.5987648665905, "rowwise_fwd": 3.2996535301208496, "rowwise_bwd": 2.6320070028305054, "global_fwd": 3.2426007091999054, "global_bwd": 2.612769603729248, "x_quantize_rowwise": 0.2561397850513458, "g_quantize_rowwise": 0.9984448552131653, "w_quantize_rowwise": 0.033076852560043335, "w_quantize_colwise_transpose": 0.24232640862464905, "w_quantize_global": 0.09618699550628662, "w_quantize_global_transpose": 0.10257214307785034, "time_standard": 18.559221178293228, "time_rowwise": 13.9242522418499, "time_global": 13.771317899227142}
+{"repeat": 64, "batch_size": 65536, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 5.5702440440654755, "standard_gw": 5.717620253562927, "standard_gx": 6.08203187584877, "rowwise_fwd": 2.649586647748947, "rowwise_bwd": 3.315173089504242, "global_fwd": 2.6132799685001373, "global_bwd": 3.257807344198227, "x_quantize_rowwise": 0.9980201721191406, "g_quantize_rowwise": 0.256560742855072, "w_quantize_rowwise": 0.03356859087944031, "w_quantize_colwise_transpose": 0.23729726672172546, "w_quantize_global": 0.09495764970779419, "w_quantize_global_transpose": 0.103779137134552, "time_standard": 17.369896173477173, "time_rowwise": 13.207826763391495, "time_global": 13.04202526807785}
+{"repeat": 64, "batch_size": 131072, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 13.058379292488098, "standard_gw": 11.480242013931274, "standard_gx": 11.092845350503922, "rowwise_fwd": 6.637874990701675, "rowwise_bwd": 5.24790957570076, "global_fwd": 6.521012634038925, "global_bwd": 5.214303731918335, "x_quantize_rowwise": 0.5057565867900848, "g_quantize_rowwise": 1.989319920539856, "w_quantize_rowwise": 0.03439188003540039, "w_quantize_colwise_transpose": 0.24280324578285217, "w_quantize_global": 0.09520724415779114, "w_quantize_global_transpose": 0.10240450501441956, "time_standard": 35.631466656923294, "time_rowwise": 26.138298213481903, "time_global": 25.908246636390686}
+{"repeat": 64, "batch_size": 131072, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 11.13397628068924, "standard_gw": 11.371888220310211, "standard_gx": 12.12756335735321, "rowwise_fwd": 5.2495077252388, "rowwise_bwd": 6.638709455728531, "global_fwd": 5.215313285589218, "global_bwd": 6.5222084522247314, "x_quantize_rowwise": 1.9870512187480927, "g_quantize_rowwise": 0.5058236420154572, "w_quantize_rowwise": 0.034634023904800415, "w_quantize_colwise_transpose": 0.23674964904785156, "w_quantize_global": 0.09457767009735107, "w_quantize_global_transpose": 0.10183081030845642, "time_standard": 34.63342785835266, "time_rowwise": 26.024363934993744, "time_global": 25.798693299293518}
+{"repeat": 64, "batch_size": 8192, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 1.2125298380851746, "standard_gw": 1.1111274361610413, "standard_gx": 1.0840706527233124, "rowwise_fwd": 0.6057210266590118, "rowwise_bwd": 0.51865354180336, "global_fwd": 0.5952082574367523, "global_bwd": 0.5167685449123383, "x_quantize_rowwise": 0.045686960220336914, "g_quantize_rowwise": 0.15827640891075134, "w_quantize_rowwise": 0.04361197352409363, "w_quantize_colwise_transpose": 0.34067779779434204, "w_quantize_global": 0.13644620776176453, "w_quantize_global_transpose": 0.14925003051757812, "time_standard": 3.407727926969528, "time_rowwise": 2.823755145072937, "time_global": 2.7127638459205627}
+{"repeat": 64, "batch_size": 8192, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 1.0731369256973267, "standard_gw": 1.1365897953510284, "standard_gx": 1.1498592793941498, "rowwise_fwd": 0.5573518574237823, "rowwise_bwd": 0.615488737821579, "global_fwd": 0.5220361053943634, "global_bwd": 0.5939789116382599, "x_quantize_rowwise": 0.15765801072120667, "g_quantize_rowwise": 0.04369020462036133, "w_quantize_rowwise": 0.047359615564346313, "w_quantize_colwise_transpose": 0.5526281893253326, "w_quantize_global": 0.13606995344161987, "w_quantize_global_transpose": 0.15017390251159668, "time_standard": 3.359586000442505, "time_rowwise": 3.1107664108276367, "time_global": 2.7401968836784363}
+{"repeat": 64, "batch_size": 16384, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 2.4274885654449463, "standard_gw": 2.1799951791763306, "standard_gx": 2.1426528692245483, "rowwise_fwd": 1.195710152387619, "rowwise_bwd": 1.027170568704605, "global_fwd": 1.1747106909751892, "global_bwd": 1.0251589119434357, "x_quantize_rowwise": 0.08098781108856201, "g_quantize_rowwise": 0.3052949905395508, "w_quantize_rowwise": 0.043764710426330566, "w_quantize_colwise_transpose": 0.33987686038017273, "w_quantize_global": 0.13646483421325684, "w_quantize_global_transpose": 0.14739856123924255, "time_standard": 6.750136613845825, "time_rowwise": 5.172800272703171, "time_global": 5.050010979175568}
+{"repeat": 64, "batch_size": 16384, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 2.1661892533302307, "standard_gw": 2.0948275923728943, "standard_gx": 2.306375652551651, "rowwise_fwd": 1.0587647557258606, "rowwise_bwd": 1.1999905109405518, "global_fwd": 1.0296404361724854, "global_bwd": 1.1749230325222015, "x_quantize_rowwise": 0.3054030239582062, "g_quantize_rowwise": 0.08077546954154968, "w_quantize_rowwise": 0.047225505113601685, "w_quantize_colwise_transpose": 0.600133091211319, "w_quantize_global": 0.13613328337669373, "w_quantize_global_transpose": 0.1484006643295288, "time_standard": 6.567392498254776, "time_rowwise": 5.387119948863983, "time_global": 4.97010350227356}
+{"repeat": 64, "batch_size": 32768, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 4.807606339454651, "standard_gw": 4.170913249254227, "standard_gx": 4.117622971534729, "rowwise_fwd": 2.370934933423996, "rowwise_bwd": 1.9481778144836426, "global_fwd": 2.3383721709251404, "global_bwd": 1.9443817436695099, "x_quantize_rowwise": 0.1547597348690033, "g_quantize_rowwise": 0.6000511348247528, "w_quantize_rowwise": 0.04361942410469055, "w_quantize_colwise_transpose": 0.3403201699256897, "w_quantize_global": 0.13600289821624756, "w_quantize_global_transpose": 0.1474134624004364, "time_standard": 13.096142560243607, "time_rowwise": 9.628776460886002, "time_global": 9.491894394159317}
+{"repeat": 64, "batch_size": 32768, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 4.1619837284088135, "standard_gw": 4.181284457445145, "standard_gx": 4.635505378246307, "rowwise_fwd": 1.9684135913848877, "rowwise_bwd": 2.3750364780426025, "global_fwd": 1.9445866346359253, "global_bwd": 2.3551955819129944, "x_quantize_rowwise": 0.6004162132740021, "g_quantize_rowwise": 0.15468522906303406, "w_quantize_rowwise": 0.04730746150016785, "w_quantize_colwise_transpose": 0.5999617278575897, "w_quantize_global": 0.1364201307296753, "w_quantize_global_transpose": 0.14847144484519958, "time_standard": 12.978773564100266, "time_rowwise": 9.927105158567429, "time_global": 9.521059691905975}
+{"repeat": 64, "batch_size": 65536, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 9.52371209859848, "standard_gw": 8.354485034942627, "standard_gx": 8.69860127568245, "rowwise_fwd": 4.717472940683365, "rowwise_bwd": 3.8843750953674316, "global_fwd": 4.645414650440216, "global_bwd": 3.8761012256145477, "x_quantize_rowwise": 0.3024861216545105, "g_quantize_rowwise": 1.1897757649421692, "w_quantize_rowwise": 0.04366785287857056, "w_quantize_colwise_transpose": 0.33988431096076965, "w_quantize_global": 0.1359507441520691, "w_quantize_global_transpose": 0.14724582433700562, "time_standard": 26.576798409223557, "time_rowwise": 18.832147121429443, "time_global": 18.651459366083145}
+{"repeat": 64, "batch_size": 65536, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 8.307881653308868, "standard_gw": 8.214320987462997, "standard_gx": 9.21182706952095, "rowwise_fwd": 3.8919784128665924, "rowwise_bwd": 4.72346693277359, "global_fwd": 3.8761794567108154, "global_bwd": 4.673641175031662, "x_quantize_rowwise": 1.1893920600414276, "g_quantize_rowwise": 0.3024972975254059, "w_quantize_rowwise": 0.04708021879196167, "w_quantize_colwise_transpose": 0.6039328873157501, "w_quantize_global": 0.13624504208564758, "w_quantize_global_transpose": 0.14867261052131653, "time_standard": 25.734029710292816, "time_rowwise": 18.972668796777725, "time_global": 18.540948629379272}
+{"repeat": 64, "batch_size": 131072, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 19.30372044444084, "standard_gw": 16.480475664138794, "standard_gx": 17.61433482170105, "rowwise_fwd": 9.49602946639061, "rowwise_bwd": 7.768530398607254, "global_fwd": 9.3533955514431, "global_bwd": 7.749464362859726, "x_quantize_rowwise": 0.5977451801300049, "g_quantize_rowwise": 2.3684948682785034, "w_quantize_rowwise": 0.04375725984573364, "w_quantize_colwise_transpose": 0.34042075276374817, "w_quantize_global": 0.13628974556922913, "w_quantize_global_transpose": 0.14671683311462402, "time_standard": 53.398530930280685, "time_rowwise": 37.09545359015465, "time_global": 36.83258220553398}
+{"repeat": 64, "batch_size": 131072, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 18.041003495454788, "standard_gw": 17.770148813724518, "standard_gx": 17.70009845495224, "rowwise_fwd": 7.756810635328293, "rowwise_bwd": 9.502101689577103, "global_fwd": 7.7384114265441895, "global_bwd": 9.36170294880867, "x_quantize_rowwise": 2.3686252534389496, "g_quantize_rowwise": 0.5980581045150757, "w_quantize_rowwise": 0.04723668098449707, "w_quantize_colwise_transpose": 0.6035342812538147, "w_quantize_global": 0.13603642582893372, "w_quantize_global_transpose": 0.1485198736190796, "time_standard": 53.511250764131546, "time_rowwise": 38.64651545882225, "time_global": 38.121502846479416}
+{"repeat": 64, "batch_size": 8192, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 4.598241299390793, "standard_gw": 4.294309765100479, "standard_gx": 4.261095076799393, "rowwise_fwd": 2.0976848900318146, "rowwise_bwd": 1.9718967378139496, "global_fwd": 2.0763762295246124, "global_bwd": 1.9703581929206848, "x_quantize_rowwise": 0.08216872811317444, "g_quantize_rowwise": 0.4405900835990906, "w_quantize_rowwise": 0.1553371548652649, "w_quantize_colwise_transpose": 1.6110725700855255, "w_quantize_global": 0.481240451335907, "w_quantize_global_transpose": 0.5061514675617218, "time_standard": 13.153646141290665, "time_rowwise": 10.653059929609299, "time_global": 9.85119491815567}
+{"repeat": 64, "batch_size": 8192, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 4.35885414481163, "standard_gw": 4.29583340883255, "standard_gx": 4.5370906591415405, "rowwise_fwd": 2.0015686750411987, "rowwise_bwd": 2.097565680742264, "global_fwd": 1.969795674085617, "global_bwd": 2.075403928756714, "x_quantize_rowwise": 0.43984130024909973, "g_quantize_rowwise": 0.08216127753257751, "w_quantize_rowwise": 0.22544339299201965, "w_quantize_colwise_transpose": 2.4342015385627747, "w_quantize_global": 0.48087164759635925, "w_quantize_global_transpose": 0.5099289119243622, "time_standard": 13.19177821278572, "time_rowwise": 11.576615273952484, "time_global": 9.85383614897728}
+{"repeat": 64, "batch_size": 16384, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 9.09888744354248, "standard_gw": 8.230950683355331, "standard_gx": 8.465446531772614, "rowwise_fwd": 4.182614386081696, "rowwise_bwd": 3.747660666704178, "global_fwd": 4.138719290494919, "global_bwd": 3.74777615070343, "x_quantize_rowwise": 0.15515834093093872, "g_quantize_rowwise": 0.8699297904968262, "w_quantize_rowwise": 0.15544891357421875, "w_quantize_colwise_transpose": 1.6132444143295288, "w_quantize_global": 0.48100948333740234, "w_quantize_global_transpose": 0.5051903426647186, "time_standard": 25.795284658670425, "time_rowwise": 18.955007195472717, "time_global": 18.128734081983566}
+{"repeat": 64, "batch_size": 16384, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 8.378107100725174, "standard_gw": 8.923027664422989, "standard_gx": 9.049762040376663, "rowwise_fwd": 3.765825182199478, "rowwise_bwd": 4.183519631624222, "global_fwd": 3.744799643754959, "global_bwd": 4.1590481996536255, "x_quantize_rowwise": 0.8693933486938477, "g_quantize_rowwise": 0.1553073525428772, "w_quantize_rowwise": 0.2258792519569397, "w_quantize_colwise_transpose": 2.4386271834373474, "w_quantize_global": 0.4811100661754608, "w_quantize_global_transpose": 0.5102269351482391, "time_standard": 26.350896805524826, "time_rowwise": 20.5615796148777, "time_global": 18.842913210392}
+{"repeat": 64, "batch_size": 32768, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 18.266115337610245, "standard_gw": 17.671160399913788, "standard_gx": 17.10302010178566, "rowwise_fwd": 8.347474038600922, "rowwise_bwd": 7.514089345932007, "global_fwd": 8.263226598501205, "global_bwd": 7.487393915653229, "x_quantize_rowwise": 0.3021806478500366, "g_quantize_rowwise": 1.7319358885288239, "w_quantize_rowwise": 0.15519559383392334, "w_quantize_colwise_transpose": 1.6133114695549011, "w_quantize_global": 0.48247724771499634, "w_quantize_global_transpose": 0.506427139043808, "time_standard": 53.04029583930969, "time_rowwise": 37.3353473842144, "time_global": 36.44480183720589}
+{"repeat": 64, "batch_size": 32768, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 17.73649826645851, "standard_gw": 16.359902918338776, "standard_gx": 18.0993489921093, "rowwise_fwd": 7.493957877159119, "rowwise_bwd": 8.352488279342651, "global_fwd": 7.486194372177124, "global_bwd": 8.28903540968895, "x_quantize_rowwise": 1.7313472926616669, "g_quantize_rowwise": 0.30205026268959045, "w_quantize_rowwise": 0.2255477011203766, "w_quantize_colwise_transpose": 2.4363920092582703, "w_quantize_global": 0.4815347492694855, "w_quantize_global_transpose": 0.5103759467601776, "time_standard": 52.195750176906586, "time_rowwise": 36.90168634057045, "time_global": 35.16044095158577}
+{"repeat": 64, "batch_size": 65536, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 36.309611052274704, "standard_gw": 32.85098075866699, "standard_gx": 34.34552624821663, "rowwise_fwd": 16.74525812268257, "rowwise_bwd": 15.026237815618515, "global_fwd": 16.574162989854813, "global_bwd": 14.977734535932541, "x_quantize_rowwise": 0.5954466760158539, "g_quantize_rowwise": 3.4569576382637024, "w_quantize_rowwise": 0.15521422028541565, "w_quantize_colwise_transpose": 1.6133897006511688, "w_quantize_global": 0.4822872579097748, "w_quantize_global_transpose": 0.5065612494945526, "time_standard": 103.50611805915833, "time_rowwise": 70.44348493218422, "time_global": 69.44413110613823}
+{"repeat": 64, "batch_size": 65536, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 35.40017828345299, "standard_gw": 33.037226647138596, "standard_gx": 36.30436211824417, "rowwise_fwd": 15.043705701828003, "rowwise_bwd": 16.756191849708557, "global_fwd": 15.011314302682877, "global_bwd": 16.580048948526382, "x_quantize_rowwise": 3.4548528492450714, "g_quantize_rowwise": 0.5951337516307831, "w_quantize_rowwise": 0.22584572434425354, "w_quantize_colwise_transpose": 2.4329908192157745, "w_quantize_global": 0.4813261330127716, "w_quantize_global_transpose": 0.5101598799228668, "time_standard": 104.74176704883575, "time_rowwise": 71.54594734311104, "time_global": 69.67006251215935}
+{"repeat": 64, "batch_size": 131072, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 73.40333238244057, "standard_gw": 73.76311346888542, "standard_gx": 70.41774317622185, "rowwise_fwd": 33.37597846984863, "rowwise_bwd": 30.345775187015533, "global_fwd": 33.00366923213005, "global_bwd": 30.218638479709625, "x_quantize_rowwise": 1.1825822293758392, "g_quantize_rowwise": 6.902601569890976, "w_quantize_rowwise": 0.15529245138168335, "w_quantize_colwise_transpose": 1.6109198331832886, "w_quantize_global": 0.48149004578590393, "w_quantize_global_transpose": 0.5066059529781342, "time_standard": 217.58418902754784, "time_rowwise": 147.33626320958138, "time_global": 146.05870097875595}
+{"repeat": 64, "batch_size": 131072, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 71.5160183608532, "standard_gw": 73.76786693930626, "standard_gx": 72.98104092478752, "rowwise_fwd": 30.291248112916946, "rowwise_bwd": 33.36654230952263, "global_fwd": 30.181586742401123, "global_bwd": 33.082425594329834, "x_quantize_rowwise": 6.902430206537247, "g_quantize_rowwise": 1.1815279722213745, "w_quantize_rowwise": 0.2262219786643982, "w_quantize_colwise_transpose": 2.4421699345111847, "w_quantize_global": 0.4816502332687378, "w_quantize_global_transpose": 0.5105249583721161, "time_standard": 218.26492622494698, "time_rowwise": 148.17800745368004, "time_global": 146.1080126464367}
diff --git a/tests/triton_tests/make_plot_with_info.py b/speed_benchmark/make_plot_with_jsonl.py
similarity index 82%
rename from tests/triton_tests/make_plot_with_info.py
rename to speed_benchmark/make_plot_with_jsonl.py
index 116d1d1..0920851 100644
--- a/tests/triton_tests/make_plot_with_info.py
+++ b/speed_benchmark/make_plot_with_jsonl.py
@@ -12,12 +12,18 @@ if __name__ == '__main__':
     fig = plt.figure(tight_layout=True, figsize=(12,3.5))
     gs = gridspec.GridSpec(1, 2)
 
+    dims_to_consider = [1024, 1280, 1408, 1664, 2048, 4096]
+    batch_size_for_plot1 = 32768
+    batch_sizes_for_plot2 = [2**14, 2**15, 2**16, 2**17]
+    dims_to_xtick = [1024, 2048, 4096]
+    logscale_plot1 = True
 
     ax = fig.add_subplot(gs[0, 0])
 
-    rdf = pd.read_json('tests/triton_tests/info.jsonl', lines=True)
-    df = rdf[rdf.batch_size == 32768]
+    rdf = pd.read_json('speed_benchmark/info_a100_py2.jsonl', lines=True)
+    df = rdf[rdf.batch_size == batch_size_for_plot1]
 
+    # first plot the time occupied by different operations
     for k, marker, ls, color, name in [
         ('standard_gx+standard_gw+standard_fwd', 's', '-', 'C2', 'Standard fp16 (sum of parts)'),
         ('x_quantize_rowwise+g_quantize_rowwise+w_quantize_global+w_quantize_global_transpose+standard_gw+global_fwd+global_bwd', 'o', '-', 'C4', 'SwitchBack int8 (sum of parts)'),
@@ -29,17 +35,15 @@ if __name__ == '__main__':
         ('global_fwd', '^', '--', 'C4', 'Int8 Matmul XW (switchback)'),
         ('global_bwd', '^', '-.', 'C4', 'Int8 Matmul GW (switchback)'),
         
-        ####                 time_global = info['x_quantize_rowwise'] + info['g_quantize_rowwise'] + info['w_quantize_global'] + info['w_quantize_global_transpose'] + info['standard_gw'] + info['global_fwd'] + info['global_bwd']
-
         ('x_quantize_rowwise', 'P', '--', 'C4', 'Quantize rowwise X (switchback)'),
         ('g_quantize_rowwise', 'P', '-.', 'C4', 'Quantize rowwise G (switchback)'),
         ('w_quantize_global', '.', '--', 'C4', 'Quatnize global W (switchback)'),
         ('w_quantize_global_transpose', '.', '-.', 'C4', 'Quantize gloabl and\ntranspose W (switchback)'),
-        #('standard_gw', '.', '--', 'C1', 'standard_gw'),
     ]:
         xs = []
         ys = []
-        for embed_dim in [1024, 1280, 1408, 1664, 2048, 4096]:
+        for embed_dim in dims_to_consider:
+            # average over dim -> 4*dim and 4*dim -> dim
             df_ = df[df.dim_in == embed_dim]
             df_ = df_[df_.dim_out == embed_dim * 4]
             xs.append(embed_dim)
@@ -56,24 +60,20 @@ if __name__ == '__main__':
         ax.plot(xs, ys, color=color, label=name, marker=marker, markersize=5 if marker=='s' else 5, linestyle=ls, linewidth=2 if '+' in k else 1.)
 
 
-
-
     ax.set_xlabel('dim', fontsize=13)
     ax.set_ylabel('time (ms)', fontsize=13)
-    # make a legend which is below the plot
-
-
 
     ax.grid()
 
     ax.set_xscale('log')
-    #ax.set_yscale('log')
+    if logscale_plot1:
+        ax.set_yscale('log')
     
     ax.tick_params(axis='x', labelsize=11)
     ax.tick_params(axis='y', labelsize=11)
 
-    ax.set_xticks([1024, 2048, 4096])
-    ax.set_xticklabels([1024, 2048, 4096])
+    ax.set_xticks(dims_to_xtick)
+    ax.set_xticklabels(dims_to_xtick)
     ax.set_xticks([], minor=True)
 
     leg = ax.legend(loc='upper center', bbox_to_anchor=(-0.64,  1.), ncol=1, fontsize=10)
@@ -86,7 +86,7 @@ if __name__ == '__main__':
     ax = fig.add_subplot(gs[0, 1])
 
     # now plot the % speedup for different batch sizes
-    for j, batch_size in enumerate([2**14, 2**15, 2**16, 2**17]):
+    for j, batch_size in enumerate(batch_sizes_for_plot2):
         all_xs, all_ys = [], []
         for k, marker, ls, color, name in [
             ('standard_gx+standard_gw+standard_fwd', 's', '-', 'C2', 'Standard fp16 (total time)'),
@@ -95,7 +95,7 @@ if __name__ == '__main__':
         
             xs, ys = [], []
             df = rdf[rdf.batch_size == batch_size]
-            for embed_dim in [1024, 1280, 1408, 1664, 2048, 4096]:
+            for embed_dim in dims_to_consider:
                 df_ = df[df.dim_in == embed_dim]
                 df_ = df_[df_.dim_out == embed_dim * 4]
                 xs.append(embed_dim)
@@ -125,13 +125,13 @@ if __name__ == '__main__':
     ax.tick_params(axis='x', labelsize=11)
     ax.tick_params(axis='y', labelsize=11)
 
-    ax.set_xticks([1024, 2048, 4096])
-    ax.set_xticklabels([1024, 2048, 4096])
+    ax.set_xticks(dims_to_xtick)
+    ax.set_xticklabels(dims_to_xtick)
     ax.set_xticks([], minor=True)
 
     ax.set_title('  Linear layer summary, varying dimensions', fontsize=10, loc='left', y=1.05, pad=-20)
 
 
 
-    plt.savefig('tests/triton_tests/plot1.pdf', bbox_inches='tight')
+    plt.savefig('speed_benchmark/plot_with_info.pdf', bbox_inches='tight')
 
diff --git a/tests/triton_tests/plot1.pdf b/speed_benchmark/plot_with_info.pdf
similarity index 76%
rename from tests/triton_tests/plot1.pdf
rename to speed_benchmark/plot_with_info.pdf
index 1fe71682174766b2d551d9aa055a72e6eb837737..d186e91b7d96c6e605fd2802ee37881e6294cdd7 100644
GIT binary patch
delta 8091
zcmZuzcOcaN|92U2W}Ow`Y!Yq{q0H<}N%qdn$U4rZY;Q!!EHW~#G!RijL$VWPhsX>e
zztgAB_xp|C{c-nvKkoT@j>mJn-oN6GG$bFX20%n}b#I<mDbJcLyKi347kT4g+#iw|
zfxBfLZ%fF3$tlsY0;1vvBPgUO-c}QL38o|FxyB<^pM!*G4H#0wbb3=?U&t~ozrEwR
zob-A%?(Es1kGnHT^`ff-TMIgVO=I8Zb$rR+uXOynmNwRP#^wV#9xhNueG!naniMr1
zKA%i9+L|30S-d#{eAnM%kIGxPHfigT+c$ZpJgD5()9HirT*AZd*{nd}dv=Q76^{3b
z8Z3^RWA{|KJ!Tx*Z^?_WHK%mf^mJ^<T=5#&j$4!-(cYL0vY9U3wtZzIQN3GZ*r*Fu
zF^*-g9r##~9O#(7qJINg3URFG^XsbjGh_x6!F?6)3yz}bJIC7In{chy1cA#5pBh`6
z%7QB1a|K{CdYHJD8@)R6ziq8A&c=-Zd;PinBXO3sV-^h`cOM27vkiTJ+T<(!>+yCK
zNBvCJ^BBWi^)jsZ&_#8L(vs3eE8FZc<nyGdctP*9MYW;Lb)T8E#g2lvMhQ7tfj1VJ
zh?u&2XSiGSq-400T62v%G)IgxVjD3cfq-Pn&te7_4V1%Nn}xXrQSJ;a$7C~ZE1!!4
z10=11<|R`f1z+hXw`j(R*CT_Mp6hu%zoj4d-n>eQ{p6_}#x*tKK;x#{%ywEKlF1^H
zM)It|7RSdmCSt=Qa8r$(b2_6O=J-!2@lqIkw1Dr9;@8286G^emOEPU<a>LvgTOH@G
zIgKqdb2R1devaYma(Cymv>YWoUI_8;k=wh4>5E+H6tNuk5y^8k94f4K?i>Gb_w>T)
z`u=B+`th6{^gzpU3`CO4iU9)mvVOHoV+<%X-4!mJbwd@K8NONTapNCOYb*UIOLSt4
zbkr8PR9U&2hkucXjJ?fxWH;<gmRbQjZXnHmMbnF2-K1GpCbDiv*)8r&I8k)Q)jUK*
z`V@|d8Q@se^fKeGzUJyABi38zA1|k<jJhjz78nM1tap1SUb>Lk;YOXHmKm?x+sm?M
z&z4k^EZ|jlSEE3>%xR>2(qKtDotX8kBHVSjv~-vY5@5=2m$+M~O8z^ucl(_9!<Mc!
z6}FO}`RO+*myp4x!UBHOKlb(XL9Kl*B^<R~WSf)SvLeGe4nGSu&TTSeXbr#CvNWNS
zTj8EEL%v&6NiWTu>0sVs3p9&jm4$xFcj1JPO-6b|Pz_)xHQ#d>6KTcsby&IEsDe$Y
zhpfgoM@_`Z3QC^TqmjKvS+lQCUA~bVSZ542_jkYcF=;3m@=_iL)nmSG23p6Qf4e(7
zH8QoXvawn;Kb+UJt>`Q=1uLb*XDji)QU>?mi;U0z^)_#qR$MgZBmX0WI91!D?xiX!
z(vi_)w%KCKrAXCvA|_d#1=SoBP#V$aa#BFofWk?YM~ME!u+5Pu%MFDBko);}sC*;7
zlw>B*MTIiKI{{};pZco$Ys4f0&N73$tUR-|c)GFe4ZmX=(LfEVd3ExoeA^e_S`%+x
zt}l=2I+vX9pvt?rW{edH-x+MKQ_fX_L+-$)WkFXWQYaC%gGBB-bW(ly)6sWDABQEQ
zym-%5KWdXH{(9>h7q?ibUGwocj}_(9&H9kX*9tc|nv3E(g~A;m^4~VS?YwF1WS$S_
zGmRf(6ST>7TcTA9YqjH&^*X{HaQnj-I7_Ai^_3+~x{g%uAvaCgIa)@Svzya&$>*=H
z{#vJPd$Q(UzDC1I6z#5zb{f(PJj-dwN4Y~lbyTHQ7Q`;89<$QCZqnJW#?YvFdxq}$
z9kj?Pv2bE;{^zf`rW1t<0(ZC6I9Q{_)Ir~=uLmxHJ)3ArxvDp|u}e#HAq_&N)y+@u
z>tCnB<7~aFQ%b2`>5U}^s~gF@71O-Go@(K}mD3N_n@gjhB|c8Zg|7%PZw;_*o$c0S
zpG`4N;ElvI2qn*^AC+>hMJ&Wj+v*ra80vkU{OJVA>7N?6PEU!-^P#DgdHfo!${vDf
zp^FJ^F!l24`l?);(tYnNq^O=+H7tlj(Fd(+eR85!$qjZRc7bKwJVHN?mFK6(XRBUe
z&X&l`OUVKap2W-^OYY*L&3-evOT(_AteqFAidnif#`=TX>=@*2z!Fg|u{Li6&NN3x
z)tg!uMTyl4c5RhicOjryRMHT~-a&d?JATM1p_F>qdLBDhzC6utc1e_u)^whOLMz8Y
zpZ;8=jcS^6u8<aQW7lZ4S1K6TYTzBDfC(JuLRJXCD2UWelAV)Pm|b&rDk*$|UTwCX
z;-1<{8Z+6kSU`0G|BYsChdZ9xtfyFCa8ld!4>}b@Qc-mpH>A|Hy!tS#qV&AAAXV&F
zl<l&dT`agK$ivWra2%#YGoz&Q#wGK)G;{%8%$<3ndJ4ULgUcbg52THUq`@X03h~}C
zvbtt>jW`Hh@+Q4dC*UlQg)MHOkO*~K-lKiWjRsFuMHQ)|`Kq%_vfXWKV)7zvd%G)^
zyM=DRp{o8R&XrT_If(;hMU?LwI9~DzvF0&#tB5&pg9wu*P#IhqwW8$O({Q~RC09W>
z)ejMoVVM?|K$X}lpN}Y#)}k+zk=A!Gii{zi#7>b%27zIEHm&7!`61l-u}ti%#b_xm
z!rgYwk#?m8E(ks07ALF7yuIoak>ediCtkMJ(Hw+aQN?JPOr$<?Vw3jkt&YFGRjo95
zTR-cxbl+^l31Nkf@{ml8vL#;yJRQ>vyXs^lWu{S^phwn@?qHJoIi>8c-664LhV=}H
z9^uoWi_Ymu;Pgz3E8xgIk<2JYqr##|kmOY5&G;Ri29azrRpl~j4Cv8gs*>o$9Mf=!
zJg{~=ho7^aM#rOJ_vfJ9bGh2MW00$m?9g1n$#;Nd-0-0C;KP%?8TL2dzo?M&SGt;z
zK#dA;m=18N@~nvzQB_lXZP4N|YAMr2G$_7Um1rB?((~NGE$1~C0@I&NHFUn{as~ga
zT)3UqJ=54;FzF;L5FzxPIZ?$y?ycj85R`m0XEN`zRKJ{zJHtasQJ*KG_QdVAw#PO(
zbp}N!M63ns+SIbGWNtEe(Q1=h74%6FdBe5Z`I4e;li-EfW<Ke!{abfhBR|?)BEBC_
zy;&Erp?&fwK9Dj2^*BB_mfv9hR6r8!p7q3x3&=Z-3*bXm+IoEJmvwkF$N%)U$a0|V
zqqYrjSOkZg)<p?(Tf?gkI-5rBxd7&g(5NKZy3=!gIyzzOp|~<-RE|*wQA)Q=Z?rH|
z=iWCtO2Mv3sibEusV<_9RRcQj3W?vu9X;m9l?1mxz8#jF=*Vu!GB9y$Q!4B8pL82*
zkg(ueHeBa*9oYRo_4eh^_Tt>PJdW>s?;B<7&+I+i-dOxGJ`xj`y&AVTH$J^SQZ+*K
ziT)+!=bT6Ih}M_owTw=TX?<PaYZwD6770G0kXTD8)+?bmcDAu?&G)Xr#kf?Wykdsl
zv7U=d1kqBvUQavI)Xg>8y;<e64YO~9R@|l9B3IumEv@!R<)eN@rm(D3X}GkObUxgi
zY3c4;GJP!dmUZk@WzMSeTuFVPU-fp*$d$@0bZz5n8pnqhsQjxkmMG42W_Bt8%8j=k
zBiP2S2t+D!mcNOtxaal7RrZQV67iwKs={Ssg<N*Mz2(Jk(|tqR7e=H#jztnfe747)
z2CZst{P?zO?tLVTaRqPoFapjRzTnB_UE8LW^@d;E(qGAUoF6KY{Y25zP_3KlL|aXR
zX^yiLwZG%t<&T`q^lZnD$d>rdxXQXT#9;uQ+8Noh!BCd?o0Y5QxSGx@be$(=uRen)
zvI^8X(cJ3cbegog*(w#O%Ah*Z!gIM8Ob9H8*i?T$`Lg}PyU(Ry^Q;C|{`Ol*3acTx
zPRuBm*xC&ibIPpPGbTYD(-Z@y8DnM|W@1J1%1F`&<(mf2k$x@gB+eG61h=jkYm#5P
zn5D*dJ|v&?G3ML1bN3qS8=k}wvx}ym)upX|?e18=<X^iYmw0k{mtxpikiNkv!?Y9A
zcRl)hcii>wMFe(-X{D{*?k!zMzX87cPxF4Y+~E5(;Kwt5nMokY;^EJxF72M@;FK^)
z!5jHn8Odo!Nh(64)2aQm)`eO>lG7$mr|P!wwr8ql%bxil^6L9>Ca#V9Ny0?$GFspn
z^;mI2L(P-H?3!H#kJ0!@b+>TOoPOB^HYSM$QL%-o?0QS)fW)rYdICY2`8=~I+q*RN
znA8;tmrH`&nKfGRj87k3E!66~nKtpjqt(c^>E~Wdu-}wcttFAJDI|w^>p{n+6|+3<
zR6IOHCqpcc*?}g4;<RgMfZcH-jac3*XFgJ-&x5%<xAI@|M?o{nt?T#Iza#Ap8jEE^
zf8asL)(SPj8hDi4cn^<k<MBxeb=8-XhH6F?4-^%aUOvD|Lp#fY+D&{=q=!kTxlWuT
zDW;sfUKUO`S?H7FKge7*!}rd8QEJb(n}4mE4ZqT`wYj|Vqi}mR>^#<ssAE1>!6K4L
z*FssOWqQ#WRI6CY66Ts|CCURXG!YAXlz17X-6uDR+7R@=RB}UvMz&H<=xkvblrIKm
zugWe@XVt~q8N;7j*XlcP>=M#CGDC<k*4LjxDW4@nn%q1Y%VuPfu6?rWT<b~Q<!|h<
zu?_b-P#nn}iK`bUwHmCmh=cScX)_~<Dj!(=rJoU!1em-(YtgB{Om@+7%j6AK5j~^C
z9wUC|_3B!dBqh6|#phc?F>k@!Lh`F=_@C{5qAL7i3A#;2382J}N|wHlz;C{WX1R_f
zi9RrhTrrP4ou<y{EeI4&zbjUBtaIq=`lbm{Kf?>xPi*I4AGm*WVv4vJ{p$66Iaa#s
z{?nuHYL0v`6>VJ7;*7Z=B-^gHJQecf<SC?Yo86b5+>9#7yRVD{eUX&P7>zF{5|-Uh
za&J!dh@leFP1~F+LT!qskW_`oqV=C)jAd-|c+$#Zz@@Bf)l_md%(o=J0h?(`Dy*k6
zSrgdSOh(w#biXl9Sh4352^`1HcUD9`NhmCNg1q-WtI~8mYPVDQL*jXcbgQ6`x38x)
zhlhFnSSf4W3Ha<y{Rui<c#0?U)2GI>^-qGgr+?UZ_a-D2wa=LJKCm5=g=xLO9(xh3
zJ*gbF@#Mud?E>v#MB$ZnJ+OyD`e%GR<Y%FWiCyoD;&M?Ls`X;51QQWmx8)G!Z7s%e
znPD0DtPy}4DcBkfiVxGctRSc2ca(d$m#33qYBTiNugOOSygGhihM{BH0{r*$Zx_}_
zB)H8<Es5Z6(g*Y{AwO#@hbf(0eo~w1krLc#CeDoe6-7xRqz%oy9wr@?cp+%s92g{9
zcTc!V1~h+X(sQaqPos@^vB{ogL)(c(fnge(QB31F-ocf&K*wkzDTSuZrR!*|Zd*J(
z{`0Qrt_Z5sSl+d0C7V(uDm<{3shmCP_&kQ$ImI$Pv`JZNCg!zE(E6quG)0;^s=exn
zabV89l6n0)vGt1&1N4#z(-zBb-^PCPLdpbl2d>?Ayc1paKu1rPI8fxOKUZ^QHJ?}R
z?vv4_#=3K6{>2_tNludD=_|u5Bwok4*}ybO4LK7x-d;gzv1HZA=bt5IZ+TEAZ8>Gc
zjjG-|uOMfdWE`iM<eMF{re+7zPGAWwq&Exn@f|g~4Z2DL!Q=|uy&2JpZloj7dP?~I
ze6;vu;pNM6W{;-it3+6E*CnMciJ8ooFYe}CRPDTfgm1QeAZ?T7Q6a&)9kP7o=n#|I
zg!jo-Mk^0UmDMpm-m9{^8?C&lYCBtu(VPwXpW@Z7Y_WzKcj5(^x8UU~FZ$G2V&v(E
zTV-AB<b*CHg60z(kL5&}SJbh7^KmxtXox?zQ^?AHG&*DF((*JhR@TT$`$2cv<4(<B
zVaOf1mDc>=i}t|*8lx$~&v>}(mZif^#J(+I(F$J=$aUcwjY&?^>ybg+k2YxDdG~ls
zTpA=?vi;>f1g*DXHKcqqH$U?DT^T~KaXps?!G~5Ucdo~7TeviF&5doCxn7{8))}$h
zR&*4;vg}j@F@V(*O&S8$Defi`Bq$zm_ID0Eo)ElzY+@krgF|{Ym;cu{6cTW)n6dT#
z*GD;*_*Dl*xXLp31ezh|vA7Ms0gG1tFUyqn8BZ!wL@kdWZzk2~>UlmJF#|E*K?l{)
z_+OXKJ!4P@vIs$U-_mQMCtU~!`<uP|L0Q#Kr(QA-1g;8G616T`Yb@B@T9legc*VeL
z8^4v-RH^MU#r?Ga_xTIy+7AtGX|APIulHQ5)|Q{v`vIC4*m3>zKJ%-4D%D3F(^gWS
z*}k%h@PgM$pNW)1Y!OIRxfU(G;e~IL$UbJq=oeaMtS{yG7s%ATkDy`bb-eWT3GWcN
zFeY*|1k_nGM649xuI5&Wgn0HeA{v+H6riJ+Rl;b`$A{yLbID2KMn<&9dxlK|CuS+-
zC7L}{Uo_i#C1kVvPL2gU*Lw1-X8kAV`<ap*pQKtg?0L(Yi<YLArl^?NjQNFu*X!4w
z-MG4TCD`2m>E)XK>9BIPx0^rH%GpL1V&>;b8+$uS8_dL=pn%n<LB0XOSG|L_rl)^A
z4q{unEO!>)V=8TOzE$j@v_TA2mHU?5lPoR+uGdi(2^Uzw;)zl3{G!@Qz-#_K1}yw_
z>I4ymwdWi|F@;fCSw8aKa*(QX%6SAw%Z!&4*%}!kRBz)%&fARbXuQ7>S_l-z++iB1
zvT@Zpae4GQ@tu~qKP8u<n`XrJ2hESq87xuCjoe&*;!`o-WyA&(+$4rmnRtFJ1*Y-b
z?{(wb8zj=x;+-EXm|xdb%ZOttnor<iUSS_{EPP)mH0pBgjGtz3PQVGaH_f-6N=7HY
zC|c)TH<~p>bydB85q#?`zuD<q%r_!jN?9$P6u*aGt9nA@37l%Z8W1Wl)*HnkZ|2Bz
zS+l^x*y!2il=F`{Y08yfxQD!f<`o=g{3giVZ8ql0Y>d)BSEEsJBAc3hvIsQU+Wxxa
z%hBt1m$#R^727T>O<c}1pwG_|V-dQ(kx_JAp3yS%cDF73sEK}Z<M`@%@aoi#L({m5
z;$8mCRV8pDA8|=XhVO;dx6+2a&Pjq7FrO3}4vpSp1{Vk<)aG_IPkicMep3c4EF&AG
zQp<lbS;d}s*GHed6MjN3OGaEbXDUlbx_GsM$*oYwD1A~v%?O*7XGjWd_?CNYeyO1G
z%Y$bB3?~t~4&kf4$*#IiUW@e~0<8@>oibjX7RHh$&A46}bPkT$KT#4@$F$s5Fi`CK
zIk~t8(qc0Y1D3rY3<xL;>S1#Qj7DORBt^Df9N^+50;oH10LVZI;Ryr^W(dQejoYUX
zSj-WUSMzB>Z$T)%P@I*59rE!93bs`+0Z7q@06%mf0FTZP5T*wq(dqhwfMR_JDNT<B
z1e`U10L_|0z_7j@;AaRS85jtG0AnL|Al|SOz!*b-AW>l;(Wn$)y8t1n8@~Yo`WGQ2
zu?ylLK*kgT*j?-g3Zx(;ZPQ2)U}**cCNBj6UoS&QUS`)ofTB4ouya`zV6lJz#^z6f
z3QIPUphX-ASha$Xo?9Y7z`QjCps}6;h&B-5mvtDxZwmoZZIXaZ@-NEv1(09|0qE_*
zL0D3vof#bwP3FS@D(&v<ZV$y__8-8~9#9<iAJ}6b#r-3DLUH&%lC_t;yQ{r}4-^mk
zAH>Vq(TNPf_aU&fr@fc0y*v4NpK-E>t57`hAIS@fNBtvtLy7o50eIVAvv-H$e@6h7
z_ICD%;(x~gmiG3vwzY@i|3pDH_$LY<Cog+@C>-`D1Rp;S^22ZEP-$PX_{Z-xviRFE
zSlW*){_z|@7WX}~lOqcx%YXa^+I#I=!IE~|OF$gbs&GkV`zzKazJ}KB-jZ(4?!Mko
z9Ex<?^C$xd2izqP=}<5@9ET(a0Z0Y2gYbY#u(T7ohsa^<f1vJA@NWTu!=uST9K`n1
z{Tsu>k>o@VVrX*82QeHB_!Nw%#K8~%XNWKni#y~KkKCu~z&SLAOzQy*ha_`#0K@Oo
z{}+aY!7&H*kT4|Tw;u6-l10K$`$a!+7=u1+5QjdPESbtf$s*xMB)Q0c+k<2NBAM(T
z21CNJn1hTW;dmsu(0?CBz>x>_;AAi4-uO!oj=&=hCIUyG4pkD4g8%O0zYfFDxI>3w
z7&zu&#^h~-JLnjO!DA1$3k-|E9mdf6qeT7?|J!RY9PChyVL0+SJCGd=hejQw6^6s?
zFM+=k!Ql?;;o*NA|MB~qe?00?jbV5!>QK~p+@Z!Kk1PD39(h=i2OF3?shGohI6Uzn
zh4B4?9>@d^$HEV0M;_n(;r}aRID$OYhcLwcBK%7afkh(zV8s89Iu?#Nco=~}A8HzM
zH4lv}9ECbWKOFV{1V|pRznLNP4@bie%_kg<KpbKQjYc2pYV`lZ3>t?$m@#<+92!|T
zhFm7%0czkFEcy_wSaSa#)WedwK7^t7ck^FV!?ENJK8WEE`?tq$J>tKc7LG%q4jIH@
z4>t|&AcbTG@yJ8X3df^y2d4y%#~x&rNIs0i{#}!OgZTY>>#s}@<du0)4*^3TVgUie
zA`fPaAb0h_(jnj|1QPmt{{FiI5ODON+9BY${p<SgVD>E@!jOj@BXEZ%2SFaN{{%z)
z_o720G5^-&-;yAZSnPik|D%V8A8bqn3JE)uF}b%6W0?IL{jWq$Ajk|JQbZ$B2*5K+
zRR2&B(D?oLhQCZ8FmU*x&@l+i!7z~s6b24dMDcLoq0$B(9zIZVzwN)_sJlDtzdYc8
SFHx*u3>*m-7FN+!1^*u)nb;Np

delta 7699
zcmZu!cRbbY`|l{l$?Vugha?ov9+hKchV0EL8Cluc9D8ItWQ&~4$lj7jnc+cpvQx+k
zp?*hCzvubJ^ZDbP`*Xdn>waJN`&##>KAPf37)3D=Krk?L9IuY?YHaiq(MOgs|7Gqu
z%}qaT^1dRktJ%aLKCgX7;t`VTV(gcand;I;Z)Jbp9<ZC+O2tLpX~CKnmZ2{=uO4#-
zaQe^HsoM$jtOU26C%et`b@Q8xd(N`sVqe!Q)enC2vX(D;Pb@PP6}iM%pLe1Xo?5$!
zx3t<NP{jx~?w5}4*L(cnw0R*toluwdt)!|u_FLN12{jrzLC#MTI%hdGKgGvcg52q2
zs=dz4%I=K}G)Avh=JyV6K=Y1;(Y%g~T@i?N9uE#%em<_WwRf$n_0zI4XI<f)Z#lO%
zaRLZUZoTb^Cs{WZ(=^*<Klw%9dbH#{<n>|yswhDMpmJ9{_>#B~Z*aVXHpl8vgSZB6
z$@}%se2?r5B@cAvg;P?V&kbPa9^MTetCm}Pjd>Rq@%yRAw-&pWZO751^8LzPkF7=J
zx}WY9ySTI4u02U4cVcWrM3tmF(CJkCeaU-%=SSIdx>ScOOsC&BcMB|5_;>ejqzZ~s
z*7+0KQ6*(inx!XYtC$Jh`1+QjP^m9%i3>`RQj0`bc$|uvo~f<y^G5tRDWF5XHk2X+
z6{xuygS}&z^{rCban+K=u5xu8AhE63zEjM2W|J2Zo?QjF0u&0;^n?YeWxXu!t#0W#
z`RUr)^IMUUHvw4J%V{`jhEUJ*qA{C74<!lSu<(dmzQzUX4ACcyAy;)-jn^#TH8@({
z-hoNKfwEGmx5~0=i*a(OtMoh;F=k#=atY-Fg<T-PnSEMzQT}VkOWT!Ckrl+r3KXH;
z5em{=I(>7Ao4nEeOz!0hz2$Pioi?&HWo%*h4LM6TP@!b@hVTL{Z<^&B@4-z%c!g!b
z_enVc4#_MPXPxuSg9`)~H?Q9Pjjqil<qtR&Pp3#aN}6X_$#a67&(sC{?snb&0i#cS
zHZHmuso0Y$L0f~j(nv{DZji+((v(1fS+S_lT5+$JPp8T)4Hg6hn3S%c!7_XHT`8)#
zUn<Ix^<~~IHW%<fs&?S7;=IWoLQJG5Teb(n(W~mg8@Y(i@G0awsfW|;Q;U1G9zX64
z?5`SH+&}j$yh**3#aOgmOlhJnKt<#%+-?x_{EWLzjw&@}v9z1g<p|ZVlMjKtw5=|g
z^Z+LZajEA?M(%~;VNweLa>ZW#xz~*pfL6{7wL}H2vaOTlQdH-p=lv{4#0bZj4K?^I
zz$tb{Z$4ZIhU+|;ysr|R`<B_H80!cWd}604b7@qq_jt>sYQ($TkbdL(_U8DEyCfW7
zS<yg3T29>j+S}8tQEM~JqcOo1n>GcT-dvIRX3N<ihF)(j3YyoIb$9-{IgO=%fEd%b
zT-H}T%Wd{a*r+;_^!}N-d14vic;}_*L8f;)Y!}vYZoM5M6`FgC@RGQ>!Jm@3_K%l!
zG&TpJw_?wxNn|U_ZPRjdI`~qWWnSdPgxvYOpeM;wpSZyTDi7Ewl8qr5Co;xT;VDc-
z&#aMJwyT&wh>2iX-o==;)@N49g?`l8VY1GMZxs@F4DdI<%aby8bNW#nA-PvtEK0R7
zxwp8FTbR_usu(iZX|5Y8VBQjN`x<LbOTl@c_!m`4@f(3-V?s6T4ZZh^oap4C+Zp%z
zTdb+FoXdrfoVCy&)_dW}k1ABTx-KG_K?ZK17gv$P_WlOUt=4zHse{}eGYCe!Fw^3w
z>L=l`5u~)i<nB=FHGbJPf<S|r)D6Ya`M9N2TAQvAcBs+{gU+>?#F4%9&?M?lH+9A|
z=2E27#BvP9ML*8hhY2iTmn5V3VmketRcTi+dV|~>!e|?v1O|ydfm_c&LEU*5f0nmB
z{sL%iwWq4s-SJn8e6pqW(f#Ras#r*%0{=|*b#t`3{wwp3>dCDtb%gj4CXNfG{LJq=
zbx5c{caf`Hd(!Ktxa=D1DV%b3UY=prcV;J@q~|r;@T+Mx7cDr}Bt6>$zo$z}i+H_o
zzvKC&hvMl%LHVVjDcjb1kt-Bo(<r3}wWG>61M}>}W&R4)8mUZ`ihRHYK&t<6+!dhK
zi1sJS%N1M6AmaK(cR~mw!^UdmX0NUJVj+xBy3Lq@(w(gE${dg*bYyN@r)tJjuAn|(
zXT3bZP2Msvfkhd18n1U^Xffxd0!?qCYQ)Yv+jZDgyo|j4)798SKAFzEoVdBFq)^7x
z+oI2sq4)S4Alo25j@|oaJl1UY{bOXr_6^$9-v_kWbjbHZd_oC*;Y0>wEyZ<Uw5y>1
z3FtKMW@{_=N8l~LA=E3Qt#~XJTa=BJ7<$6H#=gds{2ZCCu4XiI68^;ga)kcPxmn@U
zELh|Bo#y=1@VHmj>~K=GnT&!w!;oFyw`|pY{kC{4?xks9BHz$OsNpM2sZ6K&bZp{V
z>GmQ<xS~i>qc8#bu{v<+#@G}JE<~T%77*X6V8){?cs9F6e$0%|(n7%~Uw0Y>4^^Sd
zdW(k}w<(4}mC>l5EDldK8Ou5z#rmVfJlbfXml80>yyzffi&nYBd$e!LOnJX3OGsah
zkJ)N({Q_?nzGhZd{y5^DIEU#2$y;Gog{&)far7^v+piHi%G+dDoTM@l4cC<QJ$a)e
z${>X!(6jX(4st~PYuVbkPgU^(g{o{fSjzjqz7w)&v(oWyQ@B&G6q~@f@7|`M7}apC
z=2`u1eCc0IQ&Oi!bX?n7T1ZX)R^@}9fk_K7p$2PKU99~lYEh47WY30)WMnrx!C$)8
zS+=F7=&hO);!|zo2qM}N5AgPhTH;$p&)dCRI+g-MW=57<K39x~ntQbWXsz7IFnK&t
z?+z<koU4dgV=)_}8gi07M*W?4cJ#hRzM<Sw?azk#8q98wVcP!gRP##h`+F|)jZQy@
z$MJjLSEuIop48P=yLoIWZ0&Y05Za#(&VNYC1V!mf5qwvRC7goYAKx>yd<8lo={)u0
zHc2~rj+1xrwcu>v{79d1_Ki%&?2?Z=x8#tub`vau(*0RJuN!Y&mpwbazF1k%rDK;)
z%jMlTLRsG02mwm|Q13+<<a@II#9yi95DpuVR<bXWm`!zg_F|~wv*&oi6)dR4V&t3f
zsZ=A|6LJK+W7CCawCYlMzQPeqa6MCwrU70mX~={cC3{|JlF?WzxQcG>Ym?!CilIpE
zkLK~=u9Px*+uFw;h%4UT=e|up*jk=n-X9LG8%9yky-m1MOV^~5Cp&&$GD0R^@ndxC
zDg5~~YpUEA`I^1!uL7B@yzM!N9k2unWp(c9*<;HD7Qws6z8btpbNmVkb?7y-_ug-5
zczB%ZjS5%FSWN5Z-rjZSoZK9W(jTCk`*9ZQgjkxnz}@L+)wRX)IhsdPd`&sc&VPMw
zLFQW}ep>5J;CC4E?o?qmiNh;eH|s$+*HrHvz93FT0aDU&!vc}!ij7J+nd<?`z+_j_
ziE6z|guANa3=%1?ztuaZG#JY4^tlrr?>L37PQD)A5v%J+sjD8gTDA(rY;oNzx)jsa
zzB%OBvU%ZId;}l3fu3(RQLV3eGx2rHrYbh<4DHfZR5t-vSNFqpV1HZtq_^Dd56*1!
zYv8r66zq?!8kVb4+^~|_5FTE2UeZkOUB(zLK0<Slc>qK{+f}a3o{`$ScKVJYo{OD0
zod7u1((u_hFO{Pypo$^2{0=%ltbu)#zS<2A<Qoc@#Prv5*<xr$qK++X*45pnGmR8s
za}j79T|4tiFbNVDE9;ttOg3^CV@KVwo#st?nGieOQ)N_ZEVlQvxu#B@5Bt1P1}`QY
zOz@mA@C*s|y~!B9>hMsi#<Lv4M)Q*AWTHPGqmP5zx$lV=Nm-eM8rpp?XNscGAZ2sD
zu>uo6{7o)^m+;F@$YmaU(UrMRdvhEWQ4F``p*D)Rz<Oh|kiLf}{GWdmttivq3Mq6|
zL0Uc5;b)gC<B4Gj)eqdp$VjB=dhQ`E3=p=?zq45u{<-p`xu;omCT4y-M>(O2bv!C+
ztWMQYt+|XR(VXu@R42@o@hN57!*Zh&`9={KRsL|jn2e0cjFjO*kCr@~>`=Kdv*1Zw
zp&UtcN{bs8Y1AIh=gHE9$7#{sz}^p52FhA$HpvMIxK36TW>M~Smn6^7U^Q|z+X*Ve
zEz`PF7x8M>>t@FngKl5HF-IXdY|j;zET8iXo*%bXKU$(dx<RAyT$VMs#`aMF>F!$>
z#jA?Sd-fTgZ21^P0mJkh?J^ogs-1l;<ay}jIV=05oX*~9Es?VTL{6$roNwfeulBAE
zo<GYc$+{%!Qh8sXgJJ5GSn8mB6AD5;PLV>dE5Ap3-897HTvQ^zZ2##nW&MQx+2x?!
zj?n^_=kJPYWs6EA@i~mT)xg#w9?GabP0yVmZRdEw!c>}&;*#FCMHETj<VPzDPNes;
zt+c-I?Z^#n1h793i&DSs+amM1;>%@Ui<Xs<&&`;7r=E@!QRLAf>iyC?gF9IW>lM{;
zhSCVZRHk;IN6H(PN6K@w`x#eNio(LONPa30m{J#;c{2u{0llD&)G^`HjD{D7@V4)y
z+F$xbI(++{-@NDc;nK%v434Vtbc#01xYY5n7X%lNlHt#-$N6VsSS<BQ?6}SiCRbI2
zQKq~Nq(}lMSUt4Xd&F3U3ReAkhM=*Nazm__-d$MSOi8i-oIjX!DebhK-0)n@vF^Z3
zLpx~8J6zP%YO(+KiFLZ{RzvQCuLkl*!;O?oL!Zoz;d#~TT+Y4<J|D+eKNdx&`;AMO
zrVLTyPs}@WHzN05t@C?Ma?=Uu&&zpExG_Zy{gkFS?G}+LNo;!f^(|9z5g}@~GCfS2
z=(8CypJ*4rWLLPJli?x8=zWGNsOQ2mzca6&rYp=(?XfudLqdw7`SI85U(uI?wo>>T
zH*3DHU3vJNg8LmlZHp<ZMMX~eWJxc-iuD67znGjCeC|2X$bA;jCkqwE+>g+<z@RWm
z_p6a=SuG{KZVa*$)y8Me%T5!}QOY{$3#$+8Htd*o-aI||Mo^SfHcxeGXyJN@agi-;
z6dYx}sw&2a%l2`rK@XxZTAw~)ZbqDWBQq~?jyMOua2@6wsqbmP6~3lv*UztfMy4fO
zU;ASl|4lE77MW>o8aM4*GYua&)cb^lIjZKt^x-O=c5*FarM#m)iPnPzrJudyFB+>|
z*H`zCQ=W9(3TIERFAdi1v}~_5>Ho~8VU63QRwr_a$=JJm6X)0Y(VD(~-r{;(6~VpZ
zUK{TZpWye*UK6)F*7P>lu~hXzT_!A)LZdd!wD&~fXuYlT#_l75EkW<@ZbII02+_Cc
zqSNe(?OOmVs?uV;0`5R7Lf0tg;~>|+^rp10+gI#-QF!w9gCXC%KfdazsI7m(HBHD!
zY*;~M=eIW=_$p-g$fR5)fvOv9Qcu~$Tez-JlxKDR?wMFd8iYW(2CxWCa*zZmI#iyr
zZsrz_m1kq0JmHfD6&R_vkWyE;I1$Sfu0BB}cpuYaJwIw$`Plij5}~lG9N;p|aD4mN
zh`<T3w4N1i)V$L+&nMhj`02nmp_RMmccM>ZZIm~rqatBF0XAJCh?<qcVOW;oq*rHT
zBQ71c&bxo798`yLwd&d)L7scU`TU%_(^JoM_1U!RbaHESRFf+^<-S2KY%TzET!;9Y
zF!t-^0M9*{=4)?kp#)K64tZ{5d>q#*+pjP1<`Gf$=&6e22Tx3;D@uiY(OYL<g+R;L
znxoYk4DX96xE3k5$U3^-Hy=oT<OacCE@0v*wcKl;Cwj6Z3^t(`&j+}BMk;zIt<-u7
zbAFfWZ{;L$ft#vx%pa|(O=<UK^n`otIfGkXFR*XZC^#8g5^93|0>t{h)@0jM2U9fr
zBUK%28&8{de9<D(PB34h9f`^u!i@O52QV0G+?XA;8^MfCCJpRSqbDCOlv*v_t3SOE
zeaFHNSZAr!aV^SdY)wMvg;R1NobKT6tSDD)Gje|4?e%y4&3M*1s_`|$-OV+_YlI;C
zjg;?|s~bkI3CZ2ZA8U5H56ydO^^SYjzrgK&UHS0f=c}IyXxln;!h2S9Rl<smP1J7o
zD`{N+apTC%sV;N2hHtOQ)1OZgP@dc8gU2*bYD~{lOEZy+qK;>plM-Q*!X#PU^}#pk
z)^&f4b15vw`3v=WhJo4)GRv&J9hD1r)H~MBaj#3x68Nt?x=pQXuX3F<S=?f`4-fBR
z_wOj^8RiccY+lROc4Y5k6*4__*)x->Vj$z(fU>R5NuTjt{o$I0o>qDiNdn#qsA||W
z{>dtyE1#7{xU|Y%;m`zm!c#fTH!<bG3}kxx6<;v=eaJI>)}(_90<v<qrVe1@itr$P
z%6=y?LAdiZYByRe)8NWmW8C7Kv|LJG9#Hk^;RY5LS3%qG4$gjA+$WRrz^wt@;C?ld
zc0`=mGrQ)}8=-yq48~RJdb9iLl1;c0M&-+omSTX+flLLj28$Pq8O|$#i#q791gy+Q
zxpZ%P?O`+LF7Mg%yZ@CcuF22F8@Q#F6?%`uPJvMT#+?bG8qzS;AiGx~VggXwwpMrx
zNxbv}7e#NZ5QjE`xM<)#OzkHs+P0zs{4NA3=h8=*Z!FcHp?@tTIN({D-NU+lWi{7u
z{fp<5%y%BJfTWW5C!ft^(H4l6e22T?rRLe`U^|M~;n-`LgM~LIR*kOki#+ZQe^4#{
zR9grwgec<DjQMH+lno%^d`-NZ{oSGJCvv|VKT1zo+!=fn*XNQdjP~p<zNZqmFt<6g
z{1ebAHl0OWH3iYYz!0$QT}vPm0)>`6Vd=*ZQx&L*msQ>qSyVt}%&M*cB84ibEJKX}
zK#WiW5y48l#CdfSVzD}?46nfpAl}qqB0kdWB>HPI6UX^45R<iXiFdU?Wt!TZ0HUNe
zs0^Vi03dSff{1o{gG56;P?@fN0Dvf?4<ddw@F0#GfXciLodHBELlALDh>s|Ao13_S
zXCmIcT|-p5%~S@t69yo1-T{?$8^Hj?IwKGfWIP*d3?iO3@g;7P{~wz~5yMSDL<!Rt
zqOd85$Y$n8q%;GS6`ILY6A<L%sewgoENo1{805hVP{bCDLH#YZJ&>aRUfY2&nBOZS
z2U8nsQ!^(p2Kzq}2a9{=PGBtLKm-)AGj%XFwIRPl|5mXFV-Kh#V>y7a@V{4%U;_5H
z1CFN7rZ!;gFAu;Xjux(9>@OdHB93-O#-?EGZ!gFj{`SJj+`*JA|LuX3i!B%m`GpM@
zc|czNhIJ+{f8hc}T*%Acz;5K_FJNY{h&y@x8`j;_;b0e38PGllP}b!@K|@S7qaluZ
zJAvUa6a+;EK<fzraX6r<jmbe$xH_1c0U=})4AGV#LV#irWH%2UunidaYXQR`VE-XQ
zlRZ78hk}y*JS>Bg9X>2Wl0E-JMt(t&PXHlu`tTe_AR$CapNj+pjLgg*YA_52aiB(i
z{&f!vfgXXt!q8-n59uKgNA*yUqk3rcFFnE^AXxZeML6VFF#Z66L*NHdIV3|KMCXtU
zjV33@pE7bl|CeVnJ_G`X!j6y%hr%)B+&E;6#2h9cN+#i`40$AQWQc=Y`(r;c1mOr>
z5G3M=F$9T$9zF>K1%n?3hM-We!yph87JfvAh9Um8CHxy>2pSDNOd$k~g&n3Ef`J}X
z_#Y>MVBqkhdWiqfBj@@5+Wz7n`>V44+z<;t=m>{oWNMDcFsQ?N<nlXcMt|6nvj}=r
z4~ZcB;SJdY3c()T5DG^fJ{=T_I8tCxC<=MFnxIfD{BY=CD9k~JId};FmKfRgs3HV*
zm}+vqArI?85zr&_LlOVsAOea0lNmDqPy`x!xXnNj81xZlkg$WsdGP$>G!*$C%pj4l
zBMu_5kRvj3TR;;IZ-_!1sck3<4LL$93WGQzBj@ko<^x3|(1(*6ipKs^b%g(Kz)%e2
zU`qXYIt=1y(qIl#NM;a&J(8?YEbK_=$f<CcRRRQxMIPz=P%H{@gf1-hQ0yQO7zB2-
zEkpjJ-IC9C_;BQYL{8ve_4jW)$=jh01H+)mBh0{{n4`cj*um)jgFzU193Dwv@~r!(
z6bb)7|KKph5k)xs;Fj>`hHy0IaExJa%-_T0e-aahAh)i=wg|)#2PMd`&_7FpOe^y5
zK}kmbC(~ib|DYNPM<a<2!Izj1L&2d~2%5MU%!$N+MbvC<oxtQ1A6#nWZOjg?4rD~~
c8~K9Z=w#&J^y_*6he427;Khs5$}+(J1LuJ|#{d8T

diff --git a/speed_benchmark/speed_benchmark.py b/speed_benchmark/speed_benchmark.py
new file mode 100644
index 0000000..bd8a6e5
--- /dev/null
+++ b/speed_benchmark/speed_benchmark.py
@@ -0,0 +1,101 @@
+import json
+
+import time
+import torch
+import torch.nn as nn
+
+from bitsandbytes.nn.triton_utils.v0.quantize_rowwise import quantize_rowwise
+from bitsandbytes.nn.triton_utils.v0.quantize_columnwise_and_transpose import quantize_columnwise_and_transpose
+from bitsandbytes.nn.triton_utils.v0.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
+from bitsandbytes.nn.triton_utils.v0.quantize_global import quantize_global, quantize_global_transpose
+from bitsandbytes.nn.triton_utils.v0.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze
+
+# KNOW ISSUE: need to optimize "w_quantize_colwise_transpose" when embeddim is too large.
+
+def get_time(k, fn, info_dict):
+
+    for _ in range(repeat // 2):
+       fn()
+
+    torch.cuda.synchronize()
+    start = time.time()
+    for _ in range(repeat):
+       fn()
+
+    torch.cuda.synchronize()
+    end = time.time()
+    ms = (end - start) / repeat * 1000
+    print(f"time {k}: {ms:.3f} ms")
+    info_dict[k] = ms
+
+if __name__ == '__main__':
+    torch.manual_seed(0)
+    wm = 4
+    for dim in [1024, 1280, 1408, 1664, 2048, 4096]:
+        # note "batch_size" is actually "batch_size * embed_dim", which is why it's large
+        for batch_size in [256*32, 256*64, 256*128, 256*256, 256*512]:
+            
+            # switch switches dim_in and dim_out
+            for switch in [False, True]:
+
+                # hparams
+                repeat = 64
+                batch_size = batch_size
+                dim_out = dim * wm
+                dim_in = dim
+                if switch:
+                    dim_out = dim
+                    dim_in = wm * dim
+
+                dim_in = round(dim_in)
+                dim_out = round(dim_out)
+
+                # simulate forward pass
+                x = torch.randn(batch_size, dim_in, dtype=torch.float16).cuda()
+                g = torch.randn(batch_size, dim_out, dtype=torch.float16).cuda()
+                w = torch.randn(dim_out, dim_in, dtype=torch.float16).cuda()
+                
+                x_int8 = x.clone().to(torch.int8)
+                g_int8 = g.clone().to(torch.int8)
+                w_int8 = w.clone().to(torch.int8)
+                wt_int8 = w.t().contiguous().clone().to(torch.int8)
+                state_x_rowwise = x.max(dim=1)[0]
+                state_g_rowwise = g.max(dim=1)[0]
+                state_w_columnwise = w.max(dim=0)[0]
+                state_w_rowwise = w.max(dim=1)[0]
+                state_w_global = w.max()
+
+                info = {'repeat' : repeat, 'batch_size' : batch_size, 'dim_out' : dim_out, 'dim_in' : dim_in, 'wm' : wm, 'switch' : switch}
+
+                get_time('standard_fwd', lambda : x.matmul(w.t()), info)
+                get_time('standard_gw', lambda : g.t().matmul(x), info)
+                get_time('standard_gx', lambda : g.matmul(w), info)
+                get_time('rowwise_fwd', lambda : int8_matmul_rowwise_dequantize(x_int8, w_int8.t(), state_x_rowwise, state_w_columnwise, None), info)
+                get_time('rowwise_bwd', lambda : int8_matmul_rowwise_dequantize(g_int8, wt_int8.t(), state_x_rowwise, state_w_rowwise, None), info)
+                get_time('global_fwd', lambda : int8_matmul_mixed_dequanitze(x_int8, w_int8.t(), state_x_rowwise, state_w_global, None), info)
+                get_time('global_bwd', lambda : int8_matmul_mixed_dequanitze(g_int8, wt_int8.t(), state_x_rowwise, state_w_global, None), info)
+                get_time('x_quantize_rowwise', lambda : quantize_rowwise(x), info)
+                get_time('g_quantize_rowwise', lambda : quantize_rowwise(g), info)
+                get_time('w_quantize_rowwise', lambda : quantize_rowwise(w), info)
+                get_time('w_quantize_colwise_transpose', lambda : quantize_columnwise_and_transpose(w), info)
+                get_time('w_quantize_global', lambda : quantize_global(w), info)
+                get_time('w_quantize_global_transpose', lambda : quantize_global_transpose(w), info)
+
+                time_standard = info['standard_fwd'] + info['standard_gx'] + info['standard_gw']
+                time_rowwise = info['x_quantize_rowwise'] + info['g_quantize_rowwise']  + info['w_quantize_colwise_transpose'] + info['w_quantize_rowwise'] + info['standard_gw'] + info['rowwise_fwd'] + info['rowwise_bwd']
+                time_global = info['x_quantize_rowwise'] + info['g_quantize_rowwise'] + info['w_quantize_global'] + info['w_quantize_global_transpose'] + info['standard_gw'] + info['global_fwd'] + info['global_bwd']
+
+                print('TOTAL STANDARD', time_standard)
+                print('TOTAL ROWWISE', time_rowwise)
+                print('TOTAL GLOBAL', time_global)
+
+                print('speedup', -100*(time_global - time_standard)/time_standard)
+
+                info['time_standard'] = time_standard
+                info['time_rowwise'] = time_rowwise
+                info['time_global'] = time_global
+
+                info_json = json.dumps(info)
+
+                with open("speed_benchmark/info_a100_py2.jsonl", "a") as file:
+                    file.write(info_json + "\n")
diff --git a/tests/test_triton.py b/tests/test_triton.py
index acbe32c..2ec34fb 100644
--- a/tests/test_triton.py
+++ b/tests/test_triton.py
@@ -1,44 +1,57 @@
 import pytest
 import torch
 
-from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear
+from bitsandbytes.nn.triton_based_modules import SwitchBackLinear
+from bitsandbytes.nn import Linear8bitLt
 
 
-
-@pytest.mark.parametrize("triton_module", [SwitchBackGlobalLinear, SwitchBackLinear])
-def test_switchbatch(triton_module):
+@pytest.mark.parametrize("vectorrize", [False, True])
+def test_switchback(vectorrize):
     for dim in [83, 17, 128]:
         for batch in [13, 128, 256]:
 
             standard = torch.nn.Linear(dim, 4 * dim).cuda().half()
-            switchback = triton_module(dim, 4 * dim).cuda().half()
+            print('vectorrize', vectorrize)
+            switchback = SwitchBackLinear(dim, 4 * dim, vectorize=vectorrize).cuda().half()
+            baseline = Linear8bitLt(dim, 4 * dim).cuda().half()
             switchback.weight.data.copy_(standard.weight)
             switchback.bias.data.copy_(standard.bias)
+            baseline.weight.data.copy_(standard.weight)
+            baseline.bias.data.copy_(standard.bias)
 
+            x1 = torch.randn(batch, dim).cuda().half().requires_grad_(True)
+            x2 = x1.clone().detach().requires_grad_(True)
+            x3 = x1.clone().detach().requires_grad_(True)
 
-            for i in range(100):
-                x1 = torch.randn(batch, dim).cuda().half().requires_grad_(True)
-                x2 = x1.clone().detach().requires_grad_(True)
-                print('standard')
-                out_standard = standard(x1)
-                print('switchback')
-                out_sb = switchback(x1)
+            out_standard = standard(x1)
+            (2**10 * out_standard.abs().mean()).backward()
 
-                (out_standard.abs().mean()).backward()
-                (out_sb.abs().mean()).backward()
+            out_sb = switchback(x2)
+            (2**10 * out_sb.abs().mean()).backward()
 
-                err_sb = (out_standard - out_sb).abs().mean()
-                print('OUT', err_sb)
+            out_baseline = baseline(x3)
+            (2**10 * out_baseline.abs().mean()).backward()
 
-                err_sb = (standard.bias.grad - switchback.bias.grad).abs().mean()
+            err_sb = (out_standard - out_sb).abs().mean()
+            err_baseline = (out_standard - out_baseline).abs().mean()
+            print('OUT', err_sb, err_baseline)
+            assert err_sb < 2 * err_baseline
 
-                print('GW2', err_sb)
+            err_sb = (standard.bias.grad - switchback.bias.grad).abs().mean()
+            err_baseline = (standard.bias.grad - baseline.bias.grad).abs().mean()
 
-                err_sb = (standard.weight.grad - switchback.weight.grad).abs().mean()
+            print('GW2', err_sb,  err_baseline)
+            assert err_sb < 2 * err_baseline
 
-                print('GW1', err_sb)
+            err_sb = (standard.weight.grad - switchback.weight.grad).abs().mean()
+            err_baseline = (standard.weight.grad - baseline.weight.grad).abs().mean()
 
-                #err_sb = (x1.grad - x2.grad).abs().mean()
+            print('GW1', err_sb,  err_baseline)
+            assert err_sb < 2 * err_baseline
 
-                #print('GX1', err_sb)
+            err_sb = (x1.grad - x2.grad).abs().mean()
+            err_baseline = (x1.grad - x3.grad).abs().mean()
+
+            print('GX1', err_sb, err_baseline)
+            assert err_sb < 2 * err_baseline
 
diff --git a/tests/triton_tests/attn_decomp.py b/tests/triton_tests/attn_decomp.py
deleted file mode 100644
index b70bceb..0000000
--- a/tests/triton_tests/attn_decomp.py
+++ /dev/null
@@ -1,363 +0,0 @@
-
-import torch
-import json
-from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, StandardLinear
-import time
-
-# class AttentionOld(torch.nn.Module):
-#     def __init__(
-#             self,
-#             dim,
-#             num_heads=8,
-#             qkv_bias=True,
-#             scaled_cosine=False,
-#             scale_heads=False,
-#             attn_drop=0.,
-#             proj_drop=0.,
-#             linear_module=torch.nn.Linear,
-#     ):
-#         super().__init__()
-#         self.scaled_cosine = scaled_cosine
-#         self.scale_heads = scale_heads
-#         assert dim % num_heads == 0, 'dim should be divisible by num_heads'
-#         self.num_heads = num_heads
-#         self.head_dim = dim // num_heads
-#         self.scale = self.head_dim ** -0.5
-
-#         self.in_proj_linear = linear_module(dim, 3 * dim, bias = qkv_bias)
-
-#         self.attn_drop = torch.nn.Dropout(attn_drop)
-#         if self.scale_heads:
-#             self.head_scale = torch.nn.Parameter(torch.ones((num_heads, 1, 1)))
-#         else:
-#             self.head_scale = None
-#         self.out_proj = linear_module(dim, dim)
-#         self.out_drop = torch.nn.Dropout(proj_drop)
-
-#     def forward(self, x, attn_mask = None):
-#         L, N, C = x.shape
-
-#         q, k, v = self.in_proj_linear(x).chunk(3, dim=-1)
-            
-#         q = q.contiguous().view(L, N * self.num_heads, -1).transpose(0, 1)
-#         k = k.contiguous().view(L, N * self.num_heads, -1).transpose(0, 1)
-#         v = v.contiguous().view(L, N * self.num_heads, -1).transpose(0, 1)
-
-#         q = q * self.scale
-#         attn = torch.bmm(q, k.transpose(-1, -2))
-
-#         if attn_mask is not None:
-#             if attn_mask.dtype == torch.bool:
-#                 new_attn_mask = torch.zeros_like(attn_mask, dtype=q.dtype)
-#                 new_attn_mask.masked_fill_(attn_mask, float("-inf"))
-#                 attn_mask = new_attn_mask
-#             attn += attn_mask
-        
-#         attn = attn.softmax(dim=-1)
-#         attn = self.attn_drop(attn)
-
-#         x = torch.bmm(attn, v)
-#         x = x.transpose(0, 1).reshape(L, N, C)
-
-#         x = self.out_proj(x)
-#         x = self.out_drop(x)
-#         return x
-    
-class Attention(torch.nn.Module):
-    def __init__(
-            self,
-            dim,
-            num_heads=8,
-            qkv_bias=True,
-            scaled_cosine=False,
-            scale_heads=False,
-            attn_drop=0.,
-            proj_drop=0.,
-            linear_module=torch.nn.Linear,
-    ):
-        super().__init__()
-        self.scaled_cosine = scaled_cosine
-        self.scale_heads = scale_heads
-        assert dim % num_heads == 0, 'dim should be divisible by num_heads'
-        self.num_heads = num_heads
-        self.head_dim = dim // num_heads
-        self.scale = self.head_dim ** -0.5
-
-        self.ln = torch.nn.LayerNorm(dim)
-
-        self.in_proj_linear = linear_module(dim, 3 * dim, bias = qkv_bias)
-
-        self.attn_drop = torch.nn.Dropout(attn_drop)
-        if self.scale_heads:
-            self.head_scale = torch.nn.Parameter(torch.ones((num_heads, 1, 1)))
-        else:
-            self.head_scale = None
-        self.out_proj = linear_module(dim, dim)
-        self.out_drop = torch.nn.Dropout(proj_drop)
-
-    def forward(self, x, attn_mask = None):
-        q, k, v = self.in_proj_linear(self.ln(x)).chunk(3, dim=-1)
-        x = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask)
-        x = self.out_proj(x)
-        return x
-
-if __name__ == '__main__':
-
-
-    for dim in [1024, 1280, 1408, 1664, 2048]:
-        for batch in [2**14, 2**15, 2**16, 2**17]:
-
-            # if dim != 4096 or batch != 2**17:
-            #     continue
-
-            x1 = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
-            qu = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
-            ke = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
-            va = torch.randn( batch // 256, 256, dim ).cuda().requires_grad_(True)
-
-            standard = Attention(dim).cuda()
-            my_standard = Attention(dim, linear_module=StandardLinear).cuda()
-            sb = Attention(dim, linear_module=SwitchBackGlobalLinear).cuda()
-            standard_compiled = torch.compile(standard)
-            ln_model = torch.nn.Sequential(
-                    torch.nn.LayerNorm(dim),
-                    torch.nn.LayerNorm(dim),
-                ).cuda()
-            ln_model_compiled = torch.compile(
-                ln_model
-            )
-            gelu_model = torch.nn.Sequential(
-                    torch.nn.GELU(),
-                ).cuda()
-            gelu_model_compiled = torch.compile(
-                gelu_model
-            )
-
-
-            print('Model part 2')
-
-            repeat = 32
-            
-            info = {'repeat' : repeat, 'batch_size' : batch, 'dim' : dim}
-
-
-            k = 'attn'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_attn = torch.nn.functional.scaled_dot_product_attention(qu, ke, va)
-                ((2 ** 16) * out_attn).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_attn = torch.nn.functional.scaled_dot_product_attention(qu, ke, va)
-                ((2 ** 16) * out_attn).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            k = 'ln'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out = ln_model(x1)
-                ((2 ** 16) * out).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out = ln_model(x1)
-                ((2 ** 16) * out).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            x1.grad.zero_()
-
-            k = 'ln_compiled'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out = ln_model_compiled(x1)
-                ((2 ** 16) * out).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out = ln_model_compiled(x1)
-                ((2 ** 16) * out).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            k = 'gelu'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out = gelu_model(x1)
-                ((2 ** 16) * out).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out = gelu_model(x1)
-                ((2 ** 16) * out).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            x1.grad.zero_()
-
-            k = 'gelu_compiled'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out = gelu_model_compiled(x1)
-                ((2 ** 16) * out).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out = gelu_model_compiled(x1)
-                ((2 ** 16) * out).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-
-            x1.grad.zero_()
-
-            k = 'standard'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_standard = standard(x1)
-                ((2 ** 16) * out_standard).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_standard = standard(x1)
-                ((2 ** 16) * out_standard).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            x1.grad.zero_()
-            
-            k = 'my_standard'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_my_standard = my_standard(x1)
-                ((2 ** 16) * out_my_standard).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_my_standard = my_standard(x1)
-                ((2 ** 16) * out_my_standard).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-            # 
-            # 
-
-            x1.grad.zero_()
-
-
-            k = 'standard_compiled'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_standard_compiled = standard_compiled(x1)
-                ((2 ** 16) * out_standard_compiled).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_standard_compiled = standard_compiled(x1)
-                ((2 ** 16) * out_standard_compiled).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            x1.grad.zero_()
-
-
-            k = 'sb'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_sb = sb(x1)
-                ((2 ** 16) * out_sb).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_sb = sb(x1)
-                ((2 ** 16) * out_sb).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            info_json = json.dumps(info)
-
-
-            with open("tests/triton_tests/attn_info_ln.jsonl", "a") as file:
-                file.write(info_json + "\n")
-    
-
-        #exit()
-
-    # err_fused = (out_standard - out_fused).abs().mean()
-    # err_sb = (out_standard - out_sb).abs().mean()
-    # print('OUT', err_fused, err_sb)
-
-    # err_fused = (standard[d].weight.grad - fused_mlp.linear2.weight.grad).abs().mean()
-    # err_sb = (standard[d].weight.grad - sb[d].weight.grad).abs().mean()
-
-    # print('GW2', err_fused, err_sb)
-
-    # err_fused = (standard[0].weight.grad - fused_mlp.linear1.weight.grad).abs().mean()
-    # err_sb = (standard[0].weight.grad - sb[0].weight.grad).abs().mean()
-
-    # print('GW1', err_fused, err_sb)
-
-    # err_fused = (x1.grad - x2.grad).abs().mean()
-    # err_sb = (x1.grad - x3.grad).abs().mean()
-
-    # print('GX1', err_fused, err_sb)
-
-    # import pdb; pdb.set_trace()
-
-
-    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
diff --git a/tests/triton_tests/attn_info_ln.jsonl b/tests/triton_tests/attn_info_ln.jsonl
deleted file mode 100644
index c2f239b..0000000
--- a/tests/triton_tests/attn_info_ln.jsonl
+++ /dev/null
@@ -1,20 +0,0 @@
-{"repeat": 32, "batch_size": 16384, "dim": 1024, "attn": 2.1414458751678467, "ln": 1.6365647315979004, "ln_compiled": 1.799367368221283, "gelu": 1.0930374264717102, "gelu_compiled": 1.094818115234375, "standard": 4.159651696681976, "my_standard": 4.696495831012726, "standard_compiled": 3.675594925880432, "sb": 4.1465312242507935}
-{"repeat": 32, "batch_size": 32768, "dim": 1024, "attn": 4.100345075130463, "ln": 3.1594187021255493, "ln_compiled": 3.437422215938568, "gelu": 2.109348773956299, "gelu_compiled": 2.11450457572937, "standard": 7.706902921199799, "my_standard": 8.799396455287933, "standard_compiled": 6.735652685165405, "sb": 7.66376405954361}
-{"repeat": 32, "batch_size": 65536, "dim": 1024, "attn": 7.953710854053497, "ln": 6.236426532268524, "ln_compiled": 6.746955215930939, "gelu": 4.164382815361023, "gelu_compiled": 4.171714186668396, "standard": 14.894917607307434, "my_standard": 17.042435705661774, "standard_compiled": 12.985721230506897, "sb": 14.6140456199646}
-{"repeat": 32, "batch_size": 131072, "dim": 1024, "attn": 15.638880431652069, "ln": 12.333884835243225, "ln_compiled": 13.272866606712341, "gelu": 8.228793740272522, "gelu_compiled": 8.243747055530548, "standard": 29.425136744976044, "my_standard": 35.08377820253372, "standard_compiled": 25.69487690925598, "sb": 28.760001063346863}
-{"repeat": 32, "batch_size": 16384, "dim": 1280, "attn": 2.627238631248474, "ln": 2.0098239183425903, "ln_compiled": 2.4197474122047424, "gelu": 1.3455823063850403, "gelu_compiled": 1.35069340467453, "standard": 5.554787814617157, "my_standard": 6.2290579080581665, "standard_compiled": 5.132324993610382, "sb": 5.4178386926651}
-{"repeat": 32, "batch_size": 32768, "dim": 1280, "attn": 5.0596073269844055, "ln": 3.903590142726898, "ln_compiled": 4.719957709312439, "gelu": 2.6203468441963196, "gelu_compiled": 2.627365291118622, "standard": 10.546617209911346, "my_standard": 11.850126087665558, "standard_compiled": 9.685918688774109, "sb": 10.088451206684113}
-{"repeat": 32, "batch_size": 65536, "dim": 1280, "attn": 9.845800697803497, "ln": 7.711298763751984, "ln_compiled": 9.292080998420715, "gelu": 5.172915756702423, "gelu_compiled": 5.180932581424713, "standard": 21.371990442276, "my_standard": 23.921720683574677, "standard_compiled": 19.669152796268463, "sb": 20.267993211746216}
-{"repeat": 32, "batch_size": 131072, "dim": 1280, "attn": 19.375711679458618, "ln": 15.333592891693115, "ln_compiled": 18.245264887809753, "gelu": 10.264746844768524, "gelu_compiled": 10.283775627613068, "standard": 41.79700464010239, "my_standard": 45.84744572639465, "standard_compiled": 38.35208714008331, "sb": 38.35364431142807}
-{"repeat": 32, "batch_size": 16384, "dim": 1408, "attn": 2.9110386967658997, "ln": 2.1998360753059387, "ln_compiled": 2.581551671028137, "gelu": 1.4731436967849731, "gelu_compiled": 1.478634774684906, "standard": 6.764143705368042, "my_standard": 7.331632077693939, "standard_compiled": 6.24605268239975, "sb": 6.325609982013702}
-{"repeat": 32, "batch_size": 32768, "dim": 1408, "attn": 5.542516708374023, "ln": 4.289716482162476, "ln_compiled": 5.065307021141052, "gelu": 2.8742849826812744, "gelu_compiled": 2.882353961467743, "standard": 12.749537825584412, "my_standard": 13.79828155040741, "standard_compiled": 11.728867888450623, "sb": 11.642806231975555}
-{"repeat": 32, "batch_size": 65536, "dim": 1408, "attn": 10.80312579870224, "ln": 8.471302688121796, "ln_compiled": 9.96796041727066, "gelu": 5.681410431861877, "gelu_compiled": 5.6905597448349, "standard": 25.19702911376953, "my_standard": 27.226239442825317, "standard_compiled": 23.22910726070404, "sb": 22.682294249534607}
-{"repeat": 32, "batch_size": 131072, "dim": 1408, "attn": 21.284908056259155, "ln": 16.85701310634613, "ln_compiled": 19.643358886241913, "gelu": 11.292420327663422, "gelu_compiled": 11.314474046230316, "standard": 50.06787180900574, "my_standard": 54.29378151893616, "standard_compiled": 44.58653926849365, "sb": 45.359253883361816}
-{"repeat": 32, "batch_size": 16384, "dim": 1664, "attn": 3.382459282875061, "ln": 2.6206374168395996, "ln_compiled": 2.9666870832443237, "gelu": 1.7263293266296387, "gelu_compiled": 1.7317384481430054, "standard": 8.414775133132935, "my_standard": 9.117811918258667, "standard_compiled": 7.7542513608932495, "sb": 7.70898163318634}
-{"repeat": 32, "batch_size": 32768, "dim": 1664, "attn": 6.468378007411957, "ln": 5.125559866428375, "ln_compiled": 5.791269242763519, "gelu": 3.3864825963974, "gelu_compiled": 3.3920034766197205, "standard": 16.016244888305664, "my_standard": 17.25083589553833, "standard_compiled": 14.60808515548706, "sb": 14.347739517688751}
-{"repeat": 32, "batch_size": 65536, "dim": 1664, "attn": 12.645229697227478, "ln": 10.13532280921936, "ln_compiled": 11.427387595176697, "gelu": 6.6957250237464905, "gelu_compiled": 6.711684167385101, "standard": 31.792201101779938, "my_standard": 34.31189805269241, "standard_compiled": 29.10037338733673, "sb": 28.3128023147583}
-{"repeat": 32, "batch_size": 131072, "dim": 1664, "attn": 24.970605969429016, "ln": 20.182937383651733, "ln_compiled": 22.7489173412323, "gelu": 13.326868414878845, "gelu_compiled": 13.345755636692047, "standard": 63.46555054187775, "my_standard": 70.19880414009094, "standard_compiled": 56.40875548124313, "sb": 56.22846633195877}
-{"repeat": 32, "batch_size": 16384, "dim": 2048, "attn": 4.080049693584442, "ln": 3.2655522227287292, "ln_compiled": 3.3329352736473083, "gelu": 2.108432352542877, "gelu_compiled": 2.114713191986084, "standard": 11.370822787284851, "my_standard": 12.234866619110107, "standard_compiled": 10.377615690231323, "sb": 10.209612548351288}
-{"repeat": 32, "batch_size": 32768, "dim": 2048, "attn": 7.74645060300827, "ln": 6.418220698833466, "ln_compiled": 6.55733048915863, "gelu": 4.163652658462524, "gelu_compiled": 4.171028733253479, "standard": 21.39316499233246, "my_standard": 23.04024249315262, "standard_compiled": 19.431106746196747, "sb": 18.732361495494843}
-{"repeat": 32, "batch_size": 65536, "dim": 2048, "attn": 15.235155820846558, "ln": 12.684382498264313, "ln_compiled": 12.895286083221436, "gelu": 8.228868246078491, "gelu_compiled": 8.242718875408173, "standard": 42.55136102437973, "my_standard": 45.82635313272476, "standard_compiled": 38.663335144519806, "sb": 36.76284849643707}
-{"repeat": 32, "batch_size": 131072, "dim": 2048, "attn": 30.24454414844513, "ln": 25.25731921195984, "ln_compiled": 25.67601203918457, "gelu": 16.384944319725037, "gelu_compiled": 16.409948468208313, "standard": 84.26841348409653, "my_standard": 91.10662341117859, "standard_compiled": 76.89539343118668, "sb": 71.73164188861847}
diff --git a/tests/triton_tests/full_matrix_decomp.py b/tests/triton_tests/full_matrix_decomp.py
deleted file mode 100644
index e2932d4..0000000
--- a/tests/triton_tests/full_matrix_decomp.py
+++ /dev/null
@@ -1,353 +0,0 @@
-import json
-
-import time
-import torch
-import torch.nn as nn
-import bitsandbytes.nn as bnn
-from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear, StandardLinear
-
-from bitsandbytes.nn.triton_utils.v0.quantize_rowwise_nogroup import quantize_rowwise_nogroup
-from bitsandbytes.nn.triton_utils.v0.quantize_columnwise_nogroup_transpose import quantize_columnwise_nogroup_transpose
-from bitsandbytes.nn.triton_utils.v0.int8_matmul_rowwise_dequantize_bias import int8_matmul_rowwise_dequantize_bias
-from bitsandbytes.nn.triton_utils.v0.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
-from bitsandbytes.nn.triton_utils.v0.quantize_global import quantize_global, quantize_global_transpose
-from bitsandbytes.nn.triton_utils.v0.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze, int8_matmul_mixed_dequanitze_bias
-
-# KNOW ISSUE: need to optimize "w_quantize_colwise_transpose" when embeddim is too large.
-# not that big of an issue.
-
-def get_time_standard_fwd(k, v):
-
-    x = torch.randn(batch_size, dim_in, dtype=torch.float16).cuda()
-    g = torch.randn(batch_size, dim_out, dtype=torch.float16).cuda()
-
-    ##### time matmul 1
-    for _ in range(repeat // 2):
-        g.t().matmul(x)
-
-    torch.cuda.synchronize()
-    start = time.time()
-    for _ in range(repeat):
-        g.t().matmul(x)
-
-    torch.cuda.synchronize()
-    end = time.time()
-    print(f"time {k}: {(end - start) / repeat * 1000:.3f} ms")
-    return (end - start) / repeat * 1000
-
-if __name__ == '__main__':
-    torch.manual_seed(0)
-    #for (dim, wm) in [(1024, 4), (1280, 4), (1408, 4.3637), (1664, 4.9231), (2048, 4), (4096, 4), (8096, 4)]
-    for (dim, wm) in [(1408, 4), (1664, 4),]:
-
-        for batch_size in [256*32, 256*64, 256*128, 256*256, 256*512]:
-            #for batch_size in [256*256, 256*512]:
-
-            for switch in [False, True]:
-
-
-                # hparams
-                repeat = 64
-                batch_size = batch_size
-                dim_out = dim * wm
-                dim_in = dim
-                if switch:
-                    dim_out = dim
-                    dim_in = wm * dim
-
-                dim_in = round(dim_in)
-                dim_out = round(dim_out)
-
-
-                # simulate forward pass
-                x = torch.randn(batch_size, dim_in, dtype=torch.float16).cuda()
-                g = torch.randn(batch_size, dim_out, dtype=torch.float16).cuda()
-                w = torch.randn(dim_out, dim_in, dtype=torch.float16).cuda()
-                
-                x_int8 = x.clone().to(torch.int8)
-                g_int8 = g.clone().to(torch.int8)
-                w_int8 = w.clone().to(torch.int8)
-                wt_int8 = w.t().contiguous().clone().to(torch.int8)
-                state_x_rowwise = x.max(dim=1)[0]
-                state_g_rowwise = g.max(dim=1)[0]
-                state_w_columnwise = w.max(dim=0)[0]
-                state_w_rowwise = w.max(dim=1)[0]
-                state_w_global = w.max()
-
-                info = {'repeat' : repeat, 'batch_size' : batch_size, 'dim_out' : dim_out, 'dim_in' : dim_in, 'wm' : wm, 'switch' : switch}
-
-                k = 'standard_fwd'
-                for _ in range(repeat // 2):
-                    x.matmul(w.t())
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    x.matmul(w.t())
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-                k = 'standard_gw'
-                for _ in range(repeat // 2):
-                    g.t().matmul(x)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    g.t().matmul(x)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-                k = 'standard_gx'
-                for _ in range(repeat // 2):
-                    g.matmul(w)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    g.matmul(w)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-
-                k = 'rowwise_fwd'
-                for _ in range(repeat // 2):
-                    int8_matmul_rowwise_dequantize(x_int8, w_int8.t(), state_x_rowwise, state_w_columnwise)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    int8_matmul_rowwise_dequantize(x_int8, w_int8.t(), state_x_rowwise, state_w_columnwise)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-                k = 'rowwise_bwd'
-                for _ in range(repeat // 2):
-                    int8_matmul_rowwise_dequantize(g_int8, wt_int8.t(), state_x_rowwise, state_w_rowwise)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    int8_matmul_rowwise_dequantize(g_int8, wt_int8.t(), state_x_rowwise, state_w_rowwise)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-                k = 'global_fwd'
-                for _ in range(repeat // 2):
-                    int8_matmul_mixed_dequanitze(x_int8, w_int8.t(), state_x_rowwise, state_w_global)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    int8_matmul_mixed_dequanitze(x_int8, w_int8.t(), state_x_rowwise, state_w_global)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-                k = 'global_bwd'
-                for _ in range(repeat // 2):
-                    int8_matmul_mixed_dequanitze(g_int8, wt_int8.t(), state_x_rowwise, state_w_global)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    int8_matmul_mixed_dequanitze(g_int8, wt_int8.t(), state_x_rowwise, state_w_global)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-                k = 'x_quantize_rowwise'
-                for _ in range(repeat // 2):
-                    quantize_rowwise_nogroup(x)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    quantize_rowwise_nogroup(x)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-                k = 'g_quantize_rowwise'
-                for _ in range(repeat // 2):
-                    quantize_rowwise_nogroup(g)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    quantize_rowwise_nogroup(g)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-                k = 'w_quantize_rowwise'
-                for _ in range(repeat // 2):
-                    quantize_rowwise_nogroup(w)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    quantize_rowwise_nogroup(w)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-                k = 'w_quantize_colwise_transpose'
-                for _ in range(repeat // 2):
-                    quantize_columnwise_nogroup_transpose(w)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    quantize_columnwise_nogroup_transpose(w)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-                k = 'w_quantize_global'
-                for _ in range(repeat // 2):
-                    quantize_global(w)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    quantize_global(w)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-                k = 'w_quantize_global_transpose'
-                for _ in range(repeat // 2):
-                    quantize_global_transpose(w)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    quantize_global_transpose(w)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-                k = 'cast_x'
-                for _ in range(repeat // 2):
-                    newx = x.to(torch.int8)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    newx = x.to(torch.int8)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-
-                k = 'cast_g'
-                for _ in range(repeat // 2):
-                    newx = g.to(torch.int8)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    newx = g.to(torch.int8)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-
-                k = 'cast_w'
-                for _ in range(repeat // 2):
-                    newx = w.to(torch.int8)
-
-                torch.cuda.synchronize()
-                start = time.time()
-                for _ in range(repeat):
-                    newx = w.to(torch.int8)
-
-                torch.cuda.synchronize()
-                end = time.time()
-                ms = (end - start) / repeat * 1000
-                print(f"time {k}: {ms:.3f} ms")
-                info[k] = ms
-
-
-                time_standard = info['standard_fwd'] + info['standard_gx'] + info['standard_gw']
-                time_rowwise = info['x_quantize_rowwise'] + info['g_quantize_rowwise']  + info['w_quantize_colwise_transpose'] + info['w_quantize_rowwise'] + info['standard_gw'] + info['rowwise_fwd'] + info['rowwise_bwd']
-                time_global = info['x_quantize_rowwise'] + info['g_quantize_rowwise'] + info['w_quantize_global'] + info['w_quantize_global_transpose'] + info['standard_gw'] + info['global_fwd'] + info['global_bwd']
-
-                print('TOTAL STANDARD', time_standard)
-                print('TOTAL ROWWISE', time_rowwise)
-                print('TOTAL GLOBAL', time_global)
-
-                print('speedup', -100*(time_global - time_standard)/time_standard)
-
-                info['time_standard'] = time_standard
-                info['time_rowwise'] = time_rowwise
-                info['time_global'] = time_global
-
-
-
-                info_json = json.dumps(info)
-
-
-                with open("tests/triton_tests/info.jsonl", "a") as file:
-                    file.write(info_json + "\n")
diff --git a/tests/triton_tests/info.jsonl b/tests/triton_tests/info.jsonl
deleted file mode 100644
index 879a65f..0000000
--- a/tests/triton_tests/info.jsonl
+++ /dev/null
@@ -1,142 +0,0 @@
-{"repeat": 64, "batch_size": 1024, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.047907233238220215, "standard_gw": 0.04326179623603821, "standard_gx": 0.042986124753952026, "rowwise_fwd": 0.03902614116668701, "rowwise_bwd": 0.038955360651016235, "global_fwd": 0.03974884748458862, "global_bwd": 0.0391639769077301, "x_quantize_rowwise": 0.02619624137878418, "g_quantize_rowwise": 0.02695620059967041, "w_quantize_rowwise": 0.02631545066833496, "w_quantize_colwise_transpose": 0.08677691221237183, "w_quantize_global": 0.07359683513641357, "w_quantize_global_transpose": 0.08226558566093445, "cast_x": 0.007815659046173096, "cast_g": 0.016041100025177002, "cast_w": 0.01600012183189392, "time_standard": 0.13415515422821045, "time_rowwise": 0.28748810291290283, "time_global": 0.33118948340415955}
-{"repeat": 64, "batch_size": 1024, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.04236400127410889, "standard_gw": 0.04898756742477417, "standard_gx": 0.04731118679046631, "rowwise_fwd": 0.03933534026145935, "rowwise_bwd": 0.03947317600250244, "global_fwd": 0.03688037395477295, "global_bwd": 0.039167702198028564, "x_quantize_rowwise": 0.02533942461013794, "g_quantize_rowwise": 0.02516806125640869, "w_quantize_rowwise": 0.02528354525566101, "w_quantize_colwise_transpose": 0.0903792679309845, "w_quantize_global": 0.0997595489025116, "w_quantize_global_transpose": 0.10209530591964722, "cast_x": 0.01626834273338318, "cast_g": 0.011973083019256592, "cast_w": 0.016044825315475464, "time_standard": 0.13866275548934937, "time_rowwise": 0.2939663827419281, "time_global": 0.37739798426628113}
-{"repeat": 64, "batch_size": 2048, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.07753819227218628, "standard_gw": 0.08026883006095886, "standard_gx": 0.0906921923160553, "rowwise_fwd": 0.0630207359790802, "rowwise_bwd": 0.058263540267944336, "global_fwd": 0.06167963147163391, "global_bwd": 0.05801767110824585, "x_quantize_rowwise": 0.034205615520477295, "g_quantize_rowwise": 0.03341957926750183, "w_quantize_rowwise": 0.03244727849960327, "w_quantize_colwise_transpose": 0.08665025234222412, "w_quantize_global": 0.09483471512794495, "w_quantize_global_transpose": 0.10108202695846558, "cast_x": 0.012032687664031982, "cast_g": 0.03752484917640686, "cast_w": 0.01605972647666931, "time_standard": 0.24849921464920044, "time_rowwise": 0.3882758319377899, "time_global": 0.46350806951522827}
-{"repeat": 64, "batch_size": 2048, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.09099021553993225, "standard_gw": 0.0799819827079773, "standard_gx": 0.07644668221473694, "rowwise_fwd": 0.05840510129928589, "rowwise_bwd": 0.06359070539474487, "global_fwd": 0.057831406593322754, "global_bwd": 0.06148591637611389, "x_quantize_rowwise": 0.03434717655181885, "g_quantize_rowwise": 0.03361701965332031, "w_quantize_rowwise": 0.03209337592124939, "w_quantize_colwise_transpose": 0.09028613567352295, "w_quantize_global": 0.0944770872592926, "w_quantize_global_transpose": 0.0994168221950531, "cast_x": 0.03769621253013611, "cast_g": 0.012010335922241211, "cast_w": 0.01600012183189392, "time_standard": 0.24741888046264648, "time_rowwise": 0.39232149720191956, "time_global": 0.4611574113368988}
-{"repeat": 64, "batch_size": 4096, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.14450401067733765, "standard_gw": 0.14326348900794983, "standard_gx": 0.14762207865715027, "rowwise_fwd": 0.10525062680244446, "rowwise_bwd": 0.09800493717193604, "global_fwd": 0.10229647159576416, "global_bwd": 0.09718164801597595, "x_quantize_rowwise": 0.03429874777793884, "g_quantize_rowwise": 0.04567950963973999, "w_quantize_rowwise": 0.03365054726600647, "w_quantize_colwise_transpose": 0.08654966950416565, "w_quantize_global": 0.09663775563240051, "w_quantize_global_transpose": 0.10383129119873047, "cast_x": 0.01605972647666931, "cast_g": 0.08305534720420837, "cast_w": 0.01624971628189087, "time_standard": 0.43538957834243774, "time_rowwise": 0.5466975271701813, "time_global": 0.6231889128684998}
-{"repeat": 64, "batch_size": 4096, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.14496594667434692, "standard_gw": 0.1412704586982727, "standard_gx": 0.14446303248405457, "rowwise_fwd": 0.10041892528533936, "rowwise_bwd": 0.10674074292182922, "global_fwd": 0.09856373071670532, "global_bwd": 0.10319426655769348, "x_quantize_rowwise": 0.045571476221084595, "g_quantize_rowwise": 0.03273040056228638, "w_quantize_rowwise": 0.033464282751083374, "w_quantize_colwise_transpose": 0.09154900908470154, "w_quantize_global": 0.0964440405368805, "w_quantize_global_transpose": 0.1031048595905304, "cast_x": 0.0835023820400238, "cast_g": 0.016242265701293945, "cast_w": 0.016283243894577026, "time_standard": 0.4306994378566742, "time_rowwise": 0.5517452955245972, "time_global": 0.6208792328834534}
-{"repeat": 64, "batch_size": 8192, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.28106942772865295, "standard_gw": 0.2841465175151825, "standard_gx": 0.301852822303772, "rowwise_fwd": 0.19879266619682312, "rowwise_bwd": 0.16228482127189636, "global_fwd": 0.19488856196403503, "global_bwd": 0.1607760787010193, "x_quantize_rowwise": 0.033974647521972656, "g_quantize_rowwise": 0.08221715688705444, "w_quantize_rowwise": 0.03248825669288635, "w_quantize_colwise_transpose": 0.08646398782730103, "w_quantize_global": 0.0939294695854187, "w_quantize_global_transpose": 0.09895861148834229, "cast_x": 0.03753975033760071, "cast_g": 0.15900656580924988, "cast_w": 0.01603737473487854, "time_standard": 0.8670687675476074, "time_rowwise": 0.8803680539131165, "time_global": 0.9488910436630249}
-{"repeat": 64, "batch_size": 8192, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.26415660977363586, "standard_gw": 0.2679601311683655, "standard_gx": 0.30617788434028625, "rowwise_fwd": 0.180121511220932, "rowwise_bwd": 0.21555647253990173, "global_fwd": 0.17506256699562073, "global_bwd": 0.2116672694683075, "x_quantize_rowwise": 0.08289515972137451, "g_quantize_rowwise": 0.033795833587646484, "w_quantize_rowwise": 0.03366544842720032, "w_quantize_colwise_transpose": 0.09965524077415466, "w_quantize_global": 0.09595602750778198, "w_quantize_global_transpose": 0.1024976372718811, "cast_x": 0.1602955162525177, "cast_g": 0.03787502646446228, "cast_w": 0.016216188669204712, "time_standard": 0.8382946252822876, "time_rowwise": 0.9136497974395752, "time_global": 0.9698346257209778}
-{"repeat": 64, "batch_size": 16384, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 0.5719438195228577, "standard_gw": 0.524863600730896, "standard_gx": 0.6005167961120605, "rowwise_fwd": 0.3750324249267578, "rowwise_bwd": 0.28166547417640686, "global_fwd": 0.3674700856208801, "global_bwd": 0.2798214554786682, "x_quantize_rowwise": 0.04655122756958008, "g_quantize_rowwise": 0.1555122435092926, "w_quantize_rowwise": 0.03437697887420654, "w_quantize_colwise_transpose": 0.08634477853775024, "w_quantize_global": 0.09759142994880676, "w_quantize_global_transpose": 0.10081753134727478, "cast_x": 0.0828765332698822, "cast_g": 0.31184032559394836, "cast_w": 0.016063451766967773, "time_standard": 1.6973242163658142, "time_rowwise": 1.5043467283248901, "time_global": 1.5726275742053986}
-{"repeat": 64, "batch_size": 16384, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 0.5423910915851593, "standard_gw": 0.5674734711647034, "standard_gx": 0.5907565355300903, "rowwise_fwd": 0.3149174153804779, "rowwise_bwd": 0.3899820148944855, "global_fwd": 0.2909451723098755, "global_bwd": 0.3783814609050751, "x_quantize_rowwise": 0.15584751963615417, "g_quantize_rowwise": 0.04688650369644165, "w_quantize_rowwise": 0.031463801860809326, "w_quantize_colwise_transpose": 0.09072571992874146, "w_quantize_global": 0.09774044156074524, "w_quantize_global_transpose": 0.10405108332633972, "cast_x": 0.3111511468887329, "cast_g": 0.08282437920570374, "cast_w": 0.015992671251296997, "time_standard": 1.700621098279953, "time_rowwise": 1.5972964465618134, "time_global": 1.6413256525993347}
-{"repeat": 64, "batch_size": 32768, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 1.2115389108657837, "standard_gw": 1.1259466409683228, "standard_gx": 1.1027492582798004, "rowwise_fwd": 0.7407031953334808, "rowwise_bwd": 0.5539208650588989, "global_fwd": 0.7214657962322235, "global_bwd": 0.5515590310096741, "x_quantize_rowwise": 0.08765608072280884, "g_quantize_rowwise": 0.3022328019142151, "w_quantize_rowwise": 0.03347545862197876, "w_quantize_colwise_transpose": 0.08694455027580261, "w_quantize_global": 0.09706243872642517, "w_quantize_global_transpose": 0.10102614760398865, "cast_x": 0.1592189073562622, "cast_g": 0.6166175007820129, "cast_w": 0.01607835292816162, "time_standard": 3.440234810113907, "time_rowwise": 2.930879592895508, "time_global": 2.986948937177658}
-{"repeat": 64, "batch_size": 32768, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 1.1010989546775818, "standard_gw": 1.1352524161338806, "standard_gx": 1.1676251888275146, "rowwise_fwd": 0.5864761769771576, "rowwise_bwd": 0.7485374808311462, "global_fwd": 0.5547590553760529, "global_bwd": 0.7249303162097931, "x_quantize_rowwise": 0.3021731972694397, "g_quantize_rowwise": 0.08751824498176575, "w_quantize_rowwise": 0.033952295780181885, "w_quantize_colwise_transpose": 0.09011104702949524, "w_quantize_global": 0.09443238377571106, "w_quantize_global_transpose": 0.10376051068305969, "cast_x": 0.6167255342006683, "cast_g": 0.15922263264656067, "cast_w": 0.016070902347564697, "time_standard": 3.403976559638977, "time_rowwise": 2.984020859003067, "time_global": 3.0028261244297028}
-{"repeat": 64, "batch_size": 65536, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 2.472013235092163, "standard_gw": 2.218998968601227, "standard_gx": 2.2116564214229584, "rowwise_fwd": 1.466125249862671, "rowwise_bwd": 1.0577328503131866, "global_fwd": 1.431729644536972, "global_bwd": 1.0476894676685333, "x_quantize_rowwise": 0.16929209232330322, "g_quantize_rowwise": 0.5952082574367523, "w_quantize_rowwise": 0.032100826501846313, "w_quantize_colwise_transpose": 0.08670613169670105, "w_quantize_global": 0.09590759873390198, "w_quantize_global_transpose": 0.10358169674873352, "cast_x": 0.31175464391708374, "cast_g": 1.2264922261238098, "cast_w": 0.016067177057266235, "time_standard": 6.902668625116348, "time_rowwise": 5.626164376735687, "time_global": 5.662407726049423}
-{"repeat": 64, "batch_size": 65536, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 2.181064337491989, "standard_gw": 2.2256113588809967, "standard_gx": 2.3229196667671204, "rowwise_fwd": 1.0886266827583313, "rowwise_bwd": 1.4654062688350677, "global_fwd": 1.0472461581230164, "global_bwd": 1.433148980140686, "x_quantize_rowwise": 0.5954094231128693, "g_quantize_rowwise": 0.16921386122703552, "w_quantize_rowwise": 0.03442913293838501, "w_quantize_colwise_transpose": 0.09007751941680908, "w_quantize_global": 0.09575113654136658, "w_quantize_global_transpose": 0.10503828525543213, "cast_x": 1.2264810502529144, "cast_g": 0.3119036555290222, "cast_w": 0.01605600118637085, "time_standard": 6.729595363140106, "time_rowwise": 5.668774247169495, "time_global": 5.671419203281403}
-{"repeat": 64, "batch_size": 1024, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 0.08157268166542053, "standard_gw": 0.07601454854011536, "standard_gx": 0.09059160947799683, "rowwise_fwd": 0.053066760301589966, "rowwise_bwd": 0.04787370562553406, "global_fwd": 0.05243346095085144, "global_bwd": 0.04809349775314331, "x_quantize_rowwise": 0.02571195363998413, "g_quantize_rowwise": 0.025898218154907227, "w_quantize_rowwise": 0.02714991569519043, "w_quantize_colwise_transpose": 0.19773468375205994, "w_quantize_global": 0.07273256778717041, "w_quantize_global_transpose": 0.08068978786468506, "cast_x": 0.008046627044677734, "cast_g": 0.0252649188041687, "cast_w": 0.0393986701965332, "time_standard": 0.24817883968353271, "time_rowwise": 0.4534497857093811, "time_global": 0.38157403469085693}
-{"repeat": 64, "batch_size": 1024, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 0.09134411811828613, "standard_gw": 0.07602199912071228, "standard_gx": 0.09555742144584656, "rowwise_fwd": 0.047691166400909424, "rowwise_bwd": 0.05320459604263306, "global_fwd": 0.04759058356285095, "global_bwd": 0.0521540641784668, "x_quantize_rowwise": 0.025313347578048706, "g_quantize_rowwise": 0.025119632482528687, "w_quantize_rowwise": 0.0269375741481781, "w_quantize_colwise_transpose": 0.1857280731201172, "w_quantize_global": 0.07451698184013367, "w_quantize_global_transpose": 0.08009746670722961, "cast_x": 0.02547726035118103, "cast_g": 0.007897615432739258, "cast_w": 0.039536505937576294, "time_standard": 0.26292353868484497, "time_rowwise": 0.44001638889312744, "time_global": 0.3808140754699707}
-{"repeat": 64, "batch_size": 131072, "dim_out": 4096, "dim_in": 1024, "wm": 4, "switch": false, "standard_fwd": 4.940010607242584, "standard_gw": 4.434864968061447, "standard_gx": 4.4097937643527985, "rowwise_fwd": 2.9467344284057617, "rowwise_bwd": 2.09181010723114, "global_fwd": 2.8806477785110474, "global_bwd": 2.0816922187805176, "x_quantize_rowwise": 0.33279508352279663, "g_quantize_rowwise": 1.1817067861557007, "w_quantize_rowwise": 0.03306567668914795, "w_quantize_colwise_transpose": 0.08666515350341797, "w_quantize_global": 0.0957287847995758, "w_quantize_global_transpose": 0.10242313146591187, "cast_x": 0.6165988743305206, "cast_g": 2.446405589580536, "cast_w": 0.016100704669952393, "time_standard": 13.78466933965683, "time_rowwise": 11.107642203569412, "time_global": 11.109858751296997}
-{"repeat": 64, "batch_size": 131072, "dim_out": 1024, "dim_in": 4096, "wm": 4, "switch": true, "standard_fwd": 4.293464124202728, "standard_gw": 4.461295902729034, "standard_gx": 4.638340324163437, "rowwise_fwd": 2.116892486810684, "rowwise_bwd": 2.9479674994945526, "global_fwd": 2.0760856568813324, "global_bwd": 2.8755851089954376, "x_quantize_rowwise": 1.1818408966064453, "g_quantize_rowwise": 0.33276528120040894, "w_quantize_rowwise": 0.03287568688392639, "w_quantize_colwise_transpose": 0.09038299322128296, "w_quantize_global": 0.09598955512046814, "w_quantize_global_transpose": 0.100649893283844, "cast_x": 2.4467408657073975, "cast_g": 0.6165951490402222, "cast_w": 0.016082078218460083, "time_standard": 13.3931003510952, "time_rowwise": 11.164020746946335, "time_global": 11.12421229481697}
-{"repeat": 64, "batch_size": 2048, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 0.1699887216091156, "standard_gw": 0.14045089483261108, "standard_gx": 0.17407909035682678, "rowwise_fwd": 0.10082125663757324, "rowwise_bwd": 0.08344277739524841, "global_fwd": 0.09941309690475464, "global_bwd": 0.08352473378181458, "x_quantize_rowwise": 0.025317072868347168, "g_quantize_rowwise": 0.03849714994430542, "w_quantize_rowwise": 0.02596527338027954, "w_quantize_colwise_transpose": 0.19767135381698608, "w_quantize_global": 0.07257238030433655, "w_quantize_global_transpose": 0.08127838373184204, "cast_x": 0.012032687664031982, "cast_g": 0.06345659494400024, "cast_w": 0.03953278064727783, "time_standard": 0.48451870679855347, "time_rowwise": 0.612165778875351, "time_global": 0.5410537123680115}
-{"repeat": 64, "batch_size": 2048, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 0.14855340123176575, "standard_gw": 0.15553459525108337, "standard_gx": 0.16282498836517334, "rowwise_fwd": 0.09259581565856934, "rowwise_bwd": 0.11080875992774963, "global_fwd": 0.09166449308395386, "global_bwd": 0.10796263813972473, "x_quantize_rowwise": 0.03939121961593628, "g_quantize_rowwise": 0.025227665901184082, "w_quantize_rowwise": 0.027202069759368896, "w_quantize_colwise_transpose": 0.1940988004207611, "w_quantize_global": 0.07397681474685669, "w_quantize_global_transpose": 0.08178502321243286, "cast_x": 0.065632164478302, "cast_g": 0.01268833875656128, "cast_w": 0.04057586193084717, "time_standard": 0.46691298484802246, "time_rowwise": 0.6448589265346527, "time_global": 0.5755424499511719}
-{"repeat": 64, "batch_size": 4096, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 0.32291561365127563, "standard_gw": 0.2875030040740967, "standard_gx": 0.3379322588443756, "rowwise_fwd": 0.19295886158943176, "rowwise_bwd": 0.16265735030174255, "global_fwd": 0.19031018018722534, "global_bwd": 0.16187503933906555, "x_quantize_rowwise": 0.02730637788772583, "g_quantize_rowwise": 0.06797909736633301, "w_quantize_rowwise": 0.02642720937728882, "w_quantize_colwise_transpose": 0.19745901226997375, "w_quantize_global": 0.07253512740135193, "w_quantize_global_transpose": 0.08047744631767273, "cast_x": 0.022336840629577637, "cast_g": 0.1209154725074768, "cast_w": 0.039268285036087036, "time_standard": 0.9483508765697479, "time_rowwise": 0.9622909128665924, "time_global": 0.8879862725734711}
-{"repeat": 64, "batch_size": 4096, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 0.3019683063030243, "standard_gw": 0.288400799036026, "standard_gx": 0.3154948353767395, "rowwise_fwd": 0.18264353275299072, "rowwise_bwd": 0.2075284719467163, "global_fwd": 0.17072632908821106, "global_bwd": 0.1960061490535736, "x_quantize_rowwise": 0.06893649697303772, "g_quantize_rowwise": 0.02561509609222412, "w_quantize_rowwise": 0.026594847440719604, "w_quantize_colwise_transpose": 0.18575787544250488, "w_quantize_global": 0.07266923785209656, "w_quantize_global_transpose": 0.08060410618782043, "cast_x": 0.12182071805000305, "cast_g": 0.022590160369873047, "cast_w": 0.04000961780548096, "time_standard": 0.9058639407157898, "time_rowwise": 0.9854771196842194, "time_global": 0.9029582142829895}
-{"repeat": 64, "batch_size": 8192, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 0.6489232182502747, "standard_gw": 0.5987770855426788, "standard_gx": 0.6644465029239655, "rowwise_fwd": 0.35867467522621155, "rowwise_bwd": 0.31855329871177673, "global_fwd": 0.353105366230011, "global_bwd": 0.31349435448646545, "x_quantize_rowwise": 0.03382191061973572, "g_quantize_rowwise": 0.12668967247009277, "w_quantize_rowwise": 0.02681836485862732, "w_quantize_colwise_transpose": 0.19756704568862915, "w_quantize_global": 0.07336586713790894, "w_quantize_global_transpose": 0.08036196231842041, "cast_x": 0.0583939254283905, "cast_g": 0.23520365357398987, "cast_w": 0.03935396671295166, "time_standard": 1.912146806716919, "time_rowwise": 1.660902053117752, "time_global": 1.579616218805313}
-{"repeat": 64, "batch_size": 8192, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 0.5789436399936676, "standard_gw": 0.6130896508693695, "standard_gx": 0.6558857858181, "rowwise_fwd": 0.3464221954345703, "rowwise_bwd": 0.3650560975074768, "global_fwd": 0.3174394369125366, "global_bwd": 0.35758689045906067, "x_quantize_rowwise": 0.12686848640441895, "g_quantize_rowwise": 0.034302473068237305, "w_quantize_rowwise": 0.02745911478996277, "w_quantize_colwise_transpose": 0.1847483217716217, "w_quantize_global": 0.07192790508270264, "w_quantize_global_transpose": 0.08050352334976196, "cast_x": 0.23534893989562988, "cast_g": 0.05846098065376282, "cast_w": 0.03949552774429321, "time_standard": 1.847919076681137, "time_rowwise": 1.6979463398456573, "time_global": 1.6017183661460876}
-{"repeat": 64, "batch_size": 1024, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.0573769211769104, "standard_gw": 0.061042606830596924, "standard_gx": 0.0783093273639679, "rowwise_fwd": 0.046797096729278564, "rowwise_bwd": 0.04620850086212158, "global_fwd": 0.04521384835243225, "global_bwd": 0.04425644874572754, "x_quantize_rowwise": 0.03257766366004944, "g_quantize_rowwise": 0.03449246287345886, "w_quantize_rowwise": 0.033657997846603394, "w_quantize_colwise_transpose": 0.1426301896572113, "w_quantize_global": 0.09257346391677856, "w_quantize_global_transpose": 0.10266527533531189, "cast_x": 0.011991709470748901, "cast_g": 0.020314007997512817, "cast_w": 0.027321279048919678, "time_standard": 0.19672885537147522, "time_rowwise": 0.39740651845932007, "time_global": 0.41282176971435547}
-{"repeat": 64, "batch_size": 1024, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.07858872413635254, "standard_gw": 0.06122514605522156, "standard_gx": 0.05758553743362427, "rowwise_fwd": 0.04598498344421387, "rowwise_bwd": 0.04618242383003235, "global_fwd": 0.04597380757331848, "global_bwd": 0.046450644731521606, "x_quantize_rowwise": 0.03332272171974182, "g_quantize_rowwise": 0.033274292945861816, "w_quantize_rowwise": 0.0337548553943634, "w_quantize_colwise_transpose": 0.14807656407356262, "w_quantize_global": 0.09948387742042542, "w_quantize_global_transpose": 0.10120868682861328, "cast_x": 0.020120292901992798, "cast_g": 0.011488795280456543, "cast_w": 0.027466565370559692, "time_standard": 0.19739940762519836, "time_rowwise": 0.40182098746299744, "time_global": 0.420939177274704}
-{"repeat": 64, "batch_size": 16384, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 1.3515166938304901, "standard_gw": 1.1536777019500732, "standard_gx": 1.224767416715622, "rowwise_fwd": 0.6912238895893097, "rowwise_bwd": 0.5562454462051392, "global_fwd": 0.67867711186409, "global_bwd": 0.5518943071365356, "x_quantize_rowwise": 0.06204098463058472, "g_quantize_rowwise": 0.24417787790298462, "w_quantize_rowwise": 0.025238841772079468, "w_quantize_colwise_transpose": 0.19756704568862915, "w_quantize_global": 0.07240846753120422, "w_quantize_global_transpose": 0.08046254515647888, "cast_x": 0.11138245463371277, "cast_g": 0.4637613892555237, "cast_w": 0.03935769200325012, "time_standard": 3.7299618124961853, "time_rowwise": 2.9301717877388, "time_global": 2.8433389961719513}
-{"repeat": 64, "batch_size": 16384, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 1.2090615928173065, "standard_gw": 1.1396333575248718, "standard_gx": 1.2223869562149048, "rowwise_fwd": 0.5849376320838928, "rowwise_bwd": 0.6985403597354889, "global_fwd": 0.5565173923969269, "global_bwd": 0.6789751350879669, "x_quantize_rowwise": 0.2445802092552185, "g_quantize_rowwise": 0.06200745701789856, "w_quantize_rowwise": 0.027727335691452026, "w_quantize_colwise_transpose": 0.18501654267311096, "w_quantize_global": 0.07182732224464417, "w_quantize_global_transpose": 0.08069723844528198, "cast_x": 0.4638172686100006, "cast_g": 0.11136755347251892, "cast_w": 0.039517879486083984, "time_standard": 3.571081906557083, "time_rowwise": 2.9424428939819336, "time_global": 2.834238111972809}
-{"repeat": 64, "batch_size": 32768, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 2.683013677597046, "standard_gw": 2.2987723350524902, "standard_gx": 2.4510622024536133, "rowwise_fwd": 1.359008252620697, "rowwise_bwd": 1.1018887162208557, "global_fwd": 1.3311207294464111, "global_bwd": 1.0954029858112335, "x_quantize_rowwise": 0.11804327368736267, "g_quantize_rowwise": 0.479232519865036, "w_quantize_rowwise": 0.026308000087738037, "w_quantize_colwise_transpose": 0.1975223422050476, "w_quantize_global": 0.07223710417747498, "w_quantize_global_transpose": 0.08019432425498962, "cast_x": 0.2161264419555664, "cast_g": 0.9207837283611298, "cast_w": 0.03929063677787781, "time_standard": 7.432848215103149, "time_rowwise": 5.580775439739227, "time_global": 5.475003272294998}
-{"repeat": 64, "batch_size": 2048, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.11088326573371887, "standard_gw": 0.10994821786880493, "standard_gx": 0.12367218732833862, "rowwise_fwd": 0.07392093539237976, "rowwise_bwd": 0.07127970457077026, "global_fwd": 0.0730752944946289, "global_bwd": 0.07089227437973022, "x_quantize_rowwise": 0.03361701965332031, "g_quantize_rowwise": 0.03525242209434509, "w_quantize_rowwise": 0.03341585397720337, "w_quantize_colwise_transpose": 0.14318525791168213, "w_quantize_global": 0.09704753756523132, "w_quantize_global_transpose": 0.10221078991889954, "cast_x": 0.012002885341644287, "cast_g": 0.05240738391876221, "cast_w": 0.027313828468322754, "time_standard": 0.3445036709308624, "time_rowwise": 0.5006194114685059, "time_global": 0.5220435559749603}
-{"repeat": 64, "batch_size": 32768, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 2.4625882506370544, "standard_gw": 2.421922981739044, "standard_gx": 2.380847930908203, "rowwise_fwd": 1.1231191456317902, "rowwise_bwd": 1.360483467578888, "global_fwd": 1.0947436094284058, "global_bwd": 1.3314113020896912, "x_quantize_rowwise": 0.4795975983142853, "g_quantize_rowwise": 0.11777132749557495, "w_quantize_rowwise": 0.02699345350265503, "w_quantize_colwise_transpose": 0.18484890460968018, "w_quantize_global": 0.07201358675956726, "w_quantize_global_transpose": 0.0803135335445404, "cast_x": 0.920858234167099, "cast_g": 0.21616369485855103, "cast_w": 0.03937259316444397, "time_standard": 7.265359163284302, "time_rowwise": 5.714736878871918, "time_global": 5.597773939371109}
-{"repeat": 64, "batch_size": 2048, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.12437254190444946, "standard_gw": 0.11018291115760803, "standard_gx": 0.10970607399940491, "rowwise_fwd": 0.07167831063270569, "rowwise_bwd": 0.07583573460578918, "global_fwd": 0.07314234972000122, "global_bwd": 0.07501617074012756, "x_quantize_rowwise": 0.035624951124191284, "g_quantize_rowwise": 0.0333636999130249, "w_quantize_rowwise": 0.03264099359512329, "w_quantize_colwise_transpose": 0.14795735478401184, "w_quantize_global": 0.09621679782867432, "w_quantize_global_transpose": 0.10380148887634277, "cast_x": 0.05278363823890686, "cast_g": 0.01249462366104126, "cast_w": 0.02767890691757202, "time_standard": 0.3442615270614624, "time_rowwise": 0.5072839558124542, "time_global": 0.5273483693599701}
-{"repeat": 64, "batch_size": 4096, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.21922588348388672, "standard_gw": 0.20731613039970398, "standard_gx": 0.23101642727851868, "rowwise_fwd": 0.1423358917236328, "rowwise_bwd": 0.1195073127746582, "global_fwd": 0.1401938498020172, "global_bwd": 0.11940300464630127, "x_quantize_rowwise": 0.03353878855705261, "g_quantize_rowwise": 0.06387382745742798, "w_quantize_rowwise": 0.03428757190704346, "w_quantize_colwise_transpose": 0.14376267790794373, "w_quantize_global": 0.09389594197273254, "w_quantize_global_transpose": 0.10196119546890259, "cast_x": 0.020060688257217407, "cast_g": 0.10236725211143494, "cast_w": 0.02732500433921814, "time_standard": 0.6575584411621094, "time_rowwise": 0.7446222007274628, "time_global": 0.7601827383041382}
-{"repeat": 64, "batch_size": 4096, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.20026043057441711, "standard_gw": 0.21172687411308289, "standard_gx": 0.2276189625263214, "rowwise_fwd": 0.12956932187080383, "rowwise_bwd": 0.15310943126678467, "global_fwd": 0.12427568435668945, "global_bwd": 0.14432892203330994, "x_quantize_rowwise": 0.06471946835517883, "g_quantize_rowwise": 0.03309175372123718, "w_quantize_rowwise": 0.03242120146751404, "w_quantize_colwise_transpose": 0.14733895659446716, "w_quantize_global": 0.09280815720558167, "w_quantize_global_transpose": 0.10265037417411804, "cast_x": 0.10267645120620728, "cast_g": 0.020150095224380493, "cast_w": 0.027399510145187378, "time_standard": 0.6396062672138214, "time_rowwise": 0.7719770073890686, "time_global": 0.773601233959198}
-{"repeat": 64, "batch_size": 65536, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 5.324859172105789, "standard_gw": 4.977177828550339, "standard_gx": 4.468705505132675, "rowwise_fwd": 2.7004145085811615, "rowwise_bwd": 2.121664583683014, "global_fwd": 2.648312598466873, "global_bwd": 2.111390233039856, "x_quantize_rowwise": 0.22934377193450928, "g_quantize_rowwise": 0.9496547281742096, "w_quantize_rowwise": 0.02555176615715027, "w_quantize_colwise_transpose": 0.1977868378162384, "w_quantize_global": 0.0727437436580658, "w_quantize_global_transpose": 0.08098781108856201, "cast_x": 0.4259459674358368, "cast_g": 1.8352754414081573, "cast_w": 0.039637088775634766, "time_standard": 14.770742505788803, "time_rowwise": 11.201594024896622, "time_global": 11.069610714912415}
-{"repeat": 64, "batch_size": 8192, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 0.49151480197906494, "standard_gw": 0.4681535065174103, "standard_gx": 0.42366236448287964, "rowwise_fwd": 0.2766512334346771, "rowwise_bwd": 0.2083033323287964, "global_fwd": 0.2709813416004181, "global_bwd": 0.20718947052955627, "x_quantize_rowwise": 0.034555792808532715, "g_quantize_rowwise": 0.11969730257987976, "w_quantize_rowwise": 0.03300607204437256, "w_quantize_colwise_transpose": 0.14345720410346985, "w_quantize_global": 0.09280070662498474, "w_quantize_global_transpose": 0.10214745998382568, "cast_x": 0.052288174629211426, "cast_g": 0.19747763872146606, "cast_w": 0.027339905500411987, "time_standard": 1.3833306729793549, "time_rowwise": 1.2838244438171387, "time_global": 1.2955255806446075}
-{"repeat": 64, "batch_size": 8192, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.39635971188545227, "standard_gw": 0.44353678822517395, "standard_gx": 0.4724152386188507, "rowwise_fwd": 0.22813305258750916, "rowwise_bwd": 0.2868436276912689, "global_fwd": 0.2119205892086029, "global_bwd": 0.2749413251876831, "x_quantize_rowwise": 0.12082979083061218, "g_quantize_rowwise": 0.03444403409957886, "w_quantize_rowwise": 0.03444403409957886, "w_quantize_colwise_transpose": 0.14675036072731018, "w_quantize_global": 0.09495392441749573, "w_quantize_global_transpose": 0.1009330153465271, "cast_x": 0.19745156168937683, "cast_g": 0.05227327346801758, "cast_w": 0.027336180210113525, "time_standard": 1.312311738729477, "time_rowwise": 1.294981688261032, "time_global": 1.2815594673156738}
-{"repeat": 64, "batch_size": 16384, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 1.0207034647464752, "standard_gw": 0.897720456123352, "standard_gx": 0.8374936878681183, "rowwise_fwd": 0.5457103252410889, "rowwise_bwd": 0.4088357090950012, "global_fwd": 0.5308091640472412, "global_bwd": 0.40555745363235474, "x_quantize_rowwise": 0.05984678864479065, "g_quantize_rowwise": 0.2306811511516571, "w_quantize_rowwise": 0.0334717333316803, "w_quantize_colwise_transpose": 0.14356523752212524, "w_quantize_global": 0.09340420365333557, "w_quantize_global_transpose": 0.09996071457862854, "cast_x": 0.10207295417785645, "cast_g": 0.3880411386489868, "cast_w": 0.027671456336975098, "time_standard": 2.7559176087379456, "time_rowwise": 2.3198314011096954, "time_global": 2.31797993183136}
-{"repeat": 64, "batch_size": 65536, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 4.502948373556137, "standard_gw": 4.418112337589264, "standard_gx": 4.748217761516571, "rowwise_fwd": 2.1329298615455627, "rowwise_bwd": 2.6968345046043396, "global_fwd": 2.102244645357132, "global_bwd": 2.6461556553840637, "x_quantize_rowwise": 0.9493157267570496, "g_quantize_rowwise": 0.2290569245815277, "w_quantize_rowwise": 0.02551451325416565, "w_quantize_colwise_transpose": 0.18491223454475403, "w_quantize_global": 0.07426366209983826, "w_quantize_global_transpose": 0.08058920502662659, "cast_x": 1.8352717161178589, "cast_g": 0.425681471824646, "cast_w": 0.039402395486831665, "time_standard": 13.669278472661972, "time_rowwise": 10.636676102876663, "time_global": 10.499738156795502}
-{"repeat": 64, "batch_size": 16384, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 0.8179470896720886, "standard_gw": 0.8687414228916168, "standard_gx": 0.9276494383811951, "rowwise_fwd": 0.4481859505176544, "rowwise_bwd": 0.5557462573051453, "global_fwd": 0.4100687801837921, "global_bwd": 0.5317367613315582, "x_quantize_rowwise": 0.2301819622516632, "g_quantize_rowwise": 0.05963817238807678, "w_quantize_rowwise": 0.033523887395858765, "w_quantize_colwise_transpose": 0.14462321996688843, "w_quantize_global": 0.094633549451828, "w_quantize_global_transpose": 0.10088086128234863, "cast_x": 0.3879927098751068, "cast_g": 0.10205060243606567, "cast_w": 0.02714991569519043, "time_standard": 2.6143379509449005, "time_rowwise": 2.3406408727169037, "time_global": 2.295881509780884}
-{"repeat": 64, "batch_size": 32768, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 2.0698904991149902, "standard_gw": 1.7200261354446411, "standard_gx": 1.663345843553543, "rowwise_fwd": 1.0664835572242737, "rowwise_bwd": 0.8059032261371613, "global_fwd": 1.0454729199409485, "global_bwd": 0.801432877779007, "x_quantize_rowwise": 0.1127384603023529, "g_quantize_rowwise": 0.4529319703578949, "w_quantize_rowwise": 0.03398582339286804, "w_quantize_colwise_transpose": 0.14343857765197754, "w_quantize_global": 0.09441003203392029, "w_quantize_global_transpose": 0.09993091225624084, "cast_x": 0.19744038581848145, "cast_g": 0.769149512052536, "cast_w": 0.02734735608100891, "time_standard": 5.453262478113174, "time_rowwise": 4.335507750511169, "time_global": 4.3269433081150055}
-{"repeat": 64, "batch_size": 32768, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 2.758193761110306, "standard_gw": 1.6880109906196594, "standard_gx": 1.8163062632083893, "rowwise_fwd": 0.8343160152435303, "rowwise_bwd": 1.073598861694336, "global_fwd": 0.8045099675655365, "global_bwd": 1.0492689907550812, "x_quantize_rowwise": 0.453021377325058, "g_quantize_rowwise": 0.11304020881652832, "w_quantize_rowwise": 0.0337064266204834, "w_quantize_colwise_transpose": 0.1452416181564331, "w_quantize_global": 0.09451434016227722, "w_quantize_global_transpose": 0.0998079776763916, "cast_x": 0.769101083278656, "cast_g": 0.19731372594833374, "cast_w": 0.027332454919815063, "time_standard": 6.2625110149383545, "time_rowwise": 4.340935498476028, "time_global": 4.302173852920532}
-{"repeat": 64, "batch_size": 131072, "dim_out": 6144, "dim_in": 1408, "wm": 4.3637, "switch": false, "standard_fwd": 10.728541761636734, "standard_gw": 9.228862822055817, "standard_gx": 8.837487548589706, "rowwise_fwd": 5.4414160549640656, "rowwise_bwd": 4.186157137155533, "global_fwd": 5.329187959432602, "global_bwd": 4.150416702032089, "x_quantize_rowwise": 0.4517659544944763, "g_quantize_rowwise": 1.890372484922409, "w_quantize_rowwise": 0.027563422918319702, "w_quantize_colwise_transpose": 0.1980513334274292, "w_quantize_global": 0.0733695924282074, "w_quantize_global_transpose": 0.08009746670722961, "cast_x": 0.8449330925941467, "cast_g": 3.6641769111156464, "cast_w": 0.03945454955101013, "time_standard": 28.794892132282257, "time_rowwise": 21.42418920993805, "time_global": 21.20407298207283}
-{"repeat": 64, "batch_size": 65536, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 4.127204418182373, "standard_gw": 3.359321504831314, "standard_gx": 5.557261407375336, "rowwise_fwd": 2.1365806460380554, "rowwise_bwd": 1.6042962670326233, "global_fwd": 2.0923763513565063, "global_bwd": 1.5939176082611084, "x_quantize_rowwise": 0.21954253315925598, "g_quantize_rowwise": 0.8971206843852997, "w_quantize_rowwise": 0.03357976675033569, "w_quantize_colwise_transpose": 0.1431293785572052, "w_quantize_global": 0.10574981570243835, "w_quantize_global_transpose": 0.10281801223754883, "cast_x": 0.38795173168182373, "cast_g": 1.5318207442760468, "cast_w": 0.027142465114593506, "time_standard": 13.043787330389023, "time_rowwise": 8.39357078075409, "time_global": 8.370846509933472}
-{"repeat": 64, "batch_size": 65536, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 5.576469004154205, "standard_gw": 3.361724317073822, "standard_gx": 3.6300085484981537, "rowwise_fwd": 1.6183294355869293, "rowwise_bwd": 2.1462254226207733, "global_fwd": 1.5953555703163147, "global_bwd": 2.0915642380714417, "x_quantize_rowwise": 0.8973218500614166, "g_quantize_rowwise": 0.2197064459323883, "w_quantize_rowwise": 0.03402307629585266, "w_quantize_colwise_transpose": 0.14822185039520264, "w_quantize_global": 0.09706616401672363, "w_quantize_global_transpose": 0.10339170694351196, "cast_x": 1.5312805771827698, "cast_g": 0.3879964351654053, "cast_w": 0.0269375741481781, "time_standard": 12.568201869726181, "time_rowwise": 8.425552397966385, "time_global": 8.366130292415619}
-{"repeat": 64, "batch_size": 131072, "dim_out": 1408, "dim_in": 6144, "wm": 4.3637, "switch": true, "standard_fwd": 8.900497108697891, "standard_gw": 9.188394993543625, "standard_gx": 9.503517299890518, "rowwise_fwd": 4.189815372228622, "rowwise_bwd": 5.426768213510513, "global_fwd": 4.155576229095459, "global_bwd": 5.329132080078125, "x_quantize_rowwise": 1.8885880708694458, "g_quantize_rowwise": 0.45193731784820557, "w_quantize_rowwise": 0.025987625122070312, "w_quantize_colwise_transpose": 0.1842118799686432, "w_quantize_global": 0.07349997758865356, "w_quantize_global_transpose": 0.08074194192886353, "cast_x": 3.6639943718910217, "cast_g": 0.8447282016277313, "cast_w": 0.03973767161369324, "time_standard": 27.592409402132034, "time_rowwise": 21.355703473091125, "time_global": 21.167870610952377}
-{"repeat": 64, "batch_size": 131072, "dim_out": 5120, "dim_in": 1280, "wm": 4, "switch": false, "standard_fwd": 8.2329623401165, "standard_gw": 6.799045950174332, "standard_gx": 6.893906742334366, "rowwise_fwd": 4.252739250659943, "rowwise_bwd": 3.2025352120399475, "global_fwd": 4.176046699285507, "global_bwd": 3.173377364873886, "x_quantize_rowwise": 0.43221935629844666, "g_quantize_rowwise": 1.7872042953968048, "w_quantize_rowwise": 0.03328174352645874, "w_quantize_colwise_transpose": 0.1431480050086975, "w_quantize_global": 0.09707733988761902, "w_quantize_global_transpose": 0.10161846876144409, "cast_x": 0.7692091166973114, "cast_g": 3.057178109884262, "cast_w": 0.027302652597427368, "time_standard": 21.9259150326252, "time_rowwise": 16.65017381310463, "time_global": 16.56658947467804}
-{"repeat": 64, "batch_size": 131072, "dim_out": 1280, "dim_in": 5120, "wm": 4, "switch": true, "standard_fwd": 11.278409510850906, "standard_gw": 6.815284490585327, "standard_gx": 7.280956953763962, "rowwise_fwd": 3.206692636013031, "rowwise_bwd": 4.246953874826431, "global_fwd": 3.1801797449588776, "global_bwd": 4.169579595327377, "x_quantize_rowwise": 1.7862766981124878, "g_quantize_rowwise": 0.4329495131969452, "w_quantize_rowwise": 0.03413483500480652, "w_quantize_colwise_transpose": 0.14493241906166077, "w_quantize_global": 0.09881332516670227, "w_quantize_global_transpose": 0.10376423597335815, "cast_x": 3.057088702917099, "cast_g": 0.7693544030189514, "cast_w": 0.027261674404144287, "time_standard": 25.374650955200195, "time_rowwise": 16.66722446680069, "time_global": 16.586847603321075}
-{"repeat": 64, "batch_size": 1024, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 0.11636316776275635, "standard_gw": 0.11816620826721191, "standard_gx": 0.11482089757919312, "rowwise_fwd": 0.08482113480567932, "rowwise_bwd": 0.06284937262535095, "global_fwd": 0.08296221494674683, "global_bwd": 0.061664730310440063, "x_quantize_rowwise": 0.026706606149673462, "g_quantize_rowwise": 0.025641173124313354, "w_quantize_rowwise": 0.03740563988685608, "w_quantize_colwise_transpose": 0.2965778112411499, "w_quantize_global": 0.11304393410682678, "w_quantize_global_transpose": 0.12390688061714172, "cast_x": 0.008635222911834717, "cast_g": 0.037532299757003784, "cast_w": 0.06856024265289307, "time_standard": 0.3493502736091614, "time_rowwise": 0.652167946100235, "time_global": 0.5520917475223541}
-{"repeat": 64, "batch_size": 1024, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 0.11609122157096863, "standard_gw": 0.11704489588737488, "standard_gx": 0.11566653847694397, "rowwise_fwd": 0.06706640124320984, "rowwise_bwd": 0.09074807167053223, "global_fwd": 0.06621330976486206, "global_bwd": 0.0859871506690979, "x_quantize_rowwise": 0.027574598789215088, "g_quantize_rowwise": 0.02520531415939331, "w_quantize_rowwise": 0.04095584154129028, "w_quantize_colwise_transpose": 0.37036463618278503, "w_quantize_global": 0.11350959539413452, "w_quantize_global_transpose": 0.12202560901641846, "cast_x": 0.03780052065849304, "cast_g": 0.00860169529914856, "cast_w": 0.06864592432975769, "time_standard": 0.3488026559352875, "time_rowwise": 0.7389597594738007, "time_global": 0.5575604736804962}
-{"repeat": 64, "batch_size": 2048, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 0.22610649466514587, "standard_gw": 0.2229548990726471, "standard_gx": 0.22150203585624695, "rowwise_fwd": 0.1421608030796051, "rowwise_bwd": 0.10771304368972778, "global_fwd": 0.13930723071098328, "global_bwd": 0.10715052485466003, "x_quantize_rowwise": 0.02812594175338745, "g_quantize_rowwise": 0.04733726382255554, "w_quantize_rowwise": 0.03758445382118225, "w_quantize_colwise_transpose": 0.29515475034713745, "w_quantize_global": 0.11344626545906067, "w_quantize_global_transpose": 0.12392178177833557, "cast_x": 0.013589859008789062, "cast_g": 0.08285418152809143, "cast_w": 0.06850436329841614, "time_standard": 0.6705634295940399, "time_rowwise": 0.8810311555862427, "time_global": 0.7822439074516296}
-{"repeat": 64, "batch_size": 2048, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 0.20173192024230957, "standard_gw": 0.2351999282836914, "standard_gx": 0.24710968136787415, "rowwise_fwd": 0.12035667896270752, "rowwise_bwd": 0.153418630361557, "global_fwd": 0.11473894119262695, "global_bwd": 0.14553219079971313, "x_quantize_rowwise": 0.04762038588523865, "g_quantize_rowwise": 0.02557411789894104, "w_quantize_rowwise": 0.04055723547935486, "w_quantize_colwise_transpose": 0.32641738653182983, "w_quantize_global": 0.1138448715209961, "w_quantize_global_transpose": 0.12255832552909851, "cast_x": 0.08405372500419617, "cast_g": 0.013835728168487549, "cast_w": 0.06961449980735779, "time_standard": 0.6840415298938751, "time_rowwise": 0.9491443634033203, "time_global": 0.8050687611103058}
-{"repeat": 64, "batch_size": 4096, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 0.48126280307769775, "standard_gw": 0.46824291348457336, "standard_gx": 0.45252591371536255, "rowwise_fwd": 0.2749897539615631, "rowwise_bwd": 0.2111680805683136, "global_fwd": 0.2689175307750702, "global_bwd": 0.2104043960571289, "x_quantize_rowwise": 0.02676248550415039, "g_quantize_rowwise": 0.0842660665512085, "w_quantize_rowwise": 0.037495046854019165, "w_quantize_colwise_transpose": 0.2952851355075836, "w_quantize_global": 0.11366978287696838, "w_quantize_global_transpose": 0.12461841106414795, "cast_x": 0.0283755362033844, "cast_g": 0.1590624451637268, "cast_w": 0.06854161620140076, "time_standard": 1.4020316302776337, "time_rowwise": 1.3982094824314117, "time_global": 1.2968815863132477}
-{"repeat": 64, "batch_size": 4096, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 0.4076175391674042, "standard_gw": 0.45526400208473206, "standard_gx": 0.4996545612812042, "rowwise_fwd": 0.238761305809021, "rowwise_bwd": 0.2913624048233032, "global_fwd": 0.2149641513824463, "global_bwd": 0.2717897295951843, "x_quantize_rowwise": 0.0845976173877716, "g_quantize_rowwise": 0.0266246497631073, "w_quantize_rowwise": 0.04038959741592407, "w_quantize_colwise_transpose": 0.33299997448921204, "w_quantize_global": 0.11374801397323608, "w_quantize_global_transpose": 0.12202560901641846, "cast_x": 0.15895813703536987, "cast_g": 0.028312206268310547, "cast_w": 0.06841868162155151, "time_standard": 1.3625361025333405, "time_rowwise": 1.4699995517730713, "time_global": 1.2890137732028961}
-{"repeat": 64, "batch_size": 8192, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 1.02214515209198, "standard_gw": 0.9412020444869995, "standard_gx": 0.883936882019043, "rowwise_fwd": 0.5209781229496002, "rowwise_bwd": 0.41617080569267273, "global_fwd": 0.5089044570922852, "global_bwd": 0.4142932593822479, "x_quantize_rowwise": 0.03763660788536072, "g_quantize_rowwise": 0.15798211097717285, "w_quantize_rowwise": 0.0375211238861084, "w_quantize_colwise_transpose": 0.2973228693008423, "w_quantize_global": 0.11317431926727295, "w_quantize_global_transpose": 0.12396648526191711, "cast_x": 0.0685863196849823, "cast_g": 0.311531126499176, "cast_w": 0.0685080885887146, "time_standard": 2.8472840785980225, "time_rowwise": 2.4088136851787567, "time_global": 2.2971592843532562}
-{"repeat": 64, "batch_size": 8192, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 0.8539073169231415, "standard_gw": 0.9352751076221466, "standard_gx": 0.9567439556121826, "rowwise_fwd": 0.4599541425704956, "rowwise_bwd": 0.531073659658432, "global_fwd": 0.42063742876052856, "global_bwd": 0.5125999450683594, "x_quantize_rowwise": 0.1581348478794098, "g_quantize_rowwise": 0.03755837678909302, "w_quantize_rowwise": 0.04056468605995178, "w_quantize_colwise_transpose": 0.3295913338661194, "w_quantize_global": 0.11314079165458679, "w_quantize_global_transpose": 0.12153387069702148, "cast_x": 0.3114752471446991, "cast_g": 0.06850063800811768, "cast_w": 0.06839632987976074, "time_standard": 2.7459263801574707, "time_rowwise": 2.492152154445648, "time_global": 2.2988803684711456}
-{"repeat": 64, "batch_size": 16384, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 2.0550191402435303, "standard_gw": 1.7850138247013092, "standard_gx": 1.7571337521076202, "rowwise_fwd": 1.026798039674759, "rowwise_bwd": 0.8242167532444, "global_fwd": 1.0042376816272736, "global_bwd": 0.8189938962459564, "x_quantize_rowwise": 0.0688992440700531, "g_quantize_rowwise": 0.3054179251194, "w_quantize_rowwise": 0.03757700324058533, "w_quantize_colwise_transpose": 0.2973712980747223, "w_quantize_global": 0.11324509978294373, "w_quantize_global_transpose": 0.12398511171340942, "cast_x": 0.13050436973571777, "cast_g": 0.6165280938148499, "cast_w": 0.06848573684692383, "time_standard": 5.59716671705246, "time_rowwise": 4.345294088125229, "time_global": 4.2197927832603455}
-{"repeat": 64, "batch_size": 16384, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 1.79310142993927, "standard_gw": 1.7801076173782349, "standard_gx": 1.9140169024467468, "rowwise_fwd": 0.8629709482192993, "rowwise_bwd": 1.0353922843933105, "global_fwd": 0.8200556039810181, "global_bwd": 1.002725213766098, "x_quantize_rowwise": 0.30517578125, "g_quantize_rowwise": 0.06880238652229309, "w_quantize_rowwise": 0.040318816900253296, "w_quantize_colwise_transpose": 0.3413744270801544, "w_quantize_global": 0.11326000094413757, "w_quantize_global_transpose": 0.12197345495223999, "cast_x": 0.6162337958812714, "cast_g": 0.13053417205810547, "cast_w": 0.06848946213722229, "time_standard": 5.487225949764252, "time_rowwise": 4.4341422617435455, "time_global": 4.212100058794022}
-{"repeat": 64, "batch_size": 32768, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 4.0736086666584015, "standard_gw": 3.595758229494095, "standard_gx": 3.7020929157733917, "rowwise_fwd": 2.0306408405303955, "rowwise_bwd": 1.635722815990448, "global_fwd": 1.9890740513801575, "global_bwd": 1.627359539270401, "x_quantize_rowwise": 0.13131648302078247, "g_quantize_rowwise": 0.6001107394695282, "w_quantize_rowwise": 0.03781542181968689, "w_quantize_colwise_transpose": 0.2975836396217346, "w_quantize_global": 0.11357292532920837, "w_quantize_global_transpose": 0.12416765093803406, "cast_x": 0.2544410526752472, "cast_g": 1.2265890836715698, "cast_w": 0.06866827607154846, "time_standard": 11.371459811925888, "time_rowwise": 8.32894816994667, "time_global": 8.181359618902206}
-{"repeat": 64, "batch_size": 32768, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 3.525231033563614, "standard_gw": 3.489706665277481, "standard_gx": 3.9937011897563934, "rowwise_fwd": 1.6627348959445953, "rowwise_bwd": 2.0311400294303894, "global_fwd": 1.6270726919174194, "global_bwd": 1.988884061574936, "x_quantize_rowwise": 0.5999915301799774, "g_quantize_rowwise": 0.1310594379901886, "w_quantize_rowwise": 0.04043802618980408, "w_quantize_colwise_transpose": 0.32950565218925476, "w_quantize_global": 0.11298432946205139, "w_quantize_global_transpose": 0.12201443314552307, "cast_x": 1.2257546186447144, "cast_g": 0.25444477796554565, "cast_w": 0.06848573684692383, "time_standard": 11.008638888597488, "time_rowwise": 8.28457623720169, "time_global": 8.071713149547577}
-{"repeat": 64, "batch_size": 65536, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 8.123598992824554, "standard_gw": 8.085217326879501, "standard_gx": 7.293816655874252, "rowwise_fwd": 4.07782569527626, "rowwise_bwd": 3.196723759174347, "global_fwd": 4.001103341579437, "global_bwd": 3.1843744218349457, "x_quantize_rowwise": 0.2560615539550781, "g_quantize_rowwise": 1.1893659830093384, "w_quantize_rowwise": 0.037297606468200684, "w_quantize_colwise_transpose": 0.29668211936950684, "w_quantize_global": 0.11358782649040222, "w_quantize_global_transpose": 0.12476742267608643, "cast_x": 0.5020052194595337, "cast_g": 2.4454034864902496, "cast_w": 0.0684782862663269, "time_standard": 23.502632975578308, "time_rowwise": 17.139174044132233, "time_global": 16.95447787642479}
-{"repeat": 64, "batch_size": 65536, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 6.932958960533142, "standard_gw": 7.0609524846076965, "standard_gx": 7.460080087184906, "rowwise_fwd": 3.1809918582439423, "rowwise_bwd": 4.078391939401627, "global_fwd": 3.185112029314041, "global_bwd": 3.99089977145195, "x_quantize_rowwise": 1.1891834437847137, "g_quantize_rowwise": 0.25588274002075195, "w_quantize_rowwise": 0.0406019389629364, "w_quantize_colwise_transpose": 0.3389529883861542, "w_quantize_global": 0.11313334107398987, "w_quantize_global_transpose": 0.12241676449775696, "cast_x": 2.4446770548820496, "cast_g": 0.5022138357162476, "cast_w": 0.06857141852378845, "time_standard": 21.453991532325745, "time_rowwise": 16.14495739340782, "time_global": 15.9175805747509}
-{"repeat": 64, "batch_size": 131072, "dim_out": 8192, "dim_in": 1664, "wm": 4.9231, "switch": false, "standard_fwd": 16.38999581336975, "standard_gw": 15.075922012329102, "standard_gx": 14.479495584964752, "rowwise_fwd": 8.128684014081955, "rowwise_bwd": 6.41091912984848, "global_fwd": 7.977847009897232, "global_bwd": 6.362702697515488, "x_quantize_rowwise": 0.5057230591773987, "g_quantize_rowwise": 2.3681968450546265, "w_quantize_rowwise": 0.037435442209243774, "w_quantize_colwise_transpose": 0.29555708169937134, "w_quantize_global": 0.11360272765159607, "w_quantize_global_transpose": 0.12426823377609253, "cast_x": 0.997692346572876, "cast_g": 4.8848651349544525, "cast_w": 0.0685565173625946, "time_standard": 45.945413410663605, "time_rowwise": 32.82243758440018, "time_global": 32.528262585401535}
-{"repeat": 64, "batch_size": 131072, "dim_out": 1664, "dim_in": 8192, "wm": 4.9231, "switch": true, "standard_fwd": 14.838922768831253, "standard_gw": 15.112213790416718, "standard_gx": 14.869242906570435, "rowwise_fwd": 6.402213126420975, "rowwise_bwd": 8.132629096508026, "global_fwd": 6.36359304189682, "global_bwd": 7.9823993146419525, "x_quantize_rowwise": 2.367999404668808, "g_quantize_rowwise": 0.5056969821453094, "w_quantize_rowwise": 0.04053488373756409, "w_quantize_colwise_transpose": 0.3559887409210205, "w_quantize_global": 0.1136288046836853, "w_quantize_global_transpose": 0.125102698802948, "cast_x": 4.880473017692566, "cast_g": 0.9965412318706512, "cast_w": 0.06855279207229614, "time_standard": 44.820379465818405, "time_rowwise": 32.91727602481842, "time_global": 32.57063403725624}
-{"repeat": 64, "batch_size": 1024, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 0.15426427125930786, "standard_gw": 0.14531239867210388, "standard_gx": 0.1703128218650818, "rowwise_fwd": 0.09618699550628662, "rowwise_bwd": 0.10633841156959534, "global_fwd": 0.09483471512794495, "global_bwd": 0.10636076331138611, "x_quantize_rowwise": 0.02434849739074707, "g_quantize_rowwise": 0.026009976863861084, "w_quantize_rowwise": 0.04366040229797363, "w_quantize_colwise_transpose": 0.34148991107940674, "w_quantize_global": 0.13587623834609985, "w_quantize_global_transpose": 0.14698877930641174, "cast_x": 0.009745359420776367, "cast_g": 0.03773719072341919, "cast_w": 0.08277222514152527, "time_standard": 0.46988949179649353, "time_rowwise": 0.7833465933799744, "time_global": 0.6797313690185547}
-{"repeat": 64, "batch_size": 1024, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 0.16738846898078918, "standard_gw": 0.14199689030647278, "standard_gx": 0.15476346015930176, "rowwise_fwd": 0.11660531163215637, "rowwise_bwd": 0.1050308346748352, "global_fwd": 0.11050701141357422, "global_bwd": 0.09868666529655457, "x_quantize_rowwise": 0.02781301736831665, "g_quantize_rowwise": 0.024966895580291748, "w_quantize_rowwise": 0.047437846660614014, "w_quantize_colwise_transpose": 0.5995631217956543, "w_quantize_global": 0.1362822949886322, "w_quantize_global_transpose": 0.14807283878326416, "cast_x": 0.0377558171749115, "cast_g": 0.00973045825958252, "cast_w": 0.0828281044960022, "time_standard": 0.4641488194465637, "time_rowwise": 1.063413918018341, "time_global": 0.6883256137371063}
-{"repeat": 64, "batch_size": 2048, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 0.2727396786212921, "standard_gw": 0.2711080014705658, "standard_gx": 0.3120154142379761, "rowwise_fwd": 0.16424059867858887, "rowwise_bwd": 0.17686933279037476, "global_fwd": 0.161685049533844, "global_bwd": 0.17517060041427612, "x_quantize_rowwise": 0.025484710931777954, "g_quantize_rowwise": 0.047635287046432495, "w_quantize_rowwise": 0.04380941390991211, "w_quantize_colwise_transpose": 0.3401711583137512, "w_quantize_global": 0.13605505228042603, "w_quantize_global_transpose": 0.14705583453178406, "cast_x": 0.01584365963935852, "cast_g": 0.08274242281913757, "cast_w": 0.08281320333480835, "time_standard": 0.855863094329834, "time_rowwise": 1.0693185031414032, "time_global": 0.9641945362091064}
-{"repeat": 64, "batch_size": 2048, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 0.28916075825691223, "standard_gw": 0.29472261667251587, "standard_gx": 0.30096620321273804, "rowwise_fwd": 0.19618868827819824, "rowwise_bwd": 0.17556175589561462, "global_fwd": 0.18328800797462463, "global_bwd": 0.16647577285766602, "x_quantize_rowwise": 0.047441571950912476, "g_quantize_rowwise": 0.026609748601913452, "w_quantize_rowwise": 0.04766508936882019, "w_quantize_colwise_transpose": 0.6060972809791565, "w_quantize_global": 0.1363418996334076, "w_quantize_global_transpose": 0.14806538820266724, "cast_x": 0.08295103907585144, "cast_g": 0.015836209058761597, "cast_w": 0.08285045623779297, "time_standard": 0.8848495781421661, "time_rowwise": 1.3942867517471313, "time_global": 1.0029450058937073}
-{"repeat": 64, "batch_size": 4096, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 0.6430819630622864, "standard_gw": 0.5622953176498413, "standard_gx": 0.5780421197414398, "rowwise_fwd": 0.318676233291626, "rowwise_bwd": 0.29438361525535583, "global_fwd": 0.31290948390960693, "global_bwd": 0.290747731924057, "x_quantize_rowwise": 0.027455389499664307, "g_quantize_rowwise": 0.08405372500419617, "w_quantize_rowwise": 0.04369765520095825, "w_quantize_colwise_transpose": 0.34110620617866516, "w_quantize_global": 0.1360774040222168, "w_quantize_global_transpose": 0.14697015285491943, "cast_x": 0.037614256143569946, "cast_g": 0.15922263264656067, "cast_w": 0.08288025856018066, "time_standard": 1.7834194004535675, "time_rowwise": 1.671668142080307, "time_global": 1.560509204864502}
-{"repeat": 64, "batch_size": 4096, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 0.551275908946991, "standard_gw": 0.591665506362915, "standard_gx": 0.6067268550395966, "rowwise_fwd": 0.33493712544441223, "rowwise_bwd": 0.32918527722358704, "global_fwd": 0.29528141021728516, "global_bwd": 0.31659379601478577, "x_quantize_rowwise": 0.08441135287284851, "g_quantize_rowwise": 0.025656074285507202, "w_quantize_rowwise": 0.04745647311210632, "w_quantize_colwise_transpose": 0.5993843078613281, "w_quantize_global": 0.1359879970550537, "w_quantize_global_transpose": 0.14815106987953186, "cast_x": 0.15932321548461914, "cast_g": 0.037439167499542236, "cast_w": 0.08288398385047913, "time_standard": 1.7496682703495026, "time_rowwise": 2.0126961171627045, "time_global": 1.5977472066879272}
-{"repeat": 64, "batch_size": 8192, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 1.2295916676521301, "standard_gw": 1.116037368774414, "standard_gx": 1.1164769530296326, "rowwise_fwd": 0.603698194026947, "rowwise_bwd": 0.5168020725250244, "global_fwd": 0.5922466516494751, "global_bwd": 0.5151033401489258, "x_quantize_rowwise": 0.0437907874584198, "g_quantize_rowwise": 0.157918781042099, "w_quantize_rowwise": 0.044032931327819824, "w_quantize_colwise_transpose": 0.34073740243911743, "w_quantize_global": 0.13559311628341675, "w_quantize_global_transpose": 0.14679506421089172, "cast_x": 0.08263811469078064, "cast_g": 0.3115162253379822, "cast_w": 0.08287280797958374, "time_standard": 3.4621059894561768, "time_rowwise": 2.8230175375938416, "time_global": 2.707485109567642}
-{"repeat": 64, "batch_size": 8192, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 1.090865582227707, "standard_gw": 1.1468492448329926, "standard_gx": 1.1166594922542572, "rowwise_fwd": 0.5559474229812622, "rowwise_bwd": 0.6105974316596985, "global_fwd": 0.5200020968914032, "global_bwd": 0.592011958360672, "x_quantize_rowwise": 0.15802308917045593, "g_quantize_rowwise": 0.04357844591140747, "w_quantize_rowwise": 0.04709511995315552, "w_quantize_colwise_transpose": 0.5969703197479248, "w_quantize_global": 0.13620033860206604, "w_quantize_global_transpose": 0.148136168718338, "cast_x": 0.31115859746932983, "cast_g": 0.08263811469078064, "cast_w": 0.08268281817436218, "time_standard": 3.3543743193149567, "time_rowwise": 3.159061074256897, "time_global": 2.744801342487335}
-{"repeat": 64, "batch_size": 16384, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 2.4665743112564087, "standard_gw": 2.1993443369865417, "standard_gx": 2.1993033587932587, "rowwise_fwd": 1.192428171634674, "rowwise_bwd": 1.023314893245697, "global_fwd": 1.1711902916431427, "global_bwd": 1.0202191770076752, "x_quantize_rowwise": 0.08077174425125122, "g_quantize_rowwise": 0.30520185828208923, "w_quantize_rowwise": 0.043783336877822876, "w_quantize_colwise_transpose": 0.339999794960022, "w_quantize_global": 0.13628602027893066, "w_quantize_global_transpose": 0.14696642756462097, "cast_x": 0.15902891755104065, "cast_g": 0.6164535880088806, "cast_w": 0.08285418152809143, "time_standard": 6.865222007036209, "time_rowwise": 5.184844136238098, "time_global": 5.059979856014252}
-{"repeat": 64, "batch_size": 16384, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 2.1861791610717773, "standard_gw": 2.157818526029587, "standard_gx": 2.321537584066391, "rowwise_fwd": 1.0536126792430878, "rowwise_bwd": 1.1971630156040192, "global_fwd": 1.02127343416214, "global_bwd": 1.1707991361618042, "x_quantize_rowwise": 0.30522048473358154, "g_quantize_rowwise": 0.08065253496170044, "w_quantize_rowwise": 0.04741176962852478, "w_quantize_colwise_transpose": 0.5979575216770172, "w_quantize_global": 0.1362040638923645, "w_quantize_global_transpose": 0.14854222536087036, "cast_x": 0.6162486970424652, "cast_g": 0.1591891050338745, "cast_w": 0.08288398385047913, "time_standard": 6.665535271167755, "time_rowwise": 5.439836531877518, "time_global": 5.020510405302048}
-{"repeat": 64, "batch_size": 32768, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 4.891645163297653, "standard_gw": 4.233300685882568, "standard_gx": 4.2071714997291565, "rowwise_fwd": 2.3616664111614227, "rowwise_bwd": 1.9419342279434204, "global_fwd": 2.3244209587574005, "global_bwd": 1.9598640501499176, "x_quantize_rowwise": 0.15483051538467407, "g_quantize_rowwise": 0.6008371710777283, "w_quantize_rowwise": 0.043839216232299805, "w_quantize_colwise_transpose": 0.3400743007659912, "w_quantize_global": 0.1362822949886322, "w_quantize_global_transpose": 0.14691054821014404, "cast_x": 0.31141936779022217, "cast_g": 1.2254081666469574, "cast_w": 0.08280202746391296, "time_standard": 13.332117348909378, "time_rowwise": 9.676482528448105, "time_global": 9.556446224451065}
-{"repeat": 64, "batch_size": 32768, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 4.267625510692596, "standard_gw": 4.237007349729538, "standard_gx": 4.666488617658615, "rowwise_fwd": 1.9670464098453522, "rowwise_bwd": 2.362079918384552, "global_fwd": 1.9469596445560455, "global_bwd": 2.32585147023201, "x_quantize_rowwise": 0.6000921130180359, "g_quantize_rowwise": 0.15481188893318176, "w_quantize_rowwise": 0.04725530743598938, "w_quantize_colwise_transpose": 0.5976222455501556, "w_quantize_global": 0.13619661331176758, "w_quantize_global_transpose": 0.14815852046012878, "cast_x": 1.2261345982551575, "cast_g": 0.3117173910140991, "cast_w": 0.08279457688331604, "time_standard": 13.17112147808075, "time_rowwise": 9.965915232896805, "time_global": 9.549077600240707}
-{"repeat": 64, "batch_size": 65536, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 9.787477552890778, "standard_gw": 8.533861488103867, "standard_gx": 8.979786187410355, "rowwise_fwd": 4.741787910461426, "rowwise_bwd": 3.871854394674301, "global_fwd": 4.674319177865982, "global_bwd": 3.9110779762268066, "x_quantize_rowwise": 0.3025829792022705, "g_quantize_rowwise": 1.1898204684257507, "w_quantize_rowwise": 0.043705105781555176, "w_quantize_colwise_transpose": 0.33997371792793274, "w_quantize_global": 0.13592839241027832, "w_quantize_global_transpose": 0.14724954962730408, "cast_x": 0.6160177290439606, "cast_g": 2.4440810084342957, "cast_w": 0.08280575275421143, "time_standard": 27.301125228405, "time_rowwise": 19.023586064577103, "time_global": 18.89484003186226}
-{"repeat": 64, "batch_size": 65536, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 8.461769670248032, "standard_gw": 8.428700268268585, "standard_gx": 9.447630494832993, "rowwise_fwd": 3.881257027387619, "rowwise_bwd": 4.7471001744270325, "global_fwd": 3.9101652801036835, "global_bwd": 4.662122577428818, "x_quantize_rowwise": 1.1892355978488922, "g_quantize_rowwise": 0.3024376928806305, "w_quantize_rowwise": 0.04708021879196167, "w_quantize_colwise_transpose": 0.5982778966426849, "w_quantize_global": 0.13624131679534912, "w_quantize_global_transpose": 0.1484602689743042, "cast_x": 2.4463236331939697, "cast_g": 0.6163865327835083, "cast_w": 0.08278340101242065, "time_standard": 26.33810043334961, "time_rowwise": 19.194088876247406, "time_global": 18.777363002300262}
-{"repeat": 64, "batch_size": 131072, "dim_out": 8192, "dim_in": 2048, "wm": 4, "switch": false, "standard_fwd": 19.699689000844955, "standard_gw": 16.89574122428894, "standard_gx": 17.907552421092987, "rowwise_fwd": 9.453803300857544, "rowwise_bwd": 7.8153833746910095, "global_fwd": 9.313825517892838, "global_bwd": 7.8215524554252625, "x_quantize_rowwise": 0.5986690521240234, "g_quantize_rowwise": 2.368006855249405, "w_quantize_rowwise": 0.043682754039764404, "w_quantize_colwise_transpose": 0.3406330943107605, "w_quantize_global": 0.13626739382743835, "w_quantize_global_transpose": 0.14715641736984253, "cast_x": 1.2262165546417236, "cast_g": 4.8834048211574554, "cast_w": 0.08272379636764526, "time_standard": 54.50298264622688, "time_rowwise": 37.51591965556145, "time_global": 37.28121891617775}
-{"repeat": 64, "batch_size": 131072, "dim_out": 2048, "dim_in": 8192, "wm": 4, "switch": true, "standard_fwd": 18.66700127720833, "standard_gw": 18.56840029358864, "standard_gx": 18.049821257591248, "rowwise_fwd": 7.742393761873245, "rowwise_bwd": 9.479016065597534, "global_fwd": 7.806576788425446, "global_bwd": 9.328477084636688, "x_quantize_rowwise": 2.368297427892685, "g_quantize_rowwise": 0.5978643894195557, "w_quantize_rowwise": 0.047303736209869385, "w_quantize_colwise_transpose": 0.5982741713523865, "w_quantize_global": 0.13678893446922302, "w_quantize_global_transpose": 0.1488029956817627, "cast_x": 4.880513995885849, "cast_g": 1.2248307466506958, "cast_w": 0.08270144462585449, "time_standard": 55.285222828388214, "time_rowwise": 39.401549845933914, "time_global": 38.955207914114}
-{"repeat": 64, "batch_size": 1024, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 0.529509037733078, "standard_gw": 0.5781911313533783, "standard_gx": 0.6095841526985168, "rowwise_fwd": 0.2811029553413391, "rowwise_bwd": 0.3345906734466553, "global_fwd": 0.27928128838539124, "global_bwd": 0.33126771450042725, "x_quantize_rowwise": 0.025760382413864136, "g_quantize_rowwise": 0.06494298577308655, "w_quantize_rowwise": 0.15570968389511108, "w_quantize_colwise_transpose": 1.6086548566818237, "w_quantize_global": 0.481434166431427, "w_quantize_global_transpose": 0.505443662405014, "cast_x": 0.01582130789756775, "cast_g": 0.08295103907585144, "cast_w": 0.311531126499176, "time_standard": 1.7172843217849731, "time_rowwise": 3.048952668905258, "time_global": 2.2663213312625885}
-{"repeat": 64, "batch_size": 1024, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 0.5729459226131439, "standard_gw": 0.5789846181869507, "standard_gx": 0.5775243043899536, "rowwise_fwd": 0.36711618304252625, "rowwise_bwd": 0.2913735806941986, "global_fwd": 0.33703818917274475, "global_bwd": 0.2821236848831177, "x_quantize_rowwise": 0.064849853515625, "g_quantize_rowwise": 0.025060027837753296, "w_quantize_rowwise": 0.22537633776664734, "w_quantize_colwise_transpose": 3.6401040852069855, "w_quantize_global": 0.4818551242351532, "w_quantize_global_transpose": 0.5101114511489868, "cast_x": 0.08286535739898682, "cast_g": 0.015828758478164673, "cast_w": 0.3114677965641022, "time_standard": 1.7294548451900482, "time_rowwise": 5.192864686250687, "time_global": 2.2800229489803314}
-{"repeat": 64, "batch_size": 2048, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 1.1735819280147552, "standard_gw": 1.121576875448227, "standard_gx": 1.1242404580116272, "rowwise_fwd": 0.5535706877708435, "rowwise_bwd": 0.5567893385887146, "global_fwd": 0.5486570298671722, "global_bwd": 0.551365315914154, "x_quantize_rowwise": 0.02710893750190735, "g_quantize_rowwise": 0.11784210801124573, "w_quantize_rowwise": 0.15565752983093262, "w_quantize_colwise_transpose": 1.607745885848999, "w_quantize_global": 0.4824437201023102, "w_quantize_global_transpose": 0.5060508847236633, "cast_x": 0.03808736801147461, "cast_g": 0.15912577509880066, "cast_w": 0.31150132417678833, "time_standard": 3.4193992614746094, "time_rowwise": 4.14029136300087, "time_global": 3.35504487156868}
-{"repeat": 64, "batch_size": 2048, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 1.1169910430908203, "standard_gw": 1.1065900325775146, "standard_gx": 1.1815577745437622, "rowwise_fwd": 0.5917288362979889, "rowwise_bwd": 0.5614385008811951, "global_fwd": 0.5646944046020508, "global_bwd": 0.5500949919223785, "x_quantize_rowwise": 0.118207186460495, "g_quantize_rowwise": 0.025041401386260986, "w_quantize_rowwise": 0.22566691040992737, "w_quantize_colwise_transpose": 3.635551780462265, "w_quantize_global": 0.4815608263015747, "w_quantize_global_transpose": 0.509701669216156, "cast_x": 0.15912950038909912, "cast_g": 0.03797560930252075, "cast_w": 0.3114044666290283, "time_standard": 3.405138850212097, "time_rowwise": 6.264224648475647, "time_global": 3.3558905124664307}
-{"repeat": 64, "batch_size": 4096, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 2.3259930312633514, "standard_gw": 2.1472275257110596, "standard_gx": 2.213582396507263, "rowwise_fwd": 1.0509602725505829, "rowwise_bwd": 0.9888559579849243, "global_fwd": 1.0398179292678833, "global_bwd": 0.9887740015983582, "x_quantize_rowwise": 0.04647299647331238, "g_quantize_rowwise": 0.22570788860321045, "w_quantize_rowwise": 0.1554824411869049, "w_quantize_colwise_transpose": 1.610085368156433, "w_quantize_global": 0.48134103417396545, "w_quantize_global_transpose": 0.5054809153079987, "cast_x": 0.08297711610794067, "cast_g": 0.3115646541118622, "cast_w": 0.31159818172454834, "time_standard": 6.686802953481674, "time_rowwise": 6.224792450666428, "time_global": 5.434822291135788}
-{"repeat": 64, "batch_size": 4096, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 2.19760462641716, "standard_gw": 2.2860951721668243, "standard_gx": 2.290956676006317, "rowwise_fwd": 1.0311491787433624, "rowwise_bwd": 1.0555200278759003, "global_fwd": 0.9858310222625732, "global_bwd": 1.0394863784313202, "x_quantize_rowwise": 0.22591277956962585, "g_quantize_rowwise": 0.046234577894210815, "w_quantize_rowwise": 0.22603943943977356, "w_quantize_colwise_transpose": 3.628809005022049, "w_quantize_global": 0.4819147288799286, "w_quantize_global_transpose": 0.5104243755340576, "cast_x": 0.3114528954029083, "cast_g": 0.08296966552734375, "cast_w": 0.3116317093372345, "time_standard": 6.7746564745903015, "time_rowwise": 8.499760180711746, "time_global": 5.575899034738541}
-{"repeat": 64, "batch_size": 8192, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 4.633370786905289, "standard_gw": 4.397690296173096, "standard_gx": 4.286538809537888, "rowwise_fwd": 2.089906483888626, "rowwise_bwd": 1.9657425582408905, "global_fwd": 2.0679645240306854, "global_bwd": 1.9629858434200287, "x_quantize_rowwise": 0.08271634578704834, "g_quantize_rowwise": 0.43905526399612427, "w_quantize_rowwise": 0.1551508903503418, "w_quantize_colwise_transpose": 1.6106180846691132, "w_quantize_global": 0.48185884952545166, "w_quantize_global_transpose": 0.506274402141571, "cast_x": 0.15918537974357605, "cast_g": 0.6163418292999268, "cast_w": 0.311531126499176, "time_standard": 13.317599892616272, "time_rowwise": 10.74087992310524, "time_global": 9.938545525074005}
-{"repeat": 64, "batch_size": 8192, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 4.424266517162323, "standard_gw": 4.391487687826157, "standard_gx": 4.61186096072197, "rowwise_fwd": 1.9874684512615204, "rowwise_bwd": 2.093140035867691, "global_fwd": 1.9647255539894104, "global_bwd": 2.06940621137619, "x_quantize_rowwise": 0.43999403715133667, "g_quantize_rowwise": 0.08271634578704834, "w_quantize_rowwise": 0.22581592202186584, "w_quantize_colwise_transpose": 3.631964325904846, "w_quantize_global": 0.4821456968784332, "w_quantize_global_transpose": 0.5102343857288361, "cast_x": 0.6164386868476868, "cast_g": 0.1591108739376068, "cast_w": 0.31154975295066833, "time_standard": 13.42761516571045, "time_rowwise": 12.852586805820465, "time_global": 9.940709918737411}
-{"repeat": 64, "batch_size": 16384, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 9.229827672243118, "standard_gw": 8.319318294525146, "standard_gx": 8.652344346046448, "rowwise_fwd": 4.163607954978943, "rowwise_bwd": 3.778301179409027, "global_fwd": 4.121184349060059, "global_bwd": 3.7708766758441925, "x_quantize_rowwise": 0.1553669571876526, "g_quantize_rowwise": 0.8715838193893433, "w_quantize_rowwise": 0.15540048480033875, "w_quantize_colwise_transpose": 1.6092769801616669, "w_quantize_global": 0.4813969135284424, "w_quantize_global_transpose": 0.5070343613624573, "cast_x": 0.31150132417678833, "cast_g": 1.2259706854820251, "cast_w": 0.311482697725296, "time_standard": 26.201490312814713, "time_rowwise": 19.052855670452118, "time_global": 18.226761370897293}
-{"repeat": 64, "batch_size": 16384, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 8.577890694141388, "standard_gw": 9.073298424482346, "standard_gx": 9.210295975208282, "rowwise_fwd": 3.7784352898597717, "rowwise_bwd": 4.165928810834885, "global_fwd": 3.7702471017837524, "global_bwd": 4.121150821447372, "x_quantize_rowwise": 0.868629664182663, "g_quantize_rowwise": 0.1554340124130249, "w_quantize_rowwise": 0.22614002227783203, "w_quantize_colwise_transpose": 3.6367811262607574, "w_quantize_global": 0.4828609526157379, "w_quantize_global_transpose": 0.510137528181076, "cast_x": 1.2258104979991913, "cast_g": 0.31299516558647156, "cast_w": 0.3114677965641022, "time_standard": 26.861485093832016, "time_rowwise": 21.90464735031128, "time_global": 18.981758505105972}
-{"repeat": 64, "batch_size": 32768, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 18.52763444185257, "standard_gw": 17.835520207881927, "standard_gx": 17.375655472278595, "rowwise_fwd": 8.35346058011055, "rowwise_bwd": 7.584303617477417, "global_fwd": 8.300606161355972, "global_bwd": 7.550913840532303, "x_quantize_rowwise": 0.3016740083694458, "g_quantize_rowwise": 1.7321519553661346, "w_quantize_rowwise": 0.15538185834884644, "w_quantize_colwise_transpose": 1.6110800206661224, "w_quantize_global": 0.4815198481082916, "w_quantize_global_transpose": 0.5066357553005219, "cast_x": 0.6163753569126129, "cast_g": 2.4452805519104004, "cast_w": 0.31156837940216064, "time_standard": 53.73881012201309, "time_rowwise": 37.573572248220444, "time_global": 36.7090217769146}
-{"repeat": 64, "batch_size": 32768, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 18.073823302984238, "standard_gw": 16.71283319592476, "standard_gx": 18.46104860305786, "rowwise_fwd": 7.542364299297333, "rowwise_bwd": 8.374195545911789, "global_fwd": 7.5644850730896, "global_bwd": 8.26016440987587, "x_quantize_rowwise": 1.7326027154922485, "g_quantize_rowwise": 0.30233338475227356, "w_quantize_rowwise": 0.2259574830532074, "w_quantize_colwise_transpose": 3.634512424468994, "w_quantize_global": 0.48204511404037476, "w_quantize_global_transpose": 0.5093887448310852, "cast_x": 2.445656806230545, "cast_g": 0.6163381040096283, "cast_w": 0.31144917011260986, "time_standard": 53.24770510196686, "time_rowwise": 38.524799048900604, "time_global": 35.56385263800621}
-{"repeat": 64, "batch_size": 65536, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 36.123402416706085, "standard_gw": 32.68447890877724, "standard_gx": 34.13737937808037, "rowwise_fwd": 16.65867120027542, "rowwise_bwd": 15.004873275756836, "global_fwd": 16.536589711904526, "global_bwd": 14.949381351470947, "x_quantize_rowwise": 0.5952902138233185, "g_quantize_rowwise": 3.4581348299980164, "w_quantize_rowwise": 0.15559792518615723, "w_quantize_colwise_transpose": 1.6055963933467865, "w_quantize_global": 0.48203766345977783, "w_quantize_global_transpose": 0.5048215389251709, "cast_x": 1.2256354093551636, "cast_g": 4.875503480434418, "cast_w": 0.3110244870185852, "time_standard": 102.94526070356369, "time_rowwise": 70.16264274716377, "time_global": 69.210734218359}
-{"repeat": 64, "batch_size": 65536, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 35.0223146378994, "standard_gw": 32.84081444144249, "standard_gx": 35.984884947538376, "rowwise_fwd": 15.018381178379059, "rowwise_bwd": 16.69919490814209, "global_fwd": 14.942582696676254, "global_bwd": 16.529250890016556, "x_quantize_rowwise": 3.442291170358658, "g_quantize_rowwise": 0.5951747298240662, "w_quantize_rowwise": 0.22576376795768738, "w_quantize_colwise_transpose": 3.621157258749008, "w_quantize_global": 0.48135966062545776, "w_quantize_global_transpose": 0.5095489323139191, "cast_x": 4.875205457210541, "cast_g": 1.2237727642059326, "cast_w": 0.3110431134700775, "time_standard": 103.84801402688026, "time_rowwise": 72.44277745485306, "time_global": 69.3410225212574}
-{"repeat": 64, "batch_size": 131072, "dim_out": 16384, "dim_in": 4096, "wm": 4, "switch": false, "standard_fwd": 72.33698666095734, "standard_gw": 71.31465151906013, "standard_gx": 69.32922825217247, "rowwise_fwd": 33.37707370519638, "rowwise_bwd": 30.1642008125782, "global_fwd": 33.002063632011414, "global_bwd": 30.003495514392853, "x_quantize_rowwise": 1.1819563806056976, "g_quantize_rowwise": 6.896954029798508, "w_quantize_rowwise": 0.15557929873466492, "w_quantize_colwise_transpose": 1.6083605587482452, "w_quantize_global": 0.48125162720680237, "w_quantize_global_transpose": 0.5055665969848633, "cast_x": 2.442535012960434, "cast_g": 9.750165045261383, "cast_w": 0.31094998121261597, "time_standard": 212.98086643218994, "time_rowwise": 144.69877630472183, "time_global": 143.38593930006027}
-{"repeat": 64, "batch_size": 131072, "dim_out": 4096, "dim_in": 16384, "wm": 4, "switch": true, "standard_fwd": 70.24158909916878, "standard_gw": 72.03734293580055, "standard_gx": 72.01339676976204, "rowwise_fwd": 30.072908848524094, "rowwise_bwd": 33.376410603523254, "global_fwd": 29.965493828058243, "global_bwd": 33.01112726330757, "x_quantize_rowwise": 6.894122809171677, "g_quantize_rowwise": 1.1817142367362976, "w_quantize_rowwise": 0.22567808628082275, "w_quantize_colwise_transpose": 3.616899251937866, "w_quantize_global": 0.4819147288799286, "w_quantize_global_transpose": 0.5107112228870392, "cast_x": 9.750377386808395, "cast_g": 2.4411343038082123, "cast_w": 0.31099095940589905, "time_standard": 214.29232880473137, "time_rowwise": 147.40507677197456, "time_global": 144.0824270248413}
-{"repeat": 64, "batch_size": 65536, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 138.23134452104568, "standard_gw": 131.48364424705505, "standard_gx": 141.09868183732033, "rowwise_fwd": 65.38830325007439, "rowwise_bwd": 58.39048698544502, "global_fwd": 65.2194656431675, "global_bwd": 58.58004465699196, "x_quantize_rowwise": 1.1899955570697784, "g_quantize_rowwise": 6.623774766921997, "w_quantize_rowwise": 0.5935952067375183, "w_quantize_colwise_transpose": 24.08137544989586, "w_quantize_global": 1.740824431180954, "w_quantize_global_transpose": 1.8664970993995667, "cast_x": 2.413548529148102, "cast_g": 9.63655486702919, "cast_w": 1.1956281960010529, "time_standard": 410.81367060542107, "time_rowwise": 287.7511754631996, "time_global": 266.7042464017868}
-{"repeat": 64, "batch_size": 65536, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 141.08363911509514, "standard_gw": 133.26667994260788, "standard_gx": 136.0350362956524, "rowwise_fwd": 58.49892646074295, "rowwise_bwd": 65.34496694803238, "global_fwd": 58.73573571443558, "global_bwd": 65.30505418777466, "x_quantize_rowwise": 6.648071110248566, "g_quantize_rowwise": 1.1903978884220123, "w_quantize_rowwise": 0.8329600095748901, "w_quantize_colwise_transpose": 15.297897160053253, "w_quantize_global": 1.7403066158294678, "w_quantize_global_transpose": 1.8791332840919495, "cast_x": 9.636614471673965, "cast_g": 2.4122819304466248, "cast_w": 1.1954344809055328, "time_standard": 410.3853553533554, "time_rowwise": 281.07989951968193, "time_global": 268.7653787434101}
-{"repeat": 64, "batch_size": 1024, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 2.535879611968994, "standard_gw": 2.249978482723236, "standard_gx": 2.2262558341026306, "rowwise_fwd": 1.085665076971054, "rowwise_bwd": 1.069542020559311, "global_fwd": 1.0830685496330261, "global_bwd": 1.0597631335258484, "x_quantize_rowwise": 0.02650916576385498, "g_quantize_rowwise": 0.1200847327709198, "w_quantize_rowwise": 0.5937665700912476, "w_quantize_colwise_transpose": 23.926906287670135, "w_quantize_global": 1.7397291958332062, "w_quantize_global_transpose": 1.8652454018592834, "cast_x": 0.03688782453536987, "cast_g": 0.15725940465927124, "cast_w": 1.1969134211540222, "time_standard": 7.012113928794861, "time_rowwise": 29.07245233654976, "time_global": 8.144378662109375}
-{"repeat": 64, "batch_size": 1024, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 2.245493233203888, "standard_gw": 2.2966675460338593, "standard_gx": 2.216015011072159, "rowwise_fwd": 1.1000856757164001, "rowwise_bwd": 1.0902360081672668, "global_fwd": 1.0597333312034607, "global_bwd": 1.0812543332576752, "x_quantize_rowwise": 0.11992454528808594, "g_quantize_rowwise": 0.026784837245941162, "w_quantize_rowwise": 0.8310377597808838, "w_quantize_colwise_transpose": 15.30550792813301, "w_quantize_global": 1.7401352524757385, "w_quantize_global_transpose": 1.8841177225112915, "cast_x": 0.1573599874973297, "cast_g": 0.03676116466522217, "cast_w": 1.195952296257019, "time_standard": 6.758175790309906, "time_rowwise": 20.770244300365448, "time_global": 8.208617568016052}
-{"repeat": 64, "batch_size": 2048, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 4.197858273983002, "standard_gw": 4.288379102945328, "standard_gx": 4.155721515417099, "rowwise_fwd": 2.0567886531352997, "rowwise_bwd": 1.9073635339736938, "global_fwd": 2.0506344735622406, "global_bwd": 1.9086338579654694, "x_quantize_rowwise": 0.04758685827255249, "g_quantize_rowwise": 0.22284314036369324, "w_quantize_rowwise": 0.5935467779636383, "w_quantize_colwise_transpose": 23.935042321681976, "w_quantize_global": 1.7397813498973846, "w_quantize_global_transpose": 1.8662959337234497, "cast_x": 0.08194148540496826, "cast_g": 0.3077872097492218, "cast_w": 1.1968687176704407, "time_standard": 12.641958892345428, "time_rowwise": 33.05155038833618, "time_global": 12.124154716730118}
-{"repeat": 64, "batch_size": 2048, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 4.126541316509247, "standard_gw": 4.309836775064468, "standard_gx": 4.117351025342941, "rowwise_fwd": 1.9266381859779358, "rowwise_bwd": 2.0577237010002136, "global_fwd": 1.908630132675171, "global_bwd": 2.0505934953689575, "x_quantize_rowwise": 0.22304058074951172, "g_quantize_rowwise": 0.04766136407852173, "w_quantize_rowwise": 0.8306317031383514, "w_quantize_colwise_transpose": 15.309855341911316, "w_quantize_global": 1.7415396869182587, "w_quantize_global_transpose": 1.8827766180038452, "cast_x": 0.30782073736190796, "cast_g": 0.08186325430870056, "cast_w": 1.1955127120018005, "time_standard": 12.553729116916656, "time_rowwise": 24.70538765192032, "time_global": 12.164078652858734}
-{"repeat": 64, "batch_size": 4096, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 8.298952132463455, "standard_gw": 8.345257490873337, "standard_gx": 8.647706359624863, "rowwise_fwd": 4.106882959604263, "rowwise_bwd": 3.8046911358833313, "global_fwd": 4.09451499581337, "global_bwd": 3.8078874349594116, "x_quantize_rowwise": 0.08447840809822083, "g_quantize_rowwise": 0.4291348159313202, "w_quantize_rowwise": 0.5934201180934906, "w_quantize_colwise_transpose": 23.843105882406235, "w_quantize_global": 1.7399191856384277, "w_quantize_global_transpose": 1.8653236329555511, "cast_x": 0.1577921211719513, "cast_g": 0.6089024245738983, "cast_w": 1.1952444911003113, "time_standard": 25.291915982961655, "time_rowwise": 41.2069708108902, "time_global": 20.366515964269638}
-{"repeat": 64, "batch_size": 4096, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 8.323360234498978, "standard_gw": 8.433796465396881, "standard_gx": 8.236430585384369, "rowwise_fwd": 3.8114115595817566, "rowwise_bwd": 4.106346517801285, "global_fwd": 3.8080140948295593, "global_bwd": 4.094675183296204, "x_quantize_rowwise": 0.4288516938686371, "g_quantize_rowwise": 0.08437782526016235, "w_quantize_rowwise": 0.8310228586196899, "w_quantize_colwise_transpose": 15.306610614061356, "w_quantize_global": 1.741155982017517, "w_quantize_global_transpose": 1.8809586763381958, "cast_x": 0.6091706454753876, "cast_g": 0.157233327627182, "cast_w": 1.1953115463256836, "time_standard": 24.993587285280228, "time_rowwise": 33.00241753458977, "time_global": 20.471829921007156}
-{"repeat": 64, "batch_size": 8192, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 16.656354069709778, "standard_gw": 17.066240310668945, "standard_gx": 17.252348363399506, "rowwise_fwd": 8.220307528972626, "rowwise_bwd": 7.2372183203697205, "global_fwd": 8.2036592066288, "global_bwd": 7.236208766698837, "x_quantize_rowwise": 0.15832111239433289, "g_quantize_rowwise": 0.8406005799770355, "w_quantize_rowwise": 0.5935393273830414, "w_quantize_colwise_transpose": 23.86143058538437, "w_quantize_global": 1.7401576042175293, "w_quantize_global_transpose": 1.8653534352779388, "cast_x": 0.3079026937484741, "cast_g": 1.209162175655365, "cast_w": 1.1951625347137451, "time_standard": 50.97494274377823, "time_rowwise": 57.97765776515007, "time_global": 37.11054101586342}
-{"repeat": 64, "batch_size": 8192, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 17.398890107870102, "standard_gw": 18.470749258995056, "standard_gx": 16.520217061042786, "rowwise_fwd": 7.235266268253326, "rowwise_bwd": 8.207589387893677, "global_fwd": 7.235914468765259, "global_bwd": 8.204508572816849, "x_quantize_rowwise": 0.8409880101680756, "g_quantize_rowwise": 0.15821680426597595, "w_quantize_rowwise": 0.8324198424816132, "w_quantize_colwise_transpose": 15.305522829294205, "w_quantize_global": 1.7396919429302216, "w_quantize_global_transpose": 1.8805749714374542, "cast_x": 1.2103468179702759, "cast_g": 0.30729547142982483, "cast_w": 1.1953599750995636, "time_standard": 52.389856427907944, "time_rowwise": 51.05075240135193, "time_global": 38.53064402937889}
-{"repeat": 64, "batch_size": 16384, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 33.533211797475815, "standard_gw": 33.00020843744278, "standard_gx": 34.614477306604385, "rowwise_fwd": 16.364943236112595, "rowwise_bwd": 14.551006257534027, "global_fwd": 16.33496955037117, "global_bwd": 14.513172209262848, "x_quantize_rowwise": 0.3053396940231323, "g_quantize_rowwise": 1.6693994402885437, "w_quantize_rowwise": 0.5936138331890106, "w_quantize_colwise_transpose": 23.89485388994217, "w_quantize_global": 1.741711050271988, "w_quantize_global_transpose": 1.8656104803085327, "cast_x": 0.6089657545089722, "cast_g": 2.4122074246406555, "cast_w": 1.1951886117458344, "time_standard": 101.14789754152298, "time_rowwise": 90.37936478853226, "time_global": 69.430410861969}
-{"repeat": 64, "batch_size": 16384, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 33.65536406636238, "standard_gw": 33.02193805575371, "standard_gx": 33.10496360063553, "rowwise_fwd": 14.54489678144455, "rowwise_bwd": 16.36252924799919, "global_fwd": 14.50401172041893, "global_bwd": 16.33254438638687, "x_quantize_rowwise": 1.6695670783519745, "g_quantize_rowwise": 0.3054291009902954, "w_quantize_rowwise": 0.83121657371521, "w_quantize_colwise_transpose": 15.305932611227036, "w_quantize_global": 1.7382949590682983, "w_quantize_global_transpose": 1.880194991827011, "cast_x": 2.412091940641403, "cast_g": 0.6079599261283875, "cast_w": 1.1950358748435974, "time_standard": 99.78226572275162, "time_rowwise": 82.04150944948196, "time_global": 69.45198029279709}
-{"repeat": 64, "batch_size": 32768, "dim_out": 32384, "dim_in": 8096, "wm": 4, "switch": false, "standard_fwd": 67.96638667583466, "standard_gw": 67.99514591693878, "standard_gx": 69.66376304626465, "rowwise_fwd": 33.51752087473869, "rowwise_bwd": 29.131878167390823, "global_fwd": 32.65715390443802, "global_bwd": 29.13403883576393, "x_quantize_rowwise": 0.6002038717269897, "g_quantize_rowwise": 3.3336542546749115, "w_quantize_rowwise": 0.5934685468673706, "w_quantize_colwise_transpose": 23.92345294356346, "w_quantize_global": 1.7405375838279724, "w_quantize_global_transpose": 1.8656738102436066, "cast_x": 1.2112446129322052, "cast_g": 4.81804832816124, "cast_w": 1.1952146887779236, "time_standard": 205.6252956390381, "time_rowwise": 159.09532457590103, "time_global": 137.3264081776142}
-{"repeat": 64, "batch_size": 32768, "dim_out": 8096, "dim_in": 32384, "wm": 4, "switch": true, "standard_fwd": 68.2341456413269, "standard_gw": 65.5074268579483, "standard_gx": 67.13805347681046, "rowwise_fwd": 29.153641313314438, "rowwise_bwd": 32.71844983100891, "global_fwd": 29.124341905117035, "global_bwd": 32.65979886054993, "x_quantize_rowwise": 3.3318176865577698, "g_quantize_rowwise": 0.6004795432090759, "w_quantize_rowwise": 0.8309967815876007, "w_quantize_colwise_transpose": 15.305690467357635, "w_quantize_global": 1.7405711114406586, "w_quantize_global_transpose": 1.8802620470523834, "cast_x": 4.8183538019657135, "cast_g": 1.2096390128135681, "cast_w": 1.1951103806495667, "time_standard": 200.87962597608566, "time_rowwise": 147.44850248098373, "time_global": 134.84469801187515}
-{"repeat": 64, "batch_size": 1024, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.07764250040054321, "standard_gw": 0.07398426532745361, "standard_gx": 0.08482858538627625, "rowwise_fwd": 0.05266070365905762, "rowwise_bwd": 0.04478543996810913, "global_fwd": 0.052012503147125244, "global_bwd": 0.044364482164382935, "x_quantize_rowwise": 0.02640858292579651, "g_quantize_rowwise": 0.02539902925491333, "w_quantize_rowwise": 0.026457011699676514, "w_quantize_colwise_transpose": 0.17770379781723022, "w_quantize_global": 0.07440149784088135, "w_quantize_global_transpose": 0.08142739534378052, "cast_x": 0.008150935173034668, "cast_g": 0.022415071725845337, "cast_w": 0.03479421138763428, "time_standard": 0.23645535111427307, "time_rowwise": 0.42739883065223694, "time_global": 0.3779977560043335}
-{"repeat": 64, "batch_size": 1024, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.08524581789970398, "standard_gw": 0.07383152842521667, "standard_gx": 0.07564574480056763, "rowwise_fwd": 0.04478171467781067, "rowwise_bwd": 0.052671879529953, "global_fwd": 0.04452839493751526, "global_bwd": 0.05219504237174988, "x_quantize_rowwise": 0.025328248739242554, "g_quantize_rowwise": 0.027123838663101196, "w_quantize_rowwise": 0.025607645511627197, "w_quantize_colwise_transpose": 0.17121434211730957, "w_quantize_global": 0.07916614413261414, "w_quantize_global_transpose": 0.08177384734153748, "cast_x": 0.022619962692260742, "cast_g": 0.008556991815567017, "cast_w": 0.034421682357788086, "time_standard": 0.23472309112548828, "time_rowwise": 0.42055919766426086, "time_global": 0.3839470446109772}
-{"repeat": 64, "batch_size": 2048, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.13731792569160461, "standard_gw": 0.13414397835731506, "standard_gx": 0.14049187302589417, "rowwise_fwd": 0.10158121585845947, "rowwise_bwd": 0.07804110646247864, "global_fwd": 0.09908527135848999, "global_bwd": 0.07766112685203552, "x_quantize_rowwise": 0.026516616344451904, "g_quantize_rowwise": 0.03666803240776062, "w_quantize_rowwise": 0.024981796741485596, "w_quantize_colwise_transpose": 0.17706677317619324, "w_quantize_global": 0.07443130016326904, "w_quantize_global_transpose": 0.07870793342590332, "cast_x": 0.01224130392074585, "cast_g": 0.05828961730003357, "cast_w": 0.03501400351524353, "time_standard": 0.41195377707481384, "time_rowwise": 0.5789995193481445, "time_global": 0.5272142589092255}
-{"repeat": 64, "batch_size": 2048, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.14651194214820862, "standard_gw": 0.14011189341545105, "standard_gx": 0.140264630317688, "rowwise_fwd": 0.081576406955719, "rowwise_bwd": 0.10671466588973999, "global_fwd": 0.08158013224601746, "global_bwd": 0.10219961404800415, "x_quantize_rowwise": 0.03775954246520996, "g_quantize_rowwise": 0.026103109121322632, "w_quantize_rowwise": 0.02656877040863037, "w_quantize_colwise_transpose": 0.17822161316871643, "w_quantize_global": 0.07506832480430603, "w_quantize_global_transpose": 0.07928535342216492, "cast_x": 0.05893409252166748, "cast_g": 0.012326985597610474, "cast_w": 0.03498047590255737, "time_standard": 0.42688846588134766, "time_rowwise": 0.5970560014247894, "time_global": 0.5421079695224762}
-{"repeat": 64, "batch_size": 4096, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.2734065055847168, "standard_gw": 0.25558844208717346, "standard_gx": 0.29174983501434326, "rowwise_fwd": 0.173322856426239, "rowwise_bwd": 0.1515895128250122, "global_fwd": 0.17048418521881104, "global_bwd": 0.1506991684436798, "x_quantize_rowwise": 0.025950372219085693, "g_quantize_rowwise": 0.0653192400932312, "w_quantize_rowwise": 0.027138739824295044, "w_quantize_colwise_transpose": 0.17699971795082092, "w_quantize_global": 0.07373467087745667, "w_quantize_global_transpose": 0.07901713252067566, "cast_x": 0.02214685082435608, "cast_g": 0.11127442121505737, "cast_w": 0.03481656312942505, "time_standard": 0.8207447826862335, "time_rowwise": 0.8759088814258575, "time_global": 0.8207932114601135}
-{"repeat": 64, "batch_size": 4096, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.27839839458465576, "standard_gw": 0.2537444233894348, "standard_gx": 0.28207898139953613, "rowwise_fwd": 0.16542896628379822, "rowwise_bwd": 0.18540024757385254, "global_fwd": 0.15722215175628662, "global_bwd": 0.17368420958518982, "x_quantize_rowwise": 0.06661936640739441, "g_quantize_rowwise": 0.027049332857131958, "w_quantize_rowwise": 0.025507062673568726, "w_quantize_colwise_transpose": 0.1741349697113037, "w_quantize_global": 0.07463246583938599, "w_quantize_global_transpose": 0.07879361510276794, "cast_x": 0.11301413178443909, "cast_g": 0.023346394300460815, "cast_w": 0.03505498170852661, "time_standard": 0.8142217993736267, "time_rowwise": 0.8978843688964844, "time_global": 0.8317455649375916}
-{"repeat": 64, "batch_size": 8192, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 0.5755424499511719, "standard_gw": 0.5219094455242157, "standard_gx": 0.5992203950881958, "rowwise_fwd": 0.33193081617355347, "rowwise_bwd": 0.295441597700119, "global_fwd": 0.32791122794151306, "global_bwd": 0.2906434237957001, "x_quantize_rowwise": 0.0337548553943634, "g_quantize_rowwise": 0.1225881278514862, "w_quantize_rowwise": 0.024937093257904053, "w_quantize_colwise_transpose": 0.17729029059410095, "w_quantize_global": 0.0730752944946289, "w_quantize_global_transpose": 0.07835403084754944, "cast_x": 0.058166682720184326, "cast_g": 0.21592900156974792, "cast_w": 0.03454089164733887, "time_standard": 1.6966722905635834, "time_rowwise": 1.5078522264957428, "time_global": 1.4482364058494568}
-{"repeat": 64, "batch_size": 8192, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 0.5104020237922668, "standard_gw": 0.5302242934703827, "standard_gx": 0.5842559039592743, "rowwise_fwd": 0.32220035791397095, "rowwise_bwd": 0.3576017916202545, "global_fwd": 0.2939775586128235, "global_bwd": 0.3313682973384857, "x_quantize_rowwise": 0.12369826436042786, "g_quantize_rowwise": 0.03423169255256653, "w_quantize_rowwise": 0.026501715183258057, "w_quantize_colwise_transpose": 0.16975775361061096, "w_quantize_global": 0.0768713653087616, "w_quantize_global_transpose": 0.08094683289527893, "cast_x": 0.21589547395706177, "cast_g": 0.05825608968734741, "cast_w": 0.03466010093688965, "time_standard": 1.6248822212219238, "time_rowwise": 1.5642158687114716, "time_global": 1.4713183045387268}
-{"repeat": 64, "batch_size": 16384, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 1.194491982460022, "standard_gw": 1.0553859174251556, "standard_gx": 1.0726377367973328, "rowwise_fwd": 0.636763870716095, "rowwise_bwd": 0.5154944956302643, "global_fwd": 0.6281323730945587, "global_bwd": 0.5117170512676239, "x_quantize_rowwise": 0.062175095081329346, "g_quantize_rowwise": 0.23643672466278076, "w_quantize_rowwise": 0.025566667318344116, "w_quantize_colwise_transpose": 0.17768144607543945, "w_quantize_global": 0.07302314043045044, "w_quantize_global_transpose": 0.07866695523262024, "cast_x": 0.11140108108520508, "cast_g": 0.42498111724853516, "cast_w": 0.034831464290618896, "time_standard": 3.3225156366825104, "time_rowwise": 2.7095042169094086, "time_global": 2.645537257194519}
-{"repeat": 64, "batch_size": 16384, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 1.0797791182994843, "standard_gw": 1.062549650669098, "standard_gx": 1.104947179555893, "rowwise_fwd": 0.5390122532844543, "rowwise_bwd": 0.6449781358242035, "global_fwd": 0.5145668983459473, "global_bwd": 0.6276033818721771, "x_quantize_rowwise": 0.23603439331054688, "g_quantize_rowwise": 0.062234699726104736, "w_quantize_rowwise": 0.02781301736831665, "w_quantize_colwise_transpose": 0.1703314483165741, "w_quantize_global": 0.07431954145431519, "w_quantize_global_transpose": 0.08028373122215271, "cast_x": 0.4249885678291321, "cast_g": 0.1113303005695343, "cast_w": 0.0348016619682312, "time_standard": 3.247275948524475, "time_rowwise": 2.742953598499298, "time_global": 2.657592296600342}
-{"repeat": 64, "batch_size": 32768, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 2.392485737800598, "standard_gw": 2.046734094619751, "standard_gx": 2.177651971578598, "rowwise_fwd": 1.252591609954834, "rowwise_bwd": 1.0205842554569244, "global_fwd": 1.230098307132721, "global_bwd": 1.0132193565368652, "x_quantize_rowwise": 0.11823698878288269, "g_quantize_rowwise": 0.4639141261577606, "w_quantize_rowwise": 0.02602487802505493, "w_quantize_colwise_transpose": 0.17801672220230103, "w_quantize_global": 0.07301196455955505, "w_quantize_global_transpose": 0.07893890142440796, "cast_x": 0.21591037511825562, "cast_g": 0.843394547700882, "cast_w": 0.03460049629211426, "time_standard": 6.616871803998947, "time_rowwise": 5.106102675199509, "time_global": 5.0241537392139435}
-{"repeat": 64, "batch_size": 32768, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 2.205628901720047, "standard_gw": 1.9917488098144531, "standard_gx": 2.1518059074878693, "rowwise_fwd": 1.040138304233551, "rowwise_bwd": 1.2538731098175049, "global_fwd": 1.0131187736988068, "global_bwd": 1.2291893362998962, "x_quantize_rowwise": 0.46381354331970215, "g_quantize_rowwise": 0.11790916323661804, "w_quantize_rowwise": 0.027123838663101196, "w_quantize_colwise_transpose": 0.17021596431732178, "w_quantize_global": 0.0752471387386322, "w_quantize_global_transpose": 0.08159875869750977, "cast_x": 0.8433908224105835, "cast_g": 0.215873122215271, "cast_w": 0.03452599048614502, "time_standard": 6.349183619022369, "time_rowwise": 5.064822733402252, "time_global": 4.972625523805618}
-{"repeat": 64, "batch_size": 65536, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 4.755370318889618, "standard_gw": 4.736289381980896, "standard_gx": 4.0378570556640625, "rowwise_fwd": 2.4783052504062653, "rowwise_bwd": 1.9634142518043518, "global_fwd": 2.435591071844101, "global_bwd": 1.9498206675052643, "x_quantize_rowwise": 0.22948533296585083, "g_quantize_rowwise": 0.9186491370201111, "w_quantize_rowwise": 0.028233975172042847, "w_quantize_colwise_transpose": 0.17858296632766724, "w_quantize_global": 0.07418543100357056, "w_quantize_global_transpose": 0.07958710193634033, "cast_x": 0.4257224500179291, "cast_g": 1.680031418800354, "cast_w": 0.03458559513092041, "time_standard": 13.529516756534576, "time_rowwise": 10.532960295677185, "time_global": 10.423608124256134}
-{"repeat": 64, "batch_size": 65536, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 4.050172865390778, "standard_gw": 3.916766494512558, "standard_gx": 4.281226545572281, "rowwise_fwd": 1.9789263606071472, "rowwise_bwd": 2.477586269378662, "global_fwd": 1.9495487213134766, "global_bwd": 2.434592694044113, "x_quantize_rowwise": 0.918261706829071, "g_quantize_rowwise": 0.22961944341659546, "w_quantize_rowwise": 0.025540590286254883, "w_quantize_colwise_transpose": 0.17032772302627563, "w_quantize_global": 0.07384642958641052, "w_quantize_global_transpose": 0.08105114102363586, "cast_x": 1.679886132478714, "cast_g": 0.42508915066719055, "cast_w": 0.03442913293838501, "time_standard": 12.248165905475616, "time_rowwise": 9.717028588056564, "time_global": 9.60368663072586}
-{"repeat": 64, "batch_size": 131072, "dim_out": 5632, "dim_in": 1408, "wm": 4, "switch": false, "standard_fwd": 9.53347235918045, "standard_gw": 8.138865232467651, "standard_gx": 7.9666972160339355, "rowwise_fwd": 4.984956234693527, "rowwise_bwd": 3.850068897008896, "global_fwd": 4.9025751650333405, "global_bwd": 3.820303827524185, "x_quantize_rowwise": 0.45222043991088867, "g_quantize_rowwise": 1.8290691077709198, "w_quantize_rowwise": 0.026736408472061157, "w_quantize_colwise_transpose": 0.17832592129707336, "w_quantize_global": 0.07471069693565369, "w_quantize_global_transpose": 0.08177757263183594, "cast_x": 0.8435025811195374, "cast_g": 3.3529214560985565, "cast_w": 0.03475695848464966, "time_standard": 25.639034807682037, "time_rowwise": 19.460242241621017, "time_global": 19.299522042274475}
-{"repeat": 64, "batch_size": 131072, "dim_out": 1408, "dim_in": 5632, "wm": 4, "switch": true, "standard_fwd": 7.996037602424622, "standard_gw": 8.2748644053936, "standard_gx": 8.523400872945786, "rowwise_fwd": 3.8556940853595734, "rowwise_bwd": 4.966288805007935, "global_fwd": 3.820043057203293, "global_bwd": 4.882067441940308, "x_quantize_rowwise": 1.8279887735843658, "g_quantize_rowwise": 0.4520900547504425, "w_quantize_rowwise": 0.02676248550415039, "w_quantize_colwise_transpose": 0.17083808779716492, "w_quantize_global": 0.07691606879234314, "w_quantize_global_transpose": 0.08223950862884521, "cast_x": 3.3530443906784058, "cast_g": 0.8434318006038666, "cast_w": 0.034671276807785034, "time_standard": 24.794302880764008, "time_rowwise": 19.574526697397232, "time_global": 19.416209310293198}
-{"repeat": 64, "batch_size": 1024, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.09413063526153564, "standard_gw": 0.10038167238235474, "standard_gx": 0.09725615382194519, "rowwise_fwd": 0.05979463458061218, "rowwise_bwd": 0.0525452196598053, "global_fwd": 0.059057027101516724, "global_bwd": 0.05194917321205139, "x_quantize_rowwise": 0.02664700150489807, "g_quantize_rowwise": 0.02642720937728882, "w_quantize_rowwise": 0.030562281608581543, "w_quantize_colwise_transpose": 0.2400912344455719, "w_quantize_global": 0.09407848119735718, "w_quantize_global_transpose": 0.10256841778755188, "cast_x": 0.008724629878997803, "cast_g": 0.028502196073532104, "cast_w": 0.05552172660827637, "time_standard": 0.29176846146583557, "time_rowwise": 0.5364492535591125, "time_global": 0.4611089825630188}
-{"repeat": 64, "batch_size": 1024, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.09753555059432983, "standard_gw": 0.10102242231369019, "standard_gx": 0.09121373295783997, "rowwise_fwd": 0.052150338888168335, "rowwise_bwd": 0.059779733419418335, "global_fwd": 0.05161017179489136, "global_bwd": 0.05943328142166138, "x_quantize_rowwise": 0.026702880859375, "g_quantize_rowwise": 0.02469494938850403, "w_quantize_rowwise": 0.03324449062347412, "w_quantize_colwise_transpose": 0.23468583822250366, "w_quantize_global": 0.09394437074661255, "w_quantize_global_transpose": 0.10142102837562561, "cast_x": 0.028360635042190552, "cast_g": 0.008717179298400879, "cast_w": 0.05577504634857178, "time_standard": 0.28977170586586, "time_rowwise": 0.5322806537151337, "time_global": 0.4588291049003601}
-{"repeat": 64, "batch_size": 2048, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.18056854605674744, "standard_gw": 0.18374621868133545, "standard_gx": 0.19219890236854553, "rowwise_fwd": 0.1150965690612793, "rowwise_bwd": 0.0903494656085968, "global_fwd": 0.11263042688369751, "global_bwd": 0.08984282612800598, "x_quantize_rowwise": 0.027067959308624268, "g_quantize_rowwise": 0.040043145418167114, "w_quantize_rowwise": 0.03063306212425232, "w_quantize_colwise_transpose": 0.24128705263137817, "w_quantize_global": 0.09361281991004944, "w_quantize_global_transpose": 0.1024976372718811, "cast_x": 0.01381710171699524, "cast_g": 0.06845593452453613, "cast_w": 0.05572289228439331, "time_standard": 0.5565136671066284, "time_rowwise": 0.7282234728336334, "time_global": 0.6494410336017609}
-{"repeat": 64, "batch_size": 2048, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.16536936163902283, "standard_gw": 0.19479170441627502, "standard_gx": 0.18597766757011414, "rowwise_fwd": 0.09634345769882202, "rowwise_bwd": 0.11937320232391357, "global_fwd": 0.09264424443244934, "global_bwd": 0.11524930596351624, "x_quantize_rowwise": 0.04038214683532715, "g_quantize_rowwise": 0.025559216737747192, "w_quantize_rowwise": 0.03334507346153259, "w_quantize_colwise_transpose": 0.23956596851348877, "w_quantize_global": 0.09445473551750183, "w_quantize_global_transpose": 0.1020580530166626, "cast_x": 0.06891414523124695, "cast_g": 0.013861805200576782, "cast_w": 0.05607306957244873, "time_standard": 0.546138733625412, "time_rowwise": 0.7493607699871063, "time_global": 0.6651394069194794}
-{"repeat": 64, "batch_size": 4096, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.36064907908439636, "standard_gw": 0.3711991012096405, "standard_gx": 0.3863237798213959, "rowwise_fwd": 0.22270530462265015, "rowwise_bwd": 0.1760348677635193, "global_fwd": 0.21781772375106812, "global_bwd": 0.17484650015830994, "x_quantize_rowwise": 0.02625212073326111, "g_quantize_rowwise": 0.07131323218345642, "w_quantize_rowwise": 0.030372291803359985, "w_quantize_colwise_transpose": 0.23974105715751648, "w_quantize_global": 0.09407475590705872, "w_quantize_global_transpose": 0.1024492084980011, "cast_x": 0.028584152460098267, "cast_g": 0.1303069293498993, "cast_w": 0.05582347512245178, "time_standard": 1.1181719601154327, "time_rowwise": 1.137617975473404, "time_global": 1.057952642440796}
-{"repeat": 64, "batch_size": 4096, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.32703205943107605, "standard_gw": 0.3764517605304718, "standard_gx": 0.3938935697078705, "rowwise_fwd": 0.18771737813949585, "rowwise_bwd": 0.2374798059463501, "global_fwd": 0.1843757927417755, "global_bwd": 0.23005902767181396, "x_quantize_rowwise": 0.07155537605285645, "g_quantize_rowwise": 0.02625212073326111, "w_quantize_rowwise": 0.03294646739959717, "w_quantize_colwise_transpose": 0.23755058646202087, "w_quantize_global": 0.09388476610183716, "w_quantize_global_transpose": 0.10246038436889648, "cast_x": 0.13131648302078247, "cast_g": 0.028781592845916748, "cast_w": 0.05638599395751953, "time_standard": 1.0973773896694183, "time_rowwise": 1.1699534952640533, "time_global": 1.0850392282009125}
-{"repeat": 64, "batch_size": 8192, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 0.7961541414260864, "standard_gw": 0.7424280047416687, "standard_gx": 0.8688867092132568, "rowwise_fwd": 0.432576984167099, "rowwise_bwd": 0.34543126821517944, "global_fwd": 0.4248805344104767, "global_bwd": 0.3432855010032654, "x_quantize_rowwise": 0.03750622272491455, "g_quantize_rowwise": 0.13292208313941956, "w_quantize_rowwise": 0.030599534511566162, "w_quantize_colwise_transpose": 0.24292618036270142, "w_quantize_global": 0.09351596236228943, "w_quantize_global_transpose": 0.1026056706905365, "cast_x": 0.06843730807304382, "cast_g": 0.2539418637752533, "cast_w": 0.05568563938140869, "time_standard": 2.407468855381012, "time_rowwise": 1.9643902778625488, "time_global": 1.8771439790725708}
-{"repeat": 64, "batch_size": 8192, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 0.7150471210479736, "standard_gw": 0.7525831460952759, "standard_gx": 0.8075274527072906, "rowwise_fwd": 0.36595389246940613, "rowwise_bwd": 0.4404708743095398, "global_fwd": 0.3485158085823059, "global_bwd": 0.4275962710380554, "x_quantize_rowwise": 0.1329965889453888, "g_quantize_rowwise": 0.03767386078834534, "w_quantize_rowwise": 0.03295019268989563, "w_quantize_colwise_transpose": 0.23509934544563293, "w_quantize_global": 0.09398534893989563, "w_quantize_global_transpose": 0.10186433792114258, "cast_x": 0.2537667751312256, "cast_g": 0.06839632987976074, "cast_w": 0.05571544170379639, "time_standard": 2.27515771985054, "time_rowwise": 1.9977279007434845, "time_global": 1.8952153623104095}
-{"repeat": 64, "batch_size": 16384, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 1.6392990946769714, "standard_gw": 1.4941170811653137, "standard_gx": 1.4451220631599426, "rowwise_fwd": 0.8369758725166321, "rowwise_bwd": 0.6830468773841858, "global_fwd": 0.8197203278541565, "global_bwd": 0.6782263517379761, "x_quantize_rowwise": 0.06883591413497925, "g_quantize_rowwise": 0.2565309405326843, "w_quantize_rowwise": 0.03046169877052307, "w_quantize_colwise_transpose": 0.2430342137813568, "w_quantize_global": 0.09346380829811096, "w_quantize_global_transpose": 0.10301917791366577, "cast_x": 0.13044849038124084, "cast_g": 0.5010999739170074, "cast_w": 0.05590170621871948, "time_standard": 4.578538239002228, "time_rowwise": 3.613002598285675, "time_global": 3.5139136016368866}
-{"repeat": 64, "batch_size": 16384, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 1.4654621481895447, "standard_gw": 1.5012174844741821, "standard_gx": 1.5183314681053162, "rowwise_fwd": 0.7059797644615173, "rowwise_bwd": 0.8470229804515839, "global_fwd": 0.6788894534111023, "global_bwd": 0.8200779557228088, "x_quantize_rowwise": 0.2564750611782074, "g_quantize_rowwise": 0.06899237632751465, "w_quantize_rowwise": 0.03293529152870178, "w_quantize_colwise_transpose": 0.23559853434562683, "w_quantize_global": 0.09375810623168945, "w_quantize_global_transpose": 0.10203942656517029, "cast_x": 0.5010105669498444, "cast_g": 0.13037025928497314, "cast_w": 0.05577504634857178, "time_standard": 4.485011100769043, "time_rowwise": 3.648221492767334, "time_global": 3.521449863910675}
-{"repeat": 64, "batch_size": 32768, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 3.236088901758194, "standard_gw": 2.8601549565792084, "standard_gx": 2.8000958263874054, "rowwise_fwd": 1.6548968851566315, "rowwise_bwd": 1.3559646904468536, "global_fwd": 1.6249343752861023, "global_bwd": 1.3474412262439728, "x_quantize_rowwise": 0.13122707605361938, "g_quantize_rowwise": 0.5038455128669739, "w_quantize_rowwise": 0.03061816096305847, "w_quantize_colwise_transpose": 0.24301931262016296, "w_quantize_global": 0.09343400597572327, "w_quantize_global_transpose": 0.10178983211517334, "cast_x": 0.25383010506629944, "cast_g": 0.9955987334251404, "cast_w": 0.05569681525230408, "time_standard": 8.896339684724808, "time_rowwise": 6.779726594686508, "time_global": 6.662826985120773}
-{"repeat": 64, "batch_size": 32768, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 2.8433389961719513, "standard_gw": 2.861086279153824, "standard_gx": 3.0227042734622955, "rowwise_fwd": 1.4057457447052002, "rowwise_bwd": 1.6565024852752686, "global_fwd": 1.3475008308887482, "global_bwd": 1.6247481107711792, "x_quantize_rowwise": 0.5038045346736908, "g_quantize_rowwise": 0.13130158185958862, "w_quantize_rowwise": 0.03298744559288025, "w_quantize_colwise_transpose": 0.23539364337921143, "w_quantize_global": 0.09393692016601562, "w_quantize_global_transpose": 0.10208785533905029, "cast_x": 0.9952597320079803, "cast_g": 0.25385990738868713, "cast_w": 0.05589798092842102, "time_standard": 8.72712954878807, "time_rowwise": 6.826821714639664, "time_global": 6.664466112852097}
-{"repeat": 64, "batch_size": 65536, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 6.449159234762192, "standard_gw": 6.384443491697311, "standard_gx": 5.543403327465057, "rowwise_fwd": 3.3065229654312134, "rowwise_bwd": 2.6249960064888, "global_fwd": 3.2497718930244446, "global_bwd": 2.6061534881591797, "x_quantize_rowwise": 0.25821104645729065, "g_quantize_rowwise": 0.9981803596019745, "w_quantize_rowwise": 0.030606985092163086, "w_quantize_colwise_transpose": 0.24094432592391968, "w_quantize_global": 0.09358301758766174, "w_quantize_global_transpose": 0.10264664888381958, "cast_x": 0.5018562078475952, "cast_g": 1.9840113818645477, "cast_w": 0.05584210157394409, "time_standard": 18.37700605392456, "time_rowwise": 13.843905180692673, "time_global": 13.692989945411682}
-{"repeat": 64, "batch_size": 65536, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 5.508493632078171, "standard_gw": 5.689781159162521, "standard_gx": 6.020743399858475, "rowwise_fwd": 2.640843391418457, "rowwise_bwd": 3.3075474202632904, "global_fwd": 2.605751156806946, "global_bwd": 3.2674334943294525, "x_quantize_rowwise": 0.9983181953430176, "g_quantize_rowwise": 0.25597214698791504, "w_quantize_rowwise": 0.03277510404586792, "w_quantize_colwise_transpose": 0.23587048053741455, "w_quantize_global": 0.09367987513542175, "w_quantize_global_transpose": 0.10236725211143494, "cast_x": 1.9848868250846863, "cast_g": 0.5010329186916351, "cast_w": 0.055771321058273315, "time_standard": 17.219018191099167, "time_rowwise": 13.161107897758484, "time_global": 13.013303279876709}
-{"repeat": 64, "batch_size": 131072, "dim_out": 6656, "dim_in": 1664, "wm": 4, "switch": false, "standard_fwd": 12.975204735994339, "standard_gw": 11.424731463193893, "standard_gx": 11.05477660894394, "rowwise_fwd": 6.623122841119766, "rowwise_bwd": 5.253363400697708, "global_fwd": 6.506938487291336, "global_bwd": 5.211424082517624, "x_quantize_rowwise": 0.5057789385318756, "g_quantize_rowwise": 1.9870363175868988, "w_quantize_rowwise": 0.030517578125, "w_quantize_colwise_transpose": 0.24361908435821533, "w_quantize_global": 0.09384006261825562, "w_quantize_global_transpose": 0.10285153985023499, "cast_x": 0.9967051446437836, "cast_g": 3.9620958268642426, "cast_w": 0.05599111318588257, "time_standard": 35.45471280813217, "time_rowwise": 26.068169623613358, "time_global": 25.83260089159012}
-{"repeat": 64, "batch_size": 131072, "dim_out": 1664, "dim_in": 6656, "wm": 4, "switch": true, "standard_fwd": 11.05555146932602, "standard_gw": 11.32136583328247, "standard_gx": 12.035444378852844, "rowwise_fwd": 5.243867635726929, "rowwise_bwd": 6.622854620218277, "global_fwd": 5.209986120462418, "global_bwd": 6.507329642772675, "x_quantize_rowwise": 1.9862838089466095, "g_quantize_rowwise": 0.506080687046051, "w_quantize_rowwise": 0.03318488597869873, "w_quantize_colwise_transpose": 0.23682788014411926, "w_quantize_global": 0.09349361062049866, "w_quantize_global_transpose": 0.1023709774017334, "cast_x": 3.962486982345581, "cast_g": 0.9956248104572296, "cast_w": 0.05572289228439331, "time_standard": 34.412361681461334, "time_rowwise": 25.950465351343155, "time_global": 25.726910680532455}
diff --git a/tests/triton_tests/info_mlp.jsonl b/tests/triton_tests/info_mlp.jsonl
deleted file mode 100644
index a2076ee..0000000
--- a/tests/triton_tests/info_mlp.jsonl
+++ /dev/null
@@ -1,20 +0,0 @@
-{"repeat": 32, "batch_size": 16384, "dim": 1024, "standard": 3.807276487350464, "my_standard": 4.196919500827789, "standard_compiled": 3.771558403968811, "sb": 3.5132691264152527}
-{"repeat": 32, "batch_size": 32768, "dim": 1024, "standard": 7.215872406959534, "my_standard": 7.991522550582886, "standard_compiled": 7.241688668727875, "sb": 6.581142544746399}
-{"repeat": 32, "batch_size": 65536, "dim": 1024, "standard": 14.26444947719574, "my_standard": 15.685759484767914, "standard_compiled": 14.251746237277985, "sb": 12.735314667224884}
-{"repeat": 32, "batch_size": 131072, "dim": 1024, "standard": 28.49559485912323, "my_standard": 31.26966953277588, "standard_compiled": 28.414390981197357, "sb": 25.319166481494904}
-{"repeat": 32, "batch_size": 16384, "dim": 1280, "standard": 5.887262523174286, "my_standard": 6.132654845714569, "standard_compiled": 5.902409553527832, "sb": 4.947789013385773}
-{"repeat": 32, "batch_size": 32768, "dim": 1280, "standard": 11.14131510257721, "my_standard": 12.859955430030823, "standard_compiled": 11.133037507534027, "sb": 9.303092956542969}
-{"repeat": 32, "batch_size": 65536, "dim": 1280, "standard": 22.193141281604767, "my_standard": 25.66336840391159, "standard_compiled": 22.22583442926407, "sb": 18.285617232322693}
-{"repeat": 32, "batch_size": 131072, "dim": 1280, "standard": 44.23898458480835, "my_standard": 51.30268633365631, "standard_compiled": 44.08355802297592, "sb": 35.999126732349396}
-{"repeat": 32, "batch_size": 16384, "dim": 1408, "standard": 6.938718259334564, "my_standard": 7.269218564033508, "standard_compiled": 6.94604218006134, "sb": 5.764961242675781}
-{"repeat": 32, "batch_size": 32768, "dim": 1408, "standard": 13.04878294467926, "my_standard": 13.742901384830475, "standard_compiled": 13.011425733566284, "sb": 10.774023830890656}
-{"repeat": 32, "batch_size": 65536, "dim": 1408, "standard": 26.738539338111877, "my_standard": 27.739346027374268, "standard_compiled": 26.75659954547882, "sb": 21.882005035877228}
-{"repeat": 32, "batch_size": 131072, "dim": 1408, "standard": 51.905401051044464, "my_standard": 53.98637801408768, "standard_compiled": 51.8316924571991, "sb": 41.67725890874863}
-{"repeat": 32, "batch_size": 16384, "dim": 1664, "standard": 9.233824908733368, "my_standard": 9.619377553462982, "standard_compiled": 9.214423596858978, "sb": 7.557623088359833}
-{"repeat": 32, "batch_size": 32768, "dim": 1664, "standard": 17.324909567832947, "my_standard": 17.996780574321747, "standard_compiled": 17.29544997215271, "sb": 14.035224914550781}
-{"repeat": 32, "batch_size": 65536, "dim": 1664, "standard": 35.51657497882843, "my_standard": 36.674730479717255, "standard_compiled": 35.43049842119217, "sb": 28.38330715894699}
-{"repeat": 32, "batch_size": 131072, "dim": 1664, "standard": 69.0087378025055, "my_standard": 71.56594842672348, "standard_compiled": 68.82885098457336, "sb": 54.01633679866791}
-{"repeat": 32, "batch_size": 16384, "dim": 2048, "standard": 12.590140104293823, "my_standard": 13.106442987918854, "standard_compiled": 12.606985867023468, "sb": 10.286301374435425}
-{"repeat": 32, "batch_size": 32768, "dim": 2048, "standard": 24.830535054206848, "my_standard": 25.563716888427734, "standard_compiled": 24.895809590816498, "sb": 19.559212028980255}
-{"repeat": 32, "batch_size": 65536, "dim": 2048, "standard": 49.55078661441803, "my_standard": 51.16480588912964, "standard_compiled": 49.739621579647064, "sb": 38.29141706228256}
-{"repeat": 32, "batch_size": 131072, "dim": 2048, "standard": 98.36294502019882, "my_standard": 102.69322991371155, "standard_compiled": 98.76712411642075, "sb": 75.88706165552139}
diff --git a/tests/triton_tests/info_mlp_autocast.jsonl b/tests/triton_tests/info_mlp_autocast.jsonl
deleted file mode 100644
index f2098cc..0000000
--- a/tests/triton_tests/info_mlp_autocast.jsonl
+++ /dev/null
@@ -1,20 +0,0 @@
-{"repeat": 32, "batch_size": 16384, "dim": 1024, "standard": 4.91420179605484, "my_standard": 5.577877163887024, "standard_compiled": 4.810944199562073, "sb": 4.512995481491089}
-{"repeat": 32, "batch_size": 32768, "dim": 1024, "standard": 8.876129984855652, "my_standard": 10.154612362384796, "standard_compiled": 8.820965886116028, "sb": 8.367843925952911}
-{"repeat": 32, "batch_size": 65536, "dim": 1024, "standard": 17.47015118598938, "my_standard": 19.857674837112427, "standard_compiled": 17.338842153549194, "sb": 15.992552042007446}
-{"repeat": 32, "batch_size": 131072, "dim": 1024, "standard": 34.824438393116, "my_standard": 39.499424397945404, "standard_compiled": 34.56207364797592, "sb": 31.573951244354248}
-{"repeat": 32, "batch_size": 16384, "dim": 1280, "standard": 7.342606782913208, "my_standard": 7.9323723912239075, "standard_compiled": 7.279552519321442, "sb": 6.395488977432251}
-{"repeat": 32, "batch_size": 32768, "dim": 1280, "standard": 13.69999349117279, "my_standard": 16.0503089427948, "standard_compiled": 13.603456318378448, "sb": 11.813104152679443}
-{"repeat": 32, "batch_size": 65536, "dim": 1280, "standard": 29.557034373283386, "my_standard": 34.2303067445755, "standard_compiled": 29.382556676864624, "sb": 22.882774472236633}
-{"repeat": 32, "batch_size": 131072, "dim": 1280, "standard": 53.629085421562195, "my_standard": 63.07622790336609, "standard_compiled": 53.33048850297928, "sb": 44.76426541805267}
-{"repeat": 32, "batch_size": 16384, "dim": 1408, "standard": 8.81417840719223, "my_standard": 9.477965533733368, "standard_compiled": 8.73943418264389, "sb": 7.479414343833923}
-{"repeat": 32, "batch_size": 32768, "dim": 1408, "standard": 16.242466866970062, "my_standard": 17.616644501686096, "standard_compiled": 16.14125818014145, "sb": 13.665586709976196}
-{"repeat": 32, "batch_size": 65536, "dim": 1408, "standard": 32.429613173007965, "my_standard": 34.80646014213562, "standard_compiled": 32.319076359272, "sb": 27.123987674713135}
-{"repeat": 32, "batch_size": 131072, "dim": 1408, "standard": 62.85770237445831, "my_standard": 67.55391508340836, "standard_compiled": 62.453076243400574, "sb": 51.53566598892212}
-{"repeat": 32, "batch_size": 16384, "dim": 1664, "standard": 11.585861444473267, "my_standard": 12.565858662128448, "standard_compiled": 11.504307389259338, "sb": 9.657211601734161}
-{"repeat": 32, "batch_size": 32768, "dim": 1664, "standard": 21.261662244796753, "my_standard": 22.771358489990234, "standard_compiled": 21.12410217523575, "sb": 17.64291524887085}
-{"repeat": 32, "batch_size": 65536, "dim": 1664, "standard": 42.85307973623276, "my_standard": 45.70870101451874, "standard_compiled": 42.57970303297043, "sb": 34.918561577796936}
-{"repeat": 32, "batch_size": 131072, "dim": 1664, "standard": 83.56057852506638, "my_standard": 89.11971747875214, "standard_compiled": 83.05662125349045, "sb": 66.32210314273834}
-{"repeat": 32, "batch_size": 16384, "dim": 2048, "standard": 15.7279372215271, "my_standard": 16.854502260684967, "standard_compiled": 15.655294060707092, "sb": 13.228952884674072}
-{"repeat": 32, "batch_size": 32768, "dim": 2048, "standard": 30.42648732662201, "my_standard": 32.26502239704132, "standard_compiled": 30.239209532737732, "sb": 24.354808032512665}
-{"repeat": 32, "batch_size": 65536, "dim": 2048, "standard": 60.779355466365814, "my_standard": 64.11923468112946, "standard_compiled": 60.89268624782562, "sb": 46.91776633262634}
-{"repeat": 32, "batch_size": 131072, "dim": 2048, "standard": 119.93677169084549, "my_standard": 128.19699943065643, "standard_compiled": 120.20225822925568, "sb": 92.3452153801918}
diff --git a/tests/triton_tests/info_mlp_autocast_ln.jsonl b/tests/triton_tests/info_mlp_autocast_ln.jsonl
deleted file mode 100644
index 706f949..0000000
--- a/tests/triton_tests/info_mlp_autocast_ln.jsonl
+++ /dev/null
@@ -1,23 +0,0 @@
-{"repeat": 32, "batch_size": 16384, "dim": 1024, "standard": 5.171686410903931, "my_standard": 5.839601159095764, "standard_compiled": 5.032263696193695, "sb": 4.89344447851181}
-{"repeat": 32, "batch_size": 32768, "dim": 1024, "standard": 9.605035185813904, "my_standard": 10.910414159297943, "standard_compiled": 9.230785071849823, "sb": 9.128175675868988}
-{"repeat": 32, "batch_size": 65536, "dim": 1024, "standard": 18.802084028720856, "my_standard": 21.311581134796143, "standard_compiled": 18.105976283550262, "sb": 17.489850521087646}
-{"repeat": 32, "batch_size": 131072, "dim": 1024, "standard": 37.49683499336243, "my_standard": 42.40527004003525, "standard_compiled": 36.13145649433136, "sb": 34.58733111619949}
-{"repeat": 32, "batch_size": 16384, "dim": 1280, "standard": 7.709823548793793, "my_standard": 8.290477097034454, "standard_compiled": 7.564418017864227, "sb": 6.8823546171188354}
-{"repeat": 32, "batch_size": 32768, "dim": 1280, "standard": 14.64156061410904, "my_standard": 16.996942460536957, "standard_compiled": 14.4081711769104, "sb": 12.761622667312622}
-{"repeat": 32, "batch_size": 65536, "dim": 1280, "standard": 31.40200674533844, "my_standard": 36.074504256248474, "standard_compiled": 30.981406569480896, "sb": 24.76389706134796}
-{"repeat": 32, "batch_size": 131072, "dim": 1280, "standard": 56.93405121564865, "my_standard": 66.35250151157379, "standard_compiled": 56.07586354017258, "sb": 48.49743843078613}
-{"repeat": 32, "batch_size": 16384, "dim": 1408, "standard": 9.188003838062286, "my_standard": 9.84550267457962, "standard_compiled": 9.006097912788391, "sb": 7.9473331570625305}
-{"repeat": 32, "batch_size": 32768, "dim": 1408, "standard": 17.268165946006775, "my_standard": 18.64910125732422, "standard_compiled": 16.983114182949066, "sb": 14.70106840133667}
-{"repeat": 32, "batch_size": 65536, "dim": 1408, "standard": 34.39047932624817, "my_standard": 36.69705241918564, "standard_compiled": 33.8401272892952, "sb": 29.188089072704315}
-{"repeat": 32, "batch_size": 131072, "dim": 1408, "standard": 66.70494377613068, "my_standard": 71.27603143453598, "standard_compiled": 65.56134670972824, "sb": 55.6538850069046}
-{"repeat": 32, "batch_size": 16384, "dim": 1664, "standard": 12.10707426071167, "my_standard": 12.931793928146362, "standard_compiled": 11.76995038986206, "sb": 10.228671133518219}
-{"repeat": 32, "batch_size": 32768, "dim": 1664, "standard": 22.5130096077919, "my_standard": 23.962542414665222, "standard_compiled": 21.997176110744476, "sb": 18.89890432357788}
-{"repeat": 32, "batch_size": 65536, "dim": 1664, "standard": 45.210108160972595, "my_standard": 47.94136434793472, "standard_compiled": 44.2262664437294, "sb": 37.37735003232956}
-{"repeat": 32, "batch_size": 131072, "dim": 1664, "standard": 88.1955549120903, "my_standard": 93.6831533908844, "standard_compiled": 86.33609116077423, "sb": 71.23208791017532}
-{"repeat": 32, "batch_size": 16384, "dim": 2048, "standard": 16.538940370082855, "my_standard": 17.607316374778748, "standard_compiled": 16.108587384223938, "sb": 14.030493795871735}
-{"repeat": 32, "batch_size": 32768, "dim": 2048, "standard": 31.795650720596313, "my_standard": 33.57230871915817, "standard_compiled": 31.04180097579956, "sb": 25.971196591854095}
-{"repeat": 32, "batch_size": 65536, "dim": 2048, "standard": 63.021354377269745, "my_standard": 66.8477788567543, "standard_compiled": 61.682507395744324, "sb": 50.138771533966064}
-{"repeat": 32, "batch_size": 131072, "dim": 2048, "standard": 125.17062574625015, "my_standard": 133.60925763845444, "standard_compiled": 122.21191823482513, "sb": 98.40084612369537}
-{"repeat": 32, "batch_size": 16384, "dim": 4096, "standard": 57.31645971536636, "my_standard": 60.84543466567993, "standard_compiled": 55.78199774026871, "sb": 45.43223977088928}
-{"repeat": 32, "batch_size": 32768, "dim": 4096, "standard": 111.80306226015091, "my_standard": 119.0284714102745, "standard_compiled": 108.91905426979065, "sb": 85.4572057723999}
-{"repeat": 32, "batch_size": 65536, "dim": 4096, "standard": 220.4471081495285, "my_standard": 233.0927476286888, "standard_compiled": 214.26431089639664, "sb": 163.30372542142868}
diff --git a/tests/triton_tests/mlp.py b/tests/triton_tests/mlp.py
deleted file mode 100644
index 8aef105..0000000
--- a/tests/triton_tests/mlp.py
+++ /dev/null
@@ -1,64 +0,0 @@
-
-import time
-import torch
-import torch.nn as nn
-import bitsandbytes.nn as bnn
-from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear, StandardLinear
-
-def construct_model(dim, layers, module):
-    modules = []
-    for _ in range(layers):
-        modules.append(module(dim, 4*dim))
-        modules.append(module(4*dim, dim))
-    return nn.Sequential(*modules).cuda().train()
-
-def get_time(model, x, name):
-    for _ in range(repeat // 2):
-        #with torch.cuda.amp.autocast():
-        out = model(x)
-        #(2**16 * out.pow(2).mean()).backward()
-
-    torch.cuda.synchronize()
-    start = time.time()
-    for _ in range(repeat):
-        # with torch.cuda.amp.autocast():
-        out = model(x)
-        #(2**16 * out.pow(2).mean()).backward()
-
-    torch.cuda.synchronize()
-    end = time.time()
-    print(f"time {name}: {(end - start) / repeat * 1000:.3f} ms")
-
-if __name__ == '__main__':
-    torch.manual_seed(0)
-
-    # hparams
-    repeat = 16
-    dim=2048
-    layers =4 
-    batch_size = 2
-    sequence_length = 2**15
-
-    # construct models
-    standard = construct_model(dim, layers, nn.Linear).half()
-    my_standard = construct_model(dim, layers, StandardLinear).half()
-    switchback = construct_model(dim, layers, SwitchBackLinear).half()
-    switchback_global = construct_model(dim, layers, SwitchBackGlobalLinear).half()
-    #bnb_8bitmixed = construct_model(dim, layers, bnn.Linear8bitLt)
-
-    # simulate forward pass
-    x = torch.randn(batch_size * sequence_length, dim, dtype=torch.float16).cuda()
-
-    # get time for forward and backward
-    get_time(standard, x, "standard")
-    get_time(my_standard, x, "my_standard")
-    get_time(switchback, x, "switchback")
-    get_time(switchback_global, x, "switchback_global")
-    #get_time(bnb_8bitmixed, x, "bnb_8bitmixed")
-
-
-
-
-
-
-    
diff --git a/tests/triton_tests/mlp_decomp_autocast.py b/tests/triton_tests/mlp_decomp_autocast.py
deleted file mode 100644
index 54bd5f5..0000000
--- a/tests/triton_tests/mlp_decomp_autocast.py
+++ /dev/null
@@ -1,166 +0,0 @@
-
-import torch
-import json
-from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, StandardLinear
-import time
-
-if __name__ == '__main__':
-    
-    print('Startin')
-
-
-    for dim in [1024, 1280, 1408, 1664, 2048]:
-        for batch in [2**14, 2**15, 2**16, 2**17]:
-
-            if dim != 4096 or batch != 2**17:
-                continue
-        
-            
-            x1 = torch.randn(batch, dim).cuda().requires_grad_(True)
-            d = 2
-
-            standard = torch.nn.Sequential(
-                torch.nn.Linear(dim, 4 * dim),
-                torch.nn.GELU(),
-                torch.nn.Linear(4 * dim, dim),
-            ).cuda()
-
-            my_standard = torch.nn.Sequential(
-                StandardLinear(dim, 4 * dim),
-                torch.nn.GELU(),
-                StandardLinear(4 * dim, dim),
-            ).cuda()
-
-            fused_mlp = SwitchBackGlobalMLP(dim, 4 * dim).cuda()
-
-            sb = torch.nn.Sequential(
-                SwitchBackGlobalLinear(dim, 4 * dim),
-                torch.nn.GELU(),
-                SwitchBackGlobalLinear(4 * dim, dim),
-            ).cuda()
-            
-            standard_compiled = torch.compile(standard)
-
-            print('Model part 2')
-
-            repeat = 32
-            
-
-            info = {'repeat' : repeat, 'batch_size' : batch, 'dim' : dim}
-
-            # k = 'standard'
-            # for _ in range(repeat // 2):
-            #     with torch.cuda.amp.autocast():
-            #         out_standard = standard(x1)
-            #     ((2 ** 16) * out_standard).abs().mean().backward()
-
-            # torch.cuda.synchronize()
-            # start = time.time()
-            # for _ in range(repeat):
-            #     with torch.cuda.amp.autocast():
-            #         out_standard = standard(x1)
-            #     ((2 ** 16) * out_standard).abs().mean().backward()
-
-            # torch.cuda.synchronize()
-            # end = time.time()
-            # ms = (end - start) / repeat * 1000
-            # print(f"time {k}: {ms:.3f} ms")
-            # info[k] = ms
-
-
-            # x1.grad.zero_()
-            
-            # k = 'my_standard'
-            # for _ in range(repeat // 2):
-            #     with torch.cuda.amp.autocast():
-            #         out_my_standard = my_standard(x1)
-            #     ((2 ** 16) * out_my_standard).abs().mean().backward()
-
-            # torch.cuda.synchronize()
-            # start = time.time()
-            # for _ in range(repeat):
-            #     with torch.cuda.amp.autocast():
-            #         out_my_standard = my_standard(x1)
-            #     ((2 ** 16) * out_my_standard).abs().mean().backward()
-
-            # torch.cuda.synchronize()
-            # end = time.time()
-            # ms = (end - start) / repeat * 1000
-            # print(f"time {k}: {ms:.3f} ms")
-            # info[k] = ms
-
-            # x1.grad.zero_()
-
-            # k = 'standard_compiled'
-            # for _ in range(repeat // 2):
-            #     with torch.cuda.amp.autocast():
-            #         out_standard_compiled = standard_compiled(x1)
-            #     ((2 ** 16) * out_standard_compiled).abs().mean().backward()
-
-            # torch.cuda.synchronize()
-            # start = time.time()
-            # for _ in range(repeat):
-            #     with torch.cuda.amp.autocast():
-            #         out_standard_compiled = standard_compiled(x1)
-            #     ((2 ** 16) * out_standard_compiled).abs().mean().backward()
-
-            # torch.cuda.synchronize()
-            # end = time.time()
-            # ms = (end - start) / repeat * 1000
-            # print(f"time {k}: {ms:.3f} ms")
-            # info[k] = ms
-
-            # x1.grad.zero_()
-
-            k = 'sb'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_sb = sb(x1)
-                ((2 ** 16) * out_sb).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_sb = sb(x1)
-                ((2 ** 16) * out_sb).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-
-            info_json = json.dumps(info)
-
-
-            with open("tests/triton_tests/info_mlp_autocast.jsonl", "a") as file:
-                file.write(info_json + "\n")
-
-
-        #exit()
-
-    # err_fused = (out_standard - out_fused).abs().mean()
-    # err_sb = (out_standard - out_sb).abs().mean()
-    # print('OUT', err_fused, err_sb)
-
-    # err_fused = (standard[d].weight.grad - fused_mlp.linear2.weight.grad).abs().mean()
-    # err_sb = (standard[d].weight.grad - sb[d].weight.grad).abs().mean()
-
-    # print('GW2', err_fused, err_sb)
-
-    # err_fused = (standard[0].weight.grad - fused_mlp.linear1.weight.grad).abs().mean()
-    # err_sb = (standard[0].weight.grad - sb[0].weight.grad).abs().mean()
-
-    # print('GW1', err_fused, err_sb)
-
-    # err_fused = (x1.grad - x2.grad).abs().mean()
-    # err_sb = (x1.grad - x3.grad).abs().mean()
-
-    # print('GX1', err_fused, err_sb)
-
-    # import pdb; pdb.set_trace()
-
-
-    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
diff --git a/tests/triton_tests/mlp_decomp_autocast_ln.py b/tests/triton_tests/mlp_decomp_autocast_ln.py
deleted file mode 100644
index 0a50cab..0000000
--- a/tests/triton_tests/mlp_decomp_autocast_ln.py
+++ /dev/null
@@ -1,165 +0,0 @@
-
-import torch
-import json
-from bitsandbytes.nn.triton_based_modules import SwitchBackGlobalMLP, SwitchBackGlobalLinear, StandardLinear
-import time
-
-if __name__ == '__main__':
-    
-    print('Startin')
-
-
-    for dim in [1024, 1280, 1408, 1664, 2048]:
-        for batch in [2**14, 2**15, 2**16, 2**17]:
-            
-            x1 = torch.randn(batch, dim).cuda().requires_grad_(True)
-            d = 2
-
-            standard = torch.nn.Sequential(
-                torch.nn.LayerNorm(dim),
-                torch.nn.Linear(dim, 4 * dim),
-                torch.nn.GELU(),
-                torch.nn.Linear(4 * dim, dim),
-            ).cuda()
-
-            my_standard = torch.nn.Sequential(
-                torch.nn.LayerNorm(dim),
-                StandardLinear(dim, 4 * dim),
-                torch.nn.GELU(),
-                StandardLinear(4 * dim, dim),
-            ).cuda()
-
-            fused_mlp = SwitchBackGlobalMLP(dim, 4 * dim).cuda()
-
-            sb = torch.nn.Sequential(
-                torch.nn.LayerNorm(dim),
-                SwitchBackGlobalLinear(dim, 4 * dim),
-                torch.nn.GELU(),
-                SwitchBackGlobalLinear(4 * dim, dim),
-            ).cuda()
-            
-            standard_compiled = torch.compile(standard)
-
-            print('Model part 2')
-
-            repeat = 32
-            
-
-            info = {'repeat' : repeat, 'batch_size' : batch, 'dim' : dim}
-
-            k = 'standard'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_standard = standard(x1)
-                ((2 ** 16) * out_standard).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_standard = standard(x1)
-                ((2 ** 16) * out_standard).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-
-            x1.grad.zero_()
-            
-            k = 'my_standard'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_my_standard = my_standard(x1)
-                ((2 ** 16) * out_my_standard).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_my_standard = my_standard(x1)
-                ((2 ** 16) * out_my_standard).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            x1.grad.zero_()
-
-            k = 'standard_compiled'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_standard_compiled = standard_compiled(x1)
-                ((2 ** 16) * out_standard_compiled).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_standard_compiled = standard_compiled(x1)
-                ((2 ** 16) * out_standard_compiled).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-            x1.grad.zero_()
-
-            k = 'sb'
-            for _ in range(repeat // 2):
-                with torch.cuda.amp.autocast():
-                    out_sb = sb(x1)
-                ((2 ** 16) * out_sb).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            start = time.time()
-            for _ in range(repeat):
-                with torch.cuda.amp.autocast():
-                    out_sb = sb(x1)
-                ((2 ** 16) * out_sb).abs().mean().backward()
-
-            torch.cuda.synchronize()
-            end = time.time()
-            ms = (end - start) / repeat * 1000
-            print(f"time {k}: {ms:.3f} ms")
-            info[k] = ms
-
-
-            info_json = json.dumps(info)
-
-
-            with open("tests/triton_tests/info_mlp_autocast_ln.jsonl", "a") as file:
-                file.write(info_json + "\n")
-
-
-        #exit()
-
-    # err_fused = (out_standard - out_fused).abs().mean()
-    # err_sb = (out_standard - out_sb).abs().mean()
-    # print('OUT', err_fused, err_sb)
-
-    # err_fused = (standard[d].weight.grad - fused_mlp.linear2.weight.grad).abs().mean()
-    # err_sb = (standard[d].weight.grad - sb[d].weight.grad).abs().mean()
-
-    # print('GW2', err_fused, err_sb)
-
-    # err_fused = (standard[0].weight.grad - fused_mlp.linear1.weight.grad).abs().mean()
-    # err_sb = (standard[0].weight.grad - sb[0].weight.grad).abs().mean()
-
-    # print('GW1', err_fused, err_sb)
-
-    # err_fused = (x1.grad - x2.grad).abs().mean()
-    # err_sb = (x1.grad - x3.grad).abs().mean()
-
-    # print('GX1', err_fused, err_sb)
-
-    # import pdb; pdb.set_trace()
-
-
-    # # NO GELU, ST GRADIENTS, EVERYTHING FINE.
diff --git a/tests/triton_tests/plot1.png b/tests/triton_tests/plot1.png
deleted file mode 100644
index 794c86900835cfd60103bb4999b23ac33bf3d7b7..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 121873
zcmY(rcU+Hc_&#0;snDjVq#^C1rD>$4ttF+UB~hVGXb)*egOm!DCM6}b(=ytFw)U3R
z@3^1m`F%d$&mYgrBfanUeP7pko#$~L$8p|)n(Ak%b}{WDAt9ksRywUsLbA<_goIRg
z=XU($KI@@i{2}Rb#=u3#@v_S;GbbyOb7n5rt~k0}u{CGAY31Z>>v&aEKwLnWkIlx#
z<(jjUprFJ5{DOd^leJ*iuATn42>CT7LuV3_J-GTFGtvyXbXyWq5)$Rp3c9Wd6N$GB
z==8h%r>(|R826?b+N2odiu2`?sisuLw5!%Js~)Rr56!Ji`kNWZrRd8Mv+n{QsmE((
z`bxipr_)reM^-JmAEqhO@{N>bzi*G1bZ!*&O^ol8KEtUTabKQo@6K&oeE$2Rzc@wz
z$M*l{2l#pE?w!<%|L3=!(CuXp`9B|2;9)zx@BhEZKmT%9TRuSOf3Ew_kJ9e!HT&PM
zB7USodg$Z-{j#VnC+}1LpC26|Td40OA+9Zb`xq0|@>I{Kh6c)LmGeJ_@p}~%{v662
z92}aN+MEjupFLEr_uzT%uJQc7aq6G%pJBQ--7AxjkWkl2iHo@YEcRLz3kwUga!`yv
zoXw0o)D+s~(ev*Em2QuVk0+fw^Rc_TRCD}!dV0Rc^3`6~0V+yL$|QfcyKQ@~n~*2%
zsFck4H8619$w}K=(Dc^l8>ePc4mI*t%s=7FX8z~)@3xU-@fH^syFI-6{M@;7!s6nL
z;xcz>P9^By9Z^tD&}UyzR5TXfCdl-wlty|_-LH~ETTIA^Te)=i-aV~M-Op83F@-$E
zd6&O1@$vK5cZNvghgUlC(!N!DwJg`a414*KS2b3E-(K`i?5eR%PswqMst_J~(QUq`
zaoHRxs}<(t#j;;jq0AY&M;j9)b-0S?=w{`(|J@_Y!{v_ypPze7Lrv}D>w9L5iBmI9
z*kb#Q-`{u&XMemh{PgI!y^4dhLhWoyfZPKXnG}oaFx?lr<cAL*#yb8PefA*W!2|uy
zE1d;_OOss|_V&TW#ggY99s4<5zA13(C7G`RaTB7|4_K`~2T)r%Y*$xTKYjYNX8z?b
zd19QVy>2511x(9~e_W2@`FFDwe1wl3OEs?yvYN_Hj)~EGJ|Gvou&|IP_OzYPFz^2T
z``fIf4juC0RE>#xdgg8{y^M@Z$&K-<A6XZQJy%5Rf4nlA?tLG^bX>*Ox&H%c=NreS
zu!AQg+~zpEy}kdet~&o+7!xTl)}#p-SFCWQ&t~==IwQwLR@n682ZN5z*O4n<^0i)m
z*L`I`?X}K$Vjv(eko@M&n?!(U+fZ|fibh67(aln`&Qd39Z(3fyEc>8OLE%u%lwS4?
zp7qt~^4Yn$6wj48mx=a=0RcM`7xl7?d}Cu7tE#G8-QDMUZuO1vB}-gqpPHJAd-O=V
z(C++m^~4v>r(P^>7!=ykpMRlS(cb=6e#zwB&CshoC1#F}8Y^={vx|#Xc&NHL!~Dxb
zf2%Uo6Q$G=r3&Sj?0ar+-MZEG`wMz}!K({z1T-GAv$KzW%cSMv;?m7Bik92>^X$W_
z`Ikq>8xkZV^R1gwv@<m`b%SD6u3X_ed^YTJZ!e35g@xUZSG7eBT`qsUe_XE%ijJnA
z?0PfO{PffTDVG3ZSFNm~tyibZR(Fewi-&}U=DvB8ZrzkrCladosk_)YQ#)-JzVBQ1
z#mAw{;=f;&TU77v?&%R07OrS&dT`wS$7q6mu^S2h#S%Jwef>l?GD*G1Vh$ghn)c}E
z=-9Poe`$Gk_Qqcc&p$$07v5BT`$osh%PZwFDzB!dmeduozE3u|z1_f%iut*#SAp$U
zKRm_J`ogY~o0CSy7cb_%e*HuvSyu9N?#BA6PPVb+fddB&@+<?@->Q%Q$SQW5=R&}q
zZ;XCLH*9=FKu=GvbaP|%m`yVYBO_yHkwg6sR?iO=_jW{!;Rp?V)sU-fYh%Py4mZT#
zd;FOB_WGiJ()!iDvV#;9!JeCa+pHeEy-K%Ua!8p*^m4<8j*k5}2S?Ap_*~6;`xRdk
z|L5<mt=h!`Hq|SWZ~AOnQpm6_fByb;TA8y7W0h0Cx1H*UX_<7Q)Qw;GP8C-CJ;h^r
zsv%x<hlhs;PIvrqdxrh{_p8MTk=onaA2@i>@V$FsWBVCNuJW}x3NbOU)aTECFMNOR
zajVyBxu<)#)^5F51`25^(ako;q~_n@9E2Y_b;p`jKU}7y?9VTXUXN*+hA&_C3!86q
z=q&j8?15~n?Q(y`R!S<WjyI0Uc_w-qLeVOfFV4RlZF#oi`Sa&*i;Ht_jO!)J7G3Rm
zVJy17w)SUbBsqD1(XF96dZVH%fw{TD$L+pdYD$uks?Ya7Y`eL<v9ap-`$twVP71!`
z(9xqoi6?IT8XEFNB3S>sc$kMrd2Gb6P12!!b!qaM!oBT?{MG_nosS<sMu{PeDiH{x
zqN2FXOw)2%ZuJBbr#)x?Zmdpc>SZzc`T4oJy1vF<Ck{1rrX!{nru$egT)2SXxaRC!
zf8D!GiOzs4k|VIDriM{0Ne3m0#lXm@Y_H?DZ5qldD&{{w`o6mOjsa<6JLSF)e`W`w
znd@$h{}6WQJXW?c%#1s)AN!iVU)ED%s4m)~|AWsRV_yp#7$mts=aEKX&p+218XEpA
zeAS4)o^A5J4tcbrz?RmoutdIylZ&gh*x9;lZB8{LB;?Oftm(}1GB+O|rM0!SALag!
z*jP#LHHosaGLi&YuSbZy2j?D((YJfwX_8$HITOsF_2z1ir{hw(dSYFv+q^;1mHqZ@
z*=dO9gcG-R3kv2~PX*uVb@QJeY09^66Brt9`S@{5sNyO7zLJtsf1By;G^0Yh`+k1E
zC(^ACrcY2Z9Sab1=xly%c8Ua9&o4jUIom-aL81cT+0a>NZ`)bG)6&u+wWl3VHiVB4
z`LlX|`0^!m>yF(*HqC5EMk*tXi9}U&e80%R>iy@?Va1UC&w;d_bG6(}(q$byqq&cy
z-9#uD1wP|rwUOLk-#D6LS%S*SWUU($o;q|DQSKMHZ&e@jG$%(xQ!|`>%SaLb*6oxZ
ze*B0*GNi9*G<olCW^VqmG4TY>ZvW=S^rlT$5r3?pX;o(@Q#k9sqAMLAk&KXepWd48
zZFnsHK(Ks`=Fatjs_TDd%n+AB@88ROeSU7>Tc%EsW})p@E+U5nP#@kW>-o0vkFN|P
zNnNa9^0XM$KA}5!gs1Xdw^8-6E>Y7Ptv1I15RR-KJ~7^wWBn~d>y>GFl6aqIzWl&0
zlLM&U!-j34$YObxwKQ9{Y?)bF;t~<jKKq*g$k%iY>#^3fpmoGFKt~83(ag?H1$jAM
z%z>%z_U8M%M!C(kd(WO7-m&{Y|IE)%ln14vkYk(ktW-~)Jh_vS(sHooVS!_x3D1`c
zQ5L_3hpUKfLE#$v{*sYIOH1oYUs+<$yIYJltL}@xD>pZm<?i0SODqlvHf^G_F!<n!
zn<P!L*+vWk#x+QVak5@gB!><i@?2;+%V$)u6S;`Q8yV}UezqDi>|B8@(ioq?>pMAR
ze}i($Hy$BHI?oTEdzF<%zGn}S!b4bO9+`deyZ(2<w(0>Z*39l0Q?L6t|HR}ZIXU?u
z0fFofl6jXK;wrF2&kl_DzW1=OwEX;caa>tVE%odJ7SHv?Hnju^>LY({T%8-NC2j&|
zQ!$jO5_yQo=p^f_%ju|Oo}25-8Q<*yKO(JLyS_XY7j<8-i4nM{^6utjdyxb4y&Ze1
zT3V>(<jS{9e$CWLr(t5MLxf~%KHZ|9W5OvZSuDSrt`@$l=Do*qYIC#Z*w0V?+S=L?
zQ3(lrvcC??{?f5aPEF<b=f^fS87|nCyBjX#NqZR?xk<H+jk`s=O5VOzQjOu$dj7Sw
zHI@HDk&>;gtu`Wbn-a201c!3#@9!@;<xAWbU$ky?IhIFb4Wh^FzQ0gLq_piH2o@|0
ze{{??BAv?AYcX24+}q2_9atj5$H#|`o<2Hf@}+)G3?CogoWsE6B)=CHrp^WDG<CV}
zwrTuE-{uB)A=cr;lE1&d>YW0Yu~yIOXb$Bqsanqz#~SRvWjt*B(^2bSiYj^`{R_g0
ze{5__+04wWcu6aKAS$uYzD*^R>39Uv3Om()k<)hgM8VC;PUEht-EXx-#KmKQLY?_k
zm6ac=ojaF?xEpO?m3DpoE#(Xa4?jN;nQesbGexSzAzE(rZ<1|JT~mNiN&*4`buJ1I
zzM}#}4KWHBhm(x`stm?zX!n(QrCt8=Xs9I7&7mGxAg#=6b+{yqV{Aj?ptP$d@r~F3
zmrmW6dguO@Z?4K&T>!ehu{3g@oHi8^pp1*m&dw6+vjAYkTMwMUiGpvtFxpZa_A>3r
z$X%>?G_U^LdUyG4xxPg-AXv}C@o{lVcLt}Y1v$C7M>=k9tgS>uM@OrdXBibnC_Z4}
z_nQAA9^vcjOLySFE53KJ*EC9IX70L(&AnRaVeM14KHQ|j$YK&c#Ywm3t`*l;+eUi5
z$5qAfqBsM;5l8X6cdFR+Vu2m02*L4&{MWC;^>R$IMAd)vl~OT_Dc!;Gl(p&wsNvkR
zXOERT%0WbMaBx(7d}hP^%uKjZfz4AjYfDQd)QU*4EA8Rw>tr%qfVyQ!M%;;$*+zvg
zQd?|XI;~`K^1fzW5Vx%fKUBA{x!$*_9DVeBYlq*2rCc@^T^p^-jZO}3ZdE`M?Ms)Q
zh%{AKpM4~3;n(PH*mPU|k%(20NMc;v5z<y111wFBBY@Pm{nj{TQk&czD_BxaFE6jL
zsh)Rrr6{<+6Sj5^c;Osl-G^>F5^zxpNj{on40*q<^x@&NDhH)p!Z|W8wH0^&?J4tm
zx9v#z_~px&TLJK$dSWIvol%;i{r0eCe|?T4r;R!gJ!U<rbNlvf+nN4~;;?1Dxf3}_
zXS8yd$>#3YHZ*XEi7}iwapKCAD?$8g=)M%RgoK4j2gNynm&v?ea=Mlg5I4){xK(FG
zg-=Gt5fT<T?*_#2J}H-s#;!jhA(V+6p$HE?)3OAVy@%L%MMcH1hzzVxduJy@UD4;y
zr-|eP2pSj=z;^iXy}?0C9HO)WqFkTyqcofSRXI8~mg~Ll&bh3tFuB8~`H6zh6}#3{
z<*>0=(UiOL1oNDS8}<W8UB7j!DgT^zHIH~oN=kda^#d9)971iqY~y(QE_}hjuU{u|
z3dY)V4<pO!8vEs#yjRiIrU4ReGvvkrBIhh|on^-nY&A^sl9LJkcz~Ccm38Rdy?gia
z-X|p`B}h6ex-maaTq{b$Et2KUPjuvSaB&U4O;%A?A0{@T0F4?JT<WIXgSN%-Hf0SB
z{n9A;rGUAanIqv;MBRFUg?~~uZ&4e;sg^98SRX4WYTL>I#1VV=^EOMt*mzOvxsl}C
z!!^t^C>?w0=_`>2=>_ixeBRmHJ;!AmuQ4y~`9^iBP1B*KXsYYlk!j5<tESs-PPA97
zt;~~CQE|%3Ce=mreg%Mhu92LbFaiYn3s-E+okE!5;Vo<*C-9;Loqsj1h!rp>amk$P
z>IBAFTVJP0oIgD7n1t#}QfT+RH9mG-{6kk4GmurHnBk|_-|UV9ph}I?FUC=_${sK^
zHJ$2xuZn|$u7wKUb2O^Wd2?f(*t$Ni<%8I2bSz=AUVo2tX@(E%l6*j5OEeh*a_bAU
zNb|!uQVDXmWzV{5-OQVscN(fQyLvTy;^phtLPN`{sz3VXyWe6*&`$!YDaY$Kk6SJc
z<WMozOHJcB<bP&6yIoXGOibJ_e)Yg7KPrpK&cXuwwlKhtv9%`azM_f1(8tH^tMaVs
z=MD(2%6g$fxvfsVk-YJn&arfMI|^~S?bqik({UoH@|zW%24#$geujfIc;B+IJ1sq(
zf_j+j&^wPzm9&!)9P(vjqz1)KR$=~ECTCB$FC0PHvqtfC8Eqz|pr8PfFetEjsJ@Da
zpzkc29jHbV!-6WVwD|iws?SrDVyW6Ctg*0&i23~Rmwil35lKnegQ7eE>y^2JC&+pj
zJ6d){tvu|zUKa`^G^X}AK7J@J_C^P4<<8x^FC(3x<cIDTy?kx$&vh$Sv@D6(Xx{PE
z^mN{<^<)Yf8iM}s4V|gzh7GKG7&{+(ItcizEm@g#Z8>uFcN4p?F!hcdJ3u%%^VKsQ
zPVSnmOPYR?LAPXlCxZO!3xiyCdS1QHU%%3#D?tvdz}7@RzIEr$9TN0qRmgwpsN+rx
zfU_6ToK|Yct)Iq@qtpDHS~a>;$WXan?J(Ez;b>~JlxNRuzhzLf-d+<%v|xXeh<n~x
zb4zRvMG+d_Dfrb-x@>1@O<QQov+8_@E*7cM+;FDjFTQ5xlW*M-^X0~;+S)+Gz|vGt
zeUgmFpZ<G${``KK(~cUlef##}jp^Z-e(^Vbr4#dcn`MJHL*`a59&HrPM01SPGaPH`
z{WDa&xBsIr1<;mE(|QE+#>R$H#Al=cwAn-b75AiS2PvH7!ehM<G|%ufC<gxDU+M#K
zG8-Ek&lQfiZTK<9OjJwBb?tIate-ZLvZ$g2B&x<GI*OgS0Tj8}*zT~%xJT98w0!eU
zCtba})GZQO<ux{)=s5wpYj6X>(!KMknj$Z1D!_i#G0mP>a3UIhbaQXL*QF3aO@&{O
zx368lZicL1SNd4oF{b8^{~p%M$Z~aO<b;JEGK*gwEof<LvqqtMW%8cs)TvXbq0giP
z7(Z`(oWs7%p#vOKv+on2w=_ji4J&C+4h(!ky?E=n;#AfvbjA$VBC|^eSjP_9v}GT}
z?N_(9M%><5@y7!Za1UL%i+SzWuV15SqD@RpBzupdIV+d?T2xeYT2YZ*Ib!Za`1gAm
zsbSF%9_&GnXMw<%jQO6Sb-2xehY}HfSVV-z%WM6BvM+@Sa;&hBP(S)G6@hzi-%5b|
zQLB&PkG@%)$a{u!ysR<Q+RfhTtj9pY@%<wRu6-hwJ4s1NftNVj77-v-DQAKSj?1p_
zkz?7)bIpOW3Cev!^48#he(c+iM)&hhl*IH>PH`M7oD?fF^IV?s@v5mF|Jfy$(}i|2
zN~-s0tLv9a(1hGAFPFpid;a<94|>LFs#_8m&_63HOa0^kuYUF@hXMb&AP+Sn##_@=
zi#?VFkVFuFnVJL4%*^vYE;#01?U5qdAAkQHcu<`f#zAj3L4d|H2!A95PGCpDrRgw$
zzKEBK^*H$R7pv>*gS*~1(o$1D-PzWW6UnKdY&=r%_T9UIsi{U}uCcB+g20lE=kJ3|
z`h`A1Y9(SftE?JI&#vQ1Sy}vO)-18#1vV{r$!WPtnb<>~4BBEzR+p#K&%e|wE~Dq=
zLD_uTtvS40q#D5?yS|`<E+f5r!q4BIaYb>~Ej%X1@7=o-Zyfu$`1oF(HcqX71XMUv
zzPbJYi76r>q2Yti*64;MLFP`1<otY5z)%EFOri2!_G`;i7l)qmBIo1Lc)y$Nsz;N%
z@@L=yLBxP+0YTyP>od8zx%oci-K$rxc9+};MxOBW^6Dt_I)NA#csPm9-2&$cblfxT
z%s8nVcG-?81i@3v**KLr%eP8VPoxwqp-pe8BxsxgEXx|cBj|loCu4SY_I-bU-a|^L
zr3H51gJSqE%q?{}=DW_CqkcA~sm3Djq|tc4cIXnzHZ502bmivdnOBD$v^mBkEiEl1
zDvFEEh8#S>fL0pGHZVAN0MCnyenp`pnis@aoRHZTB!Gdz+DJ+7try;0{el+7;PoX^
z8IL8)w(N@&-Nia1Kg&77zNacjW}JV?!0I_e`b;tOV{>!(lP7Fw;LiB&q6e`0<iE!P
zb<25cJR^eVnQ|l-nv+B_3Wk1cH_BW)Rz(ICL(>2$eLwbA_eE5DM~AT2Ul-7xF8A%g
zne9FxA)hSkB_tw}a?*DfS?7*otpxi?bog&?Z_0vQh!QkSLQ5`W_Hi4~-1BZzqO0}U
zx+CvOhX~VgyVI7I9BguTF7Nqy?ba>sBS!)d4bO6NngTKp=j~ZBdP?QMJML7TQ+MOj
z$L`QzM)99hQxA60lloZQ>M=m=j*pK&X7_C;ushLQf_R}53_&+N^F_R`IaQffL{v0h
z;<|ZKtwyqVr3@F^V`6z<85c*GdatA@iGi?5M*A3v8ywurN8v6P&PXgQxTqB4VyDWv
zVUm54P8`9Ef|q}N4kUVJQR~JdZKb6qVnz0CyKmjPwSD)28hul*GoGHMVg2W|2XA~4
zXt*IDDH)IGZ_c;Yc%hs55gAPaOp9ar`pxV~ZnZdh0AM2LW61~5`I;lzBwy$cRikUp
z0L#?d+lxTW16#pZw<>tTS3qlB<Y7!q6+m2u)-yjEalQBMH{2ISpGF!QGds5<x#Wp1
zk(nWs_>A9%gV~jqkwF>L^11j*A-k%%$l(Gyzo>{f<j}gpNv!-Ra3qlZK4#{D-@ofX
zt|d!Wp(=hx+W|m6&U@$s3Gt}6H`f`#;4+C_iL-97w2gSb=Ae*i@?HwyV+62o4XjgB
zwM2!pHCU`~Sr=k)Bds8J2t+uLbxvWw*p+=R^|H*7dcM6l9}Ipa7b*ePV~adObpMH)
ze5_sz)Zp@e);v5cWhEQ@3C$f2LkfTm4&T?Or*<TYTNrhBciVIpWX`?Q--n}z^Gv>T
z=ZETQf9#(xx}qbF9stt4-m4B$Hzxv;lUb4Yue84=4S#6^ZnG5x5Sr17^ki=%JF6ak
zetv=;0~1(*JO}#42UqByoTU1|XzEGehWHb=1W-i?h8&xAw3s|0F|p(A^}`p6t~^CQ
zyEgM_5ANWsHKm}SVA<-_iL&*j3k1QFYf<f_8+jzqVhHC3DPGcJi4T{?>El`hMX9pe
zue-<!)rXAbRGKz^c{kX~T9k7D|8x*)D8V`%tYk#TaLl&#J`s@kww70hqG<=RV*pW6
zE2vOk^hQhfaR!3RME*~8n;&*{a}&NfVF0%Ih0aN@${>16OUs#`{;a?H`=5Bul?cwv
z%=9PU-T;Y0#TQrdq(E%Q_t3v80Re<w8Rn067QSqx$VWyuH#75j`t%T>f0I_#AGeto
z#^UZv#v!@6^l}^RQB=%pwxbtrwo$37s-i1VhCnhiJ4=WeYm05BK{G`*E$mQSKq~vP
zn@64h8}N&T7SNK|7SLT9L_Zm0t139%S1#8l+gV_Hudwhq^7g`bn})Ta!t{>06vw`@
z(eZH*c70o7Pc#LCwkEoW*C5b5Jw5-Rrqe5M=8Omc&x<+ssyR7{V0kUuUz@2EmPR~(
z+a_6P^yS&v2d>lamyt%&!OgiqB+}ob6JGyN@Iq0DF9qYT$;mH7ubYeXcT(mtGZT{t
z`WIZ?rX!CN6&rwYOO9!0MyfR#=~f;d9wLt~cAGMwum3VPR8JZuH6ebrn+@^~2#||`
zJ>R&5JbHVN6l+B!33Wc6?4Glv`$l_tX`(~La|x+)m%}G$RVd!9*IZn5X()$dc22$N
z^L}Pp?hR?i+`{4>Y8T)&p4u6Gh-Wnx^e5ol+H5te+tC+-%zyv>#V^i%+9N0AG*}~2
z$jQ%71qgK}&=kkt=M#0omF~9>0Wv|Y=%i`~t<2_autXmRt6^YZ0A@*l^tBICG}<c#
zbj$S<R9*9m5ga&81Sky}>|sA5-6WL*P(3?8f0&C)ky}5A?G~C~HKHjhu%SNXznkCQ
zStXj2J9g&lO6i%+58_)h&E~JXS^Bl69zzI|-S0gZ?;y|5VWW-|^A)6hfB*h{U})$N
z0GKtlTxz+j_~D~RFKAg9SXm!LM$+zKmE~)_VF7v`OvXmqyQ{B^GP#bbcxyN~@C*0%
zP&%mwawyXf3_iF>G68zNn&jOFr8Eg*$XI~QbdUS;)R&d{5y|VnPRA$cV>3Q{{Thi~
zXON)wFpI;{#jzL!*yZef!*)Ap-h-Z%RReWymsih`!fUDML(R3FOE`@78_K+~v_)@!
zXCf);{2d9W!GH*dzVF}92kL|DDWB`#Pe*qe)p8VA2fYs`L<7(P$OHuV(Rr?>^^vdO
zWZk>zGF7l92D#>B2o^v<U%&#B%&U88X+I&Mb$~adKdRe5-z3-ceTrbz%QyZ8zq>U(
z_h;7Pii3kK06xmQjyXwTN>Fex1x}PXplSEp>-Ru6{QULnBht|d;vQtiAf&nPnXkhc
zJ10p30s=Ibd^wcsydOcTLoOhyX+wkB-{tA12u@YH?>E6O5VR^mvVFVJR5wulzzy9a
zaTzE`L-m5?y1hbN92|r812_~Cx26st&~R9k<CEj!YQT>Xj3@ZsxW|tP%tuhy64%(U
z*qYxiWKoDp%WMFITUUkbuRACA<n1X$Oaf7XAc8a|%QfNiMA?Uk1d)_}W#bcwGEtAE
zD_gd1Exs|%FjOC#4sP0WwvrJwLDgFN4j4vZyKhG-lO`->rci|~(M=E?2@dJ(?ak%e
zD$iE|YJ}{6@IjIZ2o0@lZ;u0CF^{auyUIT<YX}_6EOv#Uw2xiwHW)eg32Ak|w5t$!
z8e%cgjB%;OeJJ1DP&GC_fZ{;ZB2X1a<9klr_<i3fYZ(7@_}H<6X5qvw3bu35pU@Bo
zgoIdvSF&;llh<TZPnP`x;AYeQ`q1_3*Bc%kr?>+WB|6tCtv;}ZcFj}Pnv;#+&+gQ#
zkXI@#DXnGzbJE^xaRlbUlcR6$$hY2OS19Gbtck)$$Q&s6_4@ZwY_4WIzCf<JXgM8(
zr=+uepU2MsB`zalcU^&^bL`d~>ccjW0;{3N5%?bAb~La0fjk$QD?)X-z3J_~G!buc
zJKHed54Ut3*!GD_(@R7v4Gj%}jv(bi&mJB8$#e9?%?XGpR1mWSOiF9eenT$^mWZtj
zPf5@}^QA)fD7)I#w5^5GO|3qi66HPbZVil&2j`$cSXw$}|3l4I2kkS#kpVIai;C*7
zFnsy)Mfu#hp(eRaLZ}54Vv+T%K`*-UD_BqotkTPzvex~AY-}XpR*&jt$OGpAEq|)4
zJae5MJGKuZz?Q*Xf*m~>g@k;7qw#BS5Ix&=6o$3AdO_n-S1lga=R@H2Asy|6?pYbS
z^4PIVtIEa2We}-!03AzHw<+>PKRP2K8=X4!$@qLP_DZ|V(+!FxgoF_!qiV!VWiaDb
zx|(Qrl&sTd&u+c8x#0!k4K!Ce$}68qsf208D2U{sEJMega2!<akz2d-@ZrO`VQvnN
zZQ|l@wp0oXSDj_`x{tHU6zYep)0%5>7EH!D><aWQHX)&K6fL1!Q{B?5D671XPS2!i
z|NQy00!ZQy(f~9~RyYl+ySozr<Ed$Aw$#)zI5;?5cX4TGE5fe}U;03TBLBR-4RkG9
z&ydVa9<bhQxB+f%Zrp9L)6g#e-3L>UAQB|5-^DQ)Usy(gF~59S5v11)5;-R)r~f%4
z($^@b5cQZKR+l0tBbpI;rSpv^f_7Ti*#*6MBaW27x?>Lu9eYT>Z&hPs*e?2`ugxoW
zy+Whzf4t&lJt%<a?hAkeBREf$b*poE)DQPnaIeZ8qV1q<FMlED)xCP{PqW#h<Boo1
zWgE_39r`ggs)b^<t=mAZ{r;BuY52=yXL>`l39cZnRsa^2)zusGx5O1)dCQQ+-M|bU
ztJC#kf<*S&Q8Fx^l7{}%^lY_}M#*UhDk>^MT*2|*Jc|vh|In&Wf&E9{7AI;Qrf%rS
zk2T$1H(c7f>lC`UZQHhuMlA{K-dvmC1E|g=CB=jVBaS`9L5hps#+sf%<K#LVsawLK
z$oTsCsnpiilG!HRqu3*;biD0b!@Tp)pT6vit9;-c1xTe>L9g4wULw^ca;;yUJRCA+
zTE4fD(Ic0ice5R!7lxD6wzO!)x4k&eOCAmZHuc1<DJ66w+UPGh<q7qJLpj1_@%Q;k
zzd%}U6^IS70v96|78jjE)&U-r@vC(UID*kPKx00#=qlUX@E|0KXD!54BAz{awoM6O
zJht`g*EEETDhmsX%Ie(-QRITe6(lwqHduE45itJMLOA6`jvb2vrnu3$gN%%4U=sbG
zbq840Xse^qDsxLqF=&i9<X@nr2`kHkTAHkM=Ubt@e&Py2Q*2X0U#&NcK2J%?c{l{O
zPRGKM9fB$tW$_LxlJsc`2$HzJNNx?iVcXTVq#d0DkD0OD5Au3ZbnuB(kOr#A?y)3e
z@0WXZI_<i$&?z)+a40Xoo$f3|qpyr`)em$2iS|HSO)VtP#Kolm_=bzLHHt^aX(AH+
z0na8a`~@qWsfC+3igl%E;#F~gq$ZI=Ipvw;ygkdhbPa-5Jr+u6{*%s(pSGP-RgHu!
z%bu2&CbOe{TMjR*N_75%3znH}KTPW04+iucP7P@YF;CR5TuJ0pJ;oGjdFc|{m&6m|
zO=1)beBmT0-<coQ%fi}1liQS9L&hQsRvlNS@n_T{?J7lbI+GvsDl_If3~iz2$_~?4
zJpBD@_at`+T#U>&@zPVAJm~9VQlXo^i;I4zr|4^W2kVA71$1^WM-Ze3H%M*NAR?uJ
z;!BFZrmLax!1VSy;eNRX!r`}NViUiq3X)-z`)`7&mv)Q5$F@4{3uSO%p+zJDp-SBN
z9i=V@37a6q?)&-<&0H$JHJzm1sz*yps~8ggatqv3NcnG_M|QJ$m;q9vgVsRI?WCZn
zzvV&k5ot5i^~J*2SAW1}5G+;LDlm%tnygsxx@Dw5VXHd2-7L~d=pu<ygF9;!-Jy(<
zDZkrsKV%k&-c>*(hJZV`%VTJv3|7u#Ur1eOdTd9|Lp+z41l%k9mLMh>2br1QsNfQC
zXOOCu)@$^1r*?E)ECQr7Ff^nFKq__~A(71Xz|$O%bh;0%cFgj2(`5I-<91OIrkrmQ
zP8!ZGFI%H+`LnX31(gOzN&)RF__hG`6O$K2CxvMV>)jKMaE`$Ev(`?+f7waGh7KAw
zJCWMS9DmesSO0|D`JE7nWn?ZEi`RxJKKlu&v%0J6gofZgQVvd^BJ=C(+pkR>;NXxS
z^m5fEHz7QJ_ss)^_C&JMMAMzWa@bruNUtoL4T9i3u%%C0YzUhco?r+Vove;V&aqdT
z^V{djO5Y%QUZ;`9gU}Nm+bie43fx+lZP}VX&oX{(wD}O|fdCHW_V#uH#nRBy7Q1Sd
zwbYo5eT1V+=6&qTnrOX@Ep$H>nX9%qWk-}Y%eHfKas6&!g(n8fd<8HAI@$HPL1j+z
z9zfq4b?>cu{8z}gb>`-kklBq`eTkiC2m8nPpUVMN;3JA15L#qROpJYD)JNSx!udfI
zq>73Pm@)Fue1aeOjEk*+n2Nq>v|P$4Q~Z=LIhqJ~ldt<av<=m%aQ)@tv(KlbI2>&K
zYSC^6WMaz`g{=rh$Y?(y9(gW)*Z=e9PcyWdtG%VQV5kUijOvfu_X7}40%i9aU2C4$
zrtk2aRXE4%H#_X@uU&Ix|9JWzlV%iOrMr91C2i6ZI`6E#Uxmy+$bBPHbW~IB=JT7n
zLOiao=8+a8kd8{9y1S#3|1~wWyT+=yz{WY)a#?BxyGdGXJOncYg#2q^#!O_K_Ua+X
znOm>H&IH&jmv|HAgSva`2sMeD6Z_B@nk21X&f#<f-!(|PGM-ZoQw|%B{^tm3hrY6l
z)bie|lj8DW!QZFa?lyx@KO@oVe$R4o*L65~oG(s_IEYyB1KNG+>Us>|Jcm2rwGtFG
ze)|DfAnJ4j+w`q)=dbWXGPF;9jQB2UgIYjB(DR_?wjj{&u`eH_rG3Wnpc80NSU4}-
z@TDF<BI`32jkM$ID0l_bu|Wy_yofH5$*#PKO-9sb!pA_c4hJNz-GLKmt5falE1L&e
z-qr9D!9Du%+Cr}uL$dKJwc8zQs@++;y!XuIeFX{Qy}5o1ozPiWc>au~C&PUrfvbIP
zZr%$32s$WE#zPD>^fEv$h{u~#-O8{})^)BiK2n`qRhO0-DyQeIyM36wzKX?1e&)9}
zpGMqWKQdq0T|<cu(}Trp{x{|5GF&d18NwI{CWaHO4h(1U5K=jHx$P%io4Cu1;FfxV
ztRBUy9|qD9u|sqgu+ltNi9QPDCo&<ynBxLiQFZi+9eGw1h;%EoMBQax%!Ni-v`Np-
z6>Oi|S_o2EOUrj&4EbLg=Fy+PBSAf!oMHfcu|Qmxu%A(y9>6p7TK4cGLa;TqmV*mn
z8#qCNfEaE{CYn!zY=UNK4QPUOKH^140DTSX$WtVi*8!W(kUupn^OQteC?O?f?%<FW
zuowD2Vf%?zITOisP69M&vgaH*+JzH{EGWA}zrX9!AVIZcUpzqwK5wrN5ZxdU;2{8X
zPzKOPQ`wgtEG<uC8#182YqxemZC>v6*n_-H06OGrqMJgf5bza}d17m1(?@i*`00Fy
zb@D85<5yfBo#7`moG&@3zjBdo?{OA~Z!JDY=JG$bWjg;Z@;C9<E^T2_F1xxX=Xk=B
zz+`><i`Jq1CfNb}SMOX5x&@kvHILDPU3kp)w(QzInfHU`^vQ$HVSL_)4!~~Q{8aas
z0Xi5VUFPAE3AdQt35bxMk{g7Z2<}5_dU{{T2)L~gcuh1rvA*{K!I?qwpzYI8QrZdN
z;<>RhLU}-9FGwPg5(w8l;GGp7POcD?20$Q0HN84zF|=vv=Rk(VLq7$0W|x%Quc4s<
z477SObe^F3(JfN~x&Hd~%N2eK=O|vjqc~%iKinbx{Q2{x%a^OrU&o6(Cgn*>Nj(A>
z9veIe3BDfyLuy4QhR^UL>}nbC=MlE8-rl4KvVQ}RxOs-Mor%K>H1{wmsWJQFyQr0m
zB`#0lbc5Bw8Tty`qeR)kArFeJ23Jj|&=29+bGhf1grsD2jdyJ@)TTLfo;qnN^x4M6
zci}6;5)I&Xg8t~!9o2iKBrku5#^~GI>lQdtfxz!aql1v6exa2z$|4N95Q6AS%&QO_
znV{ui_c$QuZ9L1ygoYKgue9f%aQKICp&Inve}*4BM%_R-DFY_S%F3pQL=agz=$y7Y
z&9i%ow6RD1soywVsXTi_?x@AfZ8^KzvQH{*H!!OEsYJ3{L)t7Qg-!Hu(|OpnpUlv4
zcsMHS9xndZl5#Sv>HU3=GgCU6?v^?1x-o<SiiYj|;*Sef4l0?E`in0ZLy?-4?ks?P
zigNAC(Y}$2G&PdZuNbq-&IpH^lK`Ml$s-;-c(4Gk9=-dkw%j`3{z^qS$M2@J*rZ-p
z7>H6)a=hxU6QmK^R5&?qaB$3RR_dZSkPh!586IgKAWGX~5yu>}r8kpYjol8pcEFlm
zU!kghFjGh(>eh#+rKfDExLtksLuEr=umChMes}X+x>3}ViDLJ~qljp3=q-{*xyYTY
z(ceh9y~yLr*}Ze;r9U%2)sm!Pee2x2Z=Vt}n}qAkrQI4*gsq-_Wp?esL|HNO9jEO>
z20t$EzwCFp$v~Cu$iDdfPx#q>M^`EvrbWzu?0$R5pF=XB8p8sbC!-$iJiIrG4u;Pa
zJx!V@ek?{);g(1?$KP!^$<}Y%fvgbj4`@z~jf_--H?Ib_s>1iP2>Vr<ap0}<ouTxY
ztxrx?mNLv|*gf>%x$N`gNcUUP%uLPf0}_{mwQpSuk3D<(WKW)uIzACmYFrpfW(A}y
z4txU%I;xN-=QupQ@(~<|PQK?dF83zv7hm7qa!g!-t;P&?C|{KVK2!uj1l!e_4xgs*
z@Ry3-1|z48P814Uc(yI)0Ha{-Z5e5K!LG=MN{zgGcP8!lcK|@73O0#CqjS(cK}cl(
zQg#`O@U)JT3CxEz903X%G`1v*u>3P|Jm(aVvN=XRMov=Te6{*o@=vQP(f#L7waT~C
zQY&7d=i%)fEM1<icOXKJWA9HT;!}ze5)wkr!)lOv?yIDkg91>C7x5*CFi12Y%eLMD
zaBp<i({nmgJUTimy{dlh-1ph2zy}X@utCT}|9G+^)4{ZT5wj9|N21vTk45-3?e?r%
zd^=8}o1am&p!l`6p@t)J?bF3zXOlqZ*~Njzi%M$SPMylo<{WW)yz5DhVC?I#u$Xk>
zuHODTAyO9rVi7&Y4y(Tq+&_H&d>?)@A-B0f^F^6kQ^uDY6XGp4z~c)aKhCe6?6EY#
z6LW5h!qtFzmGDHb+ST^t5>^t6XyJ>;FLsn$-+ub{NS#}BRFv-MjctPBu>y6sdwQ&L
zIZr^ft^NJ()*<$j81Sfgsc6oAr8jkW_>21I>ddiOhA6?!wQBl*=2J@L7p8g$Sm6Xi
zP~`xpfIt{v<xz(M7Lgx6ez-0D=d?*ztFEpd7##eJ=Gg~B8&9vOXlQ_<B=}U8ty}M%
z%;McU=qr)4t(e;7M8K1K3M8YM3kL0WhtBaH=b!nDX^;Yzdw1KmD&JLIxzBE!IXZLt
ze&GE_g(}rzsPbz{YEh>spG|#gc@`f2WD6zvp4dOm6bq~~YYzVnojkE|t}rff0j;vf
zY6CQj5QZV_zL)aehq!HKX&Gfv=HsLAkkvIfKU+SW5q+3VF@r~F=GpY4UoC!zK8;p=
z$-a0#YF;J5KZkKo%HZC^g-qQqMtT|*I7aAqny9pX{aJA@{cim_cXERIgQFxI%9TCu
z(kveTGmO(u#ttqCfr^Zq3C{<ptu^30m+>FxY-w@IyNVnzo56QVmDuLN0FB_0f!nfN
zJg3S|ObvDhD)io~`*Ea#H?-&|1{*HL%_sWa6_a$dOr4N<rY&>33l6c0hsX9Z$Ld@O
z42#*c&VSZ==RHsReuY-5*JXTWanIQsPqG(UjIG_Hpne{Zk+imj=-lBKr+=A)14;xq
z{1+w}t)Bq1feA?Wvan$GW!(AVwA<GlQ#si2J`fTcz)O8+g84jXM#ZoL%Ga&|PYVln
zujuT9QVFCv0QK`9U(xX=`q4y;0*Kmuk63>U1W|{O*eBy&K;wOkFm)_XYy3z0fISHh
z-wPd9Gv+x3o+R*LX6@kDt;tTjKN(1pek3(q5z{Gdqrs8y^b~3;8G4-`=^LBMp%k#g
zIe5hJu{>K%VwB}u)->Lt(`RaH^9wUXKS+?h(yrj6eYN<+m}?*By`wB5=04ot8wWpl
zuNYYz+{zHEVtvA7jOIHM1c0kQ4!35uu_R%WN81l3p&va$<?nZ3cL{YCwp$W7L49CH
zO4Fu3aKL!Wj}c3PLf&^YdRL)QDBuYOVAcq(+^QjkKy(wy-5(Floq88qOfHVpZh_j5
z8jKh_4MN`rGbKp=BciJyia3RY_F_H(%VB!tv5D^Grlc=mo{&D$z1ROjmVEQ-Tnegg
zhVF}#6p@g5puR=K$Jd7J7flLw5M)P}MTqwc6CIIndfkJ;n!kqgjzQ4mRRPh_KvA#+
zI)hcp2gGN-+x%sCRki(Mh-I#wT^!4i^jsDq(NompTf7hySf;%H0;g+qVCX}c3%W<I
zE!UK1m61vp_i(e%t#oni-N`1Z!=T@oc+bnjY+cHrWZQ7ly+yeXPpPiib7zFzsdvk`
z!NQd66La=y<)IlFQrVFwDn|?wcB}`7yKNOoA*ITo{P3AtQ|_P+XQr!Xp-a(p^wRx!
zSOHKAb`abyh*qp}1w03%5ZXXD2srftRXHlh8*%{l-UD1gOMX~FA`amKI{liH(@~vw
zBp^@qf32R4;J`eRhO4Ut%DStE2Q3RrBeY^vPBuuCjmxeZXhYB|fS6ybyMN92?KRRn
zu&d>Q8u~|@%4%O-OuW@=Hqo9-2vg_;CMG6SYDySmLHOrlB+R;qS<2-IAuEvu6TQ1j
z#|;Zcxui{Ml0ua)AN43Qjmw;f<@?^kHF)EupVLrMPj7{SH(N*m$ph;EF?^z5DdK8M
z_v)=f!`nH|+);>_XfaRN@;tLYev4w}lUUUNt(yy9D%x2>CO*9V6<NOY#G2wwUBzvh
zgwT6Tee&P!pTw}~a8jQyc99lR{Z7lZ<V|x{+|*+E#r%OD&(QYOrZ;q#E?r_H0XaVa
ze71%L5AFSRH1R_|UZ{?sSP<XPQMNrnr-Hu`))f+%II>-nZ7Rto7l0TE&K+}7T2+hl
z^H6$QN^aO6yzofOK?RKoYDpSY-QpMxxK3XFD*g)VJvPCqrwDDUGmLS7Rb=u|Hi18N
zVs0;WSYsC~Y;6O5d`JP4&Ecv6m4BK3#Pwg>2w+}SwH==N7kXKBaD>ctrxVQyjuW~b
zG$W7gANTiPvf8xyWU-x!DRm+e<^u+pH9%Gpm^v^d%9OX@YL5|5rUyLtiC&&?&V2mz
zi8M~qnG42n!jf=@uNke_35~~`%0%WR0ST0770keo_JkH+f+jNK;yW=~E;Y@VcO@m5
z-Et`v&AS@Rkd=j>UBcZGjUQqwAB=;*#gfy2a6J0i2VmqKg3#~Q`NE2D2IQEsq89=e
zdKL<pi?p}yQF^onTL%xYcTCo*{1_kxeqieJf&G#|pbz9WG&_6HRRfr#5Z;Ft&V}i&
zSB8-&N9<PQ8Q-QN;k*#Ctl10xf2{fGRv_^8)ghV`j6dWzN`^z@f+CRPD%{c8*$RQ(
z8*NdVDXhZq0M*viH0P=kjdc!}S&Nz43F&k3N&P2${B~2-H?voapHz6kZgu9u6HTIA
z1*sby?Jn8IUG#Cv>h+k;&I4O+@9_(^_&H1YdSmyC$vZ~r6{3{JjwdTuFVRzQ@n~$@
zCnJ=%gM#(7{f@@19~=&Rd$fn@hy47(<}1A4Ov$HAKMdUZnXD+(M)OzZ?sf4?U(QJ!
zq_|M>3FJ%rwrqW!+{_ETOR*ej!{pAhH8OX9m_(e)=8z{#zt#77`l4XzBPr=v;p0q_
z?e=J<3AzLw2fVNt71HUnVKt_up&^t$!ej`$2MI>!cHSX)2~FrEOvh}(Ee;?>6Qn(q
zF_M|NIgFJiAg7be-P?c}j#N@N9X-48d-rIFTFqr%9%;$2nLv*HNBn@+gR(|U)*wZW
zlz5>NByf6swqDkwIWJ^yqPGPhFCroWK5~F?IU)dp44emRsMprk=mfWe+h;#~SQ4oQ
zL984$OR%N*6`YtM_+wHKGH#Q9r6rvPccSw~9e^9V2L8X5!AK2*H&?+L{yz%PDbCU=
zkZUlE5{4_pOgsir(A5LS61F0b>Gx+5;ByD&amJ-xXGlmOS6FSJ>_!i0gQLUXu70*L
zhD*XQm-3>yYx@ig4mwXyl3|AG?afIh!0n2UA5Uh!y|yr_g?WdR1dC!}$b8S$qhFqq
zIB^2JTNQkfqrLA>pfj~X-9iBjKvM^LHUpXl5{XXZo3+uNcj6%OgS@6o=XVoC3FJGX
z`vWKQYjiXK&>OPg5JVWl2?i66?Apw!#IhJc(=el~=SabEadCrov^D45|I@0TxC&QR
zRpC4CVla^KY5j!><`9y<AZVY#dwXP$ENn0mQ^@rSYATfI9wQSTQp&g4T^t+f$O*}!
zDcvote*dxf&@|aOg>+pd8en&YBpVU7$wM4x<rk;|$o;Et9Xh@%)j-IV@;7&}K}eFP
z(<!TMem5`uX7k9gT(lI<+i{p#bLgpgs%^igbVA_W{M>7YOp;>hdADX*@Z4VN^{3j(
zaV(?xREp0cZ&aK(vaf=@U~NZWq2RaVH7X+yYX9F12A%OSf8G*iHQ1~Mp_H7LW`ik?
zsAfc-DJA`nGl2+pGE0w^nVFd9<<>~z0DVJkf&A-N=G}Pl2l!B^Ui6M}Fl?(+--?Kc
z_-7aiV<u*ZMhM%Had8>0cWjhZRV~nuz-%OXwOfK94zP2OE~`GD78jFxIYRXTeH}c^
zVIuD#Z{w0JUn3I}k)|u5HWRaRxY{$&2}DCvP;iV89LdQmdU_6G^c2*N)0F{iAi=UC
zkgb4ERetq+B(Mi`%S@zBVu}qsyPmWZVI@MfB$Ds$-Mb}EKEh}f5kYvgLEHi|@wb=y
zdkT#bE%^8mourne4Rv)#tJhFYcubTtGc%zY<SBJ+*Mu`fJxRJ2dNJWIz}?hc-z4Zi
z$gKnr$gZaA$Cm@K?I0|`gu^C0DTy#4N`fMVwZRPWx`zCS((ni#->+Cn=wLc*t5snK
z>p^BhN&F1w6h>abs%gl}lc3nOD5t(^v4QwV_!J2WbFUfdB;izt`yC2Tir&ll0_Ar(
zICXU}ERqI<g*E=H82t5X%ZKkT)9Au^2qIIP`&4Ab{dL;6kB_u%$+Fdnv_1Dc@O0^2
zZG~~mseY1}7_tjz$H{4tMn;eGuT(Sm^!sujCfA-mRkxmgJ90|l*F~k^E$5^&oXF|x
z1d1%<?j)u0y^3<)#@m*DH~68<=wtfQU51ag3sioJH&~hHYe@^^l!%v|EHCD7po*4Y
zO;kK*zm?0qY#V!nqjOj!UGh@HP21Z2#WDU{BzI4|5qw}_qb;PP_JwL}y?8pGnVs7$
z3mXXA)MX3}e6FshWnid+dk+cX(Oh^tWI^PUYGVB1p%sjHgdGF!Qyz9Tlb<Xr*MEK_
zgOE=70Z!`x#4nr2cikM5i|JXI8)9d$TC@uY3esj#FNE5%1AZUyR8?TVAbjpd06ztO
zB7qUm53L6^1H<!>96}$*m{TYq9SPh3fw0b!xVyU-59<+;M+%G7sfT3y?jTHg*4r|)
z?h#-EH*KAr-eR-wxE&p0%n~Ap=gLqlY@?BYbh9mIS+y`PPy&f*yabj961;0*tYI3(
z6lO9>DAkonu;>9newe<hQzixyfElF%ec!o^-Bn3TfyKD4v^$KaW<=E~Z%ywt9B!aX
z0p34jbdB)Jy~X779u{d$nv;w%nB3Z;nQMLqm7u-UEuXz)Y<xWbQpJ`c$3DV=3X)#)
z2iO9Wurh+o<=mm=&AzY3>=KTX1q#+HgWN434*{|2z{1_=wB3{|s8;)@gtG)|2yk&|
zm+i<EE;0-3qY3%ut2!vSmyVv3E_1K%zR-}0x?Sc;91CBZRJr$-(kL-01=sTAr79|@
zq^^k{KC~&Tdq<Isrz-q1r9s_E)fMiO!S8n%yt`u}>^&9CTVh$=xp&yr8ghz&)SJ-|
zAB8bXd!Cq`2%V~d_HX9Q50f4#yW3sPU9BaUwB~1L_n@*6YYmqH=4Zn&<9Ect=*`uv
z03o|VCNQRG2W#(=QMBh-1xLiD9bs29d)>fZZN2#Rp_A5Yc-}%Vpaa>Ou!4{O;3wv%
zF^2vD@j%#fA~?(}EKb3Mt)!-=>-5mZxsT2d^$mHB@bV)Ucx9U$AUl-f;K=}VWr6=l
zR2rjU9y7msRo&B58hiRh=YGq7>QjzkJ{OD!m(chSlfh7joiN-=<UP13uHU?=*IQ@R
zWBsoRb@lO0lON)q#RtC<qnN@fVTVx6F~eDmS_!{b!(svk@&&K;VN{oJYoQ+_oa{uB
z0==@bzT78yd!w{fKvtH;wWNu7=f;fPY+GTu0dolhiI<F5%pd-z=EXq-&vfI^ak6aF
z*mA~WtRW0L{JGiH?t>T*WPPNo<QD#*W{xCv!Fo9|TQHa}Q&D5{w_*Ls;2ZR>v$oJ5
z{7}WTFn9ax1vV8U7dNdVG4Mc`ytX@n1HKZ(w_Wk~Nw<%5P@A3;eqEwZN=jmZZyBa{
zf)pmavp0>d4*_pn=_(3Ey(Qj^0O8>?K<h&eo+eMBpo@lUH2LmH!0W`2KjD%=^Pqw1
z0H+M$Qh^6&aK?{^&yaOOM_Zc&!lV|<TvOr+|9khg63iwnTT<g<zzNVvK#$kJwm|gJ
z5ggZX0}xJJIyYd50ks|u(AEmt5Ak4pggWhs&9Vi?z#=$!x?<1&X&x3T##<)H$@4fa
z2qb@7f-^#eH8(dmXs-(<dqAYciJep56$g7gBo+7sK|LS9EI0}el#A^k%eVI<Wi@4O
zldKsb2IdiM+qQ3S#iGE65Y6!!c;(E}T~bMf0*q3?Ay#)2UMdP#quFs{Xa%Al7bmAL
zNXvOtN8{DHFAl~YYk3}~m@T1nbaaH{H8TW$bXtLbC9~JLxuk>l8)g>b$g%DH-+zAm
zMA0B2aw<OQ+claSlfPpU74Ei$@#+t?zWMP(qh6gcDv18jG2QHNj=iNyN)Z!jDTlKy
zX$@N~b~QiP)f&Rqp`>rAEF2>jA*q|OZE30hir{8p{#J{Dh^`p@^DedOxk)J$Obm1$
za)FDY8()rdD5u@+jr2-ZRgZ(Ob`~0`Hb5Rset|(jztCKeEQ~K7Te<L~R0s)B<ySAJ
zO=nRUdHd#R55m5OW&MdaLzJ#gy~A4x2<Ohma`~n(XdsL#H(?p^&Xtc4#9(0{>~G*Y
zbW$D0@frhA$e?d8x+(o|ziUaaiB#$PkHDoR`Ipe-K!ZTzfF(H;c^v*D!g^J$vy*^_
z#9K^oW0*P;BXFng2OeeV<UfA0z_7^0IC6&N-ZJ?7e-b;a;s(&O;Ga;6xDWhGb2*Y3
zJ`&6>5*{}kKxL#*QerX*sJ$Ap6rp3o6$Rx6?-)^$Fu*?(sGxj(i5We`06Mv#H&ydb
z;2|M&9=zit8n|2wN=R#KYt)(ovV?%%CZL4HKvgJgTySXkgIv)jYk*msaI4`3HNbMH
z{(2D?80nC-A(7PLIA!SPuwW{a@PNUU04gs4_5rY-Dvhx?VHQy0Ugex)>Oqrh?vVbE
zOwGr_C1>f<Y}0zoX`hG2a?--m=*22Mauaa@86M5CvGafYi-OoCbDo5Ri?A(fZLkM(
zrI8%mUw2aF5jn?;L+WX~d8zyFrgCpOwzt=?tI~VC_F#W&U=UT>K3ftX(7_Y^xin_!
z`JeaWXPP^M=U5^+(o`b)-kCI=xkI|*a|6plPy?Vr0fs0EbPAmd(5c1t<rj*r&3JbN
z$s=*c>;R#rU1zj2b%{{}5PwlKGuL31eJ-u!4f~BQ20QVr&Px-95bjmb2UF;N;Swx}
zjzgD$joa?Ex-<kfY{wJ)PeZa?GAI;kpxyLzZUPvCW@#CF2Ali=S<g7a9gge_CLzPP
zSOnF*=|%%^;VjIavzV{S1#*4$>J{GJVEFLOA@N?%`EwYfZN$1qS!OFME9>G#EC_&k
z8~~@8eg#6+!Yfv?j0(-`qIjf~1M@KiLp&iYE64G|ky!SRgw-D<?Hc^mCr_P%ruQ5=
zzvthvbXT`p*%weswWU+xUTc8lP54oWA)}VbMqEuNLpPJA&wG{s>C>m6Pe7!7M4}t}
zk>z^h>&BmfJ;SgmL-K%7dK3gp8juJHjCpY|K;>ib8NCfL_JYq!S*0ddqAis~M@w`#
zpr`btu^(d}ffsgCQ4tP}y4=Sy9!2bfXU?3t4r&F~t1-ARbBq3w%>{Rl#gBQ?tdTEA
z4j#C6<I4Dq+oz`b_M;W!a34w+7k+*j{#0qE;AHD3f2gH?WVad_cg}H&l53~TF&JvI
zl90Iy+Fc^^E6Qt*u%it8yZ4z-hVF`opX{8dD+5Na$rx7o%!3`sn#EmNF8uu)B+#Ly
zOs1s%Fe2h4*frucI&b%FDCTM@8%rNh`1s7S;fmUf-SABJwtYTqym&q$tAdb#uOjfL
zy~_~g?%jG3Jl0v>3n{sni-R5g9L8-3T$ePd@_Tvo#$gms=&+DWcO^P=Lo-3fZN{)r
zT6c-OrtxRD#lJ$UeI48U$hKUvHb491HXFU#QR&#+AZHW$ky~@;2hYE|YFtb?-gYm3
zf5<_K7wm(5#szz6Xw7OgU9}&}YX+4DjC{`zKjw5qQ$<%`OTCwyw<2l6#QDD^R*$G0
z4)y3R*#!QO*WJ~9dmFhMN7MJV*i$okLHtWMHM2cyuR7k`b+qJLk>}A8iP*eRZJ4OE
zXYaR|+ghtcvV2!@R`MYU=M{brXCnGlA3_~{xh3MsAXqj__)~!zc{qDO=*!Q{<<HJ3
zp1C93EP5%kuXTj$!_I9h*JqW_bL?qKAs1rv_+(tn&OHJ(g+xAb2`|xLeVE2Z?zmWA
z|0_t(vSs6V-aSek*Qi}ud-|`^b(iniGkwy;a4R2wejxvn6AQ<C?IUZE&wXBBNm2bx
z!BtYaGwKB)_z@Fwx3kSo-%WX@_p&&fU;iJ|h5lVpE$g_0bH`#kzE$aDT3vWa$xl<7
zZF6kz(&_uNM^D@Sp3r@DBv^==U9iF4heJV;Jymg-KQHwR<CDYSfNC#V3KvCg{*Jv@
zpc~-Mo@X3*H-q__+&1mGnq_m#DAA~zM)f39qn#~jHiTH^T8Z(wMG8Zj3;&>60WD>%
z5Goc`Kd!BJypz^PfBtwzwC~y7WmL+_PV|h7Z7Ivoz)#Ufn2@JZDup(hTGpz0-;{G#
zEDqo`Jk4<GLUaAxx2zU<wF17P?s8JC>cMGYH(ep^%qJ&(6MFfFhtmWv<GU^Y_r+;X
zJ}cF$SzKv0VBxC&&g{keSETorC&APvw&<O4y0xRQWOQ9ZH)>PyOl?|r@YmS>mB{$D
z)5f)`mOQ6FUdXBr(z{f9G;ef7=lJNX#ap-Wz<wGst>vM4?!$+dmxk&`=q?=94R<by
zB0K5gCi}l{aMNVR<m<$3>-oM<n<UqcjC=q`EZpoN8DX=_M23T0K!*Ix9N)?Fsjm!-
zYM-)XX3q5c97y6ga<Db!=dT0Dheu9OyK9DyaI7fE$vsRHB6rN^djEaJe#h@E_m?d#
zKYZFzVqU+#>cl?M-HeF!&*QE;&aeM=UAr}PBtl6)K!EeX|Goo`^W-H1w#PYFw|_8j
zXb>s4GGM+Cn|nTIH$2ss@D2#rs%S83fWe6|H0|(6RD&V1U4|@9xatU^{pQWfz<4<h
zT6b%d0z#u%-Cr{1%Lb@$a*w>fermTe4ZGSHwG_p##uv?zlz}pbW*s%2khCoQcDiIN
z?D(*<d6%y5j7<bbzylBVqVC&|J`Mdm<z{%*z;I~cYHr@q#M8x1Cj$hm?)~o#R}P;Z
zBp+sdoTJucBehlVv3Uv0P8XEk=MZE(F<}Bj8Zp*PyuScOu#Wd0;v|Hz7-l0%X0Z@Z
zsdKP(3%QJHf-fFL;@t13F!qe<%nOr)l$6OmviwW}U+&#ky);aol<Z^1a1iaA;r+mX
z`%+DxE-CE()u_;IDBmi(^3sx2k<3qQC4ldy)Ay$-5s&6{Eo*=GL_B%~VtXLLJUEem
zUyON5xAntpA64>eVtNc08>@%tF7o9E3J9EZ;kkYvhmi33$+I0{pbn(=%-f_D;gD>p
zV4GHO$?QxE$#P%ZCv@pfBSgR~VmKWyaqE6}>jAh*3>cU;!{Ouo=jRR*w3Y;Q2Tt2V
z=FC2aBif`d*)KlYAzV#LZmwSQRhA-2fU(w1HP++8&)-f-uJ5I_Ocpr!>@sHzcXCpX
zWz^mu9ZfJ-y>ex0a&f^)Im&*=WvlQb%Z58!hAL10&#MFPvPVWd{5blg<#c*Yq0wVK
zySg}ci@F~fZ96fIO9G6fbnYA{#v3tQIa)w?V~D8*pyjtEB{4qHR;LyYcSI_rMMTaq
z-2XE#P37ED!y;_h!Zi{avQ2sG3r4oo!Skmhxq=0$y9R9^KM#M%PEGsB@5Z^UrLy|;
z%6Hrn;&iUK&9F_M{{I+z?{KdF_WvK*6j`N=LK&4+DI&^Vk(9lPjL57I*-7?Z**ir@
z5g947j5L&;9hFr?^u0gd@9T5@zTe~X&+j^pYaG{gT*d44d_ErMdEW2$+gW}2vgE4-
zT2{FY|C5SzJrffn6f)lbe1`ZaMbJ}-Elq0(D|Lu*|JN{iR$|fvb179%PbpkK2sngd
z=<wz1S2Y_O0f1iIFT1YKFUB;zz!ZPkFhq1m2DLy*iTOptN7r->G9q+cRCF#pj<<XJ
zc8?Tgx{bL%6W`ChfoFnO>3nJL(^D1HMMX!qMR3;G3{@Ydr2JiM#y(SC6=UM$@#px;
zFG@<6?12Y(5@eFt=4%BH1Wqry@F*nhNCHqq^z!SS7nc@;4)79bIg~}ym^T=t#%uu;
z3=$vSwRP8T>!`IcVhKQyeRO(S|H~z!n~<9qpI4t2v9A%Xzc0~q%)%hmN`I$;^rb_m
zP|Q1zqVpsnB7ShUZ}}ew!kL?J9LaSG#_qs4E%&nO_3hjui3!LD;6i<_{mZt0$Mxqi
zlNSqjbvF&l#4ayef8;qseJ*<Y-{l3BF752E{Op#)^hQQUw{Q2v6veOFgS5PfmR93*
z;a&B^?{k%lwG$Ja{z@|+FhkWi&~-r7zv}p%yE+Sd)D+*vYPlUz(YdM?5LkJ%@3UIp
zr#5b*6Ep{k2ZBPxPX@V0mH2gp2z55MWptCX7VR==Iz-QBm#V(1uk!9m_lSLVjf02B
zMs36Z73J3%=LhHbQ>JGY&Us4x3evAHtamPbOnn&eEJEhMgrVr=E4$y&@qT}=`9aJL
zKqM5@_CdHO6YmVs>r26DT-z8l4*3=;0+H<MhHcww6A$VPrm&b)6P75%g<!a%7P_oD
z`h8>sIf?D~BeW-NpAu-7$7oPKiV=D>CWv^@wfyYeu3fXjZ~&TXzDoaUHqmJj@HcqN
zJ0a-k|HH?GRpcwj^BZxm_;(!WHIw+ubfcK8*^Bz_E0oRde^$kafds;J7}lcGNWb_K
z)!+Z+(>RoULeAMiXxq$;(!lfn?Y{jte!0jBO(f4IU3Iv#cU$iH`ruPlGAX)88-2L;
z_ntgcU}BiUpdG}kT;e*`{A$W#^Ge95q_xIoQMg(TPw)Qp)smLuYa?QFQIS(`Qh%y=
z4kU+WwIwColryyRh>3mEW8)I3u2bAADi+ez$H&DS>mC+9CMI!4?qMhSp1o%`jcZI(
zj0}#8pLI5Kc*VIvJ8-t&NozQTKK?szZODGsmayRCmruSF8{7UNg<O|m!fHpl7l3eY
zKTgF|9?g=Fm~*=}QI^hC_<pX}W}1!j&0`Rk+|5)~70XBC*(^wqw4{d12_P2803=Z{
zF)v{C#9T)B((GMjSkDRO7v?RQXbo`C6C@VAJj8GrFV)NU?^)q9MDCAubQ~HBtZ$%3
z<}&Z*U||Ww7YW6v!}T?qlf$q~Et>|W*me0~woSj4E=r1fCv0j&Bm~i(7oQE|hFJ(j
zVYca8V86z3QPOa}n>*<LYd`!*1p*BTihO^Bh>-HNz@P&!>K5Os<0d_FvwLHQH`<Yp
zMG*g<IOo6lKw^+MIXM|rE`lN!c_>0@qNi8e<7&74_%)qKx~VLkeOm`>o_btfZy9yE
z9zt5kx9isBj&GGhT;Hfx-m&S<JeXB<{TjzrbN%#hm-jOR)$L2413yw~N(K59v}`<g
z*_m_Ab?a4T4eit?I-eh`%6c;~lj!E=?}|!UTfX<MH?~lll(P%mppeB0$h`@^R<>8q
zlnJC1gmMYRbDHZ(DAkWhlW!~5<<KcQUZ~@&ly^Edv_Do!D>C)^b+_*W)eYWPWGLy>
zi)2-~@g!e0dgi=5)T6@=tB5C5t1^UHt%lHfp&ZCZLoelU<J)INd@N;;AHz3%n~42F
zGZO45){XYD#FZ9`St?3m-#KT3i31O403<#5x``7Sy(a=LzLk|nk;Fu3$8hGr@#8z=
z)$*9_+~6V76^f6z(O!{s#FnYEvy)&*kc4qaGGR7{`2>U9zueA!$B*k<&*3QTg<Xwf
z3A_&EeVt1#$+*w^!e2oJ#n&pGPZe+O7R-r=))WmK0Y}+mJy-uPyb=+oEKiqmS<mG=
z806|;Y7D>^VQs|i*3DjwpPnc;i0)9|$mksE1cLq0JBh~rvHd3|g6@g1%xr%GVlr@e
zN5C<OX^a(ya8g$<!SI%eobm(1%DWi13G|yr)gfS7gr9*(CtUOS_oNq!iA#TpYxiYd
zJHy&T4x@#$gOTlh_do8y;|CaS6^w$=+?pC1eAN@(D%$J{DyHtX-NloRCryf*1g<F_
z@4FRORlQ1#qq(P_+fB0;dcSlmf5U2c|54#pxmUjyFTKs#uv`A=)-QD-VLc-3oxEB7
z+>?d#t11hWfw$}$HXQ7<{bscbe+O|jvn{%KSCXy=Y;|ANrjYh_`tULM>Co+!;ovU*
zV)wsWSRGg1<tVBjO;2CbH`;A(qyMXa<pG1;mKQPf)V0<PQ(2U?oEIDVT-P2{=S{lZ
z<0{(4%0}7U&UW&8K!%rv>p9lLS7sKTRHS@m6KT1gFv;KE;44c{zuMQ}D@94ED=wOu
zSa-7Ho!yz4nXI!#g=F;Pc4T&{+XQvhnd*ejk49Q-7dWrAQ#D5ax*hw+v670pcjCKF
z9J#>tI)k6!RbdQ4@GE^YZmoqtL7JszB#Gpfy^Itkoc@Gx4uyjtaUzETVoxL#jUF_i
zFdKwEefl(_<>miBz+jz%>m9)MhzkiLCFS~C8>^VBNxDwb+x_efbSHd3unV`lX=^iL
zSWI|kF%*S|fxMOHHMo6?9JBE40p2ClHYm5v+pye{1_TzuufopWhDw#xVD3Jo861Cv
z3$$Gd;U0JlGVpw1)ZK|8t_SSA1iTYL7~Rhs@EnEhJ{AG-Bm(|-j4W(EJYWY_OF5^9
z2t5$U8+e;hG*sV~hOSKz42aP$)IGvd56B1cXse|{2`YCUQ-a|XiBe&wVG{i5<Af;A
zDRrc41I{0ulf^*FX~;;&9}v?caXNa#>S}29bO@7}l@k5}R9P6ru)@zVQRfIXMlH3W
zL9P~<iPYR$!8S%NVV@NtIoq$}Cm4T5{u%tO%IY+GJJXEoE!XKeAM^N$!G~$j?_J^*
zq+w#pjEXqz&;QaaknY@s_XA-n({l~^ZM_rh?2mqG9lvqrgtGA2hdQcN&+Y>YLLVl)
ze`Xi8dQ|LmdU!nZOunVMo~6Ye{_gktd#|yExGgD=m5@^TZP7Yet(f?p#PH<r$0U!n
z##a3NVqQi+K9aI)=cD|%>uzO=NmQx~?oof_tkbKrBqJ_I<X+BqIrOWDzb(1&u(3Oz
za-NC1o1dnh#HiI+Ud7dk#rQJO@;y@fQd(Q0r8?|2?aPi<9(o*(V4XR-B&2_teKC?^
zW@L<#4<vl!*YbVVX81961tg5X{`GxsztrE?H$9Hv#B*1iWtbCS&e;h0L`6;Q3o$se
zjEn~#0p^`7vZ-@|0$@6z__&S#O3Y`|YoOx&$kNi%B>*2WnI9P$X#jhYFjBFzvlCWm
z62f2$s><lpRN~a}V~#@zxSH~_U{YlS_Hs0)YZm6_z7-V}Jh?d4FdD#^zxR_F;sO_>
zul+L!UciKK31ZjG9Z?v!flK2g!O=?~UGW4eLw@;Gb3+9AtS^|F=j-IDkq{<2oOLsO
z(&!i`YM}KXw+&L0oN^#kYQi&dHsS~BR=Rh`<iKD$4ggE~`ae3Czg`G;*WcFfsWqem
z*4m(jCs<szxzK#!`N>-Nxe1ss4noBLjsr;nI3z269<{UnP_^H}oOE(^WD8;Az{`eF
z2fwK3Bl~a>MPW12a7ufJ#{3r*{lkU~HVx0jlB(O5mg%!jAGiaq@6Bt9JCWyBdmBK-
z$i7!0DVwpHSy+TpkW<5?;ig2Al#EGw485P9(-`IS%&GNXP7`;57O}0W+S&bZy(3GF
zm@f2?WJ$9cZzI|M>GL${wdhv~339G`L?{}$Ru3GG<*d2hgZUM`n&5;I9<E`Lznv@A
z^&gWz=GpC-tW0XzXj$>F?mtmoQc&>r(&oZ%K5M?&*BQND+cw|-`Muse{F){?r($m7
z^N*!dX$-UuIT*0R=x>42MkPi8pL(J8-YJnqd|gQ>l;9|V@q#g2X_J9SsG~%BeS^>|
zIGtbMTes#!6lL6A&=%P(8hZMd@7~2hg852KPlDn1E8ukCvH}1^6SgfJpYk|0FkFX`
zie}rkX1Iz`Hcv^OadB~p&?e@YWv~{)u%!lv7mAa^pgT>^PI=o|UA`=C-N`}Zj|eKA
zq2Vs{Ad)e4wqt3Pa8C=Y|3IOJ0z#07rq#LU6Mha$JoNC`go8l{SB=Zdqcv4k0%RH%
zYn1Sl3c8%$kCqvEuKn8vBpVjbb&zUjT{I2#(5);q#Diga1Z+s0FSz)Fm2w*2zmG=`
zb@<jF_gC^YctZ%C0b<zvSfuQixw+R!Bu~Rd!)|2eY3vzu;8@1=fuJ~nDv{Z{cXx!b
z)m$&9UUHJH3Qq`PKeTOIIW_Zkn(tiuF0IV^?%z`4y=CP|Yp=wcMpvfk#G9Y@3vc^S
z8c--8dL(e@d6wa|!eKe#vxC(n`|fwp?tK<_kiEgyvTR}`R_oU;M@l*QbkAo;C`{c<
z9{2HRh^&}CzHayMaMytLko~&LFY-FU;_uekouVs!#(CjNZ=>!-zs|iKTX;!NIoYh*
z%Zfy*>U!oA2Zyv<4w|$-C~~ZTy7XF(<|zFG_VwiF=HX#(glP$s$-jJR!a?@<@nh>>
z88TcNKl#!Ru1i0Bl*4MzH)Cs1lbukNg3|#Qb0V!sC|sZ@%%g)5>;P5N7Dk&>r%oYN
z-dpS83eX@-rYQ250Fl6JMby*B1Rda7jeB|3kf_}0=q{m4LW32|aB}q@`YrmTDR$nK
z_j+dVNs1HTS<K%B;FUw%sjVzyso#fU6c;Zp=M4C>-omyHQIhBYda@OzzM+;%RA%Tx
z>e*1a;h&8JBj?AJ2DY9&G0)Dl=-m-~?c{6czx?i-Ua%Ar|Ln5=NMwK8lS`RrW}JTB
z|1;Qo;O`TX8)S0rB%xB~(cjXF^B8tsh-$LRjyx4Ksg-!%&G+wStc(RY1@9rs)7EnL
z?p2c{HjXR`TZUh*_2K@oAr$NpFT${~-m$)>sEE;-I<3>a0#jjS-<S3d8qq;)4mM|b
z8**734$|B`^rA0il9R_WS0eki=2kw{iywLn3bh4yI7SU;+dqF2UzhIfI)1xM;z{%8
zs&S!CqD@Ep0aqXZp{-?qpt&LcTIMpL22&tutE6^$Hmd-v)1eNLzZzwDc*uw@{>*D5
zeYA>Acys~xpoZ&>z_Jh*08Zbrk@@8v9bmtM`-MPxT;K~5Xz_e7#o}u?jB?bg<v!R<
z(B2@#2}lIYZT<4&M`V4yECHN`phbxHFko5O*d$%@;e-H#N?y#|_s_FaIXy)7a9@tk
zDLCl9;IC4<!`e{)sXc^K(uEvP+kUO|2d{f?=dwO^JT%pn@$pjzG1+3Qwfo<>ihlwr
zyGzVsgLcx<eKOi7`!;*;#neB8R&t#aLPz^5{Z7=MdUw)fd-JGjuD7LS=TCA;)hfOz
zA60J>yL0pR=vm8IEw|PS2k*(tZyz<?pz_VLN={1USKMx5tZ_=~j&OAh3CBdyG!vQS
z4WCB}+XUZwK6@ws>y}3{A%4xIxbbi+f29^BVPcAo<W>Ecd#O-Z-(VygPM&J_h3rL{
z6QD<-vm}54Alg^Kq8V{)D>OW`qmSS^hD!^wQ1goy*($$aZQ+FXkC-&#5^Ez=FLxX1
z(A8D<+uJzXfeV@c`IEw&FbxmYCU56en#a^s(1Ad^10w+p$Gf(cxA4={t$jTJ1!(aN
z)s}K<!j1>%+-szoX&T`AYDEGcgH05Li->jNOZ5k&Vb7F>q|*oq;n!<zy#u_#2$<Gr
zUK-)?LL&JhSW5)$MVm(h!D29j2udN5YK5C;_RgU_Q_;k2fYK6UkaDPSWaq_&REGC_
z43b3*7}(afydD3ZvA2*%Q4QYjEOX|}HT}VIsfyGtwh(s;k%L-SR~F{Io;+<#8$K0F
zdD+z5Kz2pqx`WmB$sUVV6|xQfo~6%j!DVGp_vrVF^cSz{@GUx4)oOSCz4(RvsC9>j
zdHLe7&-@gdWMX6}U2X5wtG)uvL=Ct|gWXe9R#>72pEsr#_^Ydr(<+sIW-ZWF*ePGR
zm(-DxF)c>MU;UT6#}HXq!d$gnd3Hg8GOSue<3<bsnwkReEzG)0A|_q|K?w!bD^&Ji
zHz`Jp*HOGer-bTt9@&bqv9SO&?}W0eTl*a}qeqV(bqfwYC@5$_=}s8q&gknv@B{h{
zn9;8veLUj{d?t!nHNn|G+QskbxulcO0t)hk<>l=oj1K4};0V(}@^y1<Rs?ij5)As-
zV7kwRKMBw?9#tktsiPQY5O7ksjFrN6o`U)e3f_VFC$pgG!hw$mM-9<%XAG5a4dR42
zYuk$hjj*Tz(4k;wCq&%#=piN5Om^fs`l2skM*sTCRqbE-CY-x-Q*Qp7Imv7KH~N!L
z!(1p88OB(t)A>_0s=N#~Hy_+rnW1s|q4m3F$+wmwb@6+-Q<T?kE>5!bW8=S@_m?Ls
z*+1Zj(N)Y<Zui3_=fiO0SbOgW&4w%G#@EzB`5H&%A30`7gDN&y6L5>YTFTOLyGiHE
z$wQFAq9_uj5=L~++!6M0W*BT&oN~1tYwzvOPVn7r5E@;dQkeTdRdsO>d=$`&fl7<v
z6)PV3$pb_sDiYL(dG0l}CE(m7VQiL!d_z2fVXR+P3T^PzUb3(_g$zoazuQ%$YvH<%
z;18KMy-uaw80vq#)YR+O;OCa4Ofg?$?a`Vi!#xjND*osRUHY#IXjOYP&<s?yXc>X#
zNUG=eI)Bg}yLCIYILr8aVZGWh5!Hw%S4JjxJ+h<5yu9=8A?;tawtp#)I2h^}E!ah|
zt@HiuVE6cJmHDUbS;o;_ebrme+>0tmJrZ5KXX4ty^cIhO3W+iDWG_5~syN6?Cf{~4
z54!Yp=2@9@#l5<gqbqGeUb+n!*Ktf7$5CgOR#L-8B2VDn*M5C7`jG#R450nRIP`h*
z6qT%Ae#^VvOE2gUt9qrrXvPrvha%~9Zov?H=f=_wbGdD*&#Eag+W+F8l_y<Kh!fk}
zJg%u${lO3Et)1#SHKn~bb<Ev!m;C^>g~g&<a72_=^arM#J=vkvo97yFg?Z$V3TMyG
zxEwRu&8i(-kge|8P_nGyWw9MR%WeYT{y<Z}6;zw39F{7g)FLk>Td-a5`qS0IXT?X_
z-B!sQP)im6@GM#5;V3@pn>;VvWpaexK7Sasone23dH>oc?^G$jWGcSE#sKre0h9Dn
z%|8cXmQGG=a#j6_zjvkO<@Q=@c}cxNiAe6I+drLFgbUx#f9Th~^DZg~QqMkRN+&iG
ztwiNdpLdefNpC%5clVyYUS{Zjf>MYdZ->7EwIl)cwC&FHE1$#XY6+<d(E~cTMTn&k
z`;NupCy!%EPSH3iGcWj*=_=`n?YFkqmk+z@ma$Nq9{D~Pu<DLl?f&m^>z>^9kn5!P
z*4kL3X#Gu2K<)Xwt{d2saOT#k_OCfnfwUuuB78cO#%2p{!-mIh#r%Dx@zliav9Uj@
zl5M+Zdw1MZ7v&;K17#tt4n=PAZM=Gi+wanJ2Nt9YhexTa&@C$ey9CL99?A_AgXl}Q
zaAu(mB%tCro^GRH1@o|xu(lfSs;hxzsB(0+*UWYGy9Ehy%lcoRvM_J#$W#cCo2M6+
zDY~os+;daag!g)TUQzg5L!Ecy`qQ5QSB6jh@lXjNxkM#;IKXAXvMXZ!?8vl!t%JLP
zYGhEi0pm@z^y^$CB>}Fq#y5U6to@9N<KsX2eVALQkIm5@H7ZAB&!HU~BIS&+taL63
zp|`>-TX=Z?SytpuTIDwLkG%mIiHn$YN_Akq4R(|_ag&i$kN^2kE)=*>WrHLnFilTg
zAMAS-Ipsqx_fV(e(fiXviKWKyv5-@Yy^Yo8>+(7seT3cVX274pB8F*J9;$+~6ptPp
zpxb)(Z)>$B@r--2^6;2yZQs8jWSm4M7@cW-aLT95A-Tdtf9Ict6PA{(>krIi1soG9
zOiUFD8V9tGPQ8&@Sn;v@YS1`AempUFI{VNLlNKi9py`+cVyzR|mDwGF<54*e`m&6w
z3)!^gro>MDM~^lA*WLtB7Yr|MlVI5W!~aGv{ciyEMIa4M?~9g}x+(dz<o<e5kETWQ
zIn(nswC2;~<b!Wp*+k1}J8_+ilJ{R;Zg_L($Mv%}$1Te!FKCykkG7OuSyu@Bw4xhW
zq<@yp!n9?)_U!r|dq0jZR>m}Toe9O7R#Pu&`pQf?`_Da>TK-CLJE-<r@^voZm&I~j
zQK2+WV(P|Wj3%^7<SzQr64Bo!$L}f`I8PQOs;f7o>D3#%8T`BQOW+dWGJ$;2f)XD7
z<hagqbuH6x9-f|GU#~1K@*Fx84qzfj2Lz-{(U-X|MUi!FV{apId-x$9QhR%!5F$u6
z#XRR9(l$3&KaCb2{owh#ruRgq@Qd|O+C!u5I__SaOr`R_?`ti+s6Er>k*85r$Ml`N
zwfDl-#w$WQEtl-0`Bta6kGpB7ml*AMRx8Lqc1WNo`Oze$@txoYF1~fNL#6u_5^JM;
zQ>A~pNRk-0<)u+Qo5(gB{`@rW-<La+o>&`$Yn1SCySgrMbX>Z4k>t_i$M2FIt*j{I
zfW|7>z^a^>l(i!<$6yTc1p^TFJvytLC*BqxnW-1C+Dn9zJ%#=x&1PUth>OKp$19He
zk0!-kxphC$@5?>CFUDRTJ(B@#Khj<XY(#k(one{nuCy83ndEnk*WFF!7nz{hPurl}
z^_9JcE1bxhI#fKRjqmMCoTZekc8<@IT&lOc-0<Py{IJg=RN3xwR+jxOE1&fBcT(Pn
zsdVL&3*ut>`9Qb!=dRm66G7z0r=Pm?e6x4Zm2*hH%~nY=r{1H~c<x`>*Qymg63nC4
zXsP#o{sB`@vZU+fh~F>+H@|yq<1xE3_vxH*1-U=Rou&KspQ396#)?`<1xkgqrouYs
z)^D1z8=d#M>tYJFgAA2Ac~|P{@oI4<Uu7<yFuulz*A`dW9RqHOwLk59isN}MNT{iy
zohdAA&(ZVSLdt!DGVGX3W!wI`{7~IY>~axVNQ)t>r#S6ib@18hjriy0v}!t(5308L
zoRlnKrMGZD-^VQId{Qbr<pZV0ve$DHGjYGa-K-{DmRE8Zj*Ju)s2^6Sp58&R_eE_3
zM(wx7E;Tdm-i=#r+#F>J%Fqm4eF%9=67Xn3D}nc=>-i5nriVezh41+r6Sw;OS7JR1
zHbuNd<Bo!8%eeUa&-EYx-fbb!cK8!?KfL#B#YAfA^UD8LR+LJ(j{PRU2XOt`ARItR
z8Ps}FfN?zFcxijO!)X6;mt|^_HP5w!jy3nBo?L@+eNpG$lG?18fO~Z}5_vBEixaMn
zOVa|<b(D6@g?}zAG*?{ZS&8-J{vzV5s3|G(`c0~fX_DUgKo3Ux#7V#XiY4?DGP~RL
zIz9=X<oZw=D-%G!HA~M?l0oB?<S%MAliP*-owX($=DJ4(N*QiRB%=oi?K~uP$vjh!
zr~hYp6y?2<qG^|%t(&1%8l5gZ6KXw5ry4!-6q8_mC%71gUB*=ic|XmH=*$ReKf#_x
zzfJL#_~dkpbb=s0LKjYpIaYOtoPweZkW%cr0jw<(sC!Jtd;xijLRwOY!3DYtvDv8I
z6aB(o<Y`fUVSiWrZ}0^OkEhzcggJN`%h8_W{LtI8j)AlSwv>SjE7*CtE{aHiz}Nm3
zHt*$S)6!7C%vI!#kOfjo6qc;mvIa;9%m^P!6Swq<m^{mkeY^r_52)3!5(~4>lkoE9
z7&HIcwR0!SZ@;I<XKBej_I4JR|Ko_=mi$md%kDVMuv(p!&Dl1cf6~(;{5vYMR6KMQ
zWB95nFKn6?o!H6pT}ENsJ0+K^N$WlxL!t(XNq49VO$yvM>TOh#88>+cZpCP|+$VL{
z?C_RV8VtTRYq>Yy%cGhsMn2C!oH=9LuxZfX%EXLX^Lz-^y9%M?Z|<Mm!;E<hXD3`(
zRN6i?b9|~%Jn-y@TwLfa1A(6f%{eO(ZynT+MGT!V6dIG1l-$n9DCbhnq=5k}Ek=ng
zpFUOV+PkL{@C*pTZ16w;0ZD_|2igG8qvG&s{ZIN#&dKRf=QHG{G2)tejp}3y4>+#;
z{as>u4-FMz+i-UFIC}1wYK-oP{wk{A=%}a$d<_{D=l%7fp;$Aru;eZoKnWm`{WHIX
zcoHBYy&4=$BS5XzgQy$;whzt9sv5xE^kPBu_g*3Zm9M%bv*4zd=gnnd&@=pB#K!T3
za+8>P1oFH}_YVxsw5E=Du6EhD=E>qPRin$NS-qo@j-F)qQkQjoo#(bxPEH6n3{VGW
z+=`({qGdIo?)Ik>UC%M^7BlcYODe-@5&vU$U&BkXe!q~`p@Ru>C(PLx0}nRnk_?e0
z@Fd1YP+lj=Al2MX_PRr%=&ooCUm3)hk`@!|PeoQLI=`~@_h~)%{E2`rk;H7T#jtU7
zZcby+zA*&dYBr{HSR)4BTN7H~Hq1BTCSWThC0xQVRw7lfwKbg!2uCP2l70RC2$8no
z*g=%S92YeXh_UJER&;Rjb&!FvuTd&XiO_WNbYSERCv)hB?y~dnWqJa(gY_GjWl2<3
zRgD16k0BJ`tATGnbaiPd+hZ2M19^qmStqrGO(SsNWCM8Y5wV+*(YL<7zO$BKoT0HJ
zVD{nRTM67Xkv>Wi3qXz}nP|)6)q>RWbedED*Ve&U7Dsrd5rGNDZwD*N-Jl=};?>+c
zYODDSj?g7c-_9buNG#NQY;$(oO_=S~!DI(NJqP4bfQ2KGKu&YGP^3$wTF_7u%L0&=
zpndlg2|D;oiKJ3>J-L4^F3(&vsZ!hz6HSnKD1se%&tDM&s|xc1GY7|O$Ww#}gp=fu
z{450`bSj>gr83BUUTpCFzUIo=FXc5fza;+T>-&9zf+0xy0i)K6<g|+y`KvLPq`8@k
zjtm#7m8V>0^?p0P5;jj#PJMClJOll~y)tYUwfvi6ZAM#FqK@o4tYomXDs^ucjaZ9Z
zmrBVkT?dvzmyn#}H@4l{INupMHb*ai+t-SeJWjdDWoCvwi!pYaaQ?ie$?7Aiq}neu
z5kI#0kZ^CgMsj6D)10)NN`rEQdYNjIftn)QH@v|nQ+WRFk8Hh^i^04yDxM7i<8!vY
zZq5QzzVT(OHI8$WFLLNejQ>Zai4FcS!aQ(rP*i)j(}_`uX1h!FnhtahW6<C9fwjY+
zjA{f(?TfgXC8Y@j>}w<lz%M4aN3bPhNXLLDkH}GA(w&2Z_}pO44s@_-$GQndBNS_b
zXNBVaFf3*f9FnJD8z)wJ;o!w|<}GA@4o>y`@hdpS;lP=KmHExJY9aMCXIWWUxP;Xe
z6v&a2!;#*Di7Rl@O$66j@Efs^>}@Vhv&XxY(1?irKqBIp7FZ&-P9n+=)?X$JZrHHq
z1fw%1j{w1gF&d3glw#o9$wvfwAGgQ<yIRlf$rP|cNUsM0#}0CxJX$}Xhq%nZydoiT
z&WKVGgl|Cc7w~VcFh!?1m7(S$0y>1<{q9|&S|fJf!Ie90-*27a-Hb?15lqe)qEUR^
zor#YJd*nn)oA?-6QX!(p#KpY?z$giS3;uzzn50>mE?P_%Lh878SBk<nEre73Pl9<S
zo5k^c;ZGI^@hZFiEQ#l%0jUa-B)k5~*UUFmv3lootLPYS8kP)<z2jezP&}0<!k_#6
zsbWdYxWw6#yKyPBVr5av&z>aSrdl6;JHY?jOvry_hxX7R>l3Q}yvpW3Vx{|z+Q~(7
zW&RDzU{Uq2=N;|85|u=1$GYr#n^f3*^{&#&u)?+jZztVoI`YDIYsrTi@+5}ddfv-W
z|BS^b@b|{z4=<lz>t6k@ZNvkf4h&sfXnWNzEfdeR6xqcu$t#(0)IzIEM)#mzG$7O3
zn4NLI`<>Y>u??&7aE>@Hh17q6G6CLu>)scZS|w|E4lJ%*QHLvym}7moz~+kyk{gqy
zKgQu^bsS)W;}a*=Ai&q|wORe=I`~_v#Ew3M=4QsN1h)}DsDT0FmIT<$3ACrx8cs9<
z2#gsR2D&Q1abVO3TSOAVPG{?Hc>`&y@~>yx0$=n$YOa{$;4|=-b?+~~s~6?r@rMzE
zm{ROhfT(QP?t(D8&bf20a}|(K1cpsaOxS@f!x&MDCrl}akf4aYz4NeNmBZ6cwBZnz
z2tL+t#EfnGFZ`n0ARePT#t`Js*5Ue#$E*${UiFI?c_u0>ov;*$4e~UV05oPm0f;Fx
zm<-W7l(g+}?57ncjzAq>+8~@c{?=u%Op`T{k&6Cfn${6Y(iON=Y^q5B%`rbx0Sf{z
z>sD;Kv2u8OK-qAY4d;jFi|z%*ZzwJelZL4uw*Yy}Akf2|aiF<v==jR_wl)v53)_|2
z19ul^crqA#2-wwYS(-6tbL7#L9UQXzwT@k-cdRA7Z#_V(yuTylhF0rO3MUbU4A0Y*
z(lJ8yVJZz)>9oRBzDA!u7y24P{xc+D-Ciq<CuL@0DD=abhf5A)+MRy9D-ljV7G$i_
z|8G@?zw4Sq*hJ`uzO_qY7p90k9FT)iCDXydb}EJs=6~#-kaUzne&Gd52PCXU@#xqb
zDVH6^ZB_^;RNW<*1ZJgu`}_N6A3(E3f~SWjK#-=~6J|i*JrJxQ)`t+0yjlwccCl+!
zZ@a~>AHxLGy8GitV&4)u6&0^46Rd664=d8O@VNR~xo11ES{8InVyH<Z@_^<!1tL%U
zePNI7J9oAsg-1l;P^N>;KVJA5ciDYR)^U8bpRC3I0DuYt;wlDLk#mWyWf?(2mbf4>
zbH#&^<7$lMds&Y=z7C%2t~<q+j0_>9K_dKJ^X4D%AdUhe*figlw9oEBmG)OADsE>U
zCno7QN6JwRluJy+PkcS!+DdZZz@rXDbJbe1p1)+CBkxMbTaK+HJXg@+nfR&>)E|$A
z0^hrN;ol4C$Jl9{7CQLX>7C}bo>v~{x)qncEmh*=PX*7MEz%v5dc2JpHzwZp3hw$e
zW)*c{`8xSe_04UEnU4owt)8CK^0G@$2)*iePkUwG`>*8t<jNFx8lCI6zD=zf^YUXs
zy;2ZuNP(mK`NBR=hXdX+>ywPk<ztqUx(81LV<Rc1x8x0=%B5b}4eJqRnZ%MBJmsfz
zda#mN6CT?1Pd>lG)`a4PK6)6E${pyl^d3t)%B^+^J6m`W*>7!CdDW4N6~~0?;JtA#
z7==nC%0EQT0M;mvam+?xh-)LO$42z%(f8ZA%5zvtp%<`p?ZN&4G)9D6g#L08GQwrd
zov_eZz{9QF6;XeJua2IZAWE>Yu@S{XYfa4X$%E9e$mHXEAs!)A5jdYZ@W2r$>4-7I
z662n`Rf@{WL@IDE5(^kw1@Q?9-Ysjq)Yjc<A+{mC-qZ9@nce88U2IHD_V_jyX>MWL
zVjhpvS0lGSO`kS<^04u-r8wzyrjDP3QPuM^B{8~XHPW);+2bvqL(+AmJM!fgIVJtd
z*2yt)zS*DK^2lP#Ks9f$`A>Jc+KjzYgKGYz!i~TAkH&i+G_R#Po}4g!Ic}G2Ylt&u
zJ$v^E8|}U{&eUV5mDt>HV0?~OV1HiriTo>XL%cYOcpFGmR1{7|@R^)DzK|vGA0ZB-
z1bhVY5fgx_@f<uDMx-X6I2ggIawjCD$2R8;={cr_8beZEo-Z>ZKcQCAzE{TEfUQb|
zQJ%u?2l!|Z-t`exLsUumVM4EDrTwQER1~PR9t0kmPz2LR^w=@}BS&<t>)?OGoBJAj
zInl{ovaxAJV?gRrZ#8VK9Kq2D_A0UC6<pGRfq^)uGJj&9A1q%)ymIo@%a?>2XSIe#
zOB(Jpl*|w~=&%}vZaiE!s;=@M%2JH=zakF#Tk+nVyN@J*>`OZTaJs{Nc)`m4eX$lQ
z$|`7$2B{0}G0CK#jmihq&hZb%Ev1kgXAm$R?y(hJke$A+vbj60t44pF|9nige8cyU
zvFk6@_rH*qrY;yxq}a)Ovv5gsh)hG{$e-1mgAF@(gXB0N(qL(4zM;AEx-px%#yio^
zTNB=SRFfz1jngU~_IuJAADXg9PyBPl!G<JKPCv=kY>k7AVa9`noTq)aPwUtN#%W$C
z!8h`TB>P;p>%j`BrP>>R=<JH#+X3!g=+za03>VIIA{|XdMTLXl73z-sUVy&0;evvJ
zB?uWi=-F5m!P1tF`e6)EF$koqh?yco>QeIl#$prVi(n&)VHYa)qOl*bVMLFyS4t{{
zh=R2|f!B!zex+CE6xAWd5UEK-1}t&m{*EYu;Dk2ixZ5-%nh+`g%mZ<)E;R3UG`F@^
zMk$T#cf+izZwYKJ7>XVP@EvNRIW~|0UV+n<2e=tfIgkJ^xg$Z5hxZvbZyc~L=GdB%
zmc|JT^#>X{*X!4tVZb0($3pybMw|gPS18krQ3qzk9%JFhXsv4g8O?X?R*gy8_+h_!
zbCr8faIlDdCF2&E=sPPOhr#d#!gvOj(lb>RnU+<~@@M>wK;)bFGU0MXW{;odVF9yB
zC-1HrfvE%0zRW$Mf0<sdv^{sIzP~uNa7{b7ZAdJVTmCeeWk|lys7h!8^N;2YsuW$1
zbVbfWu`Tq6T+ODwoAf<09Xd%zH!VwIzeIDpDusmZ#fVzA^kDa{=IQ|No^tg#A?F5*
z^!;yTwprd_e>7@qb5=c5B5&FJko!J?O4mHZpHU(`nYmp)wY%*uYHCyygsBpi1p*HZ
zCP>Mc+I^r+aMchiy3sJ^;CqvdS!ZJbIfNjOp@RXZkpZFR*Xc5;Fru*D&-lCX!w36g
z%CMOV*Z@_8!12Hk+h<H_uFvqbVqGGU>zf;{H?yvR_0wjcN(?Rf@5z83ar-_|B0~tf
zRd;W16HqZ2yb#nZL`UJ2v%q@>gE);ZE?~UW8hD40O6NoL0jUCUtgAV>HqDC~iMYMd
zQ(2+U3;MiCYypOw1z!h|nU2*uxmWmmk$fhsJGkLTG48R3)&~kkBp`Wj(Gy-=*-Bj3
zXdbffnEtDy3n1cF{`>wP|EB**>4Y96&uc`k)yd5*7rzYg+rbks=}uFqQ?!brtE2Tr
zVrr<COSHTDqy~8^6X{BZ?yU2zr}N%sca#?fKawPVS#osz$o8VNDaX7}o0CgAN<PNa
za{J^L`#Ul}-9EQ+d9nGMa%tU86lvnF@2EBxx)6A4V`-@Fv4;LlW{H8@8Z@t$Ct`XX
z`=+=ge(}tcK=QMWj`Y4Dlw(xg8mmJqxV<)}Fn6Hc$r9v##iI0By_t)RvjKdn1T=;i
zC}AH?xkP~mc35Exq8Q%i><5}24vh86ivM5gZ;>_EmG{4~zbOun6mtJ;p3dSaVm$@@
zu*^Mr)y^%4OJ7Mp)BUE?d_l(NU(HYa1VvH8YIb7bEo@DVp=1-e{Ze6inESr<fiy1<
zF$H^yV#@MI+WJE$>3a+YxN6^wrh0lj)e7;As`I7IrfT#V9r;LU_~hW9zP!eq9H&j!
z)|7pxhdELl-aOxEV}9gaV|?M6;nC^$yTig<9B=MD^Xpc1JfGIn@}S7UhG&8PTxwry
zpM_tY$X2g@Toh3<{pGH}j*a`s2W}lbx=-K;s7)AXI>A$2E|K@TtfGRDj;$PS|MNoA
z{wE8h=*vDXGhNAOZpue{PC-ul`1gT$oVUEKrhoVT+^g_Cu6~Ea4*G^B-8<eq4TaIg
zLoahrx#ZvL;yV_`*-*RxWkxXV%7ll=MVFzl7N>7UcLt&z{J4@lChbL38Cl4w7+QO;
zeQikHbP*q#<Fjsv9DOuX^5C03d&ABfHpxEU5_C?Hm1IIA<W0O@>AuVG9U$y#zi3Rg
zFuoRG!W1_Pqbe&0rQ{{>_TwsP{&`3RaxHVAD?E+~F15|e4=XyBZyzqS@8S=B=h1FX
zuC!y5`bx)#-f)&Z_9?6I!5n`PA}BUy8-K{JJp$>Wy4p{wKlXLnu$)?=;`Y$bK|gNx
z%Sh7aB~W;cZf!c#@SJ6Jl2)Ttv9SB%$1`je%krcjcZf(jz80iTWhh!9Wj($szbK<p
zdyq~v{h6(3+iTzYP5%n(iJ1!zGtbWsG=-c|YI@PZn9QSf;{i3d?v@I17pHe5Q$0W3
zsxuyj?<#CLCz5!%RnnB)|1E*E{O9f@FD3bJrbw&ke=<eSrA<fcPa8|SL}ped%2C89
zWmK&EaJv43^Uu)F7sW;L2B`(|7+NDyyaO}TQP?0aV>E>=p${Lt@f3{Wt13LCnf6df
z$MfL8O(vbOKUYVWB6F{dl=6R3U1>MBpw772$Zu_-%(rSNf2C&NW2M7Zy+rxXTSd!a
z4~*sV1(d0d+6&l<$BwSiR;}dz3Ub~zze;~_N#zKAR0>)B2Ia@nj`ev>pTb1-;}<SU
zdEMB0U8%kImy&3w{Fw%$l-#Aq#><WT8GZH+Vcmyz43eLHsG|Mkj@Rk`{>Jrzn=hWs
z_LGSIPq>Kn;oY$gg}DtrkhxCBjC<|PJpERhra=E@bYEd^xkNMo8w=RtBN)#&jNl6l
zg2Wq*WAmVsECG}zcy2vC(HKjgEjYt@3vSo)e0R{_kD}CVnR=TyAZ}J`te|*GBaDM-
z?1IUSPif(qs(y>#%?BUNdvkjUB<4I33uI#*_qg^jGo#{<w?*GM$H=*zhW?eMgk5-R
zaBJ&}e(ji-X~D5g>9nHp&rSuL|4k=Kv+&5X5+%t_x#3&YbfUprFEYopD3ZA1NBM`R
z4m1o<{dsRk>GoCOaAit}+|6;9o^U@czxpVOq{W8a4fdAK``P*!ycR4uQQNlf8m0M9
zSZ_YY_5Y=k4|H^Aza9G$?R8OB*J;6tT+>tcfJ{KT6V_&8al;D~b&@dE;FZUJT7nC%
z2Wbb880ZG4;Cm!&9=K7!E!dR3ImOBP>V5O5_002}Jv@qywEoYx{NlP95|Z6)^RDk^
zY1s;2N|!z}b9hLKehyD&U(MME0@-9d{wy<dw|ovhC}GJHp7!qi)YO?)ePby3`CR9p
z$wM3`u7~ZFzdb+R#te4k!@d$+6bH>p?!|u?8mh|-&UF!&j~2Q>{_tr`Q~s-_3Yo<f
z*0qUJ+O9h5#rm{%ze%IWqUYa6)s75A1W@=rYTo*;!XwNipF$yxs>7-33Wdd}`H!e;
zHQ7oj^o>TNZNhT2pA$x;XTnwDuw(Plm>$xgiJP0X+;KPg#njwrAJj0^iHvtVc_vyW
zUX{es=vOPRJQAZoW@u=vU@9TSe0XTw)t0hq?^PFyeY?eEiD)!NLuz7LU(!Vv#uaj1
zjxpY@qR)yqIlv0_OPV2KZ;N4u_??@{`u0zNZ1h7yo)|p9NgVv-i3E&qmKgaWy29?d
z<ZqQu&>+y=+?^o4h{XwF)ms~y9@g{8FcAN<zWUdBrZ%@pk7F!?%Z@5OTRpFv_Z;~#
zcJfZZ--~i4WSqkxroGw$?C;H6_j&yO`YqDJT;j`J4`%IN%J7|{cl0z}hN^BlO`TAo
zP7q0S*b=Yg-+Z&(ii)bKBrPhAd~&k;2c76q?+VlX0b|=22acE7E^6OB$!hM)X~XLL
zcudBe!-*#D-O)qlM_m^3cJb88Yd`yMO8J!FzP(5Ndg^jQR1;d{+~ZcvbJtby8A!KU
zieFum9s4w>C+WyXD!=qa^)<oD!Bhv#BBE<UAd_fefC!*-;C7@FO$PX-0%m^G`di^y
zqc^`lQ5Wm!S!Co6As4Ej7>`dU*SgU$tT#;+<24ZegD(EB!)4ORPjP0#1$39vEJhtx
ze~P`6pwMHUa5%EuP`kZ$KB&Aa^caU~3gzDV)2$+V)TuPjIdL(tX$}pqOltN$-SM`!
z@dMl1GR5<!iw4SkjrVUlok^cfy}Kq_M0<S4g6_>AX)l{YQ3*Z!quZiX`3gHMk0h$B
z=G$n31Wv#A1(7VciD)Ut6+18;MX9fd=_peOIgmmyGx`DA4)eQ>-TguqU%5T2e9>)|
zucc*T*Lzk-9~~>VKHIBUI58#sI4(MU|HOF7P4aZwH{SB>x(>$DAs*Ojqk*})Ek=;L
zcD=e0!il+lczAdW$rv1wfQiEBMPw_GASMDt7b}VcT9^IHDz-d->h|!_mc`s!sSn!u
z9z!kR>Oo`d6RyuDb#m`p8C310P|oOhm6S1S`H)06KhHQ&keQT$7s6}0QJ#Ru2KD!Y
zF?v#DkLF3H$}(+ZZptRpccuqjQl98IUwr!GRmZvb_7S<Ae^|(AW-<l+Hh*=uT=>qZ
ztDCz;cFSSk*03kr8g$L;G@6s+Sa#Xkl^>NAvnD%5bLyY#Dr!qthO9Mm+QecF3=1s9
z*>~;Qg^AqW*fzqwfyFD<@CBkP62){7hB9^RB{=W!3?CeMpPMVQGIz(1%;lp$4SKz{
z-Ztbe<yY7r;w;FqIV1am>!rYFA>CtRs^+>%*ZA0(j?%O?%y!&QiW5v1e-A;d>xm3D
z2ST~nf*vS1-E{O5@(qNFg^emf*>7OVLk0m|m;$Do;JFf8(hzmTDu*VH7VK!>FDYqI
z#<6=hT`RW&oEDR9C9l6NeHJ-(mFoT$yW^4tu_;0f&tvl&V$*i{2D&_ds~W31G2yb<
z;Ad^er~cmgUE)~-k?;WxuB!~kE*+uPjCr&i5tkg_8^74K^I5>NEXvQ$Okp{DmkoAJ
z*t^_~Kd`ghje0{pJnErctIj@~o$XG4Bsg8Q*i~A89=~|WVqIeE#Y+>-HPv~&PtyL}
z%STQ?L4QLoZMMv%GA|`7&N=>VQ6~Seqn&3o2h%Mknz8rqe~XOeUWjhf2W@UP%)Lpb
zsE9asF)__5DoXwsX}G5~!QablV&%jcp4f?<ip5yW5rSd;DAJ`75ohYI^R=EpAcF{z
z)_VR_d!OG8bSJU-82Z#UUj-gw6Qvs(3T<MH5C*CecGbUn^X5>$0~&-EK#!n{zsvK>
zV17p1cvu-U8f$#9Brqt1qZdYssp(({3pZp8<a!9;EpBT?o@i05hlFqStmTu5U=Z)H
z9RO22m`Me+yx~lgM0blx?2e(6{-@<%7yCOe&ZsJ_g(=*or(yaaVHR5Ou;Bh1As3#E
zX6NaazjpxjDmwd7yJ@yVNVmlCRq-A2t7)F?gQ<~)#!Y@-H9MwMeFa-rEU$yOBo56#
zf?M{C=d(X0=S@t~pimRSGjNusnG5g}sSzp_^aFf8Zx&Lf5y-^2D-9$eBJRS`k_u8B
z^sP5<HxWQ#z3&vqt#huj>RQF2Jz0i7b8Kwemj2jmSO*U|AIn_}dAUt$+pf3L;Rm)n
z+4Y!D$s~h~=A)CU_n)DYUGFvf@`hQ86b|*DeAZ%@?cJNMeMQB_V=G<gN@TL$JJXq*
zmC_TtvKBeyi?)sOJ+6&-y(f54({VeuV`o$5no3^saE&<qR^CGW84jJ1`xg{Dr*-$4
zWJlaS7~ZV<v?zJ;k&0_c;OtCUrRTLyD@(EuTB=z;25TOBFH?uF4Bw|E7vjYWgPDSK
zSN(48O8zh`EdzV!5`IUZLQdHZ5*rfG!?BB+li<<V$Xqz7ut%E$JubQ=e|*Kv01!cS
zB<vL60?>Z!#Rqlx+E-m-IShu!tll6S8EtN?n4v9A7-N`&9@&Kd8<AMf`uq*cLJ{if
z!~WRxwMvKn1dOtX)j62hcbu+N-P3AG>{P|NUCbJ$JQr;7PGc~E+jT#FXs8S2mTfUi
z{5YNcBZEhh%=7Qv^QZs)rj7dP_KZLhX19I*V@6w4)uV@PX4$Xw+)6rN#W}vCZok!X
z;m1#YD&hU_uKdW<asGk940vw@TLO!8iH#N{n2vmbW<l(B^YQuXWu{f<`SUIjNJ6*`
zbD8*Ac|oLmi8(YOvCbwD4K_NbyAybT@k;|Ga;@&=`coM;+V;v~rmKT-=2rUvc@&ZR
z9_?&ZK-uOymS`9^J0Q_DW_l-v(bZ_nmTT-eDSFC!8%=>?8wKLGZqbuc9-T3&kYXKr
zrg5h%+UW|Jew{Bl^N!DzB1wI}B*X;+f9Q=Z{IFAr<tv<Rd-QjInz+O3Xcd>pSDqWY
z&a4(LjcnGqDxNkpWWVqE*m`2iweQUxA8U52v!7GFU3rEzQ!NWCc3zT(zJI5mldq(v
zRFYVlr*m1AFG;V6?0npcQQwl<9$)`A#Tt=~wK{V=uc0DJdaa5=Tt)?5*1BSi2`q7}
zVlmCLXNxcGp#}W`2=TYjR{gjCJTKViOsIE+jt-@mpl!|0cEFT}xtBNzzEvWfK^T{F
zlqX6$kd`8pU`(7QJ!3J*H^f3G{p{K^fPos+Tz?3|rJ|CywsyLV1NdryvmYV&);z_y
zlnc&ysY&N}D>EnVqLS;NJ;eS+O5xQ7)<fb&VWGkP)$SwF*$>0g_I|5(RvhL_J$Qeg
zFEWbR`T5OY>>)s#@b($l<K56V_n*1fic!F#^mS-J5E1#XVF~iUMSFW=0f{SDuH-yS
z`{`w8XE(Wi`{^F<;mJDbZ`;oo7iA@%m0hdm<_q@A7mNF=!FlaXZQ{(QjA*+2v`TW`
zG=`@Yr835$LFzqBbu|TTYle>Z$&+gWQfO@I{6Btt-!o@=d?Fwwy=gFSUhS4`WXK8K
z^n<5bgjV_`i&%usZZn@;{Hjc%q{O&`zl)AH+V{1_i#xL^xovW0oOMOy-yXh;VmW(D
zQ1H>#BudLkk*gFBVpIxCO16Ei&Zu~iqDR))KW=S0af6F()}&Hne-j8{xQzk2TlG~b
zBs&Ks1<xwNoRQfM7#`~)mW}n2c@B|KiV3^9m{=o*PT&F{W0R}@V`NXM@)W|u3OtQK
zQ%BK}!TvppZ8<rRZ6TG2V#){UAPEf@#8F}!Im%vv=0y;?d7=e^c46MNHALaGlhZsE
zrxAveusvAdo*`g=D1$HI&BmA#1kOoJlJ7d~W1_*XwlCPNM*xfPRzYHZ3H93sj?aj7
z_k}MMU?gPXwKMnto+q&y2=D`9#p7b&1UkJO%%P{hekHP~2s&tD>bB>G#~}715pz&f
zZ6ON&85tSbKk!s9EH0i#%oh0u7jVMz%CN5VCCDssC%Iuy6jUjUrS6Byr|74<-^#8*
zm#bNtJTpdhAKMXw`Lq0AG&Rpm4Tm3#C*L`>W;G*KcOit;oCL2$3n-Zt)S`RpB{;<{
zDkNM<W!MYbBPN2*>%WM*(mz~NIN9>B`^MT)s%;#Ep~PdzOm&YW4Oe@C^!dXayp}rD
zpZ5AV_A<X)I!iKZKxQ0Ou>DJgi^pv7em}wU4GPR$b+<FP>J0eLQuT&$w5HrRW!UgX
zP@FxG`?h+(I9XVVgzheik^^#hl<Kmw9?e+84Jq89Z_qeWYTo)$yNt(XM$VsNweM64
z{jSue51!qPhDE#FvRrl*Qqi9lZqOy$q}-&S?Xp(cBk+l3Rqq5;A7p6`B$(B@qdS&9
zYl!q5=E-;Y%!onq5#97xC*cFYQ7)u#2eLe1JSy!`HZZVi>gy+69DpJWP+g+PZYogH
z`FsiK4AzaypT6U=AcDbIeKd*`L`n+rm?#Rx*E}~R!1oAe0{NQHH%IK@gyn<aSt5s(
z41yotP$DIWo8&MtCq>8w7s}E#`cDh^!m$pSfF6{ah<Hr(_kQ@0fMnfatTQIu0#GiJ
zWPNUxtRvYahc6zJ%F71FKokUrwG%(i%*Rr0SYSpW`TG7beq!58i7JHH<%(vGfD!X5
zw|87VlO*bgZ?gvt4SrQ*&CW3e5SR^Um;?d`EP&;2{fS6ay;?&gMjKQ(45@xv@MHfC
z8D5fA2w#2JcRu>cAXH}$qgRZ5RUK(P|1FZ8cI@TNSGKOD1nF&7<!)aWkFHNJ*+2c2
z&Le<)*Y#o*^&fUNHmnghPMyul$q9%*-+7}IW%fCDo2ej-fn7%$NC`7E9CHwz&(+4n
z#u9vBVgVVPA4I|iS1W<ZM^^?6yin`jqOf&_@rl?sZyI0d46(73&@^V2Fi4mz9{WC=
zwRlhT=j(?3+=7m;D=l1Z3p}1;zvun?vPsad#rn%4pilkzL>0BjbX7CBMt#r5(Vgdm
zKc_b28-35Kie;L3(b4?3Eoi5MgU!b?!gX;X410C@%(h2J_%6LarN?mjLcs5%4cT`d
zzhTT2=_aqD-$~lxn<{5LelbaIzDV1A`y__!Fe=KI{XykPENhYD;{92VomJTJXepk|
zLr*zQMkI{pS5~OTRUHT@<UgBUDN^C05_}@-KA*|+cz-Fe02vzM{OZCb!aakUgV>r|
zZvPRJ4{TFbLMRcECgGJMSc9ku$;@p9|4t%9+|u4oixqB)X84y6@I2vDCZri?YDDD$
zjd~PH4t!HRZ{I>j*<;oc#fkh(6OPvz<xOZMFCd35tYO|3w?^<p0eOGq^Y<3UFfkAN
zXZne~#pPBVmv`TN2ka*iy22cW*waN+QK%h!r9+GW9L2KF0_?Co;y82<e^NTG(;&Qr
zmk^3BDG~ns`Ln)(frXV-5Kt8t=OEiaFr*^>9Bk-@S~`i6No`$3ujF3#XJ0w(cN!^2
zRA&UUHTLJA=UM*xJ`^r3u<UrGE3jiDdX)J~)7tFf*AsS3M-z@3DN*FS<-U-{oV8+B
zcC%-n>B;z;-F7pDy%tpmDh>OsJX&>`2=X;tMp_ZGe}7ML!@ZL@<$So5*rTe2+dbYC
zrvof-&|3+kfDH@~h#$TD{5b_@_F0fRytpHUs(F3tl;efivkr?>|2{u-xtH|_{o={X
zI#L{+?$_T=Y;-C}zHQ)mX1#3YLS=fHB~knVy`WO2a8N<Z(y{A-BE}rlB3-@;%pAA<
z`whDfWVmuC(_b|X{!t$sx?{pYSXk7BPuD3(HvL7ny66{LX`ge{p=y-fwHiI{^|h3j
zdAo!vn5+B5$*ZU|NYqMXf#7pvInJ+v3Mamn4;hH8s$>aq@h^B)o3We?bcB6cY{?o*
z$UR|Kv#)gG3mi1zAZd``aM4rS(~nO-FLk-r+}2hVkgvXH*A9p$hheu21h;6b8uYw}
zv0a<k;$~@?`(g`Lg9qZN7=IRt>hk~%E54NTUvo-IB7myizJ2>|soVG5S5D{RaV7%D
zK=F*u%oMdYXSCsnA{G>bJ<Yuwa1R&nC7V|@R@(pqX@y=xQsuoa0o#s(+21$J&tUB0
zjaREipLJ7x_1Uv$LPOX;u!V8^_EYgsncQZ+evQFKo7v-Jr!1VYB!EE2>JMQyMeviM
zFoL+cfEaH%q$|*J3r`<_DX&GPyLeB2T1vh?*SRb7;SRfsyR)+=J``Es`?JBNQzUIa
z*r${DtI0&HLRiLB7Nu1#3|++57dVXsOU$sy`3>%OLdJvvp<}6vo2mR3w$MvQ8tJI2
zd&e^5t2KX9TBf*DPh}^iU8lU+{L^FGg01!$<?l4-80$)?KboHEzM}6&mGG>+Dc*_n
zjQjxmNHGJq$WhAgrMGv~En02iFBE589*$L8dPP^gqCUwYb}U%w;T{$4{euDh)#NPF
zcm6u9pJZX5-z`ef8n(rT@&V<5>ohN;mk^77AT}FeccXUMy_rK~nORwWz`lql)0>$M
z+pnA9KEh&;ci{RQ>)+EgzWHlwEmlMM&2eC_0}sn2DC4cyQ*p{$SX&dp2Vw_@PEj1b
zVt|7dhZcr4+j*l^${jjbu8UKoK3)1UUfEfNeTk5pU|~K`Yk_--;J)nIWgz=GE{+98
z2rWQ6kd!b7gOacX;NqLAVgP{>GVzk7p2hsH>JF9^@h+47fCQ^8Y3>nFOPBWWkByDJ
z=m8fM677%h&B=X#zVbvb6XQ!3$}+*SFe$OSfk%GJ2Vej7ZNB9DL&KcAcb44*3vS4c
z$krdr>VI-x({|(hR<~t!J*G}^tM)z7Dnw7Ovno|v{p-NF{4kvw1)j6C&)FK9l%rzE
zZr?VKjea`ee0xXOHU91+ZR<(m>~r4xef}nE-Zs}EdHilXOIlu}X~Jf8jAprr<T4kd
z&#re|r__$vB-i;oXg%!Y$eydT#m;<XpYAHzJD225K|!ZQzI!sfS}%&TNGGp4b<l2l
z9?&r)t4j7Q*th!JceZq##^t@Q5JhQg$xB7^BT>meTe&=@&)!hzi<TpKrOPRZRkYFk
zlO}NO!qeDw;fR0+T*>ONOEZN8LQJ<b_=|}vk=eqRL@bGyOX$wh(7Jcyx%#4fzB?nz
zjrq;CWuD*KL<|Ze4Sg7%(H46C_=RhNS4ikCye$^?_OH<fz5<D#u+5b%Mgt=ZGzP-y
z2j*UnBSV1@xtXox;ZM$h;(WqUP-<3x;f^g3s!E8m?_IO8wVhZu2FQ6kwm<KyE|=5R
z&CSgf@YedhwkG7!jMbPz6J<<jYyD${HLc&asRq7mldmjJI&X1xtU8Z}gTIvTRe_7;
zm}dH*_tHqgWmltJ*GliCc+RLxBj)foa?w@jDlt&ki=LA6xW;+$Z*1^X->=T$q+^%H
zO%Hsw>;5hi;vma%!h7`z)4_TwS=pFSPKgqy9>%aQ<EDos23@{qurZvHZDpP(oBkvp
zFKE7+-rjxVdqZ?nlt*g34qIoxe6}#7$PQ`au*M2{cYR+2r8zBTb&u6|Y5LV9hkwhg
z|JFY3SJdz;%*uP5HL963+Y+?6+ZVT69653X>xEUGWbv-8ttkpO_)2pK9JYPnDPh$G
zq><RMV^cnV*SWzZhABuCkd8bDAZ-J1-@%HK1&ac9*NxX4G{?>TsIt-u_E%y$fCH`!
zO{R4CSwxmEJkW1M?~XI(1y=6Cmyw;Fy$ai3e8f-a90v``1A&$hvfsqQ27&>M@0PHr
ze)`^ojS_gf5GB)uoi_f%x1r~$aJ_efrG0&_uMvVci-#8+&MnBx5YrH(lSk1+dV!om
zQ2p;}^WD68lNfa1;ljcUkMzz7%(=QheCT9i+6Nx~lP6E^$=pnU2;u~?JS>l`u%EKb
z^78PAinc17WBSQB-teq=_V~u!5t97R`44^>hL<RvY;TBjGQHjGI^DASrBZw7;X+%L
z`9HPd=XXz(S!&V{i~jCQWWD2!e=%6IxRRXAAnw|zUrF)pK{Cb3I~pQM3094d7&#w&
zHfnlhGw(yXw8bLeMD3%PP|+-9S2l}mkv4TLeq|CSfnhoh$~J^ZUl!Z+`A~CR4z$~6
z+vLsfp6q<){%$L3kp%PPH^(m<K6-id%FSD<WEaSW_jZwP>E_laj~n`X(Jyma;E6IF
zVRbPwvi4wSXD$D0B)pTIeWFVC=+UDDf*J<PB7EG)%UWS5sMc>|WAg}&J|V*4WNU$O
zCc)9@$kC$&tRA1+Hbg>*?+UWPxW_%LRZ2i_xcKE29bQX6oST>lPQd^TQUsCtN2N=A
zB~bbZkNMp?JU<VNo<?A0oYS!-z3-ejw%Lz6nLn{$!^qAG#W8S@h?`$0_V=Ozplo&h
zL+s;FP*gno^r{K|ic?4zu4076x&g=BX;goRVQ)jBg^AEwK;$~A#R4=p(=!viY0u@N
z7}l0&nqW?x?knRZ8WSYp(LNmbV1`vb5ZLc`pT^TK=FGQBoqDyM+rCi!oxyjEnFGiy
z84qPiKil-LPcXhfE&5E!(2d=wSeH)J|HY^(H6NdE#J0Xqr{*~C)KM4ueVh8dd&x@t
zURYfH51rO?8a#dro!S?6pN<__58hL}zbib(i7IBuIYCn^Zt7OG*eT(L>9{RVk7_TZ
z-lIq=R9OAJ=fS3_aD&Re`6@EwLaKyq^O}l%pGfLTDP-EMMH*Q4i;rk!3W;)7lk_qk
zXRw#279~4%M#a*Re_xwlZZ02K)PVs3@)4?r6x<>>>xf|}?stsY3+!A$5Xgn9N-QnJ
z3wJ)1SKzYlPw%*U_g({1|LLhCH=Yd8(^AkH6DY_4T&%={F#00s)#Y=hcf!M8VVySq
zAsssWe<*wNa4g%lUHmpnq(l=kgb<l3l!THYB14Ff$WSO!WLA_Rp^(TtkI7KVSV?9f
z6-DMWAj(kax1Z1Reee3MZLPI!YrX%y)x&*X*Et-=J{=HVVr~+7ezuKnf@?=MN)@?`
zIdz|`R#*}YwhyLg<;Vv582-t5m-|dr==O!hSEt+l&g%MXXD~i4nf_67BXjG_-;d@I
z9)=N9jh7qq=N1)34TLK=3JsQ@UKn9aIKZ&`tV(R*c~|;MX1|98DNUvG^X=h|bq{tM
zZ%r*Jzro-8*OTsaVdHGUPbP-1_bq=jaRn&_hWQTP{rjnnU!5shBK9kF_(A3UoNA92
zb}`<#c3YNjnd!3)?S@0~N}AesCyphK*FU*?f25GF{f~?E=?aAhv>uzkq%yr&U&9%Y
zs>D&lS<e<OAp8-<J4vd8Q%dt1Bk?~#D=bXANx3++pr93I5O%)H&d}niqko=m!Bs#f
zv{&RFh&K*ut?`iii<O#+Jbz+!_4GUCi<kGX?ySn$WRi1f^F7w=kj&#f5kER_R8=iA
zj9wE7Q@F~rO*+oS{>xj|QEFzk2d!CK<3s~}r4QW-xRc?-vr}j~gZrE(^Tza!<b1Ph
z!PAjOu2)Lw5+|vxlO0#J-LA_IpV?H@^{M5^bg19iQ<n3TrZY=V)6e?5(QGo{IcKOV
zDMo#lYAMX@z#A$dn@UZcWodt<GUN+SD}yRfeIq2Cjje;m#^Y}gwX#%7W@gOPk}e3<
z2#tHYZU(Qc_t+qzbK=<ZO8Sy5ZNIbGDqpG!UT}ZzTgm95FY(C7R?Xp2$)D_S*Pi_R
zBvYUc$bebG5do`A2T&gl6Qdan(A*yXro%6UW3W!o<Eg5CNBj6}t$yU%X#V!=ox742
ztrhP`eE-z6!<~yJaszMG_Ki_T%Txy!4a>z1wyfH+d18dEYw%pqw990M*{+8k^krN9
z4+kALs^?Zb%d%Hgoh6z&pKgq%c(bE-glEkiGvA&5$=3Y;n2}%6;HDS`qg3g&7<D;K
z9;g-c%?6P+u(p<#%*<%ET~A`DHET#PG|%feE-{q8re1yF`KC3F3%6dpW2fvYdt)#E
zU`x1DjA(iOG@$RJ;a_ntsH1<Xr^zq_%a>!Y3jO8KHLr?iv5P#e7Kc^(kM<;+yfBe^
z^TzUu;lkbxdb{}yX-f5vF-p=O1y-mraegngm&L2VSnC|Gs#9X!9+ckA4r&!H9Vux`
z&KI`P%+U<{Gi-J&^WUvBJS3~eyCD28x9dg01mqO>^N{Q-5xNi+Oib>|KJR%-lPsux
zsgw?CU&WVr&?%AryF$>f&-U5$pYLlrcP-9mMFy?`x?2BXtSe7+9F8Znq5l9hdoSvi
z$qPp9yFB8XXAl@MKqYeb4a32#rJM7-TUSD<+*Vx_6XHwDUlW$c#L#~AiGjySug8@E
zopI{wSI(aF*nQrcY1RBlb8l})s$h2^i-Tx(x6k@btGU{Z%T>&&>?!reA60o57?Bi!
zi_?n&KzI}~RdUE+^H@1J<T~62JgoMt;FW2Myo_40LRr7Thi3L;Jsnnu@9i9IN#rg3
zqj0SBy}_Q8?`t<+WLEt6;vS@V00DA)!`L*skKDKs5xVA5=J{a@56@HXb-PL^p;i}n
z&I;3HiSfPMq?M+uO+UfrZoJ{B^@zJjp14l_*?DTG#3-X{)E+8BF$J|sbbCjSSnhd1
zrOr_5ccFGy?SqBZb&QI8|Fzxn)S{rcD{aGsr2c|jZ3GJOtcwhe44dQD4l&r8+V#AG
zp-OaKuh=l~VCPqZaHl8rw`+w}<3q2r-1L-BDO|BXpf>QxIce>z>!(YozN_{hnxrw=
zvgxV+g_}z^H^wqGBsC9gv{C6#u+v-BW<b@zD;W}~%PIGc<4O!eyR>B@<MlPq0>c7M
z#Kd$|UtL-VjW@8|FUfGD&F(9c7z0=60GI!#G}V8z0;n*`>-4E(kK>lm&Ax~dJi^G#
zEU;$}F&mO;04Rr|*_I~<YLdux3$Y;b8fpQJkPA1ZmmmCjQuj}Tmw#@Kdju@4dEMH1
z)Be|tiRYth>$q3$T|LmxE2LsRs-dl|(xuqeZI>DF)RF^Oa^<<cwA55N3}Hkt9O*{u
z&lyhe%J68}a5DZeT<M<-UAlEy&Mfh4{V@ykdruzc=&o5R`*d$#f-|qPOs8Mbxw>|q
z6@?u|^cgv;wr=f6rpnIywB|dbi*syP*R357woHrq=z}%d`Y*N5(2=FXgDa;2Y!{Pb
z3p{NYy3~&H5E^M>lY~0sI?^y*pirk!Q&WHLE!#mt-hg+GVYUKjj7=CJg|gw8T{(*O
zA=}1!L9^h;)JmH_O6Sj<2+X`P!TQ?6YgSOrw^~Cpsxmz^++XN>P)~9~SJv=iq^XrT
z@{~4+8P~#=5Za!sr((vX;4SLwyooVb#L}2U%VFGEA%}UTjZyWB15K`Qt&NTN-@JI*
zFZR6p*S}mq(D2&$NcTsY9Cm#h!n8vMs-M2PJ-M~TxSX<qVnM~DR_BgUy?p<iSPPU5
zJI%<bZt@k<4&Oxh+E%w;`LWwMM7`WoUSj6FPwDu?L@-n<M1P!;l0wEyLVBPNn+`Ot
z6hF+&!x4;Z)FW6O$|7S$p1#FjCwEeIz1d~*y==?skNk!4rY|4|DdhHi7FWf}ZfM!!
z$ZYrb=IX;6M6+}9R8UCV$<XGH#Dw`Ef6*wfJ8aVHXL?W6HXnrMr}|ZmyNeW)%I#Vu
zniF@#xj1J-61Q&JqHHGi?y&#&Bf7pjC1%fAQGf5fTH^Yn_b1n9h6MU3>E2y_$7;1|
z)7{AilUMxiXQo^TLuSd9Uk--xDc7LMMbjp@e}7d+LyWq>x4uV3>J6Br24Z3w=nM7t
z?XqxaMyd+{Y7y`I1+yjoV^{Fp{3U~@59#aQ#y^5I_HPG9i6WMgltD2@%IH-XMw0Xq
zNe40%5Qn~fJc`5f0Qm94R#zTC((;m7=;N0Gv#Z&gWjI@2)OV@|Zs15L?Y`($-apoo
zC`%od_EhkrP|xoX+D(*w`<{vw0W4;u8ryFj#4oR^e1-b+z5tKsOSc}$J_nt|@j17n
zAWiEq$E80?6_jm}N?m6pz1)ASmZW^A@boiE#=P3WSD-|ywhPn8Ldl$a+`oc4-Y!pq
z`-@Mb?CCkAqr(a&i%==hKDcsipFM00;v3+SNC7$@EMc19Ls41r*-KnH$H@F6eD5rQ
z8xTV1J-y_J)`vj}Dq~E!yQ^1&>>^+TK)Leto`Nz4PSxs`1lGt3I^*|Oc-ij&sRby=
zP-*c>xE1ZL6xjAb`ul1^+V@@n`a}}cICyg#jJ<nbJ#!F|=pYa=^CplO2oOs6?fdst
zOicW{cf*&GE9_{2Sx`#mdoY{f&Q5+d{!L$HV|LkZp(GhCCKMh$X?V`C&V5-lu4+f2
z%e>d))B-04&)zjT{xRX_pKS2j6db&kON{k>q*=rxL!u|@FHksgZS`jPlmk05A9l;H
z<1VN?cXoAa{MF3kKYG`(GE)^+ckQGT-B=_-UAJAk_^-5L1$TYU$$7ipzRi8PXX>l|
zcwPAY)1FvW&^vtY&RGxk>@-jsGMf{5$|JpR5i^Vih0x%tAk+IWgo#f;AU#`KLeFRE
zhZ>ofiB^<M%%p(8*bajSm=2nmj$km`qQ7Q;{UVd!ATuK46~7~@m3fmSZ^JSjEiEkA
zhk!G${%aZ0VCO4J{I{_Bx}u-N&n$Fs)ugLgnpq7FWfaR*>}T=!Z{OIhfWSE}0?4D>
zXnX7+BPDgLSFt4Zuz>-)d}Km`77RO9@_V*TE8tmocXunikFD@F|Fep=;)h6E-kqQ9
zhm$sGTU!ZG+?u*imG*ts^IpRrFf8{(D&m^4hud}*@!bkF=U=}57*+anmxp(sRXXo%
zE^pF7U?sC3)c7M|XTCk<?Q`x!4TGMDL2%$t_YQH^n8Zb%sU%yMto+|+EYpmPkB{AI
zdDs<K>3(c!j~T5Z!&YmtBN0hFZpltR;(^R{vga{wyWJ@FNaDulY1+2$t5dx=^abkg
z@->5p1SW?tjs>{+0L5G3C4`LF&uuRI^yE_Xfyjp?C1eaUp>ds^$#G6OfBrl?<SFPZ
zN2>mC5lut+xnpdnh(6MfiU!0`b*eZt-o)*&e)~~O7e9(fL6Sj>?vs9GRX<)PeX^V_
zc07)VVMLlj)j(#WBJMI3P(3({t9S2iA_=6>R3C&#;C;3CKJ<+tu7hJ^ne0y8Pys;X
z_s~6i<QkCPzkde)etuuF{r+Azexy;sPe39~cQ~<CRaP2Tx=W$YVv2k|Fpva)4oS7F
zH^$LDgjeqFF`97I8;xwK!y6`UZf?~+;KI0nnejnX@YumlU>wpRfZ4DPVdzYe(MT((
zj$xeS2==3LIhKXr1-L3LE9?4ybUmu;jw2m<jUU8pSacM^(m@?gqBhBV3e4Pq(ZA|h
zCP<Dam%cZFW(|e#W5@A)GN@Uz!3BFF6T>I5hRJUtmiEIe9^dQ1{YfK3f{entcySkg
zpf#+-pvR0}TZl$KgbRkSH$R{YZHf_ZM)AmD^{x-eS~8d|40z``n*1Ey6l#dHNgx-v
zEYa43%5AV0cYwj+-~0#vMWxU3J!n&kG0qTx%?q&jOuNP~$m;IC%T6(Kcyp;)u{C+G
z19}D4S~p}#7eSBaxqjY7W>kpslI`>f!Lp%uk)57PMM?H+z4aN=XTGwzaf_TOvvA%1
zjsNm9gR`bSV}{S3UT*UE1d`39(4Nqm*6C*Fo7uZ$o=1v{i5;@*-1nh^#$iHtF2(Ep
zoNL5L*AICS?lm@YXL3@-emw>MrK~(7s?N6R9ebMgM6K0`O;(rR%&WYu%VB1Bb5@@d
zS9GPNrV8YJRvE4##3!Vhqiw1~vu*XsPQ9++HJ-CqH>^ko-DtQ#IiwK2ZTh0Hjp!zk
zU%Pj`RaUdO{o*nEP}=S2o{7z8Q=Icp@_IgU?0X5OT+Vkz0VjKXUtc_s&Mt)efy7jg
zleWR=!__zv46jv^fKpIdWcD_WYBdNNeODH@<KXh0TG@MfvIWX7kfh0g?m?oh<>uB#
z$j2QgpA0<_fH}4}hfo*-1>0P`^7||XqfNZY+X%1rC)82MS;ry2fr52|Nl|oUq5!GP
zalJ`mN`m6wC0Aw^7OZI&&=`b^BFo!n`8W0bns4Dn2nZn=oZa09^vs)*FPd*bV0vbz
z5V>VRs)AU9Wpgtk@`+jms{=qcq$O~ouVLXF<67{9H=O)}jB@<I!O6)s+*`+tjEKM7
z&cT5{Qk_IkV|gR~`ReD-c3>oK0$n7{4`wq!3#bo5`<%171iXxhhL8i}3w}rK$dO5j
zCqBzp@F*K_blblz<OXsNH0VSQiOey1a#4iLWCM3c&Sa2ar_ap2oIN}AA{dfQdQ^94
zN)F@kJ-$4(_1?XEn526QS1O_^!w`{9W(OncG#wBo89?g?tck>2L$;@i8x`zw^PXLT
z^76!O$_AhSf6dO%_0Oln1>?k1^hq4UrEB4b46#0k^H6E!B)-H+xb@zlmjeJz!z(0o
z*#3_eYuuyp?x$p=9K_cmF^GjPE-T9bU`BwtcM|*H79ykQkcz6JU-Hw)Y26)W#WIgy
z4OIsoyJ(oN(oj2j{Z~PcetmwE=ap!!biK_R=NV>yzSLKZk4{@xP@Nl6cuK0lsPdrl
zm|<pvrH{L8<q|dw+)u>ZMq)YL*K%OoJ)R#Rp`_^mkI-%djMdA3rp(5QNV{`+OSi^n
zxrVxu6V`O^pbDQ)a`Ug5uPd>2p&BdMSzj{HP#dc>_QqVolE#vW{ia0)^rCB-#GZZF
zyBHSAa5cI&;cIlpo8&Jq)V9wyT;5pneS4%*EzdmkU!rA?xQuT${VH%jFCTDw-;_u}
zUSD0}mHS+)t&5;K!TmsA+t?Tkl65OmoDrpw@mP5`E=neCd-$<1ekd7ZqVdimku-ys
zh?sw#{-+0k<P$*whD2)NHDRi%jD^<^)tJ>Z_=}9J9(a!l-b=zcAQd1{)>vm4_V_-i
zRSWU~a1j(qJQw8dg`z-(n2p{NM=j5{!6>8SMdlCyvp_kGxpsQ?_aOpC?D2EBY_SA}
z#>dt0`v5GHF+&TBi$uMdl*EII?2zd`+sN;@9`5YO;_BvPV<VH_IOJs#5)#<I!jriO
z%$p(y6Tsx;B=9E$Z-ag{L?!(E`SWdk-ZpJ?uCA^bvsE}qF~6W_T9-Q8)aZS1S6`p$
zVA%|e6=cjEarvU6;OHYJx8nsPMjP?}(g4jPeIk~8Q{<&U2f^NlJf%kjRV6|5#8US7
zu^h_1=eXdC7zc8Vi}^8V_t--itP;^z3P(NN!pXU#0E9Ic*z2~r1v&s^R&-d^FQM9n
zLWbkL53+(@cXy9~*(T06JZ4<7X$yaYWGgKDTRCR;fD?bea=`w-MOt(L2@C9FZ!)Hj
zh}Be@6)R-D<}z!FX**Qe7;Mkg$Np+K-g#!o@T^|=8SjK+Z-wP^=x1e$m|V9)@)U#1
zyx8H5XvQV%UAzu$NG5<-il0~ZyA_zstA2$3Df7wpa@Oq8+2M%Beu0tY7W!@j-I(7e
znVFLZHckx`N-nZ2(0gzQ(R^YU3D8<4$BklA$6xjCm)3LVv+Z-bGYhu!^wb)}n|F=K
zW)HHSzH^8pj=57Web?9Fu;}6V_=5*sJ+d`2dTs9XDuevgl}?hgwQ_XSMwEJ?H$r|k
zLj?yBM=C0B+~`tJw-BK&j+y?a?TBt7K}clY^`)u)R!F>%Zr=RxBZ8P}(an+!5JZT8
zWyBdV<7H;k+;n!j0@2oGRa0`a&DaJIdGSe01G||NuG}sC<L6Inoc4YSQ)D#aw9pF@
z;);bQW&J9`Y@ST{W)Gp2#B6V(Wbj!W-3TUG12u6Dd~{YMOL!KzJuHX#IR-Z*!M<R|
zh79xw6IXA^Ald<pD^i9dzg}|o-2hSuhmno^ytC&L1mk2rveQ6JEUh~7NuV`DSoX>%
ze4P+c`M9n7;M#*=d$H;gxfh@qaUFWG>Y`i8@yw1lZ^R?MB0dRWs*<~QrQ;ri^A!p7
z5rWDWPraB=I^dg#>xGM(`*lyx%jV`#h*I@67W&H0ZbYMKcuf}pMo~wMy*3RmH{2Gw
z{ddySXg>4mX$B6{=mX~abv||c<~(%0*>|6S1KYhhm(-x^+QmV!vGf>#<-%e*kEaFB
zsva>?V{MMYf4EB5D|fNyGfhjl$iT*U6$;?xi=E3NH>iTPZ9GNULR~{m=NTrxmXYZ;
zb*SX;m%Z{qjP`c9r%meC#%To&gzs~fR<hyu-)H;$;qs53-QA*Wu|1cQT+{{F()H}u
zm^Pb~+O5OsaRzsd-;$82g+&q;!9#3eT*<EAr-p`9u*XR<3%*(gmbFRlB+2T5V1xt<
zZ`pJ1MoJ1FF0WyT?K~6<TU-~N`uZAjGBbm;=H{+P)?B-Y0mB4=fkJaD{K9BTDz5y>
z?Og9JAt3=Y;T4Wg93lGd9`5e$(+Cd%r}+YRbANny8wRwk3yN&SB<%%^fRKmg`#LKR
zNr@((fK0y{8VZPu+l+*E+`J{{2UW-nO%SddCCmlTkKogKPZyurZf&jRGxn|zIbdOE
zV;`WcM`{7WB5WZb1aCUh7>=4_7D^3B_}-sucQi1#qvsyQds%vTd51wZMOQeu>?!0v
zsIt$yxv3f%#iAfCfz})62}g9tnYM&rtZQfiv!MNkOlk(5X)&Ns>M0A*=HeRm8U&Uz
zh*Ai?bnt6XSmEy9`>QmCbg0u7=Evg&w!f+uaP($D!>PO|D#+WDMvEeYoz>`JTJ|&3
zBilMJKEAxsOxovo^E~x0YHOZ%v4eD755+cle>i%{L@w|{->B5gwWl)v6WPgZp-Q~3
zqOE>#MrStO2-VcvU`erF%X2?$*Y}Scxd$Ob%Ndb=wZ06Rlce01?VqNYHp@$)oWio(
zw98Jn{3{A4ZD2a2UBLlQ5_X_k$#6vA`oniI7GmP!9IG6ZC%rGAIa9dF7p?hYZY~pT
z04cUm<3PwAo1x{5AJEa+IfNingOPny9-G=jH%k07G5nl}?1zsZk&55aIf=k}NO|S2
z{1isTqdx-Su>eUMLrV~kLi{x-Q#@LYqesUOUz7?_1Tv6qpBA-nNjfJv17<*XzgjTp
z4+^J{`PZ*s19H|mc4^_~MAtvr=@4xZ)3utK+T=&iVb!sbk!yv8lb+uf#^RkxQ-mG>
z!SV;1e*=*dWn*34uY*7t^hH;uc1VzW24?tK^n<hSZIk}VF-GJCDVba!ppXSvc^!%5
zB+Lk$;!AYNS~#deha~B!mHA*#x$Ajp=cBX{*`ZOErjnM^o3}V*e7&R&p6TQGsy}Z}
z>N84a_F#ySo*JWM1sagEJw+DnSbNch95&LMaSsmT3yVIqp31n{aI21&_9vV2^R-Rh
zF@K9;w(>nZnzB=L=aG{M>C`e59jG+7xhS96gRB8YP5$~B-<-mn!|ge48X@gp>{HHW
z2R}K}7|hpJ+318C1UDOUw>xw6w__+VnM1`fs15~f3hrAImpdab5E+F&(l$n~B#w+g
z0<}q)XvB6cVB+j!q=~0$>SQ{SF|Md&>OXu?I1+xVlE|J(L5uqoM>Rj#JOk@*e|5<v
zjcb=(#}!_TMLfv~(3*ItMmI#EAtHf(C>dWrzHmCwF9ZMUUa2<zhH6Gw^pL-Tf<2BQ
zl-4w$0TUIyn?R69YZ`lAxgw3h2MA$I%T^(t5)kSs)90GPp)g6#%WH;`PuQYbVej6(
zn>abapm5<TJB(Jv4rMm1?kKbG;ce~F8ON|z4>TS65L80w7!K+0v)MXSZaBYh<G-_X
zaA*RV?6I;`!LN~rjsV9HnFtB|iF{u3O7}W^F^t!G(CJeRTLOvMz<0x$bi9d^gi0OT
ztWl4U!O^Q9UgPdd$aofmnTYStv3_Xtzs^AEc++8{J-d6;+3~-ZO*zuDG=KbE-ubA#
z(!=ibl!J1f|C^3Zjz^a&NNhe4j6xlP?-0Uo`w_Vt_)PLp0GP~t_Rhr+(My{}zMOk<
z^)OYF1`p%ai<`S812lsIPg`h=D|WDYWNf22TZ&Hyb5$$pii+&{^}Iuip_wVj#GF2J
z@6?nTVt9)KP>mo3C2yK-dT#Cv2x>A>g-qx}yb75Qg@bUmZWwA&lJ^jFcy6OO7?KQZ
z&YzPX<FS5-?-1z%g{7@nI@uU$42G_*vs3zrVPYle(a?G+K}Gaqdb;-YYpJ(09aAn-
z{r`-TL)(3a?Jb0{L6GncegCfQG86yhINWb9>gz>j>a2$b2N96{f#Lg8^vMW94n@)n
zwTp8)aDdJlUtcH`Nuvm4LSOUzH~iZxSDtkGAXKWPv???xh#u$eC^<FA0PMNArQ#Og
zG9(QRb@VozQd#)kMB-9aUek<5f>c3}y$LBOB;X<MP~d@+NEr<b1cx{IZ)s;L-6qaT
z5)MUbC75^c_4hR-93bj*6py9O1BqBSl=F~&lYpAhr^M>1>z=@}zqzT|+3CT?Jtj9w
za!Q!QoA#|L7WroCW~kwp^RXv<?z!1D$}AO;x#I&%dCXWty;5<0kQ(#zYN1O873KQ9
zcXv~)M3IAxVYn9k;ELt+7J*(%eZR_id%brO5?eIivgyV=$&RFor(DKauxgs&0Ub%N
z5#$d3Ml)m|6&1yvacw|5Omr>#c3@FpT#g_6r5<sB43a^>6{gSK%hhg_ssH8OjcM2f
z*2h<z>7GK#PbQc7`T6lb6!S$V4hsVyC#`Bt1D=10b>E+c=V<F28uk_?zSy5KRagB&
zp!rBM>xIqFvQMNLoHOiqU&q#v@=Nx{t(XH^$KD#GdHfZXdn>+Za&)zH5!1~6MJYY5
z8cv<0XK$Qqh1Z<BqMR`(@ATW;Yn!Dx?_K-4HhSFvuJ5bw$JVa3bbk48`vdL=hSAFP
zFB*P7<<k|<UHG_gqb8A-XB!0D4Q*{Zb%LGfnsAGM8X9_rOU2MpGdL43AC4S?IzxOL
zpVy#oX~|3MdI%5$;H4Q^i4nnGCj`=kBzrHHs`&j7o~l!yj}$Ezb^cKEGhu)8&K<Oy
zyw^KE(ats$1*bkSJb4O`x&Cz~Z>BxR&kz!o=Mlw~>pTQVcGO3xcoco84)ZSD#Rp5p
z2NMz!f<<2ZNUC++^|XwPdL*_eK5pvFYC^>#2SGKwyJ2V%fJ|FDIpKD5BYCn|bg6I%
zLBv452!vzgM1$aK3_?fGziS8=8K@<6dTb)@!>yRr<#UJU#2lV5?$(%CsEX3CN%*tx
zM%sY^esRN<<h1;&>-J~$q=em{W@=>BNmMx1k*tiBwpCnQ{Ahw4RV{90T=;8IBzd(n
z@*L1m8})VLyn38!M&ZDX>zq=_JN?6X>{a>&EV(+E80kc5#{GhCaP9>q%@=S5>zkJW
zh)N6Y>LVDOLSmS}I)V0d0dpb1whCY+u5vOs9)kGrs;a77?G22yqE=n4+FagZHEG>%
zyKTuK=nx&=!Yra;&o#jID(!1zNVzCW0fb4K!J>(}_uPMeUdOU!7qJ(TY(T?w)F2}e
zelDR3#9(uyz~i|w4OEuX)ah*5zYXhNHvJ5+cc9upC+vJuuY%5N&4*XUEA+-|*m<uP
zEAi^`4aFM5e%*htK7<1&Dih?j{D5^argS|IPdo5EVyFg!zL7diX?m3_9D+UOCV9r@
zA1+FTzYG^G{ro)GBl4BS5eck{VA?J7*@tFV3<D|p6mo~ab3hnI5c!qy0k}Bl7Mr-s
zJ?EVi|9q3d_9X^fCnqP857@i_OUkqN?>7T)b?C`&#PP>;Q9)IC`qJXSq3x2QO6<;N
zq6-SKHGki+%{2MBDLG<W3r@36Z~Nzpml=9Xz6H{$c#~)wXk|u6*sWhV2dF*1S=-g4
zUv}7=S7+*QiRTa1R22)F<cvJ!hREF)&YDmKA4;|QswoRh$rhv5V9-C~xf8g)JK)yD
zhLecy0)|E|1e||eP(+aWfC$U_NQn)xSqFF=O!3fys9*w|A0Xo$9a0=ZKj!^CT_Woq
zQaB<h;nxmEv2*>Z%eZLh-yVHFdA}r+I(;wyMytI!ox(T{g>Re}_&0<iz-w(1Tf5x=
z#sI#g>UgMfr25kGiTdN-oBl5DAMNIukJK0)iqtUKznA%PeR{rowfQD;{$M`P@NaaR
za6Zf^OhPVE{NRDE7@m3p?u3W9ElCBA_kczMZ$z;r=>QJ}y#?x?I(!r48|n75W->DN
zivHz1M&B#j_*YKveY|dZ;T{*A!dw2!wY<D+9aJ$?+x%{gOw$JFZ2eC}LWEknw1_@U
z=8WVRA0=8#v^cpjfGz2U?0%4>&X?sYW)oHXa&$i?Y}Nn5NR_!3XxJ!*BFGmWz{q<v
zO--|p|I4Vpo|Cf~J%h)>G#?t_G_(nteJEGS>`h3|W-HsD2@OhB?%n2_q=#vUGY5L=
zg&DP}z1{4Nm7o8nFSzQ}Y}LiXJ8K_P$NEJw{&Um_zc*s~H&uXEFoNZ+?5Ft`tdxV|
z2YcKLlr8ivGWJy60<ybe;(F6`dy+`+2UEl3=Zr?BZh@{BPjwcU$^vyl60|IbW85hX
z67PY1+{S-rBo@Uj(i+k9jzDWgK{~UleLPqy+$PVkQJ8F!==ertmFOeKbc;{@yYFmS
zo_wL(qn%+!<v_(L9n(Ow(eI0Bi8?wTj-ieJjAF-%WnH+o@L=Wl6-u{&gV@>fFebW2
zu@lUP6mO1q+>%AFLalW2AWM;isD6cV8=p+Tk_;xNt>KbWf``@~cq_EGs03vkdv^gn
z@<aR-cB{m+52*Ba6|UPsAy9bt?%hH`XjaB|T%=UU^K811KQdx1s1pbC7X`>96auZc
zPsa7t^ht<tCGvDp1Qg1zo;jK`a>0%+CHTCersDDI(u+K5Z_;V<y1VZdWFF2vq#_>|
zraduH`bxdrOp`TF{gu5rV*gWkXGLpVkKK?A;3B!_=pk{yAAXZ5`~x)+=7u#vnZZ=W
ze-k|+c0O?HC+ZCmpp5}<VKnoI=YgqV?<5O2gtJjjrI^t&;cU-R`CoPM^Xo6}h5^<2
zc1*$=zr^AV--9YFN2k}>NQs{U#&H292iAQf3fmwpp<&#7xH=@g7S7`)#|ZJG{&PQm
zPUz#ZzX`@2O_}I}Rx<GbMT<!<nw^kD^A(jhK&moJ^S=&<lz00J>#K`%K97^}S=_Sm
zQ~FUi>)z-GI^Jz=1FmN6^Xj?7f#GY;I=mUm%n+oos2tqv^L<NWPR^aMZ~FyrUmlNE
z(%l5FprC-j$XN@XGREQm7;^_0<{Kx*+;KjNoqTc!HipwEC*bNdE<d*!vpwI3|CbdU
z)<{TpEl<y8o-s!bJ!)N$II|GqvTk6TaaB;&hAW9c<Y>1PFbEC>AK;e>a9@bvtV6{F
zp6UT2GXg`!YSG|j!+1>w6++$`GKZR78ixRSoxs9Er}95Y*x*a@o->KOL)%|s%L+U_
zWHd_j5C=UOWeO^R%op0k8M^uc4lQ?{|Dk$UHQM**lDpCT@q%L&ytkVkUzEGM`p>|%
z<U7SOP!1X~Yn2(=z0dLoB9AaE5+YjZ{(~AAOh$%Hia{c#QE{MZB|%&@E5BFo-t7_O
zuXQUHbRR$q_CDJyuK-w$%8e1}3#RRYRNb=yb_*n3-i(YqmiX<6w)QCAGO1rKoQ!5$
z6<hOGi5_eCi5s(BZ@zcp%T@sqZlCIGstL(=ZxVi=S>#lU{uZNtH@mQHM=-5-T$tg+
z1oMN^L!G(Nx!OC5t!0ZK57&$Eh@OzTYZP+wnup825dEi<uS*}vlpDIP@Cj>>z6qyo
z32;opi{W?$cfX0uAjM0lm@6wTK7|>H-~$X{Wb505a|4-vA`V@lcOZblNMRMcGVs$`
zC~MG{xkB1Qcv8|gLnedaTUHp2Ow0>A8NIx{ad_4vui9P<5E1Bzh&0M=<c9-_S^(f1
zI&#<Lsodf_BDe+vI0Ea84cy|nd$J57kd=>REC(!sq((q>fnbpJ+}y4B<o2&q1EW5P
zu4Po*+L<w-wO2kkLT=IdGDnGMi=)D$7cnkJwU0K~n(`_enF|y2zy52esGVK(%*f`9
zwav^r*PrnM=EM&NVe}l`arD-7>#+bLE+#W1OCd96KuLvV=*neeYRc*OJ%0!(3umgG
z-3KN)A8xeHS$kT{*RZHCJoC)T*wAbB8#>or_I5l7qyHi}J0NLl6&ZWKKc?7>b-|Fo
zPGdODXODR{yY*2fTKUK%kLUpp<NRO`paSD_bnCbiYb(5!UrAeWhpt9t1zf8h{zOC}
zKW}OZ!BAG=9@{I&FMjXkz-4c&h!K*o7=>-w&4ex*@8KCZPV^SfJm=*tYbkgKsomvZ
z*9be-9fQY*38)v&pH~8|h2|Gcz?S;o_?ZvzN>^6?IHRV6;}vRxe>E-yjVA>jGIPK5
z6f}da1w6n{y1&|5KfGxKbHuNff^|ZypBoO}y1u?Y%iE=|f+vK-4w1?m$v|_6vk}Go
z8UP4UP@|7rqeLhPV5)3p1dfujqJ=31Ij%d(JUu){AGf3VOerYPhJ1wG5r_{+GFBv~
z5YMiQ3+5jHypaS)Twjj9Oc{3JN*6snJpg>;3qOWU+6d}QM&yEB4{=RwgpChKG7+-?
z5(AQx=H5ih8?EV@U>gS{{55Kzf4#sXKz9sIV33$KdQOghRWy1nY?mLyhlejt_(Ih2
zc;>qsT<4+g!GMndr1zy3z@UcGNv1(DKo%_Xr@=vg=v#<y7>;9IuQ8A^WDEi5_PlqR
zD2@#BpFRoiYClS2nd<n=q3F$L2kXDJN^f3NYmF4y#11e@ve~^W;}>T*zMfi33MSYF
zlr$th`{>c5pocd2flUV_pEbg_l#-s2@jA~)f|#U$h&*Kciv(}EefvsKjb_Y2)IpLp
zQAp4DD$()&;<&c5&G+wP>bv)p<GhZ`L{%Ba{FdR=jHbA5IDc?wZ8nvRAEj0!aL+2}
z(Xwj!TfW}4Hox{_^tWc14%Mf+Xh#064ODA?$c5K-rA&Q~PZXl#9aH5mI?ZH$+!;6)
z06SMiJz_{=6DcNtSfJUU9pTp?Zr%z+X)AclT*EsBV&)ED!}lNBxMtv2F_ZvM6(Dnk
z@@joHB3ZkDSY>=q{|{qKayMXu!?8ey#8K6PD8kswjo_mNp@M;C2!^Tj&j&o`&XG}e
z*rpvF9iK=nA;F(9(gQE&2lNQ&0}VgT&X-r=B7&o{IvEY)d#BqXC-Aum_lfg}<0}>-
zrmfKd8$Vupz-s|kw+J&;64gMc*Nk%LZP}0<42H4-o;f0sxO4vJ^t3LUFQ^Jqp_ZOR
zY&n*6hHG3SP!-b80XfxAaP>pWPu>OUs+TxcU;!ddbX<2kevj>G?=OD}KMI*`3j+Ez
zbcJ}I1;);ZRYh${hKk~1IrrglB;a_F9v%hv2y~Ssi@ngiDg;Czh`#2zN=#BEH{y9n
z3c-z}*cBlzAJBsEI>8-B_7dj_nkiC{0J;(le)Z+c7lf=7yizDdci|w<=5<Y5R+cJx
z=P}#B2Bve&nwf7+KQ9|CRV=VcB)z0b&Ph9ZeXy|G;k1!e)g{HlfW?&2#6tX{C}B}O
zf(L@^1L_&+E`n#mjboA6zzs+lMs-X098l1^On#8B-!c2h3;GNa`T!!36Xy$2y};i{
z@_SeR+BEyDt48S_t$oZ|8+yZB6`!o(R%7?ItneQ7d|B>`rB#VsEq>EaP06E{=PoOw
z?;8J4U1_yG&X0~N4iD9RGJEvncPf)1r>W~DorqLzet*9Mlec5|Tg#^WRBuX3z8U=1
z&v4h|tA3Gwo6{Yhfd4&-d!B=kxFKnd|IZ}uhPQ%*#I?5jKasea<u)Wg2B!~AEoz(z
z&@0HW*ySXqvjNFAmKh&*(2b(vB`G?MZ#a^1u70TU+!*0$vIJ8J1(di*ViWcPLg=r-
zI))WN$X$Y`jgMc)u8)dsehQPYT<GWZY-|De7dW4(belMaCng&4>pYNufJ7y-nP6Ne
z2QKb)Xd2L3%l2J!MgBr|ULMQ?*%#YTvTEYxl1L5?M>tJ4u5EElwCVgW+c9OVJ*gdf
z8AzD!TYZ3jNVvQVB{4DrN%si6oC^71aKj(FCkx`G#f6J#E-+xS4)}ZMeV~rW(<C$W
zzJ2@l@Fz#*DKtl3%fH?d7$1^&>E_?iRDem@$zhD)+#yj<k6n&)``vmlEZA+kUi)6p
zI@32F_WlY3BhRND8~Wm9%#%`{$&fg=#+~<<rKC^4WJZD?4i^OuQG;Y0x|&}PpeYw@
z?`9pvL!i7Ddehz_L$YHqvXT%3z(q3QLLvJih-I}g>)xbvM9GDHUQTxLqs=|uSazh)
z`bu4?FwNnNLv?m*6kfSYP~}pz4Q#^!GDy*FIF&0~QkQaO@<Ji~nO=oeVf>ReQK{NO
zS4-JNT7S!(9=+?Tr+e~XMW6Na!sw0;QTLyB^78UJAHvK6$8N<O+1r4=3HSy$98SWQ
zfZ{ge%>XvIGNp*<gF~p}7Z6JSuF6vuoTMPCkLF8cm<pH-VhBbuEABn0r<!LkM2qj3
zpSpPA!Z8QWfeRbxain0v5=mm-k+|Sz#%zKb7#3@=u!L=azX?dKC3<|n5BrEL;Qh;O
zwozy(GVayN4tO2Jdm*M_6w;Z9T3~9A!7)qpx0ttzBnK2+U6_^@=r@MIv8*iH#PA<b
z%Rtg9^VU((I<d-Asv8sNaZF_z_k$wE=_iPo*@XpnH1v1ahH*391kf<z&;YL!iL}6)
zYud9$L1zA_kBq0U=Cz=pGdo;t$b3xDc2Xw<uoUinPPaS!CtOHMd&RS-!pc^$Xr>~h
zph@$}lRI5cd8U&F^i@q4MKen`>(Ov8>$$}Kj=X?y0~8uZfwMj2m;?kf`|JF-?`tPN
z0L~|za@*{Js`BT7h?On7^7&e5LBo43F5Ubky?IF{_1lv>TDGNP0@U;UCt|3K46Q-5
z32$aMe$ye_^YUT9sX_^EZ*5{D+PPePlXfzJ<@vK7-iGQgTU^%P6nA?qyVG6h@8$iv
zsHF7lC;R2lhowS6qm>}H4ssj9C4rVEq1haKq7{SxE8$xH9!)NpVgY>z7u3%LF-Gti
zUNy+~xXG7O<yGDZ=$}knW=1mFDl#$zfj}}9#cDxGPsWg=n>TQ9#vz7x1$uG_Y9~na
zC}3d(LDJ(2Ad(PVO|Bn{z=-Hga*#Ss#N`nld?&6cA+5W~a+6xl@mh8Dm_m)N8Z=5H
zu0Qs2FJXB>7N7W~mXb&Es5;TDrvU*YQ$rwamqrhtu{h0liBNk8^-wkLdkTjfRbag2
z^l5NN30T6Tk5>p{5;TS~qf_lahMvDQMW@WKny}bLKaNODUoe;}swxzyeY{6PC(HRP
z6V>5BOnK7F(aYd^o0pRVA;O*E-?svP3b@}xK3*G3gwkjeZ{s-kD}PD#SY?)N=cT>=
z&I$U9!_}hI?f*pdp(=F1%prnOMZ2^Qn;AsS$gcHch6pY)lfyZn{{tyQo4!-INcgvO
z`o?AFHLvgUwsRSTC<20)hGgZd4^R36Ji``v0e9Mk%a^k-8Xj@=B8~uiqwC9;tnBS`
z1b8#DvM>p(m36WxGxIPK3y6nw6$^{^)Erna1oByEFjFlqI>A~%l4`IqE5@!;LD!7&
z?vj1O#EytIaR;8`@sN_Xmes>J*-^*hHSapx69&6K#JBm3@0-HEwN>Qhovk*zF)&J$
zWHB(LGS%YkJU|*R?pw5z44CYT{E7tIeGp_f;C^1j8DfmFJTbojqLCo}5U#xe3FwyS
zAZKmtIg8U#ji@)#)#cX0j-|_<Us)M7J2*}y`Bus{`mJc`n<K|f#$!`{d^2|mw!J*c
zy1lzw(B0c4FtaM*n7%|$@9KcdnBLpu!actSU{?mFKGfSqI=K6&-|RL@KF#t-`e(DK
z;jHZOd+c+zW-gb+1<fUMYCFT`-%wnWIUX1q(qlcaDHnIE=z~5O?|vdsZ~LpXV|VwV
zlO-c&!qCp{aLKVdd-k-0gC+!3a0D}w0_@tho0uMrM%#P(_7uS`aZM4m?8zzUSwXWd
zqLoCa^9eW5Ajlsm|AgPqL9XJ0*0iOyHCmHxEE?NT22vDE2T})IYyx}~@2;t96PZ^<
zu1FBX(3q3_S42@(To|UuDsF|Oc62mDUCb1jNUBe<xj;4;2~4-%#6d0zksU1eQoDE4
zS%MlRb13i{Zo}J%`<mT~{?)-0L>Pv~#B3mXrc!NayFihp7A3jnLn^T!VG8L0HOZGf
zb*c_;lVo=T$Yti-qcu3#g{E8~cr(yDNN4ww<ZSpy(dyBuy2r!i%E!k?E@J#V7Yx&x
zoBWv9?F(kF)b4cv&e~2CmpFn+06gyH<GqDA_=$HCyC24l6a$X0_;saDAAetUT)9I$
zS*RjXprnFaW@GT7XXr8HAooLZgc5Ly9QG<4idElOd)p=aYbePnnRTK?hQ<@I`OL|;
zoDR91n-$l)J;KU#k!82NY&YFkO`+V~S`;M!2=7bn*Tco+7!z^`@g%nR6O&v6pNr`^
z>z<hU+;r}sAG)e+%E|R@R`x@Vx_caT=Dm*6J95*Ll&v&2{zsG=^Rq~C5O1Y_fVuVJ
zLl#+S$u}Op<5t#qeMm24#%F`>fa?E_=6v!Nz4Am)0Vn#}Ow`|~LiCOe$rB)47py24
z=&LwhLCdtwUs!`_K~yyK9Uvt!&<5e<UPT+5o)S$fo<C9dL&BPkx_jr&oy7msU*$>i
zN;AGgn|&iRGz~X^=6D^nY0$N)ihTWW{=$V6NH#SGcjK4_sKSA}0jW|!I4$(v+rXrZ
zm5i(Xd2KBvB2*Hgo>Q$1G6>B=TTX;h{MH!e76**hW%;)o7ML0?^F^rVT$j$d64Vdt
zfQa3Z*58H|e-!f@C?19dsNIOT8aggHRDv<N^cbD~4aRkJWDJP0xhLzKc>4WMm@ddL
zCel)2DN!&y&T63Ad#ZKEwg~+kJwYUbq0J(T8@3$;-M7Kx1$R9dLIym1!*~&BlV1JL
zKDx(wZONA-8m-L~*;>F9vQviz7Epn-f;)AU6;>$R-JhVn#rlIZgk*d{xY!Be9{@${
zXi8&4P>-Xj9>1WSNo`43<%_nq<ivKh+PGC7`=YP1{ao6k*6FXhd8&brb`y-#^#9F=
z5>^QXxk*$i6K#DfR0|~C87E*1n~>1Lc_PKYJK~7mpt)Lb@Xu!)1RtusIf36H5<}&I
zc;kPl&@jD#aaKO)i_pQo#s`~c%Al^huE#cR2&04dnxBIn&s-^2<mN3eJ%2A+{)Ht+
zWMaXorgiy<Gh3BW?#ZArn%vZ!j6#)W%{6p!Ms$mbE#cVZ1i-+lll^M-c8H9Tj)M~|
z%gd*vYr}dvc^(ms9NM2pmG>X!X&8JU%bc2)VylyVe0h0!Ku~yV^%L4JZ17@>X&$$>
zEMKDfNv{>@`TR~4`yRo2Q43G`gqO32E~gnki^TlAbbM$K;7K^PR<&QHPKIB4I%M6*
zO<ZTz@s`9PW3Jbwzj;d5oUit=$rGtE^Tt(DVYiMBb^QM8zHTOy$#l6byxYmvXef$q
z^$6&s862vF-+;mcskKlItwQFJVf^utL%%h2Z@pG~ZX9&jd(~@GrIXw)jfM$3;>;zr
z#Wk-}w$W5KyB}a8lr^;t31g4;`gx(dzShXXJHuhUCYdxwdVszcACgp3RsBDmw*LRS
z;(nS1$2{rryu!f>?W0`j-~qPNqZ~8;al~c_NWI)19vS)C)3x7QOF&Jf!=b`9CWz|8
zADw=4q?e5zR0>Ait&3x6x4_7LS~CV_>?!am(|c5|!Alvy$_p2V;E@=3;|{>Zk@)oz
zEV&ndysfHv=XQA`<(|Vm60eY9-ndqdlzW#OxK#x;wyoyw^&JkWxal7vzTS%w{kA1S
z3JF?Gff$JlKSF_Ic+TYY1y@n^+avuZ8mHF&-JvV^*D&(GDKx>qyG24+Hb0OYUY4zG
zn3_keI}<{zwEmxHHpx11p-WH0Awle7$L=4&%W^7IH9K9mNEb31$8u)KY9du7bVR)?
zBjG*gi(kV!?2dcdgi05m&_AIUe11?ZLI%eMX|PCUdFWfhs7?&j9Dw>o=F1lzi=9a?
zY@Nl`1?^M=4pB$npH+-8p!c=ClQC(vjVCL8m?43#G;;e02OiJm|F+E%Z8KO5GFvTo
z56UWbwsou4h5h0@a&H%lUwfX{QKPIv(Q>9J^DLKhUE(U#Y3z=>70%gpHm`DXi;Sq=
z^#D3U0Fo*w`S0$sk4pVb=0F)k4Ug=qhW`G<_a#S;4vjy1mQ8=iBFf)@+Ch3KOyJ#n
z|3shuh9~TF?QF^x+$Unhy-Y&`5LQvA)F^sR0zunML$PMyN)`Q3%8^k~4l*z!^F>A_
zJ~JLDJ|uLQTK8@4&h=l8>J}TWg^RQ%#vJhp4i0PzibY{+15GM^BC4eR!ILhwZQlww
z+7F;UkUQddz|GJJ;S&h7d<U7(YohwK=`qYXN2QAjJ{_e}iJUv*{-(5q{-fTfT^F}b
zE3e$~j0$nYk`mnb<Lpk*w>(N{;^2TaDBFxBwH9ZfnA{^j&PZ9xgPuocDjHmNy)iJI
z`T3(YcBx`Sx+rlwB{{7~V_eFq+wQpL!$>A}2zWbyL36#mJkc3=<HilHx3OnRTatTI
zFPi&|HmlmIzX=dEoKZY#$Dh!Cp8ik1*<i1+0s2-is&_e^Yf;Rlt{YS*OPz`kG8k0*
zX>|0Txib#%kSJ4;_3g>?jZO(_{oUqgCA*HD{H+zI^|EYONABr3RoukE7RR6Ve{b$M
zyy1yx$&m;m$Z^#k+PYywP>HKzRQer$tJC?ERijP*7ZlmPtgIK+aWQRYZu-hm?iSe2
zVtIg<Dl_}t27HW%|GkEAKN36(`FLai6EtTJ1q|+}3oI-wWWQ3u=j1bEs(BH$`Urco
z>z3A(To1+5f=vE!K`veTFgjTwEBg%w_|oaZkeKktT007eJpm<d7ls>xWX~y`#9g?w
zFnkN@Q*+fG4%Q;8eE%hnI)RMmDUyqSc4oX-ckbBBfkY)6!!7U{Ybp%At)l&eS{tkx
zfM&G7*}Vx?r?Brp@&%!m&FQ@(2DOPUh8W>4J&Kpf<aQ226TvRk<1Prf$cz{lm>8c!
zJ3LdBG>_b^U=Wt5<J&GR1Ct{SE`Hh$Y0i+_XgfOr*aF_fm@}|n*}dS&Bh;P^J>N8S
zAaPfm!n&f%Zq9q<F6qYYFFGA1UpaUn@j!@S>6`DCIv>}pQSa7N-n>aU9QsFA1_lNc
zCkOG9bD~lX;o^#i(CHY)agnGZ0>OHt`vih*5ZxH4=_382!GyBd%rLy3>cW4eV|7-r
zE=B(E$rWY6V$BG!+IVUxHA+21N3}s|{Xv=g`~w515$~c1M34@&-E1&|68APhRd}2w
zW|nJ?T#_xsErM}V%)?6y4l#N}XoO-e^xP7fn-ZWnB+?hY9ggn+l=y{&=z;llcR$n#
zE<N>}9<QD0q#u=W$(fsaIZgAcHfO{^Vf+bs0N}hXT)b#dCQo+;-w+qh!^>0VW@b!T
zUf;1~$Ur_435$0H;i42qpCkJ9#z?{51awvZ5KPyuk;;weo4`S?uBZ3^q|YZJ9!xUm
zHKVr2+1Y)JcwKfluO)H3u9(Z*_v%|I5sIB%&TA{B-J)-Hrb)-s1~x!|%svGfa|>2h
zbdLpmrVu*{mw9XPw_IglvzB&iX|XXrF{Z71r_qvxEVPX(Rk44L45bq3pgON#AcCFF
zuA9%VWoE#(@67#e&<{Kb+Oj;hTUd{83_lXb%351nTf&9lIXrgzx&eZ%5j2+x`!27M
zk$Kbn6(ymu35WB#r#R4d?KX_{(={^Mc=BUvsB01iP{IIYjrd^fqID5QqSL>AjY6R(
z&m@TeIn;XQ6O9I^W<*vwg0Dc9UJ$4UB3?F(*SCc0z8%FHlQy0_Ivub^P=Zi{Spn(w
z62d<AAt@4mz8U=$)K*z&e7^OTg#yWOf!GnpqAu~P^T^=$RM?KY?EA8Z@*mx6?ghqb
zPerZ)i^&L(1GTkU@pA)@t?bV(Bqj!Q5-ov&V}NGGWh0;ah7}LlUzwVu#TQTWZbjsm
zVWj3>K14swcNyB>Ku@uo-PA4pakhZURE?h5`SdJ}RaJjO9%rZX_l<)`Bw}OqtI&??
zBD@K>Qv>`f9&_I|cV*Qq=HeVNdA1LgGjSSQd0<!^2oYjh#9%G#28hHBi+un?ldL*e
zs4ShGZxt6y0kP!UxpPg#^++Ns2O;(k2X^h#Cre<Zpz=dHxWK~I|9)hFSxXdvv>}*_
z#DvF2CNM$i17%VB4+S!Y5Ef@3UKkLH+^Gjh&%{;-CP3USXy}H=#$KX{Vqb>yzYdA7
z9L@jISLesuxRth+r(swWzKi_%PZZ!epa*EqgKfe`(a)^Z(4NBt4k(>1C^P5N9~~?z
zw5SQkkrfma1Z@BzC?GXRH|D{(XP8J|zj*^ka17eJA6OV%w@ge;<3X7egW)4%T}hfQ
z(sV$b8sr;GHTXbPBLskM4R`<JtgQ5OQkcREfE`xX))uZBIucm}FiLkuoyaQLf)7n7
z9EVgKLDrii+Wqlsh5Kz~c_?JW0X7__4L`&9FAz2)1=#v4Y!=1k<rwdoux{I7;Z{{Y
zbU(zx1ep}lGnP<qX@12Z9Slxi4KD|FyEG&Xm{=8EF7N$&7rK+r6BDP<^<#HK<<K_w
zfm^|SEu3gX5p0Kkbv<;qEkC?sg#an5Yl?oD%7d<H7JX0`bWCVx+TiOXh#&UvA<<}G
zBg|PRwtGq66)#N3ga4NXu$Z`XiZ1WMruSPP-=|?^r6lL2G~XLLE7`Nt=a`vj^o2`P
zG~v#x49r+fjCN&?-+7|qxA+QZOY_^Wr#~6)!eGD47OOnO2JasUosXJ;Sf6=QPPyfK
zhGJ%Qno7SQ(Q*Pmt%30jX3a5G^@PqHd!*MzY>)R`$EG&z8@aT1R;=L>ZIgZw4cjWB
zjw_OBXIrvJPj&7*yLi*u%1krnf<=RX?}L+|NQpm+nMY9}v>_0)<WOFo#v};M6uznF
zc<3ml2t$P?l7z(q7t-q`?-d9g0Yf3L!T9F`0KMr)QiS3Df*Xeq1n4^4<OKzeG0V`p
zs}(DPR>P|#MjH5QS1W<}5595Z6V4{HYOgq0-3XC|gfy2jUzk?Hw(h@&$_-17lc>Of
zF#u+gmv#D(44V<=m&8H;K|?4}lAes&)BlVyDaS{Mx_3_#SE(HW^?+}fVPW+-%Jji<
zR#H{~88Few;$OL7RA8o7T<UZ;%>AiY!563c?{msJJ;3DxEzlj>)Nk1*pY8#fHkwyd
zJw!Z_xR$+UTV*TeNRlmbbv6040H2OxwGI+55N;5#!Zf(D>*bjk8Fg>yOl_S9roza?
z)HL_l^&Ts}ZyF>a*sa7Jw9}%x1puJ>kt6y*e|`bRW+W5v;Ftx98BKf854aq;biu{t
zE_}NMb&WC5zn3_bDsZS1J`9jPNm4Cd!JiQrhRg$il81zXbm!b2G9Dm$&ot+OYJ9A#
z03bwqzXG$v;ma|kXMY9)Z6bj*xt1G1VnH)nF+CmnCd@!-h5e)g=1_P}^?Hd44&_rs
z!qVVCFvLYo?>kC>;OP}tK4?@)&<?E;)z-Aya=mBZQ&WxejE3RabFH?gKfadf6usn0
zn>&a-3g9HaLv=ao1&^<vmQc+nR+i}L`D)gwKfuE+UJb+sU8`*OPm<|hEkQc$6!v$l
z^F58WW(u3~yT{Cm#0uyQw=3?AJ5c>J`vc#>*;n0)=@ZgxR?Z(Rell9?Kqf0(ZC;n~
z!9yqK?8h~8-Cuv6su09obPMUS4sX7d_#0xPF3h!rS&WnB+2Fe$Tuwb+k|(feav?=K
znZZSj#>4Q#3txoi;mbaN`v-mlxcCvrE%A0b?a{$>)bI6(YbRD_peQgQ6J!i?rr~|0
zAKAJN#mO)@{t*~|+Ae&MI{mT({8#-9zJ8p72hi)ERF+Vv05N|E$B@s$AOqGT5sXWi
zS1KJmcoj}!B0Pk35>N}_-w14%wY`Y*^VnDr{*-7U@TUY~xjboxGYoSn27x-@s<J*y
zBFu5g8weD-Lcx%43KJG~uf9N>8-~e4CWL?V0Dj?%7hTra$4i~22QWJbgB7v5h_oNR
zL=u2ORoN7`!o2`^23Z<+5)G=v72g0}M4=`PKVP6xG(H7RRrKT{&DAdVVBedjL6RDv
zAbq|=Ri-aHp_@X1u+`1YE!QAN1-e*F2S0^lAjA<8-~8!AE|)HiL8q91qAUc@l1f<c
zJE8aL0_cD~hJk=z7ZGb+sGk*XwK*B6t4a7UVoV9ii+O|xn#bckc4Asb{@Oy#9rX0{
zD5Z4~!-4YbuA`fPALKb3?G9i_BAF=(avK&K3j5!UaRzwx(0Y=T7n}RgUp>G5c)ON@
z{JI>iNjK>iHjD+|PH;TsF5+jC`#H>#`g}blB3r|*vuo8xo%s2covSpr1A1*h;sKHK
z_YxyF&`df%T=)1@Aq?ku)`O$=khrbkKKJeUpRL3@VIWJLrT2-eoJpPf3r(xxIYRF2
zN1AI+e+&Kfdoh}hy;o*Vv1pY|>@Fze|5LN;q|p4e$j1Grtfh7JV>_JguKxYfMY*oS
z%;(@qB&g+cMV}1(6*jw){@FWm=ZO<MiespkjFAk3*qav(4Yy-rf+8a$JNKa2(llpB
z(jXeTk=D=55ZSh%KY$jwW=LoW_cZ>ot%fLx=oK^@JxR<j?mV2FWUe-mB=nNGk0BkI
z|2rm5)wua-qIg`Q3}lkyz|h1_l-_{<;VQ(PII4w_=^XWVW)DV64U=OMXm|?FErKbm
z+j9}<A%wFj>|^}58zVF`FqBnTErsP1s_<*qo11;GB_m<OAGs0^QB=u|z5V_DP^5(b
zm+LBbG~IjYn>tz$Dvwtuz)Al=M9z^TtHDxM!{LvyT_i{!UOjmx9r+6=We_EP?`#{H
zYr10<1rLIRXlwSN7?y0F>09MTY`nOwA46}2_6Xt@5Iu)fRH(09xk56HA*mR1_=<yE
z1Hl78WHWJ1nLr1XLPUsrkJ{J5b^OBzYxTVo$}lE@XW0J_T*r?h-;*ktarw$4hkJ0s
zDHZlR!&I%AC|z7U^JNFnFcX!x{c2-#9^bdG9XWigJ?};7p~Lq#scN|}Q?#3R+t}Sq
zsaL#})F1rPwwXI>{YZaU@0Bg3Tn2RUO_`co!vmf{9-1pT{t~BDjzvwi)gn%Og25B#
zHH7_`#tC>MXXww$=~NXuMy4pf+Zqw-*6-eV-R-z56u6u+Gk@}k|3<A{5sP;nwlLZH
z5)GmRxaFTW%Q&btW9oLlDbBaNAsFN(Rl|pP?Z$&q5vwI34@yh8tx?|S;l@(dvAd<l
z(+RvEDpk@5V)>mh@r62{IQV2SzCa+<a(3?44@gf)SUn^+8MvL9bOJB?DhyOzK*CYT
zhczC2l9CZ9j7SD>J<9<lyg9rf%~OhTl|_|h)zv<U=kVh}MKPm`D=jO7qUy!}L=N7S
zJQZN&i87fejnQ(zc%2S5AGQp_HX?JS(CWqi(btJtD(wK`H}7^Zi1Dci7Deqz!f_xl
z;Jw{Q{E4Wj-v{|wTj3H^ZOJyw+dy(nP?T_i=E9Z#8c9nl2p6xvV4JuN(^rurK@_1l
z0#MM)_$)1O&Bt={L_K(%JSzq#0J@!-R@nh^g^<JvMn=N4qRCIr%9>Zc1bW+bw21@X
z1K5JwLxtC^?5pr7OTL=tqSX@b{Abt?fIduuXu4E59t}&R6!IX%zGL!_p?lG2^rPqR
z0lcOPk43}4Vf1Y0)^tTmtx7BPt+!jb<h@2P>$r>lhHt(`3%BDd#?}r=^@h^p3U9Br
zx$K`G7Yd+`O7bwg%gPL#Kl;TV6mO>-9a|AF6Y{Ue8c6+k8v7~5uhgFNuiTg9==SZ?
zR{T11YUYrVK&2LyzP8<Qrk$KUR2TeK^M2ugF}YIroDCJ265(;{fG0usQupc|rPew{
zoG7Re{~5i4yT6mg299;0dzO${hU`IWgE<B4&GS<OM!%&LUB{R&UAm;%=!N4w!S*RJ
zh_>eZ*n?vYzWQL)R50inXSji5;8#%KVqv*S9eA0vC4hGjk6R!RPL!p%FhpYZD=3iK
z6!t{q@UBJFD~eST{h@yJ=<%8KM&?!wh>5n+!ZO+*VXk%Y;!n?dMs&)+oHp;fB!-89
zgG(GDyl7OSnB#ueQC-K0B<doaKniMc$_fOGhr>3doTqDBgW)8=_)%l%v$3O5`~2~#
zEMa-@mP#=>2$EI2dy<!p1`YHB88%mc0glHh+_@4B3UU$4UU2`~popU@v~&ZbBGw#d
zeh|IVVZ_kD39XuujWc#zC^v*W@B3fb>J?k5;;iupX$yT7vDaySMJ`=16r$y)v@&j1
zUfDGo2tbJl4naOHq6%S8(#UK$qNNq4_v%FEbuFhiA4wn%!dTdwaRQ<l>O_elw$*ED
z8^{N=Y_E~Z5`Eloy_XsLXl1Y0SsB@)0a_)CgGoufOV_RzA559tCfli>LHo_8wxq9}
z!;!<`?(0flo6?Jh`jHd*M91EB`hg@6sj|+paTH2+?;mCi^`_!k0xhfVm@|r!l=M^d
z?!pi)M#Q?P>CZmb)17Q(H2q?*M)5&t(+!3m>&m3VQpfj_{6V_<D}t7GnFnh;SpLP0
zO4OV6X~-8RV{*ZS60kRe?G37M68~20hzGrh=WGA&0UvN_twaTriH1JZGZ7JMk@%|t
zYcO$qL%GsgqK(@!0j_(r;0QW@SQY#QaYDEVK&+{))1+}p$;Lt;=q&nAGUFHv1YG+l
zl&x4Ch9V=My`i><#EGYmw?dLl5MqN)NuTKt4lZld+Qi}sA&hDt6ot^`7e-ws+5FI{
z;_nV#km(2agaxY#`aN8>7=;}9ai~#{2~dmTyaEzf@E;5#hB-h*YSGIte#t9>02O3@
z1nI3SCfcoWL=b8X^+{R^U(y&BQW`khB>-3<#RK(75r86wbj<+KC>|Vq0NB7=9@E!9
z4fPGyvxveiY>vYi#|kB#uE43epFh*Fc1d7z<M_;;_pR57=+o)rUesUDap_C#*)s+~
z03ob#JCDotJSDphqiKNpZzT8*_9=P3yz}gkmfPTIlg*1SQvx_HV+BoAJw~?!ogxEL
zu*GrKWq>r&>_3DTNMs}cHUT&2y@EzFi`}q*_C1mu2*yUrT=b5bHZ3x<RrmyI6D2jc
z!vSH*?Hx<lb_ASYr0f?*WHrxvKR1o2MocjKT;<-yp8^NWeDztJE|k>EnX+5(_g{O*
z9=>$(_Jib2s-^|ym%69E-MDv;(O7ur%s(+3z3<)$E1bm<q-AND93{DxoBRIv%RjR;
zbrn9`pmGbwz`}`hlvK)g-uYTb+@h~Eiw}fL?dlS7`60L-iU?w{#RWv<qmW;Lxy0Uj
zDN(bOIuccb?Tk8A9epgx;U}Z5(G-OIg0X;zh{L$#qo9Hz<GZl_NbYLlxqFhQs9`ur
z#@>PYaR!K#SYLvI2OIB^oM(7Tr;s0(a`5_HM7AMhdIZuwywTSHPZhRb=G^VTjxeAw
zo&$+DZZHy2C<vLfJCE@A>ELL=QkIgGq>NA_<?c#3F21c>QT}Kbw_&OTy2l^r3b^QK
zQNo*7dujY#Std?lqD=nUqdn+9_~lCo+H3;eL4l1gDSA9#9SgC9TLRJ_2yvw#l?{xD
z@(@GQ+qPS*5x@-U1v2PGb+ZGk_C&#pQW^<JSy-D;2dFoi)?r<cX+BQ(;=xZFh<X>z
zAG$PK2f79wjU+k`(BZ%*8!*}L$V%e8l+Thow&e>f1)xDzQ2hagr1!&OCf=<WF_ULl
zt;FR6U6fvv?GVBNpg(~>bqlnt2cb$wE!>5y4zWME@EH>owfhU}Cq~Fkl4<|DO)wBA
z6V1#>FOaC>CB>Pj^+Nw+R1)@A;LV#ZYb#OzW7U%F*RJ?S>vc5%1Ckk%m2e#GvC?@h
zN&TZom1B<4Szha7RB+rM>iAbeWk{}ch5pCu8859b_Z)UjS<sC?k>5VN(JO)M6Er`O
zn9l>f>MdklawDuZzs6(sOpcDR#a-)|3@0n94T5Izn$*%)Uu9BE^nb1fw=$`2&7+$p
z|DTzO5oZPOb=G355S0lwP8uXexqH-fsfnxvIyHV_VRb%*RWohagv5dj97WfC8wWis
zyU0`w!u>BLwGP#Fy^E7Y99!^6)nJhGERGW*Gr-NG3_#^hPsP)xX-I@7oPUka@?CjX
zp}#x*V<?n97mY*82C!WdL>E<b9J<Cc8r2D$xM|?lz{0y-be@pKHjkrM>ugdU)O|NA
zswkM~bN%-ZVuusoQEDAH&eZ+?QT86-T=)IoFiD9zLq<zUWT&Vkt3-D8jASLEL6WVa
zj3PTDdnS8?jFL@6WRyfkC_7Qf^ZK0E|GuB+x$pbAkNfF3uIoIm>n#0#-|_yu->>!N
ztlP#j``LcI6xoy)K0e+l+L5*@dN3@%<-=M`!UZOa^UNcz^TtrXOmrk~L<kq46cVh7
zl}ogZlI+>p*~sF$=GV4K%cy$ST;|&a0Zv8J;$2-wnyTN_y>hv5`~sZ>MeUbI!>5gc
zX#Cgd{JG+0f4d1yYu%?$=NUc)PrPBLw-}zBYzB@^2!60hu!VHZ|N3zm#G+=#I+g1o
zQNE(@KBVw45}yDQ`v*70sPh`=9k{TH2XA5_T3jseZUy<jzzH^buefGZSSF<wv<O_G
zN&=S(67<(^kJ7I9p$aO!!K2@y`~H<e=6rI(^6|YMaYyqnAKEIK?q|0xybrh}QDEZ&
zVt3fZvb>)^e>S{-uPgUHTp-Z9g?hWZ`?aGUYfDc#ne{{FJUED}bNx#4jZbXMk01ql
z+Q0tPrt$Co8}5+Eo2@!A>g=DkaPj-sRsdw)TQq>Pj9jTigo-Td_g-_S@=*Ijai~k!
z;$hFu#iI+l42PssI8(2?DYFOV$n*6-J(5?GY+`xjh}<KY>xe(pcd}y>N)aOec-SJ^
zrdga@+BDsSZEpvm%+<bqlxu6|<|Ru)_EPcvE&bGT^`&{j=GpLnxyw}6p$#C%*6)1@
z@C#^)Ti_J(&B*`o@8Gz7lH&7!w*T;n{P*oYv~pF0y^XSe4P6ZOy;R_QTPn|mXmNO{
znXhw<tPgJIuwH$36#o$0=5nU{0P~5hdnCx762S08c@*~h;5M{;oQ#SQJ*c_b7p_km
z`QNefOUV64a3P{UuUBy+i)F>$jlLmN@D^4hEc{=xm*Ab)hw<eX3NEni60;(>5Z71I
zn)PQ|`;Q(ju7BHm;HqNl!t25pSe$pmFXL?w#ia?Gx26`V9}RWY%f{={8<QW)3!JF-
zy<YVtgTa_8S$n^YY|n*(aL2N-IlhM^jR2e-l!sg>(-B{8Vh|rAM_q2nW18cI0*>OB
z-wF=(kM8+=@WMK`WJ4{y^t|Jto8`$Wj+!w{K^%&)C)FR+rqv2h*77iRGE!W!8vJKw
z@)Iss%wILJ;wdT3%s*qFQl9NWCibhYr(a*kuQw>08{V+`&yUw9-%+%1Dz|F3QXEn~
z{N;V&x!6sTS^_mj*E`^nkSmq|3yC@#_WdU40<J0wIWWLMA=PUFF$G=duTU~ray7)*
zsg6<Id`UA>b|FODrXyVu`-mU~M>yGNCjFh0k9L*4;fHj+tDDYbAIrbl*dr$u6nr&5
zMF3dmQEIGKMerw4ra<#pcj?K=*@^$YVZ?_*z3v&U!>)EgO`$Nd6z1l@I6y)F658%J
zmn2J1^t;G-2_7^HG4FNt6bdrid-!>Wk&S-W1<e)3SmzrXvM&jyC}^DC!mIgIUe5}b
z{0Lvq*W@|%Uyo^({%qr86`hPa<y<NH9b^*};~4T%`Q8;gqIs}^(`(DDLh+be0gg9V
z>287KkzbG&RF|BI(ZiL%LCZWDyX`;U<t4VXJ{EV%;fV9V@&L>nhgxo8MGpoKVvAbG
zPkl!%$WgE7`ma7~3Y8*NeIybaKTK+Q`)GT7O>q1bMwhklq&L|*)H`oxqZcV<;Q43z
z%mDV`Ry)iNo$9olDB^z?*yESm(bL_q^KwyAG1K`&6gC;A5oYzFzT7EFS{<5eMU%Z4
zLP74RA+;8dgw@|aE108Ix-ar7DBVA83IO2K+?^(-3uJK#2#@BgC6<kHtaLAT=jmo1
zjX#F1Kxh=v1xxXr(o8V4kJiH#@%CO1T$3WN<Y2{`$G@4>r~W~FFEt=jq*cN;MfOm&
zY3?*cZt{f-C(-Q5m1*2g*na$f^m^F(+j<78eG$XacU@@o)kd40j1^TGGT|GBb)RKG
z--FmFM$K)@^RtoIH78u_Nb|krxmC;7bES43|86_^m?h>kGsq>pPq<~fpw_vhOkI14
zaE|@^VTj@BbO)+Q<Z`jGv50lFT$vv&vh8EUhE#!S)2mQK{#TgnF_uR!CdZEo@HqUA
z{l(^faNj{yDt@~i(`T$LuE4K$7BQem89<)Rn036IT!pO69oajw2a;n|&NM}-#_z%9
z0DuTgLg!%HCaFF4F?tv;6;d?;UER*iw2pY2^5>ok?Y}j{J^@Z3f8iuRO=*}j`gD^}
z<?3D!WV~oSA*q}%kv}avY0$%8uqs*c>y9}&;UXG*r*>F(0QJ)itd}cMqlB7de!Nmz
zY<ZTw+G&}MN|1`>gdpeQO`cWbU%;Kd0tr2K%zlof!p=qxU9xa6h@p=^iCe#O=hGJ>
zs%Ot${IfiV6_`HQk%2DzD-aoI1?peEOnCcK6u5EfD0+3xN*70BwLlAL|Lr+kNdoSa
zfyBfccm9~<C*r^;C~EQ=+$?c&V12sY^W~qjF)2UsTI1PAP7^c7qo>YkxiGqJPfK}(
zCOzrt7Djqj)^wX~>-X*xd&8fpt%Rkem|Fp|@n$P4C^Ys|dDCdEBguZ4OMt|KLDjZ9
zo1f=6r3-C?R?@Kh;3%P2(10T9;`{2Z@!K`Wm$vSBjkr+EwD}+~+-AnziSCimO#rlQ
zd-jUidlOF*8bHmNV<*sf>ck+1qf?e!PNd)Ih@bWRxr8=m@dfAb_5ceL+(l(9V9i@o
z9lI}l^Ip-eG5_0{H-o=vQS_J?jpL15xH?;XN$JSMh5p;z?Q!beiG1PNe4&dHexS&4
zA>SVAxzImht&%Oxti`6KBB9dDS}N4?*g;}EL)(k;F_eE0GMM6nVXU_QQojZ9>0a7=
zmY7N9syzRn%Xx2N68ayO^B#p1$hqGNrIU1RFk%^mydU%rpB<LoQq*PfU@7B4@I}kI
za@<j}Q7bWVACigi`!yc12S4Ho_EI@Rt*TliyUrsV7%QZp;Of+G)zHvB{P`vee+KSD
zbi)P_GpT?4>*_r8m{`MW10Ee8PV(nYUq+WkvO91M3A8FME`A2<r7=<lSgy@rB5Q)`
zB&;8puq-^(_4V;>p~Yxx9MJJ|49H`N70?o*AA`+}*sy`oMuA(viCeZ*>9KkO1b`VR
zCZ8)kFB+r}ql7`3)?J$GHVCey%*-Y{h}w4kK*wP|efRjQbg<Rjd`juj*2{;ohMsYh
z(Ww2q&GdQL`t9lEWSeOO{RMxokwpuHD6qHxSQuPb+kWn{fV}JOy2(uDQ_n}vGZJIY
z^{jd$cV}h_$t{w1%<pb;XY+@heK;$i_EN*F((mwL=47_l^{%@DvQ>Tn&MvfDLo#qL
zR<YtBP6Jm<vM_-QVm;ztv;3*kB#@76QKX)qWM6R}?Q&XkDC2pb^kBV1<+Ca5*T4YJ
zHOw40$7X&oIAI~q4$hf204)9k^*|k9gF)+kuen`MqguFnLAi4`S=vY<%F5W{`;B;7
zd+xXLBjS9@$@o04F2jL?e12?&ZF2|<?K?bW6ijy*5|I?l97JD<tm7xpWngLf2Iyli
z0pkE&D_6d@RZdws>#fMa>a9AFf8KR>r^1*dcgzDZ@aXu5kx@uqA>8G8`~VV{iP~uZ
zM`F%uPxd)^u#o|^s-+o0l_^7T*n>mVvAaiZ$p56zr!%4V3s5p^pKn=@eP%<a*KK*B
zo6?;?)_;2VHLFGCEg#Y~Ij`C>Acz)hgV%NDhK|KkS|`G%y!`?<{g;o!XmfQV=bB>C
z$AOT{^fa9F4cZN1(kE6=IWA1%EZgMC7P#3mU+&(6*`A>krGWA1bU-ASX%7T^g?X$I
zLuYtDQ2KjS9&=$wJ)wL0uU)lu1=SyYmF|TKjm*4YGUiK{*++RReD2fJ$4e6sUdeLs
z9#fkG&;#{*fThWu8WKT_z9yr8GX;ryCW0y$;&T>$q9cZnVlSM?$b1O@=D9M@g|06Z
zUQVKx$AW3#Fon0G36qLp6aJz5uv+0PZ0;yCLyn08X9%N1+^4i&*~kA;mvBg`{w;zy
zM+s&}IlkHl+Yhh9bVcec6#e8;g;R+D%s@dP5xG%U0w`U%_nx2MCc;DtAZcd@ut{u~
zh8Elc8I?+A^|70S?qTmHIfp?`!g(CTQPqmIVxFF!c*T=5N)X5!J4)B{?wwZt-|u=C
zGe4qw&OzE?YHf{g$$*HC@n36w;xl=Cfw`2`k)N`7611t;iyzBN)VRCzp`Z=&G#=DP
zn9cZ8AN7+gacdH~@J%E6@DgL*g{v6~8td~DGT18zSN@ioeqpB1OT0KZUbYp=h}I}<
zFm-B+W!!1_%^B;H<Pz2MuuO;ux!=7bDa1VCBveHaAtuPeOvU66Q=Hz3>Es|OGXTP!
zOCYHOWD?mqIM%5fL~q}@lh_M@+4)69MTMPPg|~u-i56TfJKGv0Dzi=8@f3Vc(cH$l
zGN(^lcRytY2}$U{Y7cklFZjPp!$yE_DsN)47Zt4vWD%0p0@xP7{t$-&F;A0i5@?p7
z2_+G`gxCdk<1cwkS~?zkqTiwcE}lm+0J4+r#KrBw=N`sqU3V)ne<MteV2|+^r_Pjp
zj&}XCe3<MN$M5*Bwao?KgpNkR9daK&Nfh>?%RPbMlV!f3G~T<BO?Zdc*xlBHsG|g=
zfH_j%(6AGJH;lC1fz|N-0!6N`saXfKgn)lQ!~7+jh#pN`T*R!FW`e5-CrGTMYl->`
zVf;!R%Kcic@8GzF!f>adfK4&Y<=2tYT;;B-hhxU$hK90_P!#<*vU1^)orF7^Md8oL
z#yal+w_S^Z-~V1}NNZFr617p&eKu+Qw(b)(LT*5$+=~72I9v32=Sq8<Th)w1&9>Jo
z^$WZHF3)Z~a<q%t>_qel+i#`8s%)b9IRhu|?bu>&{KC<8vefS(n`l)@t3vha(k?;_
zlUW8Rm*xr~Uf@1LLdFi%p)n|+N08=df!KS?>HYin-^KOLLwo>CV2Vmg{za?sQ{x?J
z2KB3O@+1XVPO>@;>Uo?xlF<F=+HcH#{ABJCcf!3*r8^^^A88-^B<=a;wqB%bwi_{y
z_Pa*W-$5dHXjqtbpk`A=wuOZSb~C-Ox_6CiL5=tL#S3JO{m79pl;~fJD?O?DVBf*7
z6#}IKp9wMT2ucBNl<ZU3U2CukuAXdGq@yF7c?swVT!nd3=-9Cc!tp~487bZySxd)n
z+8J8tOdt8{TYEOsdsXqKS6*4O?XC}GC^u5&6x^KLWF{mnu++OQRdxQZ3Vv(+KED&d
zHnILA2*6olZm!2vQAtS}S{>W|qD++oPw`Zf9IPLcIt0{$vY-_YaMvUZ?S%+bBunh@
zp~c*m58-1`5oy6KS62~a<q>H>P>_&tOfyiWeczEHkdA_aSy%&uCI!S{r@(r;E`1vU
zf(HJKkN}K=|4Jc<HxoP!P?i7Mbw_kesFmKixk7tAmiGbTrqb^Carf@s)Gs)jRIrR7
zr2x9OM=>$V2wWgqH87sYLrH8br?$k670@gJQHj}(nPlffW=v>2i%-l5Z--T$WcWj=
zZ3bKv0udF}Q;SF7{z*X51<IV;xZ3WLSaoB95qv6A9#8U#!xBi|TOzar+KAUgDRYmB
z#W!eF%wTjyr*ZmMmFtg5AI;1Zbcqnal8t`Q&XCN2E)IJu3k&jnh>{4<HX0>!WbN2|
zCn<E80Ktd#L9XTbXYRh?+seho8zdD22tUXQdbGa4{h3oWf4l&7MHbg%dL{ZhlmQa1
zQnWU)fFCPDpmMNHDGpHZs(~>@ipZt>aU)cLG@hD0_lBH4s`bb9UgG${$Kr0{$&j<>
zMN53Z!ADU~4fPM_caA4t-*WBQs!d_<AHBxLH=nP+H>WtrY4o}6wYbVN>EP3n|8%H7
z-?w#GJB<Moh<<mG+4~iPqE8>A>&98XTp4Q1t*S0aZu#d|_t*PTaR$Ne`nwFjm`>b&
z;UivRSW<ef6#rvRiRort2V^P4-47;-$g~h;U}0rNP<g0^5Jw>e#TB=RNa)(?j3+?k
zs#bTh-2f00d2$eKia`31lGimgWQzzl_kFmsho+`lAf3ejF$AFch|S{U9sS6A5?p_N
z1c~125&cMefR5)@)<NYxMHLkipwBQi@#6fu01bkT!$aUj2$ZA3c?KmPks4|K`T!9U
zkZ)=)?4+RektxvB;QKdFQaej`3yx>xwa)$gsW<f-X`xUH&{9!R;YYm&<K!Ry4ulVM
zP9!WFK?me1BZPl>x!k$!8#ZoyhZt%|h7XH~Bm=*;nRWu*$&H~HD!?HeW6)%Gt$TbP
zaJYXuc3r#zjMl~SGN6EhPrpk*-+M!Mk}X6&Sj#J5ukpU4BN(wJv#=_l_k93s-P%vj
zwe({VAuO!QJCzl2<c+mG34m)3!b2d^@`8J`Ug>XTJ0Xjf0iH~<#{jm|r^O<eTmYl{
zLMV#Bc4}xLAJwqJNSzN<laS8V3_qKk<qdLtB43du#UPZBb;D=xdH(#KLAQl1q}Gzm
zB5VQ%GwrhUjkg=CfUHnn@zPLi+_({jg*Rv$yT-Nx>qdHJFv#AWAS?(q3atjoFX{f(
z(%znq%7Yhz%F1e7Pvk4BT-cq~R+a0hKEY8@2A2ji**eVnBJanoh?P~2oTzix+@|9`
zy)qGUym){4kzv|>-p8HiQz&ZD+xvg42J=nn3vnJ@V!1fW)61A_@ND^iCwd-w9J`Sv
z5Lg@p<{*oTuYC;cF3Cf+{?O1MPt<ib-(i2<bP^yEGjBRt0IYLllA*bd@Cj4Ql?4R_
zU6W9B>HJxIrzY3DW81d<6#2khi|xS#4b9Bt>b{3P{4k#9ectpaFN}DC@C5t9&5kYg
z`!S(&p|9lfrYFX*B;1A0d^`ce<fF;Zbb!pl&miZZES9!meRT<iEb^P_WqhG_0V2!C
zb{R252s{r6^F-{p8JK+=O8|t-s1b7KLuF_Z@mi6VqqqQtlLm*lDHJxO_mntGvkzD2
z0EjA7sIcaeD+7F(gS)Cea61R*<GD8`Pf2zqN*B1sEfcPu(fBJVeSwZCTVf<*MUN3u
z^83dW7W4?nBBoTk1bm07g$3vQ!a{)UPe{Sm(Stu`k)fGG?DZz7Sm*FMa!j!{?qOu)
z04H1rZYSUwIzmY}kM%~X3g(~v4py1t<mRS3iT{dR=|yKk!g_-dB1g*^x{|Be>G*^F
z%k4|6u9r1L^3pPP=xZ&rd5Zmf#NE{1!g^oy%+pFITaz2-Ez+8LezmZVU4QV{$tG^r
zaGY!GNi?@NJ%^Z}0U>A6uISS2llAbZLU*ChnZix8&%2kt>eP+i{!@QkR`lk03cp&l
z7v2i~-5v0eJAMqGyJld(xU{s?w;G(e&j<dk=a(Gzf32byyzBkdMa4HZ$>j7WUn{pj
zdJb)x>t|@L55<4)#CD(kVB%|WjA4x}M=j<VpWC-@FITVqmd<Qj`}<QmAK5hwY-}XA
zav$!A9NuOhdYO^YQ9ppav?uXC`U4D`Tb?t=vjaiXHbjbHAFev$Q;cDi*CuL78DG!A
z1)NU@aRT#VoT`)G>&^+Cy)4q%=DxHxF$fwK(IW)R3_NSy`<6Fvn6WIz3~$yjh^Jww
zlgJPJSmCTiv#%ECkT-e&v>Z(6@XSEB)pT@dxXj>nWJO(M!lz<E)D06%^(<hov|?PD
zkFu6u8@fXw3tAr!B_0m4DC;n$Yp{;{u)b3k$Du5KP^vjT6ZE$}kj$2q-uxa-a7y?p
zv2L9~hGrik?0gCf3vpzZ;grfCzoECtIur{=Ze`YMGGS!f2B<uu1j7kg=5!EdUw(9`
zawkuEp@nA#hhSrlAd`HWfBs=X@Iw-`{5B3xk$p>xD787DgZ>zs(I0Iluk0IE{B?4e
zHsw%{W!>B=e1n2m`}+FY-38GepN-zn`~!IrJWIXYyjRYWjVYAAIOugqG$;7z07&i>
z7ak^|kOx9g$bc6lycyuZ0bp`<XzaW-GnsI$w~_0P+Nvpj6B!6e2$qoXtr=9)7#SZA
zfcVC2T)w?rNOHz~-sg2)&n1l==_hpCb5iJyj?<?X*l1A5SZ><C{?aABOVTMU_tNAp
zpa1bt=RnFQ<E+F~t(&jeH14DZ1fHEx)fTnuuLb4p7Z^y0L5RF%I)>TU*bX22+f&t9
zUw@|aT4Xr3ZXH4#%imw%HH?iZ!#|ugG~5Y{(Z&&8M&%nnZ*>-sq!QSyJCT)Jd;)r@
zaHAObi~M|isBy2)$jjeHjq1Qu0RQVhOeNDid9g$)ib7)vsmLG59MCa6KuNQ;vxCB!
zSF?nu@i83b!Cru`e;NWNNR*x)8N+qRq;_JKNzmrQllE$0U^VK?!3!`m!vRnTX#*7d
znzohDs>nDGLqia7_bwHvO)|CMvUe0;*5kGO67Zms2mH1IDp1NyB@YUBio<$2lgrdn
zq10$Pp+T(2lZs_lpYh58z<Y=ZWo~xpbW;u2!GnP~Xzb^P<?!U+_wkX-w?{BD0^ZIc
z)`*V!$-$E*CTnF{rA>{Ee||Q;X}7#FduiJ0<Hm#>9peMXqL(#)H!8JT4z}x+vd!hL
zxPRBxx%5lp=#e9X)3#SeRb|cA2eb<v7&%KbRz7y)`Paa1M}FDUxBU_~NxCfJtYc6&
zNL%XbzF&XrVbqx9!|9xXiHY~yw$y!CWh1c%(0~um%&4IXOdv6bjzwU(-QtyizunW)
z{u@Qq--X>O*Xg)L6xi?GzAlz(k}AtfDfRe4Mum-wUJ~pZc>da{uwlN0<;`0r@#UL0
z4^gBGFLiJ<84n{ODsu7!va)c2vC=>Rw;xSl=WktH_teW=klVlvng`bmO2WpI*olKt
zFv@TcevP5KTcs$pbG{z6>H3U+iM7U+k7AKYU<TL$e*E=zc6N|1wW8O7!BI1~&jf*=
z2n|nO{IoLi;wKsy(qVJP6c&oWXkrEzk4n7M6JT463=FT(io-`ueF42VlBTP|taR!y
z0^t1L3SPFZwst)%+92o&=?FhV*vRzTL@H>Jsk9S0@g-#u&r1R*O{(JnL|wz8r3oWF
zXuP`2dHue9vjsr$8b=U9{3H6wlr6owxD61nrZKPyYga`0xXr%WXklrI^Ra>ClVGGG
zV<82ae{+<pl+?_RmJc61AR-rW@m-gvYTkQTma$Nf{T;$00cur$D_&XA0b1LTQ1F?g
z%^;RYKtIn51PmiHbLz2nqQ4^D9Qp-9sADLX>+iwa1tq;aE@ESIGl!5+5YRM52Q762
zWi+>I{Kp)oVruB5hc>G^<`;;1EH$)wSBX?!5_x&|&SPttlQEQg+=N?pH5fAcOX_MV
zb0uYld*u5^CuQhn@1*s)192C}&-?f9n_F6P4SZ&zmD}g@CUovRIa{cGKOkd;ICjAv
z*~}eHn3a2~&f|Y$fX5Ff$2`)Hh}Hg+=bC$_grMLStS-gtm9gaa-~ka2wc8dxqr?xS
zMnz*keq3L(l%zc18s`|5)xg5jedPdVs}Z81y>}1$nN@K#SVL=d<4>q#d_6Sc2riRa
z{!B&GYS2yq-HbUh1}TcBT?MdNqV`bTG{*^M+o$yxQWo)b`bC&&DbSL$@85s=`-`KH
z`k+;??aiaaC&SE5R#kKjFH6ky1`J!XmM8H{8uBA4`Uo-JA<~f0{dnUQ#~xFg3q9Pe
ztE)>CT9_@EV$uYmDd5jy3@avB#oFvZ)XeetYkR!>e=!^M+7Br|oC>}r`sB?*n-cBz
zEvnSnQrTx0&gT@Y8xvD(J9|J_<Htvx1a=YLP~M~I*Af~i%U?J)oc!R0Hbv83^LUno
za=g2{uUde7qWYn%34wdvI;zn{M~enss8uL|k>kw0i@?Zj3=F4mg^&xO<s6`M@T0<A
z<)){8^4uQ^*kUNROE#qQU84v;*KymkMA^Z}J%O4pGUd)+<$%b@$bODEgzaJK4ISPP
zC+-x8rw7U#Si15TJ+`y5>e<F%O2F{+4kNS`iNv#;@Z7a4e4Ea7x>xv9``OvONYVqw
zUmTyx7zq814i)C*B>-H8;;9oT6DIp4mb*yQ34`v(485E?t&9)=3z)<MpFDYz;>CMh
z$dU{H8d>vN_&I1855WS})1zk?CO9bpSPWLG)CKj<VKYU%hiC^vgM&|@j(7JjW5*(`
zV1)G4Z~q4m1V*IvS)6JLjOZwkVwZ;Ds?G!bfzp7J22-mK;sR7~f<j;{1x+h{C~+g}
zI>C!WL~>-C0XQ4X!(88AxcuNFQwQGKFQ^?P+X}N9?-dnv#spa*-fw2UioWSuA=^z_
zh7SZ6^BfPK)>6LvM}jNbaA$A%V^iBiz4=$|w~>2+LEjPu5&9=hJ7H(QJ9t+cpt?;J
z#+IYvUCrnwx;$)=G~Mv()hWTpSFdN%#QWgAzp?*dAWlhg{SXS?23WRx$=Sul9zOw0
zO^Qy+_$w4MOao|#x|r4@wZul+9x$KB-xVvcA($QIf%u@L5j*~)Cr`33Dr(X1vc%Wb
zjKPa#fvpahJ+LM0t5x#|6i<kA+b<uO;xzLKn(wzb5@FmZ!_JxLv~o_kQr|#kUy6w*
z|GKGv^2@<_9CS9B$;CxQNd4bp*I#4`SO8h9WR>DO9Fwd&T{U{hDnyd=2N1u#=pL^h
zC>voBk<_U*gr7s&YHDTG08b+ZpApa#5qESE!}9FWZn8}ihj^V-9_&IS#R)>8mpwg^
zP*i0Z+_ki{L~m<6HgoFCnX&4o_Ziu?{@SYA#Yc+_KH41C-5{jqx65^6-*3+?`$d%<
z2fIbzr>#a7=Ve}8>io4V#1OT;>7MVFZ{_)P^4sK(d6w?bbI{u<ed$45;GXgyj_}NK
z*75ilSY6B)y1Cc6S;DaIIfu9j^Hh6bh?Q8-@aUtcs3y#&utrN`I}(wH!6rb1krX#U
zADgoXN=kBUK{d(MQ@iQ){S9JPap2E$X%Vj66=syGjeg|I)KmbVCP@BC5GkyD2u`FE
zoRm_uW~n{tem&<TgZ4+6Yo`i)@7&_YRA+a7@d%z*l0ZNnM08PyEt{E$5e?QwYin!r
z{sU`fJ~3^b6+Mhg%zHlGNX6|$=w+P8I1?|v^rFPYR&4O%`+I@1-H={r!l>%2KCOTb
zS|7R5=E>VZae>dZB4)Clg%y7Xq$@3QGa3C6`rURxwc8wxuV0_$1LsoL*H`vvU1xv)
zPKYegEMpM}HSlLE;xF#)Jp|Sj)&#yCdr-x9p;;%kL8v^+0JWf!*fi<T)@P@t%Hgfg
zr(4dA=}GgZ4ChFjQ4uQWw1<hx!;<##IvjInfUrR{NmgmVnhaZAJr02Dj*dD3jBB4<
zXY$caV5DhkZ?^&iY{Qxd%Og5NVui>0k^(5ynlzIIj-NO|ytZcM=H0FT#HWCy-oAZ1
z{OJuq(^Bm5+M##6i<*b1)ggER8=%2QmrDLLc5FT!v)5)M@>4v}#8*RrLwfp`&^&d2
z^uUs>CcKFlV}e`vklZIwhoGqvqa7at#lfq55j+4^CT;e@i${`_>>V5eiZ?X1wvr>y
zZLvch-|9MS1?WylKpbT_Zz68v{xc6gBT@4u{D(L>?O`;`j8ESoX3vR9B8l*IXm0=x
zn?r97B?(YX4Z3T;kKhObvT6UV_psuoLICoxpqzpn5Y}?CClb&MsL1n|z9p0&Ff%jb
zWKFpf9!x$JSPWw9hR_^A2qzQO32bck!6h2!4fLChc+Wv@kZ(`89L(sLsq?W(VD0bB
z8bQMj9y}|Uye%Wl0Ew81=(}5=h_jNT9U0@$rS<dO19eM2HU=27>4N~66P2KO{IE~R
zA={-9E%5Ww$Jc`U(l081(5g(+Y<c=#+4>yKE1%WtvAuf)4MuhIM3P>=?a%$=K4LuL
z@yoq_FI#)r@9~TblVA^>U%`$C10W;?do_V(h*pw%*ZyM#Vm2ZgiW=I-p0<AOzdJG6
z8BY7_>Js1R0$KKlZ5A!aK+em{yMWh{v`y&y5aH4Uyyz?RkYooH%0Ahw2hgazqRwM9
zWweGe+-k^ydgLfYXI%1N&db4*QVE+XHcCvrk!16gaddrq`lzDt`q<{T<L~<RlW&Iy
z5#umyNwZ%&_Tyf0^L~zNT~E7qPw|%h^){$dL64JF?yM$m8XK&Y>M;QeZu?e9vW{?U
zn`46yW{g6(*D!3&E-nK5E$FS&g!~@wwj74ZBRdePn_~E6-Q@`k@3<$Fv}K{V{fsz6
z(Fa4bW25xAQ}aJZ<R(-koB{Yy{DsVaLV=23M<+|RD`bMk60vbqD$Fx6JYOuXi4hn^
zXGGd*Mymk^VBEFqw+esEI%=hxB}%68!NIp9BFcXyT{z3_P0VUGQ4<vKl5&(SR%-aq
zbgmC{-gd`AQV2raBp6PU0D;RSs?(e#GFn0XO!}vvr6HlL!okmkK8!#GKI;}R)9Qi@
zq6I5Lf_L*F%wVK?24$%NqQw+Gzz<Q=(xMEqUHMg7+&^aClYdRVYSBOD<KmJd8RIn&
z2ZE_2EPe-4C>hY8d=sOnMMiR0^TNV{4@|NdMr8$XE3&{#$bff+SG(ckM<c<~Yo`*P
zAs&Hgaw_I(6@wS5c4RY(*M9UC-IJ0#VvmW7pL0V}b4^>@Svb#WaI_u<6;(X-9d15i
zoUOsIzkTOUe~f>uw0wV#7#J9s;S?piwq)RFg?`Z=r(yu$4i?uOS{w&Hz%WBfFr@N<
zB*g0BGW7kdC=x6%V!I6Gvo`kOT{OLT@c_j{wCm#6;O&Plc;yupF+sDO1O$)pt#T#%
zy!jGlL!~F~oYY1?5}NY?#7ri&qtvy}UI@Npg-4UDK*4T~QuRlZXj3}K&jcJnfJXoY
zwV>9#>3wonpzt7KePTVvO3ed627&4kyRX~W%0arT3#%Ct!Bh*)71k2&#sg~ALWWmt
zc&Ue<IM}x-Pw|V2t9|=D>TgK#NmAOFMa;liC_89v-B#f}zLKKaGn>j*%FJ3z4x4>X
zEau>rmPfM~0CYg%=VK&Jc3iVNtzqTJHuobjx31%Zyj)em<4ezkg6B84o&!|_*N>6)
zZ)9A9WjJjFmzVkgx)WUd595>Lj&lWZyJEg*Q#x;qWf}I1-6%IN96$HdoBq2ueZ<<I
z%AXI)S7dzoWtboQET>Oee>fn8{m=~Rvz)A~w|=!pC3*5NyfMnq1V4Jj4!E-xr-|H+
z8%4{QU40NF+AsbKN@yRMM0!AI9Q*d2g5VD*FEl&^6f?t{`7fRYJK8W%WCj_g)wuYu
zFir}r+gsedUt=8DycwpxVMJzgU{?@mE;T&cuy6wi^u{LGTqG?pA^~q0ZUTaenPJj2
z!?Ywr(`|&D)zdK1=o(=M_iizJSrTvf-Ccy6TOKjreo)=|!d`=L=d)ys^|3X;rOW`?
zN%As19*k{hs?0Fcn<3UN<QWpW%y4II=6isy;<PZPNsM+VEid;+B?`b{=7-icAN(Wl
zp{wYi{nM$cu^QR{A64m8So;%kZVbd&qsOaCKTN<alq&dwct8`@LYY9YJL2xR@c`!Y
zyywq}@_!gZFb6mHc(@5&9mC$eLa6@ir17NmMGxsq$9gb>Yl*CmlSRcP2`{LN-pDXd
z$Ux|tf{F@&?tGlK{~~Bahl4!-f4}JT^g+@@6f@A%v!lta#f6l`-NK~(_|n^i+n2z8
z<rh?D-gX{z=4yQh3`P~54N!u!Vb6JluO8a5V+VP8%XwQQ_Cg$sG+35l+##XtH%=2C
zizkA^4+&r0sdiqk&$%zDy-g})-Nl!mC^@*-Mvbm!`bC+Au2~<YZjCY)?GpanBoXu0
zTmA4*<9dym=PpT2lLv-1$|vhwAPTYx&^dMel-ZJB9}vd*@D;Nk;oZX?zgBzrE<5v?
zg5=;K<=@T(w-uHsrWnc*OAAw%@QMfHXLN4{es$GM^<G&x+td)=Bl5R|$MslB`W)~+
zJQ&-+a4?{d*PvVxzx(&|<UAPq`jrQ@+~@i8=XiMK6BQRw!F`I0i`99UNY%xo#0fWi
zUk%0wQW&9{IBXTDq_O&x`x7eeHZ(a5@H5LGO$!Cq7cFb1sy_Y&KSJ&~&|&-F_Ts_@
z8|r4DzQJB0LI?yPdUYW0=>&hFDOc%ws-q0{$d5ct==rjE4|uCvR@(v6$qy*t;x+ZY
zwKQyIT|a+BO>I70DHXZE`AFT{1_H09xmgKQpg#^-x_wIN-V8F1Y}y&>r^tN+*=t1F
zS{u4r<d$`=b9@DfkkVs7HLTVrXGa!5yvZXR!4Lr(8c^4hfL~u6-3q?}mS2UGM-V-L
z4_FO^05Xu>CSlgrh~pry6;2O2^d#hfK(qDT%+ggW{1ELvrNEJ>@NhX5mCXo(PhI-%
z8j2Wkb}V_ux&Nz7rO)E;F657dMn^v#)8o-P2APF2WRrlJU99b@F8@sKk%JlxI5%hn
z*5*lFMpSg-j=-^Ak*E0dfeIycj}HF2DEEuUKICNWrncQ|*V}u2KZ{HIKS}3zP7f$t
zY=7Efk&-bi2nBU#N%h9IA0sD+Qcv-QZSEEKTG%w6X{PP7r%kf7`ll2|r)21LM{p*G
z@Aj#RkZQZw_N^*EMl#=3|7#(=-JAI`y^6-wNxA7z3Nm#d(ZK?v0Fo5R>WTUJd91K@
zP205?)7*0FiuU4PFGaoLLtWl)J|&pQuzSzns!yk)ww8FhZY(!dZ-<Y}E08u{f%s+y
zfrSK+Eb&~t^MeXTY|xcBijIzA8JoOfPj}(8a=UB1TlQhoPfWC(?oEvn0o?Dd;(f#B
zDITp@jvYIqoZ^>@ZiN(tHny~Ux$?=_qhdKZ#jE38m$_mVmyjIgw(A^m362ar3)+`e
z>myv;4m~>-5&rOe>363n*NLCYU;6iM&Jd$;7j%#QDw^nbbK8cSJA5P3SR#)Inc7*s
zA@g2fze;cNA(!$ci>E)ePaJnjxa)9#eveF9KE_j24HC)&e2lbHx8{bQYf>&0EQ_2!
znrMAht6*K4gnE+FsVx_7Kl2K97C|$50S_@AP$JdC1c4lJb_lL`u69_QXT19PyE*_(
z{2DXnloE^!{2(3@x+Z(z(JaI@?-$N}6dW+g*qW+&Z8&JkNaB_<U!mjS<blYe9ilGI
z);WV9-(o90BYq4`Z7OH>jyjYasKFMkds%6UFI#MnQ*6aYiKNivzTo`3Ph4+?1jn3u
z*Q{#LZ^Qd0>xj_Iz6u6(8U=1E_JGFEe@d!g;N;(Y{7Fi4YiHR5>r4|?Cymsk_Zz+`
zXYlV|C`Tp0b4c`2pbhcjnPawuT_~+WF4S4EQ3>xF`4!b8qj@u=eBBuDq>f9z_EO)D
zvTti9+pnAYX&Ss?3AcXVLaq8{En>pO;4!1H4_l9udiOKFZ9C6?9va-LSQ<;wO?+D3
z4D~NhQ<W{wGV1=)U38pLc8Z+t-C3C^ayd%$j&gY*4bzb$_xXhQ+ZU8Mx9~Kcn)H(3
zbr}fb;HdXxAsz4@3H?uIjTJH@zX5}iU#;iVIxBD7%&lns@_Pp|q<AiUYVnDd(rGp*
z5Dh8~JAO>o_GM2;WI6LxXMe>}7G4&&jvsV*@yo7WkC$cCpyk?0yJe~N+bjKs$900N
z?`m?W`*+&g@<dsMhHup?(#f=n=N9~tbs*kz;E@1j;ruo^+)ZiUXWr;D$uH+oi&4w#
zpU1N1tg3e``L0%b2Zu&&^omP7_I*Q7N<qx-p+t&Qb^C8^hw(u^_dYS#X3)t9(eNRk
zr^rxCGba_41Es=y#kBFjxMwzn{%PSc^X5}~E$aeQqG&ua*w3Bbb=mmTeq}l504?7a
zCy()oa=x&SAfKZ8{{Q_cEG61pTI(Ah+WPjMG}AR}+89Q;Z$0bQPs6o)dwBC~pXVJN
zxocW{I5S~Q^S8?f0|=q$+68Lg)I2m$wMyKPspzIHQ6qm%eBl^F3BxzB7x&})|9S^R
z(Y2ftN)J}uPhmj0U+cgg%h%1jo?fUmq*Z964iM$pt;Kh3Eq;wHnENzP%iO&yRcOh{
zuZ7OCCoVCAIe+Vyram;awzy4vA0HiaxMj@Az&)dAdDfBd?M1JRCtT*IRJApkFn*bt
zUwWO;fA`Ym4-w1WxB7c7t39!CR47p#n;m$)IQStRl`a2mVS+<(+X$aS$NRTwa^Wna
zlIx?Mhh^%qYh@OAl*LdF%Dr?dZZXL4Y}{zJwo<+Bf}uwenHBE`CwEm+qAVw?^W4JB
ze~#-ejwf&$9*G{1L_p-=ns}_a1|n|~1C3b5)aTjiJiX{S`0c(p8u0^s0MrNIS%2g&
zCR{9@5yMQtA4=e(?_A$Zx10YHG<4T)Z{9w$yC_rYm);gAwU}k|-8kZSs7LV0Z*>>@
zV;@-0t82YHvivf5$>jYnHU10pVb0%z2HL$UslHYvi;pL@1v8}i2b*8M(&8#Oc>3|C
zD(MBuy?=gCh6bsfId?i{ubao`&+;30=y-<N{@_@sslE8;cQqq51Metz%e#-KM(?Fi
zHFhKc8fgx2`m0LTp^<?flk+_2C1BSm%yj7eUt^V9>e48144^atPbyf*N_vot4PDyr
z8>Gp~DnJF6sArmeaN2A?af1iA5f%-b@XbI_56lAOZc*<N**=RQABo*=69x4R4dz#J
zqE8~Hbr^Zi7^BeYO)Jl2N#OUJ;y@t|OAsgF&yV9Fxk@2J6ZlC?>4HAH)$|jM59zt7
zYNC->+$QIE!yoc(i)T^OyvgY7?CiapF44L$4gO%$oXdd^gH`?9xjw3x{%meZk#5^?
zQu*B7_p6c_y4Az{J3f3kd5U5nD=0^JXl7Ga@w1k#QqmXVE!%@X@3**kF$s>3Qq$uL
zcgM}sE}!YKF`k(2WRurwm}fB=V@r<Uja6mh(MY(RP~H^7u<Zb~!t%JM{9me2c2qmj
z2&aC=F??CFJQwjr`4AN&@T(1%hJ-gGgM;%xmC@khI5wti1f<2}FZyNQj{_aBheIXR
z-F)ZH9pqE-Ywy{;yVZ53QqT4rbnE+1oQQ@6xO$!9D*$1}#shktOEG7V>njE_2#DFJ
zAYf<}v5=Vf7Q8zXCCR&9Z{4D&^-}+<!J(vSnkA>fcJDLWGHg?ng3Zh=?%q$`IL$KM
zYtuJ;Whn4|s(dEXA&vBzxrRRrA?xZJjUum@Ppw%oABx;-bg{ET5lsSxmm#xFhfwm~
zz5ZLR$9n@ObGn;s9@qU9|4n)6e5%;s(X~J*s1BFEx`bDLL20`Qo5Y*-F3q<1?=M-A
z&t)gCDCl}M@qbN*^P5=ya}!3bv_hy0TeDID*TejhT2V(aa(T#Z_=#=}GP3Zxur19D
zLS45NW^#h(08z9@)Y<{HIDu}#<}I}_)FRWz8WPbt%o}DGE_eZr08hdtD$1%})=kh!
zV3MGD0A-%gO;n%7#7WR)jHl?^OmR&$U#Pu!3{Q)u&6g%M$WAC=EEywcSaUNi9F;)*
zBrzMtJ0A?(D}5I5TF1M0#Pn%9SXEiO7qQdlGO^$aV=z!ZY+%15;|Lm_Ktu3ZYv&k6
zK_r>=-2_}3057Df(E~Ujn~n_)`$a6>Lm-M}*s-Ij(seC5cCVD%V*mshycnO&N}U%D
zKwQpOk`0Y#CzxDFlv4`uRd5LUK*fYU9RpiD9Kamj_@w?AS{3m6Wd}TbQyuD!kt;DP
zOZm*b=IN!T%Z*J<o4f#@B&zd}w168Q(QooS(L;wyVipdJqd5+!)TPBDutbdVM5cvw
zQ7{-O?!XR`fXL%}>_D-Daik8Py(>`ff1wl;ny)}<AWOKlV0=Mr3I%{bf=~k-&F@_h
zL|vZ_i4JYf)$>Rlcz;u6OH}iZhMrXSzypCQ3vu;-gO(O7p9md(C*nHvH%#f3pIyi9
z<sW=2WluLt9n(>rIGn#vcd1_J<KGXmIl__ENoz^%IZ}NUc3uYF7&P&})622kS4
z>$XdJJqJXkSpgjGv64O@CccBhO3Mme+DZ9^E&d^V3vH%}R1P*HBAkvw_(wIvDd($H
zVihY_6mrF7Pubc&i`FS?{qQ;_<<H7|i%=%+0ES-T`z~{^g4`u#733cF3Gc#f#PEVe
z0#?w3+SsAYRX46&MGQdK<UpCjeKo0-^-wY5w`9U}Xz1$=-!U%sDUkaBVHz+ayh$Eb
z9V+HC71p$0o@xmABm9fTbM;p6gRoe=_j<rj(8!y^UHNq?%Ss{dze`p(X*@cc$V9xp
z2#Et-Wl&(TiO@m7UDqW*bVS13;3T2nyH^eAFBly{0-wMw0yKmK2jBSm_BKu?mdkz%
zPzNj6)iyMMED;4xo1vY_NC7&Z9rjxM=4;sY1OCMtk9+?2)RYvW)h2g;Wnnz(=w%j6
zJDy|u7~F}uVFheN8PYrfGaze4N0pbFFh1%C+s9N+mOYU{{P?xcgG?!qZ;||3FsHh?
z=ik6A@djM8l0*+RSxyGh9W{@l6yz7$=gqs1KY|d0VcRyUjA!O}_>l#Fup}FNO(%4W
z#Rd2p|8K?XI!t>wY2gsx$LoUCm%!H`u+%Eg+>O@?Pc2G=dPXk%4OAo+9rE23kSG+S
zS;ymV1uTkW<6+n&A+g2g$`08Nu<n<dj)idWa43?bw-ox;=H?^_ABp`Mli(q2{gGN-
z)KWa)1rR_OWHX8WAa@1W&kc7;#hW*e;hKJiv>rzv6DDJ86ZpI1CVp{|x8b_b>Yj!6
z*7WZYB?2d&`+B#ow>B}(Di^p?{8;+MAH}Ubd%oIK?QVG)+bXg2tfF?sT{KnrXWFqF
ze@pgkIB@mlx9Ow7(V?^%MnMs5Cig7waY<MG+<&?J*{fHbw@XuwvphK`TfJ@d@im(}
z7U3g3wL$GRZn|+vEsbIPO)u|y{&iY^zUuU^4-McK5Xu-);zKWBQWcBQ%RWqL%q|t*
z5<DCj(l%UadYM^>VU!OaC$}7Aq5+bzaM~dKBMM)<0HjFfLuf5B-gsUeD2Ez~8sGZS
zB<MXwhu7q3g1!+}Eq0%~6x)%T06xSL<E8ig`wL)Cg<($MU@dN8)}RGBSBI-72f2Qt
zyLC{ZY|R^{Vzv3Zo1qgc6LYp1Jy#{ZKVqvGXN0@6g1}xE1>4mj+eCAbclO@&G8QQo
zto@No$Fu%7I?2vjrvERUB#>CGj6LiGUA9Y4P2F@7<dHnobn5DlD9D1IVEgE(C_f++
z_$)+;i2BRHue@pmisrvGl32E*1P4gw(&{P%Z0qPDOyJSHhd3r*%(hUVLVyV(d!L;+
zP!N>a%x<hik3?p?d$2u3YJfI;Qd3il*Z@6Yya>n^@}>vZ#*Fh0TEl!yVjYR6H{vfR
zh&EYE0!f|QuZi>|IN9258-T8otz0&i(6dAOme=?T)Ce>5Es$Fhu_2Luk`hMt)Z>SM
zFl9jV7BVUAyak$+j3<NZpmC}LFB%Y@U)0l#wk7ohia#TYA5o6imHd9Saj!2t?sWUS
z6%-X2aNZ4rG(A{w<@PsnIf#Z1WBN9nod>nAq9j6Mm)|R8!rWfIw~0y3-oAiB*52Me
zDhSzk4A4HaiiwHko)nIHe!H<&;qb&)P7NnVW1@as%w*PAc60xF`TEdbAK~W)(NlaA
z9_9L?tKRxcmaksC9^_b@Ii9G^XL8}l)vZdYnz4b>f@d~7WZL3!nSDAv^OHfz-!dIM
z$wn6AmI15zzv~j*@5;V;8C~Q0<oRO<`#@i%2YgmdEkUehCY6ou^TsI>al3?m?}+F3
zreT(eWsv#k#w*Bzej^BpRi)%VhoG&1s>}?|UYnm;*m<E!fKq}VAsNdL7?rX^@SUHz
z+|oqN2cS1TUa0E#w73Rh^9Yay<4!FerS8BF2(u-p?|;MK!MF?QzK1)a1Cj|6w?Q^5
z&fzr+z$@jCg2yqnk($~Mm5WHPi71u;X5bW4SIPAQG`tNrp{A)x5i({!Kz7!ikkAsT
zA(0MFPfrt}qs`14xi>xp9i>1e-5-vfZu(e6wh8h<4G0~GX~_>KlXW%R2D3kZvcj`L
z54-^=X3pC`U(wqPqe!v<impMEMZP!UQ3|@uoug46{9uew{;;yLVg@piC@Kj;2X5kD
zgzky*$=wpS)X5(qU>IEPKy4G>PZK;hJRCr%Fe5Tmm~fCpjzys;3*E?u99gobc$N<?
zV`i^XAdmTu`0`7wWk7*GK>VftqOBg+3_`c1)~d^08T(*%%G4d3m{@6D(Szs}8!i~}
zY2>Co-@8vZ&x8u?4(0pS$kz7FUx(kpPTQ{}zK30qH)e1=mUsSmqPMH4ChhmDA}^_)
z*S|NCj(i#XP{Zc;PLIzD$!FUvL)5}9Oe7_1{n9DIOPCLV8DyD?%F6qNgtl%A?Q{-*
zpR;=PiWDdVXhjqh6mHcs<RNsPBwa#N31pu?L3mtAS(%?n`#26E)#O!94ErHdN|fjj
zTrLix5FlCAAp03%@XuE~{`1F;H}Ctq2yTo8HakKAQ#3;OfzVcVC>WvV2d;u)l&AAf
z3J;-xQ7kCKqb}aQOd4aTL^p3g<OTB`)~+wM-b5AcZlla7N+m*fhyfDu4dC3ki@`(b
zyC;<261Qf(aOS;3-Ws^4P5=CJ5gKcF<SJBjB>{wDX<a1lymaAt>zr`z_7^DUP^6(+
zQ}O*wBw~C})`;?8!|UAG))vv`1Tza{rd-V(Nb5x;Wev`C<HqRC&>WiB*M&HHkf{es
zCo$)FPNW1U5*}~blKKy{VP9aK+>g*^Na7$=gu>2TOhI75<P^=T3D@*ZG<57EXMOvn
z*tW1qJzLrr@9cIjH1i$*#G0-w$M3&0w0%3ADZcK!G$fvJ;N~<-Zc4T2L%W`m`~z-V
zdO~tEx-<BUXPidg7oXF9c8($U;(6PusvU#bRT8ak3T#;?T5V3ynaG<g7Sj&qT3UR%
z=<Ow7*%zeTd|OQ8+J5G54^0dBEh1jsI;%$2yfX&^{ch5b;6Zgj@au-HdtgPVTnvnk
ziD|(T4ajRh`X-1&J7AQ*IrHh^lP7F&1Eu1mgW4J0JV&LcYV2{1f|pm}Mg!b#Grfm`
zWVawj0P^cYSXW9UE)eZ^bn;0IT*j(USh4`2-9vpK0@r>Z$s><}s*+J0tQz5QMn*=i
zVWkys#3;)0%D2LHvVsBVI5%cQ&?8ibV0R2t;zA3Tj7}-`grh(H#JK+x?AcX?Y4|bX
zQb9T)D-y1fGl#%5!ab1U0(~Y~3IqJ#4<p4PtY8LrNWLHxbWrz@%oQ-GXh?~8jVHWW
z^I_@{Q1Fr9Z3+PVV%ghq`w^OWxA{$w2f&i2@B^b-D-sm3TFMM5rEZA6Luh_nG0~qO
z@)J~*!t@&c)<-pLB&{DNA)K};`RDZYuVKSe=J(F?bQIvoJkuOs+`W4`^UKM!^mObR
z^@8UEd3JU0mCv57uSr@SUm?<SBCNnK?Go6AAZsD%HPA4T1%YJslHEVOU?7n?{R&4{
zV0N}3UL7nqQ~bn#l~(APcV<VD@L9)aUClSPXusJRHPz{$c{=k?W4*$3LkjzPo+B^&
z`@F{_jk^PnmT0SnWOe8I78kmduv5M392Cpa$+`z`rGx}YVq)pv3sxLuE^LoMqB@gi
zFH@-#MeOnGchE`^Un4#lHcN$j(5Id{cTRFNStjw3$E+N2fk^#bHpk1|fLBZ?9BqiH
zxw#e(kKnAKmSp5TkgLe*Y=qSh;;M$4nmd^C$WA%Dh)UVs#G;9uPLz%NC<QS5Q)Ps4
z5`8Fu6l9=GA&7$#yXDjyTRS0MBq@<#z`)zQ2D{vcI6nyMQZbF{<GL@;nj+W~belBd
zBi()uIKj4g4<`%`AkE1IjWCX6o@SS9i8simeTf7geb6mTLE|5;R&#N4r>oeLDFcs#
zJv0Rz?RI$h@g&IY=G9_B93e?o$3S}~Q=4VQ80+nVF-afB<4>k+@GG(q^ob$86cI<G
z?8U7wRN{n#s6@BYU*qzct-V(4e&ECbH=|W^7rhx(>Q&m@6wiI@Bkx{yuw8KU*8E{~
z?D?^T*LnSqbp!?+zSxcGHVZ!6lHKvXYs{ic(TLG_`|rQ{6}A<}-9`>M-{bQMyM3F|
zv-Z!c-~Y@k1W(DA8kB|?jsS=Z6yUmX>(tD6Bj@rr?Y_Xif!&KOUtfSzZh$ioP&ZLC
zAk!LB7EV=0%w7(eIe;9{Zl#*OzK1XdVir+V!hU<6%AWMJv;vDJMj|XikP`*TvqYDq
zHRTFif=G3}nu{x;{UD2DC%ft7&qyKg8h14nh8YsM1j7x4uCK5*npRLhEhXg<;x>R-
zr1~g9m|?y4e=J0<<8${nhol|1`aY0K6r?*?Z-I}Dbx-#(=quSf;hy2+Q$D>FhfxwC
zRy3%|WV;gjPi&cba3d#vGo5;;z7mJHcnl5!GDBIv>caLad|cv$$>cRf2~YhF00ZA^
z@1yW=P-A;YxFXJZi<cBSZ-3yd%lBOK;LS;cNg9nME~&Ylov}h75lj-*9mc-8z^REc
zMGb5;xPz$N;JCOzd{DxOyzd<X$qmz{A0AZZvNfP!Xshm{WM+jAmR`S$Zy}6D5{Ol<
zg~)UH*HkW^`{1fVxHE%M4T-E1+zi<)jCVf`ai3g)Lyq$`O50Cs8E;k%So;0G^Sw6R
z;~ozMyMMB)lw@rAnAsj$540!idtPxjXIp$2KiKo3voi#}2nmin6SzC`*jxp|yHUr?
z!GUXn*<(g!?_9#8-=({PMmP|a$nel$jOf}AwT<CAs<&r81k3_aJ>fVh3j!4Ss+4{y
zL?+>@+{Y$4Xf9K2+M#gA4+wekM9^|Z%pvU(UFtd{3Ub-mQbJ(~gzIUllhnUL92_4?
zqGLFS(F_~pU7$oX$?WOswZE>J79JtE3<=4}ufboZ+~THyNO%O-;14beSe=MV16pt=
z!JKHA@e!>e7L4KBD1uoA8<_y45>qr$&ykc~1XAF6#riTY2%|lIO>o03?Uk5l8tl&e
z@kU(59{35NSsX!0YTwLmv=gL0Z=Dq!#vFWnN+)LUiAjDu!9vujhaUR-gBzuyz*aQC
zBE<2D21PF4eKXsMFf?`ZL-+R*30(2UjW2OCAx!#2_we)vTr5t5CqIB93zq6r;s72;
zM|u$_l$X+B=ZQ`(G=WXHfF@ZL!ZQbVl<ly6QT6bsUe7h|?}7bQ&1b?_y1r<Y>rVOK
zUdqz)9vSBqE7%v3wQo%-h|R`e{_ptFw;i6M+nV`&LLQ0l1N-rE?p#Au->n0CUECV2
z0^_gG{yH`JxLZSzFUqHItaay|*t>_`iF{EHI(^ByB4%9n%$OZQAe99_WJ1nI4zXvA
z7?JNI!W%FVnSbeoAP?+x?SB{c{?3Y`^5h*^MzmORXDf1zUz~yS8k#M%@6a2(#JwUd
zUWzwTcmA7p8L%I*nE+%-l>!EdKdGTS`v?<;LDhXo;;pQ>c`wkmDI1X3Ou#!f+Z^_-
zS4zbW*zFUN%S{Uj>O458BLtceey#v4$iMg{kF@}oAUkOLCl4NM?k};+(v1rZ)%yCR
ztaPRYS%8>t6@#_OwxeYnLGgW_igv8&-kC^e$n1A#fut@KIwYV*BCz<v1*wSEH*snL
z;u3P7L7Zpp*eTHjoe5|Wex_Ucnc4)bfoXv%W9%k+KU0tckcr{ZC1Hh-Mw4Cvttb-L
zB2fJ+W{;b&<o=kjyO4A`J$JII<nRARk!gu5qdD;NlWP#LWU%q79v)H{C-mO^Dl08T
zP)-A8Sdvl-Eua}D2%A;06DJUV{Tf0_EFq=EoZKE>Q2O7snduSCa4-1dQ+&qHf}?R6
zqZovrqomOMXMYL{tpwd$tY0Jz4ZQ17NRPzLZH<@So6uX-3uGz{6_jiO25){HiwE%G
z>v31RCVjlUXIFm?zJu)%y4jaF;JLCd0uF9`^JWw{TngZ7_^2iHZrFgLg#L~M`dY)D
zp0d6ZV->%UqVg2XzqqWa-{BU;;>i}c;k?lRAz%>~SHy<*8PS5m&u5Lzq?q3*$d&@2
z!H3c7nEigLpU;7EOVqo3I!}?0d>__epmiiA0iTcTAqQlQhieGQ;(YJKqL4R;iB}s7
zLa+o#3maM{&Ws`k8{Y@cwd0ruk-_x{##803P8cLHl(hrKd)v{Ghzd`J3*dWDa%Q}5
z$67c!+!ml}7I=njvJL_&2oGB)+^%-}PQh`a7loV@OFEwzuHZVfqW|v>%MuoDfBm}k
z{<Ezn?TAiD8A-|bzL2+g;p9WgqU)Cynz{e%;1&C}Iw3sQ(WDubo=f!*%V82V&cu5?
z_pUtbx-wT2RGV6_F_3hkQp+`zHA?>c4++KxjJ{79>VAFw;ifS~SFSU4riD*1)vKXk
z9ca)yarc_}QUyM)XE}fSE2nx=v#e(O?u*?5=c<K5;ZR4jHU~j4+GwD_ko(=w&CRvQ
zHezZwS2UjWFp1@Id?jOiYD@<ru9D-c|A$iPiA}ezGgZ(@PK3{<$gj(&pu|Yg>P1O~
zxmeTH(?$4tZJ|K3@`*^H6A|l_!^w%KX)Cdsqx)Yf>Byl#3*;8!HbU2kdEWHOl{O-v
z7<lnqdmPUR_J5KQK*X{+jN=1?%q*OO^AqXuECnf`BY9Jv-2iNjbIZ%-il}ubC;sFC
zgLPyH0ccHO&%b}xau~-Pzu=DJB!v_$8TLeYd)d9o);NqiXH;X#kP5tE^Y)VnMaVBM
zwglc2EADi*e+@O9tfnMLH?YsWZnKnlw(Hv4)t<hCEb#C0m#v^L>hPN4sJWF>bQN(<
zl<Et&sdRQ;ggyw9(;Glg#IXeV)XV<<Xf#<&Q3D%Z*4BDMA`^h#MH9I?1c}CQ^cAN;
zz9<t;P!B9&f`g_W9}W^>Q@j&C^&*hoLP67lCJ7LZDU#zLvsg!9X{e7Iod(?-psFM5
zb8&=@7PdFXr6vMOBSJXAZjlV55Ma?tmIj>|yiiEw(bHiFzGP#Al-T`5$coJuYDi`P
zMzTxfVypUPB&wTa58@S>M}NT*GO9?FAQ;GyqhNtbb>!-&ShVFZo5}0yvY^ExUR8AC
zw}Yg9Wjss23uosX(#*-Spvm{yEdUX?1~LFf)}UF29=#4HFm5QRAdrAO=>^cvjF=np
zoe^P-n@Scy$SwT<o|>f1Hvvl-3LEJn$<#r{z7XRyTc%|<=}MQO>1n8s{()w;F2}YJ
z`kBWg+jZ|}k0IcsQRAr^MYQgf=JBIa>4}c7&BA{Og>HPV*;hHtXsy^samnWL?5FhZ
z>vr0`t-tKXT{<0a9CgeW$=@%=yQBR@oXYnj;q^-o#r9s0`{LJN{k)j%r^qx3M|hIo
zoL&`T%Eh;XWi>W3*f~;zr+JKJak~PQ%Zt}-G^KItx>YZ@{U~_B8Xm5d-sK*LKH`5C
zG}krX>i<>DqdeJZcu0CHx+NdscoumaYed5g4PGrGhtLjUsjm;*;ecCw3fx)9LQ-Ip
zV5uXY3CESB2wl4h%p_8HfT$j`1MwRH#US*>+{{dKm_t{Cc)%cM@~N$@<;XTwLc{>#
z?-D?zVX)mtH(&4>>!0vebd9N~xgM?%*t+?a*tCKghxbVuJn$vjQ2f<{td&Qz-zD%c
zZVWyf^!Al+YYt@$hoUe)4VS~b=`e<23d(#s<6Suag;Zbt=;Tpd{N%*Ds|k-ak%k;c
zAg^<PX3jI?7es9w0HMk}%V@Fi#n$b-??PG^utHc34tkS=?$ydalhd&hAU-TO%L|<&
z?MWQZS>f?w4reGhI5|@qOMo2#dM#MQHk$~FTAa3Wxc^a7NS7q~O%6%P%GQSFc+nY$
zUv1Whhd<M3@aIJsrX`nWP5E!S&+VJ%ou_y3_1zCm!?S7E=A^4D&9I-Mu9?A8dB-CU
zHYe?mRZAHk+uybPv9Pf8mF#epU6Wk(8DEpAYaI~5-xLVZME>$hWPDxVf_QBn)oa=B
z-NkaRi?`HuC2Q5yxw5txPd}eq;P{z^LA|*zIPSAuYhW0^cPWo{-=iy%dUWl$UqJ*f
zgtC(fAfg#?R`96m*l(f)d|pQ84o)5hOd-r@_=lnCV?qG9P2UlCF9n%seTeHDM;iy0
zhCvbwbv9T@R+t=Eu<wf%Sq=0UJOb#GzCMUmR8-Wgk7XUj>;C^+Q>%F_8W0|V_t8`F
zL+!x>$1lfZPi}4m8}I*GQHy_p74HB?K{YSSkn#yA!VgGC0Fr~13r>I~z?72NWP*xC
zlB<B)17)k}?$$vqF(Oee$fyY*v~S;CJf|8GPuQ%X?5*kS)I^|-KTK)?sBC`74p-{a
zR}S4|1ImTS#L2&eu=nug_X0$wjcUWs_61=K$on9&<y*6#Z-Xy(9_^9QAb$a7JztQ_
z{>WVOCtx**Krlc1EdQ3ftrP&$VFc9UM_w-}TxFmB-y@-Fvhef=e4E0sDFX@=xtReN
zD*VunYyyx?;?Xh#aZ6!|xQC5Rj0i}khfV~+PHN@n1BSC(0~bq(rJX2cfEW_I^q}D6
zhsLYbtM@QxV>CDbrydNNWR13F%<(FILPG&Yf)Hv=WN@|R0P<3B$}s!uaV}gW^6sNq
zIqM)IFqur~RdWE;$;zyp7OPIn#Zbnu`;Am{_MdY$zi)J;CSEyR;aGWCRd}?2?y}LB
ze*RFd)e;uP$R8&uX#|Id*S0*)F^>+)wBoRO9Vj!wc(`KjV`Js3_lwz_0T$nizfHvU
z@5o*+c++wQP<5WMlennRK<$}#_X1tmGPAXIRm!{6O8Ij|^v<)aWsf>f>)F>=KaW4o
z&ia<hRypH0-!cHa#@5ypfQaOj!C9ct=Lp^r&o2p&0c}bSI+7=e3=JMOtTVLaJ^l?X
z1NnpaO#-3R3oS^X^g<jtAy?6klA{olsT+1Jc{LAsLbTl)D;7Fa_4^-Ctt4*1;5!7u
zc~~e%a?{cClL$0OFi2X!<Y}y%!`w&!K%1T%Rp5<enfSlF9;uND3G4^X#^Szjm7#g6
zo2>-%uaYFof7BZ7Xhg{o1R)NJXCC(E{R<LCAEkr!32`kgIMWV^h`fIHE)*wJcsbb<
zP0}2JS)In=2*NN0VvtxVcf+S7X$fi=($>Oi28JN~#QCo+vTABU_<jX|M?mxv>KY#2
z&wvM@)MfC(D*-l_ir8+zMx>gv?cU89d0gF6r60jm$`Jy*1-alA3h=e@4I0rtU&r>Q
zx#2o&NY{HxVz}{tD}a_$R8gsY^@`HdbFF8|l~)k*-NvEK@K%FJxr>=8)BU%_CxI#q
z+=%Ud1+f$^H}NCkd6)iap>igz;#TC0JoRnocohx&+bhH?3<1G4hu@-9&B(mDg&hm<
z$q03_@xu7=X7dp)F026&-y`Mb>*uE!HPVdX0QPMt^h;U~WD1We-}E>pZho`in46%e
zR`=bea}(z}8nU+zJav4n-%$FP<@~{>O;NVd?kxV!3(J?1xLHc%HcEKL(6}<yCqI)f
z%J_IE#!u9s@X8iY3`JMoMt}X?@vNdCMB|~n>1B(Sp%3@-y9!h8Sw8H6;~<CBW8|>{
zFC^$<)J*6M2QM!#(p#l^Rxq_#0=@vsm#8xMIzZyfw%fbb{>=PSvFa4!wCg`oURr7s
zcNR>dVPRq8H|1SotUr_p0!u`H22rT<IL}16%YR6kH8JJKYkVje=5W!E3f_ZyX$P-*
zo<z1c$d8jyMj<GNBMA0CLE#IzB_&G^{F>)S^rQ4nyBSI-_9^-_AMM~={=aB@4`{Cc
z|8H1BX_8POS~63FvP&U*RU#o<*)uB?GK%a?c2=^tG?103L`2ET3>7809<T53cb)70
z|L@;*pZh-Nx;v+H>iZ4v&*$?R&*x)3osLZ&><*8Kd{|ZxrzQCN{kY1;tnFsk>weE_
za8NE<XWA^xAAA-(z<F^^+G{VSF;=zar&E!w-??5kcU;w*k`R)yI3yww=NGrlT>OFH
zJFW|9b#5MZ4tDVHG}eWQ%SDHud!^8Ly3bok*;@HQy>q}AxWjFW<v3zVAB<w9nE)2L
zwN-ILbzUUViD0G(V1RML4<IVqAD)c?deoH<^Yke!?$g5sZ~}T*Twt4V9wVuSL}J11
zA8{mXaK91TKdMxwyEyA`kzt~-mb~${#|ZjE#LyKEyP7u7JJ2_aSk0bOzB#8Qn3Nvs
zc#yp0;+A&Z$_8m=6PEI4I|FL}+>h5}35|`rJb!wvIx9Wv?r%z?${+Uro|#gxGvVLH
zbwb~$G_+sLKK%KK?F**;$?L_bo^ka0J301UePCH{J?+VD9cnzF{$C;6Jr>xf_qH+$
z_@gmgAbv<Z7d(qCU?4C_hihZD-jTJDYY$Vumd!vJ;}Wm-AC$q?=bcz%cb&NiJJZXT
z5eM;35b>}VE*NZP(qvLxaN@;Dfw7(A2#i2co`K&4`9m)u7yH)eZ~P%+_Q;1sEcvbO
z`SSOI&SXaVYc=XFVXQ_u5xmi?cI*>;Eq`ch6W^(M6^``n$Wo+w`pah_AyBg6an<w3
zf+ZQ2QkN6BL_hcSM_a1(ot$!r5tMze+MdT~$QYcW@lJW%tVLcUc2^pHV3<^0z3&fm
zL}tArEh<(p#Rb1+>~lW*QN^z=3%sG<J7m|KOp%v8vM{O<=)Zeai=bOjhPVXnU)W4M
zANVzL4t0w5C*e~cwqpn)01HTn;(@>rtRJ~)L^BPH0+R9QJ1?PfZ0>DluC||wb^IV)
z_Jyg#`k{f&NaV{0ZJKtoGW><nEIZtO?U!2&+<q-5BRAlRqdoI=&HDZiUX}|T8pGA)
z6pNYGKN+25tTt2|Iu-9XSXa*4pK0rA$RZ-1e#@Ma(dEQY{mQyOk4H8Nye8V_UaR8l
z>lZYGAr0-~;M|V-=Y)S?Ac-~A;9iBeXAjmdN)PF(oVt9mX}?3VA`$p(nePAlrTM3&
z8D?L+O}v{puk>!8<+nZ{MTN-llkUsMo|fOLT>5lCUae=_XSoe;nZI?>AJh6;`QnPl
z*{KZK7rx>LL=P6cbZumCJ=y)p%kYST#g+EgUEL8sOMkyjd?5JwfoemLni<Ebhb`?~
zb(I<q-Hjz!Em!>`nmFI)YKIhv)eX%LwD!B)xU)Hv{v{5|KTappCPIdu=dc>&T-P2r
z(E4X14iX9uy2l?eb`b(xVBdjTNB;^P@Va!~>f8n|$4YskIo5Ff*T#b&oavm^O<vR4
z<dJXF&zb8SWBSa?^{Tf@QLzkm+|Ro*lor0D<(d2$-?e#(O12M;0}S&wU+Q6GxW4jv
z;KhdcYneWKYn6s0clTctQA=})JfXZMjZR*<U;OFl!}c~a{&gBxG(^T64<nM%`mzV&
zIQ1)6?5sXkN+;$xn$7kkQ71^;&)02<4ccgB>sGL1SE+U9<1?M!t%Js4VduT8+S}UR
z;$moD0~3?`Z<>JAq6u%VH)>W^oI@hwr%$hp2`f{nS=7X{%bn*qcacMt%KN!w(4Gzn
zsZq-;{mz_EjQHU8L^xdGjFk7Gfwu#;gY2?`yv2&O|Lf&HOKX$G>bv{AoZ9}+jBS_w
zo1nZgv!QcJt#MO#dw+EqzwFSkTl`>%q{Tx&=MSp0(Cy{Xl-1j^%*b%EJIBjo+m`S5
z<XLB5<fX2;C*d%Za`EInk(0G*TITBZ>c19#CtKX@e>vS$ZXVwgwU9YBm-jg!s+eJa
z+<phw{(x(v@4j81xRal9gd&bHj;(}eAqRetgh8f_Qcr)?+P<|OTS`_iTs}Y;M+6Ad
zaScB4l-#hPBkRzS>q5KG5rfbsG(AF>V>DehQ`$B*K2X(9ij=l;66!cXALha&r=)bm
zdWX@#>A>noxY|&14a2ZEJd%Bx!qkXvI`9f@5$)(U1cJnX3=2iNrP;`kWmJlQC8i<H
zqrIL-nGxM(ss$+r8%kPZ6b=Qo*2LeSnqPI6P1<(&=Z;&}8|{BRH9osTIH8nI`)$Gb
zWQGgcpA5%t-ws$eXFfL-(x+!+qq|pWZ<}Mg!Vy^+`R%q>xvoc7<OU3zjO^0t$P4o}
znl{jAr&DTow!S5L#Eh}?eVT2-*H>F-_vnbY2iz{-&VSfqt9(RBq4jM)DZv@Wr~;v$
zLdCBy+h4IC6ueVhZSb;HE#F{tghTkr;^A!~CnJj;3ZmBrMZ>t9m%r-xn)C5}67K%9
zhv?Qoo0yCKtNI{eDNr=D9Fn!N;sxzOVj_*zi%g7-Z82dNHxr^}xyuF|eb;74d3)2G
zoS1kfN;f8xdBcYW&P4;LXD{z<sS%K`dW5bMN|!9OFupSilnl3xM-nxkky#8tiHk7|
zoYXn@?rnoR>?+_9I05UNTms{kfJgbjU#zHPylRX0G}bwB>W_tTQ}QU;jFlcfOW&6c
zOvZkV>#VV}cb{@MGw54yxYw|BMMy?yYN{waeJWk5DQ+^((D1zb{mc8;hs>n!L>faO
z?gU98-vbVkFnBz+<!dOsNXdNtLVaFW{0RT|)M3trlkStpn4X>ZRyf&IVrz9q_DyiY
z4fnNfJKanY6Qmt33OIdm+FEcT;nf9E!|c`HgL{qMZW4966Cce=l2uBYdWXjtrlV}E
zW|hSHg#TpaUEMrX3(q0Yg2R!rXU~F*xm|2O$Eyv+j`W7<cir7Lt&m;E5}%wLB9(IL
z%$c;F+3EfFpGo%Kr`s$r+`Q!Jw^lRs)^+d;#;RS887V2=QYjqsH-FYFHacr>vPZFu
z6at{r#;D8xS55(fG^vp?;yxN!KS}&{mZeg_9Arj64xMgX7u+xL3{{@+9?!70n$#=q
zIk6X>X9ZFpnbua%mCC2RqGNH_A}QO#C9EdF-AeYb?Ltw@5Ze*X>X)vrejiT0EqRd=
z#rBhhVVto>_>t7np!B>$Wx9PWvzRNL%%XDV#rA&rTFO_S)Ia)ihHAX5N|5GWzIfMK
zAPJ#RY?HfU-=8tLwtbT==OK0@+eK~K@`GVZW>V|gxEO6rOt*dwv48!xyZ)u(E_<d(
zyJJ7Q4wef24eCCIh%7K(MHtb;87Wu~u*>XYm7s`-wR7Bei%;E>tC|}I($jyA7+>8B
zcOKwyDDED>u3k`Tz2`#C5(HL=aQ!*YAYI2WaA4r;i9j^gX<)@L#S}yx8GQsFgFT2$
zFr&|bJ7!dE_Dy{q()7QRlwa7=_yuDSfdpf?@HPNYsE0|)kiuVMWP^+W>p`IFdS5Ag
zR{M}!3%C#X!*CeU*_f|}CxgDHV3EAp1_!=3xIzdBYrtM0Tu5R;ha^;kqetAeEYuxv
zkBB1r2xu&WTibsZn6E8eA)+4e=1>8HKUGSW@Bj_N@m3krX#oJqsHjjQV;Ct$^NL!@
zqtYFsWN-lq2F6lAQU)C(L6h2A&vHiih;KH8(EIy`-k?RHCwB%nN#3%e%;wZD5iBvk
z))x_Q?{HE1vTm8<Kx6rjCmB`^RT;s2^Gi23u$M^}uSRnx^f0u4Szi6ko+bI}@YMKT
zr~HZ+t1_&{@8=bCgzd8KuWfwRO{1c>vFcuahZk#HCrmrM+qi1&H^=B?O!O9hnb;o8
zEGA``+h~Dc;|)pMDl*-+QHW}Y%D99KoeEjUV^K+Cec4)T&BEs94o$no--gOF{wA}l
zR}Pz5u7?t|wZJf>aG^=T$D+0|P4ugo*|qzjc~w@`!9R^&r;cv@RmhgyHlMk2U%Nk;
z!(zt<uIn+*oL;6fG8@2^Tt%in(gBfPOlQ6fVAX4))(p53vAy79!<eHM*w$l29Ipv0
ztQt^#I((mc_u9x7%>>P7Z|rYrD&d^NC+>N~qq#=s_u{My=%SX(TXB{ue?w7>EK0O+
zn@FzI@rA*~y|S`RQucj7c;%K67a5eWnk43;o<kJaB$5@OaIlF-jC!i<gxD6%y+2@m
zcn8Q}JZOWYezb%;cheq50u&ZAFu#zxx~impVB_eTi%@=}`&7G@EQRlkyi9=cBglhB
zg-(V4fJ%=29WwMxfb)@YrkGOz(ykc=C$xS<w+_UKOuhz(y2%T2m2@4>Pe=_@-6A7|
z0q!XMAD)-{Q9(pBgg)vm-l(CWK}cY9BA6(1J~T=kO(6-ifCH5bK1RB9GtyI++X_jJ
z6H?^K)KDM;gf+rJ1^<wGmDbqkC_k_#XwI=}_2H<7bUqm%c5bO46takFx`n`ZXj4;B
zeB=2dKe$gycer_P1w1$kbT8eYA&`iZ5INPVZGanse@8NdUfyy@_9M=$Ar(0*8ESr3
zx?aDGqztYy1$x#R%UZtIH*fAr{`SRrllIP(qSjqrYhTSi2|%sc#X9zF-=pz;_Kez_
zb1GuLT*_U$UGNBB_P4|N>`!#;7VLXH?IoEWSv{ya?U-3}!q;j0w0}oXmbq`{jZ3cI
z9!?zOe`I_=G~V00Y>l{%TSR%!EVC4q`p)8)${h_Yn1t6#-MjkavDDlhp4{DPDMdRN
zg#6BDTPeT$O~0jqg}+pNwSCx_vzfb*jq|9coNg5D-rLS+LZj~AKNZ3<@!s^Q6SCj{
zW{^lEc(aZ{UXFI*4)hRc6)<q1TI}pi^M{rDR~9r!e<725FGMrynY;F{hxFtDN%+;-
zzbCc}Dx6J#K?vFL3uhHZZ66R2D7k;V1HcCcCEPEuw6OT&paHSweMZ5*_sV}7EzxY*
zvIQKcB1CV*gazD)=nKIV4nfKJaMTBi07JlNATZX!AA@C*w8t<<hbChml#V*Jt{32&
zipu=W^b|cJ<vx&07l;4C*R}Z+CM@Vt?GMcR|23)h|D6h3?Rztg6jV*X$N>!Jx1;5e
zcSPjDA@ptyxM-j!hx(mLL*tD>A5UOW(jxTLM9mALX;I2fY~{+!nqM{d7Sm36qoP{l
z4~B)GH9kE2V43wGFRDsiZzF4JXN}p-9fC=zCi?AC$=cqfXKUa62<+E{#(BIj?atEN
zpO7K-XKbMbZJwO-hdwIoYQ4iu+giu-aqNAeY(vW6qrmYkn+}K`U(9&<?Lf`M<iyp+
zGjm^lvHEt%uo9v4?qa*UG37Q%J-h4F+)KV3R6G74GseN8i~H;HlVF5(B2i%I&);~1
z)<x47tXp0M=*h6|Xsr`Fw3eL(GUd5%$~jaCHx&O=F5N=7uy%iK(xLhJq}B2rtSgt!
zCI#-gy1%@kYD84}(o4%7E?m0(K`uHILb}5ezj)PII_?c6&1p&b+e`T$m-2TrjvD<z
zQepk5S$WBC6p%iUvd8cn2dZ*Kswe(u%``*`-tvjO9-zcXhArqbf|{g)+ask5iJ(9^
zle@PZ(`(3NU_`ec1rT`zCM?~&JSa<2K{gw}^+ocDhQO}x!s$x~QbW3%8mKbK#Y4sZ
z44)eU9nZpED8CH0oEPLMJ4rJL4-Y3H8<mx-5~j$RI13`v7jO$nGy$=#`ClVo&pSa8
z2Tv3mRM}_Y;CTUFo2{#>D}4pI7taO<^{_uqK@q-5RJ2-ZAq^~P0FKd1@WO8a;;r`N
zriU$%dG(MHbMj(EoM(6}$B>r_Xq^f#m1G%{S4QICoOsvRq97q(LS8V6Jc7w<S0iSU
z7AiWD00SMWDol~OB*z#j8_QxI|5G{5Zw99o-u0H_lO$;Yr8j-`lT$x$Rl<~@S&*bX
z2(FC4^>VQvULyJye8&OFC*!8Ci$__Ar{46))y*`i{^xG1s4@)p{CC-NfojPOJgi`T
z(!G01p}Zm)SHb9$IWFL3w?INf0euQOuYU=ikz_Z1pbtTd5&hnq5$@1=e0e)HwdMlb
z2D1+(oTzIKOG>h0Vi^?V{}-*yXdUDfK#b2diC4~JO0+kQI#4PZC)aW5ey_m~$A@+X
z_|ul={iI`Ow41lDm>-u9jrFHke@kbsAU^$3Ca<oLZpp*0TWGlSEtl+uZW?Ef+^30e
zS&1<^pz<-zN0u2bvXk9KFAAL~^QP{qnbq`NZ$fWxES`GnCM8Rz_;AahrrC6NoXkBY
z+o2Deehz-<c>adkTrGoA@7;1>W|>m!<>B(A7fTKXQmi&WV*=*B!c%%W<y4Eh&)TVv
zM;?C6*}U0zZ7Y`_#ib97oz|~fMOV9DWnL1E4}(~^bfZg!K;Du}hD5Z>&4{&+#-z6E
zua8Oj{p3*B8~rim3MT3@q1S~6cQZ!T=~-HGTyGnMALckTo*2R0j{SgPg2!Nl?3!3D
z&U-mMHAQAE;O=AxJ%*#WInEQBOA?<<hQ}i|0nsQbWc>{OAJQ5(hkpXL@BXvbl-Rg%
z8$nCl4k^qUG9wjmFN$w6{s4hQ(l`YJ7=B43EARi5*tm;1Grcgv5AzL*z#*YK_eJIv
z1O%VMRV1Fms|j^-_5jLwB8J0WA?g;?3ke{tP8nwp&(3z>1|!RlBvoL-{7K>Lq09IF
z9~8%9c&QD+%}<|tBf9IrA|}+^Ak^*m&uIl>dkzlHgpeIz{~IKhlvd&VFa*5a)7J-4
z0xR@%TIVt$kG-Fl$Ac&nj4xouXostzE1UNdVHI}9FyOUy=hrwnPk(5DdIlW-2ttU^
z%ke=vbfU#^%fMA<GN}umO*q-Iz@Yj5B$_Y8pk^pv<e>AV6H;m1D{MQo9%Z31s1v9g
z3}6yj*_Sl@bz_}W$_-w<;r~qxDj1b5dly9BT+aH>X@Ku^vUMZgdkh#G84Vms8j<+!
zaH_AZM$sy3;4rUX@MX?&e}#MDe?wF-{=%_DJKlAa;1DYGtc<+^QhJjOI_~p!3obXf
z?=ACj_J>^XAPCXxa+=LHc^AB?{odW&zh{7fe}TW(!|+7>Goh65yyw;{H=mc@;<g&K
z(s6P39i(1WX1gu#KKyIPl`B<s0vSD?0aJH%SU$>)DW9i3!7K3q>1?|%j~9A$Qu1q@
zN51vmZFk!ovxiKA&j5`3z-VBR&7Kt&>9T*w{%UK&uIp%*FIAOTG$|&mH@;_R@t>5u
zoL43Ovy#`Bo@54n*G-O#BhyMRm09dTqp<D)J{sS{75_6!nCPuh%H9Sgps=SnX&8qy
zu@4d%Cg!-p|3^M3EE_I<N^3hielP;$v!$r0u2xt!ZHsvdm*k<|gv7*u%#|QRkbXxh
zGH`ilQSU&hPJy&L&Wm3)n8E30ptyr*k`6l_RWuQqAObi~r&2wv8cul#-M6YXMCz27
z?SO{>V&y_q<}6}2>LFW5x4!~Uv3f|xp`zkq{CzuN9T-xOflB=25Q~S$(Kg~f`;Y`}
z8&U5dVhpaHIY=(~aR@>2Ls1WfLJvSU&~X&F@^DM3K!zXMe5J+i2*n>*X0Od%P8!wP
zJdJHek#p%h>U1)Mn3&UuDhaMhjQd$z|6b4Y9_~HpB}nUw&WV<lwF4U<gYO9PhEai~
zrldSY>kB$^3+zss8ZQufqXE(r58nCqtr1L!V8$3!Iel;s$DFWc0U11sEoBH9E8^eo
zfuAg0&>N^JmfsBy8l-$HcK>cDZnbq{AdM-+$Zb-pMB)YRU|qG2dyNei8aiif^Bm%&
zFP}a=U}#&!`DPrYAS-(ZOoVB-%hI>~h~iDfSO1fxnvBN>4Mrxqp}|xC@fFGt6xz+O
z#Hdpz;cky@A|LOEp0&v4#1MLE4UKSoo+vV3paFxmf88gvRMKUR^TTrB-q*msL{ziW
zqboeRjV=XHio?(f*GA5LX6vpHHNZF{v<Nt8n%)~!qTAW^dPpNg#RWP4>LrJaB$D45
ztl_>~kS^oP$fn7&Hib@1`K2o7Wdrqd{z{)ePYXo+VvDJwyDhZ_El7vsRNq;U1Kejc
z=VjlrrjKUM*Zo}HJ;*<5+hWM0c%<U;4_;Rn*FWRG54LliIHT|-(PP@hoMR#Kg>071
z(ZhR`lqjjKvuvlQJR)3juB*|fU3!|<XO8{YSyaHJjriG$nAH4($$GKT3Jf+`HNG6{
z(3o74mxTumCQwxq?s<0bp2(k$|HoxC`=NC8LRDYSLxw%Hw6uW<H}tBV?qMbac(J*K
z1(NOyZvQ@phn?GGc=hUOnA#x6BQjKCk3o+q?*Rw}UwNS6>iP>gb2xCpx8TTZLK2sH
zJzYX{5iKKQ3uF)^knQ|opHtcAaaSH}KawOyjf)z|3(X>bu|vr;oSvx)wtEfrpL+TF
zVOmm_k?~8X<Jbp10gn3YNcu&O-oCz_d-ia0hLNgf2V!^@k1rq1o*s%g1_qG#LbbG-
z%{EW)?O|P@16?tB+aF4<NL*QKj{#*B{Dla(CG3${QD<I2fh343Um2ZorQ0GeMvUCX
z?(6A^L46d4uy=^vh+CHA#3P&_ECV~gi@6GWiR>6KVzp`ub<V%dE8)I{G2<4>MeKo#
z3To4stBm(1y=u00kp(yhnN0_A3S^oEnLq4pZIPfEjDDvJ^E+TeZ9s$8!V`|(2KnbC
zLr&?-${~~#P4)E@(6mAQ${u+c_V-LBCRC$jJHp;2j#8P}#2`#0;q?%Ot3IrSrGyxn
zh>{V<8JYY8cN0a!BjtPWq=RuMT|eH(25fe6ilR%UsK;b5Xa;WnnUnR~y5||*!x+Kq
z7eg)E6NGnS+d{4S0vCF=YKm00(lhLe6BtE~&J#x~1Nq+<^IqbA2eqv`O6=4$;j|ig
z%c^jUcyX_ho^fLYFwA^+@3Bt7&r2V_G<0*fUh@RhzGxVR_13S*#(sP@wh59pePdJn
zWha+#>;voc_F%SMK~8eCp9V@CvU3N8BBbPQ7@QR3x&9zGyEXB?sKc?zQ%|f`UbeQU
zjg=+cU~~C=eWJBybU{ARc;d-9U1bSvk+}ZqxtJ%OLBwp>KjpbAu%txr@ngYsDf)wX
ziHdV(CPC)X9wjBK;#sd8^IFb0#I91T^{1r!@U8RELz&)Nb5<Xy`1tnu$n#APudkKh
zU70)D7eDQi|1w$mm^!n{tIL~{WE-@6J?ER*Db(#~{=djhAC){+-7?Ue{9XP=*TFUC
z2Pk0f_;);Sc5Txxo}y>P`CtB<>XeShXBV5P+@Piw=k>m$L&4`C47+FtjL*#cZM%CG
z%jhuj-hnC_oH;9C)gJ?|$HPc-GqZEu3TVsNV28rm??U?qC4pB|)Wy&u2$%9MX|>!2
zjQxL9VOpTbPl`GCQqeM;My4eMj=mF+bFNpt@=XOhp2YSbW!D6q7=bfz^XUUTg%UG;
zN=^mxzh~H~4KOlfUoPi`HroKK1QbkJJxpYT6MPk-utEP*;vsAp)Gz1pFo3u)&=D{S
zrwf_m2}fMe_dXEWEF`@fR;Dy^^TDf~5!|p)^lBLe;VB%DxJ8~}n}ajQ_*|V#A%Hsr
zIzBWn(qGto{!7Vw=%Ivdc7}?qS&FH5ZK1eRqf<|8&sA%Sg5NPchB?<a*T0k1OwRV<
z4DL^GXX#hGP;4is)aLs0^yXvbLg`^?e31!?*~4bHq>Z0TX&GpHOenvOvw64m3>Bw>
zdalYxzTBlhTG0b%yX?A_j{jCE)9JnS^NMBN^025Kop8(rp@WCH{a~8_anG}=FZ_cm
z=OVK)<=xFGbp5q|W5yS#Rn1NfeRLQqkZgRd7_DM@;&e*N>6Yh;TNNE1KgtQrA5wiz
z%e~Q1U|{Z~6u&j^rc;a$vc0Z}Jh<GoMy0cq=}+a}nSSq<$Q1kNf2%!}vn`XwTxfUg
zidMfIx~qm&(p+#B^8oAWB;ZjbVUstq=aDi`yL<PgoGKtvB$Q4u;p7h7Ca@=kAan=`
zd}PE^<qxp{3<JdAEDXifje9H^>$Lm)!e%e9Nt~i@NPP0de~GK@D2>rZmOL4KfYlMC
zLv<9^2&^4%Ojk!Adeq1f@(rT(Bm%4SqO988@?Wl~Y3sh&+YG%S!dWqu=3Pr#YHHF~
zJ10!u5D*YRr8snal1}G%13Wn>1U8%>ONS*ux@G=*O;wFcR^&0&rBQxp`G^7;Ylg(L
zwm^&3TW+2Fp%9Lti+z|TF#8L?-?b!d<w2f`<~iYSU>$Sb5i0^PJYOSs^@Ypo$6yRJ
zL}+G97yrp}A#i38M4G#SnSfYSA?^!A6buvPs8k$K4)qA(4@&q0zNf{PW+73)tVT@0
zucPTi8|L_5Rl|)1MnSEWO%iqi)1TZpOh=I*q=1k+xzBcdpAA9_^^zLOlLot9lx@Ot
z-2F9zIloiqJu?{0?{5@s70mA1mQiL`1)RMoCY`Cqk0~J>k+;&9960@2S7PXBXEP5*
zbkr3v#f+b0;HBTI^l)7N)}x!vA!dt*g?i2(XA?V=^j0=@_vMK%18+wYHR{_Wk0<Zd
zbiSW@?z4FA;xVP;4Xa*~Sw$*pr=P67B3>1in0zlOie+0qQ&f4yh#$?ZJLMXcE^MK0
zC&J_cRb(|3&a^*kc&!sHzy0vZw>hVLTezZ2<%17z)#}a>la3BmJIGYA(y{6kab?Xq
zeWUdrk}fX%k$#9lhYzoTjOs$h2|-FTPWojO9&om?K}7Xqq@ap8jC)~Kf<z&aR4}Ij
z4?Kf2!R6bhHBdwXmiZPL!g=_x-|F&{)h|dui8$PcBOsh^J^oP|^r`3#7dmB$G3Yc{
zNaBWp`w|!R2B0Uvg__9efJt52F>6#Cj0=m4pLcXnBT^6O)aC|H-1%ZCqexRh415+A
zZ2$&@Z9Y-pg6DpBiMWRWXA*ZX%7li-Mn7br>O(kOUhW)V$VtXjp+k8NrW<rR8Oj3K
z5@jib@u3Fo5d_a_cyRhQGEUbh#R*)+10xA{6Xv332jkQPdvFi{18!UdQz*Q1QmgS7
z4TExF3Y0Sl6F9U~Ax(nlQ0eU1^&nT)oad8J0R({L+hZ7VfmMrwISekav+7m(y0whB
z@tZ9tfslPd7chdiJoI-Q3L+#plCBD_z+%Yd&`dvvuP8%=*dY;YLmVyW`3pfE!w_9?
z;7fKC`)m#EsJTg7j5i(<yeH94uI`DB0N%I_&kn1yBHn1!^I0%3WC+<tKv>PGf|(YG
z|5j74(s8-rJN0MEVDkEPGmUp8Ts!1;G<46E{b>AH<S>^_0Xp=ONp;jh{Fiqv;<IHL
z>W*iWSM<a-ok)AzFB~YPAbUG-`{DC;e>A@u7(H6<f2z>V#rWxC>4g2><;<{xwlNUa
z0%hiRQ_A*Ney%LJ`8rOlKy3R*k+W5nBDzt!Ja$)nLK3MzFs|0}oD`0A33F5kx4O`I
zqWg2XT$7x_??va7jI`5ivO9B56h3_`&${LE8IYwfz3q$#%+_;J-lb6V+C0Lo9Qz+-
zqw<E*y8m4tYJ`9j<e~9deh`=$s0{-3j<i>oBZmCPj_o^e;1*WX0-Oy9dqd{MNhsji
zC@`RskVZHG=RZ0Rru=IH3R~`8BrBn2B-1+0Q3HbpC0GzDNjVQ<Sw+ej=rehUjfwdR
z6=^0sKkA9-jCRt|y}()k^?I7>G>l+~Khex?LaqWKWXaqm%vsond<Fa>p_4hldcd<@
zH8yU5rx_!jHy{=UCpf=(SGsyRiB^Sw=qd8=VcSZ@2TW)rU@r=eNI^J@35r-w`!GA|
z!Gj0tO<O#AN!l31n|yGm;J637w;l3^`)h?KCnk!Z`9zC{FoQ<SHAH-NPJ`E)ca_yh
z;L_IC#&DoSfT45Px^l~J-n`i(WU(7avW%WyGQi|wKvAXFiE9#azCaW^^SJK6;Nn1U
zvxTyV*P1T%Q1O<1+}tE%I3XcHe!7o+!DJ42bunC|#QFIz5yaEM!6z>$G!SveIKMLf
z3lS?%-@c6iuOP)apm5;CiD;DMZ?N;<hs|H0I_>T%Hn#IsZhsJq&L`KdAEqYk{GEI$
zx(%*xb1zYM$R~lGqFFf^rz;xdDctwgb|*`e^hPOn?WDH1I##}tL;9y~#5Sg?dimym
zmfXBcgG(e%|Ei&v->9eInonAEj#tDH2HAc6axZNiW$xvR4i+CmlXS(kJPZVL&uE5Q
zN2zE=KXP!M4o)n*A{_GR$Nl8!j@y^bjWR~&$CVj1w-4?=A(}jO*VB-ybftgYdztQp
zLFe$i?>bXrJQ#x!7}f3Bv3F8>M)Rm$vimO15Tp`cWY}eB@Y>E!N<$@tv7Y<qzA#R9
zB({O(;?|hZ&rpY<w8g&qU~M~T`O&Zm=H85rK10%A|Ak!VM;(JFj9J?wa=DQ6yq!Rb
zqa^iK#o^17lloAV-eo%RsHOoOWGLs^I{xJAAqBR7|GG4HjofTpF=f$cco-=ERXv*}
ziC)~6-%;vJ%HK~s_m*FW508w7C){sFD(In)9iQfEJ^v1LaPXN~t&th6B0nQFyrl~)
z-|oG&s|lUv***4F)cddQ=iuU8dOdk&?a_@zpNBWFOo*q~8oHItTn~*&psHUk9ccQ{
z7`HezaOU#D$1+zJcge(X&w)>!i4I+?xf@&Fb-y{QAWQ$CvZ`Egw9IdJ?1X`Sj$QY+
z?;geO0OML(9QW;ce0Id|PzSBi-yoEYkCC_le;NTq&_x0<daQb1JGMM}*UjUKDz6S7
ztX%RRppapx8fW_Yc-2$0g6YTZ{hu!0IN-KA%ir!+C9!Y`=ZZk7z`2|E1EPXA_+@r{
zq30rUxP?scnolF|Xr7Pa-L#9!gGS!f%C+!^ARXiR@`t=yRaj>sfg2h&+HpU)w3xC~
zR`L7NxAB^=akuw>)k@OCe{<xHE1t<Xy+*l|`}I|`>9ENbsPlzghdE>_WtfHCeS+_a
zq`K+tnynuAzEX6Qx0{zo;F5pRqiYS#jW0Jar8%?rX;@ukvHct{Y%~&jgFSJ4Vbgg0
zc$cBnI>e><ORQ2TS#H~^<bbg^&p-6iMa$6h6~2wW5@0l-HSe{lo~oWI@&EvnC;qsl
zfYAV@4Uddut9*;w_Ftj2HIHcz|0^5D!zA%y^7*E;*dvRE>gl_5{t1Rz@^}?%%F<_T
zwexP<kCTPdB7jW<CWimC{e})3EyHepBPx&I-(9k&e`ACw09dKeE<GnELe`?<N1)46
z<uYdgj<p30IRq!DJNy?7JBb`8cbDej+jrY0hp&#F;XSMq(I0ex_TbB%4VR<FuYc8O
z$_Y-l$+o<}bjI?z`eIg_W>{22`^U);;Z-;HP{-6;I|B|B4mZ;2TRgfGTe?Qeyi%+p
zQeI70Ezq-QPxHfrKKu3`T!X%MYst1H?%zk9d}crC{t;(15~8R-*&1Wp*Jyiqd8<pA
zi$I5Y@D|>?Ig&X(-GlBvG-Cb=BcqYB{ULH2=#0{bzkPFxqs!|}zs2&wRXgTV4xMuM
z1*JVD>69W>MU;_ko<XzT++G{>6?(hWT5CN1@9Da_OPlo4q>U3ME{PWhhx)d-W`u<Y
z7;Q>>O>x~coc74o@AoeF`TuL`pU~iw_k1Zg<9n-}kHY-IE+N5!9iH9a*th{hXi3~r
z5ri{1IY~4!oLsy`wLnj8R{we+E8|Nv?<8)3rHR~v^yx6VJ=VuzS{DXcHU#V*Hkq25
z2JHHsl-a3A|9Pk7<>{}Wh{RTBTRd>W{zQpDpr;sT<gM>bz3CDyhep&GIH`-zc|^!f
zNUmmyzvAU%>U?81dCkDe(n~ADQ*yL>L(D~iQ<r7wHNVWQZ0%l7<PqV&2f6KRaE6Rl
zv*xJ6*9RwLEQaTAxAvc_J8fadQx;<Jb+AS<al-MyXPLDZUR`*4u8E3GUf}hqeJ}5|
zjNI;Kef>OtqjIM5h*;d%!Q)5n^e9kgYnLAo*`WPLVsR_ARc6jRzOuJzf$_q@rQ8op
zA4-@0rsq4RR{rhX>({4b7oX5io{|}*{d7nEmqGB9-y!T=tA&3;4L+(@Q`Jg7K78k*
z9@~DQ$iU!6<G@XZ*M3|pTB6zy`cGD2@=5v7TaXtpDq_B56diHGfw~XFXe-1Z(iw{)
z1Oguc0`avi+#q;1#vq@9L#k0|7i47EvhI8AB9>oZ(YXK5gPM%shPDyP?9k}wrjIq%
zKJ0#J85zEnk1B^5)$emv)punGWT)oFT_i%H8yD3%b#r!KP_r+jkw2~7^+Y}@EAohW
zKrct@LnF@3=pf@9a{XM`)@@aEly_J-mTPnhy({z^kN7=yNR^)Fe()}9W>!ageCTCc
z>+q-c+b<3^*&O_}p`7L8fz{IzOcH}$b&n**LXu=-bJDM+<-j@oy#30Ffa;waf7HKg
zj$FCAJa_KziG4+DDH((rDmXt5Y^J=+uP1lSKnU2To$$C2W=t5F4u{Sk+d{ETX<I+z
zWkX}ryTM6^(OnlVKCZ9I;f%98WwIw$YIyC+-(P)<k=$WKR#n}0{hiqEnDN(NbE^t6
z3UCD2|0_+U4demEg`{OHW@3TG%^%Beycv^ZO@L^E?dAhM2q%FYv|7mSg1%L=eeo3%
zEFey@U-|6_a`-ML{Agq<hN^dr3=b1H5wmUO)zxW1NRwb4(iE%yTFggs1~v!{Gc&Ro
zwgIcF)t<=5j05C84cb5pg4|Ow5ghG71RV|XZ*V&X!>^4gpCrZ<{6*8#)AV;|!JHYP
zV}P849<45EPYBX>o*$abP5_63Y>FtcAOtxBG?kfI5w9V`?&#41gW^tN00&%hS>*i#
zb(?m?uMz|loVua8c{6P5WUQwa;6F46WGDp%VpJ0mnNx&ZI?fSY3?@NSOlAgOdxSx@
zH}eouA(Hh#own4XHw-)g3DE;1A`5dd-X#)P2#u41UA|VaA4)pdP0pfO`GpKpJ_zuB
zj*X0v2`XqMZkLq_fg3S~Ggw`Z49FtlCnPhOnZ1NvvkCBT_NBSO-SlYWNOuRTA>7V5
z%3+q1&;F1!46zJJwSh0~7?Rp3NP-8d6O2`gc;nw1u>}j?p?@GW;g6@`&HSF~wG>CT
z9dWJrzHh?ze73su`#e>R42SG-IfOgLOvHtShMk#6<553YbaHh(Q@(fp8*7Gw0Ygj8
zm`2e!<F%^>*&zWLEZK5ehx&OMJ<hG0%DJrC&|dTHmFcH{E6ne_zzw_8P{E@={zDDq
zbZ-;R;|{5qTiS3U%-Uw*vl5rtd3~qlUaI{|lOa#e2`aO-9^SIxZqH21y!-ciRjc8T
zr%tHs62Bt;_uJofmP(c;S?!JeijGN>z3-m$_HFk*HRn_8eadF)C7+1k#CI9vnwRpe
z`-k3&4;8S7-#BrvB;8`(E~4wEuix5(_Iq=>bNz7@#c4C1?7k>nWcEYu$2{$2nbCZM
z?KV3epEBMSelh7Et4Ga-0j-4)#6;52(@SINkeC4q5Vc`J?ZAs;Bt0bnbwe{@52Z0_
zw&9!sMox$$A~A#V0W3*|(=MJ%^)O*zE+;L~@xg?IkSXHI#k%S(G~7s#Ixyr!X$&1k
zcC(=4#CZ@oO@zCHYLnIT4<9yNBg_E*_V)k$Ng@>BZ~unDuK&bfty|aJ+M0$Fj~HDb
zB)K0R{v1dk+erPtgSHNB3B)`Txzhru0S<I%U@7+$83&bIdC-P~m7Rm*oYE$egS*SE
zE@ZE$A7X~ER@Hma5om#w122{isG+~wIRu~$1=6)hSPelD@LrIt(#`Z-*u8D{_n#s8
z5a^hovPe<YLj%7bcq$Z&$mya0C5`UpKP7Tu-Vvk{P`)~0bg~@I2l(m8ussw(3Xa4X
zh{jFW<F^1>CS&;IfJzXP-Kj_?TkI3ig_u-R4{zo;BD(>XZukU^2I;+tvmLYb0F+8W
zXX@hOYpDMRT@2yckVvWf`w<0LfKwQk4jO?NTpE&`_rz*SBad77mvD@UHhl|EMBb{`
zwos-(u~%oCd|WU7cxX5j5PwlAZ=NeWHbVBA5d&w_@!l1VTM@Ea!(&`QVs(ccz6<a@
zdZ1nub7{iRBKwXUrTE=dwVLtq)#XcW7iP|w&~N)TqkSpmcUfpw+ZU@3SF8@@(jDQG
z;}a;gk{6A3Vh$8}k?gj5sEa2IZ|bLnPg_I0e(FE4^omMh2xvJwBT*NW@rcbO$)zW@
z@3ZlgFXZ_@8-J>o<!}yYq)X6Cc{>G{#jV|NzWdnf;DASytXlpy=GFGHDJxeMuT!*C
zDRMjSAEsKnX8j1)GkSWp(+2}7)gIrbx^(Ki#Zd+t%EA=Qr)#M=4(#hX>$++ExwV_V
z_F9y+FE@qxvTgDS^O<*-WSwn)r7T?R)^mKJO}L}8*MY7ta8B@|r`6v0cc*nt_<GHy
zr<RWIy{#piyj*bLc<KEMdeduc*ju&<&@fN8Ubu37=f$Qc>f#T5Xz2T>Y8?K|I(yk1
zqB`hP@#jj}=@=w7Zr!lXq_~%RP%ayy<4}-guDW-8d|qP&Q^zD|n1B2X_z)LfpP_b%
zTAc2SM)SM&7|vK?cY=--7RW;gD)aGK57E-yRF0$pPWI{_-Iw<u7jtYkyp&gQN7O9O
zRJX;Spw4~Q0to8c4@W(px|N@Oq#xJRb)l@)Rl%wNXTI?L;Ys0fK8$R}ncZ~7`6J~i
zcXu(UwuYP8lf^7)2r`fHghWyTuW#c{6*2GUpFh<u4y@CM8x!_|E|h<pC1=4g(Cpds
z^~d_-cr-YfF+tK>w}6n$Fs^R*BC;1++GpfjV5MteC?b%iiY)ea+(W(}t+Ie883zMd
zz0+)znx6h*vN{pIRwPg5T`muXR)j3$Po?>-BjgfFN;>L1;KB}xQ?4cr1lxW%2GTe-
zV`7a(Z;>zl;&$s8`^Gec3A;?@mz%-li11tF`OLi%ouxrQGYEms$&VV@LKc^V7CRx0
zZ3V&b3-QR%@jQO-W>OrB4+)Vls-I1H&t6avbKQ1j@$W8YP1?nZ_$c%D3zz?lO;P{a
zwHiia5V@Y#LCN2t;gcTo-Gh2(p2pEyuql_RQca2F8cw*E%up!w%u%$;J!M!`Jt#BS
zqN3u?wvE+w?7eeOxfAQ$`xgtJeo(vCnigI@dEc{suUWIgRhuFGXYHTwu9}O9{+!Y`
zeXYEeaoxx5&R?Rv^kQo5h4%FB5pWh5OKMy^R`bS&VfIp6bYI<ziN^+S_w2dZYI9fQ
zAm3lUC8j^z92c})Ym=TBt~P3099c-}H2VI><RX1^tMup^=TsfHfbdi?Ci7~0&KB{`
zcm?aXw9H>0F_kiI=yV>w@YbB}?to3NF8?OAgYq`iXY44}c|UE6-n9S4$V^~uDn@(W
zdq4T?nG}hbLHHU*UN(KUQPt5=yq4oEg%nH`MadkF&6q?*;+1Wvy(fB$+412Ja~+7F
zPK<Xem==YDdDQW%g*eIwVn<1$*m??Qlue}$LAQ9XR2{SEIR@w9IKCG4W_@U~&&pOO
zk3!5Gi>A$mk}g4+{bDYCP{XZWou7UL$=$tm160>!)*%NkZzhPYnJw?y6cJlUMsOYu
z4?u;Yx#YqCPGe7w0~W@7Ba<~r<OT-+6^=$g@3L8MQaCmf^9zIwB%Bj`Hi4#eJ$_sO
z2>%qTR|W+}>k)ftl8T2LMr=*YJXDOX+r$HdgMYevW*`!B_J>h1sv69p+LrYu;9{;Z
zb{Q#O5CRFQ+?TKB7$qbR)d^<K?|iT8Hf?Twn7E=Lv-pK82Qe$BDkozU5A!f67%N}#
z-|{MK<iX^?YU)!rGylLA$7R0<QwukLTT|vm)D}uaDi;W|sPgTdeLA$gDB`c>_jh`)
zlPEQxecPY)ra8&cjjCv4;c~%8p1><Fw*9cC&>tT=BOK#-pU044LzcI$dF`c`;``Or
zgGyfFUQ5qzI8n|#8!al7G>}a3PC4Xvs4GpEdcrANVZp{Z{(Y|6QCC5c&ZN>{3lC*u
zL9=b{t_xX4my2yrGUxp^q)!xamdbjw!(i*v2emd|Pj0c#-@USR+=20CQl;<hzT!f9
zQSsU9j+;L_uJeDyO0`*_>Tux04X2k9-p0%4zM*;l=X*Fc)&5uQXZ5$t3>=+3P`rQB
z{zuH37Br*7r#4pHsep&W2el*#u2MX_6Nk+UlVX>A=ZSlzIRE0m;T8{vO;ts5g;cUo
zP}5-1d}ExkufxI90NB3`r8Dt(JT2~!Xhqe5glBP_3PdW2xqp>yPV^&oeDUpM_B%!c
zgeN8{L15i^t<<bko1{D9)YYnU7bYB`{==oAlRP|k6PRa>5<q8?^$OOA1PVf6)_lF7
zwvmJ)=oXAsO+GS26$1^>KLZ75Xg+Of`=@Z4{_rDDBEDr<S@`3k=AMi*jacY0z}nI3
z;Xp;bJe<uP$tjC<vk4Jmkok=IF<Eh(&?k>|qeACTP+VwTUCew~c7n*=;q#1%b_Ox8
z=LWdhT}xw*{nG2%r(moz@%)ZmekC)P*x5|BaGvW7S`Aun7Ybwtm+I1oGrvt`b#y&`
z@v)D$hoNo$SF6^Co17biw$r+DMC3-~?!LKTGeP<G%hz6&FHGZBt5%aYnX0v?4Q|xi
zOf0>7npcoie?G#RPOVO@XWB{Kfm2|+xx22ozK-%Pm)Hi2<%8Q4ytl~)1RY#n;A}aP
z^4{O%kj`H3+7|&&A0ABAr3jt#erw6Bcz&fmh->vOjb@l*eQVR|O={<Tqw1O(#YIuC
z^s9jUB2QN<zlmYj`@8w-yLk6TJJK}jAN%AW(ou7Oz-tgLG<yDBV6Fdnd~}#Ij++~T
z6!c`rVeloX3E0vg`hI?YMT$%8#UFW3OxhXI;ZauHVQ9xl&(zcdD)-F*cbf??0(chh
zE4lVA5Jbk@TMZSG=#AP`7Cj4+_60>D3_iYoOc6$)M%*0D&CPQyl6H2d(gn1vr132=
zv}Xfiv)6A-KIdT0A4@7U93^8&TO`Z}xsk9q-$0MS;_+Rr?)L<DhiyUij0m9#k^OrE
zqb0e;bX^85p;aVzP_4wQJxSvzc#nn%g6cK-7h4hSO2*1#j5$9R90jTHj9cb#KkJwG
zan}@Lrk5e4lRC~H9Z7ABf7W&VBf<>~O0~ru&-hQ6v^%PI+RM??-%gJ5VF+Dvn=h)c
zFN#^Wl_M@_)@5{}<Xz35_pNuYp9tPwDw5!Go2x%LCug{CzPZfA&1BtgllLd4ItEot
zY!7Qi@dSp@+w1i$o9*oLbG}&je8$tMn9t~-S;}-_*_82757x<`<X0g+Q|nbyFYn_0
z&MRISrK9ar{=iAma^g<+;&(HbvA@n@BmSHG_aELjS|b@W5fQHT;_nfy^x5`<qWS(q
zYnha*1K)h!o{6)fbK5Qd>wEm(%pAxIu0E3gNN$Y}jj2h4_}1o4{Tuq#iyL6wM_-K+
zBNP&3RaMnUR%^7p<gA4#SMyil3tvY*N>7qS2yGXpHmswhq#WrUWU{Ua1$SWkeOwKi
zOJbxcsF~jkb-~*DYo%cc32kVsdtvs%{^MTk$DQ&NxK%GSy?FD*mZyr7m@_}I{7}^u
zxr4%N9z_M_Xt!@UT2qgP6-HK~uZXv*3P4**LqlV;Uoz@VRo?Amh=W3IP!!e%>}t**
zm=;jKL3wowPpn4gJC@`&ljnMlq6SbT0$$!=-i!d_Ha(9Y^teZLBflX7E)~yA0{sY`
z0g8@LA8TyDpDaAva@6Mi6=#xGj+E&=P$!Y{2*^6d1`tt%Rn43XD7*&r3>Yn1&i-%#
zTI4qcdXgm53e{MrnE(O}VxgOgj@EU}t~s!7W?vgRoMy~HgPkO41cIWG()YS)4<39f
z`K4dK*Jl$}95&DQ$@kPYV`jD@i8}V}f-&tTB!Wxva5%fBGFCH*uttZ2R5}`)jie;K
zoyw7wxLp(&0LgMn6m^CKOkQ7qU-?HTCL)CflBF2S?~5i*$g2MwB#|v!*NG;=D<BiX
z(vCIXfn5(=aRZ3Zbp!^$g%6tXG?bed{dW{4>-P_TQ|_=B;79#ge6l){ot1>p{riH~
zyD`jIv_M}QL@0<^;soe->a#>d;NbC~cYr$rLPCx@3$g9bIinhLbPrwRa#CPWh0|3B
zrneRSi${gnf@w4Vibs05EZ?wy9$yk@=BwbC@_wR|v#NL|HZ6zic+{&0Pg6Fuy-Ys6
zEc)@xZcF8OQGfNRnS8svrQM;U=c*bVMpU2fPg?n<6)X}GW~I_(A-Gd-cZVBw&7I`V
zkP(IGFI-NA`LBdjQ(BXFYr+?{_pOxeytXaFH=i<GR58=}`9Pa4U;MhtnJssJ<&L@i
zQ0{v0bezBIS<fxCy)su`cg#ukl??B@bMvQR_}_h&%Z+ZeV-8g>+aEvna1>#@C)E_s
z^w?8@A!y)NQ*kgJ^~CEtCg@TazNnn?5B0K%RZ{j3`naXuX&-Hj+H>Pd^>)~}Q7oms
zySB!;`sYmbEWgo9nu0soQs?~|3{v2GLM7LCocmigIT8^vtAufg@PXm8;3IL|2;bdl
zL!B=at0?y8+jDn7Tq83F5tz<oRY80?Bx(keZdzc>gbD62C+8-c4iUHc+rP>BLo;ND
z(roShs3^?hVT9R?#HBHxwDH1MA`bBvaEGJAO?KMRj*|V@U=QA11MwJO+H+1?*K@^@
zZ0DZBgV<y2oSXsO`5jhm)c`CC>V9)!wn7TZxv9Y?$v_)AbE_Br4R4?<GeuNBNx+6D
zWxWmcw%=gCK|5yRpOe>vn7$-534IHHaSm6EL|w*c@BJ{vuu@Ab?L+e|NdeCW$zFt-
z<qgROEw}D~MyXYa#=Qs@Ja}+!=j7;k{CJl%@?OV&n^X12<B>nUqOh2$TeiZxF{#A>
z4t67}J1KxMDL@z)#|RvU`vl&Kdt{|@=(tUnas*1D9$Dk8e;5}XYR`y0{7yv(2)`c_
za}MYngq5b)kJu0lM|Bmk%t3yP<m5gY!YlbHa4b>~)plS|koo&Zd&xtGh|T+(j;12i
z+oU6@oy0++9K8X7WGsZO?|(uI!E?E+?fB(47(~#H2UE2wh(SvSu%QvZE6_%YOELn}
zuVmlxm_{(g^8I=N`CqF}0)bIw@7d1V2XI}~=hip<sob5JJl-I5^~ZWEJqOW`byG6&
zm6kn`#aq1co66?<bH*x61_Vp~mIxjhEqTyxYI(!_o~UYKT(bPEwX6LX=M((jmc9GS
zz6s6z{bkj0Q*U+I(QifI?ziWk*Y~XR7o%&w<LOCNf9JY{(f2!Pd#Y?WLU=tRW^euu
zmR`O5BCAir_~(=2?DATcd-9BPMt$siy7Z}bH0+oXn^4wa-n&yt_Y?~}yKh8t1T$Y9
zc6FX=&%L5+{K3myZ0_~W@7H>^<jb_yew-a?h}V1Z)uG6GMdGc7-@WXIQ<t9<bcvt7
zeha<m^N#EXTzRW=6n%fi+Nz{E-4{N%4!D^Kub#L@xxoInVKif7@5=if6cdLwbk?}-
z{Vm>eYuUtM<Zt<-FTnwO&3e;#9cgc~Q5<~1rZ1@K`tG~uDYI=+8C)lsx3jp8?}u>|
z=j@ltv7|E>RQ||#Vyp<!rTj~L0<O!S{lsS=+2YjVNHkWXYgq6Z9I=}N=|YNR09a%?
zujcl1HY(|zm?qR_avauIeQ34lqmDysT0K)0gvFbT>WEATAj#q(Au5%V1-MZm8~BV#
z+b}w!;GLha{PtvZB?MKBp#UR}N>hwB)-ApTy+S<tG<^X^?7&Sx9Zstu3+oPv{NmV*
z8K_B?Sf@Uz9J&X0l7vZU=Wjy{ORi9y3Uu^|H}vV4m|B5f;|03G`AVPyBw@Xo)FA`W
zEz3X30MUZl0k63+ch{fTS0jo#yt@FkLn*sGy!kBpyc%_lh$L*!zw+1v$Ku-^rg}mX
zMQhplZ+y*&#u)p0B-z7Ve%z}6WCu+e!pRm;Gm#fVEv=?X=Zi<ZQ6?T=WwT%G_jnp0
z_nDGkXIR~)_^^Xj;K~}uQ9?41fQq8htxx0{2JB(@!hgqza?Uz3dS@r{Z1H$z{S|!F
z;@@dVq&8k=k|P3@0|Eo*|CD3&DAML;<?P7--MU|+OvILqvf?YSegd%|lu{yh_Ln>7
zMDvra^pCakabqJSSM#dX4qKDJRH8Av7~}s#JsRu}ZapLtJ>RoVGSvV#7@1-~5^(G5
z>*IJ|Nz2|0c}22zA$=Sk8M#nZJ@QlXO-KjN`WyvE>f<63#j0O|$AoGZdhN1#i}HKZ
z=`%wwM#wzmizrjG>`g9D?tF6ZaN4okYu(mR$mEAUv0B|Ctrqjxb*)oYqS>HX-Qco#
zFwe###g~hOjgH^!ym{A5XziVe`q84R_8<JW+)Xpg4>r=~|K+fd)pJ4A>E2%1&~-oj
zTi&co&h(+xUHNmN=y*{;iHvK@4UTU#$5~^WHLuqhd?~ue6Qu1YZJMI2w%0vDf_b}y
zqL1*c-GY9~KSXU!TSYlb=!=9rj##FCpc%KfT76}Iq_T#8n*Q#iqSftrjNFE-tP1yq
z#}j^f@J?OaD3lvMB*nC6dA`$({`-a_!h58d2ND%Jt}1=o!Z*JX&m>&Ky({|7^8E8A
zP1#faJF+y`Qk2%0(%#w>AY}Nx+NRmHVWh*Vd;!fC!bJy*UkN(!J_(O5Uic-}vdqGB
zid%n|4g0aIgz1*+UoOz=n7&%p^*gfBN$K{pE1%xeFiLFqD;^(C;j3cr&dr;AR2_`S
zOM582=j+!|f5SGjN1W~)@P->Kc^;_vQQ?Kh#JmJ>O%ygTg#1CE&&fpPzbIR5TaT0z
zWgGD1W3h^$I{1P7k(e@|f6BN7<Wy8lkv5MpeEs1YNsEEhQGx{~xs2|?9&N%EDps4P
zVqD%wDqBM6;4UG~<B>;WHYZ81fE5hehGB8<67~*>N(EM8jFH?Z=R(Q{T!YZUMxlMM
z!!z>%h0(q7nG!pX80Y!<!@$)ODlsiYf{Y^)Uz8r%_M9uxhFtI<(SFW+BuxB`(OA=p
zU!(EFze08fIeCC%dx=tMsH)bZw1moN7mz=}4zY!;KvWJw@diK%Q^HO|q7;i67^r$J
zdLDa2o&(asrqQ0WBm4O+5+iS#?1A^O=CqX5T0$zI9V7M@hv^UR>>rWqm6Y=6qwxa2
zIEZK=aPZSiwg7zd10IW4KoGq^3l}S7$p|ee$*#f=ovB^aonKfGA7i1VmBRc#;dj1d
z3<HK!Y@T$&DF8Fyb>G?OoGF_sq^+~u__PLRWgBV;+s2NP^T-%L{6(qeKn7G%bK_|t
zVbRf=CXzz&_s|;hA?!8@*8I(_$5DpkPv*fa;@Vb^D&Bl_OPHJ;HWp`=J70jCRpR&f
zK~y(vRQ4=gZ{9%L6}(>m>^<&8Ewjm%GgE&~_`Wc)6{szHMVYAea;7BwYV*D{j^{hg
z<Z`0Vx~q!Wm%aMjzRlXeKJncBffJ98TBd!V9o~6%(!cv{V1aarwLoWG=iB+*5v^I@
z?K43c7w%}z{T*HWn)D`-!i_@7KCVc+Jnnnq*M8TJ`Rn7>X+1VtgX1*yi{;);$9>fv
zmw4T(qD;S&mBylx{p5+n70GG&&`17Nl#b>m*3dID3Oszcq=ohSn$^L4z?VmZK_w=6
zUl+3+wlc>c$J(uHjQzxZ?fFwtH}GTZM=xdU?TW8I<Ijml1sWHJrf#cSD&u|D|4hF2
zvFjL}S7CI;I?ghKjj`F3m*y>&HvCdGC@gk1JiP5u@Pn_VrM(r0BA@Ka_~h`gB7s+V
z`Q+GA_L#92HhAj0>n-c`OI&@c^`;%V#drDAL<gJNZq&cF#yY71v1NbMZn{6{vU~qr
z@60Q!_*atNKY2uZFky=fW1*AYkJSf}2>FW&%_thNxjZKLo-SM0N@Hzu^6-3@Po&wg
z<8x)e5e|+|U~GqRE{{H{o>|+!Q!L`=fun*5fVHZ4Dt>$bH6<}KVwP+QcBXMlB|7<}
z8$+9bA^8Ilx_4rL+`wWh-`|W37>$mMbfOFEIQFaYp2}8P;_kwAvk-AaLL!Oq00`}z
zM{oBSbB+l5h`xTPc@<+hhBx1qpeH;vw1S_#H?r(QP59!)*#XzdBP8_=)ae+fGr)O_
zGB`v*fOT9-gp|d<A-D!q_(+*vaPMXx>k@lYNfK5!k@gENlBDxg5CY<WV*N9?x{~}p
z{U8d%`5G1&B~SF*tOMSf*7*|A%@v49sa&>lR_VtLmV~-j<I*K6FXZb3W(AgI=XNha
z=?cXX;0#1zKl)blirwXJGf7CtG?IJhAyA$sInYH$;#xB@N`H?jO6RZzNo@9U;TD8I
zBj@Om=BpSDV@LxLh27z-dj$*%@59#8Xcfl^9GgnJPE&<EpgPX9jv+i%<tZ(VY?l9>
zSJ&LCTVHwCtV^fQ2-S^I)>dPTjZ!@9n1m{%f9}m*3(>On;+y__K8^eD1yBcO8J|^P
zss7EU;?<yU&pteWTkwF}j(b5&8b|Y3EQdZkwp<l5IU3jgI{pqV{q6=)y(iC8((YVh
zsJMIX`l0<oiwzh3kNCu-?%w`L^kr3r<9D<E+jI(>MeUp@W>|uxl>%+z65dkhshqk&
zar(&Z-IlwR9_+tQebL?PS5Lsch+9(k#r+qfYMc5~?DzEA4O1??<u34WcZ2ii%WW0U
zjnP42o@;mWmmK|Rz+NfKGi;*$Qsk1C-s2s2+ND3tFbimJ6ZaELsd(LJ+L14@<D9S(
zqk!{K4tfnQ@67kzjZNve=0cu6Y|!tz`u*J(R)a&Ca#Ru~;@wj5rWbi?L%O-C==U(y
z|Md)ZnI1IP>|Ijevi#k6;hikoBO2MCBWezpnnFEX-pXyw{W|3T<>Fdv=GEnOpX}O2
zNGg57U^ObVW00%@g4fQE!c})1&;zs(iU<~FUquFb4!ii%Y$&Xhv9thH{I2%^9w6>1
zD_iZB3#(m8KhrFflgD8_D$zayDX=Ln2SQj~;)&uv9Rt1xoxaS!NYZo&Re@@~w7-i+
zjSR6b_^hU!wKMl!V1vO`Ky-+NzOnXLMsjQKhZ>jTtA7@#@uL=aG%gUX1Hx_gV-E9U
zs7P_4B<<JBsJ+hBvePxwo-bZymF61E@|SoRkiPP@wBMvSGS(t3bv74uC@|eOJI`?;
zd|ea`kJE=Q$>xLflvj}la3y;ssenD{#x3l!XcT<MK%9|a8ld;N7Ts;g4fn_GapPTW
zILIvf=i5%a#)v;$l$vbD5B=9)%~4~Mxd|dgx&b|f^NQ}Rsnb(ep6oJpHjN$FyhnPE
zMe_$K?W=KFvI-XZJRw(BcK1eE`0?z%b;VHj-NUn!soBN_4bL9>p0q(SQ-sN=Nq_I8
z@`3iyn)v~4W;x-teD{mkeZ_+ozp330dFeRXHDSixw*B}M>D3MON*k>Vt`A-OAYgXp
z5nJ^4w6DyZC#BBo(=keJ`*{GNS&5m#N_-66jph5Iq*m!Bb{A>UKJiie(I0S~b$XRU
zyFI|(^+%Lu>k3bv6St)CAD_U$?8n>dC=2O+&1Ut?((Ewb5ph!f*hGh=zm9Fnz5cX@
zOIs{1ZJEAw#EDM&DYJgPw$a$9pB8Q25=*-shmGmO9UpsLPPPi_%rpJjbK#`L%odkB
z?F}2LS9NFj=qRzgWh57O9$`(}&KkabWo~tmZ<6o#<ioy0bc3f@nVs0NmY=GP@_R=d
zPQ2ckZvShSVAdDA%1f*Ey;@r+x>w!3x@#w!OFD-VGG<%9c)nR(qxfew*|XwTb8bLz
zv~GrAK2-&is<)e0ooQul<M>RZUD;m`2D=k$c~7l7o&P|qVc~p)TmP2qhY$Uc&hsyH
z{t>&LF_xrIeEzd(WsfSo&~P{Ih`+j;0?jY?I`^;n)Lfp*u^HX9zVC7phOxpoa12Pu
zaWd|$Lt>c+4H7x_=olFIv1F{!4Dk0|aO%17b@p%bqI^cBlsr8H11Y&|0WAO_9D8^1
zZT{u=3yaycLUht|?%Pd&^K>lg$h+krMc|>L{+GAzqNWQTiTTAJ7kwFn9S%bz<Kyc~
zWI&83tPu9G75H(sgDNi<S0IElH;#zf4f~sp4>W_=gy>5Fe*Dvw%Um2B4*=*ug;0zk
z$#4EL<!z?**&#)xmf{>;tDq`JLvfnzbpPM4(-G?<K1I*So~@-yJ&@K@Y)##=#`j0(
zWcG+&kjTaf8?SXXg6n^;w|kz#v?Ti7`sebjY`aEwyjJusoum5iKbR->#px>@EA%d;
z=<%4UD4E&fTk*kms_NRVGedqf`kPN_ran&><m0i}eRG3ko5=B}GK&jugOx<O3gu)~
zDp|)@C@AbTUm17QiN|c2NO|xSi<HKmk-AahTukpu#Ghe`wy!6dmEA49%@o|{#LYdG
zGj<nu%jjnM4l+zXHF4BGYHM)Rwkk_5c&<rzXn5S){rvyv?aQOFT%*3JB$SjfV;Uq%
zD)W#Ml_B$dB$OzU%tI(cq(LQQOe8#%BxTGzL?u(mm@#vi9hL8Qb<SDudjJ2v@2pkp
zkjHaB_jTR-+I#<o9U0PK82Vu}L9q4M%%n@MtJcv7-`D;RP8tvL8Byzf;>tmLJe8t)
z`7uvH3y_OSlW*RSDK-iHd*|rVnXeuji<jLkSj(PdJS^^=do0D`+dzo*<8*q)bcUd!
zpA1KWx&q5b%giIT-jebfS)Ojo6DYSe9<imXXwJA?Vzzay`!DX-h7Yp&*w%bn+|u^r
z0LwVl%CS#2op}?(cCoR&tmY^=!F@q@i;!oK?f0XR1EhN`;c#`>di$5gtsWbw7=^hv
zkivR(QFa|@1d>xy>@jW(jnh7~J`+*dg8&eUPF@pISkO*J#50D^LL4{*ZwNs8UY=H<
z>{Qvtp$}9dzoXdM6#{Pwk7wkkN$ds<01n{8EHA*=l!i|Ne|vlT;QV!Ik}@DI`2OPu
zzqojd?YD+@Rdw~VP&vhKaVV7^tADqCZ8?ov$>~$&_cRPRS%h})PMej0il7(PTC*mv
z&%V3w=r08}C~TL@4(=H{i|LS<$@8_pzZ`{9XoJmzt+$vIgI|)A2aK1+nR*2bR<j1B
zsBpGXEuP^uMN4K`<E#bqPx?N==^o9qo)UE}gR^y$)gt90uClJoqx3sFIX<#`7jHcz
z7GLkX9P4+#|DEI9G0r(VrRq<20@emvHgoK^{UB%Qv*xt_KF`~3<%dRoGoQK|(|S>3
zCjWypbEI0Oy_4nM7Z&tl=Az%ETyyV^&nnJ~d@S3Sxu3K18ruewpN`RY=b!oaG`T)r
zXt*C{ru2Ki@QU|q9xA8!r7(aPB9S4ZI@+fa8iaCVg>t^XP1X6tWOuPPp~2gMO>o?J
zYH~Wmrt_$~7$=SHRce3jpa#uQjZFUhBTO>>*WWj<8r_k<PvS2#zN1P-RJY!GF8KO*
zURk|iF_5ESM4Z*N<=1lcg9A%OdhAlFrt#jV)z_cnc_VjOe95?yTTS?Eb#cM@<~`Rw
znfR<Z_E7ZU;L8D>LB~9YwmU1<ZhbHEK7C^m3-N2|!`2UxE}>Pv_A|p$Z|m356Q+#p
zzI#<mM;!8ks-#V&ctpxZ7a!Y*o#hcqcv7R`-bDq3FUW0hbBEjm1NpHmw|?!<KQHmQ
zriUeVzGR>N%U9w3=bnvfp$|D<DQdefFZS?Jw=C`DP)zVx;^9hHhY1GE!H3W_u?8s~
ztzv&vlGKykoNN8B!7~&y)ZSxn*P%8ndYy^U5g~~$&^>{#$IW+V%P<-*>r6FCh%H4q
zF!Pxi%n-Y-{BRt?Z))pzqxMA2<k){(QYYPDFLpYaJta@=N0L)84z!_z0xB4MEXe}7
z!B04Skex*EeWV$VKu&&qvCYJU*!qL@a{Vs1pj2VPL?SqfMuE<TK}FM7?30nasv+C(
z=)1AYz4sa|acV<t093l-VAyyRffI<|J@x9fqE@vmP|uLreL$4RLuf4*d64X2d}g`%
zwlle=BB1T4gMEYAeB0Ko35_1diO3D}9>J{G0G8+g^p(A6uks%{)SayXS35F=4KU;m
zF|pY~N0s;~hbJ&8hMv9+&XQE%+x>X2!3uH>)I7#890RZ-0Hah?@Y9`6^~AI&ld2Zl
zpcn0SP;sFE@1?5<|41K>JC1bx1AJQE$uD%4zqG0&B6yJD?iqTZ-Y0x*)Hp(6x1<yl
z9zow}k!AEp*90;hlrMgMtDtd6e<nF;d}^Y`fs<e9WWi?NAQ;RLA}a#Z9ymr|tOXhP
z0xCoDKDm#T1$Es!Q>E7R_!+T?A&_sflzacZW;u6Qp<G+vO@qbu-fh3}&FV{@2c~Ci
zE*3Jjs$@M*UA_16xa)l@x34c`9b_Eo()$l<-?`_KN~Lx!?mLHXEF=3CubI@=Jr8VY
zCC@I8Ive<8jk#}Ca^cgY=F8?yDObLcJg(<=DriSzhT27+UuU_Z(gFh<^`l&Fz1Gr;
zslC&3p2K?sp3(XH%*zLs#u`RhoIUr-@NMwq+q)@?dQCv|3$}KnBJ)SBzx8%i9Ir@H
z5|Uf=S#bJ0!*=HyUE#0eegcuBpW;&&59^t~tL~uUli*ez9NLvBaA3Z+K*crBwA$a>
zJX_}S1F3cE-G;eObcEe})^@FFl2KJ^T;z)Xl~1E$EN5B69$nliSH%~pJBXucRryJj
z`VvU`e=be%nrgTmE+5p>)(@}AJ#4BGe#_fKkTbCN#6iZGo3q||uSU4knm*<j&&}Dt
zUWvLx$*+4t5t8vQpp7V>OzeHg>aTtCSW2l`Ux{{K-}6Y>KK8Q%{ri0%EMI!L4WE$C
z@VMWqF<+q+Ug62!l+jgs;j={^He&RZfv$);-{>l7T<No)<(j5kVyAx@vU8p8>JS$h
zUim{;=6n){M+}SikRfq>eU{jGK?doA_m1;^#gOIIokj8lR{%2ffz;3_Hi0V$Np`y@
zSuf*9z3!Kz8Pi2x3z&8Wd-QSBh&$jHVi7DO6AgLQ1?gSc?PQ|qA|81HeZ%oiZn4+D
z6BrQ{4vQ>=1~ZJQGxHc^o%NK*G>YljFMu(LoU9W;fzUY6jUp8>G?)|8gpGl7WEjPA
z0vsP9Sc(ABc>`D1l1-pW!tKzMpJM^gsjRP$mTf(bNMUag#3mHCGic5=LD|O5NDCe2
z*EqNCwB|g$DugOHW>{ka^?1jdP*|J5fYJL)yN8Agt|I$V&mjVNwp_3RbqVe-w?J2`
z%l?R`oY0X78ujAET~JM!xw!rsIb(VPbj?G|0_xujC!rSYoxFVjoj3IC8QAvp2C|za
zAQJ^HN(7}Ku#AbTr(=+cneL;=p@!W>^PzBcXh>8h(WMYwH`v?+5tk#Ru9?$B1_%f>
zQ>iUk!mh1%B+K<eXbNJ3Crv&@C;4frt4theBf|p)R$=K$rpW!Cqh~<CaZU+4_saKA
zU|q(7&YKd-x|HQ{Vo->_0vxJY1-NC~+ch2!JIidD`NDC*>Q$AU{Eq;*Lw<cv*X+D@
z!$PqO57pF;$dfy)XPc5FZL*AcaH=RKdN+)U4V+_R?%4BS@+epKr6z3y?;_gU2L1*q
zN0M|!IdYoqIc^!G@Xwf24^geQaQUgFA0F$>aPs*xWrrvGKw7JjH+lawe7UCm^y{1F
zC(^yQi1tMvjIT~Z3Kw_L_erF2_Y)_vu1Ooyk8JwY=PrLQ{Wd*QOm)k>s7|>(`-yW~
z4Gt==2=NJ>n2LGr@VDBoQl?TFjNGn~1(A1G?PQaUxFRc{z>{#-_kGB*)pOB-UtdVK
z6^@H)6fmb8by>)F$X}P)PaC56xpb9XC1cqgT5-mS_X2ON)_llsKDY39QpU=81+?91
zB}_$}Wj2&H_@G;LKxcY?w9CWQ8y*;O5AfzVl-CTQytXK9o;y2UN2{+)qje-*SBr(l
zTKe5xR+?jPhZzTomP=kX)nh<#$vS4Y!nSL_{(5ON`%%GcS&4c@i`nFvqP7_w=d<f2
z4$L8|+PAQMnZKQE6`G&%%ZIOHMg4e^cIVM{G4p9jCf@#yCHH<Utx=AqTQ8|?nHA>t
z>fzXwy<bDd@D!h}V9o2qhV!3zS0uSO>?<T|f<KIw+&5IT;ZeAv?in)u?5d*O!G*ge
z&CiSlIX~RsJ!?Yae<X;$ErSuk2w{ja$|$uI6umC=N6OZY+H1a{_q>|RfO`r5v=i!J
zKK3+q-u11n-hu)wSNi&bX?|1x6wc}zdFsa+$*!y|r>kceQ8x&e!Ijvc?WbzV>_Uv5
zdxS>mN%p~)PES4c&*<ve=9pmWmt0ixhjUKhR{Pl$gQrs|sQ$l#m4VqKr}k5GT*XUn
zpt0b7`!p}OUuX&wwbv`%skn5%`>TF3Y};>=r0H?I(o#yb&Nh0JzU;%RqRfm1VSQJ)
z_;arO*guvPDb+Bl@oLl26lW!CtxrNGu_6m$9?vxV6A!Co$*$`^(^yd4e<fylx1?73
z5vHz5yMVgKp4Zn>F9vaHpPF20{U)}!meb*jX)d>rOi_WE6pzsHjRWCaSE;26-v%p`
zyE30r;7~K83zXhz>XfuRQeBmthWdDy{Z;*Sw?xnEei4BmZJR$Xb9ryM)b~pgsoXsV
zG_2eDS80jSS2MErIZ^^zeyr}4=jr?F7*ng<t>%l>s44oNoS}TXEu(pL_eD1mpVC8%
zLD7P{UxvBl-mRFoN=cS$f7CO1B)!#P+=2gb&M(o2&I3Gqt1O%v7pNCRGpC+jDzSIr
z-N=;d#T8h&h&1+|TLsxt+H?Mg^`$)%uGZvI<#$Kad_5(-Cnme-Rcb<hkhyX*!(n~?
zF>`8@qU&hC;TFDcR+L#Eyi4#)Bu(b?eY&3;Ew&?ZVHxcBzJKh~NKRV_&jS|OT;D1e
zZ~+gwkGt7bhEH9z5FO+A;mK}iz;64t!>ej;!M;{0N&kg$?6+ByXqU8;t|t8L=K~XR
zS98+Sn-r~$3uRMIDjjs_bI$i?^z>(oGaFNRFy5b1&7FE&`$2!{HrDLojn}>k*cs5`
z*bHc%F5g#E9rrNro09kK48Gu^wh_9-t6r}U@MYie;}(vP<8q0)o`B4D{KHPE+AjYp
zg^Cj=_MXn{-jm9GddTNl%lUO7V*Sp!HL@n^BRk`ozLuHw%{J3$WwFT!ioED|%onWP
zTYCS}_FYBm(kqXY?iZFwXHGJ%f2}{l!kryIKhv^gqfHgm^=qkn;i;E<&&Gqlr6*id
zLMVJCdo^EKEaY#`_&q<{GZrqxa-Oi6M=okg0OB!&=Y^2`{HETuXsKPEZ2$OFCy(kD
zQ`ra0EP^${6gdEAEKV_NG-{D}K6!dmK;*8f!ZzVJ|3WdQ?Ey^U{DOitGhWWgnAmtc
zN+cY(5`d;`L~|kObC<6x4rIAnMF`u7c5G|UIS|$rtqz8fNb8SXe^+19(T`kU{w1yX
z%fq00e&d|Qw<j7ub3_C83Nt?P@DF=cv*+nd$(ji7{J665rd?hgi*-jN9Q#H*&NH2x
z^OH}Bd!D!LysYEmo7idlQ&9$AB|MJbykW~*HDpDr@=LPd{c?z33N6jmM18HeN%ptb
z4q1IxXrFHx5zJk!1HcYBkd$g{Y-irKi-z`5-E3eH+PKiWrWdpZCzo9JQ$#yy^G#X0
z@Ap<O4LouzpLm<+`j{$0QI?Yi(btp`lJlwR-Y*ZExfEYVW1aEuvr-KlUGiumaU0Oe
zD6HnZE!)=rI6o-IW{#6vg55QS+39NOK|5t#&Qqxa?4yFxS@BI@e|MZ$XgH%R|GQWt
zC@g82LE}M3-wuVDieZcF{IH!vRz`xgKN#1roeg)`v9o7JW})T=(07F%ndtkWbtAt9
zSq38#78-PP#!Fn~)+IIwwPk3GSBIV#cD?KNs%>Vfq3CpA$-0A_x0hvKM&{Pk3mv-r
zsb6^Xw#<5gIO}_fxlWwQm9&ZZdW;h_Rr_jad(7RY*upY-fBl$xWtOewcpyZJ#Z6>~
zaypYq2kCi7{M`JK5&8b$&F<7>!ORL~Q5u`e-nW+BO)8rhcIEpptxdYqnZ%|VGQK7t
z1_30ZaI;^MH}wfSK4tR&Ivlgd(!bBFT>P=7glfIO1nZWo((NF}j)w~;$~;XhT5aT8
zsIi+;8x&HuSKmjEUxW`hG*D3p{C8v+2!qE>7(FPSlK$C$v=#tRkhKABKcIV^j$g^;
z)7YG$-o}SIgcOO<P{zDaqPe=ZbGbQK$0$hmU-5an{1i~D;i#mXto+KYF{<iIvn+Qu
zzCK*~>rJAzh8OoUjUx?$lU$}Pam&;tgL(~1Hd!4L->%daTeNQJtmBc0l)V&i?1$Xk
z!hYKq9TObhF4pVIVkxf*IdA*Ttd|z3WoEiOe`@$7wdc62?9f%m&3l9=x7;e>Sw|&T
zbd73Nx#pt>#%@1{+D07waPLRCHQ7u(pNAM+3%fMSiXi!IHoCt^Al4>l(oD@HZf!9W
zAAZem{<ZaP2Aq<(oj#?LC3njw6&nN>AG+k~vBp#$(R#4Osdr?btl#zz1AN(i?Bo8s
zOAg;q*3{OZqx4nSzhO3LedKq>0P>WETrc-U8m_E?$h%<{{CleSib5m&&Qwmu8@tMe
zXgs!W>h14%@S7I6^rvN;cN+W35TZ5LGDwfGUD&zC@=eE$OFSWo+FjJEo~^x|m>_w9
zE^};n@~d+ylfO#PyVId{X*xOsTV+c53c55xy|}bZ&5wJ@oj@0Y<GqZ!kEf{!YfQ_H
zWBu_mrrMoTkv@_O>SF_k>ch^xl3~UxjO0&G#`(-=o3&54n#^aMtcz#ud2;%wU0{bR
zxBGnmH?{h?XzIZ!_N`AemYUi@iCBMbgG)?YO|o-S|K25^zs~`N_e{F;JM^_wy6xw>
zAAiq-j3TgSPlico9=+T(d3|jow=X%B;iIbWe;67ADgtf#v-5r>R*Iem2L|bhAJ1$(
zh!Klumk;L@0#7A;4ixqg?dRYqY^Ktv3J73hcKem8Gi=ruq~_mjsr|5$xcN(!-|nB>
z`8V~l?{ja6vi*<{@5~#bx+u<e#V?drLe(oOw()%5K=(%aNnVc67$x*<pRe!VhuKHp
zZMV9!ar^Fx507Pvyky+F4O2xIs-uqmHW>OTA`xjBRT*AtnI(F*=5F1#UFstaPhbh}
z#8?(<``o{~WV3!{vY?HAczj5iW_YK8V_9%h-hHRCV2V@2(4YRP6R2p=s|jbz?b=l>
ztoi<3yyxg{@E9jN;vPNHM0Xa*GR1j&)?WTNp7aAXs(WYmFr<$i@7HJ$n{*#pPuJ11
z)t~jz#C+k~$@%MIg+rZn#pw-!T|G<rpN0*2L@E#5RP*n$CvNex<L%5vX1)d;5%U~{
zv0~tc!E6s67}Y2>++jzSUU+<DSIH?#?IQ^;o;lBRYP>4^0pGVB!5z=75x>x!sy-Q6
zSSSbF8O9;nc^we$xu0A%RLyKP{JZLja%;X)#Tw6@Iup}96>1{YicKH)2Q<?sY)$7_
z5pD8_Tv42wx^l{HFzwdUxHIe4Oa55Sv>kE$CEl!((fxIE-?W=VvCFPYPI+)<JqO+p
z;fV@{l%dgAPl)&+=Xju4s_PoM5|kA|Pt6v)d42l$XU3q_`ubp%=9)Gh)NmK(DS1qx
zG;h3I8k=S&9jBqEU-{MH!O~v2R*MYMtPZ|uieU>6K^h>eqfSvmn&rHG9UTk(k*uWt
z)p;XXL-8?#YG2nD%QgJC#{O!Y-P3n?%u-m>N~wyrub}+Mz)k~uei0e~p{OlA%oavl
z7{cCFfWzkj9z*b*LoP$IFmP7QD>q`_XJ(pakufOU(Qc~hq;<~Px_@e)lhBQ6Ru-06
zkDdG<b(H5Q2?<xhF9&dBAP{-4(o#C*j0)4Sb^IcZ$V*A%3tgh`vrU>rf=saC`(a^e
zkhFyJowkn%Wa?{_gz)dFMqDkrv9%k@OoJ^ll0RA-wSj949b>hPn59HaS5pDQwSp8y
zZS759Na^gWpwZPX($R++M)AlIY81=xCVct+^{~t>eLqpfb(ilkFftASh_k{9!)A>N
z95VQ9ete=5b|K$J5tqiyZpkqg*!CLCFAx(kCFbME!@lWcicn=`B|6M>Wx)(X>T^P9
zE2XBUI`+u6_8g-tTgP9qGXa)M2Tnak!`4XxQ`Z3Jq5Vu5NsKiZx%&iXLY?Cmhs%?Q
zpoFXeWldg&qtuOPmweCU*0J;*QF&`DVCs$$pt-kj>l-kQ_<8=Q5EYr<M`+vIL**3p
znv?f4M;W9)n~sXDNLEg7>2r`0<-CoRXIDSjEKDwg{EEw4i0=)b_v|J(l$8xS5+J18
zy?+B*Yx+&f%!<Ln@&EH)q)H}##80iqiw8e7J5&F28RS}?uW4k)ay_S_P*x2~gvWQ;
zS6gP0@$P3{RMKppQ`HNcNi$3?4oxnOG?Y0nSy6dxG(44FyutniS>@+cAemDEm27rU
z31I5$GtkmHY;JCTl0B(Pr2uah?(}-%dZKDBJoiPsL?Um#dL{Pr7Z~7!8LvN}vj#OA
z?Ef}1F=;99WHIDSGfWhU)x^?<qu)l%ZI5l=KA+sh#Lh+jrCF(fU)}=mLZ8rJld7BY
z(PIM6oQFj`D`<9+>vVc%*tmLV4Y@{Da*ZwR_9q_VjsN|uiJX6~_<w&@aeirW@jGY-
z;H~O5DQ}A0MBeE{QNC2o!d8l3v#>Vng+wzIOSAuei(>GFt>hxeDw4k_*Z#ZD|MOMf
zfj8Fmyx8dHF`r2$?hZsb;RW5$ohzXiyr1(nk+NbKfoD-M9AGE&hIt|PyV`Ciz|Vgz
zCEhcHm~Dl6fBVD_KOpe-Fn^Q5(=2i5%3O<Kr*qRu^gC!VvJaAxcVrk`+V<Fby%Y^`
z^Aai+WeXTAS#>Xim_wMgcv!G9L{1DMj^~kjHB&iy1_oj~gd_(+$*agP$}<NdUD9_3
zTM<h9PLJU@*57Nr5lNvDp-*Z!VPwPsh4Eud0a5)prnB|p^;G&s`(TRe?i{W^;i#??
zG%TVihSyO7kdndYWF8@gZ<nH}w1k1*fHGFEEY<r$oO0Vb4s&Mx0EW*Hwg>X8X<X_7
zu!X=BJpDC`(2Ve*MHZ!RM9)DTc19wGu$SOUx*FGD0VY@BV&Bbp7a=gE=h1M}U+jk3
zlbA)J#WMurS1;t#XTO#O{v1|VNxMJ8EPe@I<Wk&s4%7+jW`c7;n22bm6QBsZi%58V
zIs&xrb<8WACqu|dW13tw;HSmnm1Tv#zCH(;IDMZx?84^{D(T;KJ*t<ZM(NTDWKuN!
z9IKHsJOy5<8oFEOqg>EFO6^8t+^h~1u7vrKrs|o$kv3Yrj*)eHPM?Zao?Fy{&#yT{
zKwU~8no{UfaV5h}oPFDLy4|F)Na9<!mgx52v#A<CGswYgol&fB#;Q>e)Q0AKbad{c
zn`oG6l|1(J>C^b(_TZZz0CwqPE6hPHU`XvkFsTJ0-AqjEPK;I;5Z}JNJR7iqi%^1y
z(TkF7I{<4GjTBv95MG4jV$?!kZNW}2;HNYuf3`oNNe;;O=fzT1(t6%p;sXv~iB6tb
z-O6&$$~1^`5EiaF?C$O!b@4Cgir^p_-RfA-_3`LN`3kUr)@|4z|ETZgO)VoMqbMuH
zL^L@bVIQlurs-g<b|R9(gD~7n4tbZkc|z;U##V~@w0k>IZ{V2NAt2znH`A`@3t)tQ
zh<A<I8ieQ#Js4K?`<@s;%;2!$j7p)eA8OqG-!61c`*#-#ccOht1wY(-t<y-T!1jZC
zRhmPG!tceT&WmuuJc(GnQSN&QjmWcHqhFx>V1O(a#;RshbkW=+LJV*L!2+%AS^({}
zj_Bubf}F(p0`{pDhTjq?F%$p>T`D&&EWlqY+p3N&-uL&?fhqmhW>_##kZbLx0PA5<
z<TG309H(!1s#0wq8Nsy%omKeJL+JE{!9z8Y=lsEnz-<%PbD2acU5~mM*fQYWkE0Px
z#l*rgkRvB0#c_3feBAL(U2QFyE<v7p;G^ylDapw{U`P4K3a#Zr`qNK+iPP94qIlqN
ze6Ec>73VpgRZXaf=Rt@HT;_vCkg~EeT<F&nbTMM0i#!|-eh12J&@SJ@#sGkd$el4`
z<bg-=%Q+#0A7r80rlz;von6%_c@c9g%$AM;crhyWkq7Sb6%K5bb`l5SuS+a+0Xp3X
z4o(eeDjZOW;TIusH_##NHP@fxq{2A6V}i(1Xoz@v#`6*~0i<qWcu}iTgOWG|u}p~k
zPjPbzLE1WJ0%{`TLihckeNCTl{R{T_P)tkJ%P(-lqt_gY1<dD+!84)qX1cD1+|{#Z
zci<6T@R+bhSQr5N1U|@Na4ZHPlmqT)oVTmS((>vC6VZ1DWjY$eZozatO^#YU{XsC=
z4)ru`+I3IjXsr5|4VNFAQYNm?lI%*@bfoDj5=3lXxjMB+ya53L?$0tQLJOTv8-0Jx
zvBNujhm6dZnQr8qM8IlX;JO!y*wy9TG`R=sV?LaFf6hri{!Z#Kd=uL>2=)qu39Tt|
zqxN$e_VPpg;mB?uPutf!$rc+ELuls|3Xx%v1Qv&Z+!$u3H|055V+xTX<`z-@)>CGc
zg~=iq(fvTMcEX*`K~vJ??-d9-!=D?H5_PuWxZHHj_AB7bQ+1+X#S~$JSk=2CqQjWF
zvCzY*{v~)u#PkKxI{mxdzKf0Lf@k=#2em{7U5|Pqt*Bsq?i_13lH0BWbIuZTQHX`7
za;{+A$n0hUHQ?AP8!H0dhRTdc1@X(*(9+KI`fpsN1=tPO9xo)vtQ`mG1!lqXVe;}%
z<b7szOu~Pq5R?++cX^lOS<4ap;CAfs^cGc+^AH4)zBSsOPNq8qo2<X|Qv@m6s;czh
zltMyNs>`mLa$pjyT_{|o(t9YdpK~0j+4S13y$t`mI23cKt-vj_^?M*500Sf5^cGKk
z&8e5$E?$>1#4*J%qGK=lWET*2)2|T76E{GTFH3eghgmNXeJmd2&{Fg7d%TDo1oI<c
zTseqU-Itx&UF4O0WyvwqiqKjJ%@&(2&XAYt@`$4pHxVAfC@LF<F<?ne%=uW2HK)1I
zbh2w8nyu%R<M1y<u#|$f9@ZTW!*On&pZ~%`L<LoxzQgszd^pLxRQD#5=ur824g!Wi
zeIuXVBSeK40*a&}=F|j>jaErMUF`EdTKpy<E7*TVl&b=a>yF2qGNiO`HCEAytl}rK
zihq*dsBEJ>gkOENVC)<i@`QFw1)zt>^dJdv!aC|=v51z5e104$OE^8`m!n`9OfVt0
z&daojw1g@#V@4#oa7h;us!cE0RRZ+|HPC3?JYBsIwR+fi8s|FjV^?lhQ0Pe)A?X4i
z-y_wQG!Vj{cmBd?`<}5Pu-rl+&kKT=Iw5P~Ddd2OC_YQL+~&v|@I|B_D~IgnBv3PI
zA^psdkP!0k$ec@U#9l(ginFW?&~(w$eLSM(RJci2u-=B-F&!$F2fKB_%CNxbOnuL{
z><9lnp-pWfoeLh*Bcf&`KY5aRIB#X|>9?KP-FWU&C2T$&7Ux($ipZS&8+1*x<vd)h
zP-i_pu8`bs{H=Ew(@irH53;ntB-E4jb0Dlv>OHL~x`WisP_KWmjcU1|zw2c56NwAW
zC&Z)FFQ}{E!g;SXhqQtH@8$~SvrE&1LJ80Rdh^kCDQYyl(o!2r?Pf%Qmg?%`7Xe!Z
z7Heb6kAg(?7_)&W0%0l>E$NY1kIxjDWHrD44(0OXMtebu(8y!t8vmu5(L07%|N9~!
zbuCH1{>yIvUw&0V!w%_+3z!2{R(QiT$Qhn<|L-@?j~2N~uJieN0QXAT528h`qefB-
zc*WJ{xP#Q*Op1C8*d5U#e&qYXf4*OSk7Ur7KQi*l)xh|5-TL)AK<&jY!)VTK$5#0+
z_Z4(Nnv#xhL{5m}su!m=tQX94Ou(R6k12yyHe#T5u@i5*4b}nyOn=gu=gxl)pa7=f
z9l-4&*>S)uBa(|lwp09To(l<45|Y`*WoaBi#FhsBGeq}BkWW1MNlhbUo(&2?VoHVH
z0;x?g;l2$DS<c&XYMXKSH(qfm{##27f5Yyzf~fThvZ_wtyi~+y7ODON$(}3OjmyMQ
zju@FDxe%s8Y#_q8!uc<@B%44#$kTBZ;xj^b=nDwy!MqdssY1sekb0oeejWe6_va2k
zW?A?=Z;^3MZJh=&B)-Lm1f9IQA}u&3^z=!YYo@X#vuNIg%5|#S`%W?&U`^d8T}+B3
zBJc-D5pnnSKjP}K9659^@!Y9S?E+W%{mb6oUdJBcQ$Fy~&EE42ixVv{ah>U()m7Rc
zJ7-yVU@DDbqF;%<cKKeI>rvBM;_iYUbRyF-aGs-cVO9rE(sv&|Jd0Aq)#uuf((j+L
z=<*%={1JgW+|p%8)C(hur)!19^|oO@;CYn{xZD2E7Pu3Sfl$OCiQvVElZX#i@T7q8
zRx~_@qDA8Ib~kU4yH3(n3{6YIfJB4mrth#Y4>3UmJ^xC}tQQE^AZgg<yW>NPkXuL{
xBD5uhY_flAwODe*|NnSo{&~;;TMy;R#+%a%lO=SXK2-QmMOj1XxuUt>{{aU*`a%Ez

diff --git a/tests/triton_tests/plot2.pdf b/tests/triton_tests/plot2.pdf
deleted file mode 100644
index 56b835edb943c428073df1f2a1ea9cc52a593485..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 16044
zcmb_@2|QI@)OV(EO__=c*OZKRzFbr0S(%ctOxKW^ONJCeWR^J<LPSLhAt`ea8jO)5
zBqAv^`S!W$sYl-L>G!?g_1pG7>+E6ewbt3|zxP>3*g#D~5+#L&370*Gm)62ia3tK*
z?kG%N9*!^x^diC$s<tFsH%})x!ob#v=nF@K3Px~6MHtb;0jenTTLTSG4-y<hu7EH*
zV0V;gPl8LYU#bU?G>u8NBqAKUPB5?~k%&GXa2#|ALl`^TI=FZ^!SO%t`gqzK6G?DO
zFszyeV1*b!f+Muu0ShWWa@8NXHr)C*c2Iv#0OA|s-iHXdTW23(MD+Fa^RWl>f%pgG
z>k}PZY*jo1z=%ljheczhWZ-Bl^xqoD089+D_JtGH*;DrL@B~*VsOs;+fNuYko*vP|
ziR27N{TNZh#SP3Cj?i!eLQo^xdpZyywtY!HL|b=QKu(L9uIFxP#)j_eJ%vh^jcDyV
zEDFu~u5cw5ZN?>or6f0e0@ZK~pG(j8&nL1kV=wRoQ}y4f_#~B~n#{NFOe*t5&o$X$
zw<A1!B^QrKpMG+=OTTGG@bKj`Pc`cs#7x@)&f_Bv?1<+q6&yXkJl{NdcWT8yU^&la
zRQh!HLOat^!Y)@5$7KoEho~C2Q>Q+i9jo6F-Ep$}G;LJk)jQ%iY5VYAiZw!DSMvL3
zA5FhqlX~_N)1ez1L{ZI3ne%xl=~GOu4!=dSvF2=E6Q0^wmOxLdncd%|>xUZ<QNj*&
zhdFkH6xoP=L`iEZt-AU~-YsCJt16p+N`2StnX6BS(lOuO-RH5V@7}O86`3Da%c*z$
zZtwyV^G*3%$^OIGyE#~d<??scoaQ8Et0|w<xl@m?<Q<HQ2)X;5YK-;9d-|6Z5!aL1
z=s5>P-Y9MxadqR|!ya-y<0Kz-df|j_xmeGos=ld~l>H89ok)J;T|vkE->2ptE4uUq
zAMK0wK%AWj3q^1VxQq1)2o?q>+!Bi6jlF(o_KAH{tMelDr}#0B{5w4*`hE*ftNdR!
zvH8VKxGla4Wa3}m2j|Ems<L7Du`!=ii_y;nO$LWz3>J2(?`dTXYMiP1v_wb$n6_KK
zg*8v*<_?uxCCqt4eNqwB?6ic8h#a-bsHD<kH{8bIma5C`53>qRH4ozV+=`!nIycy2
z8ZzY8a9nY?!Ps-n^w5z}tI-SJs9sK;Ytx}{?N_0ueOfv`xYv}KUx{vF;r2r2dH;cH
zE%)UqWMFuzwyn7BnTAJZ)y}Co_!|0XA=&Np_V&%fo5b7O(jVR~EfPxqu!8%T=}<ne
zTVC}Ld2i~`leZr76TKhbK2bcfIzHyNubuJ2SwFnsHRh9oAHO~+ekVcae91nM&o2~S
zHZByNAj~jhck})10*t~%oi8q(GMPSg`_p^n4hoOmZ7dfkWMm?yI#a|Kb`Nz<uyawh
zZAtT;urup%WU(^dA<`q;eu3a=ywF_LbCNnLSBpk8(P0bYjMzY)gXL)P`FaYi><W_<
zZtvZbv;&#FTjRVOl#99D_d0Uio(mInH%f@sax9||qi4c+-OJ{j*Oj_@WzJ!MOYrOX
z1*-b{$o)H6bnWI-tPL)r^uk*!2O8M--p)OYVSMA0d@qY5-L0Ez5_^d!TkmjX?w!W+
zXlbb(RpLv0r)@o^DYuRdOR<b~gfKp|WU5K&jI(W>QG#n_dNUH$mClBAp~^*NOzwz_
zMm^GQMQ3H(N#z~%Ni{HXtNy~-()ZNg*p1F8sh&B&+@5Qv5Z#u(6(NQh-za`$jA#Xq
zwxDZpCTrrh=IojYoi1eVndfre)7cC|$GEnJQo{WO?@hd?i~72UbaBjD%5PWs^~t~~
z#c=N3aTJ%cmKArqQa>B-%CVvLOo^%3W2QG0m`Hz9$V^E>QH{@unyTG#x4Z0#xli9e
z-<;~pe&FH3^gd5_Nb#Fvyw$?vF_&2DJ(9)U?UAGVTLtwUnk9<6J6`vehn=UdpU~02
zR$O8IMGM7vexxiVw&K8)LnbmcGHc*qlH<<ZJ1+Mws#zV`&Tn2hTo^kzXVh1-rg8M~
z%mvGGpOsEhrN`uoQs}^ubeu}QYE=uxienLxJ@vr$Q}7qT75n$B=@~tIESBd;DQm(-
z^El+Li>$JvSFmN@$(@p%8ZBD8w%^*h`pwa&j6Iiw&Q|VR#*CWtn^Ub0E-8kdQBf-n
zbeEIjM|bqKZJW2N?5IAj*)`)Pe>YBGI5@&MOz?$(#Boi!Y6s<jc^S)0ShmKO{6cme
zL_`R3JfS?^NuKtjNbaJReH1o#Z|&(bm2}UXlB+#Er1_pE&Nv2tBnICeyz*i0^_w}`
zkL+Td%`>p_mTOJ!7h}9t&Klfk%{FKvXzR-BzPYqNsO3JzuJ_ZAwqPIIXdG+JNqu~J
z{J@ET8A~=Bp_LkOieN?)drGg-9(nr@d&L_O4vDf9wg)d6AE}`Ka&IhF)hRc#`igSU
zVO`0|l&Z<tlmTHsnd3EI2Rd7&0y9k|>Mhev@ebbV=1bSg4cqxTh4w#R{U9m7$jlVH
zBk@z_xjnosIm4?BW?H&ZX^%C}9XoSSHFzK=)4{u-)$3sUhZaS3&q|->Nt+J;>Tiz-
zF6T6#X6jywy}cT$#dT8Dj;{H58^L(6S?Rj`hde0)#|_bDedXrp80y9;=0gJ!*yf4w
zQu$~bCazSGj3TccujEG!jED|N3CZz$6L09pGTA>rbxWsztc-i4v#hsxAc-OGlQK!s
z>Be=1^vD4RRvPn0*Bj;na)Aa@wxnvkArAAb7j;$xdbe&_9J-fy;J9uqR!{lLm)glA
z%XFV_LrCF=oBM$o$UYJBlPGB%{wI(iJ5z{g3Ag@9L;vp0e>hYOQW|*C|L~>?DY_n1
zC`Q#~#Ym}bjh_cEd??skn>l)NSVZ{Encaii)sLpv>X{q!CSlJ;oP4w3RdIe%&aK<g
zam*q=Bj$DLR1c@!yZqyWof_8WA}uo!j<VI$hJ+ooc>OCEOC<_Nqym`x_gt|2#JaD(
zCztmrPKsWdbm$UM6l;Iw%gM*VU*phYNA;}Tj7o#~<PWPIoSvrDj1jQU*fBM(O#epb
zzOzMi+A(!1<#&rW9|Y6C8y-E{euK6o^O2mWWBFT>k(9@d)BL>ci^U7CFAcb=bgz_)
z3omI6L}7eH-Z{5UK5c)M^nEm*S~u~UGyjLN>mGelHuc7`>UIwMeac*75AI(!;COPo
z=?>$zk8bL!qQ1$`W{xyHVsK4&+a93vnTGe$$R1s0)4}25{qtAl2YZ(JEc!`&e<}$L
z0hf(n1}XF3ve!>gW^07gQO!399N5CqyGD{#7+5<ZZglyMWJJVXR=O<s)qJjdXU4`R
z%u2@hKjwTuV?PHwb~!LLUL@ugkzp}OTVNmT;IM1EoT~HGWWcS2D?@Le5NHAm+t>D*
z%(Etp94in%&$4DODzypI5c=G}G(d6x&9r*5z7GvQUBvQ*e8j?)i9-tA1xDt2@9r{n
z)eDJRL{3sYp=8%wU{jrqNn__jA4g21k5{AR7GwvrybjcOSTzxwFt(Osa$*nV4yzuk
zGTL`O@5=m6!l;xHjzo007?hXI(3uo{jn$kap5dqTB=w!q%bjkP;T#`z%0$lRVy9Uj
zEF4R9J?_VT;CjV`Nf*CG*H!kNXUg3Il%IA8vEE{e6-oEyH(b54t5jCX=B)6mrO@ZO
zX^zK(jI>#ir;e9(ICoOwd(PH5?P$%`<yB8Ogv~6M)5a}?F2Aa3SjKxNe%P@RdF;iS
zICDrprQ*pgy5Ft0ZX!Ggnr{>y2L0c{!x?IOG$R@7zHokR+|u{1UZf@W^ry9cqX!&x
zO2Sn&!glt8lnB%cA^Q1B3hvUL6HY#dzDgX3)VzOnOq(Mt<K<!h@Q1rviTju_eDxWo
zj|y7PGPbMZ735jb1H#*6k#$@B1{{ZC8u(vU3L153q(A9rTY4-;{lK{D#hY+8_tMY4
zU&<KVzYMYO_Ya=Ye$5^|m0s3J9OpdSVzyPm@U|{0Bx%MiPb9B?@5NJYibtc>GWI%+
z#oW8Mw}*N5_MFqJgZ$3cBbVLni#2rGp4?^9*H58aRik&R!oJ)7{bcu@hW;-s`}s{+
zHxU@LdHF+NsJ{@{0YVBjKjXu|NJZp9u3@FSmoHc02Ubtkrey6;THx<^!p@TwkR>Qs
z?$|bL;Q)6WGuCUl`{^bN`<3M}UV+qD2HU7)ufDQzj|&Mq*8J1D&1mQGD`(6PZyUI;
z*LP^UlhiPcy-Q9rp~EB2n!O_4@9Je^GfiY3V+5(HDHZN(Qn1vKfS#O|Nfx;fJO61|
z!k=)0`7HxJo}Y7SMJy;Be=2`AaGr9fkMf%J$O^A|-Lx=#7yb4=L%Vl5uOp7!@h9=#
z+RNsvlC3Po&foP$tY}-dL0RRcTq8rT62;5YWfxDrK4K-giM*iQ-9~v~3I8oG1p~PR
zHGamogh<4K(4wFhuSTh)<NS+jRN0~idMBzdLOrZunvAH_>*K;#bFYQnja7N?@#^iV
z`|wg#Blx2rmT1y!5k8q+mL~_Z&sN$#p-~;RHRlbfNP%__;mdtkgzqlmtf`hr%oTxz
z8BBuc1+n0Z0ox_!+VPemDGC$tmqtc09fcQDAMA5~kP4G^?4_1qyFKQ>t}pYjPTMGs
zI~6^{TjVbgQYPPiNp{*n|52G>*5H!^!&xi4y{eB4IqXksBk^{w<lKC8iojXBJRXCm
z)sG*Vo?T{l5knZ&@mQQc;m4LX!ZpRkmf>`g`-Q{WD(&~v76O|{5ZX>}kRXPD`wIyg
z>3Xy%(G5>=Smi!mIM*F$ba15pi>IrqQHfZ645}3w@*wH<Yh7zL@5qko!`Ce3i;hcK
zT4V)A*Tu#QD^@+vc*kF5O_HjR;n7@VK%W;=EAG0|o42Bp9!Z<De<6?IehA_FI3o03
ze>qdlO9ixYxzMDjN~?z<cQ%_ctL;=WXK{hSMf3YF4Bx$7M$;Vij4NcY-@QbClSai|
ztC?~}X^Yxys>#))1ScW(yPP9VcDrq+dT&r%<2F%C51ws{E_qZOSFhHrctHR2-gG@l
z(^d~-?jv7Q<DMQT(TJ5`7gHB|4p#Osn8gILeIk6-TAAu|<ByW{=v$0=&4+10vpurW
zCD`O;jBAb!oBOd|<GEe)h!n<`*5{>n^X-ZDj|aY!hAq1M>V4?)m0s&BFVrz#)2L`}
zMk}6=7Y)jnDBqb~uYtK|yN$JPxv8CM=Qp4FZP?4M0yoVB&fT(8i$CM$t8j<9Pj9}3
z(AUI%-);VUU)~K2MvOmvs5a{8TP6R>h7Vp<7x!VN^W8Vm>F-A<KR}N3U%0GFWR(HZ
z0EtB!BeBv(NNKzg5`{C=LQPQ8hh^TjLf+ere8^QSK`Rk!qwIibbQ3f-F6Q0Fkl(iL
z8r!|_c1N#5iY<l>+}k(dXp?gc^xr(E`i9zPsDLAw;{2?{fB0<uWz{UzskQzG%#j3Y
z`s*oY(=*K&SWpps5(+EH{JzrPcAdx{tTPWv=@?wgoDwiLTrnz^vQx2+-qoGQx}cEf
z%4S}1=RHB<QkHK6Enj2}H71Y3K13URyLd8<pM5{0-)?4$g8MbDc1^D=dgbGvdwkJw
zB<_h|N_0?p&J`LBe@l6TOClAIXGfbqqMBpsV6w33FWF@n8!n#OM^DN(ZNAbuRyo<{
zFRd!MI943;{<E`bhD~Iz?nkqLBaw=kC0YLOQdELo>dOgq^1=$xa+2b=f}3YN!anbN
zXteOHV|j(=I!o7AtDHY2h=ERqHaw?<ztE|A{5@8Hov7DLl<8rxp#yu)0!JFZ4Sn2Z
ziuqjx4MSC+1|Ln@p2M7Gv^w_B4HA{^y!4UmcuvFOC3148$0R5H$uXB??SrDv3)lkJ
zn4R_{6$kd(pI>IM{~{>A374C}YwTb6FLkh*sG;bF?;3lBX}!!y`f&3Kgsv^m={@Tj
zqqlJjcxYVY@Syy*u%J+X>VXge)v}_mSRWyQq7`j=8vnG!Hdo!U_}S!Qj*CO@$19dJ
ziUv6?KECTM?8-OndeBa2-<EfQv-U>tQ|7^iAS<of`P44{-4E9c!X$_zJ}_Zr%bsJi
ztS?x2u7!(-+m^dZoth(}pRRpAz1?a)WZAAwDs+3<RKq>yEyb7FZ_>1L552>SI&V2x
z8>@Z)(qfQ@f4<wLgKt)MZ^1AleHx>MEqNMxN4KPhSWm0RpZO-PWN5DRwf&j@y-`$$
zme=;ltqFI$<Xf`5bY)s8mCoFG#TB$5JTQqkbS*l2f!?py0a1Vd!qDWD%2~Q&SGO=9
zc4)d<dZ{>l?u~r-Cnt3ujku?=GP3+B7LN(xuO8>}T8vvsSG;l;thjyX#XG*2IS8vy
zZ+Ga<Ml^4toy`C^{%?#Zsm+@PY<}jiPzobMVIRxdKCry~em!dGiE<E^3ZvbD`{h=L
zylqKMiPe%Arjwf7?^-{j?dzYJ!9}L27?Wd4dka4Mw{Txsns{b+?NYuKLRNsSGiAI~
zN$|MrjkdE@RhVz2!+f*+^XzM4VpATr6jE2-DXkjuy?>fGXgHIdmnbIg%6oL^P=qzB
z&ak4?W%T}$J5&}g@1&I~49)N3^_N}TWU`w8cj>=?o)~mBSOm+l6l_u3_rN9{x57lD
ztdtr`Vs5KQ?a*Ruen3&l7<yAUCp_9IG!yQ=tp&bats*OiTa71&BKhH%4%HUn;q4up
z@UsaP#{R{|b5nlOx0y=q(37C;r0h-if(cx>m$r4wZ6_v?O@`eJQR4n$)1{uQ>q8Bv
zQ(L|eE*ScCLjJ4{5p{bF&-BOv@1IfpEkZ}Ih)rUOBM=$VvDoEM_2wACRBjgyhx*>k
zj)T(`l%;aU%~`H7N8j2LCu*L^ZEe~0$eK{%;C(61&%{s6ORqcaqv6P^zj<niCNmK>
zQ0BYaZR~-26PJj_xvTG(mt)`uM2t0C=HP=1v?B2#X{F*`=iNT_>LQt`zp1ciPQ)s`
zWejWWGG3Zsn;jqbp9-__3}n?B+}57V&&3n&f8J{CRp08JHSZ|7?pxf~cF(^$mf7du
zcEm1))0ZOlxoGi}tCU4Qx9sRyOxr}!m#9a#Z8GXk>CLb1>+Amfor+h~@$)94+yrc*
z@R<LGO6o~+Y*hS=s=@p71Xl#96uTYKqWEP``vEtj#wTX*Q+4d&Plv)|ro&HH36Ids
zU!``k|M~{+fn%GX_6s#F7<W!J3c20ll16&(jQ161xXRAs$Q+b<i92_jEa&K4{)A7_
zyGN_4ULTKqylXc?I2RMv@qmY}YsUEbDqb$XwzlJYLEH1P{uAP}2W?%<bsy4KpRaRN
zqJM5o7%ElR#|M-Bw8>mIgN0xN|DWe1IKw*k79`^=j%EiEenPlw9IlmIee#^#P>I%)
zdcK2)(S=r0ejQ@wwu^<TerJk~UvMn?%KR~DJd<~jzt*@fJ(z2IdQ6}WPer!GvKIrs
zVM{ifFT?v~x&`r2!$!4SkN3+gwdQO}J2}2`OlOy-o7qt^#YSEo<a}j1B5GDsy5cW%
zo0i@OWj<}ptbRtcy74%-#9*>T&RZXI*qTQO<xbm3nc2!%wXwiPDm|g^4xw({ik7o8
zGwOK%D491sp|PRox`Zf{jb%y|Yiz$9t(%<6+AAVM=)0beYGB$wscSTP=yqFouJY&#
zM&9XIf&p{30o~FFCH(YAqeg_{t?ouCsw(ZeWA-|$IS!%?)OgsZVq=~M3wE=erk(>|
z+om5l8oDK=ee8Y1{NQ;myB)8mL!RZ0sxQ(kl_6^sN4SF>Hc`bUXbz3~izisY;C4JU
zit(X!<W953pt%yK?XkK=YfD<Ip9Ffhs~d^ovQk75eyPId#-p;w)0>$Cqh5PB;DyE1
z5ogPVmwRCELt-X5mPekYSE^z&oCzlwFk)AB@jTJRXM2gU*XBNN!hB|OCsCQ6=B==V
z_Y~OlSHXSSShyJPWwFN!FzV=UUAyL!c=2%TF2$zzsvOBF%#*k^vu}&OOxKMQMUp){
z8(tmGDPg8!-JOzMFKBI6A;re(f>YM-ZnTgLt*bu#eb-IFT1KT$G0ooDMhSU$UA+ps
z5wAsz2R0GWCh$_`ZywCJI;KV>omy~_4fTmVpA-#K?~mSP+9vE#BQm03#Y3MZ>Vaue
z-FkshBFfr3Y$+YdV5Mo0aDMiZ?X!j%>iCaEMjz%`QZLMwy^4BEL8-FS@lV#Uo8UGy
z<}Y@r`UV~DKzm>6U^rys^zJ%d+F1D;-%hGNpijwg)_s+?m};5+fVeD3@a(94t$KQY
zn#-a`PuKN|@0S=U{nrdkwp|sj(CM^#>`{T$MhrH|#AmqPN|-7MjxfIzurNOGL^SM;
z0{Wg~<sAaDRN)bG(*By(>oZT}(uAmDYLh;w6vE!}J{8VS6d%qsI=^4?HCM*P>EPoD
zTNGMG<Dd7oJ=_teaZ9qe_h_073zFTqH_f{=IV_cZtE!XcAuK~-`-31A-2He$Ue=u^
zFB__dl@SGnSB>gfh!oS5)<d%6Se@{ME%#sSjr;g{>y@vEr8kk=CP)&C#Q((tWTbmT
z5Fp8A(V9k+tVERJfuh5A)F;0WCzl5&=TZw%J9hJ{PNwdgF$#VFJA3!DgypNE#rcjq
zyI$+OuMqZ)ewNyOmenpM?lRX5_pNYl0lEqmP27|aoKmlAuPu8-cco3}-F`cN_kGVI
z{R=X#rN0e8D>;gmmFreKGHAM&C**$j)bR^1FeZd3i_)EGb~QQ9ZT!+{J2;jHBkw7W
z&uKff=i2e;#C@WKn@lhdo=UE~aJ5Kok?=LO`*lIL`PIIPk1-NS$`m|F-tvZFQYBjb
z^Sg68a+7h$v-kOu!!O3@>$_ph3d1zRbt4~@$)g4;d$-VXdK0{54CsAwcb*#llyI@F
z=)y@;QskUBLGi{xt4jyv{4Z*>P-V|GA3fsfKVp>j?nR)CrQ?#qt2+x_-OH$AuTrH;
zQbBJUj`5vVJ*jrB<|xDa#yQUJuE0q4tax^w-uIuW&!}wWe0h4jjsQ!IDtW&(K=_mG
zMA6OU&(pBi6J6$))IZn6zr<459CC08f8Dm7#yK?{`#s_Q!LMIwS>If5-9){cKv6XI
zFCJNa!@8^B9R96B<aQZw4Brqa6%f!uT*DXSP?xBwa%gun8P_^Iunp1C&`OYEao?%y
zRx2;9Vto2cc!_JwOloOXQKzwle$R(d^J|k_W5EZdpT1a%K1`Wx7=F+;j5$fJ#%5*E
zb&s1Ng8(YZ02AtRALd)bhN9+<yXC}{D#p0~S-04sFNn*;0kQG`<avR8H?o~CAF16P
z@K%&oW#D;QT@b%M-Mjd$_MH+|$4YLT-?Ceelob<aR?pP-grAY=aQ4<RufF(9c*QQk
zLYBj{+)v7nsq^|(bG>h{Y)!3u)*WIPGHE@>M|W?R$VxE9gI(5#H<8^Y$QFb73m7kH
zr0dfHXB_s0S?6L_XeZ>~kZJ?&tW~9)Ro7s)Swg*ziqSc44zIq{*IXUnsTBG0dTD25
zx7KjGZ1lsV*qRi{$Y3>z2~@LubNGDedtTnvvd)f5+E&EiF&6PpPa}x@<1O4nww!IY
zoD*i{e*9O01B?rrN`wZ+W7ia0d?l$Rk8AXV9+|j!Jz;D$WxLCAru&m?LFIaKR|?8^
zyB+X7yyu98(`{MaZrYAd*9KUP>L@uPZ(|<$zTEr7RO9A$f4tUFD>u)CZ)Q3@ksekW
zX9SZjmI%n_7Ibv(fxSx1;q?)tvYpAkM)KKp(EIX*PTaZJYK*qy+Xk(Qtowo1GL_#M
zjU8_Vigf$rKP{n~uW-`s=^<RZa3|f|nRJf5z96Ezb^n3=4Tmsq`3ao#C3fJ=lM6?d
z9sMxd5o1H+>>%#%Ul!lJmpk#DLc;gB?<Q*51mH^}|9ip0VDQFZ!-1q^D=LbDO=_f*
zHyn!5X%A`GA5v6yN_2)v2r?w4@0L<!ut&PvxfR$r+HG|(hoj)N=$gk{GPBvKHsNLy
z+>b&31v@yf6Q=>|XSZmLQsKgZM<1?SiERMqdhB;N^^i8>q6qWHx(!c-hYOn~Ecup&
zD^x}k=dwGET9&t0a&${x*X(AkmV{9ovMZQnAvgt|b}voK7JKPj3_C<u&9STgl=hZW
zM^|Wh3o&qmDW%prJG2p1xX^&Fi#J`2&z_i*1@#wRh+HkmTT(F3didh3Zeb6P{{Cr-
zmIp1`xz^gNxmlSyYAG3SLn>63q8d}=6*W;Ep|kiH_k5Z?Q@n-3oy{Dw<!zMpj@i!+
zPTSn)JuMn{h@rBW*KN^~J*|M}>Nxixa`Yk6*e>s7InC2aJ7V~|*W<YB_oL?w&ssNm
zy-V*pM%U~7eb@E}WA>aWp_-Q~*qB^o8lxL89F}Q0{DGao+!$?tK3js(-g(dEpoEyl
zo(q+QwykZv79T&bn7lcDdJ{!#wrltc^oGITG(d(naj0IyZsD1vGTNl)O)xqN^A~HV
zdZI2fH9y$e<>V(cw((7Qqu)gOuFZv>_h7eIh%^bi9iFEk<w|v)laHUf>V0)ddV;#S
zqDhdEDND!L>9W>`{LgbG7Q(f~qWBGBGj}FS5<RLzhw)4|ZloC(CX~lsLMDE?>Bh->
zB;QiNFJ<4UW--L`@mikt!oIrE{Md$*1r#XyO=hzR%*6oo^xr!UBZ3D2N^ifxLg1ku
z!}Eh+$MN+pQ^_C)l{d*KRnEf1|KaIKlUuW-)thNUY|<0Qh>^|o9i?n@Mp0VD^``vK
z=Cjb(t8q@$?M8+7CkiIKJHq!h6<%g&Tdk_N{<@tfk=Kk<Fi))!-O@b0GyT!Ka!1P(
z=`M|l0TDUkeUfcvG)B8dWaiE+=LJgM*cyE&EBy?N$24a93FY^>n(-l@xJ=C8y>q*@
zz2agFl0*H&hO`(7!4m$4d`p<UDE8^0UFy%3!-P{Z2`#mxr57tb6}jIB;-v4&ioLP4
zFt>lKxN9!8RRaAc$ZU!9p|9-}19m?D>(nzwHY_ndrIq&T5Fsi*%g{8STJ<bb7pjf_
z1M`I@ZhD>1@*H;)h1q#h+g~s<<()jjdnqmlKT0{7zt5eMmibj>)8X4;oH{#PQ<f=8
z^rpk!tX+S9tD(Q2k7q7)Gk3iSz((W#;#^PCP}_$}nXax|d?~{5@(cS6@zWD){d5m#
zw=%^lkt|;2#$AL<9IAhvT<YBP0)q;FL38?qc)z>Zgpvtd+ui_|=l?!viFd#|lfLt8
zUpb>=8Ozr=(dW}GFHzi1)&0b$+h(n=D`Y8mlvy<kv+vM*W-I8#ye|tab<<Zt8a}0A
zmSLOZVY(B;mVk}a;*Y#?uHX^1GF#j=jd;8d$CpAxA}Q)%d@*X)SJM4Rx4w*P&#YP5
z;zTO1wYQYW4n*1RrH^>39fmGti%MFJ-#l18`rbJEB0zWQ(e@|f!Cf7T_f2eC&h>jJ
z;h(*FQ6D}2CGPsv)aqBNBQ}=Ne;PP$lbrzSZ;s{lleC#t!STUz&ix(55tzm)`MXzY
zo#*dfRi*U{`#J&ll9%uC7Lp=4OvfdNpW8j&SP8d()hn~sQKQ(5QXa{dG|TXB8|-BB
zy^lswR%vt$%I7z-v{})yIb`rPG{Oa}6IV??n4ewhu9h1~ti9=YL?OR1W|pp{oZ?XE
zx7xNa-TSMDpG;(k3EQ)uUJRQNFv82_ZM$VM>vQEy<;Xd4FV3Z}y{hl#Xl@D0zu08j
zn*e##-y8`mB;I3gLei<uufo=p3I;^;jvu&u^z^&6>w>y<3_+CkagjYeyRKw6McJGi
zZ+R?i;=01oq9iQco@K*aSn!xfGdajkhRcfg=B|WS71N(t>rxy;dRkR#g`Go#%Zy!~
z7kRTc^WbP^L}zj?)o;6fvBYTrn=*o}O!2K@x*ObW+`o3YwEp2L&7EUX-#3}nCiqqQ
zFLoyiadOO|NU|<9olgkSszis4o-7o-8T)NXXt<@<#v+-ry0K$IvE+$Qw~*ZNZRhwW
z4(+nIb?w39Y{uB^xVua*M)dm`iez>)Zo<<hxDbu{i&uF#Ljp56pPF6f{H`PvhX^>3
zzqjlA-LAM^Q{H=4Q8!chvlflc7W2P0Rt(CL%Bg+c-+2@}m3~vwH?*dz9&t6LF~%|a
z)IFEX8j5Ur3f2DJVnfv(ygg3~jrW#6r&c^u?ZGl)e=97bihn8wZnu|PLb<C%oqfA|
zw@3l*E;t?-&6pc$H!f^V=L*|OVJfq`f4YAmP2s?vUJ@tzX({d@7d^YWfc$Dg(KGh9
z7TCvVwx_MEWk;#%<-Q^JZ`s1`{gBe(qE2e%M6+kbQsve|pTARF)HF%|Q$DEQ7qRtF
zWO95lLdDjX_@kt6XsBi?u0}j+YwBlg>){KzA0J<ms<W*Rc>jXXv;9#<<8Uwp)JBcy
zYwzRYMe_84gEJW@co$*pXGbCjIzwXscf8-$9fS+3Z0vfyy~=usup|lzLX#x1;5ZQ_
z4c_aZ(7=&{IALfAeOr=`3ptKh3W<cCCh+%9$r^@$m@@$3%^;K-x(8y9)jdEoFckd!
zE9m+s35HN}adaet&}ArA*%A&#WB7X6+7saza2V}H1R=~Is2K~WV5&qP7hhL67NC_N
zqK_vW;pqV;LOKRYBxfHYC_93fXYk*}p9n+v0v-{*M1P_O96@w(awfqM9xk8(9=Hjj
zx1X&WoB&3!g(K|X2zxlf0Z>7_GmsC61b2obT)+hw$PJEghao^0U=S}j!W)i)EEwnk
zbms@e0y+x>?0|?a5bKOM<l;bb24T|>68b%CnyiYSZ_9qE`Zr~fCHp^U28i9w*2x#h
z=C5?5>`Rsz0S!)dpb;PeN}@4fHBhzn(pnb<5{5AQSp;F`AOPOQUfILRjR+V=7?X(Z
zrcgoOHh?@MI0^$a@GB&qJU?hUmT){0`Trxq{$KmS0MTNB6=Ly7xC}-Hj>q6(1mN1F
zWsq>RG!Bj-Ajt^__=N65^)bK%$T=`EQ2+myU_b9;KwT(7ef&%~3<?+tBmfyKNT4Hv
z3|t!QvGBl(abR$1DB;j>Gyw+#3696%;W!-V1Uy#Kz>KA300Y3}$T@T$0}=@Emj>;j
zJ_#}ekgwCAoIDwfGz`iiCZI_{36H{%+v32)*ZTl<!MNly*omX1L8w1SIB5boCjd8(
z2Xs6N4JNogE*6Z71Llk&K<%(_9LQyWu%Mir&`>=*SqM-LjZan@BtXCe5GV{969?Lm
zh4Pa*C@0$wG!hoNKtdvd*oLMC<sgyu0S&jFU^p;Ea!W|QzY2iC^)Aq0#?T#zE5JF_
z95RES>iU@jm4Wlh-+I7GgGwMg6Jj5-gMYCK5y{2`dV*U0(+k8D5(y*U`_TabPk{eS
zkRhzw0AvUMPGngFyMS!sw?wuF$R>U!vaS5E3CJFPPY_?^YtRQ|8$S~?b376UbO?Bb
zY+#c_kO4Y@>;kM?zo(xz@iT{n0`v|e=TP~#MAr5CeW=bq39<`Ft5E(cr1f`PX$uD$
zBYUBLmTz*{C2&i2aG*o-Eqm}C%6iEG4)jT;5#eZPqY9kI`htaCUs8Xp+~^;!4O;1e
z1lOC87k_eG0_fcdn8Z5S8S*LQo?L+OuG8G$U>4+Y+`)sgUh)9;@S_B|3Gl3wD|o_z
z@YhQal{^*<xB~J)IvD657xiN}Z^&7Z>-)mN0pfaz?1ey-=K2+IOjz=uz)6u^9rnk-
zz|s8}b={u<b0D{XTpWl_A(#DtC9anO!NUTTV8H!=2akN0>=$wC!~R;Yq3fUCM+4aW
zdRM>h|9(=WjQZV6|MO83LRA@bg0Qy*$2^dyQ%3)f)qqR<RSok$Rzrd>kD!WBuBiB%
zclqt4=ogESgnmrn7ZDQH&w1%Xs|>gXD$xg1{2^<7G#uFdIu$^fbvgg)fZXC|59@yU
z=Vx8NV3UTYk2}CiKY)?66b>#4{ri~!D*73?4PmhVh}*^(w7)_dEKu4BDi}vvNm*~B
z+2d1_l*w&nwcl#X&3W3TO>pAx>iOR@N%(6fUp>Yd^xz(24z|ChOorz)6~@{)dV!;T
ziY+(mHf8iT&Hebc?tdXoY1H2{3OMblL~f;^v0fLe$q8mQzDEyUQflXYNUrhPgGWVI
z)XJ=C1(A9?pQ%?L+EMxzT~m`&vt@}{Y?JqQWIOr)W){Ht{r61VlN6Xk;f#?Wyn#X9
zNcn^n&z-1P)cfzHa0_)UEf?Jvn#0QAg-M=+%}rz4ich2HHa3<aJ#QZZvae32NN<6k
zhvvO$$|3o1iKud)=0n!CFACtX8lilP59?x2cDfz9a#BT5g(bd-!sOe_H#<KfoiD2&
z6L+pYy^n_&8t+`h9$2KiNwfyEs{C6H>)%KsbX^=Ev=00a^lXtoAoK$;le{+k_yz*^
zyV<IOj{u=P$zHH|@N)Acxw+WE{V`I~QYZ<yGl}HoD~mw5|8q;q)5l2^h5(xg2S0o8
zP2umYyc`_icDDAeV3Z#{hyq{>b?@Top$2__xmQgVjYMOR7&IP<2m2Ul3sDH1|6nV?
zhv*0cfB**r$l}Kj05cqL1CH>2XpjX!Ke)#a8VZYtmeqgLFgOswvyp~Jf{AaaCk?Ie
z8)<m3d~Kx3fEE8=G;o0jkJSbm^m=6j4ZMQiI0h1l23wdv>iy9l3M2F9+yK_u*cKd<
z0ATX({!m!VA3TFy(Vy}|5s<*`K)+uyg*x0w!=M1L`gc7f8V%mGZlvM<oG)7X51Aq{
zNC3z-w8dZmu--_+6E^A>M4m#<1N!~LGZKphZ}K<N@DK*sP>%q4=YP|1C}`)jfd+xc
zjWlWeM!6ty1OUJ`)B}5mKiUG!`e!{H0H7P&68@a8H2P0jNn;_*1O0x<0ASTW#+3n2
z+{St`xIgS3DMR?f){ww7{*W^P`-feDT3{2iffs`GA3URwD6qBvcRdsm+T3iU{V8V@
z5(3N{>Y-47%nb!L62I92$;Z~kjp#%Es@&KmhzQmfIKs%&6Iv3<=tJAX(GyNy63OQR
Yz9d^85_u^?VP){(<8)#50~)aZ1EOsslmGw#

diff --git a/tests/triton_tests/plot2.png b/tests/triton_tests/plot2.png
deleted file mode 100644
index 94659c0a41e63112a0a69da5cfc3aa655e9219e9..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 51996
zcmc$`2T;{Z_bo_JR6r3$FrX+%5|F5Xl2i~0f`ST2l#HTC&OtFCAX$<GMGzxM5JX9$
zNR%K-4oVbBk~7R|zyHj8GxO?I&8w-Is%zbQ@o>)Xbno7K?X}kKduP-XH`4B;rJ$hL
zsB}tRgMxxeje>&m+<F@P<l9o#1N=+UK|$L=)5hGv`I4O(#pz29*R5?FtgVdqI+@wo
zTiIL_Jt%%qn18ROgTr<EBZ7ig|Bn|Ow6U`gY@=O&7jLrR`Y9cI3JQix<PYUD*;FeE
zipqOR^2g4(#0|$gyKGZvD)ydz>bzzBEjijlxAt5<K1Ru;V5mU3HhI0^>2qrsQ&?mv
zr?=6uZ;^lD$3w+lK<jtTit_mJjXy$;pDGwwG|5xBM!SDsh|i>Zf@@fOOuS^)huP6Q
zQHvU3Kfe&grKKg8<>{s!(r#iD_*w5)@vh#VAAQfI>BTS$Tr{$<DC__FaI!V~_~SD?
zOtcE2rO}DuY5E`T<mTpj<vWdB+$nxdb^6bbjJI$5`l1Z`n=?$-awY%Qi_h*g^bZdY
z-zsj?xn{4lbo}n4PIa$zL<`zKe!TJS-8(AAGymT7cG9yD!P4g!-(Idxlug_ve(f(F
zA|xb4t}W;4^hB0LZTH}yj?wW0OtiQ0#!PGJ=QC_C7PuX%m09HP*Yv%4v-yLwAdN4j
z56#A%KSxHs*2=ExJu3O%U(VGyFFE);HNm*y>FK43D#3SodBQG#jr6VF+xF0yRYj&K
z2JcyW;MspY@}=<f9o*z&c$oaXIp$++D^Iz&NLbXwQ9kmRpIEbIjntbn{~m*fNg>pO
zPwnC1tH$La`{E>QOW2E)9~|(QX|c$@*0FHowkDPfZ^WbAd*%5xe0H`?*Pf$CkG^*v
zQ~UAaJf(!&6i)z)AQvz1y|-7IzP&jAl8WWsBcT{oz4s0qSXfv(WK{kwPH7PX<31Ug
zJvKHrfnVH@vX)16GqJK(mj<x36u66<RYqj+e7OFL>f^_cb8~ZVt~90PA6_nhho8vE
z$lMmV^Pg|RUNS#9z^j`xEIov$8U6d~Q~qqHyG{g`Po`Pbw<2%vr)u%BiBH*f96Wf?
z$0<}#U!N{}<oow?jjweTKRAuN$;jZX%h^V&@bR(COWM+&kDpdveJL&d)zkB2h-Q`@
zoBZ%$oAfScN5>TH4C8sLh0sd|3HFYTo;?2HPo8k3rKSC;(tgZS@~rm7@o|^G&tzWa
z33pUP4g6&>^a#Z_36G47OyNIt=mGwFvO7SqKXtGyNI*BoNND@iW-*2Pu9N-STsbeC
z%^shf9cWOO6^JO@NaH(tO8me9THlYwAAQ%+DMYp>$=K7DhMz8EN~NTx35kq6nPvV}
zJI8v5_v*4Z`6IjZm-=h$Ar1s0UT}T1T{2+mon1PM;**p2{eptNeEm97Pn&W^ihX9Z
zqiQI<$e`KyXHU-w2M4hqFSP`%&yH582o`*<2<N8LrN4cAJfyryLm!bZyq(@}y<pK&
zrb0|hqtpk%+^MOlB?ql!oQTq@s+Vs{_i}Qs)zxh)VdhZO(9~RYRN1GnoX~rrFlmeP
zx5~;Fr#u=*@A~>uZ`!o!-+sBA>b>&CsybRYaEIuf43n}ys}|K&2fguwwF2&;dnYwI
z@?9tYPEGX|-=O~f>@2l~g+*(wjk<$FcB!j<fAu~gq0R2@?k~<gFNrervN|hc*L&)K
zR$3tTp|2`xz?VU0@1aBI1=+-}u_ErwYvLp$__Q{;yD#ch>|$j6m{lvI@?0b3x|7pW
zujK{n<~PR#6NN4v&r!A+X?;8Y)0e@Hv&dD+Z17u(m`x`uK8X3CUUbT7#!Kz*Z08mh
zj4dqg=H`l@xVz~`mFU5SXx<C2womqd&H6oXm(A;uRl`#W35hdBUY=?RQWc#A?$5Q-
z_tezXIQ*`=fyf=aI`!vAKu!EnQL{=WoF#<}<I-rMOH@`?R{4`PM_pW8&g59@l$4b4
zFVxgZ$H;oiAYQm7C0mkS<CiA?yi7ND4#*U8pRvv_C=iZOWu7M)qQHHYX4Kp8*h9&9
z30rn)x2fVEKOQt0ddFXQeUT)B0Jo+z{ZEaJk@t6r{~0igvpuw(zB)$q?m&Y3CPhWX
z1Lt3Su6)2J(5jth$NAvE`I64ggu_=`-?)q$FD)<UxlJEXQc`Mpx|Lh)ZwZ~?nLInQ
zi@Ddne!0JEd~)(rYin$B@_u%9_P+>R?ALxy&Wx*Vhw+OoZ!S^qKH{)<?_QrM1Gjs~
z1ew=5jvxgpyuJKmyOfKNu&}V3?7e&Umd3nSpV;<%IhSq_A1t%r_kd69PhY<iQfjrP
zy0ikG$YnHdK*DS3oxuR|w!`4J+n0a5IQ#nIp#---yekVsf?;7{+W9WRhc17Avt3tP
zd;95!hf_3Cl(Vf{!ctVCE=DXaE>14bb~WVM7$RzpW4m;+%<mg`^;K@8Vc4U3=FDbF
zN=oc@oI(I|pNqhGjX@>V{;``&$v5NPRWt=QytD10RrLwv*UbrBOUL}irc1`y*!bDG
z=UWg3eQ%o#8aC!!%(nc9T#^;%zBFfx51BaATggYh+|p!i^+Rz6U0q!R*S>9c7}(PI
z80c6Inj+dgR^|uRtX*sSvzT&Wdgw07h_w66nrwY<Jm9CcwueQlD-RK(zq-3i{1`c=
zywnn9zE1R2%@3v~zRAq2d|<s{!v=@p=1?416I8LK`N_fW&$s^i^$TJ8?Sr$;mteM9
z5`u<BG8F4JvHnC-T$*Z7&x>UH+2Pz}_9bu!KHcnPvw&e?oVv{XEl!olGg#GwhK1FS
zPu!jGC@2fsU6q>X^`fflwXV3Hp59#7>dIXlGyV4tm&o%^|Ik{HM14rIZppN6%efza
z)cISgI@`)z4@2ysD_;_%-L>C4@GdXTre1B!S!n#e)V_66G~cdIxnp$f&ySa{3<_c$
zhZ_4Xdk7ZJv7fj@e+ggwy-ADr%KTlN+)VSYJAbas{-~ZBY?x+~pm3iVzV!F!M|?0f
zstg4)zqVYAh}r1i-K$G;;~rD>imDF}-;WWs_*UTVT$3OjaQE)I(9qC)1a1EKmt9k%
z9S@_Uw{O|9CHl}6W*mqfM6gclR>q_!Pj(<0M@L7aRk^UQ<gXJF668;w42z8X@=7O5
zXy<+WPd9b}|AU1${`39$c6u5>gfCcm0t>>`Wj>mU*p9RwD*5zjx^JqvS^I@nx*AGi
zMotcwj7-9<TWf;YWP=I{3OdvLgsi^pfA#7Wf{G?e(6F(u0RMq6U*D#xr1bI2mpkR<
zrw&|rRgQ0cFEDUT_L%Rt6ctgEFZ9DBBYB>Shsm+=_K^ufh8J@9eMbMOpWphxlN_r{
zlMH|bQl5)5rInTb+1X;MT;ZK}kB=vFu)Dar+O90kdn_98BU>357%&Wf7{75MjcGrd
z_mc3+$_iOib#?W|bVKzbuVo4EmHZV2hPrpQCQsE9ui2&*6|Hha9=1Sk-yvi~fh{Y=
zW1=RBUMg8r;4$2sf#3HXNc7(0W7k({JKQW>xUz6Xf81qtd3JgMZ%@xA6Nli^&QI3V
z(1@1x_DYD<z!6q>eevy7&%LeOnZ~8G7t-`9aJo^#`5!-ieCzh@L4Qpg<*yILQvpj5
zvqsHtF1f`IOE{0R;u~aJHPGzZwadfP)2i;#v9vN{^SQsjZr!;<_4mszo4U7Gv<_cu
zKZPx({N0cmETdxf<<lo$<VyM{^{3?IDA+uw7;!iWM4$-VdB~qZb}0nV?RQoEd;xdI
zdq)m_epRhFM3_%{x}d<t?D8LT?HwJ1b&sh7m<7IVOU1H<ZsAm}%QRCV5vuy~!fThs
zk=*GX5wl7mWL&TLK9=_mgH)DTPYc|p-w#Boq#G3cZhgx~q4`wx7b;K>wkjE0<pE&2
za7Y^8>G0vhF7EF3%L|U4G`ynY<Kyjxo)1wX2CMGkf8wOwBLQT(`}<ESE7Mj~RN#nr
z|NL3}S~vHUx_Vhx7aNM?@<sguw+Be&LnH6rzeiF$o@dtwyu~W(71#RqN>6X^tqN22
zefw_A&AF&@Z3TR4$+;3)T3gG2RWUYZ@9gY+_u+%Z4i!~Z`U@8>kgDkez<lPp1}ELD
zz(7s>CsUEZF5TQ~9VHD7;YhHQu{xi|d&+oqGLuJ>o4$PE(q$2%EiIy)wD{4|GGDmq
zfG7w1el9M%=|ATwl%ozV%VqZJ+KR-eddzk>ztYYqVZYEZSu3j^yhnOMO3261d-(wt
z^>-P<q8o?PV`;q1<L}3HZVyZSw{f7X7A46#472WzX@9+Ig@$^h{#w}l9c)$r4#2|H
z;0Z+Tl>N7F-}vdPqYmm<S|oa&l$T$F9GRSwVrKjB=fFUe#bP*)BHp_U>E~Wh5SM_!
z{kB{i-R)zuLruZRm6PLTY$jqmb+RoP6FnxB5_;D?(@O7@Hgg>>Wtm6r<TWgm8fnW-
zH7N^n`175&jb*6dnNHTzm7@7l%_k=}21rd#i)$i>23TaDd#=H(5`lGO5;SP<&R^;b
zM=n1LWN^?R{}d9JT}rg+Q}@}?DSR@()fVJ5AdT`W!J=2e`^0CrWp-`__%QICKHpyx
zuYzyXT;wgQ7{pqUITaZb*wkK8u|Z2qYx&~syLUD5uK3~(Yfs3(^IASKGc(iD*@Yxz
zef6q9TI$=khb(FnN*f!Q@qWv0EiEmVY;4j6!{6uS4bIpH1qE%te=@)c*+ofBt<l0=
z{ucU?KYivOR23D=SlbQ>hF{dtxnyCX2t<_UFu29m))vv#Jvy3JyQihOnIKq1mZ@?i
zzm@RNpZ@+Yz>)$Js22P|uV1~Ia>B-+#y$W;pf5T5N?Ta}xhBubMkHGe4UIRsxwTPV
zmvWBg17;vaR8Jo`?bNGc`yPo72htS%5mK$byKa{G#+O>@=E!15!dy*G;^ra;PMhDn
zd2_D+q0KwTp$loOn%fRjCATzR|M=s<>}js!$HbG@jjUZqI<2}lmrexOe-*bw+IJZ1
zj7Q9F-MQ2M;lo`jk^GlX2brhi<KiaxyHFu@ioB#7Qq@z9OZ^dY1o4D~g(WqS%If6g
zgs7!LDMu!B{dJqgPQd$G-{koCJ}IfVjk^xN@mhAH*~D6o+|>Nu@#V@y#c;FClhdIw
zfhPz0qptMlSI-=a+4$pY(Qna#m|FJ`_bp6J@(6ZhL>XYup5OIPP!f-n4TbHFKjL^?
zUK<_Y^iY$<;>^f<5xTq&>5>&qfH0Sv(!SoNV_8o}_vHM`3v=`H9hwR5`h2415AkSi
z{D%$JDw(ep`(QF@ZyE`ptK8h&{QD9!HY8K3Xja1-MQHr*-@S(qM<PNF>c5wtpXkeq
zzfn0RAwts2{hf#W?%(G;crfVi-|N`a=SgflOs>WC^^A3$9Km|Fv0_$RkOIt*Zjm{a
zS2N$aPI76cs+qNBTd5{U#UP#c>k5e;bsB!88Y9B2+yGQ$YiGxfp5)HPT_U#K@_+_2
z#h%;NC{ko?Xq9;qT77{(MfpJq01uK)9l)%0+gwku?BB^rld0eJZU$cr%Na@le+PfO
zWT};&WqrhZ{OsAY%#N>KzaDJK;=Xk0QgdtT1p3~gR<~=twRC7Ra5nF$#UBy2tlLZ4
zgf8#Z(^yfo6xl*AWF7x7A@?)1TX?zDxqrig$}CT5l0yk3GqF^Xm76;-KagngtK@c^
zjAyKm4+ZM|lc<6I!hU%y4)VdCE|1BLC<NU|UbW%YF&oyeue+Kqr@8(bvQe!)IY~-N
z8O?*vMfMZE=zC~<Z$v~eVFQqh_j41h7Byg)fm7Pt)~5O594|VQPuS<I^Kq=Ktfx+$
zdNX$^8sxwLTO^7?1kc%<$coniE@~2G)0wz$vokQA(`)tMRYOt$ygf*u5A!^7WY6l#
z*s6s43_q~8mr<z|;G2%u58&vyJ<@I@i(|Jx16H6(*@!LV+`oT+Sx#7ZxPaF*dR@xc
z{+JH_ljisof*J)Tz?(R5KYITBd2;g8%>6y-*BI|mZWZ}Xc~z_Xp-thvtSnIkEr+CJ
z3;^ENty@36x%7!gD~%O(!sO%4wclTA1$TKZ-rvS|K|4D%AtA`GUCU`w(AvI$cH4nB
z9`kl+>4HBR8KJ8}Dgahd&;|Pap1z295vUyHF3KBSP8$KHRZ>?^Mdp+^a%2Li_1Djz
zK4`!2RN0pGH-Yvv(ha0h%*G04_h7Y>Q&V-b<HuJ6XE}P_R=RA=+?DQUS|OVFFgA9f
zc(%8c#n2Ri>oNINygL4<xK^#6xq;gt=Mm@8>QD~F-;J*yD(uQDNbesv?FX#yxi8*X
zTv2fk5EzHj2*pC6>`1>^=jvk7YERxk0tXk@N%8gKh6B~0dcY$oo;$|`x?&$f9XoI_
z&LrVb<zVxYtWmw<7b)M5ayX2DR#IHy8&Ir0o9?^1&KQjNuOA#7)O&ZG(%ISB^W+S^
zJrm!B>f;9|^N<eri->GNhlbE0XOfHS4vM=)sOaQd;Q<9j#UYh@>?Ht5w%4zh&s;pf
zq|V;rd2rHyeln&bP}86=d@@Bs|K0T)zdqd^(C$P_&EHl&*-(ZSU%o0*Kp^K?Fq>>=
zQYYAk)9A>eC2W&Q)7z_6<BuGw%A*)+eBF>bX2&ip92zXU5{*C2?A}0NC}wLyMW
z^eX3G{xJHvMrbAIB~_LOAQ}C3As=jri1Fw3I09%6pCBzDThs9I@g;aISRpl@x_tQn
z2!$v112z0QnesM0-=AxKE-me_uco-WX*WCC_VlI<6GfTTC41zVn=fDT5lCBDSO@@a
zZpDXI66HJ1u;|)ZC)xRQy*w&Q|1lf^yND5lHR)~0LWWn|N=#%MD_lH?j)C$KP*$9j
zYZy4bo?pL?CCYd<XIU`d(<(C((O~Hov6=4*sc!mNa+|LGy<?TJs`$0`a=VRNwr-Vl
z8rHti5e~|YbbQ0Z!~B2r^6YM}EH8>8i_x{csz%_l?%plwI<X&LpZRKUf1x?6y1D;0
zzB?a{_DV=ZqYu@IFmvuK^jzeR9755UUZnb4b9C&D+w|p~hpqiS8Wn&2dLO(1BO6;{
zPqkV_7$<4Bxz*x|TU&PmkmD(oR8>D)iv2Mp&0g};r+>17QGges9<|)5So*ZSE|>k`
zWL#X_DHW9-v<W~um&A5vWMzHo=!k#!PU48uupibU(R(GYGi_c`%fmwofMlWO-PDu=
zT9E5@b|r{!L@&PxK!9=t&oOX81GR}|XzRl`Rg6Vq_<QLY7*fwZIZ67vorf;(Whb~4
zZ;iZ>hsFg55d|7~i|1_8t<rh_btXTHZ+!mp#eC>U-&uPwP{8>qvUL6*K9`jZEVd&L
zUh69Snsc=+Q(mT`>hhgqBD+F+sRRWD(H%eFKiXEEzdX~%ulKIbc=4J6DJ@vTQX`=^
z*u_P+zCB`=n`Kw#o~*Ec4H`C&^YHKh-f_F}`Nh^pp%1pLqo+}AQC-(49y51PI^Lh5
zz2V6*`DYj39zcS!K<wTYsM&hV(vk;N^X;3{R9{)NfvVOsFnI6X6|-*Nfdl?vLclK`
z1gfA-{t8+HsW7;xNER8i7Y({X&5-lSUEGsmUV!`0@FtOq5iB{@Eyr<IuoNfLKBdbm
zD4czKeC^Cgn<8@K<aa}4gr2hC+HQB%P<I3Okwe!y^Pku5XE85gnBbRM51?g^Js<8W
zN(8mZn%D*CB#Q2E6Prw6L4h==yoSCaEOL7O1TEqB5SounE5f8Et3^?2Te|hZiylXd
zR`Xml^}4<N6Vgzi7%Z5|pN!<!IX*kuG1#2J!Kam0JsYO0p|J&J6Q5(Mb09b%;EDXb
zE!d|{E$;HBKuzGRdC-!UZ8@(CH?~*5cO04n*)*~H<tV<3)bdmVUYdzOrJ^$f0hYS>
zyaEa7^bMD6HJXDIEvNVH^eH&WF@68!%DSn-aIJHBP9r-3t$u;6m>OxDH5?fK@CY^c
z67r69$NLBAg$oC&ruA~K?Ivj(dCsFZGv(=1yPhu_!C9zZzka>2{g`PP*gd7?h3Smk
zTyCHhe2p`irWGC|cU+^RQ<p%G-nNbjM!M5`QXf6!G+|$ZBfMeLrbg$VJLqW&mnKy3
zEiPCp&-M7vFG&Bf5c}XYImypNfGCLS1bi>i%io__FB%qlNa9mWDkFHaFaIEoa}cX!
zQd3q=&Qqi*tn&^WL_)nhI_B$#?@*tlP^|y3nh+*{7`Efx3N-ZF<yKdg9ldXuCnY6q
z7dBplpk2FXILk_G=k$HKn4-IrQwiZ7o40M_1hHT&wlf7l;oB2MhQazLcfY^Z)e1cM
zB!XW@1HU}ce(mz*7i7V^fBo7A-u~+kNgVv{p&>qX>FIL`3;y@-Z<8}NF`4AIP>b6d
z>dBtT&8c8+-O2B+p<$ZnH@qdZpS>jhyN-O?HtqDa40}11BSHWcnR9s5*LZn(b^rNu
z0JH?3_1Vlfu9N1J$!OT^P!XxFIOBk5ppVe`;PjgHh{GuWA|9@A-ma0?ETP3mz3IY`
zGO&fA_?L7#=xPyQs~uvNA?O8^$Gc1Wz^~<ocmtnn<X+Rab#jUX@>Bxe?nB99XWz18
z2d`y#o!g(5tklk~)#a{LrQ5XIJ~uXAz!^6EmaN1)02WFQEZRQ6H;pXw)AN9Ub`jn{
z6W_o??2xoehUjn+Z7es)>@b2rbqP;K9@*Bxfk|9k-0J(Y&{F4VR1E%O$BrRPx$)WI
zAQqLdqy}CSy-HTC+0UC>T9k~89=+1dRin_!FuvU>vlooYf+PsC&2sD<9Mk#e?^MFM
zPJiy~G^mUe-~%-iimFr4UR$fqrJlf_UN93Yar9_FaBwi`-kD7#L6_u1cR@>Z5Zx5{
z{tzyl)5^kPz<^bv+keTHnwnY_!K?YXtIH6zF~$6AY^HUKNWhg1<p9OW2nRItd-v_z
zXV?9CLx2+s01qOi8zskcVJZ~RL>X;@yu2x>7M+9#DER|JIy|Q`KLoS49(@m(Edu#Q
z>g{aN>asc>`6ZkB!^5X5qXccv4&c+nK}u-%rlh1OVdYE#HvffQbH<ZWi$m$i=DI<<
zk8<VObk%4?vcwZT%dfm8%OV9!49<(4#`hRKjW5|{q?5kkmaO^9S%yVkROKM=O|ies
zyu7?h$md)D*kO701C>utKQsmYLvOP`CnqNpt*6xVv=9@wC|)=L#H^yM?4J<D#lFhT
zemF_rL6C9&b+P*e9{)`-Main{VIjdxg6xj+i|ya@?Bkja+iA4eX~f0F$M*q@g@A)D
zzqyv~bAA0;^V)>hP4hEtHfBhZTNoMlLB$CR3E2#i#@El%aHc9skVOu39OscE7m;;&
z+1WWx25tt(iV?R-0I<K9W7BmIK>og8`}sID3G7JfVQ6_sU-!ATb}T_~3B}5)@l}kr
zj!p%77Q0tbv9SlPUArdYF?U_kb0M4csFNyCMXI-<O<T@sC`x7kS>#Dj54L)Hd+!jx
z7U%UEMBqWNG?BjR7%BnoIC*$@YW*7q8&XRvDwJgAd$$5UBoDXeX`<>RYo!}3NRnfU
z!*A#@emm}nqcVi611F!H)l%;6=}7?<_AT2=v!&4U1NpnigZeM{m}hsXIGJ9E<2oI?
z|NM({p`cEc<>haILc13q9}jA_)c6&;(+J2-<@HY#Qvm<JJv+-$a35T@UqL|ukgygO
z$_y+j(!&crHSkTq5-e6-g$448iYm}u(6tOK>R93j5|WaA(JwB%j_t|YQK4kpnq?78
zA>ur$_gw!&4roRt^s0ShMXNO#uK|ITaX?c*akzCN#85#_UPw0(;0jj)!_1FeBZP=f
z+)?xD?St)kS$^f=k0oLtY9J+T194SJy`02UFT)@6*2dmHFfamOQpwWt89wCR{rmR;
zl2w6jqAgOCdh7Yr%x3~-s#>HL#kA$O(CJa#PWoH1#Q9*abK;_6{Ai7tc35~f)AsF_
z<DQ2h7Hy!XueN=K=h`NRHC5QZ$fB;N7l*_!=&xa3Em##;)DKGPfDd>xsWyA3u}%Tx
z^S9Bq3lN7gJ%!P+oS;}PO^m^Il0(fuQMkI|&a3}E+s|)lWpT_HtP6{v!S^a}P=Zo?
zYUBt*jp;~AL}m%7xBT8WGdUTqW#FnHC?2D#k!h+lk6J4)-wQ>K8M-LJ5`|yFcJJ7h
z3JikeRxR=gj0D?Y>)V&5+TzyDkD|aPUZn73CA)gemqsVM9w}1awz54vW=V>Uot@>N
zUI><}FWT<ImWc4~Y$!RDpPQPryq3ll=kY1YsN@>?F5~>O-B7fd*R5MenT*%#Bvi0@
z%^kyGD{XDPm>xbJ55C!nSMzD0-iN2JYneDp2XC;bZ=|6{#ZCqeVHoBBYC2FhCWB}v
zlr^$5A=NlJZ-Z&aUh5k<?FhcP*N9E1w`P1mPXDLeW2NLXJR)0JS*^!CnYU~y0dR3>
zVn)!AUV(6$-Q7f<q0Dr-Tw4yBhEP(U`g`S1rVpDBl*CAPJ(NWIj+UP^8z4k8q0fUP
zeK4|V9|Hq}+w>m=;5%fZZtvB_#M_D45NL!!QsXO4e@{1*1=kNe-8(nl0~`b){i?10
zL?yJ2XygP1S@6y}#$#sro1nA<kuD!$m2wGr^k}b?l$70YkAX=ZTdH~@7dj%OyNlVv
z-YXu^z4-rh4tartvv8H|>+^gNWkH#}Ss6`lwQxsm#>lcz+nS&~(y^;c1G1>}QE%P|
z(bG@^24y{4tl&<3<Gt!dxMIAI%h2oGsZ8*S&?;<%a3%my%E*HH`x_VgQ2ON9kN(gy
z>_g{W(J1V6Ni*5_$FlBq3K{AnROysuH|`Y68%cyf=B8DsFJ(Mc-Xpoor>3QMl|H+|
zq-$*{GSK>s8#%?qA^-+pHmE?R#t*)BKbPh(=gyqvII2D;IsY0MT#LfNA{C4U;;OIN
z2@E`z&<tRfU;ll?Y?pT;hze|<>ha@L1lS%fG`$w@7<=D|^ON~V^@=UzmET=OMYkXB
z5Zyto(N%SHc{#1mH>i|#-zD^YI^ERfou&~{ix0FWTAk2?H5Yoi2lXN0vBI3uH4*(F
z7cPN6t{~bX1Px`Xf@!b~`T6<JG*W2y?AarBwKal4X3mG`A&!5}!Ix2ebS$6Rk~Rs_
z8IGtKa0Kblo;~9^;`k>y*J4lZ>(>I%!_GZBv#+bi<xE8PIlt_6D>Ms_3)Xk8ZKRmI
zv2IcS(HSObdO3reYc>e&5Hilw{o%sBx?@l0=(#LGVbKrHV^0BOPy%dGnXk3K`v{fy
znfvGpP7(i~hXsibEuP8IO%f^|tnwhZ<QtVkV`GV&A&zPg*BF_YK0iDAWc`K>1U9Z&
zw+>Oh8@cwmwy=9D?~NNb;$*!Oe*d;yUi;pC_FBM^eu?|__4NyBg{T%6(Hp03A`)Ci
zV*42&qW<cbPqM2^;UljamcQ7^A_@D)$L|I}YOvTkc><~iG8(aZxEYu$R-*JW*H-un
zS=6wi;fgnz_Z<yM)6G4IrM-3cZbP!tRyobUCrL@8k`K);xK$s#fmSo?^DD7M)vb)u
zH_>hbdID#}NZOk}cCXg**W9N`HMe0s^&P4<pV;E4V&8RQXL<G*YWUcjI*wnWs_Ejb
z{bQ7DMAR9Zf@x;baRCxn$4P3=CXWpb1z;n<?wKNzStafEt3<4km6gRwK+#P?%!6tD
zIXqll9?G!;=o!y0cC9@cNy>KW_gPT;lOZSVq9BW*=6@BfmGT7vgk2>C(EE8XJOm(U
zb{ZNQ8o2yg3ndJ3)s1&jjTO5G8Jp<UZZpFbAZ7gm0<zX0TXQDESOKVWJNyCR-0J<k
z72!JFlED07KYtn#Ik>CP6NF_qd_J$BoHqUPdhaxX=0Njzd!8uvF9iZLtHgB**j0`n
zKR$Xia*+tMV2)kEDxrLdS$(?&X4Pr5{T}!Wa9Y(5;(#F^12hp%3<PV2!=MIQJXH{{
z(?=kWk)nZ3(L_dGXZJDO)rmh{uh1g~2*!S4%1X|jXSlojCWI&)0pKtZqhg9LLA!xJ
z8E|l*d2W<*K4$8qrUxX9JSPd)%~<~ACTRU%APdzQ+sr^<K*!}@S9gYJorkTrZ`>(X
z7j;u~(Sr|iAiM`q-V6SA#P+sT{t-@n6ZmPY)QWLK<cB-@`U<^?R8eY=UBud}HjCy)
z>wB204baJ##NGb{yv##QL%$gsgsro46qK~u5^WDedH2|uAfgPJfE_IxliVg&iAPN_
zLYHom%Kg#k&2>d0fPx;{3jJ<;diuxx=&v*%ceJ6ms?U8U%L7d`5^S#u<OXOK7r;Ui
zt(@7!5RHl0<?pA!HGKZ@<NQuBOQVd3LQ+zCV2aogG8))u(!AWZedm{B@&fB@Y-1yc
zwD15HC^K8dzYr*u(dU-7wCI2_Nd^WNah)*zhwBLrqnp3-;{_*z@kcPuMX&7Yd@xqq
z|H+dl*tS~ZCw0qT!eXjVwgSHp!Wg9QX7UB5rXsMgE#Uk8dON2}Zf)3_jLw=scQDzJ
zs4dFZufH+yf&{jFF?wwJlNYlc`_b9;K1AVkgaXn#lG_ytuEjqfAOJCXk~E)DHm%u8
z2(Hgxzn&)T0y2<@U2i%6o&H46nV560FP_IDBqI)q)SU+oASiPiXU|^`*G=AA5age}
zeihI%I6mnwnXicaF)4K@mPVD5>(N@e8OlQHi_Fh%(UyMVhAj(63f)=MfKN^^t$p)W
zEv=@K)oqK>#zNa+a#{;D|Dg5RJ#?)(R|BG=SU{qCUJ97dKD#;bhr1_tp8~hb&y@F2
ze!#~Cp}#3iOD~sgEZ)AC$z`p?#_W@#I}^)4>Bj!^)O`$#jxGlkh>}CZX_#8FE`6eb
z+-%sK#Jk7GWA$?@#4YqV-<o8dhnp!abve;~d_`|Wt6J{Ov9Vr{Y3js7zIZ2Y!PUim
z#C0~#16LB>@ea1}EIKZ)<!P-*K|{FJTwAuj;JFNk(IDhxQZk58i)K5Z7^@uFi?T}O
z$3MSZ<l=6$6l=;E{@ff}n;Pu%QOc+BC7yQe=c4be99l?8&y;R)hj<jYmj&)1DF>;w
z?-PS;^~6W3j`xRPQn0wO{+W+OeLJ&*939uvm-tn|ZBPGWom---i0aM;cp|=ztStMS
z&Js^g&pZdEf=0S6f<}k_t~FwKMSb~Eo(NeUd>c!c-XbC*9MlcBg5H~FJ{2lTW3=}T
z+cWAV>ZNtRH-2VG()(x1ThhfV&;5sEiZYo;v&FBM$wwP0XT%blYD*nES>0O9cAF>s
zpDS*aW+Fuba{YZE^3IaqU-M1H;Uj2F)317&UU*Sx%Yn>N=4e`LN{<_&a++dVG|wdy
zpZ<HGZc2QL82X%>zP=kaZcKq)1}tBv$K+`w!cQ=xfG856Ubl(gQfFIB9lb<g|769j
z{-Ni>*E5A~Yw+wbA$Az(0ef7Fz&UNFzr&x=!4!PQpulb04(^0MIy|k=_%h$VH3RXY
znkcgy2o!Nnh*a<uKc5847{fqVNjJvvdE?w3ZF(l^8LDHJY4qPuUb@{~pJi6XjM4#C
z&SU?wf`URlgh9n`QAtL;%Cx#DI?vBMrUHrJ;^sCnoK;IY>Vl=Z$0r;{TDP&WvEk&b
zr>E~F_)uXN#Q72<AyXxMTGlgXP&ve-<If@(1l5MPiPlHPhlCXWmn{MBNi0f0PBQIu
zAu1EEJG6CmCm}yh0NvXTH3|^U*x~nPo1$f>$Y*8#il3@1v(yD{$Ul;e<@0@cn>XV4
zV;4(sn;{Uam$l{RK)504@yb7E3g*Kuaq{yA0#i*cjummRXJ2Uw0@Xr+a8(3FsPo2%
z67gpSK@6%}CA-Ar>dGvEv(pYMORfN@Q+takz+<3pZbw$~S{xBa%LQdq^t!Wi(@_3&
zqwXvH50U8juEU>n2kbXC5q__}Cm;4oh9=6n;<!C{q8Qw-O){1AX5+IdJT&tHJl_;d
z-}^QDGxNVo_Iq`JNr`FIoR+<O>_Hp*FI%04A4}p^$JCB_t=qVBzc0<kEvN;&2Kn#u
zS63F9k9mPd7R1-u2C;+p{EG;z|M@h%Ja%?x-)VEz9llE|;DHhW&5l8)E-folME`1P
z+X>1r1vV_gha9@n7y-7ILvh}Dw4E0PEs`)H=&n=rKRAh8{?3yJf-h$pfxr(`$^xOp
z*4{oGiC^j5xd?+5!Zn;Z6G8|dd{I-hZDFyoFQO8qTs2}3Up+u-)b{N>c)P6i6A#;p
za{=C>@C>9SMz4I~4*d>xP;YK|iHV6|0d)v{3to#EF*Lt0lrHea4lD0E-xpQd(V@?}
zdp9BVG6BK#f;mNFe3zd7zrpzIUwrf)E7jkp<FcKQaunbl9D*F7r0}4dug>s*>W6I2
zpO8gX2Bg(!i!-zwQ<R|vTQ|4&-(Q?p>2x0}kP0jgyGc9oP_VSZNXYN)+qcBT+Y%|L
z{YEbEq={Fom#I{Re|U^9yT<A4hk<@eTJo8zN6z!mCagOj7uKMV(6;ZJv3=vz(x%r-
z$I$iLf!-7EbUC3GC$W!?nSV1@K1SL-$6%n%rsx57?G)&T;nue*C}GKHAK2O9q~iMj
zjF905<+P146qYjpu$M63siVCzg)~c$2`oVk>F3dlq#!iy{{B2hDmRdNpN{Pja5|tj
z(3W|ybE_vrp#CW%e&E<tku3xHhf~%YAXrE`>k44=Qm8V@N**5hXjKeIK#}+%e~0$O
zv9#OEq#~%=A3!@i84W7wQ}4lyj{XnoOgJ`AJMitLPj}G5G6S(aL!CMYbtO4B!{{Rw
z2=6Fl8D$rjcY$oO24I#POL=8v4B#kY2Za!Yh5>DMWN&Y;hb$d_z{1U)%BqPRW-lc!
zijWntZWiLzN{b_`jdnUhaw2hciMwn9F!>^i`IS%>#Qmo`8^c))T#iXeOQ$%Ev@$0O
zGKPYWQ9?@W1(6Qv#}qFiIOd_aP0jRn5zXKJ;ov->6TvR`rZg(ZPb1FXzk5G>7!SKm
zxqct7ocziG)f-H!J4L*eVpQ4hS>>tcYA7s>Y_rO1(XhIlr&Cq*Aa*fFM3q@5<Ue$b
z@F%hV0UhJMmi^#CHRx>)3cRBIQGIce_EY)DO|*N<U}&6)>-gZT0uEciJWgirr?0gk
zJ!Fy1a^B+>PqC%oI++6UQSS`kI}u=Khs5^*X}SuKV|oI5v_P%DCN#j_=_bS6-^5t~
zI^HpFd1<NlftEpi)oHG9!o(LY{NZC{B*(n8v{V6YUub%Usp82}!gb=PXI1}&-l&Ma
z;IeQdNSNP!C_&6}Y>HShGuY9XuObg?YsHDoUg46hz3Equrn?s*Bl$EiOGXk_B11n6
z4Nz>^y!m=<%TvUeKaM2n0$L&s^IgtDnKK3YWu8ZhA~ZH3ywOlqq09)tH6UWsDOI4R
zp%I2+aDoC3LuNQq2!)jSdzb6uM@*?6yEtHXctE%hqzeT9+^@TA@H^LlNV|KB`Y&%C
z<L|Y%s6Q63F<N7EUi&8RisSy6M?Ev^Y!rPoH~jq`)Sj62lvkqn*CmEcn{xd8H-o4_
zB_T#LfH#Ot!q?g*Htjwl51$ysY#+!ZeZN1Af>lApH9&Q7pV3FZy1a^$Kz;G=6l68i
z=kBme!PrdvlgPwCzvG~u01HXFRnY%$<PDB(3P3x+t-@Fj$~LIcaM&z|1|aQ+M?}cO
zr-m>nD=S-v1}tDGObZY484|b7yX%h=xY;4eg2X2bpWSYN1n9DQ1ut~0_xzuk9FS`H
zse%6;o6`%bZ8H;-X=qf#^2GEsC(e4+rb#0Gf-QBQ@h-~Aa%ZLh_z8dMG^PM1+zJ2)
ztvbL<JX{rTh@f5DfF$gK#Jc0C6F(S}s+`vlp@U!~G86U!(?_~LkZBb7oX>bA@tG38
zuMztC;m(4GuswGV43vRXbRCFy=7B5~v@CsK;<W_SESZJh9I&`o!(eUI{!SQOb4giQ
z>fSz0rp+UD-5mu%%uoBIjW)JklUgm=s`A)n7>+1rVxzosCll=f&bTBRbNnDVIl0#*
z!PoahT5E1bM*XTdpN)AbzbFwHAC0^aZDJF%JQH;F?(N&cu$B^_h%I!5jgz>dFn|Ha
zh>+KkO9H?z|A3j7RsStl@wcXahOx1i2Xzj@SxCfjc-{F278e#^>(AfRpAnP(=^qEg
zxo;n(4+Kt&vnPp`9yDoJG@)$JHVRW^TkgQp5J>l6obt{rb!a*5?d`;0jgN#QF$?xk
zoV6ECP~^9R$?C`99f00co3oqo(r9~L{=%P^umD|*cyLhvNEJh1aj_g)flb9ojjj+F
zNiPHOjERDL_*iEFy2+mL^KsQsCRspS8hDH=K#VVk2Tx<O9q%5h(i?0y#(ee_Z+gUa
zap{9rU495369b+5lfxiwXG)9LDUR+@f3?Z6!#*uhv&;2TZGtp&+5ea)T0K+!?*7g?
zL#F<YQxwEmkEtNQ7<i7l@;5lJ!6Xkc!XWJr&Hs!k$}r9uSW81g&<4SKEy2ity5G@v
zuGtG|qif%T7M8PMJSE^(2wLvF1Em6L5G$<ZiPjeJqvDZ^XWw2vj}<4>3>cl-+&Gxs
zhdVw*!4&k{71iPGGm|S<u8hY?t;cZ1F91%-NQ(<6$L_XgOq>G!Itl(#84>pz(p_nw
zfqBlgj!MWE_(wf56QtMHJ$tT&IzwGUr%rLYMeX$IuicI1mSW7&8Vh@w{JMNV!u%~`
z^Zxr?QyugGo&Je)AlxifoWA;K)t6*XQCy%jq-;_5z#<2I49V>i5xpO9!iVlw*%j|y
zEKRL$(Q!wegK|6F0uWnS;7c*kQGskkarFY^!$@K{0U?5}x#aV`tpYW(m`Q+L;PQ_H
z#QOjkkKv0za660~CylOLQ9=19+B6YXXZkeiz;lUUm?FWoe+LFCHZU*@AWJW(cp^lI
z1`9%Z0tP@Mv7H3h!+UuN3?rI!V#8_3vQS6&by81{6;Ye>`w7lDNM#|UMyQ0<NLkZE
z=H|WSp<w+)VF_NC83_PQiGJJ!O%HQh>zD%6Gx$Jhk^jwMF^f2;AB&a>tn}$qr^-Fc
z>||m4*)HQDVN*EI#T9-J&=iD26{rzgN5>yg;iF|C`%e6BN@pX68W=PPLHp@0gJz+J
zYe5iP3#fcY!IHtSvy@<KG*;%z|07<~{toOi-_rDtA|-%0paS1d1XoNEFxEv5kl_sQ
z=Y+rm3qw;}S*ffQ`_%(7hM0A82rRP}gF~=WCgal}I^IU&BcuvhK`?V0eL!~+X)@lq
z6X%u^1m9tda3F!i$auOHmT4RHmK9eT36%p~Wc3;rxSdCH32O&W&tG<9Rxd#f1=A!y
z?Rzs>Nr8UW?*?|zDva{3cV1(@@_yep`{0?}y%iM_9x#`X?ZyghgOo>3H-BI$i@?SG
zpwURFgoK)j`2tEZI^-6=VJnwkR8$mNS32i4K*w9~Oc@y&jNl48{93Fx$7S4yP~jP{
z;A=NOVMatKY{Es-jsWhVc`^~6Az~Wp@8^#nj{%3JfE8!{5Dx}7MJb%i_{tSNWbH`2
z=Hm9d0e(<tPry>J4>g*IbUGO2VRl}FT$!4Ewe149IU@O8ZhXZH+Oe^UU=9opWP}u9
zOh*K#cUj`V0p*p+#8p4QR@mK?0mV#_UGny*n2YSPdZ@}p9LSt|_sUsYTYqk7&^&(P
zgrnBcJjVhdNF2QI-$0gDL4q^;UH5nkE9<K$vdBfu{qD<e5^oQ`a~V%UYCZ-}Coi0G
z8hE-v7~XEX-yUw~ra<YjsBgsfm45vAE1_u-SmOaUJOBzJjLe)W9RQs$U`D~C9)OCC
zF~M>`+x@V_b(!$<^j!Bnb*J>V9&zZ^=eyb?vt>naa&wD9$4E0MP}bJgmN}QFcmjt7
z0xFb12#psXT}^%Zlni+g9dF=yeaTPt?3DMK&Ou!?T+~jI36IaTCz9DB4i11>y|k;Q
zdk*0kz<Pv@IG^q7@gJH>A#~hJ|2rwisP!HwRksByO%#rKTo{{<k05%sisNkT)9kFQ
zf9}YMhF3`;mK3aVn$d+c<`hFdx8?31k05i1do0kt$Dk&oN`mgsfM#~sy15tx4xO%8
zDfJ^SV_u5uROXa?l<L{LU8d{xb}$w4CV*y<@<MzyzS22?VZ3Kx*o#&c_|WU50>s=F
zhy|1KBTy6lC#Fa+LP>?@obFRjoX~c9X5k2?;C1nJ5l>}`FaP{{)O&!EVRWB7-q5P|
zQ)`bQagOdfY|UdW%(PZDjfs156Jr+J281r%z;%D_0FB~w%PJ=u%3XDl!{*e2O#j6X
zF&)m+h=VD~uGXY9{4V8oitIJ-sTX}%ZX^_2$bF1$;QL26xr7MrN(E-=XsBpJl>|7@
zE4;12w418VL;C(nckM#z%a0{%&k=5_yXz$84I#&3RL!5Y3Ohl%=?Q^|B+E;5s#G~i
zw=M2b#Zr$^KbK5MA>>hMxFUXGaR+s*Dwi4c^qOyLB>eiV+6g_xc=4yvZNf~gZ0v2@
z{jq@Q3HT08c&e8Uzvd}<_gJ7wU~T)2BA>nBqAuIqC$CI!up6P6{4iG7gFg+y+^1td
zi+6d1r*uLI`9$y*M#E@N9#;rWrfap<6g1-aYnbig+?6y^smZfP3pCU*ATe@o*sKT@
zg_(vRB-t}C3n;ecQb8~*Ma<8mSkmb-P4hF^+DZ2~O!l8f&|&!Ivyl+--7YuB!I}f}
zE}0<$OqjS-`I?6+LSa&9ML2f%_se3rYm1n{{3$RRLD@qzz;7^rY9YYiKM8_<aI&Dn
z$8Ts5*teybBjv+nM9a<1jUXoGf>LuKV2}>!P)SdqbT`*?=gvji`F<=O?f5W#M0R;<
zE6MIaFlbEA;-Rfi)RAcpiv(91pd=IsOSFBV%`TBcJ5te+`{EBZ#gqDSw0g>z)7TSh
z<X=Y35gT58*zy|P3QYp#!js$AY!67)Gx>8TpesR|2z>Bh+oP65$dFMELya4qooA0n
zs*S(PfDsNB-CD?3(USIDjg5^UAb3=)-yx~iK}ub2E-mF$(M5zlLfKe=52|!}Ra#1F
zJCr=Q5I&+d!y-4{dL{iV6mFy{N<TlpN64D!obE!|?Sb9{n{j}AdzD9vM2sp|iWo2d
zvm4C(bFYt<89r%|84(b>$E3a`Lww&t*v#x%jJtjT5eJ5cIM>Kr2=hZ@BD^C@-3<t!
z!|BK4-^V&rwF-_#3g}Y(932h%XjEt63wtmb_<<<<xu#|lP7n&Tb^R=$gJnx5CoDUl
zNdiDA_3>CBw1IQDag@7Jrif1rHU?vhC{Mpp^z3Nus39HjKs5o3>xUV}Z65J(9PkT+
z3}j9T{dxi%WCcsW5n@*w=`nEuovspD1a$Sn#04kOtLqr{Ag*8rOBonx&hQ0>0N3RM
zH3$7#AJD&B9*Q@{gdRJOb;6nXb7-gv9|XGTSIJtSV1JCYsi~=vW&+(quN(g?rgDTK
zhXRw3AzRQt-9TH}?;;`M;wgzg8Z9f#QH;NSMYfp%M#zIu1k3!`rmHZ2arDE&L>p$&
z=0-n^&7mcmiirvI+A=u-ryKzu<e`w%Q?SR#`E@`K{I%ipdE%fPUde`Haju=^HYr}j
zApPHV`&!2B+fTvQ<pSsQGmL2*b!vBX5OtffM20U{Wb>5Aq~*2)=N>_1L6<%8OW&uR
zeN_W)wzVM`QlPRq%E_tV1zsH%J>I`LZ0ipDo!Y^8O#T%?2Fc7X<o!#20-oAozzoKO
z8S1z8q9;wi$%opSye$$pp*?=&{{O|JM%W9R{P8<TyvH%jwHI4Wz)C?)ZkHF|mBv@0
zAYxnIUWvMO>((i#hVt^LXQ$CR9Q1)4M|>~s`L3Gs@+Skg@56W?>AQ*V$GWRfzi_@E
zv&2XdOmhEs?~uBNrv1vAl;q@7h@;N{QK$~#CIy%_C;TLO)hdAJKIn`8-qC&Lm7gEn
zwf_$sM5q2a*YI1N`8pIZ<<&1rU;pVtK}>e+?C5HlkzeKkE_$JDX4(&^ZJ?zM1NS~S
zfMJn)ckkZy00m)(emv%g;|uUPlD6Hq{QO|hRe>T&>_M4OF5t6>0Hi#JVa{N^`<zFi
zq4HvY?v<Am)H^uY{lO<+0JpFoqjKmjOp*DRO|CY-c?`pm0$PRxM0o=jJ9w2JEF;)`
zGjwWO_Ut)`l+Oa9`1$#lkupJmkf%Vx5R(>~8%{|{$*$Vt_yLd-Z`nD-GHY#tU7tV2
zM2khD(y3E^gq%T#!v(G__u0U}05>K_wtze!_M?Au5F#;Vv*Y88uxz4H&LFoTNX}gO
zFD~o%Z^HI&WgOA52Z4z^b_yAl04ZpRd%<JAnS0g$;6Kt<dG0^g46zhKNARz=tPTS!
zGtoB1ag0}uA!--<M3N=LcJ^<l<k@M@vzI>Mnv9C5*dG=bm+LV7qP);E_M55N;*8b2
zt5un4rNNgtrc^Yg!e$ayXb8YMNB3xhL*Vnlng^Vkp_Tvd?MI-y`hUBkL)j*WnbCw1
zN%WSH$P$&%v<YcR&^sAZ|Np~@^nIJKD6unP_Vr?*BiJstd8FU9b!GLKup(|yg<VKF
zjoVVImt!kxv-Yx+q=iU27sN}9LiWxht(-oXaxZVsvp0iOLzqeo&^`bl{xfY}9lZ}+
zV<b{eg_fZwC%El!)Ot<9BBzm9bYv%p6N{i}^m7{YG$)w*24TPJ?(N-=;zYnd=)Knl
z%)56B_y9duA_?+Cqz(b)0;7Eh!m&@{&f?iK{+el5<3vQRwu*In&gw(#QG-BR+M05l
z^5>2I%tu>=)_+}exoX4}%f{2!H`Jwg`G9Kt#LtnX_ab8hfo=@eSM3dDB_x_l`jk(d
zS`UDWYd>~l!U2h?3~5vXjUsdy&`@##FU}x<t=pu$mLxE-N$$)@@N9aeqq$lHc8fv}
zvzq@?W-Pjt`7@?gac~)T?j*`JncKnWb^RjwkfY9{+1f``)zyiR`}wmxnJ-2W!3-yJ
z6K6VVwI7<nERa9a>hgdt=yXZk^&J5`fum-suMQRycr=md6oWk5uka%`&PI%*IAdV*
zTh3M80AhcHCy{@`?!6%<Fz`ar>p$fJ7GNGQ0{uEWyy|t;VwRr*oY?A_;eLyE-m5G5
zGp$!Bz@}%w!iK5EDpWzrf5s+zv_1FW0U^E+^t#Yw&L+uk2si@WW&j-`ncN1ZIa%v$
zYx@gT9z4?<yhW$mkN|9~>X@~1&`I!|(IE<CK{_bHaZo@*D!*<k0BT}*{3ev*O#A}G
zJ=%+0rCV=Ox@@y_8yMRpHoNv^-I5Hiqwctb9V9y75a^j^nC-%`w!?S=et>FIF`nP<
zrDdMIR+!JGpGC=>$bb|bUgbtYLY8%pSlc$y(V3vBA`%)Z-~^c3EX*CCe??9*f^Sj^
z)7LsRRj-ewwfJd^H2bDJz4(O%lU$FmCiJ_Hh*iyF1s7I#r2D#B_YYk!x-$RB1iwmQ
z1azkp5n4SX<C<sa%9(!E8TUj0kPm2&f(nFLGfO~}&pc+^YH@L~`>5%a<~RFb*T9qk
z<L1pFCh=H3-QFGdPr`e*UJf`{5|Kt6D$vg`Hb!;j$`F4hx#otnB#JtFw#{qAk>P$w
ze-Yo3%eSo*Gymi;qW{a$O8;Hz(N#5W-UJD2>+G1s_AR^U3~O&rIS6f+>m4=Z<NGa3
z(cW&?<!n%HX-fYFRwV@PE#O8Nm4A{+T|ifG9~7qZBDn>k1rHJu(guJ5H$c`UW7sg%
zOmfwE;)VzdIArr)?84Y1kO10h_Wk>B;b9qJC<BJVC`OZ^c?`(gUd(;LdO9T75~y2E
z39f<?*OxRpPw$p;sY`<E{(qhAx_B)H3Fobg+MZj;v+bfm*5+nn9AFR7*jfl*lZ6D0
zODoF9^Km>N4UAc3dqN~yj;YuXULkL1C-O)?9AM5Ol#`vk<apjeehBR6Uulnr&U2rY
z+M!MP#K#FhyJT!hmj1Ns&P^V7`WxlOO^t<mujW-ZY`sH&BWu8@RQ+PYdZ}5dx%r#A
z8F$&a9tq?XK%bo&>q^A&5Vh}DMJA-Q%p#^17^uR@RW7~dj9hAQmbQhM<^iq)vaZLR
z6v7>}J|UR`w+oZGRAPw(8$oW~L7H}T@y$D7YPug|CjBuM3H62{scP}x4F8yX3H*gS
zB)&8?ML_|gM7sc+iiBP7dQc=u$de>w;9Msu5`Iho`fLR@0-npt?!rwk4ATrQH+gO-
zF3O=8v>#(mxCww<tpQ{V5_0=cQ~Cg;*V-T2|KIthY}@S?uk78m$MkuPkr0`%5(1w>
zZWtiVAAqd{5KiI4>*&4!rSGCS!1pRa5p#iMi+CO#6z0)h;);|DhToR3G|{lWfDEl)
zj6LG`Z(!~CZCYp>fO9)Z%R%I!0(?sTCo)WjpOQYJXnAHAENfq<MFviA%F<jwd;I`n
z_RyV>V2(<O{J-xw*{S=|e!W|cFPc`^ziyX7sY!WH{>y9stCSXIUolDn5(dP%I$?xh
z@D(>cylahxH5p8#Xu-rEb?`JE;ai@)1+gcCBlm}x4f6Dh@h~2hz_WXx8Hl+b@;$%P
z);oZ`2m&&f0l9%6uX!u9iG{Hx!{jb5;yFRQNCX~Ybb+qtI%6n$a7_q`eBf9~876u?
zk!pyca{@A|cDdop3j$C>UU{)%_GNXx)|)uDh*plGMkWLPY328`p}Ki245mU4!&vfR
z*i(5y!em0+XRL_dm+v>jifncq{8<WGA`u7^WXh)sp0yW-bdv>M&9x;3(Ll09w8wj6
zto5_8RtIM8k|D5Sq?rqR98vnwQ-y+0DyYH2>=zO`gV#<E6_POw8Mqw<5aCQ{*NB-7
zV+1;ATA6hUmuGYf4B$&LMa57s)`~yYE5qoXb%|W2fy+;bdlNmZW}2R42c_;w5jAz@
zLx?PlVsRWk%nUmf)zzc8^9k!xhii`9)$Xsf>D)iO$n<cZjlkxM65Tws(f<d*)lPl%
zbwI&}d-s0+)_x<375OiwD@$Ttvv(610gM&;N6Zc-sR9X%PfS!cYUZ$8&~|6JrH>`&
z|6VhH@kQ0|R@|+o?)&jf@-}XTUk!{r>sa&cttn*WbW1cpj56)8<(s)4)z9RA_ZU<(
zge|+67!#liv!FpWDWKbx`Su7Rp<V6F&wJE&W{FOxOh09VT%FYY^b=o?@G|+AvEexY
zzoVsGMNl=-5dItF%|6>07c7e6vd1*)#&OEnuqn!m)rr*)uXHJrUkj$2e={@J^b;Og
zV(8MPSD<{tJiYDqaoX!auavhIR~+s8XKi9SG;yfMv_HLQ#h7R+3HD!sRfxp9Zj0J@
zukqa+erJIboyUKgWXC+!ezg9U-9LV+<R&JeA*l3|nQe&te(N!@l9+aA6{FIn%YXC2
ztG}-~{J2HBfZ9WAy$CO%zib63-kuW&XNqpS3`6%gDWdEp&Rw2mu<o1$wjnp>fT-t#
zyGdQ5(ekl2eX)m_P0xRxk`pVmjHW0b{vFk5p&J0e)UjpXU;+eRD5tEfoYt{wVcL>u
zCbc-6g_tDG7#Z0I<jva724_w#^6L&n8uC*q?9LOS^a_m0`-Fbhtgb4wV7+K>Cs~FH
zmJXr@F4P>!>QS-3t^$FEWK%fUCfY}VY{_L;z@9%r)209~lRG5P&-`{IV}C_n%PxZ{
zQFAaB!g%}(gUVG~M3u(pMAm*S99$z*5Mp+g5PR$#*fB6j7#(d`72kOux3Vb-I@{a#
zAY-^*o5eeufz!#K`ldq0;^0LlSNq7U%$an|kt<)w#FJ{AL@1J}$dyL^KTYX2kM(%>
z*!WW>w$FRBUw`^n{_GN+RejQ0v<dFL%O@2SE(vYVTvK{pYA0y7^QQTUFD)KhhT~d1
zBv(x6ZmBbm!*V=bN6EzKwJ^vnec8nTL#6VO`LN*QR1rxNV@|)&(*i!1Ce`4kjB0?7
z>GDedvcxpGD|<I=ztumh^w>qOIn#`e#`jm~+7rS4{+WKiAGvt&DATqf_mk(rWo?o&
zMYU3s^Z;dK1pmE*6}e_3;9fXRBbgz<pzE8QoElqe-5l%3fExs^g8t<1mj+NkP)h6Q
z==>TTtpQS{oPz?gUBq-fL^a}K23rHs8WSpCpXT1=H1yZRr2^WRFvO5I1*!0;&Khv<
z0Y7~vhk?I!7CtScCVJdUNBChM{EhZ^Kp<SCb-TR0oN7?>?A&%AK}y~1ImaqGEmnnn
zVJ?(4)pty`W*6OKq18=F`UIv5-jcdtg<Av)M@L5=k5C?e2W_3S)<h$*d)0uOYP{xt
zt%Gu*gQsC+WF+?@xw*Qz9fABqAS$L2aa)qq^mk2iZ5GfE>CGToRl!S<*3^Rg2O)R6
ziA2RL!iKU1gR{mkX2Z*U3$uV3Fpy9+NRKLcvC~7DufiP=`!UO1`%u{A4!VJVo)S1G
zv;Fob7?QCoj57s?6~O62x&O$K)}&74(6u3u!TOsoz}5hH;13CYs&e34PEO7gxdw>7
zy;$c+xYV|}w5{e$d0mX%%ihTqt|v$}@hoDIiG_t59rFYHy^@=oTj96T^MjcwDZDE0
zvyXU>n5h9YgWc!AzuXKkUSdXSE}9w0NDsP81FDb%1pW}C(4WTFq?l>oQU>DeBDBP}
zh6Z50<8@q0)8FAD#cc#pAadsaequ;L+!6^0_vnyoEdnNS6u59%&}P8i=eQIGhXmF&
zq^5)Di6bFEo+8#YG%piCB+780!@72@od;j?zq77YfR&t@Nc37zLhl8-QVp~oH~6v#
zFxnO@LE<FJ60s10Patk*icDOkP~a&CkILi3EX=7>;xe}5wQX=U!H6zTDmDli5eSg?
z0s<O{=tQP1K}QSz?_M?-NBF<k%?#_fB58d7Z(g<uq#4kQF`Af#>Lu_oSW{EeY@)Y<
z*r-ra$&jYbdxz(xZ`TlW)xWXN>(_B_#b(I#(Fz~7a;a_x4MRpjvA<PlI+7uDg(V~$
z1pcg;cx4SEgJJFQV^4=iP1LOZV`SUU%R5-u^gXWAbzt{%44EkyAkdOQ%}UO|R&a)x
znlJ<3uWbPa6HEWF$FtCJC=$aX=a3*WJq-1Wy!0t>_zKdmg$c^4VJlIiw0jA>CKkwf
ztAn}+_1+c#*A)mmjyU|L&J_nefvMv}PH%h*5C<~X7h4`vNy<nZ!bE(obp@w|g<Jel
z#V!s-THXB$2jRE*QdJdziBOogH&bfvxzG^)<bGW2C{>u`T+ns9SjzFBvKqdlU6VS(
ztv7z{5%$20+4O3|w{PT{7h<#kWsdlx&Y$mph$i$KbmW2+a68Z8cK|>ocb*VK1HWz#
zJt+SE+C*|c61o2q83NgAD+@~*s6%o$AOOuiz;7}q05T6NfR2;G2)|Ft5^$O@m^xB5
zAe?99)GRpSb|}XSue6V0WCR1A3?OfxA{udL03!>F#aVIOg@hXcLEX9iMRy$@7FL2^
zM3=f3cfr7h>5G<N!h3br8*J(39Xl#u?}a^pG#?;465K~6AuLv)H$t45eD-7X>2Jdm
z2Z5PbUWn#s?t1S?CpX3|A`*stCjv^Cc<A9AuR&aF$E9MJc3evV(6d9-{4X4f!lvb$
z$zT*5IP%yQvNkZbkt_PZ77$hgp1M+WEq=klXf!f84juZ@{r)t}IPm%t)6;=-&x&zL
z*D)*|E;&d-+p?hD<vu1&#>-LFTrq6*8)~M^(Fx=wA$Z0xMX!cJMef#{!<Bs)PvF4Q
z!w@%)p(m_)YH$aRMlNGbRTf37b#=jE<@x_yM#@_C)zq0S3y}K`ZXj)dLO?D!Ko39W
zdipC;03rA<_KII=41{WK_MEP@KMO8gA!MIr`>@@R(>}ss7A5<^>A&tpa5y?rZBnz5
zp;vP0k}Z@d#Hbve7+E{ds|S~mQDX2Ow{EJW+ayHJ{QX;=@fGi@!{Y=(A1!zt$U!Je
zbn>GwD>grT;dyMNrQq(Jj~fxSPop=wv~D}avZ@@nk>&{1mCC3AYD2@Dw7Pp0(oQKW
zcO&CMKQ^(kQD3+^*OPbCZ^D$~hUO=`)x4|Ot+yVWX!Q7ZODhHx>7B*+07#I*$WlSr
zAd_vN(#frFaLrN`Bf14ziBbaq4t^OA1QL#(0=ILfLdx=)*|Gp<-8{_MzuR&JDL|63
zi=Csh8W|p@FD7#|V5cdgam^4M*gt`;bX1urW`<in;fz>)O9uAeMDA~4mGOwiH^)_0
zHfLvX!Nopo7fM6|gbGS>|7O7w2FUw~bO8>A;yW04+<HbBKjO}SM@<5AgviIZXK_~@
z>mFIuJyO0g|GK)~(bl%UNDDVYO^xThe?I|Wi2@`}x7Hj^Em9nzi_ieSVblm$RDCbX
z!rVwHMiIyv1wU(s+ysZ4FUCLqbS<LZ*Gy|?e){r-21|yOz(iv|WdBQuY8<5BSBKkj
zgAot_4eLB#5!nZC;qz49@z3`SXy}o@W6+D@z50t*mjx;C<NuAb_m1ZJ|NsAO*|I{(
zDr9G8lTl=^Y_eCOY~pD|vWke1y;oLNJn=%2Y_eBL_Q+n}+vD~Ae$VH8e!tK6oZtEV
z(K*g})${fAc-+TrT(6g#CB*+wAA_$N34#ka6hIiK11)+}nkx4=upcsUb92AidE*mR
z?=x%T#VCl}Haj3WjDvW<)s-J=K~A-M0%k)|U>ITmG4m^bP({EQ1;PlBZS1rk!;S!<
zi7K=YxuuJfCsS`*;XzF98)NlAMFmkXf#bsF$lp4@;+Fzc-(b=IE;56Cwlf7K&`&;)
z$H4(?11A~azW&%Oh5v#}i$>54fto;15Q59!Kgz(j=ILoza|OELkh$(~+u3SA;QvYf
zPY%|PAXOq7hLLVbXA8GWKZ?Et9c5vsd^~&<f@&2JS;HzJG-T^IgG;!}f*)i#x9Owr
zF-u>h5F76HHhT2Bry!Z3X(<NygdzZ0LwmXPzX=wtFT1Zmu!I<Bp7cn127%ohFeacK
zaH(xs==FhjH42J2i?MQZkeR}Q{(tKg!J}cr_8A(G2*(wahy73~1@P5fxTZKv8-x&w
z%_BHoK^>zg!!9M21_32-_@J-_VNp1UeOG=#EKo~p=ehVj)$4G}5^P}KvJ_wa^;E!#
z|N0M{$`JYC2-)0PeD@iOw5zW0S0E0koYqWu|IzwWw}ptj2<Qkv#slZ7X`wJ2(()it
z?l}DKHCi_z`~Dy(<oxlWI}wimV2Al-EU#qk%Z9YAHJr?#drN|nkN^nzkp4Hs+?5<c
z<Iy};hMrd6%lbf~jL>#LfLi5(oZt}uA__9(id@`-2M%ry=h+jV0c^;FpnTcG@+~s?
z+ZCSjNF5_1dMHoNgANpFkp*gg17&nN#4oEc0=<Yj3DPZ4n!WFOO?6EKkHdjXRENha
zhz>);uhisqpfuiSM#rZUdRp(zl}MI|f$J%!i6_Temag;4m9aQ3p_P0=7f$t?jT!$p
zX=8&-<Jy-~E^&5&=cxBBI)YtT!n@sE<rouX;!n^1Ke<^E>{p+=*^>G1JC@HaZTv+c
z)-W1|8xSeuj;C0F91Jv#&tHQe^Gtkd(@1*x;Wt5P=s17hx!!$>Ey;JlRsOSP9hL=x
ztGR{*TTqEx#_rLBS~mjM0UiasU!;x(8ot%4rw8p2Nq|Z2;ZM_gcU-6!a38=ySA{T%
zXX`&C!-0iBvY@#QK0S`OmvJYM7CJ!uYPbWmKWL}VK?(#cgxg(z`u%RhjRNsi2UK?u
zpX0+~5<<eZ@84tK>Kg!;7+i?5(4vEY?H0mOg(ZJPr-HKNm)&&d->I-^#z<3{ootqO
z3vBAYW<`pngxNRyRYy{qme{({B#|=rLw&Z`ub=}#A16LO_=a5z-q63&g%U5655NV`
z3ak1MLgGF1!@#q>B*lQ;*t)+G60w*_ofy%vh&~=pS|KD147@N=cDh7J$il%90jKw6
zP!_}TzeGw3lml^SG3Y>=<=jW~Ulrgg-Q;zL|5E@~;}SSwDf*vXv869N{~xZ{G^yX=
zKyL%qwbSjF6<(WWuf+e$6`Oj(J3=jFtH{f@5d=1chrk0?oPp@2O0NlaJ%?fC4TQHs
zBas7oBj^!8#BBv{uU>zPF#+lgcckt?N|FZ^EM%ua)fV!r9?6<U032h?K#I?81G&`U
z$;l9aNFnh+vIXQ1cm^#X(5)YR#>loeof%B2Fhx;a&ldfMeLhLGzu`tTXJN1GtsV71
zi|Z35L&oSVzfpb34Y9<qATK6=`iZVv?YfWA5_6g&`GSn8P+#00HGVSC5*WC@Iok(7
z=VUmkGkPPT%qIXvWT4WZ5t%W<^*Vxz9OSLAJ`|y@0lYBu_;@n>M}*Y{ayLX%3<ov>
zAdIyp^7yZkaVtRi;E;rOliM;3Hn?_xg++rCm9J?FODX#`R36-r$}~s{Ak8f>sTTlA
zf;F6n!1THeG2Sa_=uAL}Mh3D=E65xm%hzssYzrR8`*0IMj+qA%1W>jh$XGA~_96Fo
z@kcNUy@hz8AF7tHDpcSgy5l;BF*7p*_vMrq=p8yb!k~$cIIqB^U=JYyTwQBZ_26GL
z2#80YA=x-cEVH4;h};7R9}JFBqACgy+C0BF^MV{0aVdrQsF;0~lt?r{S|SjdKx<zJ
zBM>M{aHS$7g8BJYh<K4pT`fhZ6?j^3AwV?>8+MY#HmNjJy1@+q@sAAb=hg12aZ(pB
zHzP=AsKp0E##7}m#D=8Yz(H_fjs@^4*t_5ZZEr^)^d-n?pwU(dIWWZS&m?X_rt~Uz
zAB+7%I@ZQlkV@QuZxl$Yc7+yxxB401cUShO$Q?c&J*KZP$k|J5?BWr9)%4N)XVNPc
zQ60kS)j-@6g?~6$BEB@pCn~x<fmo6UUUWRP$z?PpUj9~OX{Na&Zg%qCyEzDl3Ss#C
zACynuT8ssJZ-fg35{DfKy$$Og0{#?Py@>b^p7|Fz!g1q3HMQ))_TU{82yH-lmji3x
zH}Jn}DnZN|84&@UMq7vfe-&tJIQ@Km!1jWquCOk1L3Y+45e${tWe?A_AIuOCBII`j
z;{)l@0}Rk#46mNTsf{!&k$e_PZAj*g*tPgT2|P62{|?a^L@`L{%fv)RzCkby$gc{`
zPDB?2_pQc%!}R=*8cQ1p6Ioa)5nK|yG9?)Vb8grv{=YSs8!;CDliV_uR>ISn=085)
zml0oJz2-t{f^c2H)PZEs;GK>G4*0|BMc~r9NYFtMvTC@@)EN1-K}h7wNOuGhcigzG
ztu5{kdb@jlyf#heboFCi+GfwNLhiBM&BdAnxDS$QL8*xP*$^%wMgEVvlIBO5IL2k#
zioSoo;;_C=Q~Orrbc2_=)+{92VBQrkKTjXeelD|DUYM7ZRM9=wYG9FMPB4RIOEiOR
zE0PTgyYLFN!K$Y$5|(ZN;weZiphYnAbh3uU4p=}N6mo8X|5sBm$CiNyK;)phoCPcf
z-08nos8)>6XAk_JiJ@km$IuchO*zje3m7$|;Jhz${G*Gt){uGAk5z~>ljrxy0mjum
zhICd+lnvTp?yiMNrb;$Q3diIBC-?BL#m(F7P+$XTdS&kg939Z)!GSG_xO>TN{8)UD
z_DDW9w0HQ{=xtTQ`+nZz2C8;X9I7<mm$h|FdQo#;akAeiyrm`l3Z+GtXgo)FO16yk
z0Jj12Es-7zh!np>0-O>cHL#YFA&SGo!h$lMPfX@L5N$%?6fjEhr7d_MJpnU>4}uMV
zb|#?$nw?ID-GzO|>74v}`7N#Y<!#Ya52;IYDQYLQ&5E@(#|_uN3+`g|U+0OLmbH+g
z>)oa%?8shVe&{E88}bjxsb93w+|@#ZJyzg^Sc?iQEV^zZgF%F@%WTd~Sd(S#dsK(>
z!HNFYGCXdnz25N=(|UCMDlz)EtcL|_1+B}{eb7uof&Zm|GVh~@bQv*?i8K7IA1=^&
zTw7fvVu4qe6dejHtMU|TxQ{kTerscTU#R<1_O{pgWvT#~1yq3yxnk6o&e8ojp@|ej
z7Qa1Q?mXF)aTSnLtzya0zwJU(RL@=~?Vn$$7&(u|0{kQWVWn$_mUW0xH&m4sQNhQ&
z-AN19F$Zt1fJ7tF{-4OHMSBvL&(+Taf0g-#v{=p0sqqAOuE5VqH_`Lv<o&&*hlKV7
z->`hKNRTH_SB2dGQMO6=RrtKf@UZdS!w_H1zN7`D`i5L|aBW=z;A)7#bqUWX5RPaA
zcNruFyRyNz-1FY?NE$1t8f?^w{_w_SdF-I-8#v|mr2jC+FT_`)&M$;Umdrw$AEURb
zE=7gM9|*GG1o{b-6_B4%-Iuu!1qe_*K*S!I;}6yTMLFqW7J2BEfQ%EF`$4v*CuvT~
zkK_kPhZ9l>A84#{cO#lLq=F2^6|J04Ceqya?=o;}On_Mo38McEO#EIbViYTwcF*|@
z@4;8m&&|l2jQ=w;$Ek@Mfhmpog1ShE5aDCN#-n-IKNPH_PzL~H$aH<u6%9D3Vq=02
zOK7<CiTU`-o%{M;slzatTTuCdi<ckzyv{wKd~pHbMDk4xYpsR*x~bnH&@a8!P!rFn
z9|_>FA5=Fk&Sc!s^=+HF>W|$-Du&&K3a9OU@EZSH3)L$YKsX|BM@Z|ayY2KcHGjt7
zpOsAf_%Zb~?@y*5sf_>OmQ=_!_}yNE4g6QWgCeE{zidWv;<>R_Rp5j-ZmnsE)7Of>
zO^M$&NQ{y~D>Z`rLZoGBD~Mb=|8&W}RkG{^Gst)x7mz0rJ|(cH0b-kVNhd+N_{eA&
zWc*0m=1yX{Y2!YMMUsn<lnZ;<BmA=7Tz)72$CO%UJEx}AnYj@eOSJSu&+BFES8D$`
z>WZ*sdW_4BuRq(^fXIZYeAwV9fRq)HFaq+O3_M~;{slK32xHVi6mMALNDWapAM|v{
zB1$i(c(>I#Zt1Yn>M2f!*(vOroZH|$8^?XZ5IT~?B)#{XhepaV>*yI4E%6PSEN-Op
z<GlmpP^O{ZDh7c95Qva^@h4aCbwykPLBb=bs=|z&EDN{F7oKKD4ar!>Wez<)$_sO7
zSns}FpXFBHknhmei_#Kt<7NfjM<>9OLB6;K1)L@zphH|raM3IR^l%<xISeFs0)%-Y
zl-8*W;v&OUZyPV0D5)mJS9|+hEkh?i*dR$s==WS2@xotaX?i+I_m1EhULNK&$}#L#
z+`r0c+UsAY)j;8v@aAvmybYOYKn<0TD$zmZHm3r6>x*I|_nH?pUhn}NSsNtjxapYs
zSQogpS-}{HM0}xD>p2$n9qsP~#|hyxzvd1Z4)ES@)`>p!xvy$_fLE$2-@&ppGbd<)
zUBPfjx~x|)_^(#{zU(da$dgC>vU&zQBqbU3qCZ@zYwg^h%&ivO(u9AM%rZBFCZolV
zl6~bcM!;eA4hv~_Equ(sWL(4%$)c}Ru!_lAY%j6P2D{e6D(LA;avI$7Q-X_We3|s{
zt6^(17POiSb(m4yCR*?h<+pJ%Y*VR@I!6gpd>#Mj)34Q)@%&zYH6WSvp>A;@!}E6U
zfNd4U+?&=X<0CiflB0XDy{>L?GX=gBv2RXG!I;hB856$sE{_`dC_V-F?pUo~>E%CH
zQ^mJ_ZXJl)AW@gUOQ!a+XtnIlbktWRx19=92Xo47VQ|Ln{wwc7XmAcOQsn<ty(^k&
zMaE~L-9Cl=?zaE4vo3)OFL&G^@to;@^I1zLideSO;w4`7INN(H5rGTxLprfY8XRwh
zR*`b#&<!LwI#!#_Q@aX0HzR9oFV09(Gt&NEvgT5<r>k;a=Dok<-ViJda=&HkkMT?5
zI-K_Dz<hdd#m)ZvZRD$Ge&K>O1e_IF*Z^Dm`?i2`JVk;Bo}>kWoK(TTJY=uv+pfs<
zj~l<@vg^dask0{)VZ@UPT0*;6Trzws0w1Btv4P0;!Q}xE`g@?x0a{NEtUbi|^Q8Ic
z1;l~DiCWvCkTL3sdS?qfD0(hx-fu!D$!)HQH^(J(lBb8}Bg?;ve3WGCf9MX#xGY<U
z#F2Uhf{ubrw;!?<1PBin+#e9%%k>m_V>vuDd2b_7wZ*M4``r5s7i$yxhnF&j{gIFQ
z8HPUtt)JgrP*i|u&l>a`NCgghP6IGz3z1fX(!Izwlj;sEx)%4jMGTuYW)TvlGZF#^
zvhuzG**kMsDWCsC!>G?iU$a1rpy1g-6s`)PK%#~s5>gCC%!YwLN0al=`}s0D>>mZu
zM^;3}Z@NMnuJgAr`%~cDbe?x+iIO4wlNUbpfpzOB?Lr2ZR4VoHe^%j+Y~&E)BLJd9
z0i>r;7O{c=0dZdf<^-7p1eX@P6l{n)iRpz3GOT$A|CtFjG&g)I(1csnT*<a?YpMG8
zaLxfg-pRg<@H`ULrye4CgJ>fLO(ZMcPhAj6Gp7FU&F+Vk03e+Lj6DOCKB3%-+)s$S
z9guUtWV;E?T9xw2B0Vmo)(ORYBMbQ}dXJv8jX#Y`FEbR)&%Y|>N17}73)Rib-%w=x
z<?{{&cgxn+@iCPvR?O`E%}mdUfA{3f&mK%$C=)>Dy9g2XZ)geR!(%@vF$a7S=!{bN
zFd47F=l=e1*NEP}+`PADG4ccPL*w?j);awW{+s^(_S#r@x<TbE)p0yCr2Pd7tp_@I
z-nfUy-?z=?4Ca!9H&y;U|1QA@vSa9{*L!cXKtSA7K8S<N)d25U>W8xHS1BlaRVeLM
zhNfE_94g!>Q)S3@;?_LVh0M5#G~SNt_P^|!d*<JIz>IEw;KP?OE<^3^{0Lb&R9aA<
z0&h0pi(`Wme|_v6xLmUNZI+IB3HL)IkxU@ti~89%_7CWk5pp_$yuZqPzZZjBG1@uh
z(jKKGZ6Cy-_pnB7M==9!x>XgQ>S)sO)S8N9{{8oL^DUtOz6SX`I9GyUpI~T0WQcS?
zpfjq?)F!1~M?I9d_&q&@T4p-UZRKxN9#fhW5xa)GzvS9<@l9ojUxLuG90uoQ3%UIj
zB5j9`{L2`rs-Xjc?fG(Z79JN*H^VU)GtS(<h!NP!o@l0GA7kpEKFWG=e@^}PaGt&2
zY&HUWJqv08&J)!Hmowq^z(72m;O9d@u{H%U6aW0F8&^r=GZl$qw6M9ElYh0Ml7cfq
zbWWdmWn?UI?RzR}v5WaMw6@7>E+}zrEyLZWfZ`H0S8%BdGg)55oHMqLBRb>ERRA;Z
zdbryN`Y>pwL#IC>`x{q2mN&+e?2cLq?7s>+8J(DX+CkEi|2~-?ugksAP(>K8b7KYO
z)jTw7kPI351M-5G%y(ZP)LBs5nD$pn)6`LiU|y(YyQ69FPDOj$n5HI-bYjv2XkL(o
zUzZXJ>mH|j6F<M%VmVI6zs~xw0f&_FMNUo|{r!Q=DC`F%q#}4fo-;Jx*`0Hl$fOI|
z>|r|#TQWT*-eOK+@xbz?D<CP6U2oPwj#n<c*G+!iAb}EsfZhrU3gd|_px!{bGt0}%
z_%vIV&;bjFaS)JfL#9JxKM64r0vCc_6}S_g&K^GsCc09cT(H<Rztr1kqr{rPSI+Yr
zR~HpHej^=swH%$WIC0UAEwl(H$hDN!U^=gJ`~vI;IO48eTtN%ltmPl{!sNBYB-i>J
z&7KAO_lf~lU;s)+*LsY>atR`gm|ujd#7bM+VV;@%e@VPQ%Lus;-c$+tij%L=Uf$9c
z^=E5Z^6)9y=~ccbliL058YdU=@f9*l1AkWuqcF4j+iJwHPf+<mO7<~=BgDX&(L9y-
zk`%22zwW>4>t7)J%L2965zWeMR4YcVs#Bq!Q=O;U`!I30YgyUMoGPj<XD}+zQA7)c
z+Ilkn^G6RO@6-!51Isn7!z|K6ap{!iY1Dl*{~Rlrof=WKvVzrg1-7wDRR3-@B!q!j
z^q;4FQp%v!T^=rsR~!dpOdFj1hj4fh$u|c|rKcM?juJn5B!s(i=+?_V97bd`QE^@6
z?I2YFy2vP?owDJ%H9z_bM%^16<wc8O%fm|2Iw^UpV+#AoA!B=`#i}3|*{4D`9a;Lf
z23{g*VWjfCGOB#2wAg)xo8=nl2iO1*4}EbAB;<pchEOiB0NoZ%rU6)s8zn-82DSaK
zrHW<V0wb8~ugJt&XVgN+CWjVEbK>NyPL^}2kkvNoWL}#h>JH(MBWj&>W@8EWl&m+-
zUm#^Rf6r@B2aO|S%<=CPcjsrf*p&UZldAw!iAy(oCM8J&1TOrW+ccpcLKnM)yzuGx
z8sERKO*IfE?>@HgT+$%a`ed>7yzXt;xJ-1BcAd(j8xzh${?&7>7=4(Fm^H4ZLRy{k
zFnUl<OMtX*Br5)E&O#`a&9yWpj(e(K@4N0K)aH1tQ2o={mOgFd?%v=;`D>F*Kek?3
zIgp*!m}Ew(WW8?JBh=uOP$S(PZDK){Qdxbe*Q2!$t!n=~1B>wfzqdRUaks%9<%=|_
z;eyQEVciI^fUbF4v8e{!lk>qhpU+Ioe^GM=?O7dLH8$fnX%R@@!JSodl>T6p$Ze9$
ziAfZ6(4UZNgQl3npVO;m@cl)kD)#TwAXjno4F;Zo?Yklzd0%=3B?x`lH@tadp50Te
zt<@}ilc%6plH+qbFx5McIJJdD#;jlRRZ?Y0(c>^4YF$O0MAED<7efMnd~O^w>=}Ij
z|NXf?i9l+lT2VPFU$0woNkfVR9E%=L$*<rm$2xxPRw>rGsrml3yDNwD*QZ^OBL5LN
zb;F*K$y%@8<z%TG!+S2bt1FH7kjOtIPhs!w`{W&7?s?>xdd;4&@R#o&`(fwQ)3eL~
z4wD9)t{A5(t=qRJD$TqPr+ra+nJO4!jZ~F$2k35$P5ie05La<b2r2|ugPvaYZCk}|
z!IT)lB7TC`jM0pXhsBDLH?u+1XdMCG!TS$y?S!;mvgwwetmU`nAU@<1dO~_r)zPe{
zFBLUXY|%-4={-@Sm)u%!TcWt%wGvAe501w~S}*zMIdZPF29QLf)V#E<m<SGOdp8`Y
zwlwBnB22ExlMKk3Vp=oq3_1@`oJ)}7k-ZpoL7#jV2X*Jx$>!Fd{H<Q+AI%JpP55+Q
zSIs$)#XAM1UEc3R|IQ~e&PsJ4a8`aFR)jw#PsF(vYpZ+R7`PwsFj$l$`{g_1<rZ-3
zs=Ff=Q4OilA`53iVgPC{+)>`9=+AkX2)Fz;Ws2JHc-6$tOs;B$L-takWJQs!iCK~E
zyu=i-D{25`bT9D(A1anr(p+H^g=tR~iq(=eF3TYQ)NYH8{~B#14WkBf+lR$!rxM2X
zw8$L_VX%rU^mgdr@t$K~ZUz~Iw<T`0x^m&Qwi>D23)+$}>tSWB@%A07ZL2L!0a@B|
zlEBP_wuNQ?Fy-;v@Nv7jS3{Z;nDUWVVz}#DF(k1iNlruaWEqr+I8O<-c(=^wE{FYs
z!=F%*^rwoO0JN=k#G+wV5vbjIk~CvkUtZbZP-DY@Dx7N<yWgRZYcVFN;<HiKaxsa!
z)4oOx0aw*$wvDb|&ZJAa*bYxLG1++We0$IDuUU`zK8omN#gf1SNj$-j4Ef6+8g66p
zW%yh(53aTLqIX$x5T77z8bft`vkHZCSn@Xf?^i&{PtyTB<p2;&{R304Kn*GeN^<~G
z<O4Ozhh_<U7YIrO64a+qP)BCgK*Y$sg3LI9MuY901BibSA9h~=4OP<ERCYg3U@TVo
z{+!8u)!L2N2i4(`A=tx3xw#3}Vjf1u-z9t~78d9GWNLmcU&7QAx>@9Zr&lUC`N#Vd
z^IOWwF1E!P{InJiZ6efzu|?-Uw+M^kb}(X>wi7PLEV-TfRo8iGfw!13bG_S-#QVWn
zA`F`Cuu_G?76L%SYvtxG>7cE64NZ5D1^IMltwHf^34zl>$NhU1Kf)=42pBR4^7yX_
zRs~5Q(gWAfvsaSP{*gQ|h`V9h>~*xhOMcWlZ8b?Tr+pN|qDN=Ki7K_5pTw8CRO_i(
znvyuEUBlqh6+7!u=VQ_GpYX)xPG1#{|Cw-3E~=)+HqI=rJ3jhyr$LC^i7<QeCL>D2
zG33mO;&CUvn%oL$Xl6%SBgS84!5fU&O~FP_p^Or#tXLL&YRmSY%89j>**9d^1auDK
z;ko}VG=(D<pK1f93_%aepjHr(50$|5i1J6qn*DOm`@X%{RjsSiO(I~WD#oq7P98|{
z*j(1UvnL|@eV)P{gN9<=aX*=vZYq1Z@IIw!y(|ifjYJR%;@y0{;j^{N^Y9nJ+#?p^
zDKa;Q{*q9d#qWo-W@9%jMEG&*+}X<oQtWn;`fZD->XmVi^f<1QU2kM+NxtKM$d3?2
zKQ@8+`df-HSKm54W6k9Um<uD@F$)RUZ)cmG784RLeNw;M=AiakMGW^73$rlIqkYG(
zQEw^544Ndkewol+3qWtter7H$$?(VJ@mRa`n-AR@GO?zkluH0+1Twp&!YEdVr=Bnd
zyNuP;d7fQw4|3bL@9_vg@eSCfsb}@xQ<IyFKDgH17lEv3#Pd)OR2FD<ouABJ*cvwj
z+-hp-x>-d9tW^j*6+l%8k+=22KQF-pyOz0^boE+~W8?2?Q;*<?sgFd0<XbVhmUT6(
zbtA)X=yU{bC^)L<wlUanGGh%sky~TtNe1PV4sK7bG<zVwG@i^m5~Zy@+^bG%Zrw4}
zLM{&F8Fp!oG$HetTk`}DpOJQp%Z3l)PIhItUGBALl1Z5i{)5&MYTuc#7tzwlULXDU
z6ljIKsSxCW;3Er>4mjoqwjn6oiP4}}PZn{Zha&Pq>8BY^O}Sn~WCR+h|I56jT@VZ)
zQ0mylg#`?kV?JTw8d+<u8N6UDW?$h{34h$#lw6K8DzOCAiKit_IHA#wbGc3O;N1S5
zI*$o-sSX~6`c?QT=+;-+)7ud;o(IoDYUY;7)TwdvRf3-?wtj4~urX)4%jN3q4BCa1
zzt6DoLYUkSsGsm((jRp=Xt6!Y&~p<r82yq(r2p;Gl{Z6!g=^0BkBz?JNit$%yZ75>
zC}pfypL`hjVyDE4PXdnbmG=*#1e5Jq+t@--qNOE=H>A==eazDWAKebzCt8t^g*STb
z`o5ho-}+Kd=PelL1Qn=c^XEsnA*~sFAHkTdfXunr233fKUDCxT4RsOqWB~8cfbl#V
zB+MYJ*&VG#d?C+I54n#Z{A(N7zP%H}Y7ynuxsq~K-(aeu!HBrH_%Us~OO?LxCAI_a
zLDkMTW-DwCH?8g;MBz4O&9kxG>_CNvE~HAlcf-%az%!Z70^L>kz`OLJKSxSIdZc?1
z6+H1S_1U*x&TOxK{61<?YENlr)!z4(^J9a_oj0X5vx<6;r<i6&6JPQ2>PEe^g#Lsh
z8<JoOAi5XGmE3I>699kr?`RVUNuij4gUq`|MB2bw<ZV$~`Kj-QMf;xtGpwM?`ub7b
zQ&1hmouHHXEF0A>2=qY2$PIFlb=KQr)Tp0aUbcDaSMQ1C_G;#KT3`59AJDu?zLg&t
ztoAXS*R~cywUYAcWOgpDOqa%IqvcgBQqwTI>gAQjoW-BITW4&!a!H>@ZzOY<zsAgb
zQ^j9pdu-*B5QzKkv5-KI{f#?AvgdqKY0PZ#6EC~6FMz%ndAeO8Qw-f0utO}&(}llx
zfTk^q<9;lbghZpW9U7!G*C(zlwL41))=JMUgwSBDlYSNDcF9}Na3s_pyor53iFoRV
z=clr?-_r~M4St~%WP!@&FDdw~BgSLnF+V*TP2eR_rD@MqRcik5B<F-{ZeFY6Y~qLg
zzIuF&@e&c<ae}CY(~0+cgCtyO+!@Rj3<JT0=<3Qxk#DIpWtFSr_;Rn;gP%+J$WV`i
z>gcy+fd1~_686QiBvee{iDrV_glvRKk{#|mM0QeO-g3^m*;rs@V4~U)vbmJoIir;)
zu(sS7aQ#iW!=KLYjUFzMhMd~p-?lbCYvs~;+`&!K8W51__2gk4`S}rka~k$^gIqG!
ze$!0R4Q?@rq3EnXqTFK#y4TOdf^!G0*=P>u)v*d*ft(71K4Xd=2?x|+1SM$1sKFPG
z2YEoy5>*wrsSq<J<VV{8N<)Z0KMQ+7U^A`$2eb~*%ie~I4J$?K5OmG&;IKf3(18#f
z$!I~Y=nCi<Q2r*)W}X&TxM3go8VSUEs!p~hxp}VWQ{~KjYn76}*~1VJV?#6}B~PHS
zJcLif6TEEyPL#~d`!W_5VHsHn=DG1@rR&Y_ue>LOYG>bDR9SNh%U&Ie{q@f1hYeQ*
zu`tnrL9;;tbb|_L?7!m$n&{numn9HSDW-!O0aWUU%0C;*b${2!k%=dNY!F00=#yc}
z)(sdp0f7dhs^i)D)&&mRJWvD!2n^9#!rvtU-<Cbl0g#Rz$YhS_BC#qwgC7akShGpd
zJx;67evnLEB<MB8dJPWiY$-8=iqtgszkO+bq5lvW)urV0SZwAVwYxV7R{dPVlJaYf
z?V0=Q0NJ{@H16KYbk$c$tyu;v6DG;){@2hQ^f4XngS!<g6iq*|`4Vu$yZV_paK)7M
zKa{XB;dwKvX*Cd^l9phOVqRdp+Ps0S$>_pX#Hva5ixsx=Y2(+iRSQ5{BDe;)70D?n
ztun<hp)$!2b7v$!0e8Lc%y|U%#QWc#)IMF^q$b!k)}0A>FSWeh79Pe=y!mj8U?B#s
z##X%4Zo}{DciwijNwxi&{r0?k!~OZoC9<C45Km`2d_J!*z2dn!%!i*<1Ua6J6j>w^
zli)2IklLodV5ZKDkyty&UrI#@ezJH>RZ@3p`Ya<}R8l=p!xL>bXCz{Cv;Hc_529rs
z_FPQA{)7TywA@^ugoC6eRxeu-_Jp(Ub~xK-xJIee;2K?rk`4GaelGuMgm+@n?EhiT
zC9;b&dyj!{iF#lrH7Li4*?K_(zH9EyspMR7f+U0YS22{$)m~Tbh3>xkBJ%eE61uvL
zITXC5217$#ed{Psg_XoVU2^&AiLJrAs-|S`k}TT<a>RuG2K5?PKE7e165OZJUb)*p
z#5nO5tGG)6wNoGO{z|z2P(6j%1Zy;l=T9ki88*?z4b~K?gmIA~Qb!SZ_>xCIS8J>U
zk~jWj|A9mB$As-3SC01%|3g&vheVZ{fgOeFT+wOl<FxU@VOp0?&f6>J>q_OQopQV7
zE({){p!Zy-$6VLMakjVnbBTUP;jn*D!mj4U?Ul0ZwK<d~EW6RJJYVrs@-J_GN0VQw
zDa}v3Cm9E63509%?_VC1h!L+f$9HD*KB`gH$(g|12xBToA`xeJgn&jvin)M9edlt7
z94dOnqu2y_-u|~~(V5kWlJA{-SmN9lV+1_tc}qhRR_}azozNa?qsidvhGKjU^KF^9
zi5on^u{=9+tz1IwnwYDpPW`orM%;NXcQTAPXCEhqG;C-zW8qq03pK_|<M3wmDwSf2
zWUSA;4`io9k#9^WjVOf$LbFl>?<mD^6M9bwvlcpXFzLkB*AY^V2M?@4A^<?tS753+
zlP={rSED7iFu;lw#cH{(S;TNhCID;yz?EC~BgJ1|*p74E)V-#yBWwFpSC~BYx8Cq^
z6TdJxL(de@CA2)Hoe{_Bdc^qnLh*H_ed~)rdE>Up&?V6#`V`D#bs_A(;<9wrhQ*8n
zCd^1ax~Kw0eLw}bAU+<%B?P)@u;C!1h(RiVs8tXlBfw^^RF_1uUn-9|;Gl}QgK>Z0
zj=}c+3+aGNZ?}k7Ar<wmU4or=JI0NS^Ngv8FK%Ir;E8!t;xPmb1m3l7YfsALc=T$?
zZ;w@IR?7}$h!zZ@Bqs^Q<jbN<5LJF(BmSV)_A%t$TGn4b@%)DQJ%}L&(NDpb0T=*y
z<CNh5?F1-?ahw2Wy6nHfB7c^TvCzzYJpPAw+XxPeV{KOxhLlvjyq2f&{r#D45zzRP
z)kpN}Fx5@A&8a|*{@K=`!o?!q-y@>DYvHP&7^AN#Qk!SUY!SI)KO}3y)x{h{xu7{R
zXi~O)WvY{l>)OcmAv)MWV|Nt!rGjStUue3U!;T7!C<HV}CU`D5quK-N0_1dJzCBM>
z@xmc?eZ=|Cv{rDWXmEFXt4MeSS7Bkr0=w9Ac7K&gPjZSK`}LUb({82}d*5dQxv(Wo
zjf_XR(k~v4Y20{i-}$Qr^C~JzJWsekv{7QOXxr5#dl<T{-jd!wK8%2W&+(ulOVf>`
zcs;#XT<K(0ljd5t?D~aV{dtN^!PP*td3kG1>G&s0t85?YC;gfdW-X+nWw<)FeX(Sh
z&Dm)UNNh*Kd^h5Fw|Z_aH{;tX%lfZm$LAL4kkVc{ja+ix^_nBeph#gX<UwD`z?<uu
zPA(4o!&x8?FYc$KLE3ooFCc=0;^9lp(;f(Zf0_$)w9to8A9~`(zHogcFcleOWtC}d
zTp&bMV#>XGHM+l9it1^I$Ld_4R7!dN@ANUMVr9i3q6fveFaYrVJuw>mSAFf>s#}$O
zr}^As1+uQ<`}So-6PdU-rF*Bx3wqH$7W-+|Gb460g$B4aI#3&s^mVV%wF5~nEiufb
zx(eFovqQ6ddSW~<;1KEl2v*=3k&=F=J%2ITxO-U8U3IbeLC|>L`b`|}8w>)8FT9od
zG;VUOB(I#NwQ@LXB1ZQ=Dh6`$T6{42#4D@%Hc~OSlqEQVFhY`$<0OTg0u+C5zBczB
zow@Z{C#Mp`-<PK;J6QD){h9jpD_sx4?9^}Zv9xn9vD#~{^0LH#eJVG6{c6@{NQ$L{
zi#YWzp7oTHPZ1IwtcW|`A$c{Vd&NEIUU5T!mzu<?{0zN{W|hVU?^5CQlg4cMVJZuX
zqD!AY{xqV_3b0rGwBn!QHUX_5Sq~l6gWvM0WNchFX34a&K~14|rDoS{*&RDa@}U>q
zm7rI=!4;a`n^IrC1l@c!zb~PC`{*dgfj^HjD(VHFdfTjt=@)Ye;!V3E-k(Wbg}xkG
z=H$Yy%ffTyj%<#?Thy*p-aW$3XdFk|Y+vRoE%}H<=8k!R#o;pDx3ViAn4I1oOL7n#
zOXJR;t+t39+-N!}Gn(YRp&;D7Hu$S4{V@Zz`ojRM^Vg*LJtMV`TV2fsq8c$8;zaXV
zhD#;A;>1@z%7mq0?GgliB2cc^53^^S7>tUa;wE2@ymQI-3=6Lrt5#j}4W`8P7u79A
z#=bQj|Fi`h$eCQDqHdi{Y|Fe`>OO(-P|ej8t4WaJ`aKjsQO=e2CkN=Y^@?@p)ih&2
zN)Y4B$WFIS5^-a(WjkhSqsCB9ngQ8)7=a2Snj^JlL*CvC3Ztry)bfX4Hs^GWjJgp+
zAT%FfGb7#&sJZL{{zXUI9VPnlG7qmKj!6^MBX(?cv3=4t?@N)AgqCe>^XYy}Hx+Am
z4u8A<X#T9HUT>5^_jsMKN4br`RPV~p8Sd6$EdK%i5BA<DdPVHx%wvVpyHbS*PlkuQ
zq1Wx`@J?Cl)0S^``hqd`X{R-dpk(UB?c|)x`Q&Zv&!>xedV6g^7XU$IIH)MWFNASV
zO|4_z73qQ^X3+-^9#nmBefrwigF$&C$#qMw;90>w?$-mk1&xt-pT~M{g<oM~M=_Eu
zvR6k>TG@5ar#(A-LZjPI*6Eg}8@^*5$eFGv%piRAm)SdS)}mji*Z3$0Su))o9EX;h
z3X=mHPe!0A84Kot9WZ&h1ELemci%y!kAU_eQF{ahDNr%=mB(Mn`uK<q9g$n)ZBiaI
z{As?cE8|A-lCUk2iI>#rPwl-U1M}9v^V0ODp1u%D!xby1h|1RN&vT4P1s$Pk=sX?Q
zS+5EUM(ZA&vRNTr%3hy>n!oDV;t8|i4Y>xBA2dH*9A^>^HD)EgPJU^0eaRf{X<aJC
z%=_$luNaK6MQTImAk4eE(E{N3qvh;aP*^;R*Qm(-5~b6Xy&89R>)KH^CyOYqd|x>8
zc}jzz>SS}chO}1s<^**NqXB03BUCu!i%WjRpK&o_Xj<P0{qR-^csyWXbj8D%PbE(-
zrNa)bhc_9IGWkC3Tt(?<TeQFY=a@EJa)4dosgo)sc{QwCx@KnIL4MV=fpmtD!GJR1
zG;L2(@)Dgtl7(UO$)Cr%x-zFu;C%iqCtK}1z4eNjoA`W>Pt3DqX_bqM`Rv__{&dQG
zq2DD*zsqZ0X!9Z6fkWl4`5{VIE0(DgoXj^}XL;Bf*|z(RqDi8eSOb=G39E~jW8G+}
zOVsN-^+OiJGtyU{;ulV2b3H%rr<Sj#dv4keBkL^uu&HaI54-qAm3R9jC)7SN<2(Q1
zL0mn>;5n9Evz}`0-}BstQv8+s64~{mvC@$IX#})e&RhI=PILaIi114iqmJp9Cu-Wv
zoSLwGjqbQcHDnTu{ic(}C10htB5s~R`8t++zH`60gFV7&ndIbMnL+PG->aLO@%S<!
z^MpuC@DNC}>((lJXvJKa$fW*~)4URYU}JL=$)FH^C;%Uxj8al(-4>#}(W|L3yKasV
zhHts)zei=(cSqBt<Z&NeVM%Ck@F<!3<93$$UdxIjA#U}s><-5}Nzj*Ri1X4fB@KOo
z6||`-sQi|i+IgZW+0Cl!(MO|~zor!D=h5V2Te>e+ZrKRwyj_|Ie0S_}d8)xeQfGux
ztnbV?jNI%{ZxIBeFe_OAwwJJfQ5jSqL8&=<rj#<8*Oo9WW-6BY)^&|B?wkx=cr0`C
z{92+5UNN?~-CfyR33&3Jk_k9>?F)Q&9)Hmk#vakv{Zk>0pLjiNO}nP_Dbv(618+R<
z&uCBSay@p}Ym3Q6tf`I5k`(a6by>TdTOXExOaw&hK-7?uHvn>P3~2mg2Tecjdi+U8
zOH0nkC<PW$)_5{^|Jn5jdfXFpO*KKC4=66a;4G=RVZGbsq|bVTs!=QY-=P`Z8O{Ir
z8ZpDD2v&k&2-kw;BW{0xtaCRi^@O(Ivn{h1j+Xo)4KCG&<Q~bI0l9B9r@uK3X`SUu
zwkMqII?r)$eRlFD{KwB!&uc|Sjw5vIgZTv&m?Nu`HSR_vUYQ|#aiKUO#c+WU=~=wK
zF*_`b!JzFaH``^|^W0SoP&6qR!p^i0C(teO`jk^~7zQ2f;mMprxzw#gjhTUBQy+-$
zvd&xI`l&a3aeR;KADq!yUZe0AE3Vf`qJ(~!E2x>iwX0K67CxF<rBDA>ko7DZp3vbZ
zu}bnQl_Fab)#Sfp?~waSWBsyYJ|N=b8)VuLlRV~dp2d7GQk0UfArq$d-eT<`t;n^B
zHq#$Wf>SdjW$RgOL*dC4W0)<cmtTy}Ycf;OKJ$;NY?DzAQQO$8CSpd*!qPwyYAAW=
z70MD6HFJ_2PR*?@ZkZWSM_22Ux5eYIyUn}Leh}15DYZ@Htykz3Sa-$c2*(~Ral<We
z<8O+_Dd6Y&_5k&V!13~YtOj~ta&gSDV4SV^^wkgMhg!_}`K{6nVyJ_LB0<?0Cufnv
zW7noW-J2{PdJAno4P4!?gor8(2?2e0p>ICS-VL?wO{T8SA%pu?(Sks$MvYYo-JiMD
zPD-7!vpZiUT;W3*MMrdn48M3?vV{O!3zI)z^xHjc+@GuND=kXOBl7ndbi491(}!2F
zPXDpEFpRP*ipd}xXF!vVZCT$P(WC3t^-xYMxy+Dc-dYH74*Tme9$>(@ud2$*#q|or
z<uCxVpPQXSK{cX<USMXoStgL(`7<?zoorjQ1%W>1$|J9!W4RHjU%%TY`W$f!UbT+m
zVd?&6I`ojKyGgLL79<}#N)#xC<+p43Oz1Bmc6?|7k@gMOk51n1vkQVLg(`RV+9x*Y
z(}i>|H+>o}S_+6UjM(idpZg0!AK&SNzQFT%m|L&|Lpe|U)a9$|<`k9%$w-^zKPTsZ
z*I~ZE=a9xzz93BAygS$%=ZgI<WTe5Xo$m$n-Qld(tD^E|*Gr6vW}RQ$w$epA5@B-Q
zq)NYzp|MfYc&7Q9K2XEJ=~r~5HnXGm4V<qe{wT-J@mXO>y{wb~-}j}Q@>0pZ#6K*y
z_HKKdSF+I*7E`zwS6xIPre8#h06GbzIq`U-ooK*$Az$_%S+S2sBSN^H#W#(EDdft7
z<F7KEZGv5L!kozp_r^39!Ppp1fn~ep7Wt1OR{ygaF4@wM-ZBi~M>s!>j?z0K?k!W|
z;S&yb{pJha{EimQpFgQ`&AX;=S8O=~p+R<*<uj^(RJoii(ZNPze01;DK5F2rKa$k(
zz!~u#mTDFj^W+fzgdt^D^d_#&WZ>B7=jI&1oV@{^Y_!lXFI1eNaL*^>+_RV1EuPtv
zCDnxNPfx}T%E5EuWG<#Z`pfPN??TYd`T^;9Brnn=EEmUI_qqMg@A&VML|rFg<wXVQ
z6Kba53C7RIhL3bDW7HK@(f?Bak&JJwUhI}db-o!zUyk{e8Nx)}YR9KcBqAO4_66*F
z3tP?B(Vvowh=;LyBuv}msW(+eZ?LM4M(k!Q1`m<RoCbZp(Ptd7uOWDMike)4z<sos
zu3(V+UO=NQUQv%nQ7>w|WaR@MS#VmTZjks>81Gb0pqXTXg<0A!<KRto+G}xi?>zx;
zjP~Mux@$=to5K2cgU^|Rk;C*p^E9+{rNP4y_YCbH9<pDfU7=5R<TG5nWBfL<s95|b
zy%Gg~df^I++mJOS*1Yu(4Br!(dcO3H4jB}GzLV7A3cyK`KmUZ<s|peQV@}|fB==ps
z#$VNeCZ{<!@>}B!URpWsQ;c`tiq0MSWq;IMZ9Z4QE#PYo;xV=uwx=Ce!7O4<!JC#J
zuFK^T;~f4rlsL4KovkgE`-xY%SCS;sb$amCi=4SpX}^KXI2ZvY?K;#RNhRCF2Bc%>
zi$Mb|np#3l*3l302+fbEQ^6ylxmhTVaZu?6>g1)^z*DQC?++qG?o|~`6#VF6w&S^G
zoVSu4(}YQP5t=iZv0Dx2t~Wn%(<RSMePK-ye7xYZ=n;j*Mu9c?Fvy+gQ`=85;iA-v
z$xQj-Px;KBX+3`yZjWBRM_fdp6~cmMq5PheTrZK~h0Er<HiR1TE-&s@+A9$cF`66K
zA)iSq`SSvv+sY1?7!NRjW<=D6A^=PaBpsmHHhyJiQ!uuzERf%+<6^RlPC;?@pjgX`
zF-G=0m;FiJnP58hTh!Szt-)!jlRwu(vb9b_dxuadIutEpl3^**YSBnv<%`~?pw6gG
zeZjcPRE48&TXgx+i_2yCf0dNv6s~$VXg+hM@Bb<sl~{5s$M!3I-+0k8-PJIuviYx3
zaBvIi-TLxI_zH`fmj<P&1$`BTyH#2r^_b%1TuIQHu<IHFbq0oW8k|)|^R0hEKl|wh
zb@%E`VqsYfb5LgmPq+pNXzLcHe?J)&zN+WvB1xjBD?K56_3gF6TKXs5HJq@Dtb~m9
zd}GREyH4H+YklECFAWZkIa&#z%mvlozI_Yi2tTR1_IV~TF<MpQhw5e#yJ+h$-XUEE
z-TnMBjJHJL7Z`LsnX3#dG#|d=vBjqZ(DQ?(EUdg)8xw-+xydIZ>y293Oa*DfBw-IN
z{G;gA8TPLXe^X-M4V5AlK2O1O!xaAX_r*l3?c?>TD_0sOR7XwzeC)eFebY&@eZ+9s
z1?_AR-};di?yR>#+=fGDM{k`GbROs$y8*04au5r4BA~BS+7D#0rKOUuM}N&ruYC0(
z>-cUx_HgEG`$sP)Tn;XKHd@!qe>che4hmUz;@L+YBuL0cU!Q)CMO8rh^Q?WOPLxhP
zaWu4G-6u{5@8Y{QYkv;?<AzBFg&ul_tmxaBSn61=g{{vI-U!1h=|cHiG(spLTcf#^
zTI$Yc$m&%$$qRuX2$DOYRsDGb^qb<)GkY_4gZClZd&h)vAHvi_oEV<)%6QjhJ?e~x
zGvb9Z?HcWr`@Pb8oA@XD#Taknv&G*$nI=rC!_sw?Ak=*P5#{O<OrNV)vFNPU7^3s5
z;;5P)<MUn9Pk+Vb$~6t~l&S-M8&!51n~rGduHrsX9ero-{WYb+)}JhE`;<_fj*bpc
z2kooppxB4d4<LWc;)FUuMyqAJ!f|`It(%G+Ge~)LtF%l5@!SkXaSG1QGGX3aAV%}C
zHg191)%lCsBDNGOrMs>YrAj11#hOA5l*{7RZs|hDY-nYFrd3|}Je_nvM3_jp`!jLW
z)F9>h19E<}uw;Ew$?cRvabl|Mm9jw;A91rZ9uf?e1?)&D_rNwAcNPIl<h)0qr)RAY
znktJ%2jhmi!RlPvVJz&g-WMU|!zri+lNyQs2mR%Yf7iiTRWOmi=3Eo!>Jdbb&Acuo
zi{d2Tq|58<YbdrcuWhi+YL+3&@0pLMbR0IsW20Y~v_HXP_Sf_Kn$jb+|3{W|X0=FN
ztIE2UCd4XyAs~;FU@sxVp1vi$=)IU53rN2nLH_VVQeU97puhrTs6W;{0n7KpnSEmF
zXQB8&N|6fls!WlGT!&!|PX*DlMjf8LtdZllN@MdGT(b3n=5STYw^?<`-djGBxk$9G
zCVt>@i&>bt$ec0>_1a0VTJ)&EI7q2Vk8aqoyy-d@X9=AY<~!o*U$gfo&U8HB;^3D#
z`=e36l;ZRd#+ZfRk;o4TJqNMv^Rrd+D)40jad%_vE0G&BKfe4R@!k!y(H6af?Lls_
zt*nNyv32#DZ?9~%svu32-;{P;X7WGECDb%-Ms2o)yyAmsfw?*aha=m@qS>uR{6`vD
zp`zokF&-PC{4Y7PfmX%2fUhaqj)^7PsSv*K7(VS6mUKW)>(56s@{Pa8Vv~Wzy9=W!
zkikn}OnjN=V4w10=#RpfN4o#c{l@_MU6M9n7QgmXv)9+F%Rp|)&++#B8DBwO$_Qq6
z36}1rbbqnvHSrwBjLOPk0p8hqtl=LY$tO^p%1(UPPn}p3QFN3fFV`#HnMLGX!Z~hu
z!47+DW~GQQ=)u@w_uOjsZRBQKvGHIY(GxDjTtYBZ5<r#%#~9}Fbff5}Y0s;W2HMwB
zI^S|HR<Bmn>u^0~tqF3?z3W1x68sp1L<-ayQ_mPk86m(sbgSuogqm-+Tob!gOr5c_
zn^E^rD*1|~jK-6^un{vn+a3pDK|N#bQX30AUvBKDmAb+!0JgQ*&FhU~5T$w5p^`)W
zXkzD#kl83GrYLPk-{9@jm~yhb`I}BDRxEWq(?#*$=P6PZuId^Rcgci)qt-OcsKxct
z5!Ad*sfStrz6_Y`oU%5yMJ~2a)q)1owvJad4GV)u+R409w{$1BAN_DwnjSp4O~&bT
zW?lT5_#3~3WCh80{b3oU1nToUM$^1h@*H8qA9CHpi>(TjGG`tZG+L{zCl^uaF7GHd
zlBoj$idj%F9vW428?*IK+5h8K6WQ<o9gV|2a9x+Cb(@T7H=ux9cQUvU;*)pVd)T^;
zMTD9gkD1sgpKX@aHcq>;K3ko*-5x(#pNJw5l6%>u;YYH}fcJ#N$+)NO(m>){ohs|-
z-w*USf16e233htuZQOL48r9VosH%I{f`k85kEldtaG~`NU_g-xQqHrFhsmg4kTD`G
z6K~*qUG-buRSJ%`*We^#9-_`DiX5(uv!>1vH#L%x&CP8)-YdfEzNeh-v-1;qA-6nK
zH}AbZ7&Buif4q4UM=ptJ#82hYJmY_s$<FufJx@p5JdqXg@f4-N{P<}$ovJb2nnN8A
zgd-Cpv9Z-~0g&}yj2DODkZH=(R)oqQG%{@~83Y|)p~`KYIU*lyr_Sgs#K?7s8^p#6
znd1u-kv6lrSz=0rjW6f!b!i#xAyt!vs^?Q25p}tP8+bn?i!*J)rnI<f#C6qL2a~ha
z>KTEy(_aGSrsB`mz1|^bb`Xt;V_9bgkBE%9YG7{)CqGm@^T6$6Z{a;FDd7g@%!)@K
z$kGjGo{vCzu9pIDdh<o-A5KXIa{@(Wi_Is@)%k>)1B=6b@8T?kt8@(ur4Le#XBrJi
z)I$DIxOZO*#l<W)a?e8-t_V|>XQVIKy+%XxdLHS$cGf4bPL#FGHKJM4y|ebMJTUcM
zv0H)4rC|PKdzyvRER*(Sx5`J3$9htP)+^!-d6t77>7znr8GGqJce%vELPO)y(>FW<
zL7;+(S@|fRoTq~x@9Tm5g4)Xd^fp<>7XO+Ly}X~?r$%Pqs0N0lW2rSGJXEeG{iU<V
z*gEWAzN3a&U6-PYUUq-cR1<L#xu;%6pgl0aP_<;IaN{qjhkHf8!lovB%OAU<U1<ht
z*QT6}FYW=~iZwfa*>PFKW}km-=b5>y7g}R=en6FV2N(NFrV)p=?4IJ{uuyY|ewxQl
zap#{Dr!q@$*CR8bDkl0Qv2k&6iLZ&pfof$7DA>Z2FGWNP-6$CDD@t28kr^_|>%E+y
znYhY=SCqf|O!FeUaCY!m5_4N;cy(t-H%LWIFFPk^<70cfUeL;GtgpA${R*#W7(eCm
z@v*zDK}=|C9ktn_Ort*<%F(Ck(a<zsPIB9iOixRMKu^Bz5BlD4X~RUH`@5idw0_Ey
z(ZY^b?J$5I4GgwFvoK=jWO@^ETVu$aZeb%pHP{VS|M5(Ymy5be-*cs4&{9la!Spy~
zbrtz5_KJYl5Kr!<hv=%h*lSbDoEV0XqN0ZKm$Bsp+NO=cxeOQ7PhL9J<WN+qMBg3x
zTKS?yr2nUst_Pv!o{_u>N4I7van$j>j_igU(Xr2^G<>8V;C=&l3LCIG3&)tJ9BXy}
zEc5A4{|yCYo0_}bA#vV<YtIP@_k9A_Uyj7>$WFVY5Hvi~vYOJ!$htNdTPUqns66-c
ze$AY#r-*-*;fSWkx)Ej0!orI5ycaWJrEILGu;g34!kU99c|G-83F1zP3ES2qj`C3H
zh$O<;#XX-jeI|*C_A0=Q=HlY~QSBqR*csFDsD?syH!QDn=cGOkpV2=KqBjH?Joe|>
z^C30S*Ku)kW4Fl|rN4oH@Cb6{@y~vuz>BbfcfM!#3FeNN`Tn^H%5x<Mvb>=~mkeyn
zmM4l4q+Pb*=<k{pjEj0QX|A4Eb;ZyVXg&k|tAE!D@nkLKdU-yxDrZzwEbaDbecFB#
zpQ%hnotNSx@M)Te|Ly@fB+FvVld1*cT7=Z%IaiA3zm~}TmR;1OX1t_NpqG`V;vP*n
zr|?|*uGTB+PkC%on(txssa34hsLAg(C@mZUPo5S=cdO@9=2tzJ8H9n)vA`<Zc|Uvl
z0;W0uw}J3+-8>!y7GGdwM9R8JsQo6^G|@eudOCA&jM}M7TCB{Tm7Hv%9~KSj`uS;v
z9+H@bPfevv`YOlDYh7NODaDh`R~N3*nr;Y@6kJFf!MWe+=w0M4ub%8y(9Nlp$vLzq
zl)+9({`;n`2LX;T{_|k%h{XP!n+DHJ?ZE4v(=b5+L)`cQ6DA~6d^Js-oh|-&WEtQ$
zOE6HiTy$|5@P)`B4FsCvPtkOOc#YHFfi4tqZl=9>L%d<(!QqB_)Y#qrVS4YIU5+Bj
zA(=xOO#AK;*NnVOCCzp9<dtmI;<~$wCb3$r-D{*=aSM4((Zk&r_Fkb*H7emcX7VH3
z6dX<#Qp6+?1X~nE!A$q$-`cZI48Gxd-X~THZUV5Ik2$IK1C0aWSeG?bZj%u<+>I9n
zv%xj6B_)~p7JlD1eq0|0GD|IeeKr^JP*(!=Q0d({G}rKZpA|t3DLsP(ygMJ-zxHKv
z<GV}iwA0|;j%Ru-5W2s;exI*Ok!N%8v&4gj2U2NCiTac|-_!LvmbzkEldcZ0>A1VA
z#YINFVedY*9376*Hen*(efUddY((ez%mgQuL1FM-yiEmb`T56em(EO1Ir^YTqIc$j
z$aK|jHDhL~06T|WW(ll-poWqCPc3KBPUW8yLFUH~v|?MSae!c8_XF%seDY*(RoTbq
z4#4*I_6gjWAyqM=NPS3>JHE1S`n%XEJ&)-Ai-hDje?~FSV)C~qHxoW+^$N$9>k8_8
zjMs}GbW}Kcq)GmFvm6gSF6eqg54W&dh=V8W>|_L^V$#W1Irqlhxbosa!g3)sspzp=
z7<iMb8$%u=vE9Z6oCUg>tJO((8J@)ln$$DW?3<xmFQHxl$L39G>2zp0gIM~v_z7U+
zyMQL;1GD<T(yCUKnllOS2D4&v-J`bg3Z?YZrKquT9xkrzl9DAui}1T1rNspW8Ch)>
z$$!~g8O!Tqxk6>Q-Qu2UOuHxr3WuD?xyvkz5bZRNeK~9UXZ(qfih$5ylKipurS;!8
zY~QH=^=7YCDw}7Z#|yzPo_{94PY_)#BrG5(yt5-z`vkuRCr|zNck!=Z#i!#vC@4LQ
zEKK`|&W%V$GBhga)2~sxX6fpbQmY78stkXqQW4(a6x!j`-4bxbptl|PLs2kvlYH-X
z!BU^60|w`5Ka$(VK%YMge%T#xRgDp;VSqCNL054bRe$+#_tQI|O>KP>>>Hj$beq8;
z#!Cj1z?`c2;ua>x_X6vT=OLL_XRXX-RVCuElLu5AA;Y4=oQ=P<XGG&8)7jBR9^c!2
zD5*&<dkQLs4Ny`2qpeAP*TF%IUEMxa40F~Wn@tBM{pAx7_1)xNyMaRC_8!NUn-r5g
z<%@QEy}B#F{qw#27s0SNJJQ0Vs#~EfI^?)->G27LNvTF<64lC?+6+TK7hP)9iM}+}
zMgF;ZByoUz{jREMaYqMUY_adWfh#ANpvP`E)j~(DyQgnJdW>u%IrsDw!R!@(YP5q%
zJy}i9*L5_cI`{&QdRF=vNbw;^G;!;o=Fz^^45C$DnBe1S?8+IMza#iI^>|QW!#6rB
zgsnt*vEq7kJ5>RtuoAoNoA`)%@jTmibetRobM`4pMkz0=g`%@qh;VV;;FrcEr^vF+
zeiNT|gMBsB_rh(Msb2rR`F*`G$Ktu$s&Dm*UK`{6N_lHim1a`)d1egnoupmi@NWV+
z@igZ_jKA`ugJVS}ya{}#$CtrOE(1a=spl~H%WC_bOgRky1V#*KHTpi>75!q`QVlcj
z0JW*}IRFMG{BRb5He%Cr7g^c=)!CVcL*0e{pJXjdwj@g`DN9<0WH;d{q6vc`TZ?_k
zmhAhIl9b54WEnGKDf=?kN@R`6W6hGKu|^2tcYmJm@2}r~zwdKhuIIWmW<GPyeeQG4
zy}VyRRufeed#888Z=}2(MY^sy2!xFs9(9hGJdDMpm$GS<qICVUT&ah+3>7}y466Df
zLTcEryq}%j&nJ6_GMU;@P!OwiD>D0J%xJ9)M4s5=KYZwS^0h3LStYlX4>^(ynb^a|
z7<SrO`Gaca3GcPDItt<p58HiQ-=DlrhoP17DwLgh6F{FIDdZEyDD*h!%lX=8V(E`V
z_KK+8P@S~`+Dj!M;f!SVcHHL}0Eg03>*cbyUL5E;>N$XQfj&a|M6*Z7Dn9L%aijl;
z$}!h`f6L2t{@;9bf17mwOKBXjpJ_o)-#}=DvcH^b$8ogy)0>MJ9P_bO`;h)8T!ah*
z=kt!chUH4vwFu05X|;GK&DFK6D!GuqeiV1DGRc%<HR1S)g64u6XiFtX!txm6fEWe>
zjs)dE<En=uAX-DH3>>TT9)Vj|jIuM7R(eY3LC?4V8zZz79Ym!4KYaKA<z;@(0QCkf
zrzQ|HgXADRR1!}^6mny>kVzz2weLh-1HY0r(fJ4X=7JbZGJR`8!I2@;PV~o{AwhF_
z{<ofLNXe$A9=I7XdH1?@A+z4rmc604lAx>~ZE*1Vun^6U*`{F^9G;Ne7}p{nt9anZ
z#+g0FBLSt!CoUSZ-oolqE;U^?*czrO+rF1cojI?54+U362oG&-Htg$w?pCICSP^-{
z#Aj1BIY+4yfP{b|ajbFyMMKbnq{V0#A!@}G_#ddg#+bWl@LRI<x)HR-`>kcTJZJXt
zcFlGNb}%xBC_nW|_&O9(;YBS;mu1Lrzkbd9)>1~Ju1U~LZE7m<bm-hT?i}W9CaPF|
zMK_cov-}#?j*e9|E05MTWY(!swR|bl_V|z<UB?;v{EeF-uQ+D^@fP~wj1g&nmv3F$
zmY3lDB#o5df3dtVcajt`g_BVezpP)5#%JmG2^zHA4{<08KF@3!8`PLNqax<IHz%KZ
z(UyiP^l|nvAF6#u)PP<MA4XUsNYRUJHJCH?W;;H*UZocEQqoANe-`6+Q)akhms8S;
zfLDZ#yNapInsDP{5|*qFEnOLz))^Hpk>wfH7Fm?7IgjSRebcpdT3U`HS;_92>iEI4
zzJ;+OSzlk_rTS1&Y?ym5$V<v*k$&(cmy*Q)$z?IKX}3yLqw8Tp_7>;3hNFT>2gO7_
zcysmB*NielkSRR!j)=Wdd`1M<KK9fJw!6~$m22oam9z7SK{RvU+3SsqqdR1D{uywv
zPKB*2%LtR1@a&vKC<N;++?Bl|Kx%F=4OCLLy4lz0tbb2ceRubHbdAFvg$-*XVKCQT
z97JZg^)Aw+E|PHFj%H}-#zRhYs#h|D6`69~n`1QqBO<;jQEqMi$xR0BgE#elm#Ajx
zxaPOaq@eisLXL1~tTHLdb(Q2QF0CIv<Gn?AF|vD6MHsFKRRn^b40eoHst3iBUKdV`
zVp{)GZ|mD!X#ZQL%0b`Yr;<UMcx1Dd940d&|3oQ#c_}hsh@M#&9c7rCB;r=ZuM|jY
zQ-R;Z*i@i<k6c$cU>6t>rABS5)17Lf+O%j_GAVe_by%kn#92#m`KCsNx>i+EG<WY(
zF6d#Ix7emIuQQ4x`fzKr_gbIDa&dlLA-(R$l`Dzx&hg|$<bM^Ho5;<h-ai&^&@_RT
zQKWxEWhfX5e9nw<I;uYZYW#GV?d1+y!nbqQ2Mpx;5BIlqi|n^1yUwu_-Y7a>QjcZO
z->t7uep1pxiWJ9HI$ut-P)=a-oyrU7NJ!R9)ASJI=KjWNm`+Q~J`f$<|GE8=@^kof
z>0s;YY}gik@7MOf?YIdBbeQWBdM&T8p<U)^Y#oY5sra-Uv&hhC2RV<VJWadjgmC$-
ztK7NGKXvTiTsvW1SCeKVOtLQKKXvjzNa)&=3wT#M@y;CQzVOIvFPj3)j64lk=_LwE
zsm6}hbNty6`C8Jfs<DZ9=XoA^0SUvFS2+C`W!7uh6aStzkRifaLV9{Zo)DT3T0lqq
zC&*@ohlhj8UK#{KtSX07exkx5&Dtn8=aa%8UhvQ@jYaQ)n22vVe}yiG!VQQ34V5l-
zH`^vtMR^2BH7Uo>NxR4yZ<*Ne@Xjb1Yp4fddChD+dAUv>Bu*4)Mc$Fl5+`!Er^#ga
zUZQ;$3=xp8H2o^z>j?yL=h{VC!=gJ+iso&TKS9fc78H@ZGnTvqJu`~Hiu$`f(BQnZ
z#)G~yj@Cc%TkU!}^H%L0jp^f=f4T417i&JeVsv}!J`;6h$Ywz$WpTvQkS%i4a{3`2
z`I*pp_>iuty{M+Ra{a_mT#`%_yWYL3R^@!Qd@_vrl08kb8R1h!>3XbLEv@a*SRB!^
zTI|8+;(bYJ@^4OIzZKfz`fYI|Gf!+9y+0itUG+r7abvPiIjmFlr@c3+8>#*me*3BO
zyqfi6%Wnvt^pLADj#+sM%l3frqKt(_Dl<+vg=y?!>Tj+yH8;b@KYa7KvUkz6pYu{2
zYd?;M*N5E@aoofzV^$YWLs`?7CUI2GmXFJmPZ#YtxbUA|e6HE?5bToep((?&xP9sW
zBLc_iQ%XKqicr?kmA*_EK@fp*g)|?6=+(_oHggFCwRXZlDi@SzS-)4y&%oct;lH(i
z!7+L(G`=&9ITaZ8S=->Y_k$w>+ZHrjhU7!7>~;cy!rL98f6f*DwN8$+4k>vk^YSoD
zp@*QBHb0x;$B*K7w)AWsaFZ4ut?zcaY0uSxKV!k%%S8N{5t&dI4&IDv<XLgx(eVz$
z2vcw<D{N!L_Tq7m-*dMi^)T<*FzP(JfD65<CK6_Am4M+1fRyRrIk~Oynlz)wm~wf!
z(%cQA3<^cr=agGvQ9m4(`ABx{hqO*;rlpL$Z*?xte96Axg^d6yr;FhK6%|!d(EELS
zBI*EQ<hA@k^5RXmX?70#V8h>#!JC;*p($;8pNSY&hg-=f<qYt=+t14gxQcJ%Mh{sI
z9h!PpDREE^8leEI6p#_mfks6J>ApZ+i^=xj$$TEjgk^~JrORw-`hIQFgDEPq@o@<s
z_q_RaM_G!_=y0ru7whZFlN*2i3QFx`n@K&bEdGc2gLr-IXnaN}$TYF>5+=?eQ3egh
zekU4}r7+yE0ftT@OviF7*4_dMO4fL$^Zk~P1Bt`uUSr;oaK_0Vs|Nwi_xIa4i)yHZ
zGa0GyP>C;`;Yt%PVD$0F5-txAGQ)WhDWZ4i@k6Ihm@EA}%E!(d`p*~X)7F<^GqqCp
zLR;N#xy7iJhTY+G3{JPQe=KiA*P|yUa1Pu|=a1W&LimK@HX`1)8YxF`kf67Nql-(x
z+Hq*6YXuRSDggJ<{`u7^jF5>z_Wh)WhQ?p2QG<Qg8aF!1`Uqd_cAEotDvC*q#{C6V
z5c?DJwkOMZ{n)#(V~paPC44A!-3!|@o+;-g4|9?!paCL4N(OgeWweV-+O*8SH2utj
z;Oi=gh0VQpW%#q{HqTU!9nQ&{uj!4Ab>D_)KowML0oUp_<5!f2nV76>0%F@Ad5lo=
z5TS}}QBzkxxV5zv7J0lwLsm^ggC2x3XCP(vN&L`l=H5JRn`SSs1G=GUXR7YwbYk=$
z#Iay<2QdkS%HM=uvyS+<m4^ASV}pN*KYkK{jnD8MZFJw&o+&D|$K&wepoLsmRWCmk
zDJ`4v<d-M6pvL&W)io7dOln*{&pL3&ofT<91X&?a*JU>w0C4S5BXe)jrlzBhZwGN?
zce3aj-0Bv5Os`tJq`}DVKSPl^Tp3oit(nUwOnm?EDU5d*DcWy6-eST^=GmKT)W`yA
z=5+GAnjQyVlI$G!+lV-V_*vV`jMp}4Sj~uEt|6h_Washly?qUBJ3Q@NW&T8g8MRy9
zgxDpk#$}y4q>$vwIoWLZlDSo-=%iCC^UKIbXRHX-gBf{5@gin@&C5nS-m}UPSO1m6
zP}1MM4D2|br$F%uqBMzjS9MYEI95c2Vr`Lceb6itH=HUUiRxA8ZyRpW>D=?$tLuQB
zNZpq=o@sQ+{k_e)Y>k<}jG@EY(Z)BSBBybzr?8?$s;}?)Nt8^ISS&OO?D+y>PfV%u
z%+<))K6zo8n{)zoGe$l1;m8|#;>aENzMX^wf^Nxs?KG^u9skI1XWJKrL)De07fdAb
z^&3L_Ab#Qv>2_d{y|CiCsndriksQCa!6W=*%@*=v$)2x3d|ik@2*omU=N4Ff;Qn`|
zP?dO4g3>L1J?63WE(um5fe=z^Ls{AI=O>g#M`21$vg@rLr70Y`a-k!@(;*`|u<0lC
zvrKt4><Ge<9289>uDf(+v517Nq+G?6-)8!0UDrT3-0t@58WzVEpTS^rj$0Vp5@l1u
zvU1k4a!AxTxF7d~AG|H#<6c33MG0_w3MP)gf#oh+(0GwOpKF5J&l|C-SmGGrZ#;XG
zc%v_#<r$+x&fjZnRNho2J=Rm}RMO!PEDoomLgW&A7JJImu&}#${KrGNH^4LqI|Gif
z<t8mhYEHxvn`7}aJ}#A*026YaoEdA&velXp;lNZAzi1OnmzfRytofA^{O4|YqKR-z
z3uUsWIWS;%_BgOqkB!Y73+F(W9m=Djq>KFfMde4A+gYO0z1R9)GlYeBADv$pWezt)
zcFGx4JCGdXE?t}C<vaLGjYHU_t|2>n!jn$$x%&XF>FPJuGVL@<^&hh-6x2<Eka-t~
zNvG_jhQWK&o=Nf9?lDbau+b>Ae9+_EBuLV_)PErxH!sUjxaMIg@Nc%LaW$^6r{ER8
zW-8WxVl?6#D~V(fzCceuHctu(fgMHd=;O547EN|=8Im-wLqxYP+V`KW@mhX9ICV^0
zr_Z?Vu`7g7IM7iQt@p9o{Rc()mc0yBaYdVAbYI*cm8(>)btxt`3ny}+A|TUke~_0o
zS#gp*sBOVM(30`(EVGB%=#m3|5sf<*ACGq}l9zC45+{WY;GmcSfz6wFje>Kd2MyW#
zAbhiKeyZsPlgN3;GZF_qZ?{C1a<;q2WU!F9NY9B@>ZPixq)pRcT22zdE?HcNoi+R*
z?9{V!Hq+W^uiFf`NDCV?1*PrXk&}~5t83)$sx)aZ6Ci<EmJa@byHw|`fK{%AN4}Rc
z65#th@46q{*k#YxD?wRQc3I@ra_@K0Duv-oa-bN0q_}YN_uL4<It3SPaJ#|*;VM6T
z&cmR-!8%XFE$@{LQ(gk$%)=igU8iF417*D6zyaQl2=@bG#$jpg2%1TRMkeJ4o1Erv
zt+NV?<WV#Zq_mU|5{;K{(KC4H&5Cdnd9oE?5#e&F`TRceB^Nyno0@_cuvh|~K+rn1
z`=*9x&}5>mxPc9nOa9GSFlQ1`m-s4K<dZLF`EYmF2dh(ZiS$nXXYxDwEY14fD;L#N
zpSgmm8||Dnrd&ueGwWI8<2Csy&wZt*yS=oleVobfcUHv51MDgz^6<9%wEzz>M_>#>
z0e`F{dAE+A3ggIL?Cl_wC|=;@GYD)j&-KB2J5-L>^B5<*)!d6^`2In=#I4(s{sY1E
zCAt^I#Ed=F^yM1;l02~=WxRtUpQ5q<MyRS1q|b-evtO`(T?ShMdc2OCn;SWwN^_q4
z`|FvEOb#?tFDJpJ?;|?wc8S|J7DEPP^bLM(Uk$~I#b&P$Egrp#JwnD$6qT|Z4wL>y
ze34@(UsHq)EHl1S`O732%oX%zDS<%i+UZr~m!GS7o@Zx(#mX!$z_N%k%&xY6b>Qxa
zyOz7VHC*l8s5*|)C8{U(5$CEGzdsibsjl3VDGIw=c3%C+BTt3%yL>P%?Z;}0Tw7v#
z3LO-Pt|kDDanFcEp0midXfP*8w=rmY$5YH8)hTln{hX-aTg3m|O!K??I$`yjvq%X<
z{+MdTUtdb`BoI(=8FDr&-`F%51>2^K%!<G>d7MqY5iVqk3Oi0OG3r|)?mo)zkx=mQ
z&6iuj_bPvFzVjp`<*qtba_|uozS(u3T(~fwrS+|FxMMmoR<wDnW>Yrzz77+(CHiEB
zinB7!I|JW~=P_}!U{rRpa@r2`M5RyPTX`RF;O%+dr3|Z;L`MaUkNcfGX|i+E@31cP
zCCOm)7Z&&a-pP@>1MjmEn^&Om!YPhptavZLEHc_}d6Ab8N;xLOvcVrH?2wa)nI=?T
zVysx$adh!x(FNFtY99*VM<s)flnmcfA1A=L)xUg2l?+lcU0{&eUT?9MnSPESaC+93
zOiFSuT;5aGY$80m^2i-?sJ>11bN+Z4oTpGaE%xQ#wvZ>_aC(&&OexZQQ)xME3u7v4
zz_Y_aS{NIaI`}EL`iT==^ktFxdt6Nl5w8N8)e{Ri79JFm*P8OjJwO2T%AabO8j+!+
zI&=<U{8s+d<pEE;q~jk$OKcpWh448vWEX~me?rutx&p_~WH^}79Bf2$(|G;7fJ%<*
zUw^1uoXkh<HUz8u6=w^CIC1r_Psgk0vY#H_T!w0XcI7`o-}g2ub>y!ib63U&AM=La
ziu}w%AJ_A+HoP5;jl{;W(=$GcwPL<fRE!R#lctjoiinumE@ja_LMMXfu}+5?mbKaL
zd=Sz#5AB0mEJRBZxmAX72)+?LjBYtmmSy?+o&Z6sl(MJA$St3_VmVd6`ClHZ@B6iT
z<<}KLzJAriwdlfNRW)K6iRqtqBo56pN_gSLwXhEKKKjX{muCIWE9W1F(-_G1uFnD+
zcn07h>*iiiJckH`fz)O4^g-B#n0hbb&>|>qv~U0S#BH0;kJ%sc2Rd2$JxxzGQfAEm
z4n1T@t27N<`lJJX9SZpM)Pk?xaKO_XC>_?wMS%l-=ka9mBYH7uc?<u&u3XuS(7rHc
zE*hR_1l)<Fh8S20wW(!!b|8y(2^RgQXUF<TV&cehJoL}QY#$$8C2YRYX4JtL<u#N1
z3j+K{QbBXR8-y=tuiv_50}N&0zP|scdlRvZqZNP7QGZrX2`k(fb`ANFm3HHey>ofb
z!2sS!X{d6m?!Jb+Dmy(>eeO}lD<xuO?;@4>&ZM)@M>)@McL_`*jAJnh?uGF2Ou|Sk
z1%9&<_y7Llb}2(X05xT1Cy>{P48@<3K5JxX_zCXdh?074ZY~65k<j4YX5fBePfyQ`
zTq|$Zy#130kuALotwoSEsH)<NYzc-y?Z(t0k>tobM06Rulz(AOX^_HkR8Cuy9fThd
zsi^^T-x$!D1r^UWkWq^4`-zCT=_vU<J$Lpj%?p`z<N;{$jvPmh^o~2AMiU>0Q+dZA
z$nP@@eBdsi7k+_>C00t^sX`J-Pew*YG}BkNraa`^+S@^Tx`Wb8-jWkwg9!(!)Con!
zI$W$&n60u~Axp1v+3#|~ygcNY0jx#;s$fF=OomM=q92Z^oW6}!HW9N83lEP=O2W;S
zBf^@ePv^wt`v-tF04JAeg^e#LHvhfAn=Sal0UNcEC0a~z??hE^38W%jeemb)$kPF5
z=@|46&>#&2n<MV*8GftG5SK@~BB48Z4J5*Lyk`EJ7pM5{Ta-~?h$Dh#Ac%VrM9Ps;
zA$=HlXr)009yrk?lk(`7FF6r*9pE$uU(QM)Bjh?JLy%KcR7{0t!W4z2s!${{4Pt1k
z`6|0lQe5hj;HNsb>)j|wv5zC?OIljmLVs~|6vO9oarK>^gd%Ll(-x)IiHXP)t$o#&
zc7=kDQrq5>{~Zd_5i3w1p75f(nbP^`a<^g&bkhtr1gaqUTZr0sdOQEmSBUOzD#*z}
z5Th^R<JAoexM9nm0=5Z)0E3>Kwc+o33I8`W{4y@C_vNf4^7Osper&o+OXJ|cguyk;
z!XF@HT!^~Rz!upFS=bU|$-{gXg1}e`KkC+q3IYTLGFTUZmLth~=%|@T+{8SL$W72Y
z1<=6#mGLIOzrR{NHv-`uM|_vbNPGDBxFv#pfCP!g?b~q!%V|kTH*9UsCg-)S%AiwQ
z8lb7AsCG#nWb1*rWA*uk2=tKWn9qK9HzTGO0S5%7a}Pwd);FZ!EC|sjknl(A>2ZP#
z9zq-M+^!Fsn}b{Xjhi>2Fdo@{<#+t5%{PIL3<@zikVOP#{J#q}Dr?&=GvHOcBG?4A
zEG<u@frM&%{5eqmMJ=+<DMtgW>ZqhKW_Jq`;T|B&vOH2<I_3Z(0tH?Ge;c?~c@D}C
zzjASLtwa6RJe1J&Galx{EXyDY-<~>szxTH?_Isg~=g@8wqj0|z@6&p?ol*xn(iDt@
zLA-De?BT}u606WXC>WRr9e`~J?2`kQp`U*at{n22vokXlpLe*j-}1@W#|M0os+@zP
zP<lO3e|L=<wqHA6O8O1t6QhPti4NrzV8BKep}=<1O7jog-}&yTnsLSDzZd(%BKGm~
zt5b#~DX)J9+5>e<@t69#=LUdjur8a^KAqj&15*HqdMaISY*B9ix*oxKL3UwVH1STh
z5f)3?QU<w!R3Tp8JZa#l??Xr1I@mK6meC7y45lY%ZS$(!M<Av_4B+niEEHmdBF_f$
z^2h3xRa6>oh<!7$-;ZpVFRDEpst<OtZt6lV@2Y_AxOt$>6zu(lSzE7Pg6E;o?jo7;
zN*9pq^f54quLsN$M0x)-&haN*b<YzL5;FG}+;J<cd7Y3zg$z%Bq9pDvUuqG2ZGX5M
zcve(f_=2R~nfl`*=aEW~zH4aoZ&-)5<_}k=eauQMgN3-cb8KvEj9egivFxF`4-$&R
z%Ej*u7L~@5+mMS-*;V@EM_hs_nGHW`KEA)(u-^(<mM$O}>H_X_ZlE}0Vt&}+=$L!C
z$t@k7Y2fdHp3B?+Nty#k4Lk$`(o{z-7KHm14T$e}Ru~x=tib22LB^9qP;fN9@91Pm
zFH~gs41?uGw@hT>@t<cMC{AG0puX$|3*~q~Lv(bsPg?kB#{8aAs^kay*|>j%tY8Cz
z(%1a1M;65cAnSYqkZK^^Pq1(YVFfNh!A@l2sZQF7=Ye9M1pETjj_=A<IWnNUMqFD3
zkxm4~-QRr(+yJrBH=Q%qDg_mekkg|9AWLP}2C$}Xo15!G!_YwSXqnxsiGjTd_P|C*
z*|nZ)>@sVEEUs3AWp>D-1YayeHBkZr0YK}=AvwQR^Jv<CbF>xEoW|8|qTtApmP3T5
z02DB2N*YM;)kk}9KuYUAs3ZJ^?0sQn_rQF4Sy_KcqQ0ss4a^pC@9(fn1471A1osRK
zzPqJ^pkXfww&=9Fvr<iK4Qm%^`GOzKR}FT)j{q4L<fBA9dFm9c9AwNV24D?G!=iA9
z^j<Fnd#H;r0mz{NTs1Z1P!<}M4@{b0knDU1{xs8dfC|+mpJJ|zAq69KLi-iN&TsMf
zsA1>YnCNI08idmXE^8pw<ysV5K~>co3#jx*@>daFIeuhwU+`fdFA1XAB4^JsVH*Ab
zJuw7!U~2J~t}aBl6xmsj`#<<Q^T!kPMOBk5KxR>QbR>OW{<y5H+w8@|!!zRcMT!QQ
z8_x|Th+f};)6C6eRDq1HP81tbXNYVWp!%^2O^LEp=(sWa0%GBal*Vzt(MaI{gkz5o
zkG5c0;wl`EA^0CS*Fc?Sl>6hQ>RBMMOo1?{-B(xZuGA+jfHr3oJ`JrpfM$0GO9MRx
zY6q`Enl3m@98BDmQ4cO73x64el-uK(25JH18?!xlQ6qJoZEzG~%F6XVwF*-IXlPKp
z$wl*sNB{eMe^(f;#yQa9LfNTs9Bc+!!(fdk)OUFYX-(6xMTWuv0IA$`b&;ueX?lA4
zBGAsV-@e@%4`nCJbNiDGK|J=h5d6T4h{e}1l?PW>SD_SQuBHplC2y{}pSh*7>#^<t
zd1t;W&H{)=b+km0?axYa_1gIK^e$))`~$=Dxx1UuK>NUEYjZO?qj&(S)k>h03Ca#y
zRQ7(cs}|<^0x(w}gTd^2!VUm%@5?||r#gY_1^Q$>xD(XRUFi2bRlVF$v)oz(UO_me
zQxk3!X^TK|k^>5*GNN(|(2%0iWgsvZ7#LgtLM2!qNcsGjRoTBvqvZ2@9IVT!$?K&0
zj**^TGvMdjy1QoqT2iQAw>V$!Gu}uGwh&Hr=-H)1IL~K*M+awUH+T0oXw`+i&hz<n
z!1xr@hDfdRhTCoeX6LN5^ej~571VzMkQ+lIY!gX}-fnOAoXBfk3K0IZ0;9NZZM_OJ
z3zY6S`N|>Kh{o6bw6wKTeh1wDR1gOP2Zg*|o@+{#K(cr^_#n}$bdXR<hK%fAP-d6~
z*E{|G%Xy*~iC9z<4HY&0gB1|4LaM+3*n-XH)ndAB1pSu4d$ojQ3vd(TK=VX?2c}M`
zSPi4nVbhuXvGdCJXPwpvg$|}0Y4hz4*eInA0N;-_2<{e@jSAe^_n=nqI(dEp40rrp
ztI!m<RcpXU#B5jc^uKpmVxS-pK1OyS(wh1L3>|XNg8k&$y0jwP8?3=cC~o|FPsc}v
zGgT4VCQ5zQ?NxQ8<ptOv9mL#-2sA%=f{>9%0DuFP`Ju3G-a}Ow62bvXHuFyfqzO`K
z4c^e}MQUmXqW3^9hCnT(*g1rSEo`(n$Dw_j2524MR$LuK!Y=u4I4T2hmRHIotYrf4
z9>WTj0z{vTA_@fc_=FnZZ(-f8G}6_<?F{HamjP)7asfz)1;K0ZYl!e$Rt}TRZD76G
zK;b)$vRN^Nk~%U}G5`S?4^p8B;F(v_xDnuY^JQ{Xa2hyv@$Nxn9d@hiE2^ofNg9^~
z!AHXJYqac2|3X^UP<2@uO7MaJRNvwQMlJTYjmU6=tLe1vV`LM+??Vi!&^@(wspiYP
zE2w!>*LUDPVgTv(iBLr8kNgQtieTYY<UnC!V7;KNt-TIz+I)GqvKZMM#Y9DaLXIIn
z9nOR!F5rWZ4E{R5C3U;Hcwln!?k*Hn^uK-kb{!rGxb#it`#PPSos{LODK;g*ezLQ$
zd@Tk)=MVg39c3?_foWHc|86)I*IlcSqia~~|6DN9f38Dr{(td{>=r5ru99<wo>jm_
z^}i%299;ig=iP#g9|k1IgYxVO{rS;RkF?+eCPM(}-7}PbBFwh+hhZ8=_UM<-pDn>b
zs;jGW2nltS+4TW-K5D|@IKg)tVnML7E&=%)HlIsgOLxR2B+f}mO~dcSL_~sNvLH63
z2j^`sp|K>6?83NXkkzYANK9<aO*Gfi)MP*ei~{%f5HL3aCWgyFM(nGkq&8?y?1JUd
zp>t*Q1LD2m-yva%?2z!1fOVpUE6_7R_53qPTz3OD{6f-?&08YpPjf;9b#Vw06@bGM
z@W7doYYPn|erAp~{Gkv0(<1Dr+yyd?kN0;sw|?FVWN8F{$*1fmhd@4&^FG|3ii={R
zpFaoZf0blf`COv7?)}#Hct}9Jw0MoYIq20OTLhrwNu|3$On2;e<>cffTzfTK<vImB
zz&}FXIl5|FNKldnHm@JExI-dC5=iR(kraT%fpBCcn=<bRhvUnSYDZ_MfKfj%%zNyZ
zT~#-E7fvfNil&en5JLi{ndU324>F48r99=)QL@PFWSeQ<xG@2-Vu*`T1_LHPFoWYa
znazRtLjsa9t$hR=c^qV%5pJDhAkbk=em;YLOj5*(h1m|IKb~ZU&W$dB6%1B59ft*n
z;K=R+WXuC_9ObueG4(cmeujL^QxI;4$Ssm025iqWu?)YLV9SUA0su=LGSWG+Lwh|6
uoVgKuTzP_|Gyb!w|DA>Ye;W1NKHX@UC>LF-1{V$dcSA#0y$Ed?@_zu8nMZ~I

diff --git a/tests/triton_tests/plot2.py b/tests/triton_tests/plot2.py
deleted file mode 100644
index d433548..0000000
--- a/tests/triton_tests/plot2.py
+++ /dev/null
@@ -1,69 +0,0 @@
-import matplotlib.pyplot as plt
-import pandas as pd
-import numpy as np
-import os
-
-import matplotlib.gridspec as gridspec
-
-cmap=plt.get_cmap('cool')
-
-if __name__ == '__main__':
-
-    fig = plt.figure(tight_layout=True, figsize=(6,3.5))
-    gs = gridspec.GridSpec(1, 1)
-
-
-    rdf = pd.read_json('tests/triton_tests/info.jsonl', lines=True)
-
-    ax = fig.add_subplot(gs[0, 0])
-
-    # now plot the % speedup for different batch sizes
-    for j, batch_size in enumerate([2**14, 2**15, 2**16, 2**17]):
-        all_xs, all_ys = [], []
-        for k, marker, ls, color, name in [
-            ('x_quantize_rowwise+g_quantize_rowwise+w_quantize_global+w_quantize_global_transpose+standard_gw+global_fwd+global_bwd', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
-            ('x_quantize_rowwise+g_quantize_rowwise+w_quantize_global+w_quantize_global_transpose', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
-        ]:
-        
-            xs, ys = [], []
-            df = rdf[rdf.batch_size == batch_size]
-            for embed_dim in [1024, 1280, 1408, 1664, 2048, 4096]:
-                df_ = df[df.dim_in == embed_dim]
-                df_ = df_[df_.dim_out == embed_dim * 4]
-                xs.append(embed_dim)
-                y_ = 0
-                for k_ in k.split('+'):
-                    y_ += df_[k_].values[0]
-                df_ = df[df.dim_in == embed_dim * 4]
-                df_ = df_[df_.dim_out == embed_dim]
-                for k_ in k.split('+'):
-                    y_ += df_[k_].values[0]
-                ys.append(y_ * 0.5)
-            all_xs.append(xs)
-            all_ys.append(ys)
-
-        color = cmap(j * 0.25)
-        real_ys = [100 * all_ys[1][i] / all_ys[0][i] for i in range(len(all_ys[0]))]
-        markers = ['^', 'v', 'P', 'o']
-        ax.plot(all_xs[0], real_ys, color=color, label=f'batch * sequence length = {batch_size}', marker=markers[j], markersize=5 if marker=='s' else 5)
-
-    ax.legend()
-    ax.set_xlabel('dim', fontsize=13)
-    ax.set_xscale('log')
-    ax.grid()
-    ax.set_ylabel(r'% time occupied by quantize ops', fontsize=12)
-
-
-    ax.tick_params(axis='x', labelsize=11)
-    ax.tick_params(axis='y', labelsize=11)
-
-    ax.set_xticks([1024, 2048, 4096])
-    ax.set_xticklabels([1024, 2048, 4096])
-    ax.set_xticks([], minor=True)
-
-    #ax.set_title('  Linear layer summary, varying dimensions', fontsize=10, loc='left', y=1.05, pad=-20)
-
-
-
-    plt.savefig('tests/triton_tests/plot2.pdf', bbox_inches='tight')
-
diff --git a/tests/triton_tests/plot3.pdf b/tests/triton_tests/plot3.pdf
deleted file mode 100644
index 19e93a24eb4a38dcc82cce0729c3e8995a096054..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 20122
zcmeHvbzBtP`=~UmgtVj!hzJ7P%Pys~N=Pc*DGf^q2GU5kASkT}5`suchct+a3JOXp
zselL~+!@gCYw)|T_kQkw_sf0`bLN>d=R7s%i8*KZ)#VjM5Ta-Zf8hwUpc;aJ!lBOQ
z=OL1kP?+`w7b_@C&WvE@;A{hhshinYxkHga15K#3G{nlu5^RY3=>|n-Cju0;(*UM>
z#{9gM1pz9yd#d0~P|_lp5v-u-U4Xh7fneq41jT@-5SW&&nWdeR4HWzRs++TgmK6bN
z01PXy2%uu+O@P8qIRYriem}~6Kc0db{e%wUPXa)^LG0bE0PJ?rhiO{5JA1fU0Q7+P
z1LLb&S=yP&I(q{n!hs(SgBFG35MppV8ji(7kw}~<4v)rSP{3d?Ie<){FLx+@7g-r6
zCuiUc0p6$y`G+;&<sZCMv2wB@*g_HC$5*s-0H}w;6deGT$Xi)BTUvocxD(v0%p4)!
zX{`pT&LfZMA1$9-VlZV5y|Z;^OMJq#U5_MO_&{;wgz1E7wDlu5#W=^8_7kIv$1b0B
zPfcS}PC9^-5M~X3y{O|=FZ5)(ui}cKQ$@Y>75(jRRvywuj!wsn>f3L5J-9nM-Z!K_
z)c0}PDA&b9M?op_n)sc-uJl^;5iBCsi^Vh1WXo8mUT6Bufhm@UQpG~|RnbLJd5BK3
zFNQj8>x#KCSu9iOXpU@-<AHO0mKC27hh`s*DURE~L(Q^s^@pFTN91pn-`mzQ8Ja#r
zP1pVOxJA}=0^@9PqO5Li{5c+m1CJ4I6`7`T@R!s_?6G%0SgmGl;UpD^UVRj#CO4oZ
zr!J);;eDpHwESQrbo<<DiY)pj-PiXAYYQGZ^IqUEe^hn%X5HQ1D^DIgUo9BbhnN^?
z7tbClN3K|W8{K%;_w2Z_4(t`t<ts0!*MpC;St_?}T1vB3HuDT+qMolr<y;hpNMs*9
zJtvQLBne*3^14a5V-ynHk@ZsYRqN!lW=4c$qxna6#~z3E$f<GMQF*>+FS@l`q#vwZ
z%?KnM{?w7fJn}62Z4R@oM_6IkRff;;F`e&L)hA1nN}gPM7|7&ZHOyQ%GHw<`W>rXs
z?JY^2yKTllPNQp8`neSOIvsZver__s?Qz3{o~4id#3wZ3v)FXA*U^RY<wQbkcJzWa
z?9Q=1M|5kF&Th~z3w>xi5~<Of@x2pMt5TK$NG3wxcbc-OfTA@!GiXWm(?ERR0Dwk6
zfQBuAMnCej7?GBn2LJ3(zuS6dC!!aZ`k4zajuq9<O^?@5;hu!8&WFr@e%BS^8*D5V
zrO~)T_%_Q);CWj9P_>}t;L&?V;|IU=`%l)kU)h&*WYCmuzc>3~gMcp5Ok&>%nm`gW
z8r~D}X*yBSYMIsq-j;{2R)_C2ebJxPxMIFh7sV>Yd=Vc}6dy83>3SWWu(}Srd)X6J
z?MvMoGms#ek{ZGu>l~{)Fz3rLic{8LTlA+eE9J4hJE5z=Jc3}n9fL|rBd)&|pcFE&
zuDj%!8734s*1<DGB75v!45?ah9b-M;!;{?bz>AKQDcK*wxjQiTWs>>&3@r_pv#C8P
zP}8Xlm(81e+AtL+aQ5<a*Vjn0w3UVjW9uH+PUgB08FHnf+Xk>fnvQGcy<ZL_z;M$J
za`Arbi{_s)$I{##WgY|_jNoSd+KYdtKRy%88G(zQ$XIk0nPusF_JC8kA!BUSL1bJ&
zvtK>!<Bbxp54KGaCfTOZodwsIyRtu5Cfn+F%?FFQNE!+kPnrcDz!xb!D=f5PI+t)X
zSibok`k4L81EPp&zxP%CzP-g~BR{q2ONKf$`bL`ut{!mZ>3lJ2kML42x__@SG1gj{
zP5HT9Ghc6hn?vElis9Z?&CmH7jVYdCUAYmw0^%sAVYZ&)GDOk9YZ?tfX;Q6_RHMw{
zkH!)646{{ZX=OB?X%N3*t)sZUN^)QQ+cPwjBHq)6x5?|X*7o&6rdc&FExk%hP^!{r
zUcHq6l|(mODyN{8n_&T0M~}gWA1o-XDXY@bc|EYH2Fc-JZy;5H>UOdxcBPtZtru^+
zU$9<2E@;0Ioa*pAzfSL*9tXRE4;B+bs5ohH<BaO{GQ5h+=V6C#qxU=l$6i6QjkU^I
z@<Zy+9$Ac}TJBKIZsws|8CJhi5#?oHDMfjamcF+A<t^)btpl4hJ)LqqLvP*NR-@Ji
z-1!Ppb4sr*JazZIuFZYOpI{rIfz7?B1Nj=8Z%9k^lJuDvid9RG=n_di6TOnzxsbV6
zHpKpCzxti0lg)UFT@N)YRkMn?ZBje5ozr*IakPGYEjih_$hogbw77o6e7V>}l3{^m
zHH?>O9W^5GwWG2thImc*o%BLm)EXmYRz_i1&YAaDq|u&4KJfd&x6H&|o@rAHW_n>o
zzg9YUxz>beBJ}mKpjr`^lGe3`F}BARcT_lzQk;2lh77hJe>GXjkf_h}y+vsma{2P5
zWuuvH-PZJsnl<Z%UNY?~m=)>I3U#;_9t4_-7Srm7OtCkz8z2uja@=JFXNSGQk1icG
z8+7<8^5Vdy;S;%cGUGC>cvcuIT9}}VddI_>nKIl$nl{G2qQ;ke5|7hrP>k-k)<3)M
zC;D<mBZl0_rB|o!?cMMj_-m(Q-4o9obu~ZC1RY>abB|r*(9TpZ71Ctt_2U1+v4PTj
z9Y!8`nBzvVLT?S6@5ZYNxuMEfOUAdi9lyf;?dLN_9*CVU9F3ms>;58&wjDvf#)<I8
z3G+v0SC6GH-&?<Q_%xGK-7EjKS_MXiqh7s1x-K^v7itw=l!}cl1T0>Zf$7X^ZXO%<
z9#_d&_owy4#8fPkaiz-R3}kx|&NuG7O@B~ECUQec32SFf8ZFmyHP5GH6WMI@LPj=}
zdnv`=T@8Ng%C%97RI`GmV^$I@(QDT&OMqu}Is8&zUIxO0FTH-;U)q0uf}JGsTF{Mn
zno=u^Pxl@tS{f|87`u!z=s$R)*^_z1K_P&O5`ih4u^2|9nnE;uZ0<M@1}0)79nlJN
z;se#XOE*0xF9xhS2y@#wG)mZ{8BFPtoOE)A^y0^ZDTrC(2Xlhf1|n142F)_V_j!lU
zhZeMYk}lx#@5Qd$sNP5v;Iw^pa@|9IbgCn|mdswQ{E+mOH^x`$YOAF0#Rf>R1cqE}
zilufV#<)tGnf2yj+KxVSg+y1bt;KQEGsL-k4vL508VSa6x;>(~DpKWMYrs0q(;xn#
z-Fz*@D2Y6N-ExIC#83$)`^gJ<ELy07*~w>}4yj40@UHds>%PG8q^qs_GkvyLu4Edp
z7^XwnBf@pq7lJRk3+gWfrLX8TH8)MULKr(qQ2~zkZ$WNE;2M)!4X)DIWUMus&yP)*
zH1<e~I&BgW2?Z|fr>+_}^O@1Li#Mur@?(<g_@cOB#svIX`DY^v5f8drq?FD<`dK5*
z+1CMm$>)ZBr!xk#Qe}7x9O3=s-cxlD=ILwCsovyW(mM#>->Q8g=<a7_W?SnMtkj+2
zlqW9hQQj$!uKU);M@n(Qxr$Tyz=pBLSf{L0yTyRe{-}%Ix5RV%hYl^*Gj<X<Jw^>?
zl(?^|%}rVu3M!P`#&HqGw)Bry_Lb+`e?gH4HEIcdnH#5ba+h}`>Vt}n-^WSG;ctiC
zU_JO~scs0pFYYLZ`lqWR4d;h39sN_R1syz)HercM)C9skULZt6vM6KNxmVt8NxXd1
zu@$)RG3U_}y@2<XX5l%pUfT9v!ndEG&&bX{MZ}%eq&iRhK&(=|VocImOTp%g1#y=D
zqHtseXNfzGRj+r^x9`bgxyW$=B>J%{r_ngms<)nLKzf#Xy*|^2%5kPgu-9c9*8E%R
zjKk?P#~-dL-lD$$s()anCD+1N*5I=5B7+Bc5uzj|zvUYXc4_j<nxg>zBnNG{j}}$H
zWKo3Utdm_(5;d;CQKZQ|@=f(ML_|d-=LcJb{O0XB(pk=$X<Mt|F}(Ci_GTu+{XEa=
zCV1}|$pD_~W)*LnKG^AOP0frU#;Ys_=)z}})kITM;6e{=HrnEe2Lul0pL%gkry$#5
z#CK-G4tfgljmZF&*mL>#zWL+lhZ-^G6OD6EcD(&MEwowe8)_g}C6TT^>VP$oHgtl0
zc(`3WN}c;qn@$Av`ds>G<?Q|<^i!?S5theaQoGq~o^0+j@a{6aRf1z`J+V&k>WzUf
zBFpSUj~<R^thQ9_v{e=D^-t(g>`;m#F@)R5<c%02ZAjAmDVM|aD0nQZ%`O>CJ#${W
zA&s@)P`LqDQ=QX<1R3@eKO^?IB}wLD`GtAY@^$0s1F>h>r1V}s_r0$x&_aLY9(lbg
zfA>Dv+pzPLuWk_CY;>i1z;lz-V(}O`hE2?kJpRJDkG`ydr+KK#rs!IgMz_qGa5NF)
zQB!v85_a52gt;;AG@CG^_im^AY&$Zdl}vJ8N@-;9m;}EyKU#5{n%8l(dz7A~XI>3{
z<wALK@&VCrJyF{lG4l(?YMon&_Lr91KWjazs@ia=8a5W54`^47WleV;rMJ>b>wd|U
zi=QpNEQOX*9ZB}OaK_Hj$9Z(b$t!tiIOu)iC~GRI0vWZ<h@K97QK%q%s+m!4^2w+-
zr?d0u#W$PA+mYMMgC?`X^X;(V*&ddmw)IadEN^axzCZP*W#zDpxzFv7M{avjJ2$Uz
z-Yl1_VSRRMdOl_h4As6z7T<%moiGFpO;897;zuO66Tg5!1E|pt7!nNMev4u72q13x
zm-qz}QA5)Jr<C{2tEB&e^IHqcV*0%07%IX#BK1CO*}>E@J%q1(oaKI=i<XL}+8r<I
z^SNSN5;Ocg-_RXCqU<YluB*%yH%Q_%4#$SbCwC><OqyJjrgr8u|C1Kv&k^YNFbj!A
z|2vLSnpLqR2<onfkfa6^O{uynSJSmy+znC^2!t~IKAANq4LrwjNB*wp%@<ZSrzVot
zG8{iuXMG^gzX5gcaP43=Px@5JaF|8J>d14Oy8)kEY0fj(Eis}P2YF7lFt}+(^A<)I
z2Mn!pj+ltO-(+VyL~u~|QI0Ff&~C1CD`${M`d}0=7m#=3$p_S6(VSoI$Kb-JIcit9
zR_pnMn{wWqRG{EtsUPg(x-Xo=`E<DIGRa$`d4JtA_ax^I*u6RHqs-hr)lI6x<|t9<
z_dw60Nt<ekrHALKerPwV_`T5eiIIUuw9W-~-e%39fO)BGjNuGBgL3owsW#H7`lXG+
z$BtLF_qo{GRPVviJ>pjEU&tJV!JLDumz3{g$jeiNOerQo1cMDvNQWkNS=rjrT2K1v
zv9z5aKgpJ6wlAkK)!o#`trA)JWM3Eaf$l$%K!L&Z?}`Wi3!z4Jfr=-$sM1LJR*U$n
zwhmp#)==<8pGG=^$CXqp)Q7TP1tpR=`<DuMm>L<AFw3&ASxyW~u!f(uW~om-lF#_$
zu<IN7ObOM~>2&3T!(&0yB&+Ya=Jvqw=S;(o@Lue1P>fM#XogbDt)<B-?c4TSE+2gF
zKXS#OD}@liWYGnaKS!8L3~6smh+MO^I1?yhI7whv(_)Jbudz1D=rThNI@hLFHE5f~
zKAX$hI9QvxTxcCqtb;-Xils2Hn+kck(XFoD#?24M#W<WZ>rZFTDT8;%Zb}`{a_@H!
zjosukakDq;Pnlw66)9l5XQeVQXLi>?g!)6Ij92ICQ=g(`IQ`->$*7F9<sKx1*^A$V
zf`W_vg;e5{oq$J8ZcRE!^gzSL%bUwNN2{;DxiT!k|Na{1OBRLmN!2QPTHG<{_`oag
zmt0EIKS?<BSzC|kXC;SCCQSD;n=fQteA%sNq$kk&A<$a<;fw~Jl>)1J_f~;$?rTwR
z+My#i4L;K!ukFv^eu@#L5+j_;wh}~J-2HmxiSK3va_qc{k%MM|?;%NJd7YUV3Z*b!
zi)7a6aT%)jr<-i`LleCeNMsg1m3R75EeyXo|M)&d{`Fo7LF<xPf~KewYX}eb<4<>%
zCbM7I%l3UKImW+o@<lMpO<=*cZR+XccQIRUB1x5_i)?w8$BLbvi<;JIi7S{}s<{=~
zh3lxTsWS~$H9w+0u<D>7C+Hsg?1M>j?|%Cv2Nv(s8)V$sua79xo_#rdM{V(*<jelG
zL;6F6LwoQZ%&YyzdnEcVra6UJRW~vo%D}aoS+J$M6X&G*ay0c+7V2qwY7ZaN51Jww
zBxY1vVvw5)OJqERya<~?UVMm@SQ3Ak;&P_a$*|d~8D(ZLCLz=%VJzoWp?N$#^X?)$
z{*9<6hG1oR%O^8+e|Jo15xpMaShB~7!Gs0Px9koE{!FW<3kA|M&@=R%OI``~7d;ry
z6qinD_weZV++$?FR^s3-^R(kI{R5hCfh2bxjrF@61>&Nn@%-;r{6;botuOj$o}z~b
zTrBLc?Iy<d$Jf}fwxud_D@2_`UoVk3g<0}jdsk7nhINfzX8jW6HM)I__R<is^p$<e
zTSnx2Fb_;R{?0rU^4}E~qjAcq1x{V_m3gya-}8l9f!2(W&)Y+qolKM`_$w;;%`Nzd
zVTdpI(2*~3nCv5$ZQRan3ZDs5YPvUeis@?dTVqfEE{-;<<Fu$lwaI6DbK2smA1h#`
zB<Yba_z#G~YsfubSicIZ<9S=gr`e;JG&sbt@<fQVQ>$Y1y+4Cv!G`<S!u^h4UoonA
z`hGYy$rw7FRM=oO&K%#WOD?5RrHr@~^T8ogAhY)9tpEq<^P%#|M{UN!8XJ%H)6P}R
z+q~1^u{C;q+tK2V;_3FmdKy*LILdW-Dw_)Q0?XEwzDIRKU+L6%wCVR?7?_s*jbT{a
zzw--)Emw!D!^O_^W6)?FI1;H2M<X>(A|?P;r9in?nfl{RlfsB%%qR~xvb$B9>bp0H
zL+`8K!yB?0+U;}AVzAi*7ceLM8!kxHUl=6J8GIZm4|UgtAZfVH!Qm72w{KTqU#wrL
zj!RLCS>ov!WaLWmPT}J#v2GvMw}e`cX{of<e=etEyt_8W&6^Ou-z+%R<$2+_)6FQ>
zZO_C$U5Z8Qmuq^)2VOL(JU_=`BRWiGVVBl|?{JDRVl0jHxOZDiR|%d;9Z0BXPJp^=
z=d5%@A*W_=u>v>47e5aRd*UzC&hE!X@-R<-5%TfJ24u}$SR`h5li4<U{e@ehW`-Zi
zLB;Z1!+araGSK9aCxQFHQ3iL}R2fl5o}TwYc?VL}3(K-IG&NlErEkv^-nuerVkoi)
zzxMFikZAnB3r|X2B1)czdKMo9TRQxS&xKpDK*V}+w1^~CP+jG61?q4={Z%DuL_+a6
z|GkW&tM%csAD!OK1~fqn<TRnZK6Igkxjbwvqc~R@>bRMhMO1?Vf;{a#Ay10p2>xpm
zB+#A1YVPbwfv~&0Q6ErIf;WYHZ+Wu_&p*Z*2*gQEK;LR=hIQoLO6WZ9*qHzkw;muB
zW~dsoWK_j<)tu6dU`s%L;Lh{py;LaqI9q(iQnj~`FXiRnnc<W#oGuSdURkOowiCF!
zzoeD-2H=^i*T%!J6snQ0X6Duy?Sx>OHC+1XmpvE~Umu)4$dGJvg>BSwd!1q{M4xvL
z4({PnqVSl%;Gm|mQ|k%J;b|trj3-Ms`YvedysrJ~Y%iyoFH{?bXoFwsjH#MbHezrM
z>Ud~eWFVP$QPe;`<w9spcqG4c#Ypl3PlXXdv=qms^l3jbT}b{;&)tE{FS1EN6ftT`
znfseA;kU+NevLyVG?j0qkTNBQrvzo&oHW={8D!|qrem4!<fz}$YZ}#9m|a7Xop+AN
z-EYCULRC&C>v*z-_``{P@^cB=_hO=K4l~v>zqT>wG@Tx}PgKOFEuZ8&*B+YRdnck+
zzD4?s>c-I|6_K-TPFidxn+Xw5FA~Uv^3k6XKK1LA_3zgWyTI@nzj^Y@^m7NEU~#AC
zpTZ^&p<0m)y{5`|)6C>?rLkc>5Begms>)u%)kBHTT~x|vFF#&Avqc!z@A0U0qs%%n
zsVcKnLtCU++R}oQPLCAy$r3JMPpwr%HJTluf4<iIn1ubCTkQe#ZF}BwUEUiH%;h7m
zIk-zbB7Ls1*ouGN%-H0xnEpKTJ_;qo<NvBU`26e%&$7B@mx^1*Q8QVNd&qPTuU70Y
z%x4+A0-Vv%a4k4mOcO4K)r2E3;EYC0b@h6cA-s_j-gWSfFokfqsf;D6!GTXp>kjvU
z{aNh?iWnOGA6vWR67AEdV`KRfBlI3F?q5Bpsv4)RkpM<%nt9^{k8ynMZMhV=>FuFT
z+8{hBRdHN=(skYabcn!1!ct#idECXmaa_)NS)=C@*YR@u`ZTYW#uv>yqUN$jp&Wgg
z^h;8i_6&NZk3Qmsvs2vbC=LZxlA<z+EH0fwR^6FO<Y82!_TZ$|&uOZ(H*bEYKOh-7
z;`CL~+UiIkO|+%#$U(nQ=q&O5gTe_|EF)5{mt>x%gGS$UD4#<k-2Yg@b1FjC*_ONA
zV`Wp%J;mfiK8@YE^l`)XY_e(4fby!Yw@Hxn_52jig*aKCx2h7n-Q18Iq=d+^2fi&I
zoUU#h@6ufQ*0J`5tC+55(=crh4({QC<NrdY3XzTU4NywbZEYDU2;|k7Bk_Pyk34|9
zXgW>15J<Ma;)3EKvcx0C%(@h(Ek@L%Pds|-CekrNM&}}M<yF6STGF7GUF<0x!I2z>
z3){3dM`G?=7_dlR+i&rePjU||_wbq#e-of8#I(DT0bcXsU1EN?A7r(#eVJ}{t2lUN
zP{!w=EVcQWrV_(*u4aVh=!YUGnk!0d3vC-ni`r+pP=Of|>e#S?ft(G`R<^q<6VJ?x
zva<|f;=ByqapMIi_%4dyZ;!92Kz$<^ADZJ?WZV`KnszcH61}@{VqNpl$EVRRH9n+f
zMhhLY=RW`HT%ZyC>0xQn+eo$7k4W_2K1wW*dbN0*+f)409>nh9ri%TAqlH2~1Rk>z
zG!a8E%Mr+wHTh2PSeGAGB`eB$lDegnsEpdLoIlM!)W+{R)bT(oltsQYC5%m;D~%|&
zYwR@1KK@~rjy>?%!}G(T{$eKY#xwZADarb8YHjibKIUC><qY@UJ_{cp=PvNc;K2n{
zH{N?|+F4CtT+|wW)|SRVb;tX(YEt!npQq(@PwQ;QYG$XDpM@Ro>0?c&tKnjMy$5Q0
z_*m$_2&VRARnmd8qO2;y6y3xFNiGoHn~jO&`>Jec1ojwqFLw&_7rvcBtg;&^lu~}}
zrazzG=7ePYX)8q4HkPK>66=|K=Ud=uzB~ruX{HPCOC6tjEGyo7;m=BNkTEG7z22cS
zQ%YPQq1BRNA9jA$!fK*&P=dUbqt^(ZZ|RyH;i2sz<f77-xT^7b-BT~&k`k>I<VB%7
zr^8sMWAi})#T)k)XxGA^X9TpATIZoJmnZ}xFC`Wnb4hpjJfIAxCH*GLczq)L#4PpI
zwjQmO35L1xanI?irp_1WPrf|xIF{!im%nGa;r6@d>yNfwgC+VNuoZDGzVo{N+_T-p
zJdW9&D11cl&a}O#{t%n^n|M_FMBdln-YV1NngEr>_2bX`HnvE(1+6#sVCB!A*6wPF
zAIlzKS{~+vo%Iun&TfuSnC$M_0uclpiGYfru_!1)44A4ANYu`fg75hQ6dv-gskLz=
zXp68IoyU_%F)VSJTZ1s4J0Eoa;T;16BvhD}As6?+bq}8g0if}(<0-^QFp%(2%lWEh
z@_peWk?ylb3S!rsEnYZiHVo=Q18NxkpT6=BoAD2+;D1fFc#qV^V)H%L3Bxc!>fv`b
zXWTYH^HNo-T_WM5E!O?m{(FpE*0eqe*=!jH#F^jBXHB@}E%dI-xvZM3)|<b^-w3<f
z(aA;G^FeE59V?MlUEQ&j(>_u-botnvj+vdFau?OZ^cw3ER3lpWR|QhX4?)B~??LMx
zwjPQ23l*1AuZkoEQi4W7?79s;^Z7O`;mUd2D<{`K^A4~mXbNFc;sjwH3H*9mZ^SPq
zwa{J&o^-Or@(U@z;!F6~`XL`Lg-tQ7y?&NdCWlV8#b4f!61vO5HK>eDbrE8$&KPM%
zZO}LpNX~|Eml{C(b4-USpl<DS2dNuV7{hs~Ppgt|7r8~>G7jgEZvH686dOl7h1u5q
z_Q{>5SSwl}*2%f<opD+|EeSnmTxu<!k#4Cd1HBzaMzya&U&OEGq45?+IbSvPiO*pz
zuBn<)nf3NAxqYxn0j(E*vIw(>^YJ(HqQZX?yQZX<k9?NaNN9RfPji6ZsZ!vzlpz;Y
zil7s!S&sZBwQ#VJ>(!Mc_<lnr^{Di@Y_n%|A4nrt^E8(i=@M?v6}}6eB_ft(x84J_
zJ*+ws^%wDrs(ObbAib|O5DdIwhO>s7B3$zRw<~g;RB_3+%I`8iB^V@iTCMTnoja;0
z<wDdF?LIm6_Y{|IWm6M-ZmVk_xW`|5y4&!HQz`ls>}4}9GTHt?)O5aYpkB83()f!(
z!K?43kd4-5kMQsUsb1O`waT{Q4}%hkhe^V!W0qxeA+y|1`Lm*r4PVzxR}+~$n0#x-
z_hQsOsn$1<BLnSStPzS2MD7fnPsGu|8MOuyT?=BbCNPrA*(jYu@6UbQ=_8A2io|E8
zJZg3^CFv>)%*nl{SxaX{G(&9kN_-rB+COSv)9BHN)eZ8yo5o^$@NEx216aNE?@u^J
zQ~5q0f^v9Gu(ClrB^n`pCeQeh!qnDqY>97d2I*l^>pmX2sf6PnG<`cE@%0<R2JiAd
zEp|NOm^}Tll;1t{Swdety?I!~?SmiK9{98IQkKdpVWtm5iB)=znlT3Um6`h051D&9
z9)A|(nUh?UH0zB#VJ%o#qFmam-rSgZ*s(s~;>}T%Ha=LtfIZQ?GR?M~M=X(*Y3*fD
zqxAUvDa*$h=3J*EJ`+Q=Cum;=#FpK>mnZQFznRcCnbW6t?|JEJm~e~?5m$_>q{daz
z{F6hAoM{~yu^4!K)1g@ZTVblI4k+E+t4jXLLA`~Nh!<r8`zV-Q@vb;^Dz^;wfZ@+k
zx7zb=UO7t$ns>!Z-`6qB){*eMrPxZ6I^S~M#M$$;X5zx=1)PEPiqyMDOFeySh&wI?
zC$dF-X6w8Tg~(lzFRDDh|6{{Eb6?MeAjXtPMy`R68>H7{$(i4VjMv~H3Bmav$-VhM
zn@!}E$8O9(CMSCIvK2NeBj2KlOwU=``A@d9kl7~qqqm}(bT&6B=-(H&?IGShJS!yn
zFD7tRjhcHv@^w}!hy@4aUh6K1dV9B8ZDVuNNb}|8m`-&xYgJoznq4}rcrr?q&XHZ&
zp;}T*Rx9M1f4+U#hlGNZylyRF)&Au-dPP$Q$9#3fo{p}B8WYEA`0JQmrHzrOH2w0@
z{)mIdeqKbdI?B(k3F2PKfFNaycwlodL5N!IS)b6kudv%zFN8|G;px1`@2A?{HmT<H
zo)x5!eKC?)<HMs$xe!Ti(JgG~m482dAEyc-B`iX>mZp7>hnmJXmAug9dE|9yDF<IJ
zoiPR5V2PIkx5vYSAL|U-5^A3HUDCKTWi)??vXMjJi!V_phmr9fyxYSIL}33SSFaF*
zXCOgPlDa?g7dUC?zgF1wpmAe6pW?Yv)_Y<!XElpzrw@~@^!rl9%<6vo8R64$@{KHU
zT<W(iLM4u#R5@u8cd~*zfG<_I%;<WGwosYo+j6_sruvuq&mPN1x<qb<y(ib+JoCXY
zVM#ThI1aIKP`g$lAmY>)V}%iY#Qc^#yp-)Tm9xSTvcRy?{Filoror87kRe?AGL4GA
z*z6vJ?%`9SP=65;iD)XjwL+<f-62L9s4o-~lJ5!C-jB8`;^Gw)X-!uUlfhx9FX}-b
zW<PIv7}<Ry=xuR9cTnHS;m6{kT`}R6aUwy!^1>5{7ReU>#e$FA-0Owi9c2`4u$NwR
z$38y|wBi|WWqW1D+-}A^p<Cj?bJy2fE2laC@Qd;AZRu8b5mJ$hiv4~j6Ss<^#@6Fl
z?AES34i@>8s7Tz+DdBWD<8FM!MBk=LoV$;r<8#pqdd(VQrl2ZRulw7hgJ%`XSv;{P
z&l@^8M}5;h-5=y+sCbPp=2kwhWJXR$_Yugu=rnFOAri9>sYL`g4jtFqH@h)6!XKhe
zS<lv;EKO;;V1z5%qSms0a6zEYE$eAM<zlIga(_R*=;os&JzK&J#@d{~zBaWpYIWyO
zvpjfas(f?(bB%UPDdtqe3?^C{TB$y4TVFpde3ZDnMI`Kg(R~lG?BR2xkbj|nz|`zS
z229O;f|Vz7m(KJq-@O}N2PBjjA2F-IO~(acdQX(=p7IapHcuEFTH`O3eG@&O+O65T
z#!|-ACsM4`NB>X+LaM<irJDj{=6%|?G9!M+<@Bwq=O`aCanuH!+81#C3k7#B3aUPR
zqOHapsY&90_=UTjD`lA5k+3T{wKqov?&V~zNa>|?jm9hI_H(JK%@DPAww}r`I<=mW
za{aV?T=MLtQrVT@hB!%SB}9kc95&1`i|oiWcP@W-3zK+BJ8`Xb>NA}g(<bf^!H9GF
z%kFSHd@^86%;CB>&h`@irVFlRp82+f?CF%bmH)!zIHtHMbY3IgsM%#9smF_Qz;=s+
zrE|=JInGb%b}0jm9j+m?;ifUJ)p(f^Pumb`k)A3{ZDD)lwog=8L;uaPT(h=zZvE9|
zI_>utL-r8F&mQ}amv(>Q81Ce?{hFENiqQMGrbsmR=y@;y8gTCa-M@}jrX}S8!m6~a
zsD}1K)2_((LGIi0e(6q(7E(dlSF8Lpr9|yX(wPtOuvL6~n4c7-peL>Eqj{FDV=Sbw
zt&3+QLwL#mlu$5_diZtrSP?6yhknCYn)~+?wQ{3M!n5JgpUWMXxlOVRcs=5d2eb&m
zM#ihT9_K!<d6N}hcO{1iLA3`pdw9?&AYt{d)L=C6PJj<K`weml>gP1P_!4?DcC(%)
z|0NTND?u|sLSNgnD<nw!!5m?|Jn<ES*o2o=PzzN@0mHmz@X0&1XL+72rXY(SVr)ns
zYvwjh<V?7B_#bc1y}iGEy`r>u@-bI5w=OeZrhEgkwPl7qsdu5o+Te1MT|=~YVA`?g
zBJH|lnjEij^VilgFNoYH4}Fx9bPd9FHjL%6%*PC+$V;COYU@G=<~dKfM1-lw`gvY`
zb&?wIE9|LpXa#i?!8r4ZLt#YbDu3K{d}}pfW%NsbX~x!z2(fx`q4x&*dKOQlIp!1E
zgpu!kbXN$=&)Wm`qZhL_r=L+Xpsga~+9>Y5!Ut!iXq@$aC>KxDgJ|bjroGwBMs<2a
zlBqtLpOGu!@hB}#<`om}?1(h%8{(;~<BrS}wC~EAjjOIQpJug>TO-O>nYsFYyZGaS
zx}l*%T=RZ=cmjao`tyYd<}Y4|h-jR0Baxx3={vR(XnlLsBKcUz#P$$nCj~i8_z8mk
zyNrliP~mg6ld%Q1&7&xU|0r3=<zqvRx)Ud~p{Fd=F`1qpeO9<%xL&8~j(=W4ZCyyW
z86h|_)A|;{X7g~!>gj<wqhhHPnT|rk7Jf!nm1kyrHnhi6kfP=8Qex0)Mcrhx7^k!B
zD26C>&`F-4yEk%rNo5!!iWDQUZcJZuVbO$Ooya?gId>69lRj0PegB+p;iriNZX;Jw
z0ajQc=gKOUgjK_?@Y9Kt4d0yTR^9K%k9sRl_p%I*`}TBvYSK1sy)oo;0{iUUXl>~D
z*NEcj>Ge$#6H|lGKNTEU(C`Nj5r2~pR*gADD+h$bYiUiacLGrj(~|Xft8EwS@5xbk
zT-}_2x=2d)yB-!LSk6R59lOCf-cSa$csGFC?x>V*LCCz$646ceY=7C!;NFBp5LYO6
zyp+sppldgzWUx#=RM!CIHHuz8yQ~+#()Uo}b#!&PwTV<#L)aW;YYEXgzi-v;SCyOA
zjRz-^h4?KPLq1*oz^jRs$UN{sd(Q3dwX)YYj=3<eY!1jR%#%IflN{ZH>^))xvA=k+
zfqH<}1hU{*U~PxBA|&s~)K6<WEFspDE^K<Kg1Wl<*p66Fsq<V9<`lKia?c<-q0p9R
z%6|8F$gzN9H2V@`7#8<HX%D{^f&L3^mWpnqZ3dTmtV6a><h&5fym;pJ`H+R}Vm{@X
z{XWDN5kdX^9CuTjgH3OYw?5(5w*LaGLE{&DoMK9woAZQADb~jvchHc#oFnR8>C6Uw
zO`P?m{x;caep^4^LM^+IJXgjRE)3ZR!4GNKwFjzh<=ebK$Gt|E#kp6~)cf{n4Q<~p
zsO?%Od*mg$wFgyuc$`SYUvL_ufu{x1EpuzkTPF@jz`W079qrkw?}->V%iU-gT%N#_
z@<}uP4$q{Pv`>m?TJ^|K_j&YmQn`q`Uu8ut>|R_$n007CquupNqEtyDxuJnO8gi`M
z{ZDhXj+Ts&N?&{EMEBa_!PVpnp6M{C`B64unVx(FMi$3DfgDUdka&2LJpcN!R&HC;
z!K>s%XK|cEGeb*>QfH0~5SWoq3ou;=sTdV_CD)_!o-xkqqn{udp0?2!o+qi5_y$+o
zw+~n{N^E)SbVAugi*xBp8Tq-5EuvdW+DU)%2l=z3x|=%N**yf4HFLN6UQ^Z3kUx7&
z-s-&BSr08UCwI{LxVaPLY|Y$&hZm+|_Pvh8V1Tq4uqj90%H6`v&V}IY21SDW*M$C)
zh6Bd{tg)JzBd{4r_V=!L@Bf!19XN!l8NtnNXP1yD91hMQ!0$gbBM1ycP95011Z<Sr
z*~$cgDL4VUd%&$t|7@xH0fNBf?X0b>fQ?DuP9y^;xFW&b#mvGAiURV$E>^$>C1A@E
zxX8o8+0oGqiUvFtA1gO!D9qUjpn~89)Cjh2RzTev*v<s}xAU}uz}x`@F+kjJWoKhc
zfPzc6tXw_J9H3Z0{bT^*p<=*A6(~#<iUZiF4#fk5nL%OZz%WplCD0n!$^?vQ3xU}I
zHQ=H>6y^Yh0a;8ZU}OL>D9jZK1BL@6LV&_NpfFD$kqHcQ0a!Q)>|%nQv$G`F0vrIJ
z?4S3F?Fi+^oBV%-{*%~t#P~nR2oS%6nT<QZrN5GvjQbAv@JJwY1daf*QUr+tNS8Bn
zIl0RlI0UBqqY7*%12($ZS;#oqI9LIQ!?Xxij%UG&s+so=MNk9^jr?h^*$#amIR;QH
z9RB~JK>lz0K>^uKG@y@Yz&F65a8N7?3&8_9J~2STNMM3T;o&<41K<f>2iv0n&Dc2t
z$_BLm-xbJ@>nNZtSinAh6b!Hy0|5safI|ZX=m?L4iUBL(uz)^efWgJUf<Z!&cnkz6
zfF5F@7!1$}kbV{ebXp7tAOHvI;1Rrz0t&E^PYk#p>=Tc}1IJw$c-$cdB?bYHAQB)^
zV8J3#JNIG$!gu=s+5+S5)PW!vDTdoA7%^Z+A5g~w_8tqsu?QqU;O@9+U|bBK%P2f}
z9~z1QjyQl>;Blt_6Boz~kO|-s9Dhe>AOis$0ER-qF)_eBJ52e39C+N(A8;fzcmfAm
z1fmU+1|EU3BM)%6-2%Y?B<|b^^7o$#fZ%QyfC_@QVL+?^%)#41HTWT}A4dRNASe1$
z4`?x<5wHpvL?6_HUr+^sJIVy~1m5+ZUO=SaaLCTJ?;YTQ-H|^Es0h0{0P4Z7Wrx>*
zUVu9BQ`yl6P$zzr9bNgZ6QDl)TtK{b&VfEa-S|;J%CT?^AVUCGPzUxXcpM-TP%i)*
z{B!xC6F-h1QvkU`c8*~Er?MmK-RoeR{}fO!K&gVqe^yTa9P-Nm`nEF{0+a8~dS$>e
zsQ@(Z!c?I<t6c$@Iv~Mam>Fmcb}X1Vple_a0?f|9pgXW#a{vsvb7l#MaJRN&ICfyW
z^Bcgh-LswfAIPBtXOJB$0SI{a(vIN(+^wB<woqV#+o{<>fz;wo%^oyBJ2eL=`um8E
zz(fPWAb>>xgtc?k849d1+N}Y`Y3Ka{K#>ce%Dd1X<_vf^c3QbYf!(w_eYim}-$!r<
zWVCzryA9iExoZ-E31jDs00mxF?$&lpALct%pf%iyjDS%+0J-h9@q}W(k9Pr((JpMq
zgaR+%!A}0!tqWfKVVe{Y&>aWm=j&kmAJ=6NKU?$vY;A_g$pDRD7G_Wc*fC57`9C%T
ztmQw=Q2%2yxF}%qfrj8wTKXq!e{!GxA>k*L`v>@Q#zPgHgLdeKsR9rEcdn}<p}<qI
z!%|h?z2tXYQU%^lerLHV1`0g-Km%Z(G!}~Zp|)aBAceJi8!)kcXSgc3TY49&h!FY5
zc@uH8bMkP90x!6KW%~|3Klr-q6a3pdR54KuR0RC@qX2udf8=t2NB3WI6pk@cw0=<P
zAmByzeo0N4%Z6N!g2NFXw+f*83MWt6DUT`*%K(}GOiR;pEsE05Z;<T_bgxug-SF_|
zHMl&LB_1xak7wh~N%{*1m$<c@GpZiVfrcyk9s1N&6Mm)J;oRLTvV5|1k$FVg-`>7w
zUxnM=R`5Dz`!M7<mz7_nZ64!=Jmo#!%kN0zzl=B!+0n)SG6G=4PtWuBk1_mz`e^(-
zhy8y&M}V{Ne;*Ct(Ex4Ge;IKevSWe&%LsrGp#SlI#t1xA1Sg8dq7iTe5E3AO&$;|^
z3S@J>dli7|`L9j|O8xOWr25jkCm2oma})xFK*Kd3Pd>qDz||iUQGIAqaIaLqa0F6K
zZYp!Qlv-3&Ky+US8J*!CnK96N`adQFh{Ay1KaLPq?BD&MA1DJjKShy~kQp%s8H!pO
z(=yQYcD_Z*jPtmTsW_NJNjzMaVxG>XW_*ls9BloNwTrxbr9jLc$p3-+?pK3g%667u
zh6{+)K=*IwBRU>HLT1NL{=O*{NKgGkxE$~y959b}6iB$aI5-m=?98E_C{Zy{gfP^W
zKyYyvhrt~Gb4k?M%|;Lc0}^kR9u~lNb$-6f#nKvTZf0Q*jPkt)K_CSLc5mnGBoBU(
z=%~Cn5{^W{QAj)-iNRvT^aX$VijTLOl{Ewi9I+4}2LJvCq%bf*^kohG4-B-`;2+fK
zI}CxtfW-a^!(hRz;O{Unp7{-i1A6)c2CDe)?Z9~L7Z`8?GV(VV3XIZzg`qG&*!>#}
zj)d>g4oH*y+74Jc0p>n`=??*r_6Kdi2b2D6Cx-u{ofsU9*M98}i0=PvhXFPp|K1J<
zq?3Mw;lOm{?=Tb?mw<o&$OsKQrN6^acrf1nwH*o#M&rN2FbMqb?chKv<qw{s#DG-O
zulK@%EYlzD(8xb!ga+oOKkfy;LiJmJ82BGJ!vO{T<6c0y{}>m@hW!D<!tsEC{e@mQ
z7X1fL;aD7yn)|Jt7#z$?{Cck#3XI-=gJHn@>2EMGFoORLh6j?-zrk>DFzWxc9q_fT
zKlqHp!2fKA#r>`ua2y^Cb${&-zsIwHM}awn-`Zh;^yaTHz@UH`jbGXUDRm&<_d5(=
z*6%O`;t!bv+OkJG%pdxP0M-=$PA>w91X5PNjf=#98KYnE12SNL;DW@1nW<mf0ha9#
z+He>k9r&Mi1UEA~2P?OoZ^&uc`B(vSClsdX><mu#JL!T`PS!xK2H@Im0>+(S=0@0=
SW)V0sBoe~UuW&{Y^1lFs0*>PV

diff --git a/tests/triton_tests/plot3.png b/tests/triton_tests/plot3.png
deleted file mode 100644
index e83178d7a65f7f2c78c9b9ad369b13a6c1a3a917..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 58335
zcmb4rby$?`w=SK6G}57fBHb;GAT=;_N;gP%iHdZ0=P)24(v5_4i!_qb2qF#VneW?s
z|MoxUT-Wis6c~q@XP$RGYu)Q!_x*lUS5?5np~OK#Lc&vgDXW2mgjRrrge;DQ0Ui-@
z7;FJwgx%$I-8G%9+`V4AS|X{uc6V`bc6YEfqxZCQb+dJL;^h$J;AW$@ad&rd6XE1^
z{GTUqIJ;VNF5qB&055{=@>0(Y3F+Z$#9w6Ci&9%8q;+LQSt+P@*8Y;0zvkIh=kGDa
zjC%FvykY$c2aX7OR@SG`_iUVNrm)mV62tR|2$WEIlmfZ;;ka_0zcr<x)ZsXcI>_jx
zq-f9R)#LLk@bmaoGEcA9{U(_mC*zqN=f#{&wv)4N9m|AS#(dhxbf!Fv6tEb=2&Di0
z=LN5p2kQU)#31VuCz<r$|HlvpBOwYW`mbk#-$|B6f&AyE0*#mSO8<E&C=RwP_W!(a
zxDrFi)BpJi3-as<0n>lphE?vRmS7(I$AM=IwXn2>#gmK@Ef2Ra0u-ZJ;eabXl?=Wv
zi-c{onP@|uFoKYmmFzQ_h6dofKJwY*JUm$%Vb?J52k!KqK$_%qJ2%L6*=JkJgI88~
zz(Wp;@Y}|`hWJ1o_zuSEYJ@#62?g(v7w7|lKrH9`t!itmMksyH52Jg{ep{c05zJ%>
z=925_={<S!gv4Ls<8E)}9?m!L+Yo`}K<#gJ#lDG0Y|>akaQG3M6jiuuQN6sJT=Jew
zo9Ds2teo7yhh~BTS<=haxasTNf&ckc(%XtS`&VbsW&2l$ABp4QrM}EWFo|a$r#+Hh
zU%OdSW{~CA(pu3A6(G=Bih9Hy8Wr_G;^z2kuviX(bog$m-}#~Yuknz}(`_9O%?%Nj
zFapvfzcn<`{#b>EIUBT_b|;#QUg?(7+!WI!0>(VFfZlGu!zN6XsmANWmdH=nV?lRs
zOKial7nsh~j!6uu2rg~>_Wt<sqfN&95?fhWS(gE()M~R{oY;lZ;$l*VDqG6@{QNIA
z6QL|Q-ry=c|5FRDB}`-`;GD*)HvR7Qn%v<0Vm)>$U*?0^5WmXltJRI5`)j(4lKA-e
zpPz5uK9n%+i=vQtk;~gOip?Oq`AyUfW68=*uVletBU@Ngjva*2d8h;ddR$yw=V!|y
zA+JNjuFqLn)XRa_ju`@u`iJW(xf0oh3b7}rV=vt1EK|8Hz7e$F{#_tCzdRY@6!!h|
z6l{v+{1@BdEa60^S1C!?i!-Cfri@&}-b)5`BZSgeCVH*j+~-SPbSwU+cnUGpWxHFA
zS`AK1O663<UuK0F{9kjX(eh8&I<Y9nW^4p1Vll|pF^4=|O?bt@z`zjlP~sxbbPkiw
zUvjEMW#>nYc~dMo1%+ave6-CBoRqWm7^Ti`W-U=o;@O*A-?QBb807Kji+g{kmIHxi
z_nmIF7q=U4{K{tr)40uT#`BPW{`~2FFrQ2pc+q8<nJwzYW7>&SP*4ya6}7QjUS+k?
z9^e#v{`KJt^^U**tC0+?!`xZ>S0MtO4y#7%b$G}6oBUE(3^zZA(|OrU+Oxpb{Q$1Q
z>AZavX@%cG-E5kGBjrN9<MVF>`VCGr><0B{rsH{1HW~6}W@cRybOC<|Qw?3Q!6NwV
zzem|lmBgo}>Qoy~@fio4X<^_|${x(u+0K1tq6@m=&f`e{e~`kXqdf-x94xnqJ`_8a
z?0PdfHANxeFH}=gGhJzv*&cBH*~|H-;PR}oUvyg9qxOq6-1&OPSJ@&SzotqbD#X&V
zpLr1_A-1`z(S&D&cf!J)Sou`hwc`oSMvjn_r#|JJt?dT2#J*={*4GcX^#kH>3K9&S
zh7t5C(hqXEZoEw4Fw*DhuoxgZY+R4Qp%Z-a1TC^x+R4c&{rvKGKiyoj$8)fae;Y?G
zey{u7-=6#2p3PqFl;+w@6rj%<dC`=rW}~bg|NLs`Ho_nF?%nSh9g`Z5J#G0I>YbC`
z-k;@F?FBkj#)#;_CT32$|L~{J*p$Q+^CYsB8MQ-4l{bu_n{GMa+z5o2%-;7;O(6F4
zK3gbC34URad4D`E^KhclNHm64e6Z^+=FWVbz0}tJWbrEym^M=5mS5lFJ)o1wx<2a2
zT?xF7PBjTkM{HC&uXS^l8+gSBv|?!o3k_3MCNB^Hqna%uCoPR~)NwC?)Z%rt^=qO~
z?0Ub}X+hkq2P^RAw}Qmog?an+p{To2sYyrRkE~{23u|j$>rv`u|5KIr%PlH=TCr~+
zdJHR9)YJ{P!;ar&lPq%DUQ#kIg{4#t+$JF5*h?3yrc3W8Ju6~2#FC4|w5PPiB`0&J
zb-VG#md9p*XOTP?TnxNEP|gyHe{pw#8my8jP~$Mib9dfx?-MY*xM;XFn*GYkiWz(m
z$Bzrf9y3~L%FM2AZZ&fbi$2@g;PWmX)LW0`Y!;^)uhq>O7do%BBeCg!39qxC{p|hQ
ztS_3XAD6RL(%qeJD24qwEN}&`Rc_X=-{i{l^~1w$aD6Pl#W5J)S8Ud!9YZZlP{~l$
zw2a-tj?3Ci^(_jfwp7yu(oOlsKf|e*Sf|!{BN3Mb84+#i>FNI9>boB;XY1G5K}uC=
zq@|^8reTBvnbFnNT)VSX4<(hAA4F5~vkHCxVmsx%5wCCoJ{F#2t<?xPpBU@?vDUlO
zW#|jhAosrh`X2dsBT?<MX%|ZS{hi;{pB<T{W)Eb<Ddy(pc3NolIx<FF5CO;e9xWXs
z^iBikHpJxvXPcp6(G@pOUPrIdg<&L95OcNT{+4s9RE-lH26u2676&j@QTjv7`!;Uc
zfBDN}_a|Hz=WSOqlgQa0k*3c&3aAF2(?Aa93BOk}Fc1<3Iu(PG#uD;W=Jx6gw^{91
zv+Dib?Z;DB_m3cGxqMD6TwPsZnx**9o;`DloDnf-_ZN0tsP6?u&AcD~u;oa?%-md2
zQSn**0XVSLa}Mr1lf|a#y=Ff_4z-@GG(x%o-xvm*%`oA2HChglX@Ao1^*d_o#}iy!
zof+G$Gf@{bKl~-BUtA}PwW5y`g_3Ah@UabhzJYRBE<o=Qq)r7_{<(I=>iyl({SR;=
zcXoEZILsw*oA<f&(|9#L5N-h%9;CBga7b*In)yM<T66{@8)v&6Ew}lDQ(Ix!M5LZx
zBlG^j>)&g=;0m@a_Jce|l_}upIuJZKHparj@?n49!EUw^PxAWj0q%DNSy=*7(q8ZZ
z2mN!5T09Afh}IH{p;gA>AoCfyI3mNqgHi-Id2iPHEJf7DjkaZ7#vxq=lPF3t=PXeH
z{vL;XbTqHfk_(U8BMW8fnpA1JDf#FtUVrT#NPGA(0zQ7cFOBu{BU(XL6t!@|J&1p#
z*5htmV>;`_#y5!KEaI^{Uj6zjPe3rslPBW^a=1t!^9_LwPUEq}iG6V=1k&uLlguam
zI;Eu&pVO`Ba-CREp~gFc?uneY0{SqDknELy$YTzgJT?x8Z%=PRdGDTMH8P_bg^+1|
zZ_eX$UKS%FCQcXi;yBxzwFap<idH=1#r;h!eWuOaXG_FS3UmQU_El{un?tF*HskaH
z4nI0cbqpbgZtcJOs5Uk?CyEpkLoJ&tiOI<NKm}EEcXw}!@!A@uC{fAmixyngb;v$F
z%l~EFSYrF*;IC_ayZhm&X3E4-=#~fzT#!cS)!gUg7^=jPgLozFhc-ylg2q&h=~WL~
zABe?XfAFG=`_<bdH;(H(pVT_6e8R&!@WSo=KCkt+<&KUYo+ZaFshvru79T%K@hT>#
z!U0qX8ww9+@Yp5TwPbupkgS3NQAM08Cnt`Kk~d2pvpxY?jg5_=nU2osBUUFTC*MX!
z*gfAaxB9qA%gD@qu_XqeP9m>a2|%KU=yKKz4bEeGRUI)SR;S+UH00#{h$?-4xI`i5
z&2`j%T^Zy&*-*$M9mruRN^?P4jq>`=K88S|;n9vOrK!Z_265{Ccf{T$vZ(QZtu9ec
z4;`>D1Lyw%jYtv&uN6{UQc};~gN1a70FiQ?DvopERCa^D#U{6%rIv=F6Dp_15U*vQ
z4=qRSnd9T?C#R7?wO@4EdQ(hX2blJk+ghY&lfmOi4cqQE3-#<iK0Xd}pNsSCmj@DA
z=Gy!O?=Sjav`RFv@SljVplIS-4r#k83ma!W#yRhL;&poV^qS@(D0o|}VhZw5Sauwz
zOcQg&?9D+=scq%b?}%Z0GF*0A|G4o+p%XXP>bqOP@8<o}dn-YS_N`;$9yorg_}h0E
zZ{6f~h^#YuH6G=;;zRjuBy9|-Gv@Zk=)`{s@4gkjUjVOikQ1mM3MtSB2%ori&M@x8
znd9eI-sjIFO#&}_E%n-b&tATKd3?3VqL#B!)p5tj$r)=Bben9Q8<0{|^aMbc2uCVH
z!Y=Xi#jlNT)?o$>9H3xqf&$DeDw?@r;h}J{a(|b)o#Ph+KqAkZHQ9o~!nsx-UQi2#
zKY?cpX}`t5y8zhdrIM1_kLuTK2K7;K1a$X$Kh#aybGeph<(8m&kh#Z{yH-jvq$_;L
zxyY!&$&xfH0t#5U)rAo~PUwMrCC>32rO16o<a;qRqMvOh7)Nu&hkmd3&(&J1)x=M~
z$EO(ti>ucE6!tEelQAbgUJ4}4n&Hw+r{<5nk>qXw9ww%xeG5Uwyx2@Nu>s4F;y&)_
zk^TP3Kp~aG2n!eYv4B8IKdoOBGAhRS7h6rI_Dd^eW@3<{%==?##D4b>TiQ)sZs*39
z*jDJ*MFienkxrMne*bLw3Im_|8>r(xmz${{0mzG2pk<Jd$N}$^vgfs`8r?qnaq>WJ
z=7X|~<?pDT>v<mmD0u@SM_o=CXBCn$VJ1dcaa`_o>AjkkiLw~yr!ktH;KNgyopv4g
zjAxhs=FJzstDVq_GytBox?HWBRo9lhh-v8_HiC-w^=nzc-Q~0Z%H8OGQxkw&5CRYf
z+InhPk_~g;g#CZqz6`M9ef{PQ2Qpl}|N82To8qBD*!kiN=9Htr$!J!*WD<;QL$w0S
zORz^S08v@@e@s~Fxw`UHwO_$!w-4rOS@KX!qp1W-02=9)mvv1^NC;hW+BUhrA}>|T
z-I{#Gxf#jXPA?!prXErQeklSZ<B3lOg2Pt4G$QUUWeq>a0bXvu+I`;abu{YOu++EU
z++k!!UujsM|2Z#^dkYf<7g>R3xf~*>VGE<0vM_z&^7xp^g}s_GZcG!B>~2a|DOH*q
zT;WPB)2xmb1(rfYN2dlFJ1PMOq&yIb91C9@7g7Lf!KW5dcQCRA?{ipxy#zX+o+-5#
zBj9*9?UZC*tiF8+;*at1<F}wwiUn7P2XrERF*HL3a*^S&u`KND(R-CGF<Rx?+yPha
zppw1oHOmJtA4SOzA9jq0jpcmm8wg4rm;Z%}F#zIb3+zVCNeJ8r0wyjqbBKS|@ayhO
zc|d|3)V#{Az+L`8EEQ8tO;cBN3_q)2f9a>H&jbc;u{Epk7^cSU7NMk0b%)vZudPD9
z_5$uL(Gj9BqF@~PWHN88*w|7}Gqa``dmKEbRz>3O?B;aQUze8~Ibu5!FFp1jHIHa>
zja79tA6D4v?tVYhOq({W^wJuBR?e73KSYH4XnNJFDyWo4Bfs+QM`USZsp0peBB
zF36TzPn|bd3`#bA+Nmz)W#n3q{_8{YoWooAv(13+bOOs#R7~|QW`)%qmc>{@5`1?g
z4s?<H_MRK!vtsyD;_6JI4k7Q;rYD2e>wVGgd*7p*+_q0TQ6C<EH*kJ)ebC_c=NBY3
zeis2`Ia>C4QVBOAKI?zd{q#NbvZ8{Gh=@oCq=%-vTL%Fu``OB30Lxt+3His2v6`Nu
zjU4*^o~0pe*+ZcqF)*QADk}c~eUm3Rp5OkP5|a<9t-aECefs%C(!t&1V4rKf_~c|c
zL&GdX19;iVB9%pHalDA7Qq88L)$mg<`ay%{r5N_dg<M=(PjoHEo;4lWzjXg{-3-N}
zB+w|`ZB|5+7H8fTXdDSdjh%Cr_Fhwo`bxf{_vEqC#WH6n4T+W15>l(|Yci;wJB9#C
zTL?4{m-UfWdk-3eQVD9%Dy928PEpI8z=OuL?!2jDNrP!kPwUBdjHV#u!$H%4C@TPM
zvii4{=J-Z{CXCde9Yj=U{QjUhDDtFEi3A~xe7s3l3wu*1w<)r7kt;=ZF|asIPfe$6
z!-@%Q*TU&?{=QuiI!7i!W^((a<VBGtb$tzk_uRLKnYqu@lg?`yMMW3X*a<`Wj7FZ0
zn3YW<#aQtW>NjxYd+ZU-)qffiF`6A18e~n8+Vsv1+ESJxJgfElOCnk?%-HRy0<V6L
zhy5|;?*dj(h<faR5!K=hsvEv4y37bn5{m%m2n|XPXZz~l1#mW~2+cp*TRaa~z0R?J
znm3Vr4?SVVg~RGQnW0>Ef_6PMGo735HWgSRBF8MfZ&g{A9H?-<^z;9kj#-mp@sg)E
zdWxbhFOLy${kPb-&A0Xb?m8_hK9G8;m4}zth^Jt3N{jEa(^4~StT2cTa3Br1j=qKO
zf&y$I`*Af9Z(bhn;5puu2=RRVB<D@DqQX&GV#iauHOX3=Fsl2HYpe-`OgDR=TLy6d
zJ!mgZL38A?Q=CdxVE|YG0Q=WgyWW0rTFL+|8KM>M`0^FP%gXZjEyyI3b@n>l=4L2c
zkxeDGx&?(bvI?4|mcJR__*jo6`0YOuR+XEg>0&kT6}bctv;}os6W(=qFJi#DDFu2o
z8l2wAUzG3rD*FaX)JHvV*xA`ADK!`Mh^WQHC$UGB6BYOe=;OEl#;D8SV|XG$`3g$H
z0D<fVxbrc@$Itj~eEny$(f{3SQ~=rE3A=4I?q}*M?v!-DHBmR|Y@j%OtFEVx_uPB2
z1U3u{?0g8zfIJT|CKaoM&AG2~fer6pa<E6{=;r_B&cOO;^AnkAuC4Xn?x#O{vkz<K
z>?WYaZrh{W;Ddwhz66be;jW-Ct!Yt7Ni#{Ks)`B|A72s(O&>8QUEQ<==`FIz-typt
zhHGpH(+MQ^lL_Ti0}NARbiVMjV#8Yf(B~3cn^c>$4DA(8X|4R$T+)-KwIE)rVR}x^
zsvjqoLn+*#Ev60l1F3BLtDnMYGMXp#7Svi)9m6;8Oy-Fw$v=?ML_2P)+GPg?)?J-H
z{1{HZ5sC{7=tA%PzPY^-=XcY%pbTG3WT`Ruly!ZoHhOz$T@z3jN1(;lX5-ZXqPAS;
z;U^-@>ThEMT~=tR)Kbjb!HMkRGzL~yzv&ZGKL_5WSLBL6(5ti!n=aFQR1^`z{Dc+0
z+BRelg?5srr-mNP7)YWQ4Dt*MfKD-LMWR(scoRhpg%_fyeg<}0=BXwbG#z8&BkFgE
zZfEO@<Dkyf2m#~iM+z?NPufW@7DhZ7VDyP@<2#Hug7fh(SAhBuJw9kfYF>ZESc`7P
z#vjSxF9da@Lbs;d(xMRn_o+gKhtjC~C9lF+3kx~sV>+jFB(35diPRrP_!iJo^Yi`v
zom5>}i1CcDcpjIHC;i7_8F8jEv;6vP-rMd54NXm-pYO=iK$qaP63{TzT&7vd<NizC
zYB&v9QbU6XfMja`vO$(_X3a2gOb4JKIZl#YurO)CQDBzvE(=AgsXw-Gd-JupE81TC
z<KBl3JcN|wI&6`HB$N@)*d8SIt_501y68E@gm;oq!ci1KB#VS9$t`cE)|FSxDcdMN
zNco|gJYgx2c(>$bxiG6}IF@5$#p|P|w_#~zHZ%-98p}d9VmbO_d!m|KvN32BQKrqF
zthh;1aYE9_GXvjjs7xrZ!h%UcZNEAw$jfU>m4_*GtY)BlJU(W$91Uf4B%mRW?_^!|
zTos3UbtHC*8`m2_O@bg|zuc!sJguN!BHMYIesQ#PU7O2(N0u{it>J9ZR8Ud`oR<x&
zD*-}75I=yYbX#z2m;l`b;I(u?i)>Ku@H5l7y{tP0mk{YrUL4C6EjNOhQnnC9RXn<k
zsh3W=t|-qlX9(Ry!EQSl(si3K5Z0zh+&;s%we~Ym5!#Hv3IP5uFqM;;f`)v5uJ(go
ztyL2norwEWPy)Z&)isa6NjI%O>tZ=CrXBZ1M}C?*_?w_`F*L$-{)5{!mS){ucx<my
z*E@ZliZ-U$$w=DV92Z3;f3&KmCQMeY$vtyO{7q;ST@YKHe9~#FRn0goD5zmh3gi?Y
z>rq%|5@FV7;ZUtU`{kV}^u4ni|NZUJ*WzCIdnQ52SG;y)k@h;0>urzYHYc^Jsg2Mg
z$sD};eVV4Da14=2!(ID*(i}g444x4lj&*W+y0h5C3l8gQhJ9sOw>Cz)Arxae5fr<&
z;6Zg(^Ho32-IBqjRkHz@t9tLD%GY4a&Y+NYoo$`irmk~i&*ACjBuB>EhZ*K5cOmxU
zJ7#&>n|zvRmHhVKkq|T)se#vOCo<?~DFhrI&CSgf6&1xLBuE2FO%E_XI>tVhmV!Fr
za1XMJ_uZXSe;M~=Aa6eip{S***NYAi!f>z6a5VE0<LRN#_B*|VmN;!GZ747Md}GgF
z6->6CFZ<nG?NuSl$IYK9HI6-SDv%>)ssRbY-qh4YE#xA(yP%CSV!>Du7|^{t`vI5J
zU9WV{w+kyMW*+*z<9=(g>#c5Vv)`azbKEZ*wwfCBkYcl=z3;t-<u`(`m@5;en2gdr
zOIm(4-b~zGk7W5-kCWP3t?I#e$R?I<lb+SsfE2*g;ywwBiH8w2WR6iKC>l)exL;%y
z%*V#8j}q0Cy8co!=AlBU1f48E^9~}k!Bh{>(2oF_3V7O$Z}E>onfj0;?ssxFYm$0V
z+_l8DkcabPK7uUpw6n%Yuc0bF@O>PF!KMTLE%p{e^m1&ooDH^Sv@Wi1!Bh6FAu~xu
zW!9(H$+~38C=JJ(OxZ&vEtl`BdEC91#NQ@Q(kOzN**D{Xlha?cWUlpOu4^w=K2+|E
zWBgGSxngSeb*z#J%QV;ic@JOqH%2?Nj?678E>5;>+1Rj1NG#8b9XIA;=b5l|V^Pjj
zei=jsDLYY@x~qeAPI-~sFYZgeUfr?FyFry^WmiYd2uIO_J*j=Gns|D{pwu2^3;U6C
zqhBuX=_vrt;^qKLuDht@JM-~KKp3ZP#z^r1-c!q+T(Z3uD)0%=FniMs;E+<^M<80*
zm8GZ%gAA)!2_@OnEhZ;(1rMe_@3%;VTy+v3&=<XyVN<ol^8YJHKp7#-f$v6vBH~%D
z<#EZ2qQ#^F$}*fIRDMfKuNkZPsZ7`3tf&WHc+eI@wX_1Pv42P=mA<Zz#7`Cn<qr_I
z{ZSOWO8fQ)L$B-Kz6p06DVgw<v)6B5A!0ZAN@;6(ZL}afxfwpF@vL+tTjVvTMtQH)
ztcL)d_~7m*Ch7}U8v!^4d7Cfc7Wpvs<r&tCm2=+aUcq;_VL^JI*?RUPAyY@Yb$@@a
z-P7%6jHX}kTJVjjYeqic;r#ZbLp$)N{Ep=B5I$6S9|=y2@B@1DKMmZr%o#s2^8(5l
zZXLr+c3==28Va>N$OM7)_PYLdS)ipr^;UI0k@qVcK2r7?En^YZE@fym7}SKm$D?uu
zy~xF%#*^&gUA@UETj-TluYZdVZ~anBz%s3uSRLrYqJMZERwM}|MGl~GbKALEHJE?a
z=QjA1=IY8t?qhOnS7#>SHCnF9B?>zIR@l=M`x)2t6T6viTG~SaZpKGif4x$IAISPp
zS}kOQ{Bd=DGzJ($oi*+N?qSby{F+<duqPk#4!Az&Va#!hTNlW@#dpt>X?o~|BSc6P
zdiXQQx20sF@{Re`*`Cfx$d#1wtk`hj@Du+;N&ipYC#jn)V^M@!EK4dSQ^@D{e|=vq
z@lTb#RrR(IijKO66FdLAO>5IH^my+Q?*zIz?+Un%|1kBo2==dm-4UK#Y9kSWD;Kw{
zCYaxa*BIHFK~T|H9#yGC4tE4csBO2*>ByY9k|ZAiqR#Yiu?Y~63B$^y8e-<|=^}1h
z53EPCo_+Hl93C!$6n6VPQYe7}?stjS0K{k;03dUxBZ8Zi{nMY+=%n{%%0CNeds49)
zfN92ci5lm5;A;wsFi_l0Y<bF>wPJjY<U=k(eazF#FlOD#!N3riJe<`w?I7ZKlWReW
zx5ty?7!6Jam9YEMOy0@&BWz$O(4|~mTuq7XO{wio?wqntZMwm;&A^KlNz_$lu7KCw
z(_=-dYj^V;H|(ev*s~d`*J2I}DBvrNRHQ(A+${a(Wh++17->FR*Xf5$nnwIz_<Wwc
z{L&GJxMQjycx)Bo&+=iCrH}W@9^1KKLRP6OyO_K}O57}kRG(HNGkbNFh!j(slW_Ha
z6`^pi-UazH7_`vf8k;y60Zah~E?Wl;D;UsEPq(GF%F4>Z-oKx$(Bp0BPdQ@K8k>a0
ztL<@X$y1dV;3a?3c3=YxR6A1sobt_h{*Tj>YKlVgEy~A_=6QHJoj4y&R2PkTxE;*X
z;tq?VXd|GnQ&Hz4G0V51Z=DG_s>|_@!+Ls>cAUSF=ROBji`6mB(F;NEfT=;_{^udq
z{C83tEYR6FljzG#NbDx1H{hFBkyky;+woj*;affvQtqRe_<0!Lt_ieKTYDM<O#o;J
zf(As|2Xh8b-us7%`aw(*rqpBg71r9VRLB5m_7kVBr2xdjtKdf~{CeSbEYS&5On<2o
zS-8FNHH60$80Ogdv+*u+K%ufSv=^|0nI=A7FT-7)^?@UwKpuWo+U4;oi0Zcs+g2_q
zff+}WvYYJi{K~5=+!M(t$+ypVAfo$D#Qj$%h<&4!TR^>w0Rn=}urY3kqa_O9?FqOR
zVAFNGIzv!#>k(wWxbGi&KE5xXGua0j_&6%3IX8a({ynX#T#<#*1W6J2{-mAbN9Dr7
z4<24E`a!}X9%Eb-?NZg(4f+FPqs%WvGqYqqh}Em%Vn4%DB4t;1elu9j^A1fOi}}0<
z+cSnP)~R*^>mp#OS&99S_E87A48UPQfRrE35zmx*ixCf)vG~Ud2!t7Qdqxgc2J23l
zrPl^LfhGbTghx>N?BGu0O~0PLJ(lTopANSA`b;8RwcyRwPN!d|ym=;(=&ljEgQO+l
zzU-1s6|%n1%3&UqOP=rDL{}+9>KmeEKAA?BhzBj<fI4xv7Gn;oEc3MWoL1)q<CF<(
zZ0CXbyw;$P9mF+nkh_-wRRT&bvb(ZG=zT>;LgjXYg2S7Wpnl&j#YlYK#ngW-ljP`-
zEYkRpLwGs&1Lbf7Pn0B6O`BOm?d2~>rOjfR=!g|I=ubfPL9judMqotPxRLM*$@}Ja
zf73zzg3WTPFqoDg2CSemACCyGK+Wvm!G!%O=%<yLrK9r*X?aLIjQRr)4W-lv9jjTz
zvjP46r&Y`~mX788;>~D^%W~Yemkm;^+vi*Jb+<W2$zEGg_MQ~*M!)5B-Y#(Z9n%iL
z94rwKLx7+c@;P}zNJwZ1Mrr>90cS_+=S+iB2f3vKp~(wpDRlZ)HmENpsk^?#a08OD
zOmDc0{+831)MudjcBr2(+=hrkJcz_fYD};kP<#t{+?r8x^HCTJ+*SGQBbxfZN~k~(
ztW6nlaZwdE15&c>g*)~h`KrW>lmdEQ1O_Y%RV(IP4|XS0Y^f8nn=wOh4pxq&{TLeb
z7}6AjwD**Hsqz<W%_D@C#7exWBezn+Ql*|<kz+SsThVB1P@}FpN-5)S(m+zMlE{N1
zi*B+`<(BLjgN8{k)?~BVQPZP&KqU|brZ*ZI8ZQ+U0SECNq}$Iu@$GV}*q~j}P30Of
zV<=L!&9;~GD7B>odse2^B2cIF>yzc!(ASiB2mxpnswW)<_zPBdrn0WrAIA3czI*RG
z3}a1;jgc?!n+*-dkxjNtI~aR$zj%*_Eud|R5f?fb3XjE+)S}1TeLk&HvK~~$4b#xv
zEPK3+O-kiQ;*H^r?s0#MQQ5^t{t-q3Z-+UVD|RaMl|LPgx$>+=Pm8^#Pm+1E8yVv^
zt|+fb)Gexd>*)Tex+S{AKIzAbyo{D$jGX1OlqXbUV7qpNc5Cm$xsyw1Er&iQT)Q1v
z=F6jcScu<hTLcKX@V^Tw#Yc0O&n&et*hXgbn9em*tV_Qua6s?e`zf4Q_H1{o_G-B~
zQgWuv&+AWt%mC`Zz`zrhSNv7G6*j3{u*<VF_*+RFf(&VCtjNg66=5CNfWUd-*2gco
z$*h|kwDsWcqG3hQ?YpxoBG%{j`ciK^Qm?e+nlUoI;^Ibb<p}+ptec?O-n_dJeFy`r
zE{a@j9tP^zx<~L&HZEk+eiTx2{Rnu|UbKFv*s5<~`Za_puMahLoq@d_+3w|T2#f<a
z0N{OkPAW)ZmgEf4TojH(K<r@U(`fAEl)o`6`pmM&6v*!A*Uvp;oFtUipHrH*Pwlr9
zaMnQ{=kaq|ic%d5=71=p|8CM(&k|i`L%3hCyDI#0le!cB;Yd@>KR$5Xo~dr&{gtw(
zg_vWPM;ad<>5W(ADO3gLduoz{DA8Hm4jSvPB+d8h?;x(fkI*cR4H?3Y&<(^(b^(Wp
z#jo=C2~PqzbVB$3u?usbv|V2fRStd&zPSmt+&|B{a;h{kKrdos6l(Eu{@A-T!I#=>
za92UW6aq8d<iOpPgF;+69rL(!(Od+%s8+;C)KKbC&kJ#KN|DM#1VjEFdWK7T47HHz
ze!OZjmS4id#C?9u`wqF3y^*eqgIcS9;609V^L0JFxh(EaI`&S9snPE<@RsN~4Rjw$
zGH6%ksnXmipn3mrgeXANm`0I0s5EW2IVr1M$vf>{&K>FxCIo8EiPhO+y_-|Bj@X|H
z?e5ehLe{fCdhm{0X?w@H^t|PFmP2`A-=jC<>i2(gnuq!2l3Q?!INX5n3a+a1fFPs0
z8_W4e-0^!nai_wCgAGf|<SZkPU6Q|9S)tN<hYyQVg^tEDAVlFf@-GUU`n)JlNryv4
zKI}>e(s^j62RE-AY30k4kw?S1`3bZ*?L=KDSabdoI8E+<4e^2y*7SDTOq<VQPq(({
z(wtd3M^630Wo?8)?el7<rfJXQTsZB7WYqdoD_j{uGqFk0!%;a{Ef=PemYI&9vQ}Hl
z6o0+Z8|3Dn_J9{11`B(ub|}iv;IlnjS5^?u8sKH#K4)ToZhM*A8T4kQbXa(Z4}Vrf
z?IY8dso086?nTVB2#gFR);@hQ%3YqMP#m7#$4uXVYAk%xhB<LJg`8M(&GT}5loSm%
zy1z7JLg%k8jK_wGEsIY4-0o?!-US=39q+NTX)N~(qM2llW|R@O5&CIUjlvK$^*6<8
z>ggK2yS4B0;Kj2FOFOEvr1@zolCx7!XB2U2v#2T5N*5i-KY)Ig2kJ=SW!M*90(1zf
z1N`=31O>2{=B$nz8qZnbKcA^@Vp-fqH#^brmN*)J8Hm|k*2Wx@D)Nu@yZ-Qgw?*RN
znR=(%Y_b2e+aoWES8}C)TxnbIS@k}}f7lUUy?41U=g$wkaoQ9sMab-wtShx5^+AP?
zh-E2KrNNf{$g0kVYxne++W6s4)?4@lAC-sm$|KUF9g}?d6eAfZ-bpd+(3dJC5+XN3
z^Ck&}($1#+3N~Hl0~0;bfuu`@aF8c2ZDbv6RF=PbG)_3%Ifb6Yd2NrzYHrH?&O<pN
zo<517`$ZP+T~ZIB;<Hb$R_T(&eo2#AQfZH56O;}ZTC^8!UPsrr6y|f-&<w6n(|jxX
zQ&HTZUel5g$Sx=B`$~jaEu`dq((-LPKb)$qG*>FY@g4Xi_ij3iOGeR8w|#=hf>I@+
zD%R*F`F4<vLL8qCw8dYy3=Jq>pHcU0drrSx&mnTWk(04BWy)V;S;_lcBq7_IMoGH#
znvL~XfQbLk@-ygcn||`dJkKP=L_h1T>Wjiqh+JI{U^cnicc#WsNE?Zb7ydUtrg`R(
z@DBEU7zR_YmC983C+;rEcX#CUP+pD>sd%px`!W8oemkI&xlfr!WRz;D>H9swyseIU
z#O05JJGnAzGaK2;nQ5wp0Z=R!?2@t{=D1x{zk2P8<euHra>OhqK^q4-4QmLLl(V5G
zEX1*r0#qTAn#Q9kUy8<j>FA0^+~6v8emFC7E(&?Uyr<?w^oPR3YE0Df;AL1~0C)1_
z^xEXJ<=)Yy#8cnSO%jZ34i<XcS)9_09%kad%qkb!Q)#bezAKV3+B_-L@DNW|E>@73
zl$Y+FdWZZ7ljdxkTUZahiUzr4YEvwbFQ=tf7&Bv6(?c-eaooR4h9?&{`g!|{)e#fl
zE|X!)&d6#*JDN%%O&1d1Lg(MZ(KnwCaX<1#t}@q`u$Dh-Zoxn6ye5b4ln3R1t~1LL
zY^T*VZ*`I-Exn+g=@`#-fZ^<AK6@Z`@TS)2>F&o4w|Y%CJL8Zu%3tJJyHD&XZS<wg
z<n?x+;4-kn5~iHpp{@sn<|6xlmbnk?um#!Q_YSb4D)G)2?ZmY{GWMD(alygFVPpSB
za=1V@;QVAx8zCCSCklt#wqqXVapBrMVkKI)?D_T{{#%?ztG|vG-hR1?BQRycA=~R!
zl0SdTTusYAZ~Sl@uSy;-bqSM{dN%?`mH!+f<34R}vaMX2tKM4|VHaaRUWN*Hiog;Q
zh6R1+TMgzG?s%cs-A=jdSM5(o+&v~Qsju_W;6c7^Tqf4XfjHe!`e|D+%+##ZmOWvk
z>AlCM<~pR_O3H7)$dabbub^;9;WhuHHjR+Y5l1YzJ7{qx>cm<FX0~0GREu>#lwVDj
z^cdHU!7f~w^FY>8%8`G|nG1hz{8~mkLfw>^3u%V<$ZPuL4|Dadvd{!|a@5RVV_37Y
zQ7~uJ=4P_uZw}9Xka1ptuOSKA%+<)4zo~7m%2E0~dzjx5+|`jhnnC$e8o?qPEosED
zgq{+Ckv*EUp7lmDkx{et_Z70;bYlR!sYd+EFBCH}V(N5<h(#7yxlTt74tz63%;kXk
z5a>-iX2MvNP$2wL6KpU81iRfTYAC@)o)+pmNrfurOkFP`p5I0^qh&`8w_ZbmPEJvE
zTE;|Y<cC56)Nk=y@-^B6i>u>$Um8AFS%^9tMeo&I;_D2>u@klytt;}qC9+TRpC%vS
zi@?m743<ff_zb0i8u9ce{rYpqKfRLPA~KLs^9iIJcc^Vo=wXfABC=SpuamkqgybO`
zX*Q*%E0Mi{#k3GuyEIx35IKDLW#b^~rLlK&TBFPA{L%+oR?Au#rmtQL@mj)zJbNYR
z9rSGp#?qG=eHqxv2pT*Ol8}h!x5T7sN^<BhX4KdMGdVt#J8Oq8$c=dX(nPRdT~nP#
zFescI#^JfWn6-~$_*RvsOrlrR4vQwaE=m5kLkS<WK5^u>621Ek9tRVd&!@<3-8J#f
zTBa{5?JhV!+t^meG?=~UMn<WnU@l^qDbzz$g(zdBOoe^_=$#uAB%vO4=x5$usoW-A
zY)?gZasNDl`aj3v$63O%lSfgbGsSe_tfroc{H-~yxhs%2*=~$9PbEqckaedKe`#ab
z^20+OPw~mkAmq^xqlP9vb61`BL+R)?O1~YL`>)@7-wPg{ywjYW@Sstd8s|r>2@>j-
zL~Ah!Ulmq{A+s+_2W;qU)j6W^*kvJ#O4wVp0(d61DJvIduBFt0Oz#(gN2hJUIuMiZ
z_6g0MJkwRXw5tlx$w{`=j^G_fXcxZMEu2dr5Q#L{PVV*hq~kI+G0Y5nb>Ag2Vi(#R
zR23EV`{6qtl(ToIq%GMa3bC$o>wSy10z>4ggkKzB95r&NuQ0QhQ=z|B^d7{m^6|6t
zbP#xBj4hdS$|vuZ<NWus7(-yY7Pz|xm4&nujxaV@^D@n7OtUQ=rbS_M%?SEok(Gs%
z4-W~y&GJj=2<$o}HY9eEUi!Q`5!)sj9>~G^By-JZo4N`!_zw?tA@^a+h*9trkG@Y^
z=8`?~@RtR>Hjn2(HTTu*ul282;qb)RU3>!#X3$kS^i9gHQbJt?lfP>ns+#6}@R$_;
zCkHWdy`+bWd_$&{k^8t0%aF$n30bD&!Sj&0OXgmo(G9&~q<gRyG6oSpq{aA-%*oP?
zn(;xllpfC4Mt;^1_x@V{ptwfk<eS?e1~D5e{#Zy!iBPov)39SI8X?sIsglQ%#uPE6
z?+2l5&%Tk!^wNdC6lX@nd3YyF2u!kpV#awi9^FF}o|c%Zr!E3tSki@(m+HeRZSNT_
zd^2ppgijpuQI#_~>^hg@W^FAGwHd#J-aDzCgnupRl)SO@8TDW4>C{mfZ(5&2u43yK
zvOj$`nodJr(%k^P`j|WY+l05uAJjuOC({rUjZo#YvR35<!v9``Br{lq2fh~WpfK*P
z<@7fvW05c%9{<<FUQ&31bo+wapMs-18&g0ECu4bQggO%5V<Qr!|KQ9(61DEzcH)3q
zKl@k>O%UDTdvUstO5LLG2R%=q@<aIohkLxj%Q{-oWDF=H#-{NDJzJ{TKP-5-Gfph&
zeO<{w<G$UjY(3;cji(h+T|}>Geq-P@LZuN4^w?npj4q1wtONlc21Dl^hp$0HhX-XZ
zQihU$Ooufug#6vihll08KfUW9tgb1?dC62FrC)%fe1LmmlO4kf*&>J-G-Rc;ac$MM
z`umn(MoS8#;6H<$jF4Y3q@+R|&oax{>b^_jebLv5dq#V9-}29yA!rBTDd`IK!;V&B
zDD(<ftM!c7{LXdNBTofALr=3fABE#uzq5!jc9I{ux@l)lWuoj!M>|BmEgZ2;xWkvn
z%SA<MW2b!Vu}RXM`gbiU1ZJCOi=O^|0Om9$a`;x+vaA*Zj_aT(RdT967x}M^0?G`)
zYea#b`d5g#x(+?A9mTQ9D#`B0zkJZwPL~Q^oP=X~V$9Pve*8`4{j$)!0iy;{Vt8J_
z?4Uy&0sjvov7qH2kX%6~?0$aObkbT#$<y2~P{cM$W3Ax8ir$kx*XD9rl^hj45@Td!
z{577B`YMG@YS!o#9j9??8qj_c($bFhlA8<ziVY6ym2kl)rP&R|k><yckS}KUp$HSf
zSVUQjz>)Sqt4E2Ymx3ik^|-|!m_GU|`XeZifmM@|iTo^9($aJpM;R#xQvxMWI@%%?
zZ(l0<;*ye!<`Lc><aq|Er~fR7u#uHIRmgMyk*%#Q(i3Lp$vi34s#yO2oAfae&;=;f
zK#nXQOFL2+D=`QJ#zQBYLlk^A1VHk$8u7dm_A6Gisa+1FIPR?vsHbJ>Oxx!ne(EMr
z>ELHDW%9`L4-Y82B=)_k?{B(;{C%=v&xn3!5n5s#7Ft=G;{0<GS2sQA?Ev4aoW>QB
z8+12k=>tSwfDy_^$eJa#SaSWP4Gj&uZV+z{)O_iJ&a|2(%3UCuJ$9i8u^AX8AR+W@
zK&h$>{0lSXI)2yd&`P&X3+SvUO)~l!4p-;3Opa{88=wBP4y<J8ObyD&1Np~Thp#&n
z2o_&-9J2=*ve-q$cTUlMSHvjzCl+A?tvIru08ee;)btK;{5*j--azM!-g&sx;sf~T
zorMNYAbaEhdOFtGH`#C1@o7XoEhY-&vc&yTfV8>RdW;s3i<_TE#`9$;1f8h0%aegD
z+BvXjuon9auO}Y;%o!>PN6}Ny&BIB!f9IQUhXvniigMq`Hl_RL(*C5nYgU~m;h+d_
zj;Y)Orjbh9gb<+B2VrZ+SA_xrO3JNnTuuuhdzY1$Z?4GXvn2wfZ_AU70g21dnm6n6
zYwPPk1&4S7(ihuxku3wDpc@z&*#t~y?{{I{PudmQ_Fewk+GI!qnRuBa+9mZu_0RYI
za(wRk(}+D)%gkpa<6Mw<ZzkdUqEIQE{KGI3El;M;RFP6Z-GoQV#<p7-L~|%o28Y4F
zCvyz9O2PmIYH7>@FDHaO=+W8tM2u@lqp93V=h*%${vd@uq~Y@&K`(%Gy0_gB33zwn
zv$BSJJ`z7)Yy={Z&mh)-;2l@e*H;7y$i6uidi&t+1)8O*K4RZB)x>*&uq1-rq}B?r
z&OX%{X%C3pQ|zysTXrXZH^oc~YhVVyou#$t|3>qpIwZ9XJIHQ4m|VntwWv3=WbeVv
zt(TLE%4XWq;Q_-t0tuowPr#!YlRLUB_-#JnZ^iLl>j&mE&WA=vE5p8P#SAv9LcQ37
z(>+DY8=Q)P<W6^Z3+|NgZ=wp^)S`z2MH;oJ=kWSf$NgPP9@YB>d>WCSI0hL+EDon}
zlZudaf=@;v>gn*$CSzk`|2bUBguy;Xb6V8S>9%;X1HEUr*)y5TBL^-O{@41eN$6)9
z64BQJCEU?%SHhozv8{L`quF3&&7*5K{*}tgVLh@{G0(z|X%0N_PJ>4BLY!tNlquPD
z>Yv;v`~UgL6rHG@R;EV`?eq9Iw_!nUy-CA;uXai)z>pjv0!78dch_rh-BdCTytD+O
zkVB6`9v+@wAehf~XV!1eSNbi`jHuJqfV!X0ZW?Cl_wOu5oR*i3ZP@YlX=JZPeV&HT
z`CK?09T;Hfkmq?R8Mv1pLK{bgHl)n&0#_AP3O!%G!+b#^ebH^a%F$VA#n1Om=Sb%8
zL5Ne5?oDZHu3X6Q%ItsH)MU>#w9wX@wsQ)BDsItxJ(|yUGK`FUTCjX2=sx?gLd-Z|
z=gHV~J44ZNasE#5MaN2jR@*#R)GG#|^-E7506Gi>AhhlhQMfIgo`xdy=+$EU{0KF0
z2EYB*NbI`7TxVftEi6BF4f1&H?DQ_qIvBe%vhN1HQ)AjopFx&%2(unVG~^xZ{%C1J
zeWvVf5mD=lD&l{)Fno8YTyh#H7r}c288=E?N=gYn8Id&bCjr**=d4MP$DG2{7me7=
z)YN_;Z<?#KCkMHaUP5BoG5|=P5WXcq;=A~CxBFkZ`u_PPWn)7cOWZ)%h<dS<)`6Oa
z*#pot9xSx}I{MO2T_$k$_g$PcmU9+*Aa9AfX<CgTW+jH}t2q<Q$(xzR&h@IjFu}n4
zTd%F*^sieZnR7Mfn2z&bUW1g`TmOGkS^ZPhrNd1@&<_57*FAgKc5aL?9RPLpz~G?S
z>DCDPo`~oEOI_VZ2qk^Pk|!1LQLsFF_7MnXYJo!mVRq^GQl|VlM6nYEr#6oaIpDeH
z%k3U`3CtoQht$4|prB$IxjvsK+Y<#d>$^uD7Xc~2_`5Nw*f+{jvtr~xyPjKu!5C!3
z(puxTttxT*M^nV>Flx!E--+|?A#gAJze-G~Hts*w3&M*IeUtzHC2^Pw9`v8L9*#xZ
z(#U6n9RX31U(}@q)J$tm369G!_yqH1G1qv~2PHxGG>m<Y&uXZ7G~;F8T>B+6{6Yk1
zM@tLutjUrOf!KlbTLBHX85;2DnAbR#sAdm>tey@`EJ&bGIjpp2?@X1}`qo9svHp{v
z!>Yis6Y)Ma-Jz0_N{#x=x<~xypV9vFORA;+HQINff~zM!#@z)fP$=DzT0E*U`c@th
zYX(x4Mt%<~Ls;!)=PVdINEq^_GKT2EhM9sHI^RH72e@ZAH!s*BWsw7U_9D%dg|?I#
zm1UbuB&=1oHy+u?@69`L)&3r>i~)T^8ozzY&<R2f?zAXWp<TYv#qsYF2{yO2=vleB
zYn1E6fF7ky*nd^;KVB1NJS)*pYVwv+axE)uY=LNZ(X1~}xv0;wg}-0R;1C+RLTtlC
zvr7s)8&ntkvHf@X=pya&o;`GVU??~;<Qaw39C}MCsvt;L{F^kId&L$XPEP`@+LN`j
zV^tTTe=qaD3(<dNg4T5{db@!HrrvhbjqUBkl$1Uy=T<Nf!@B@R%JoDH?WVTQr=6AW
z&1T096?*lfc4M}S4NWoZ=s)@AF&y)7RTpK4VOjY!2D*wPw?<zD@sExC?N>M2mAvhk
zry_N~!W<9pe(==94*74oXMN?eQb*t|m%(tLkfLe1>g>lqf83FPYtJyHzYnf}3}#fW
zEx9vxy>@kE!`7CT$fmV(z{q1M(P6%Dvi~>?O9Ej_wT=XRgd}3wJ>i73vnl|;jAn}_
zrl;>XW}*xMU<lzaY`^i{AqTTNPxC-PC=zVnGJw(6iTY#pLpGiRDfCpcsDl{PmZ<ai
zMk}E@-W1`*Uq|w|A50rn#m=TRl{2-)Je+`p4VeF07W)laJRNtauo*&)eO^5OTw8lP
zO$5$Gx2OcCHZ3p((0DC&@s5do1!`CSfQ!M@_x2b`yqq7*8<3xYF`?Ii(5l=j8D|EI
zY+Y(Bd^QOyjB=<1l^62t?coiEp=GO@JgJ8L2l&iZ>;smcnjxOqE*27&R#uZRNMYz^
zjB;7C$6oW2^IFfxC>qgvQwiW%2n$047G4!7bnZhc*qsWamK2~WeO;rgv?7H?nACb(
z;bLKrz<43uoP}F+2cCCVdz?Yk%_mH2myw^yzt$Z6%h+Hd<38ILej*#4{E#}&`@JTs
zsT`@2Ta-L`B#!iqyhr}?jLi+hmF70?k9JIPmBcYuYG4QsWTefeJ|LceXBOBihYtc@
zzkcl$nP$L7R)wOpe8>`p#jyztz+<F{1@x7Mz<@*zk;kmYa#TRJ4Dk5{=OvnDSjtW|
z7y2s(6+i7)U#T(=*$#RA66FIHmmkDPV@f^bdpvAnb#PGib!Qnb{Fnl^d;QSwM=6<0
zShwUfmno8qg!)OabwLJp&z|gmlD+9_XE#p3P%39Buw;U1eM)r$B2pTBPOZLInT!D!
zRU^<)A*`PWX;w+eB&cz~38OiqLLwcWw+6Db1&<Fkp5m+raODmHO}}pbd-Ml%5Bl4w
zlF{pW)98>|QTYC<MZP=E;g)_v$vO_tN2!T~6n2q%5dC<tpU3spmfU4jw}bkTL+d>z
z0sfa_u&a!f$fZI>y88U&FK0i3@t}5<F<vLIo=O4ychq)Hiv%Dzq6mxKU92y9E;s^1
zR2J}@AcUhS>;@NGna-@m(V!;!a|#Nkf_!o^p+HBv_!Zbw&OrVqN*s^{J~E%<E=-?4
z6AI<cWztxLPynID|NbxsM;e%79URy|RVf8R=CH7f;#rfKM<F_2Yqn8wgB2z53DCtN
zag-FvlCXqSAIp*@Mk(#R!mKRja<fH+2iZbiOHvuWebpAs3uC-5=)*1A>p^VdCfO{j
zf6OKDYfXVk9subG(G!4{K<zf(>|w86X*iIqW32bgkpy_l{6N$28mJXp|4hDm!o<|%
z-huz{;dY9F(@)UZBp@93P~fycM|^w<CwYGL(VstpFb|OgC{No$bVAVX>ou^BlKG^I
zXdXGX<|@9X-(@ss&G<PTwU*1l|5Sio39+rf#Nxg*1tWf!keH~b%3&U44}uT*DBElK
zXO7?DPtXHyYz!p!es2IS34jWqQbVBIZXD2&p{p&F@61H9K=larA^Gb`#F+Q1GjN*D
zi84na94&cr7IUU<G+(%S$t3z8SaQ6K`1rpHBE>2NGe>|cRmUt6WOYdjR0x1fZ08~T
zD(1l1x4B#;@=E5+^lC6oO`0kFi8jP9>}eku<mXPgV<oqzhHu-HQ8bc!4~`uW&!iXv
zhr2Xd1~}C~&nI5F0vurM`bqh#<pA>LvTD);*HAmF_TFRQGy?q%DghPMzc?LiKMNyc
zck00d8<A=(Z!9g8QUNa9vo<4)8zN+ehx}JdzMy2KqiY#1Dm<2rSbg#j_6ykpJ_SqQ
zHd}O`Qu$&xgOj(aUkAKI2=_0TT*E(q1Ob#ZNW!A{>eV`ESkR|Ra|0uK&0bFyDFW0T
z1-c*ClMO}SK<Wb^8ygRA6F5xHycSTq8S*$?$XT&wNPl45kYh`KWX(gpRxex>-}xej
zc7c6{X)kq~uZq!*#uM!Il$v2OY%th0kbNC1p3!>%0h?v>5CPn@3omcn%CHAmUV4g;
z*8f-vaTJZbmgI6J0=z+#mp7+_1-iFJBrgI4`sZLF6(I&|Z0zR#zP`4WChW!>aP{XW
zun(W=Jx1*^UWFunY|0k-4IAj8UFBbuUd5e;{W(<^&)&FhhVhMtlm;QIK!Sn`gDHY%
zY!^syP}QiS&cxN9`QtwhUg{Jwt^VD-pvy5>@oT$x8SbP`iq*FVu2y&_5hdjy@ac^L
z7qsp73JL%PyX@*F+XMW7FNPmsyBpp*dAQx;du9jnw>+TcuyJt<fov8e@s#0V<<tYj
zb2!>B%(}mRwFOZ1RVv5XOe{0FBSVHx@1UUb@-Pr&?7s;B857uzy;_~1d3q5LheeC-
z<s$4AJIdPZ?_Tog#q&_Pby=5*H=ow|s4qGg7j)Hwl9ocK>4$YC@}jnFLZ(CENM5<*
zZjhR8Laq7FgQO0KAUH1nUnb+}m-X!B&5#*z&jf@c8u3>`bPF&LzkpKKye}#r)Rz4p
zHE;Xrg0euXT@7v^fh6Fx_zkGqAMx9PTTqN`g8*d|7Eb^6?Hf^5EVw!kK>nHeWRN;0
zaUBKB`~3%3fEyqtCf1DiM2~8NaVC2rsi3MnUa`HEfyok61gc-WYgt=cLEfg=<Lu@?
zo~CIenq^~w*eYGMzLY-;e~=P2VA`w-xE&J;H6i7UkIa9WZC32iHi=`9H27c$H9>cG
zcjM`(sIcn>7Px`NYj8UT_rt~Xcevyz2p<Y?t9tL(^doM=f#qx5t9IDD$3g42&y8@c
z1)MMGaLxBDxB2-THf>+**N%a^3uLHK>1(B^pGcaKJ;7q~-+y{c0kjP-A}j7G8%Ml@
z1mX1QXgP30i5&a3w^!79%EwPK(WekWeABms{lV&n{EM1U>leTTq_F9AgIgCUs;Mc=
zdZeCZl+*yRE>3PK*i)p9tu3=UeZ7uAakUo*zSdko&JJ$nK{Giy`BGWA;#l|{K|%8g
z>w6wxe6G-b4tNbKkVPvoA7K9k_PW;yw!zj^>y->sabqFX-n-)rd}>Mb1WJmb_AZYw
z5ibfgd`O^kzRNoGF__{XNB(YJ(mhnH4lqXhccCRkECpSE!@lBzF2o#oeZxL{m;$+b
z_xq>4srBvcZS&f>3!r{W1Gdono9!2h%E}uJD}i6FY9~sf?SID9J1(HaWn{2|8=c6i
zpNgbggDqbKaw-HEd5ifF#pUjDdkXjxQ@g*+7%?)L+!H_l#8e>fGCOlfU>DZ%u}@$r
zm_w3ia)tvb3(Yg{PLJA2n&}fMDawYAkSbT8G1|~S+sR0!`;dd5Aq#zh7@rfN)Z#E|
zJ_gcS0veiw({;dFT~bT<KMIxzxH|s3;EWoVlY_5bf$IxOUY?z@57^!seO!f1&}^Y}
zTGhU;og19y==ZezKYYD)TvcngJ-*p=hcwcHut^E&6hR4LONdH`2qGXMAuT0kfg&9O
z+l`b(N-3a#gltMcK&2%FNr~@Vp7*`?z4v!Nzd!VNJe;-HUh8?DIp>&Tj5%&Y!B}6v
zQ@`5kVh|ma+S=NB!hN`cN<rXW(t96&F7BcCEc~j<M5<@(;rwj1T<N74wp9AW6zx07
zS9bB7hUu{E8oS9vK-h^@!QMXC1-qjK+`3633hnf5JqeIP!a_A(LTBsI>OL@Ux!JrO
zRgei;Bf`1bV~RqXudD)v{^wZDL*(EBWp6g1DHd~S#%dcWqh*WN2A}8MTv}6m^86~e
zzBCu8=CDDs!lIrt6oK2@3q}ZYK&Vp!ED@CUv-t^<0<y9Xfos%PXu!sK(%rJm@!;Uk
z3PQ4mp#Ktt@nFF44o+*UH}l|b0a=4zWr+XM7jyCb0k%u|FR~vJ8U4GvlGJ*pDi|B(
z)Ao?E`kf^Y?Q@cDf!0=HO`d!4yN9DEaFdE=OBejpiS<Nibd2<bDr-6)rSv3dA0XdY
zCuvJ<HUF17(FUs1IxEgDqy<X{B^tt44^;^TgpjCutwXE^sEh~_D|Vsm2k+rFISSwo
z$x#)VLj45+L>Bi~`ji8zHZT}?duvM=gLjwb_-~<{rT8Q7eM9ZI$#0)#qXkW03cxwz
z?Bvv2Y|M*z7eFfa4z#c}01u)Np8z<#?6+5^RCj(noK{|j5@82e^9cX{W*v9kxU~(@
zztu+K>n<9LjJQkp%7>TS)q_&RI2C5jy;PcOFr!jX^?OZx)yST&1FcFfcN%S+`coVq
z`p~DSzdW2}`%%k-%h$2IaZ6sGyldH6^n5Ko>;0zqv5wyJ&w?nyIepxYaUtKQxbi2f
z9k=w+YSsYaGi26c!A*JdoLW1uE+9Kmf?WPnrjif4lK0b|YdT8TCK}XO6QU6q1{Mbo
z*nmK?4IUrX%_kxKMhU5_(t}V}T>Sa4H-JLRxepZnQ1C~Z0;M|mSB=Bkm0~@fz$oCZ
zt^u}P5q22*xbHX!Q57bFW&g^%Z-5jc=wNT%7(^s$k~Ke=?vA#;fA7`Ga-rG~r2Jp^
zM4SiFX|7f4y@RFDSemZ2eF)0kYn)f=mnG~+j}ds=Ma-!7`OQ-Dsl8;&{J57<L3~;w
z8p?E;H`8sYbkG-w4z<P?596SO&~jE%8l%e8A}x7@b_~BJ!V`s|hD|qt>}>qo{wA@e
zLe1lL{L(os&x^m{CQXeAS-TW=3d8MRfP+r4S$T8#x;UGV{+TnAWp&Hn;Lyv1G#UJR
zz!70uW(Pm|74l=Ke-M)wKzKp!5&-$M)tiezC52NqReKte`dM>bLM(46a?I<M+q?x5
zqEqDtm=z$N9b#KIjD*X-IcRTppEol(dup7)4JTlKsJk({%b05OeOseg2va)aZB_T>
zw3$Q3?R$<D&G{Rd$+^qphtBRpUBhn};WXe*^6Sn~e7!gEGxr-{M3Bv1*2qVjcouy2
zBhtnS+9gUlPy7!(TI<jDn8BlW)i&9|AL1COqz$Cr5?r*3q3XU5e@p?$%e2Ho0uI<V
zI44|TH7JaE5u+fB&I1#mF`%C#S}REY*5Sl^3D{Q7D=^E!%K|bDyUEI{nUrT})cxez
znrafa`3>0c^1!-;%D%tG#|7k4&7jf!UbTLQuab==%6mxA_gVj+9FvIS;m1vkPYA94
zP&mm)o;pIZ%H7NM!S`ip3`TL;i`0vmC5|bz1do7oj9%Gf7VImdxsk^2h&Xfzo~)8q
zXFwOU19k-=yG?%(vyGj#X{ZJ4szxDfIQ^dMQw1*rsK?N~AU0Iro+K7F&h7$F6W1@V
zL_sf&0Uwcso-dHH52Rj*zyZ3p4mo9@RU_c|kpdwNpiftbq31mZMk+{v_nGNJS`>&0
zidEorD$mx#Jd<d>oAOUspGdn3%P9!q{Ct0l`TjIrn!E1H!cF9r!g)`FGDnfteMs(&
zD`z8nzh{$TUDh+*Pt|RjMXlPnvVOX`+(oPBi@v>nlArwqME7Q;i8gTQVcB?2DtQyL
z>Awp$h0a~eS;I(kAd#e+Twc2^3+E8ItXt2Zo|=(i0N+34>mss7k>D)qR~L4$p0l@}
zbNG9{2I9EzDuzMcjUXayn1)z4%=Z<Lqtc7)UtdC87a)o$mDjJu8*?p~_$u}TyxI$9
zJMgNo4sRJbsLU0qmDsfRZ5R4i+hgSRp7D>ajGcS<$>^$s=Qni*=g&$GN-Y+P7M8Z8
zv}F<Q!beyIt5bMb+X}4fyyXPY)?x>LY!8QQtv0{k4X<s?;bl3!H{WlWxj^TP;=<&O
zPn(aN$|H-%*CS_m>KVO(gkVxHnq4dUwCnZ8GQwC_G8*<KsPL*m7>=(Mg`JxT5L+!s
zkVa~Jjzfn-P*|8O96VuCp)hy=P%M(FdwWkO9tXb!EqE*mEX3maG1@FYiTYiHU-ihn
zqUB64m7eUIcRF5;e&s1Yg#J!u)PFVj^k0p{9ojOEpH1o_AH2Qmh3Az$f0WqXRA0@x
z$KY!u`1OOAx08}zuOAbaoMy?D#y@}G4$0@giGr@)KzuN10NcRhqh?dh%{azYozy4F
zei-mtnSzr}2+~tPksVI5m6uQV^!<i?$_y}^e!m>6#HIJ(TjPlYR<I;W9``5)7ZccG
zihPUmA5Cyt%k+~i0-cx8#Nh{a4PTzWd9oPlZ!{!5;ri%XZlM>!pPVIp;ST;&(3ekd
z8r?Wq1<k*rgQGEgHn#muMiyp%|2*G?03;rGzeEoeyvRd+DX9HAPWIjmo1qgiSZdz*
z0bD4ep-V9G{pQY&N47R#H>+H*pXs2jR0tyR2DgL@{~-pzzv33q+#`KXW|0@8aiHP2
zv(wb78Is$0;<fk-PXoIX_YxOzfwh(O(K(|$e4A*4a5+9k_OriiS#S<hjV6k2<5IZD
zZ^_FygeMg-6fAUBQHwY~HWnotmkBvrk~GbK5}3Irg(f{5`324ev_Ji-0tV&BasH2J
zxGKO3SLNrX9x-SWm|3WFxYdKxJR5dmK=O2>-$>yGWU%*ha*V+_sjsik!_?N`K~|Qv
z$?QDf+k9eTCApo}pawf*WaPa0bA*OdE)FVpu)%8qM0^LLon@uN>9et{@~Paz@l>iI
zZuS1SB>nsJ3Nuyc!u_+!nk)>~hW5vVpX5?%OPr=XI(Ibo7U#wyyS=*)FJ`c6;?u#D
zCQmf4ICaET!lWk4ZUy7OqjKcT!p<iXd!iD;$J<_np~sW9WcMec-Zlw5yaOVqO0Ywb
zTjph=ya4wYV6Fg%X%v@DhyuYcE0!lH4vM_&`g&D4qwkPweXC#Z{tmenv~Xp>A%Q1g
zGQyjC3+&QbW90n0%5597p$NGPA`)Sv^!Ly+y%QHVi7zR0m}-f(3f-B8;F@2{MG|b~
zG~x^-^JrxWsl}~v)+SRH&r5!5<oNfeWiTjnGZ~Ef5L!{ko&hh41Q@S<dH-JqKpLO?
zC%#artZJAo71N6x4V6b%v&ctX6A}$L<0ND6`8mo{KB=Z!{TSj~h(7`=2&#se5tkh2
zmMBU%hHpdJ!SXyIIe7*!-XG9(lG<WR{EMB84^3*rIaH%y#2SGY-v`|C$OmKWGsTsB
z-8`adD*1S8PqWEqQoSE~uG2}MB*fjA*Ay$B&dIIqD&*=HE#8{P+13;Y^yy4yF?HwV
zc?9I3+X`OfOBSu>XvO6NG!Bbj|CdDXJJ*BrW<zy(xX`&&Cn*etGr742wx6oa>_+IB
zV<~{;1ELO%CK2I>ci>+h*MiZA;S-rcrb_^kv@}CM2#hKaDWS3Y&M~lR5q|@f-DdFS
zhzpBHCT>c9f&3)RHYZE)F0=g4^mns3fn3xf5zl-1^=FYCmjpjP{;A2@O00Vk$7K}z
zq^VY5RFMtcQz%{in@))Qv5bk(OU=|?JaOi)iqhoW5R}!$jvfJ$4{*9*lZLTuLxN3>
zNzT?L&BdMJeYjV)8XvWtxehNn#p{@JteQ=I*x|o#!V|W4L(a$%9yS6#KD(Apk`J`B
zHR!$Wf-MmOZK#&rjf=x!-`%6u@Ctl?;r*FOo5{?68EQQ1sj#NNic;l<>lPQ?j-|G)
zG}*_y2xg&QL=0uV;ijp-`^T2F$&2c?feMz=Zds?m;|ljheKnKDY|GrTUkiKcZLYTM
zMnBz~#;Z?oVnmMXTtqMx#?|C}$-Qzkxd~f4KQ1zsb5)H+QZ+m2+P#m-wV!TOvkx!Z
zPXtW5jrl(zABxq{t{hzw>V}>V1&s}9KBwH(CRh^lH})a^LZp5+l*FWEN15%pY>4AC
zbIj$%Y!i+&7PmZR<}%QA=E-^*U?<9*dgn*xD|s>z(IH31=w_jWex++z)vHc^Up74m
zB7LW;?i6hwc73eAVw!s87-nuJ*{0i(k{=)m9nB8%!F)H35W}hd$5&x>zhtKKKCjQv
z5g#;{a_3qLAq&Son1lO6;_|DSEI&VKh@G!Fty|XS2$nuqzavgxyar$^xXK!a!S8#L
z!V9k{ZQVq6E#FtQQOYs8*3h^vf4j*E@Y$BN*y&FXbwA$S-p$u-ku|rtO(4b^%h{<f
z>&5$2VA-W>QCE$Ai63h(@u|2bDcx?#bM9lAsB_5aS31t2Lf_LFi?})q$)ZK*Yan2v
zKO5TN`}fRoANnM4p<Xe;R^$_wH16+SFOHpXv_4{{*}*?BJeWrpO;n^qRbGzj#P*D+
z3I(j3=3z3A8gZWii022Oaej57kT8t}EtdY6t?MLb1JG0oUI1cV1*P6R)Jqp^L*&zo
zPFx!l2mhuPr1J{6&=Wb=2j!y}Hzt+rKl!dWs||fB?d!xg<Tm1YXO$ORr^lH=8zekC
z(_oUkPJaIS1|zPeI6?IJ{nSK~Je?h6ePE~8u=5|2BF?qF$ZLAp)X3*2xA&zi;Cj(1
z+_hStbF*Ac3LfVelc|o4h}P2w9Q}|d{Z5p#=b}*|ZNu!^y)*x=8;y9FQng%f^G(mr
zvZ)>eGfHeA6lSOO^j-q+4zz+!$XWFQ0u+&46pB*Bd@hkoAsJX5JGG_x!XHS5^K={5
zpEB|OGHTyw#vSK$vum&uq4*Lxxvdl(_V-3vel~r)ZFd=cA|Y>+fB2@X>TB(d-9sD;
z{-hZ$sQUNo*zZ@XuPD=>rX9R*;)K`x#n=B@eg6&>FVp`PM5W#@)-(m=-8T3a>5UsV
zQpW@!?SzMoavQ+60!I8qHSmShsG!@6BbvN+B_}3`%>(Nm>_$xIc4+MpSNB>DQl}Ok
z8h_tctL}+^@Y|oi!?+CM3%PCLnUVrGNhKGlLgKsVA4EAV^yN*3Ik!iu({ga+Ir6d7
z%2(4Ftz>k+ynR3X3H$Kb+>hXg!Ny9X3)lV^)#3aWr3Li39l^~YoJxEAUx=JX)qr0X
z7|oeo0n=7(lL*a}cYs8nF)$$JJ8|MZcv_nMzL#I*{oA=Dww7!ExLbgd#wKxpgeO*X
zqZ3PddIinOxmb=mkVz+Hh$oz3Y8m>W41Tv_opG;}7dZEiuPV4DGR4M*8=F|qWReqF
z6$cghUeQ<3DRXry2sO_ZOl@iPidYRe8aBOFomS1+^A+et;u%tm%++>7qvQ<KR?u-z
z?L3)Y1m%VnA~pkWwh~++oI>^WbUI*yl?*O^t8fn1iLVS-3PQW!_s^03ci93sr@Vs>
zw}SZN^>^?i44%)oOf@Rx%vR@Vt@K`AqmuJU9}=O_jzI4EG2C^Oh^r2GPDE&*%a1g4
zNu1`yB#fM~`j&R%Xsqx__D#yYKyJA>lY*gWI@Ftp4La$hNXgRN1l~{{#_iqBB?GV?
zB~rY#DGqx`0g7ZvXDN99sUIP<bfk*aOh38|wpjddPDllGRNUI~KpZFGf9nMQgH8ZE
zgTGi}Ke-dd<i(3Aoxg|4lc}QfB|ng!5e(0W2qPXBc}rFc_nH3<dAgtcSO-QAj^S@*
zyjyG{o2;%pQ1rU@fE+zy=5*28Z05YM$%N%e)(w-n$Pk7@OqBTPLL-Sn>B0rcNgfL7
z_1$(R`Cb5*OKK_MU>if~2Pj=7>sPhG{Z7-#>1k)}*@wb?P)|WEC2lJnnaZ8&qd{sO
zJmq7?7(4vn=Gr;+RhCtrRaHC=N47^jOhZHNp+i~#UsexRtQq}HK4KO*<z#&GZ{y+(
zpNQAhWRElJ+NV*;!#x*phCg0>4)4Ui<~(BZI^B(JT!c+IltLWc;CtySgZb)5tu}Rp
zj)SL#4CBw%%5fo~!r{l%;W(TK^k1GR-f)QKI*!jPz=`xKJBCWH$}oH%?ca;39og5I
ztf+KHdA<D=s+=9G&#Jwh1I-Vw=>&&yXZr$ayB}$vZ%DjRqm&P5zhP!!8hYQ+$&`I)
zgf4h$M%5mdSZLUU-B{8k^qBF+$=Xcl2uZT2k>hBlj}eB2Je-M2O-77O6r+~1aMTU0
z??T}QqbRPz)<ys@*et4Lhu~C|z(UHbHEC)Vzeh<B{4^V`vU*WRgqtNGh<LltHBcN+
zp6kPXoKl+-`x<$Nc`uk3Z|W6SaE;xFCx3iJ`TDKn6==|ybW=bi){DqGJ*bCeS5;no
zwZx6H!-iN98~TZamU3S;?B*;$du4~JKW20-#re*7oJ*>uV5!tUS)@Zxj&zcAUQe0x
zEr5UA6@bH#tweKlE~vBeKlnip$>QC<$>Ayb&rUknarCxT6>lH$qN(6Q|CT*BlGEZr
z1WgDN?(!pm2_cP;U~rxSHku4Lb7cp7qXZ{GgNch2^!j3hArvewO373LN*7+$aBSyB
zIcn(JUpUDXttE2AE&S5#<o(o^$<O;u*Uv3}TMg!3vT51r%ooB;ZW3(RYe>3{Z)-5w
ze>{^m{5c>lC4M1jtM=Eaqa^9<<N@!lUX5-KWJSJA?&`vegE5~TEZF&a)c?{=mvhxl
zV8yUaZ%u^Ff~pqUO!1`DtQB_6k&z*gNkijr&8Xz`<Q*NgH7oKibW7)(jJh%^2@?)u
z&s>k99Qilb>Bs1-VmiX{cNqjs%&Qi4fS3kWtP+Ta1o$l@R<}qe1=^|EfB|D%AL2M3
zO)42&&`UM--BgYCqb*1p^0In)|LDqk=H@M$G`r^sg+C&clv7IQ)ny$-_iix{XPs|p
z)1bX1gQ0lc?D~B@d_t5)N4{+A4bnJoIfMXqeWC$K=T`xvKml!Y!H%C_?)sM$ux$?A
z-?;D?zK62GfQa%!<@KY{=0=Biu0{8suU^DUQ_EL;#X4quX*z;aWW!xL0`KX<c-awZ
zHpyeqyH6Fn0H#USDDZtmdeIQWnV?}II!z&vYi6NUBr}{`+ZOnlWbTx`*T)f6J0gs<
z`Ikd(wt!L1Fxm4haw=&FWtW}m(@mmz^a?^b9_%06`vG;+Olj5EZ}3cjI)->}^@6P~
z-UCWB67F)zjbtfifiuo1f8tK;ckvaS(|0@ao|aMRMVL$qLoV(hI0uQ0jbGh4B#(w8
z`6V9(sWeb%mK*+f3_id3E{;(UUv?uuxL)GJ567A&(<YYyI)NwHf;#nS`;f$y4D&!4
z?8v!(Q6(mS`BgdwTaF~A=AYm%IFlF4^9{P!Gv5-Vu7LaM@0E$1loV#3pt(G}2RMC`
zumsK=>zKVfX)#Gpu<Z$;itQAQeNc-@3qQ=wCZXonaYo8Sa14>`1cJ!bvFa1B)XfPP
ztcQ@=^ck|+Z^|#CbM_MB1FtL0sI}V1vn-Z%`<nfFmenLlWtw5&piP>K^ls*U&-Z)i
zxo2sFsjt+p(*bWRr1=FLoxi$dd;WU3W1ax!1T72i)k&?|n@g7}+<_zm#wBcEXAQ=u
z)l)HC!2`OC6l)R8cKBZn91D~)(_gtIlOFKido+DuPQh4>AN3PZQ_D(AOLORSbaYhm
zTSyrVftHO$$!mnKL5<4z6!Ynd*m@23=pz^2schH#ln<|H`>f+mf!AR9aAl7#Tj3h5
z*y_`d@B4+1?4;|eS<jB_1$PtqKlvni_LB0deyIBFqB7B;lqd1#?ML{$rNQ3w^24-*
z+k1D{sZUa0<c@q(zUp7DFxZUVqfB3(nmE>+JU-JH_AveZXivP|A9q)<iAHLsj~@$T
z1Lch#uJJ>XMha^@i9<F9V8~T?UuZY>W#Aov$1&pI_;%~7V{1GM!VFZu{v0P@VfHEJ
zkYl|HEtMBzzS+V<*e@yWY=}wh7T57(qZzvMpC)gdZbOn`#owT<v73KUtF&`LlF(T`
zdo!zS@#uJPitM5CsoS=kUN4r;p4<P<e0((XJ*)XIsRdUowri1a=QeiXTfo57yRn)O
z6+dsEXT<dkjLnaYGQ6MPyw2(5(!V~b^{qSG*)O{1r^<}al@{Y@pOXjf%`e1?ZO)E$
zD;fs2cII3bEDdhhU60%;+E35FrtH$K@@{^+|HtVcjKDqRIh>D3US{GW^fl8hW|YqU
zTzJ`<ETJm4;&S@t%{Muhn9^*5=7kXdX2@$k0R3_9b0KwZnL*XpATh-77`7`v&>ZPC
z_U-{i`bGR@acI-DLjnPZT@TdMw$g`CU3)E$L62s*nUu{+6FS#vvM%RdA4KwJMiG@p
z@P@NRgkggQ%;?q0WAgR&Qsm-IlIHPzI`{A%LwAOUEy1QNLBiPB*#8;VwEO?f{1My$
zyJvX9pGz)CiL)B)a7poz8`3|KUJ<vTs|zo3MGO_exVUIscwxDWniuaE#KrwKA$cF8
zvTGukP@EY`+!h;UGVvj@wnmG1ZlvFt>+!WwQgch2J@%`0W;c&KJNM*VnA=>E?;0Iz
za=T0D*F@2tD4WZ%gKaDL*U4XX+X-KE8pD2z)#q;cgw^i#26y?V_sNe735f$Eww88f
zW+mrM+v?`amiwg~;z&$DtW)4{fwG={|IZc}k0?RFP(%Ea!7=R@;Jtkn_NUZ$=L8Y|
zjR7N8!0v(Jg|Ktvu9{e~Lvm@3m@NW0OuT@WcK!U+n|BMIIC3HPuk}x$Gu>Nc#08HW
z>s|+Dr?OBhflc@sa9(->oB(1nn$;OS#_S&`7m=eaE<CFYHg}bu62FYlOWe9ZbUUKb
z<atSp1Ew%4mZ9Y?Lgjl5e%H(;q^Ur3?JLj&`@*Er5NI-kN2=JHF^9?k7L&D`8WDK;
zSDgVX)oIMo&jI^Nw~C~sbN!Nn3=i@4yS*g-ChV3MY2`>H+m^Wd83{Ol_KfGKGLnT@
z5>3kPU^9(v>!zG0wR4Le#nPQM6kx#f;2QSS29YW`fow^Y*06eM(-QBL%e8>ciP67x
zF6JI9(dsRHOvj&#jEOm7z`8QbR(+zfTzwlXV4-5*;tAchM*!v?0U`$^sVxu4_TwOw
z+vfZ=IENt%U=-HnH)MUGLLKaF0n;+ByY=c{q|i&Rt~P5N{GzWKMVx8j8_U830`)&X
zWy|W<^r5_X56}JW4mL`qG0#ndR%`r2Bxh}RC!g6#FD`(}$L-`+S@1>k9(G4DBJ$m7
zyi?cfq8W(Z*$z>LA$)y+H-$JjI7mAIWR3Xf^dRpou{roEP~xU$ZO8}nbl*vHbY|Le
z8!M&f#o%v|`n^>l3Qpt<c9er8rJZ!~JYm)EZMf^g(b;a?Cn;2ezuRYxh+XwVt<J05
z_~h?)xoVhu1avh|HQR>Q$0=>XN}k37e}4%scZ_n99WD`mQq#1)-qH6nT3&ThrL9Eu
z22(2VgtK8sCjhH;71FTJ(E0}GGV7nHsaDQ&dgJHFL&#YW_ib>+*7$j|&Y*7uvA2ie
z8?f}Cujw+`6oEo4vVqK1IeZex^3IUV0Rf#j9L~`<o)g^=dM>_IzK4-8JB2WGP>Qjf
zv@0l<+KZ|bW8s`yA|#gKLF`M_J^o{lsrcPkfu*}Q4fcdHK+FCf!{uRzP;LNU1skIq
z;N9B~CK{jV`7lFtW){Z&b`6!!pPY!`<Ssw6nbdymqMBL7%&tJ^ORVcT7wrDWMmgao
zhnTQ2x|;H4OoyUJyN%hsuD+uCDJw)hlx8<g@%@YBnoyH)6MBA%A02qzAc0{pZ?|kf
zrOqGIq4k4UhzvP^wl&f(y<qLf0{uue5YX5I6-4!LZ(ZE7A{;Ta@-vNQ5D)=`OaJUy
zd*HqPtJ5O`ZvB$dZrq@CK!`;iZ#M?Ld54@ZJ2ysw4gpPCdSLB&UsMOq1Dv$618#n!
zM%pP_$_pP?{<H;q68figSv1@+3zWZZHOaH6WHRKZuMYXO*n-15*oko?gD#M+7!2S5
zZ`ydUwY2c-k9rwA$uWsF(<LyPv6{HwUkd(}B8VQ4m*O3!tl_e6*Nq#cFghf;oT&e_
zmdC6Yf5eLvLovv5_4JhK<H9Bpt3UY~NmNIZyp)T_EobW|n9L^UpJtp~CY6-=x+SxD
zEuq7~Euq87`@%^BGRh<J!yp@C2McacPY4SO#~@HKIZr@1m{;BdWd#t@pTLj`!0(;G
z`Vo3z)xJUqt`mj;YbV`50Jif1T$g|h4oD&E^OvJb&o5VXOBvU4Z>Yo%E+SUi|2Voe
zIZDuDBa?9VR}XYpu7)s~*FVd5-Nwa!<jq}<?J3`$f~J{{x%F{OKD0bZ3-<1yd{Ns9
z70qe9;T_*3IHT6&W!>HA{a?kt-NK)y=ZR`JQQJffXh;pD*~mU>%|o9r#hzwb@<>)=
zN|g!j8unLMJ%YJMvdXr=x#Xo@25R?ni!tmE8MHhA)Eo<5|5OiEJ*s|V@G>&-0i4M1
zZEpvFp)kAwI<N^p4s%5KAV>FAvHUBHe`b>UVQy~Dp%Xz@pdW2@|6NcDa5NCx$<DQ5
zOFy=t1%l|^KbQWI#MC>IFe15<#T)w!?$K1gKW_ZI+RJoU!Rc4MAH!sM-##qMM$JC1
z^*>S5^iKFl)q?VcIs7GedPi&8-BL;{2K=(z2rdbEFUpVPlYPcs)S@>Te(SD|i8DR>
zM6EIZ0SFNa3wPxuUNjdrxiGV8PDC!~Z{<~f?Z3^<Jz&&*5fdGOi(n?pxiodD?kvUB
zAh0djWv>`E2ZK9yuOFg{VBqDot*8fM%V5xUAPKX1pCOc)Zd$TdAODw5W=L|Va<I&L
zvE&MA6b_4(yF8G{U2yZ>mVfp_{A6@uh4dBcn;dlu1CFgVKJ{S89W^qphGrEANSR$n
zd~NSaFy^N#Cu49SWU2PQm7`zh?#;<DxYjpPn`7LVO;lgSQzdVl5H>M(4%H?toFUdT
zQ0ybceY=w^UQC@ixc@FKiotmh-~mL#5zS@;lp-2P^qvBH_tmwb?xjrt&P#u=La~Fh
zh!D}6F@=sz5+@6*l(&;UP`8G@Hyk;B&IvX<>H0t8fuN@F1RwMc-_VRtZD1rf50tLg
zJX9AhKg-)MwQn31J@cFQYUCDaV3ix^p?rqYQ&*iuWdm{6-OYK^-DGWo2^j7v%E(7E
zoa01MW5?UuzctL<r_UndAyOxO111NY7*>lbdAK0#g<Ln4Pn#8490OS%^^cQSw3%N5
zJrVl9-O#zdUABnuV}Zk&@~8PFfDnhzklX)16e#O^adL=shTrGkED4e*A6&+Ev?fJb
z`H2#Nb1c8ZaLThvIPzLvSI$yx{6NklhEUV&o&>j@8iA;C=lt5KaVWMQ(UxYKhDCGQ
zNqtJQC8a5u)6&bQdRSM$bsU5?h7ZBO02<z)NZ~(zyx8(AJp^9!9`b3NnDKwplD&YD
z@K=H|b)Mz|b0u*#4NDZ7<(}K+%2PAM^u&kSq<Lhh46HLGlF%c(O#e!cWv}5##iQ!i
zJx+N+?Hih;dEMlL-){3UYZ?&d0))-TQq~t82ozz!52dE3e+;%3+9bGe{mUP_yRU4x
zndi>^(``$D0+T)*-Z)a1BfSY^`bxTj=Q%Jp1Cq20^wVKSE0~Y`ZYnH@G<L-H<;OH-
z;Ow)-&YYrkAaOgkG;j9uLlN9mlNX&Ie_&ghCs{oav$4}=jXdu8*V}D-Z#Ai+H}ZlV
zNbn5<4rWiq7*i>Q{*j!K@aK@^HyrF<`x>+;LC33Z2&079Wt=F0)g!re17VL!RE>Rm
z(RBjk06~Z?I+R);y1RvigrcEH1ToPk1djvCP{^+Wg1GX+jb(4g2B`&6AL5ClU!(9G
zDok@L8K8i36S1{Eu0#8ZCG}EWXIkTtv;+*whSElhG*42q_0EGmzkFz~9Vk~Lc$Llu
zc8cT?GM)xv5aLROs6P>+<3ytd7z9gfRf2J6pWpZr0q!z#39zh@I)5q955n*oS-Yn2
z_yczNhh)BF;<)0j5}X&q!YRT-$MLlC+a!5W3_|Nb6Cg<6G9i8IPn2ZB(qh}TqJ>i}
z-jYInH;MkZ&l-g^<)Ro!J2Dylc7MAH2qqlI_vC2gAk!6~gm17Lf%qOU^TZ`!F3&sZ
zgkUgGcny6cPlRdUhp%0`dn@G*cN&qZN0&djN69b<>Esiwj_cIC)^=XbCbmI;+q+fk
zOLYt1=qP?IZuZi*zn|5z1s^s5GdozNY^;i|%Nw2Qmn-KIs{c*iOFMUmGmMka=tX+l
zq&NZ$FSN(WY0Cay_a0pL*-u<;beNLFEtUYb9J0Jk^bzcdvO8^i$2C>V=r^XD${SRm
zrw89hBv!^n=PgjX5k#NOHuyf|OuaxwLjfP~9iS2&@S3$@mq0B)4X)HbfV=nmazQkg
zm`TWtOoRx5`we}^l_g>_(1Do{wqjK<p_cqQv_MtH=AXjlM_$8Pw`yql@o)VKuQG_h
zw&nSKmv40q5p&E)2)=a*9w*eXy3XBkwGftefUd|63R&R)+Cw6C6nw~$$x(o~ILJKN
zh9nOeKLyZ}!`}9<1NSN~#RSYxWp<XRTJ$z)4oO}ETJjWW9w)J_AhLp8yt5cQ=9@-w
zA9^n3vi7!X6n_C##7IPN@r76?g3ub~Fw+KkoshKD=zgN6rgj8E=GcvP?nGXVY^WVp
zfej;T-$D|!`E$PfB$e?SqEiuO1i^_rxC0;7iKFTy0}|!3t3<u;6=GSm33l*llIPG{
z`L$mof@*&Wvn<Oje`F#|_i`UG;bj5DFpl%=P?n9~#)75r_!Okp?@O@jpfU|yEUmJH
z=2lMVt|%bvGeCG34bhvrY-*x~YioMkWEjjEg{~&sMsM?iwZ3-BU900HqaemwL0_@s
zT$Ko=)+X9JH-#%(e!8<lfJgayP1epcWcYf^3ys8xQgZtdUa~qPx4_UV=2a#X{8TAo
z3`k~(P$rPUYETm(J<V<48zNK-pa2vCjoE#?cEI*J%jvgh8oeZ?kn64V{uFZ&3-PmF
z5)3xKPEqqmM!^D$n8E!nIN5Y%@<hjzSnHcRO#*g)l%rQQ^TW<b!4bOho~EL>&ep{^
z_Mt4MN)2u;QiePq(xuZdD+k=wreLZ|E-)jIbQ2^FFs$L$=Fh1PvGS+zm&ha=xS5@o
z<IVG8li1=N-KNEDr>A+I5e7-7$4u9bIP*t&0SX?ugljQG`Gxm{=a{guYwR4I3&%W8
zTk_q__a$r?QSf8j00E&ns(24+>Vx|yVrKY2$e`D6NM#O6%zjXh0DHS;`&+`r*KVm{
zoKEAk^F7~oj`Y$M&y*~I!T^<`#2^og0GXo!w61n&q#}d60%4OY25(EFAbmxMnvl8u
zf>O30=4dp^E6)v^5aF_$9^&rD1kai0s;nyD*;+>f$|_;CWq<G!h?_<~3{P&NKG%79
zsw&@bG-5Hlp@}Y6QkplF!&!TS%s14U=GCgPX%vIj6`=Wpgee1=PyidRx60ENQItbj
zLjC6A8+Q(vICll6P$78?!lXj@7|@^l)1cMPll!~QpEg--?vD@jgV{PVkA=<k^244s
zm7ajz?Q4y|y6@ZD*~C48ypAltoRG~Yo|ieF)1lslOSJ7>4gO3^Zx+0$Mb#)fMp7RW
z6ekhIFfBB6hwn9UHMjW@Dyu*Ke?Gp%Ek34;LT}||554DHtSdkpyW*AuKAvIFr<hX7
z30|YTaU<HA3Gq=sm#zA-K5!iwIt1hZIJEz9|2DDy2E4!Fh7c8C!@6uNJWytO-2Y_2
zYja)3J&oK&<F;&$R#roUN+W}IKwcLI7D>pPBT3!Ayt)J39~sxr$AIu`0M7nn9urmN
z!A<7FGG<}7B{b#mlZ#@SI<1hP{LYuAkSDf`Ko0q@4;OXreI%bjWx)mu0^3LJ!<=2t
z?|#x1omX|A_wPciX@UY1`O$_SN29#wpwR{C6CzCq&;yaClhO11{3}gI${3510skbW
z*Wuo&`}=>iK76Ivbf0(){F9DnT{)K$SS9kI@<S%NS^4&zhJ{WKZt9Vcdi{AB(!6MI
zCTzy)#j+rL$U4ETj^4P-OBqaJs9XD;k{_d6c0}tKZEBVZ-GGEA3M0E9JduOpwT$Fs
zAIuZ1V6&u?Ti+K2TG|-!_|F6ftHL@2H53{FP##~0@lFOXtB9QL=<4{L#jkf~znFLo
z-+b3xVsFfRbdDr!occ+5$u2fXDOnIEGn&kl1p*>A)hX3@42D+$Iu2m%-mtiq|0IW*
zEirGh+*2?bXElo)xRG1xNhc9S;q9G8A#gn02q*W&#Ux~6Z&l8bcA=)L9Je^gK=m>s
z{m+3f6iTW8LzQ03`L=A%Px_?Av`4nGU&r@K5L6npnf<qdJ~*}_JMG$ruF4h*XCTkr
z5=SxvSziM#xkdV`J7EzU$K{>tpT0TKnj32!!xO3$G(0^w_4sy;&3q#YS~1hxRyY3a
zobOO)!7i`rLZcdZuq^78BHHAe*nn6y)bQ<|<yY(2i^eVyq-`%0gJmWGzOKHvs6(5Y
zfcZe;##}F?d13FtgIC0<?$fv+CSpS(rr<CPq}KON#nPPsBn8%})xxo$#b?FY4$zKj
zeN=w&Wt(Hn4en0O2a?-NrBUSQ+OqY5Wpc%93FNxx#eR@fzP@>ct08uH_3itpm3M|@
zUus@^d0cM}b@AqUnB5=$+ehMTkL&3x-K2Atm|aIIesmWs41<Xe_p+>imAzH(c*)4(
zO~X#)uItzAGv@k7gd&x4j7qUX;DEZiOCc7zHjFeD`IyLZvM*enF@Fx^+Oc<<60qDx
z;!R<&v}+qQAiSHM`Cl_D4Dkzh1lL7@aIOorg8Ryc6#V6(_2XauPqn?s-9PikH}hR2
zHGTSxjN7Ald^E;`k~XUwt*h*N_E}83x2`Hp6kM#z9oam8{I`go_T2{z8?TigvBvOx
zX_mi+Id-3^z)m|Z-1$Ex`<L&H+<$hF5&W~<u3_)zHAZ+%9uMCApuoZ&rw=_1wWdc%
zG8`xKk)#df$-e$FylT&1Sq0w&M~(-ER8&qfio$TVJIfKqvN>J3vNrBN0aIeEE4r~<
z7{GMld}b3j{`Wu#)#3*+(b0^otQPJytq!6)1`fBMdF>ii<cPn~mu+?MkY;&V^Hk~y
zE5#CxpE8?dhX(0vXn5u)FAwU>(a0+r(O1UNgA&oBPZm#=it*LU5*BEt9!DtEZi|96
zt%T5%CNOG|0%k?}k_(J0{cXW21d%|t-DT#Se3`r#CY7bBxaK6JAUGcq-7&a-M839_
z#18Lie4jp;(#oYvfy9PHQgdS$QUlGD|6c_>h$16MA>Fq<cb7+vf|gby=tI10yJqM2
z@D4A_{Smj_jin3Q(R~?-LO#|wpR9D0FSmOm8%g1Z5wudH=D`ic^*iZ=k9@C6sq~f5
zX7)>(56iQ)DNd`?;#<@SaRD0a>;A+(M7(t38#Jp7_}_#99OG-Q?d4U-4&CrRO~>pS
zPE63GG7hv>74I;a#|3j?l&Xs>_iP)~k{GnN$Dq-Gm>eU%yKqthlv`tG4dfP(OMQpI
zm$Pq1Jqm!23BtijsG;7tkF)@j{d;4KQlwEj+0})C$JR4)wAz>PqPsU=cV!a~<|IuL
zuCQdjDAZc^bnCEk`+51Yv;Kg$laU{pL4CU^CBNHAaMg;Q#cJU!&G-|w8Z=JJnlUW!
z5d0}MRQ(a|%8|EP_6!S>c64sOs=On2FggcMPVgozWPyBppcR}AP>`R;#+RyiO`>3?
z?EmHY`arC_{>6)oMcX1ToL^!3(X|7~t~BK;Qtt-xKdy>fuhWlecZ<>J57eStR3bjc
z8qYvNXMo0<Po15lS!Gu*C3n`_$VQp7xruq*S)qe;NPs;Nj5+@(^!E72?sE;i^kiHJ
zV$rte_vSciMS;!w4-5N;`=e=^%%2$q4xb65)Ofv3vm#A1nrn&I=$hwGdF_Tc>d8h~
z|G4Cdc_n{U_--+iwwW>PB^nL16j3?qN-pcdxv|)T*xEc>+DuRJhky6d`6Z&Ff--~G
zCPUAr8`Pqc@x-q`r8P2|$JG~l8bb&WU~s)+E{J)~Eqz|%Wllt9DMrN4BLNea?a%zY
z5qBrrO~q6$%61t(^H`Z%C>?)Pk6GR78jPfaVZ5zHAXa#a&#=hk9w?mBCwTew>>M!H
z-Wbkq@@)FvpaCFKT>2Su8<cXcZp-=&es2{#yHa=zM#Ya~m3CDf$!X(qufQGEX}zWN
z`byrrCoQKzVPv5>9-B8fkUN0BCG1ol{m{5651{jq;i03+V`RmwIKD^Ymj*PF81ggm
z*L4ZN@LZNLbnENG;Kyun9<<jIcQO(Kd0#*}?qG$g%G2dSDmQ&!iVc&XQeXrDUK?wB
zms8qN4sXHVB+>NA?A>uY_=!E^{-y`HMYxOsnen39RVDxVP9xIMP<iLK*MD+R*>hVj
z8eNoJy`Fay<U!`6nr6U}iA$jFebv>2)hc$xdC;w6{lBa4iL1she5v5@Gu5E>>zCrK
zf-9?jj_@}LsgX4q!WCnU<%1dczmO)9TX3wen{0F&;T9iS0k1<l<;j(Z)nvDC9<RkU
zh`mF-7Cu*zt{LNoG9{w_q<^Qneg3s_$#TfdReu-Jtg^?wx-~B-r;^;b;;1awBgm7s
z*oZpA!?rh>pW$MM^upP{GY{=-f_|6ZEq|nm<omvJQ-<bZJntqu{@S(}BxzU7gb9vk
z$dG~AyfW>YI#TixR7@kAY@$&I2~_8@_RWmw@~&IIENYP?DNQMVx5H6UPC9JNYU_e0
z|FjjzJIN#vhdcyGy+HUw0`EW_$wr|xOZx<NFRWJ7Q3bl(>DTMGDvLBv5$+A~5=#V!
zA-#F|zEa$m=)==2*Vme@o4n0Fuedsf@?i{y$bU(|f6jMGC(HXZz#LL?=}HyeE~S8C
zw?+bEnObLH^rW2Q&tS~zxw3-a7rTAb4(@Q+8T*HM+)~cWB%+<!UMxP6--f>#fdfQZ
z_WBn-Z4H5lx&kwyzLR%vg&=hj#c%nW$V%KD=7zeQ!f9_=?JM;CFJsinl7H%)YA
zuPAceV<pXb7M{JJtU!rHC~KyyoC8ufe^m~f^B9cuQ=$%zqS7SFB>zb)5aJ&XOVaGP
zSz<}u3S>y|CUZo)*qzH|rFA7bRXm&wuZwnNzi?@;p>^}7a79n)`ZwHbyLTY&woU8*
z)5}d==WdL2;GTd^pjn+J0UA8*enTubbr#3#6p*3KPh7I6Kr&tkxunO|t%YaBpl`fX
zIsK2$?8~&<yDzWtwb#zvq*!8mb3D{kl`H#;rfx}MOVZ7h#d|^>FD%nwBK0ek8<G6C
zHn*3Xv?&^Wf^AZeUMcTofyi$Erbd&9;;XrhmGzNYxbg^F>{;_%v<VlM_`SY@D!dRP
z(WmMJj$C2XI9*L0EQsfg+FuzJ*CWz9bZ$G+Yqz*H%3H^!<GzsQk0B#1LESM05X~?4
zxOBxE0#L?Dr1f-k2*8YLkZ2xZVKLu53zYWBm6gMyscG6i$pLBOlLbpdy`Pk=1#2Bv
zW<@V8zqO6XIHj$a>-zI<!uNSriK}z#FF`;52?oVNe;>wI!&p1fe)VKSBYw;=wluP*
zxjf&p$#u;3D(bM&A2f8GXEsUGxfW~9_K+Z^Gu>y%Flb?vXwv!9g@5+AxywRVtk?3W
z%ux~g?ohH~jhGK%yX9{I`;ix5FlU9n9L(Wix$FUU42KV@nb}Eei~8SxCAnS@Q^X~B
zER+6=3g?X2r?g+!lkoK6Q@CsvHWUDmv#GzROBn>DQ|4vcTrW>uhBDR}#@E6y&1k3`
zKuEIJeqCW1nB~Y|DTI}FE=T<n%;RlE=AAAM4u}tgl6$FCd`jb`Q%&F;X)$QW-YAV`
zW)<L#Uf@KWM+odi6u6Mr>D^_grgt8l=$l-nWw=>+qGLjcVUV#!ip-Q-<D_NWLWwR(
zKFF$KM%;_w**9ox+Yq>`xaGcUu<@cEZ*QjDB+Q+XP2AzZIaF)}-{OQE_m}$No)4&%
zbb;8f2-Ju6B?S6`G3RMu820PeuPzum&7&4n0iDMDf|8F{6{QOF?SJG;vP%&w1cp@~
zHKSQP+jPIgUk%R?I7%gF3aAQ2fZs~&PpOW|+htTwFNZ~R6}HJhkmt~PW{}8dt|$Fx
z@^V($Et_K3>>)}<KD;&GLhWMNcNh;o4IF*+<oCN8GvGfk1-L{pwm`Q*V~R<H^A^UA
z%wn=%Glh<Z_^bR3uO@B7g{1>1)C5q7t`tgS^eRkct{I;Jhnf1_g_3%x>j6n%3P;8j
zK)+@Ua9-Kay>0z#p3!mu$&!JdfXaqR)`VWC8_f+1r@Rz_&tQUm-Z|U2IbxSa9a^sG
zvlN77(j?o+%pCKfhRmGiUD+Sp7JfKy|9A7w=j!An9w_<U!91`TM4b;M`+1FM^I_}I
zlLf8y5W6yA`aYdr{LNoUfF@PIU|}%1iUM&8^d7nZHH4u|JsQUiPo0h(>r2{De@YZ$
za{K68n!VAgST=}>4l=1W>bJnbWO(VO2hbWLok1d62o?}9Axqhd7^}QWe(!1*J$jIM
ze02|1$lQo#<5=M$GA?k-n22E(fL0Zw6K7W}@sj??nONQRX77e{0Z$RDRR1mteU9d5
z@I^LNesD+0l23K%MUSR0mQ0!r3q@;T3}nqa@wg+hP1(y0N}IllO2nL9q7ywB9ib99
zSdnq6@axUmxwN=huArnADHMw@9nQJFk$8i!6FhPB5^Oh0a6xc|>C-TKU9uCXIGrFA
zE5Vr;Zga8I1}DVxD7DScEssxaqVB@M>c@OVef)BSFcKIBE?HiSd&~QI_Irax3grTf
z(4D9`@)@;YRV*C4XISCk(~-GL`Mi$rP%+cGpeXX4p0;Idi${q4W8Cv+zg^T`k-y#}
z1jq4|ev#4%N5X)<0@KEsVQ%g-Wy4c`c9N@16&yHE@xN%hSu*(6K%pBiaW^SRqOvUI
zUzRm0x@xaR+=t!Y$mC2^Ucb22r%sTbxTdR;mlwP6!?R1TF)!*8qmUwzs;f+8uakgr
zzx2HF<)1gp-uww=2Hdk1W*X+t0drC6y-`Hhkecu9gy<mC4u4f2IYNW35#6Sb-FRN4
zsYSu996yy|<984cFu7ATb;<oF+j*j*2BxoNFr=PAV+&m=#mOEFfCvaIirR322@$Mc
zd3TR4L~LGe+skMgraE~6;`$5lA%KzYmlkfqIuVqUBa~kc{Qrap^{+@>X~pY(GAhC5
zZCueJIB`8m`#4Dc##{NfT*|tQ?2wbg1}WRB$Ks$<#z0(o*1>K9W8=PV%Y6T|8uV?M
zQa3MR&HgfL1augrk-{T;=uf_M^)psNt)UTJE$#DXx^^AdTMOj9J*iXSfnJ-k+kg0R
z{q)-1#0K?=lgH8VB>5c<B)u%al~StR5lJe)nz(b$Cpyw3EWabr{q%rp4*g#7HwhL%
zNv{K92NR=f2}?JZz93j(hi}(^5Ne8{8N#!b@i(xrs;htaAAzOF=XQt1f4Rd|R*&oc
z$%zR}<XFm$@%UV+;a<F%^2Lh#rr(pE??07aKH1RSf4*7U{d_Mth)_a);g&xHyTjD!
zmo40SZ;BXN49rhZWkEugKwwt0l28fYb_%;Q>k)YRX^-i{+oELRv(K8$&eSvJD)(#*
zFiR9H-_hrfz`giiE=e}LZh~$)OOBdH-6r2ItGhmhbKD&|DGmf2R$c81e7|krw1T^U
z|Fa{h>FJjoq{YO=K@3~r&?&)cP}6Yik!vG;_-#$u-mksV{wExZf`|CCS{}su6V*jL
zX=;?C^@$s!qrh6HY{|A|^a%3npzwcCPUWJ0FVXhgT0If<r|=m$YQ)bu@LajaFGZPF
zbTH;(m|n@Wlj>IJOXVdv@VzolIkT)PHsUr()<kAS6CBsGkOhe0sy3L?oOoi0%qk<*
zDudmEPzh5+r=Ran8r-Cc#b?kGNQKeUUC$@T4N*aPXcN@!h{cFCe?BDT)JetlvkB}r
zjYvh*Go7S~h_fk^&tH4Vw^Bi+KSKBH!tB<YQ+67pyB9x<mkJxds`%FYEMKeSUQBLa
zPBj+4M>9Osa%!n8s5dwV-!6oHM3RpgNyTaZc#JX#kHcS2hKG1HZ0{Gj#@;G%?!wcb
zqg8kRcFJH%9!EHW^+M1%0j^yjn}+y>$j5c`^n5^q9jN+d;s=p2QHF`Jlp$`iziW+q
zhFO|8fM{d&`(*;|c^<Ay1h~V<S!8&7$1B%blxx1%t6@>VCnde*OVHO(*`<-@q!IXc
zt+y?9!ftyY)j^>6Mdz4%!X9Yz?iH>Q$+)kICy0N}^Moe<b9nw*9?m}xPQ6S{ME7xA
zhn58Ygk9#F_aW<^;$0jnpG{U-7D)p>M$ZoXBI?aLUkgC&MMMcNcvltnU@;^S)Cm8k
zuP-z-{SBL8f}!u1F-qVW{w66xO>iw<ASUkcKO=_OmLvWk{b)mr7PUCBwgfK$TtX@a
z8E$Dj?P(7w6?wSO!uAEf*M4#!ruUKCnobYt=>2aT=8{?^f|}|-_MZvgm6KNR<$dm5
z=Il)6KmMtf>vK-4PpP;{W;%Ue!N7_E$uUZuoe>MO3-x!J-nP9UGarQHfkIMHH_;AU
zyb3+oV0JsG;L~J_nR2ovNOdF5%Jv~?)5D_LNuu|;`Dgb#{XZNMeQXMKJP@#>>m4Qk
z#DXjpR9pu7N%^h0N37HvdzKcO)X}{<@`3rYT3;u!>xgE!(WCZFWIJKc?(nMd_8gu4
z!m|2P*=)L#iHoY8$9E}P1UX&y=B^XiB9Bg<wv*$VhMDc!6>RLJ!&<TjJ~hR=?5hr_
zI%P=E1t%#9x#gkHd-))pitD(N9Py}Kt-O3ed;AiG<+lN|l9zw3`>OoN5vjRi{*}MC
z=h@Plak$@QCC>W@5dHf!!+!a<i{|+qXZbql*RUKW$>gK^;Z^sLBAenJlj>H_$%5J+
zsr(FnDDyw_Cmj#YPpVBScUbpZA$_KS)8^zE7=2l-GsN=Iw%<aztS@Y2yT?*dm*!-W
zz6o*G=$Y`xi$0~aloU~qw#k(#-MeUMT`d$L!fQb8L8`7Wb3A{+_e0JbxO22?KsRP6
zX+sFqzLH_x!+ZL<Pb!y%dF70e56ahf<xE?|-`RA#_#w~>XRAcVL}qC|j;|N=@_3kW
zUAyV?tAOy1Uth;^cgYXX_ek=CMaVat?G#L?%?}*Uq`o-=??hAoy^n6nmFNC~Yyp&M
z$($_oxonst5Od)2x+VYG+SqqAx0uk3Zzt=G&8yT$iH1bMfsww+LXj$0<<j*nB7CH#
zc?xf6Z@MuWtInK^r`$lV^7rOpxDd?2D@ljeaW*-*HjVk>Zz5?TuVYWEPO%6y(s4wa
zBOjxc-yE#iTb7dKdsWfaStgor!L+n<-2G9xOkq4JE>UzvdT!)iovD$_cxH#$P)K-(
zH<4xc<6Scz*lLkKamAl+wC%lX$_mdR-vg`^oAsK6mH2;n{z+IVXb|mj`5pE%3{3x_
z`yqhj*l~PE200y8Vt?=8JiniQlDkaI@CE<d(e+BjG2ESN@#R&Q`B!rP@TD$=cf5I#
z6Pamx@8!V0(%3*T)%7BqQ{PI;)Kkk;-YzT*R6b{_73ffNC(YDKI+H>bOs<okt#1Hb
z5q_O#x+v@BgZQk1jJuz=<J;0!<k(2^4s=PgPz%JS5&cbygbiKf2?&U^A~{5J=!<P-
zQ*lDZw~Y0)7QR=7=>lWVdo-+76{j<;3v(n2)l*wvtDE<AVSGXkNur_uXG?w1`1TK7
z!nfUB)PePv7oDF;wF=o<BZb=H-rJZ6Y8^S9r0cFDUfG&HT-U}KcBk@KzHa_mW{67q
z??o6B)dcbd;z$KCk!M_b{*aFZa#-3mlj`)$25$CcsZ4j%`Sf(X^<UQ9A=yRkEfh??
z?nLD}QdYkws!hFI(#(S8tfjPjnM@}z5k$=h)0By%DVsDz0=R6BQMJw6C7x)L^Xq3B
zu4j%jL|+<3N7Rz0o-;r_Kh>NdrF@{ULU8L8a)cim7SkD`@iLH9dW$Dx8<HpURU<mp
z^UYO<GufEs!deDONH@HpV6(kAsJ>z{DQZE)H2gR<(PApg<*Jx!0e#}jM2RGPeSHxx
z&T;FUIkvslD96Q|I67s1y#_9BafBsFBJAujOG?e;L*7U}=0jV?R(9l557zOGAJ2(>
zH+|b{7mRU{zk8rW6hud=RvX`uOnQD$Yu_<RB<;Xg!j98&mEB2bDjp{@rqi4h$t1Gv
z_~49==hy*<6(wBic`%`sbs%HKCU<ha-VYUIX1w|L`j*b07q-o23D-6Ex6OJ^UVWf6
z*>|jIxz}LX>0`A3o@S!pM-}5ddYiVX&ipZV8@pq9#Ak;Dx^Q~b@8`8YrQt6UD=*x!
zXe+L@UHzzP-JLW`Bt=I&A4_z4S}wu+v>68z3QLb`nQQcgAAPRMWa8~k6#gF5L5_Sm
z_L2yUjJo+3o(<yql0xFA!L2OVfmTMLs!Ik31}^Xe9q$;AUjFAkg+yF~F{eEzvx`EO
zQ^R+nIzDiRM;=GHWkSFzfWlT<MkX>Ti56<An9R&f{gFYhl&_HH6uPIvt6NNTr2gjv
z&&TtGWBpUcdC$^IFA#~;Ubtl8W_8+3U!O|ZZy^dgO+Ux$*npDQ3>T6PT>GIvlFb#q
zVzPQ_o=HpZnfUfr<9u1_3v=W_$R<l5-@);D$Hnr~^Tay2d~Y|u=zr2px+S+V>e+bu
z(j`t%%s}Z*g!<6gi8wi~?#$*C0KxIn#Ec0u&6$R?&vcy5GhG_}^6iMVbpsZbqJ{mb
z=E`W~s)^?OuKSUC%jXBbHEt=e<q=yNlF*Ea$#cn<=@F*h#Uj=`c}!HOz5V?>Gt3PT
zV(X8ViG{c73#qGw@g$_`|GnPkXT>-Fyd;eIwUfDyW$H%lM=LU|=P%-JuwaMEZS}yD
zQ>VYHtIO`%wFG#S7fj3kKJUN3+1#kT5`J06#P*KWtot4(S3LY9x8a3dZJBGKOJ18=
z`r`)=(6X{G9r{0g`t%Drz)X+9a2b62-mI!gNYJA0Wn?4(x{&myG~Kv=hr`jcEIx(J
z>Yp1r(T2&=IX`E6wz=`agRk??L*&Z@@cEA<t>bsrXW23uJSWsYOs{#DE`qpXz~T)&
z@0zs~HX!_>Q28&&7@W!l25y+j`(DK;C?J0es>Rz44WZ6XNhdZraaS+qVIC^JAsDjU
zkvMvR-7y`1CNM9l`uulHe%Gf@_aUiu57O6<zdDA?zXH=LgI<0GJOts2Lv8-z{Mtu$
zN0yDf9iOyxi_piGMb^NmAx905jF|hJgV(K?EFpiSowaSaWWo8Heo{%CTW_vbWo0gu
znD<js%-nzCTArR4eR}@cs&$^pBsh#qpFA0(^G@<A2!1MFzI-=c=Wp-eaK4h;F7YiR
z=DZC9W41<^ji~3LQ))RZj_G7E6kI*+3g(i9m;1934AW)BGU+xsbL%Z}<QahrrR57J
zN^pY}PGs2tq~?^K9y!=O_6MjbD=XtJl-oqF**Q40L@PTQ3QkK%RllyC33^hE_HwsR
zbS)BaCT)L|p0IL}-O)S`zjD!S?DBeKWTc(Ddm=z#-{<-YhHL%Az!Nt<H<!<2-u~|j
zM}E5%Jy0Dl;^X53K$MoTF+H%E0FsfF_Wp4O8IWE35?Ql<7w(BRee8FhPsAvCditXp
zq4gbAVyXHk{FklzEKL(n6wy6qGc?_+YGLmudCc;!KbiTZvN3)0uaWt$i&SDv;2QsR
zMRrH|BNuf3b$R%pN(>z9|Nc05C;Ig#Sg?Q<X`7fZKs$v@O-)VCW6W|Xcp_wrdu)8%
z{_52@*wM(y`uyME@XZCtYivo0*bi@|v9U402My~3e&xTvK2hgSPZf=3x<hi8S7UG?
z^hDdM6@Zara&mYV21>{U1qHzvhz6l8$3w|r5r{Q|l7#>MnF{ae4hL7{!&KGO?46uQ
zR8&+*$jH6{>HX5UR8a_Wilt9hw{+ZwgUIlRywV%whQZAOu|u0&ScnHV6nvHoD4Hl}
zXmr5g<i_@@eL!Gfo^g&kFpQXIM&901@c3GP2Sfu?fF-3twFwXoiLLDfQ`J70F=*wP
zTn))#cT9Bz>+gG=)0VH@Sm=%_h66~(CoRoD%_`0?)AzJq<R=Kago+Rq8W2x)z&7T_
z|Lg6|!?AwX_2GvGBFQ|Z5M{_1ktperxy+fz6iVoeGRshg&_JXKWhRk%3Wd<OOhqa}
zWQd4LgL==qz4uycuYDZv@%tU`vETj2I`&#c&-3}*_jR4ud7amJVYM`L*AzPDja1B(
zh&%sI`SRzegpD#tFq06c-#gK-?hyr_u;Je{G&HCZZ#ynj*3|UC$Wf!Gwzf70N3!WF
z{sROh`k*UA;fi%=n<R?HZQHiFjI}4N42A5??ua7JoZ1^dUT$tJsGHR-GPM2DFTt1V
z?%lhKm~mmFd<Pq*F}Zv9?%w*KfG+vxwdjROS1A_Ad6BdGFCXY#|EHG4sO~PYphF%*
z_2}xKXc!u@lMg}%7Q+<#U>r(mXm8K!FM;xej-qmUPEB4Fae^!s|M_jf!PWJf+{>fq
zP17+g&T;JpHYTInH4OC)Z!(uSY{Vj}s&--*L7r~_^wKg43LN^zLD@n!$6n?~{&{^H
z4w?J?c}5vqTCXT(3FU1=B&DOsyL76_zj^p@#m=2OqY@INy<S2;l5gXS%h~z-c{A=-
z*>$THbJJZx-{qkYVRUjDJ(<LX?`U4_Emr@1N<vGRwQPE$tm8_!mxQ6dT7|#^J9K#{
z?bh1a+4aAAb!hNFu}&*8gc)nRL_r1#?m9-sj<L2ozfPAWAsSO;wr^+CS5zclJLtQ~
z4EAd7X@SP&?fdt1_+K5qV<-(HleDN$nX9X-lP<fqm?tUW1A*Fz1Pw?dYUd{l1xp}Y
zF<tP%qo;pQ+)kJqX=V(Bk>=yS|6WCb!PzQwSh~kg+;eNdN6A{(%JD^xe3af??c&G)
zYFz|^{#tGs3I+Ph)rJF!V#dUy$r}Zva!Ct!&m~w+rHB0fMT9IZ37hQhI-`jkgHDYj
zwtHtjtvL13mZ*nPR0DQE3RN8R!}oQqAKR~Azkbp;^F`qe6e;4%E8`7(_-xkW$oMtt
zdqSQWc~3ib>}c{fmCT5YjC2VWYQkCf`trfzy0Q;Ld3m||00iZ8(3A*>i!)%VU<Kvy
z;lmUPtPus0I|P$EB>p<Z?PLibz3oV*E3RC*(trPGg3OWdtg+^$`B7P{jCeeDGJP8*
z6yC!s0bkZ0IdVimXyvL^g1BE$;c$+7`TDkCraKlKce+)@iKM#xf=lF>aI|<ux~@P>
zH+N8wE%!{w`JHp~nu)4r?#bovKHS{g4KH6>$OpA2iV;2GdS2cbM5>r>OeI`I{)8^B
z;q~hc<KyGpyL`7%8k(C|A$Ao#QpJtf2Yof^JisX*BOT`QGPknEG+<K*gGiyo6?yhD
z0bh=%T)Vaz<AM+qYaKYSANpbHv=P%5UM{Xf7B!Fa{$v`4R*o!55}_bh`1A3UcI|rj
z<_-Uz-#@qi{P{Ct5|f|%aj_lj?FIC#An^k25)P$P2K24XFNjm-btNx#`5CCU%wdxT
zQQB7jE!SkfOtp1%gg<z&2b`uS6#2b{R)-Sry80QGZlHuhtSclcN{_UA?#vmQf`S6P
z1FzwxRirc46!`wxEjo&lva(sz#*(}yoUzrO)(!*B<p1gYfV*!(9QxiO4pKsQothN@
z)_Cyq6C))J`ty4wB~3W*GA^A0m6ergco+Q$oe-JNA&xUlV{bzv<Z-f?MOE6lQ&3LM
zNb4^zuQN$W9LJ9zr`ilr1Ox?XC~s$G3co1C0@}6$ws}IHSYTPkfc%}YfZsiSK_`<p
ziHl#^+n^?xi;K%}05f}Gu)yO*SaX558kS;*<FBQI@=>vUC=vf}L1TX_r~f|a+}J2(
zw;+h8UvNi5#@fcFt)U^5OgTd(wZ3qxfI!-#&(J-VJ(}@&Q=LRHIC=7<$c&(qp4Em8
z8+25jjgF2+erp$(?xj&fsK|7&gm6g`OK4!Rq9%70J7Yh%K!)f2b=JoHBX5t~pGc0U
zI7aYgR&?qHE8*Yn5&x1=b(+JIw*O21{kH_`sloowY@E+({h#&8pQN9+^8YnA|IZ&a
z=h?u|-$i`vv&knQnUUK`@0C*dz0?SajDG?N^Q6xF*|joeY|Sk#>OvPyPVK;-)omeo
zh`VP;yyOQ{R1D`$LrugBXSd;h3y8xv1jcaRVAY==v*~ZA4|~v_h{PGx)7J;+qD2&a
z)ZCnVqoVZaJ!!l8^KkxDOE+j37~loN#e@0j3rR_lV#Zl%;B;l=<*A5s>tQjwDgd7n
z5$7Mjd^$9MD!ckEW{zC??()wL*2MxY$sg}u4+9}8lqMIiUd^5N2lhJ$v-b=V>oBnf
zUOWZ^4*P(fkohsH^9TTHZfV}Bz`BYRcxpe!DZITa52VPp*ls1T^}H)zE9aL1ffjCf
zIbNo8LeD9kx*OV0S~aN0x%5wYdK&CvqAbIKGGkKGvQ!|Nst&uc-C{{P4&PxBOi$t8
zd6Js{0}r?0yVpNId|19b&x(6M*wAtE!OV<BADQ33>V+|e$QP&k4$99!!?cQJ7z30X
zOq~7Y?pBlrWKxNgV|WZj;_(tdUZrtPi~%;})lyCj)iWWtOaR7Yy&4#3LJMH@Gj12h
zwIe4^+})wCungC#u_uzGROD~v!0#AnDUPg@suYTml@#Y?m)G8$(cZoef6N;{%79bm
zKHA@u$A>eu8ljN~zQxqw;CdH-Oc((5nyFrOM4{yLuipn}W(6|bIe5i#y{how(zmM*
z^ivp%l5H{9NAQ(xNht?}C}OOedP;FB3Im7|6c%22=FAzTkY6gi3T_c|bDrP{SEIF^
zH~RrcGT-5!XUwNjHG_L!qd*|E6@-B%2??u-_)&EbmBIP*=ks<2;EA|#|I35Xiqho&
z=Y4T9CFccS{68S;|3I(*^M?G_UzKh7zrI}mD?gfk=nap3fl3s;pP%33XU~de3rJb%
zA#Y=2Gch^2m)uP=?f^-gym#;3{kf-l_V)G^{u{|3pFQF*ENFS$*0vWf5c_HJc9HYL
zy#f*6;n*?86)VE0o-#NUC8796P~4YmVuoMkq?dO4_6m%@B**_?6%vvhi!Ro=jXHN>
zTp#DGslA<H_3G8HX*=*`P1%Ih4;)wrhzXN8W*o%A(hG7e3{Q(-LIykJ4AfMCCvc_K
z=wz}oZ&V4buiyP)X2xzR_<8`fm=_~9boc{bUtgf+=Qjw&@gZ*O<+ik<q6Cs#@W*G*
zo_&5pq{WtzeD}wX)ov*JELA7Ve$gpLt^uC9keo~x6tv7xbS}ToBCbhN9bd0MKYUcq
zX&{@IF=>;Z^Z7bAld<lO_?J%(G5^OAko^)f>>!HU#Ot1<i(uN%mjhWRV7;Ty(ePzW
zp^Nq~m7#>fza5~^y4rg(^F>>0<>BX_U%5>8|3{f*cG-)>WYhZ?3<YAjU46f?T~I}3
z1Bw@*oBY{=M4WSd;*6`Or`J2a6NwGPc<ANJY=`A|u!KwI)a+}=qP5soKh%XuRc=1M
zhj^@;f|mqYSy}T=XqxAeY8?K|d@U_4_sYxn<LtBW@kyj+<C9*{63#eiU|>+}vx<)H
zVNVYm9uode3vBE1-2n6l)J;BRuO3-le#z8y^Ei@bXMx52<bnPAJ20Jz%}F&z73poo
zy<Zeud~AA7;(L53Gg=(4+H$YB_za2W$M5x-Kq!hKo_H)Kw|0kTRUdc`vIq-(6DKqm
zm*7;YvC!Ju`taE^X1tOn%n8h)aW#s`<)ydb%z18#<~&e%N5iH?NKTFwQF$LE$OwyP
zxuk8Q#u-s)85v!gvnY0q6b(Yvgx0*Yj8n^6{Qgk@zPb7N+;$s>^K}J3k2dH_2$*Fr
zz0cyfaLZEc+8el3BEQ<7I1!J?7Tb;I^>%hPzO=N|sL!xle;$=|G0ei;kA5q&KYH{W
z-Vch=%If<@VqxLo4o8ld9k0H9do$+v@;}ccnebryh4M-|x?@2B9^!YS91B>NQ3ttn
z-&uqAv`tcyFg?RrYNq+SLw*ICTUazcdbD!y-n|(y?3qT<_|goj9I&&G0SM42je{L;
z1}ZTFQT800njO2b;YKC+r@2<h{K%@aYk6oR)oHA(tN>>6%y%>H;mvXcf@CkxqxD1O
z>C%(Mw3dmftJ2HqIt;6Nmk(-dH(~=8zUI0rYa}oKw;0Z#gqD`dKRzr+0B5P5i;L*_
zxHw3?X(*K#!U7qEueTbLD@)(LMf*GC1h=B9B9vDSc5X#~+X;Q+VDJxjZeCt8cQMhE
zov`0;)vrDD8&yuP#~VIpEv1QbkKcC&^9zk#T`UCmf<thb+pVdoxy`zAJ$7D2T)fDF
z`Y9HOtNO{%0~z-XPFt=dC!d2Dsj;`09YMSarT}{*Eu&9;=syGDNmGA6H%fygQprqo
zZKkYxzYnK@hJs&?bIgrxTA^Wo`J&6~>Ejb=A|6>+r;3tm+W?SkMOU$tCU8GoTG(L=
zklPz{1En{7RN=8{m9LL0v8(*Vn;5`_Mx-i|d|{>*hGfpLaD7k6#&6%gnU}h-;I?&Q
zVhXl{t1$Jcj;z??CswGpG8AL24Ja6Kd0e1QARA4(KEZ}o1ODlRvcP8-l9xB}F3y>C
z^udE^ZrQ%{xz7%Z=@{_{oA58fDPPmp_T~jCa1hw-1P+ewWYvZfCr<P~2zlVb51cXa
zJf8~zfG|7|)CfsQ9T*MjDo6EikI>-Ko5Mm5&)c{5!dteCpg7L>22KQ6I3fXs>4hto
zE`?#ifCId?$<uo~GC~Ur3DST~N<Gz*az)jaUevfZTMT6PKvAdP&n4OY@f)Hs9W{c0
zv^0Ef6T!}cL6~1RFF$@Y=ZP3>rWp}wj!D!MaUgf}_xGzEJXlnH|C8l*1qD+p!4~ne
z5*g-k$(Ju1k7UoqX;>_9)?GDHJm?3pt^-8J#HbPV#QKdJ<1rSj=6#=!lXJ_R<)zVt
zevH+PKf5J;N7|;E9U!0;kt=p$!bLAtehq>&r+6s9!&w}~bU<^ZQ?naLkxc*t3d<&C
z!g#@Kb_8r=Ge{e(ag2w#PU0~;hN5YVB|XG39v&N81^lSu_vy}~Z|BzW$DsUi09B*(
z*ZA5fdewk0RD>5i=}x$3V4gqf3Nf>V4>uDo4+`R?rKJX(LjoeG)RpWEs}S3ylsAGO
zj*5$GMv$U%sYWg%sNq&HW5O#smP=Y_+qSjvmF^ZT5(nB?!qSd=$NHo;>^!*=(*)%2
z5&aILG1(Z_k9%9(-X#6tCo6W@HRA)r+HEcNFw)=;dnOc%rksAt(Kp1peNX(lHyqcC
zuy{CY&4`Hiuu=l5Fb%C|fB)Uw6v^oI?UOTM2v9AlJ72zWgCEAKD=7G!8c5+d_;eJq
z6XTDh>;BPEh&kxjtl2v=P^R(f7lLSn&W2N`PGQFBp1Fl-N*-&;or7rPv{!v~*45WX
zX&yPZj3K_T`1p0?>VQ|moQNYnBs@`KTZ(2S^Y!4|x)nRo!to`D6)@rBaig*3U<ZY4
z6C^b+2s3hAi5?6$&S)0KE>r9XabYlody7wm$FUjFHrAB;>8(AR@Qy1_jxmtOiY-*b
zXkk-AVKN3kV_y_=I6ZqjfBp2s__?)Gyz@+~GX6!e&q@;P47e3;wYPF}SE+7f*raJX
z2!I#~DW?-YoqFaT3YM3w1$y}Uap>H+b996v3<(K&T^Dd@bVjZv&%$@xg_3olB@sM{
z4LxP67F@d!P#oOcVlXN?3gT}+zBCIP+X~7ORO#tOMRrG|2fBIvV|MQtpO}c!h~-?v
z<h5?yI$Y&FKsUpna1g(7|E}*kb)Ym3<kD@t#tUtS39F2Z75jOEq#N9mJyFo2sGjO8
zN`Qk&RQD~Mdz7Ns05G8L<UTyzg|Rd5iB1{>3PeEUxxL`R?`_fu_)N%6gdVnfU13%%
zFQ8HNUkugT5`O>w{RvBB8|Its#~)#<!)D|@fVbg~AEh5%14+R4{rmUROLOTizoOZ;
z63YOQyB^4=B!dAQlMINHD4?p!ueO)D%HiQzINg|@z7vQ!G6GIWu?*{^H9e;7$}REn
z@r2yQVD>tg9)a+30)$bo24<n8k-}R`nEXiSNW!@D(W6cf_5yR9O-~mjeh@zaWYnwk
zPT858b6b`lUxRB${8j>v+ulH9BRPLQ1h9w%Jh1a9KV$iy!Rd<td4m0PG7<Zm;dz$r
zYlEwX=tWmsR|hk9RmXzW#8m+;CPOej#ijTdNlUoe*)D@Pp2<odaUV1m?wS{8^s9_{
z;S|xT;o7+Mte~ZR+|(3iTYFki@6|nr6=LiR?a!WNgFL#_F}8>}6McmbR38&Y0i&Xb
z-8tAcw#=crfMkjRI2_fGU)R^JT|0qAIjr5cRQ%LY)5C~GKyQT_mSkmoPDxE=c%Y3r
zE1EQT-K?1eQ)yCUt7=&vST(R*<2AaPCJnFIVF0#++FLHK`G%!BB9ZEXKUc%>>adH8
z);Z=)TZA%jJ`Au&MmyJpVVX=zU)9?WcD!b87r@Ci7<D`!-`CvH5lg%vhij4Kk|>=R
z361c>sE)?Ts_ST6Na-!i&l9F&%@F^F4LP9pGG;!*l?%%ev0dutkNn_i1Txl(U*f$?
zwYCbG^lYu$@C{4$RQ*n$j{0>s>)@>e8#itgky=1;%SIVCzoq0AMlryFlsRZ=$*Y}d
zG*Ihzf50aveg@$t!W9W^WhfGW&g(BovJ(I#BEdT1PBBKwM}5GLYlDHoTG1_Ci>T;I
z%FDMP$Iz<T+S)qb&A(UDP6b=Tux1U5zE!2CAkaJuOBXJ4TX(k+I~^<#1(fX&k#w@M
zvNC*Np<y)KaRXF#55_a83uIf(ad-E~j}#ZsUrk@3KB5&!)F*cPTeog)Z)?l#tj}41
z*{4y$0%~P3Ma7CoV~ibm<B$O*;4EqMC}J>9Gk!xl80JnmJ*g4(B$kZOPh!ATBq%5-
z&+fr)6zmajAKC|cEen`8*}UZn=Pe#54&x8CM&i+*dK7-Vo>XVQt;rs4wA-J0s@k=@
zUcI<P9&G{<T$pOlVOmwcPv~P_p8y-TxHxHi(#tFT(W6IleHW9HH8Ic1a@PxkV-sL5
zs3z-c814F$l$0(+My?8i*Pr)j3lp!Zzx>sd6a(TYkF%Enq1)7(nhMdup=zI4TxS<R
zZ}RtIqN399^m{<U=|1TJ;?=gZyG3U6W8&g6K_p+idsk{1VU22HFo=hmiYl85V47K3
zsiX`P2=Xi{DoV<>R?8?i5%Z(^z(pAVuig04Vmo(Q^e4bXC#w8qsjG47u2XmC_$d~a
zmfiRV#dhqt0t<f)kk{Tb0}4Xo!80kBE~%TDnaQJz6B8Ysj=XIEIGYRVuSpsIr2dyL
zU%Y=Vc~v6;AS}fKu<F+NB8E!gq8lO~Pe2UnjrCI}eS9)u6s?ug`sU3IxC#jdK5J_u
zJ%TQrO}i2Qz5<JVMB>%l+G>m#^BgWn<daiZ^(`Yhh+r3yj*d<S&^}gS>?E%N`9PC&
zUb5I+eb1YQkVPp9Z)*K6qps3Hug)9vuaJ;3j6-SCa7~SoTggvFG0g5HwCiUw^$pG(
z`JF!lK!$;yUI6_!hv4U!75-Se4-kNzpI;yGHWP6!amgwt-WfY+Cm?iB$LHz70ch**
zPuaL9c$;O>6z>Nl)jPLu@52X5!%H1No3HJ#TvuHo*fA`F>B1`%lah*$-?ZldSTFJN
zdRQj7p(Ma5)%Q-YOer7P{dLHx;1WT?IGy`3fB$xLG#o)89X%Ksv{(M#oZJ!l5tmKt
z;K5dOIWOM484rgjye8AqK~(oJ+1Nnw1hfEMOv@0N(f<X@wXpRy8h-{4^j%HfjEu2H
zo9rawl9Q9?LeRs5lb4apjJP;3fWN<ghP#!eWd_!DG|2&NMWBwyTFeBjHn2xvmywm-
zi!&6lT;nrsR(!V~b6**n_MlT~K`<CC1W$I0pdn|bRHW9pSyD<$s_830!o#jE!^Iys
zELNu@bTj8ZW_`aqxqZeo===~n!W?JWO~eSYW)6(UIdrKyN5`=+8<XN^j4V1!uBW6#
zk+z-9QSf$%m0gf~8&%9qPKx~;dhvpjLP`zN5}NsmM=04>Uw57$4g|=FzM@+bfqqMK
zg7|DK>(_^#SwS~~t~dPL*1;E+^bcGY#fQ4vAE8hckdj)5vVFa~qO>$KA`^un*zP%H
zKwRUQq`q~1AP<ajGd3Ea&VcSzegFQm23xpxAK1TtKb{B6(-}mTbQ}=3fN<9m=_zw_
zbN1;v6GQw1%^)JZ;26=h2n#>zQV8BAQ2-#^ZN@){=VKtAgl<nWOrj(4ifKeA+U%X2
z!a-NhnS*iVYNwoFf3Pm6Qbk}i=g748K|106&QC%2#p7Rd0PjrLP1KI$gs^PhZx7Uf
zj#w+ob7Exw<eDNgsCvorbqLSt8%oQ|r50p!0MCg8l|t-}>;Yp=BO-Mb+3le;psE4*
zjwE0mWgO|2At4Db7Qj~UA^Cu))12@F8A}-@Fgsn#ugs1uJv0<d*zll~G_N`-f`zzI
zxMHI~kx|jnXKHG8QApRtJQziv%gd6?iTMvPi-%|XiZ-EsSwk^LdO(NbEK1V+pbtMn
ze*f46i<5W}-7EAxWGN7|0K-TeWFHWg!tEks)J+N<D6b4)SuD435hOB@9%J7Y0FPGq
z8J|NyY;0*+jThMfxFCyN=af|s9S=J@NBe)`%DkIxg}ybZ{zx|nB`hc$e9??CZ`7lL
z>?ZQ6EjaM(@soHE#aNX_?hmP!(X|K-3pkVU%ES-#JrY<b>bT*^eb*E{T2N5TfyG_(
zgPDT-yPqseqHI6%q=9@IV34v94{_2C#Tpy>v^34Zi<>pcUw0sb#N#$~{t9GJ2}xoF
z1>JKm1lquFW67ja29a?Fqxow9UD;-f8Ggs*sRS;qCw-i2*Z9=c)!S<;{4GFexz(cE
zb|oe2_U7R4rKPP(F@svzsXCnbDKkHxobX{(?@g$*iec3fIN!__6%)f+9e8E`bCJ&|
z+$4NA=kfL{12fjw*Q2TAS3KtK?(T(q6!%H|q82q_Ev;x@r8I}Ly?rR``h~#e!i`T&
zON$;(f6^+WHxYW^#Ks5)Z(DhRxE5uVVzl$cw!_jlhB6dyutrm7<V`apceqS*A6m6D
zbkXf~c{v0Cv}ip84maW!I5;~;f<HvjmiRsDZdQm><nJRUV+UMAwgVG4z$!pT5A3^|
zw|D9OS5kkYzU%}~0OYa1SA(BI(jf3z%<A%AD1iw8&dJGPZM`L4P%39=`i(f48)oLY
z?bM%~m`Jp^l9`?D^y}w0w@oZ!frjP-RW<{~W=U_x-X!C^MV;X7t@54W1!Jju<0!6?
z(&;$?Y+8CI=OJ$L4Y7_B+(JZ5S5s0UQeY0wS=C0y!{_U+!s>f7ZwLV-r0~I}QszU4
z4y8NR;BSzYML}Vqom)U8-&&J|MnxDO_Lm}4k|T<l-WJsF)V?I@O7Kf?;==#2zd~=~
zd=4vimDbfoYJNhA9f2ZjO_G6zO|`dn4tD_06t9A=|9wm69gYL9Ud7JpLKl!`A`ZTg
zk&lm$TuHPZ)ej#Qh6_&|PU+H*AIbiOn0)cthH{+<k%0Ele~D38=c?1=WWD5}Y1(F5
zDp(~CLv;kA$cl;z8GSpuO(=)OUufAGtvKvDUt1gZJ2*Hv!*y_QkZA0&`Pd6_9t1H%
zl7q<PK$!%RcO)`V^7KG{2HFkJPmkpm78dyF3SHDfkB`a2!voDgI@DO0VdfYVK8fUn
z5pD)W1;h<-Xeg}0fsIfwz{E#)n-Uxi&)_CDAZ^T0A`vA!`}#CZOcD+HGw<Aai-?fn
zV`*U_C?=-86bz=it5Q%Lzlc2V(6ATF;A+THJhz4M;o&o|N~CINq@z@)graFAuw#dr
z_vP*AS|VL?0OgXJ^d3B_x_-?J*73b~@q%OHYolfmtso4zv63xv!O{@FySYBUrr%K0
zs<je_JkdsE$&Fm3poH`1BXA!PKfC}kKv}GWFH<-Qc?vt9le+0{_KhinfB(%ScXcg(
zoqB%e4pjfEu<1!8>zML>W7pZC2MLIOBPi3G5U*lQM~)so%ziDaT1)I;^D$RvNARtl
zKfbub+(T=o1o$1a@3|a~;)yC}+#7UnM^PFzX?S!oen$Tq-;ER5llOg%D2i7&;WD9E
zX%7C41e{zYJ%tu}(tzVyiVu3kvT;$wIT556JKznk!s(n~zUPs}Q(?+@J~@y4zb}db
z&#a}Rqto{dmo?)N{uFjo+u6^Hz0xke;_3^gRp+a(>`u7jsILl01DmzA@a{Z=Uc8{R
z^ubCguT!V+w%7xMf+R{$aQHCo%2fDr2bT|72P9))u}_j|o86@n-t=~zzB@FTwR!hh
zde9m~2qK~=fND>ua<J1dSt$g&<OmCa07iDRVmP7!oPw<5BYLzy5^IFW5q`<k7MWB*
zWAsYiT{H+w#O}eV!@9;--z4420%x&Uhn0gP5<AA=K+1&oi}$8}@?=R4tq@ucBvF7c
zzi{C~C{TqXPE9AYqs7Itgk40nyf@cm1mRi(Tik?%gdq0{3k{{fyqc4Qe&}*!F=~oz
z{}wN=A3N+Z;tuNf49Ua*l=n(YBg)DY;Kdm0sF+Bob7DpbwUOYSJ)6KP918gB2Uy03
zI3Ren#0m&ITxDPaUiRbT`1tBQd-ecHIU;*N*hVy9251`^76t(|5{LkPrLnC|yH}YU
zW|B4L78V}D@fN936%dpT0H_&(QhrLkKn|iXtkmSeMdHT(Wn6zx7{Z_=w;8Q9GXYCR
ztUZY=4aaK<+R1syDqTwp%Hw6(boKNeA-2h4|CM#6Ck^r}*J|I=iVC78K(I?dJJ!0+
zzpP*4HmXvAi&}(-gby_vPCWEo_>!&o45UMa5P$-1v$8TTo_UU^t=*TdTGYlPkXSZF
zz6ZOpdF@kI2Zu8Ry8(%NdU`g%MC{`A>)W>FPhI+jHBb(yh|KTVpP6$Rgv4MS&gQV;
za7m)+7D7A$bezl06(fBNunj0W)?r6Mii)2cait}B4|=ahh(Q<erV(~y%IC3HSWPN<
z6vDn%a5^j)PW@oofdSUNfEM;19tlWy>QMZVI1LP^!7-f4qj+Ki`OX9hgO`F3MuP-e
zgg#P1;)d0Jxb26OtAX@LY{tRAGKM#&rlzWIxhx2@CnzY0dT=XR4PImI9E2|gmB(gz
z?9H1u;GE8ZP_qXM13*cX6J2S0S2$1{TFezLXvzDltZNCP+@5WS9i`|5uUVaT$biQA
zwUsX1dBIUnfE*_g6Zj*>wjE*?3Ae{$dN%tK%1d3kXo0#V4(-EjqQePZzka=dUTjp<
zdR}qBey@*%syOod+>1m__qhxwvv8P|$|^zSfytTXaa5rMT2hB}V;&^Ej6$&*1@Rg^
z(`JN2+!B`0S-d+>3S$jx6mDo^bF)V8v78*lUUU{6f#sXZrVs8}7EWz#Xi%FO3a_5z
z*x54mf-&)zVh(TZZXqFcmz*{LUugU!{d@0aw7*)~#KIz&%E`h)16C8cB?I>l=onl7
z?##K|R3?E{JzWj@7?8$ylUkOH>U!yo&zoLMRpOq4neyY-RsgO7E%BsFfSrYQ4{Ws#
zF`ZU~muX39sc@wFUT}4ZNl7A4(B5>#gEx5)9Ms*{w^c$y;uDw^kkSkbco^YG=+OHd
z5x(4(gDWPF#g-2CEeN$e&@^gGB^%>MU4dqsR|nRH{N9a{BM#L%GG`n(;yb?gK3%x5
z9^@ql4>z{~uyW)XUfoZi2ficEwDtBTqSf?mX{i%Zx|qKe5j<$saOA|UTuDr%LLfkj
z;EN{WB1exNWmvoR4)jJ{A9JFS2@R0dA49f+->k7IaPCZtpQ$4KCtUMf^d2)@H5NwS
zzE#7s&qmdD(OPONumAwS4Huq7IrE(tedA?+ga9aKgC9gMaXnt;1xW9Lu;w+Rv16aQ
z`s1#yi%7nx!n#12#_}h_2<`$@-rB;fq#Di$+pEhZX-P%?zEf0m5Osc2L;qB~JJj4X
zX(&}p27Up`B^%5+?(Nd_3C>?Va_Fnr2kaca10vxvx=1JzyHJxz^B%S-3lW*owQv?<
z>B5gh{?+^X^>ySYO++h>?q?umkf=pgtXSdpqTs4bj{ESCyu5rOG&|td3~@2hJJWCe
zGKP}77k)>V+72IfbW{gaVP$%1yL8<|%z6tei%ostRkF7kycsBnTog*|TwK}n^)6Q0
ztp-W&fi~R$6fDfmFW^Z7tfeaZ<QZJa13BIeAzRy%Cqzz}1Ewc)ot!n>=ys=~>SX1j
zlDllp6IW!-tE3El3%+dsbqh=Z>Z03=i(!YNA#l5pnJGf_MZ~unR0}$<*}gCFtu9i9
z(t*Q3(_NgqwB9EidZu?ZE-!85XKnF0aU9~X3W4x5V6BL*stYk#_jPh-rvVOUwg<Me
zp%M^WYi6tT!e^rM46ot|JworG@zMibPeiiSqn4IS2*z<6Ra2$x>h)x0Wf!rUh(0{&
zS&D2p8cY-D>)rtsW`G`=cDeyOUqLNef{Vy%hM+(HhJ~58x3{RWvgJ(h;DeA`xI#JL
z8N8wA!$agGJQ*aKIyf3sDmyznIRosRocl4g#$1Q?)Exs+dESCr)W47`ijYlNZ6I~9
zcTgZzde5F)V6bs))fO{0`#=IjrMTes;B9E)<7ea7$E+TWM=)B=eDJ^l&edJBK$7H_
zdLu3kf9-w8ovff1h-MG?6T~+b)xaeKZkY!Y3cn)Ou;rk`<PDh6Wj{tpIib(e(N(AC
zg=o@%q{|+hn=%JHCUlt?{C&x~ZX;3lrrn%2A5s5ngeM_+aPbucg5<^?cuf$!-auK(
zP?-P(TFrdla^SiaLW<P9hVnqn4^m}C^v$bRsBnlr*MGw#-*dj&zO{e)k5lLN?c0ZG
z3&cHNnk?J4E<G{#37A}%8a|xCeS=jz-8<^nvR)036gAi6QbmO#zmlh#{4!v}VGoak
ze}4Z=iTD(+f2kphhRNLiQfQbisizA-{rqWh@eX0VQ*V(IaQ(&&!up{?bVYrcu?QU7
zNh~+JyDy=UoQr;}H);Q=s;FE?UAYg(4}%7Xhnkg>Fht74mA)Juy#`3l(9`qYK*e|v
zeC&Fm6uqRA`EFuD)I=z;^j1<=RIXd-GIl<YCrg-X97a>VujpLqg9BVd^fL;v63Rd>
zyj)mV*txzIf9}Ykgbw*(S66LH#1K;A_IHz$+D5r1y>Crk$i8@|9|@SW1rqJ<uC8>D
z2W*D(0Toa!eTR@LvgITo0Z6%m3%}$z3^Nse<y(D3Q%#+TZwEW?Ug!*UyZrHRQ8Q^D
zK6XqOGL&~yQ{uI425-LaUS2dVDJ#qD?;qiKffvM@A;g?1_l2Py)C`z<07#vnhidx7
zWsV3)@yv)yLkz-<0|yRN;*>zTZuaJ7t|8hJvIy{n-aXDAOm~1SFt@Ub9b`9tS$RA!
zxX3B+NI`YoqF>VQwNZbqN<0{oJ!wuW<rR9O&13#>5oa_t47ZeMEUNEk6a(`K?A*x%
z_(C*0l09ax-^>0{*nR1)|M{t7>M1QmNt8~76|XPp9+3W&<<e3r0wpcEN2um2S!0r7
zpsvc_qCwXgl(bV>nKR%vU5_6A$mi&p;y%t~eQ2?0?;dx2-T)Z}X<Z|ZSNlqi#-0BV
z*YZz|e!oP{7KKV=`$MNV&6yfMem(M^IvD6}OvC=W=I?Ec=s%=VvSuPgCiaj2Zn_2v
ziGTaifE9>9G>G>Fv&T(xiSQCF>*uNG5Z+R*UR^U}7pYPgoj3h)4<0m_6|jVPpWGpJ
z3|M%l5{yD=<?!W&B`=?&xlMzQjvdl>o&KItFtnuq-~>o&Q8aLE-n=~R{zsx^dKub4
z0jx=e)<#_5ziDj<P5Ymsm<uj9p+OlXJx&vG(}0US8#k^4XzqtJ?(t)Kpv8wsG5Idc
z=7t2s;o3PIJxX^~Z#Cv6VAy>?K4HqEbmBb#XvQ~Eh&6`OJ?!pg1#*QaUL(qZyps?r
zCkectccLD=c6R#yQN~*nu07&qa&7=2q+~@7B@3K%bhWfXfjOXX*0Islp7%kd1+$f2
ze*dQ>{@On9%?R7pZ!B`zHTX`N;?NN*lR}T8J27>@4}wZc=F_hNj3-S`t%e@!8uX_C
z%m!~>c1EeEhpMONK%}Fn22C*BpalYxJI0#FdC;AQ)YcQ4e@EAl<<DH0hLFWhOQJIb
zMkBDz9_>$Tj5Ku{wD1CYIfp_dcxjl9FlvMmf|8aNq#%r656F8U51^kO@e$Qg({Iq@
zDB0skS&DQ>WWH##IGi|P>kNHk{szCv$+XwjUGnXJYuNfLuXTIg{rw9{#q%Jxgp`!H
zpFVv`7CCq38gCWckD6sQU>jSK<`~M~^uIsUo1s#6aB?!no1VFvnre26(^lg3X4Ghl
z(2J)5@R2TSX(<(FhiKs`zlZAn0%e0w5rznc0h$Y!FK^yf1c8$Gq!FZ#d$(Lp2Lgfv
zw;lCWrT=Gf<XIY2V1N{(DC}EC)eCK;ZEG9wK++6E3G)hGhNB~!D%1#k|7Rd8!ZO6P
zqXD6pI4E*MFoSSPHcjXLxCK!L7V;2TI9j-bkHV9nA^U{zDU|}3?zvn=007EIz+OS|
z!~q7|^6<%%wVa%sD8_)R!ekyyowBYyEsJU}oD>PE*+70xPoJ*CFGQ~##=0EcSo!Wj
z$O!0Z!cf8tRCpwywL(8hjldOa930$el*^8qy%AMP<RWRMLfwL66A4^}tq1(1PEJYA
zu(@vfgRrvX^y3thGUP-$W80?_;kjV>|6Q{~RsW6`+zHcCeEf%?qc#OCvOsyXGVN_3
z85f|CFO55l%eKnE^C`Nnv|tv{y}ega(TX;X#w$F&9bkLu(fuU@KZyNF^$+l^z^684
zPsBA4z8Ksnv@;enpU9SEv|gjoKOw?;wk>*OlX5XM!>koo@svp|3r!rZ9#Pa(`{ZA+
zeNlDe)~y7{zQ_Z`kN}L2cxh>Asc%M}mz~}5U;Xnv2=9>Cu(!WN(i%q7K)rfO<#n+W
z9WEIW0H9QRi;Ul-;>_Py@<rnn8s71EcIn7no|qy)Qj<O2FH_d~aA3gF`-6}7uixDs
zSm#I@{V3_XU=oW%MurT~>(4E%-QHq*u)<^LEM61%&jg~`LuZ$Yz69kh;4W#EU_*8|
z)M=K1lHdDNpgsdHBWyjYtfXWQ2@6I8$cPg}DY&q)pXV?-A`i<>Mg%2fN%Wy?D|bk@
zq1izMKtRD*0J3S9?}zo7<a<Kfp$_;IdF&l%P=-k~BuI}QDk6;94TJwjAIV`)dyEra
z8{dxOYMAv9xZL*k!-s9vn+*EGHTk~MiHJ>Feg_=H=L{~sS%FASg-467^$;3pU3awE
zxOsRQaW+Bf?}hp!G;HHZR51J8-10i_pZfntML_7e(V_1?$Y=#ELPA92`Yn6zZ#P%;
zQe`~fszEuj0SK3#nYk7F3j{28Z`-D)^#kosoF!XW>)2`8p=*Kl9q}FymN`N1rC>)F
zY+JXPP*6p!1qY)J-GvwS`w(#tpr$mWbdf%KH<UR5svaRSlKB`R6%}ifDx;0q3epVA
zo3kjan>soe!B3q=`!afg88j<Wz(W8lukj~5>sg521^pH*kxIi{AVfMWlJ{Ym1Z=>E
zD*+Y`Y&T(*a7ZJe77%4;0K~O1ae!~aS@Z~@ZqZ|3iY0hE`1|D64N9IA^sgHM0A-In
z;TBxR38tr~C(IWM56>DXZ^5t_R|>wtCJr(pf{-$TLaV>RV-xytLfiJh{(`8iK@>HC
z>*z#phx~Infj#j0+`68N>m1&^J>ES1x^<jBD_*qh5NDz}ZK%KL?*qDxXs)DXXP?8M
zjU$8-=IBs>)DpV$eteuPLaq$_CI=vQ4tm*P$9|j@bh>E_I$sHciaou}4G<9eGoB;Q
zu%@=}F42Ai<#M|Jz%r%=OecAwM8H6s6ZB=6)RmAe%42N1v^$PhLHw@}h-9Nt{iY-O
zrtJJH%b@Fr90omg-P6sMSA!=antjrEvHV@ubnN7bB8-VNHZ~IXYSLZ9Jz@ulAA5Qf
zj`XA-2-PGvvYsZ!dOEBAI!Z>gQnrGE0Tg_QJnsd#4DBT=Nlx9myY8l5G1f@()#G5$
zC~n=_Vbnbj?Ew!|2xLVgl}e53CJj*NA~K+^Bnn-ep<)E*lkQL_Pl>8*F?q54!|i=r
zb;tvwmh-3z_d!yNnl38);H?p870+g8Zza?o#)N);4EZhb7k_5+As@WD6@b7<4=l)-
z8;OQ=EsxwvT<(@gMlM7El6>g<20_ddhG+NBxqa4ECs$!es0Ak>_Or0$Hqf_-r48ha
zqNh)~dZ4Vi4_sHGNlQy7`c(A(8z6xQ#oKVe&=<zzR#BjGUPBtoxZC9PUf&%=m{+u3
z`<5zJF*r`4RTTxxQ725>f-MX+=sINLJh&;*SMm)u+biwb6)Qf4uUL%pjoVoJ$Y*L|
z;%$CWy*dWyaCorPd}#%$^c55kf2;BDMj~<J_FhO#i~y*!2R6d&>_&oR^yuXGwB(x=
zs^c|8{zSa8%n=}6ddgd*IxQU?@!~Fb)H4_lV<x{CNwMMia}M;5GNu{R-d4lB+LY)E
z7Z(?GmL&&8ADJ_u$*m2(>o#f(2TM#RB3~D^lde1O*f)sSR)#`B+?z$WawSn>)SaGJ
zPbtUb97@APtUU)wA)MSXi5S2tsR)LdSIJX=g+<c3@&YdA7M%ys-O`YbK2aTj-RUIk
z)}1{N5}=4j%WZGU>QKy~YfQ^3C}g6m&B|i<zo{Ckc`{09-R|elGr=;f=^<+xpmj)0
zOuXZJ6<R;J9Xqn1;a$&yB$odeH925q%-;d;pYoF*L75Vpg)4UzW7*nNDiWNCv9Yn?
zO=wib1DQejpg?Z#=wQo2`!fNlu4sNoo~bfRdg|`U)T8&2J>Lxv3x2Oj-5sP1eNkfN
z6VQ12lnDeXD%E@B(HdGc(63D@fJ(wiI<B}bZhh&>2_%x}VT1V=3Oj~<M#?|FsnNvL
z$+mf8Bc9tOken-@d`E9nbuyA5)jX>Tsn3%=nlrT;zqja?V4tg;j7%Di`4y#vq9SRO
ziF)p-Ti%x!7D^VH7prR>O4^AYRg*kEx#j&MaV~GbBxM4{v$AxdjrjP{qll7{66ykm
z)jH8Yiq5gWHFk1mW@hG^Nrd@KvdAH-efQne53$Ob{5_~!yCKlB8Y$7xpi(cO&FK<=
z=2<qf$`uq9nn=EwLXzq3>A4Nojd4LM(+I^hQN|Eyko)V(izv*+0PIKI^JAZ#FHSaI
zgsvzlG5M;+)Yj2K)oK}U(HomomVWQq6k<K~m2uxWqn5gW%)1qyFU_t%aAgG6zYUbC
z=sCo`1H|qT{G<^`Knw-%Uj)mNT)EC?J}F1Qm#f~_$I~+nL5*?f@}*1kl)rDPTBZ2n
zV$%v(zmLO)E5d$s`5(NYtby|(a>W66Djl3mS1GtcLnu0;qb8uc*~-t)4@r?}%}*3c
zZLeO{JX)5Nh-cxj&Zb+nDta92wNANU`hmLmyN?TU31Oj`H=Ecq+sYOJx-|NXkp~39
zu})5=+T|>xZ3<36EKu5ixgcY<qURkq*YYbv@ub7<?)rcx0vRI@vUSwdLOq!--Mo1K
zsz$QOOi&dT<iN?Bt!r|AUBNi5)RP7DAy`6r`L~yGeDymo+9IxvzykTlQF+(ym52iq
zFADh}<dEPExJ_u#VoNkb@vh<#B85~{$>7k$Kv}*^9p;2x25WbQhS3~5cwH&o_j)?i
zQRqLC4iNTA#>>2EYRY)h+NU!zHYW1Z4tiba#kUnJK;-s+rHA1J->5PD6fA_b_4T<r
zlry|>jLzsK5UT5oX0C}4I&=WYOL*S0*l`EwK8ns3La!zg23nsq?284Y!3x5s3*(-o
zk%G|N+0*k74U%x&YGlvY@~by)FzM=c$Sq`b=NN8I=U}2BRm}s}Q9@soH-?f%VzpPm
zzba~^&>~4d!XgOykE|wlB?XGx42VSC`gqvb!ckVBK~&Z29^miK@Vla{Y!yYtf03Sv
zSKeS($nb-gF-z|*AB^~o4)#h+_)cK0*vQC;_#*ua016pg1Y-T%J7^B<)I!n+LUkHq
z$^=|Y5x`fZefVn^xDIV??Tk<ROvf*rtur!x1>-Ym-(b9jnD+IUIWV-vmx$Dq?NI)c
zjjO7w-D)>wR-vSWMhhb})@a}9r`SFS4l=YDLZycBLedaYKUQXxOGN@HKHSDiS(PA&
zZWISLy-A{0D800&rN6`Y$k9<0)Ze(aS=w@bJK*ORbyfCuuc`c-TAu2&XL;T4f<7bz
z5_8M{y@&r3j6J4g_98)bBJp*l_;461-OTgP<($pEoB9PH1ETu3c%bO}$4of${f{=j
zXgqBwy6K(9(^v&f{342vZBHUXA%F;u*AIUmTH>|-Tz9A9o$2`UUW>kN)LPBxMXu-J
ziN-73jA9xUBJ5Vgy>7H7Y-+_XAw6bH(4)!9jAVroDT7^E&aP0cME>>_W?e(32`Y=C
zakepz)%5C>RZ13yt3dX0)F_HiRzDjYthfI0rFu9<)XZsedYWjfpO@H>Ij<4Y_`@C>
z&&3JD0=owr$%1w83lT>XbZ`6b`2HV45%DCQNI&#+;pP3wu>%8$BlwuSW2QnE*=wpg
zB;^{Mon>TX)G$85!pa(k%1Z$Fj|f(7+V1Vb;xHl<(Vcl!1%^4|cQWVe_RRtUl!G@_
z8gV<`zI{u9Hdb0%dU&1}r4UH%5r6<C-w)jAe1;RTJ(>9Q_pdfMV^}G)My+bKu=Mw@
zA{VtHbk@7O-|l`)bLY@#dD%N)W`ea75}18wU#~%L2gkgrwKcm}v+%Io)&0}bf#*$=
z9P*qBh@m>BrE^(((70UB&tKS8PD9Ui6W$i$r!;y|cMeZalLdqJ5LsnDeRW%tnKV@)
z5o|(LOE4wr0)tlXU3x8rly)H3`4DO*oZ;v3x6PKAR5EXzLd_X7t84N81Io;K$k4AS
zKLZ>lKO2aR9x31;a~EjUaK1bNVTWr93*C!jOhHZ!cX4AfG6#2(5Gbhs8UQCS{B{n=
z`;Sft%}Pv23?&botv+pOd0rnfK;#ALXh5DxsZm-1x1pK8g;#-4sZWRj3pky*&!3y|
zs)paai@->Gvho$z|AVf&<?FukPqts{#E6{3oHhDgQpm1Us?ZtG*wCiPqOAr&s{n>(
zPG`=HbtGdDS8QeO<HuU4ZNM=#HZ{?Lw!mnM`dg_yDC`M{Lrospeys^Y8Zz{Uh2!aS
z`WSse`9hs8Eh%BWS-3hBi8qgb-xkb~q10VrAk)79OraZicM#J%=s^(Ch5ufnvw*{B
z2H!0Z2SkGz6(8S%MUH3i4@H0R0JQ*+es|8wjDfVT0jLeK5AZvLpwAJ(Nz~e8aTe*s
zA|XU=;^Nr@7OAnXj|-ue%>HArI~04V=>Q%zgM)X26)~9#JuiJ*ynNnBm{MxI)qE0n
zgF0mD6gG*g16l`F;Tlv2q=u)6?&#0W`yi&$5)NGmkRkSt67QD6F&_jesP(qV+Vr%0
zahNjZ<(VEZCgUZT8@eKGXItP?DGX^53OzM7H40dPSilxXFnqi>ULoe<n~R%`qoJ!_
z`m4$L5L7%^Ar$!$)5r~Ysp;9-befv2CufRuELzJl#!R#&Uy3^yN}%0NYF_-tVw!o~
zS4W0NXJ=+?j(7GFE04y;y|+JO@bzrGNlcdW`JpRb@7JB+tUlYF_^QC-Lh{L{(?9!`
zENoFjspFB7VJOrphVq<_AZenVgmYty2D-`rSmRr0t!jks!+JDur$l)1pVl4Fk&dAK
zQt35%cEHvU01Ad7Y;iPJ<`!OhBCrGKrLgnxh^Yt~CYH}K_liwh@>0l16C|1$pe;eS
zuzcnfp8{w{3m7IVNpo^>ki%)qC!mcx@PN*zN8;r9=Y?FN%N_;_r-P`}i1phc+9j)a
zVpl&uDl!UgTU;9=6g+=O=@mijZ-yNO>=`mnJOCcx#z+9<&5<Z%$+~F3t#HiAAb-m`
zx3iPhJf=-P*8h+~4GOGB1I_Wul`HKbPVcYv+fI7k0376yBVIItJ0vq<IQdv8N((d@
ziC!RtUr-&`MGdB|q~I0&pGZG+Hh5w#hzTf`h!p@*9WYDAv;7Dek_Vs2Hjb0dk04Jx
z7eGrzSFd5_m8Zu%q6ktXF&pX4Kg0}B--zc<gemy1Mb@p4Iy=|HPKKy6K~T#C|2z$r
zlCh}P=dZum20^S{Ig4`^V_AYB9?bP700@)GHe#=d(+dj(dskO7%R|Jb#O#LXGvB>C
z40obNh@?=s+E#tai?68($n+T1zX**0LMIXWR00P>EFoPh+X4y`-5c`<!Kxr|JwH#G
zV!qIzv^G3^1(Fu}rBP6%LLvcc9eXt23DJjv48lR<-yuV&u$bg{I^Cg?im8HgXs;7k
zgwIX%c3bpQBQS0gT^$42Jmci#B<5oTv4J^K=Mq@7riKQ})&tko&^VUCG=Crl<(l}s
z@XK{J+zW*I|1>smbpk@62RMott^O^$tx6St5o>e_5lKb`&5CT}&~1q>M-j0V!=n!o
zC!h|1gg8E@!X7mBTL@<Hyve?8&r_#b5p3pwT8W<!^sdfVAApu{$R$^@x5HZ44&Vfb
zAq?q>G!8Z}6J0LX3$WEBIAhpD5EdeE{%9n@3}A|3n(UYdgbIg55!O4K$Q&8yR;mZH
z<9X9P(Nv@HQ7<E1U9H8>dm{sSw1h`m=VJnsC#Ltgx#rH_K9!1{=)Ark2jjqC(NYlD
zC_wpvSilNk(}>b;9%FF%HsyDg@|Ymi(Zs%GVx3Biv!QIR#Lt2xHXE^@B4--%b@J}f
z#sz(|f=mHI!oH3|d^qs=&w*uFkMnjGW>0tR9;`!i42>}YG01ol$>C5631)qn?qdee
zExtWI_a~|ZJR%V?QUuLB8~JKvE@;QIf$BX5*#*a3DI}AFJphFo0YO4y^=@?Q0c{*H
zNrRk*!i-ux*nm+c=-@TY%~NCwqOGOQfpdj!^C0oXK?WjD1D&!`?U0v&T?VVR7t(!u
z7Z-YzyIm^ymfV=bz)&Is<|WA(6ka26)#==0^@{Df31-da968b9>9#e#ae;w>kbcKN
zCQ$`XCPe*6@8_YXpxzMF)zt-sz|PGr%4>2c*Q6VdBNw$5kxC$-zZ)Ih2kgQ=UWH*H
z6tw5io7IAv0fulcSP$Ox_7dEOvQfWXwwB7qkM_iHNW?HLo&NnR2*bC0C}N=K;X{i|
zYsP*I5~5y^(xei``R>LsF`V+4`~RdbG3R_P@MI`(f$4d!@j22?M)#i#v^d-(10G0P
zZJnJLVBR$W(G@3C1Ue)-sF~Ig4GB6BWhdTP%2OQR3qX_v$nd054HT4%3*ZfvlTi2Z
zd!I6X$l+GG4b|7Rys~#bh7&_p*CQB^svPX~BnnzCrpLUjtm=51U<_br6AQ}C?)cmG
ze^;W=%>H*JN-1!^kkOtc=YNP%+Urrb8G-yHV`1cVRabXo6M5u9_MAsp*eT|i-H<m?
zP39_crRwH}ju_%=3IlZ!F^Pl2UPND_1rV$&_-mJ<VlvsujbDc{Wj`wLEHH9WPcK53
zGd1*J4|xQTdSWo2i|?I+q+}fFOXoqW4scC|IZ-`Dp{R@2TBgjPgck%eF&yC9YI+%S
z!KA&Yx-oL07K?E(IwZJn-@cN2_tKyt%8|U!yg^9~sAx;Bi4J~88i<S}326n{-P^z9
z<xlt}-MFqNJu*6}5vZcNGssfK;9JP8t=R_|7Y=XTdQA1BPUa;d9_Fgc0goICJ##Js
zq)7eGy&5)wri$i%U1#zP-;M2>8kvRcJQpbi5)K^sD0C!TA+gLHe-A5VK`4-jI0{Ov
zf%>2tQQ|B@2oEBq!bf#`T`9}2a@s%(&n+8G9ipT`uO2!omeo#u!tpd|V9`kM(Sa5L
zhr$*3A#*l+$1HP9_d82VXN<Yt$<Nn?ON8j>3K1bou*@$91{l6FKo=st!#)VTZHytY
zQidxqqp;S`-~W<{cxKacUT1zM{nb%JNWtLrF5;|s78)-qt74}WdGvx`0s;bh@U0@f
zeO7$516J`4GG%j>nAMGHmz~<`^jsLx74P2j<jJt~D^~7#9T=*bhYuA-a4{Nflm#$=
zygH2j7MVTs!93-cvw7NM<JU%f&ObYEs_1_G5YL)5mAeCcizk^lr6Ov>62$LM!IqAg
zNg)XwI%Oum1I!_Wj!x+IJioz_<qUbkPnV7Vuqd(Bfs_=wt4)|(_7q{4;P{85PyaFM
z!F16bM-r)aoBWHKtbAV{!&KWpTm3VZZ(ceS$pp(MJg0yC`4(FB0iQhskLdj<^|2j8
zf4z3md${JNI!(A`S?NWMmVQ3s%k!Td{H!Z`3oWhZA8`kWBrV79|3{Y}_A;Sl47};!
zCE|5av@X8myy?c>5B}+w;kFV3a}+fMN`?1-T#Ur?DhpzIz-VRX=QC2^Hj+DjU8W@^
zCC}O@$(W<r305C_4;>;o^7P^a3k4F(eK0Ngi@04DE3&Z&qE(8@E9~mkm%4Va5BYWL
z=FN@hVPWnTgSpK7{Ik0nxbuU7z5vzW6w=ufP?aYfd~9RBY!p57rrnRwnD{Sa6MI-7
zK<IX2gQH#t*iEc=X3jLScw+%)qB8(<kb$6&K4&yd3f|Fo@8566tRMsh_#|~*i=RJN
zZDn^#(#kdYH0lS#oEYFrGk;fNk?{}NLq6-z2HAi8uTTR0ueiR<hxGpPYF+qXq)Ng6
OX=@yy-c`2``+oqs@&#7_

diff --git a/tests/triton_tests/plot3.py b/tests/triton_tests/plot3.py
deleted file mode 100644
index beaa811..0000000
--- a/tests/triton_tests/plot3.py
+++ /dev/null
@@ -1,193 +0,0 @@
-import matplotlib.pyplot as plt
-import pandas as pd
-import numpy as np
-import os
-import matplotlib.lines as mlines
-import matplotlib.gridspec as gridspec
-
-cmap=plt.get_cmap('cool')
-
-if __name__ == '__main__':
-
-    fig = plt.figure(tight_layout=True, figsize=(12,3.5))
-    gs = gridspec.GridSpec(1, 3)
-
-
-    rdf1 = pd.read_json('tests/triton_tests/info_mlp_autocast_ln.jsonl', lines=True)
-
-    ax = fig.add_subplot(gs[0, 0])
-
-    # now plot the % speedup for different batch sizes
-    for j, batch_size in enumerate([2**15, 2**17]):#, 2**15, 2**17, 2**17]):
-        all_xs, all_ys = {}, {}
-        for k, marker, ls, color, name in [
-            ('standard_compiled', 'o', '-', 'C0', 'standard compiled (total time)'),
-            #('standard', 'o', '-', 'C1', 'standard (total time)'),
-            ('my_standard', 'o', '-', 'C2', 'my standard (total time)'),
-            ('sb', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
-        ]:
-        
-            xs, ys = [], []
-            df = rdf1[rdf1.batch_size == batch_size]
-            for embed_dim in [1024, 1280, 1408, 1664, 2048]:
-                df_ = df[df.dim == embed_dim]
-                xs.append(embed_dim)
-                y_ = 0
-                for k_ in k.split('+'):
-                    y_ += df_[k_].values[0]
-                ys.append(y_)
-
-            all_xs[k] = xs
-            all_ys[k] = ys
-            #ax.plot(xs, ys, color=color, label=f'batch * sequence length = {batch_size}', marker=marker, markersize=5 if marker=='s' else 5)
-        
-
-        color= cmap(float(j))
-        speedup_over_my_standard = [-100 * (all_ys['sb'][i] - all_ys['my_standard'][i]) / all_ys['my_standard'][i] for i in range(len(all_ys['my_standard']))]
-        speedup_over_compile = [-100 * (all_ys['sb'][i] - all_ys['standard_compiled'][i]) / all_ys['standard_compiled'][i] for i in range(len(all_ys['standard_compiled']))]
-
-        ax.plot(xs, speedup_over_my_standard, color=color, label=f'batch * sequence length = {batch_size}', marker='o', markersize=5 if marker=='s' else 5)
-        ax.plot(xs, speedup_over_compile, color=color, label=f'batch * sequence length = {batch_size}', marker='o', markersize=5 if marker=='s' else 5, linestyle='--')
-
-
-    #ax.legend()
-    ax.set_xlabel('dim', fontsize=13)
-    ax.set_xscale('log')
-    ax.grid()
-    ax.set_ylabel(r'% speedup', fontsize=12)
-
-    ax.tick_params(axis='x', labelsize=11)
-    ax.tick_params(axis='y', labelsize=11)
-
-    ax.set_xticks([1024, 2048])
-    ax.set_xticklabels([1024, 2048])
-    ax.set_xticks([], minor=True)
-    ax.set_title('MLP Block', fontsize=10, loc='left', y=1.07, pad=-20)
-
-
-    ##########################################
-
-    rdf2 = pd.read_json('tests/triton_tests/attn_info_ln.jsonl', lines=True)
-
-    ax = fig.add_subplot(gs[0, 1])
-
-    for j, batch_size in enumerate([2**15, 2**17]):#, 2**15, 2**17, 2**17]):
-        all_xs, all_ys = {}, {}
-        for k, marker, ls, color, name in [
-            ('standard_compiled', 'o', '-', 'C0', 'standard compiled (total time)'),
-            #('standard', 'o', '-', 'C1', 'standard (total time)'),
-            ('my_standard', 'o', '-', 'C2', 'my standard (total time)'),
-            ('sb', 'o', '-', 'C4', 'SwitchBack int8 (total time)'),
-        ]:
-        
-            xs, ys = [], []
-            df = rdf2[rdf2.batch_size == batch_size]
-            for embed_dim in [1024, 1280, 1408, 1664, 2048]:
-                df_ = df[df.dim == embed_dim]
-                xs.append(embed_dim)
-                y_ = 0
-                for k_ in k.split('+'):
-                    y_ += df_[k_].values[0]
-                ys.append(y_)
-
-            all_xs[k] = xs
-            all_ys[k] = ys
-            #ax.plot(xs, ys, color=color, label=f'batch * sequence length = {batch_size}', marker=marker, markersize=5 if marker=='s' else 5)
-        
-        color= cmap(float(j))
-        speedup_over_my_standard = [-100 * (all_ys['sb'][i] - all_ys['my_standard'][i]) / all_ys['my_standard'][i] for i in range(len(all_ys['my_standard']))]
-        speedup_over_compile = [-100 * (all_ys['sb'][i] - all_ys['standard_compiled'][i]) / all_ys['standard_compiled'][i] for i in range(len(all_ys['standard_compiled']))]
-
-        ax.plot(xs, speedup_over_my_standard, color=color, label=f'batch * sequence length = {batch_size}', marker='o', markersize=5 if marker=='s' else 5)
-        ax.plot(xs, speedup_over_compile, color=color, label=f'batch * sequence length = {batch_size}', marker='o', markersize=5 if marker=='s' else 5, linestyle='--')
-
-
-    speedup_compiled = mlines.Line2D([], [], linestyle='--', color='gray', label='speedup over compiled')
-    speedup_baseline = mlines.Line2D([], [], linestyle='-', color='gray', label='speedup over baseline')
-    batch_size_4 = mlines.Line2D([], [], linestyle='-', color=cmap(0.), label=f'batch = {int(2**15 // 256)}, sequence = {256}')
-    batch_size_8 = mlines.Line2D([], [], linestyle='-', color=cmap(1.), label=f'batch = {int(2**17 / 256)} sequence = {256}')
-
-    # Create the legend with the proxy artists
-    
-    # adjust plots so that they dont get squished by putting the legend under both
-
-    
-    plt.subplots_adjust(left=0.2)
-    plt.subplots_adjust(right=0.8)
-
-    fig.legend(handles=[speedup_compiled, speedup_baseline, batch_size_4, batch_size_8], ncol=2, loc='upper center', bbox_to_anchor=(0.35, 0.255))
-
-    ax.set_xlabel('dim', fontsize=13)
-    ax.set_xscale('log')
-    ax.grid()
-    ax.set_ylabel(r'% speedup', fontsize=12)
-
-    ax.tick_params(axis='x', labelsize=11)
-    ax.tick_params(axis='y', labelsize=11)
-
-    ax.set_xticks([1024, 2048])
-    ax.set_xticklabels([1024, 2048])
-    ax.set_xticks([], minor=True)
-
-    ax.set_title('Attention Block', fontsize=10, loc='left', y=1.07, pad=-20)
-
-
-
-    ##########################################
-
-    
-
-    ax = fig.add_subplot(gs[0, 2])
-
-    for j, batch_size in enumerate([2**15]):#, 2**15, 2**17, 2**17]):
-        all_xs, all_ys = {}, {}
-        for k, marker, ls, color, name, b in [
-            ('standard_compiled', 'o', '-', 'C0', 'standard compiled (total time)', False),
-            ('standard_compiled', 'o', '-', 'C0', 'standard compiled (total time)', True),
-
-            #('standard', 'o', '-', 'C1', 'standard (total time)'),
-            #('my_standard', 'o', '-', 'C2', 'my standard (total time)'),
-            ('attn', 'o', '-', 'C4', 'SwitchBack int8 (total time)', True),
-        ]:
-            rdf = rdf2 if b else rdf1
-        
-            xs, ys = [], []
-            df = rdf[rdf.batch_size == batch_size]
-            for embed_dim in [1024, 1280, 1408, 1664, 2048]:
-                df_ = df[df.dim == embed_dim]
-                xs.append(embed_dim)
-                y_ = 0
-                for k_ in k.split('+'):
-                    y_ += df_[k_].values[0]
-                ys.append(y_)
-
-            all_xs[k + str(int(b))] = xs
-            all_ys[k + str(int(b))] = ys
-            #ax.plot(xs, ys, color=color, label=f'batch * sequence length = {batch_size}', marker=marker, markersize=5 if marker=='s' else 5)
-        
-
-        print(all_ys.keys())
-        all_ys['standard_compiled'] = [x + y for x, y in zip(all_ys['standard_compiled0'], all_ys['standard_compiled1'])]
-
-        speedup_over_my_standard = [100 * all_ys['attn1'][i] / (all_ys['standard_compiled'][i] + all_ys['attn1'][i]) for i in range(len(all_ys['standard_compiled']))]
-        ax.plot(xs, speedup_over_my_standard, color='gold', label=r'% time occupied by attention', marker='H', markersize=8)
-
-        speedup_over_my_standard = [100 * all_ys['standard_compiled1'][i] / (all_ys['standard_compiled0'][i] + all_ys['standard_compiled1'][i]) for i in range(len(all_ys['standard_compiled']))]
-        ax.plot(xs, speedup_over_my_standard, color='indianred', label=r'% time occupied by attention block', marker='P', markersize=8)
-
-
-    ax.legend(bbox_to_anchor=(1.02, -0.27))
-    ax.set_xlabel('dim', fontsize=13)
-    ax.set_xscale('log')
-    ax.grid()
-    ax.set_ylabel(r'% time', fontsize=12)
-
-    ax.tick_params(axis='x', labelsize=11)
-    ax.tick_params(axis='y', labelsize=11)
-
-    ax.set_xticks([1024, 2048])
-    ax.set_xticklabels([1024, 2048])
-    ax.set_xticks([], minor=True)
-
-    plt.savefig('tests/triton_tests/plot3.pdf', bbox_inches='tight')
-
diff --git a/tests/triton_tests/rowwise.py b/tests/triton_tests/rowwise.py
deleted file mode 100644
index c5acb8e..0000000
--- a/tests/triton_tests/rowwise.py
+++ /dev/null
@@ -1,43 +0,0 @@
-
-import time
-import torch
-import torch
-import torch.nn as nn
-import bitsandbytes.nn as bnn
-from bitsandbytes.nn.triton_based_modules import SwitchBackLinear, SwitchBackGlobalLinear
-
-from bitsandbytes.nn.triton_utils.v0.quantize_rowwise_nogroup import quantize_rowwise_nogroup
-
-
-# 256 * 256 * 4096 _> 0.7
-# 256 * 128 * 8192 -> 10
-if __name__ == '__main__':
-    torch.manual_seed(0)
-
-    # hparams
-    repeat = 16
-    dim=8192
-    layers = 4
-
-    batch_size = 256 * 128
-
-    # simulate forward pass
-    x = torch.randn(batch_size, dim, dtype=torch.float16).cuda()
-
-    for _ in range(repeat // 2):
-        quantize_rowwise_nogroup(x)
-
-    torch.cuda.synchronize()
-    start = time.time()
-    for _ in range(repeat):
-        quantize_rowwise_nogroup(x)
-    torch.cuda.synchronize()
-    end = time.time()
-
-    print(f"time: {(end - start) / repeat * 1000:.3f} ms")
-
-
-
-
-
-    
\ No newline at end of file

From 2331212b35c6e974f734b240aca0e64e4ca5ea07 Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-44-155.ec2.internal>
Date: Sat, 1 Apr 2023 19:13:15 +0000
Subject: [PATCH 30/97] add readme for speed bench

---
 speed_benchmark/README.md | 4 ++++
 1 file changed, 4 insertions(+)
 create mode 100644 speed_benchmark/README.md

diff --git a/speed_benchmark/README.md b/speed_benchmark/README.md
new file mode 100644
index 0000000..80cbeee
--- /dev/null
+++ b/speed_benchmark/README.md
@@ -0,0 +1,4 @@
+Steps:
+
+1. Run `python speed_benchmark/speed_benchmark.py` which times operations and writes their time to `speed_benchmark/info_a100_py2.jsonl` (feel free to change the name for your profiling).
+2. Run `python speed_benchmark/make_plot_with_jsonl.py`, which produces the `speed_benchmark/plot_with_info.pdf`.
\ No newline at end of file

From 51a21df7288a7e2f78c10778493f9ba554694e81 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 1 Apr 2023 16:10:18 -0700
Subject: [PATCH 31/97] Added 8-bit compression to quantization statistics.

---
 bitsandbytes/functional.py | 38 +++++++++++++++++++---------
 bitsandbytes/nn/modules.py | 10 +++++---
 tests/test_autograd.py     | 13 +++++-----
 tests/test_functional.py   | 52 +++++++++++++++++++++++++++++++++++---
 tests/test_modules.py      |  2 +-
 5 files changed, 88 insertions(+), 27 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 8bfd668..8234c46 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -155,7 +155,7 @@ def create_linear_map(signed=True, total_bits=8, add_zero=True):
         #return torch.Tensor(values[:l].tolist() + [-1e-6]*((gap//2)-1) + [0]*2 + [1e-6]*((gap//2)-1) + values[l:].tolist())
         return torch.Tensor(values[:l].tolist() + [0]*gap + values[l:].tolist())
 
-def custom_map(seed=0, scale=0.01):
+def create_custom_map(seed=0, scale=0.01):
     v = [12, 10, 8, 6, 3, 2, 1]
     # 16-bit 7B 22.33, 4-bit best 22.88, FP4 23.25, 4-bit 95 22.97, 4-bit evo 22.45
     # 16-bit 13B 70.35, 4-bit best 67.16, FP4 100.78, 4-bit-95 69.39, 4-bit evo 70.48
@@ -191,13 +191,13 @@ def custom_map(seed=0, scale=0.01):
     # 13B evo start
     #v = [1.6077535089716468, 1.1914902148179205, 0.8999752421085561, 0.6967904489387543, 0.4949093928311768, 0.30920472033044544, 0.15391602735952042]
     #v = [1.586363722436466, 1.202610827188916, 0.9003332576346587, 0.6904888715206972, 0.49490974688233724, 0.2971151461329376, 0.15683230810738283]
-    v = [1.5842247437829478, 1.2037228884260156, 0.900369059187269, 0.6898587137788914, 0.4949097822874533, 0.2959061887131868, 0.15712393618216908]
+    #v = [1.5842247437829478, 1.2037228884260156, 0.900369059187269, 0.6898587137788914, 0.4949097822874533, 0.2959061887131868, 0.15712393618216908]
 
     # mean evo 7B + 13B
     #v = [1.5993337549066253, 1.1965624035328402, 0.9000864380418481, 0.6925840978034195, 0.5011181210961458, 0.32040328389777434, 0.13570386022711237]
 
     # theoretically optiomal (0.93333)
-    # v = [1.501085946044025, 1.1331700302595604, 0.8761428492468408, 0.6670160135425023, 0.48373855304610314, 0.3155014472579608, 0.15580024666388428] # 0.9333333333333333
+    v = [1.501085946044025, 1.1331700302595604, 0.8761428492468408, 0.6670160135425023, 0.48373855304610314, 0.3155014472579608, 0.15580024666388428] # 0.9333333333333333
 
 
 
@@ -599,7 +599,9 @@ def quantize_blockwise(A: Tensor, code: Tensor = None, absmax: Tensor = None, ra
         assert rand is None
         lib.cquantize_blockwise_cpu_fp32(get_ptr(code), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_longlong(blocksize), ct.c_longlong(A.numel()))
 
-    return out, (absmax, code)
+    state = (absmax, code, blocksize)
+
+    return out, state
 
 
 def dequantize_blockwise(
@@ -644,9 +646,9 @@ def dequantize_blockwise(
     if out is None:
         out = torch.zeros_like(A, dtype=torch.float32)
     if quant_state is None:
-        quant_state = (absmax, code)
+        quant_state = (absmax, code, blocksize)
     else:
-        absmax, code = quant_state
+        absmax, code, blocksize = quant_state
 
 
     if A.device.type != 'cpu':
@@ -669,7 +671,7 @@ def dequantize_blockwise(
     return out
 
 
-def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64) -> Tensor:
+def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False) -> Tensor:
     """
     Quantize tensor A in blocks of FP4 values.
 
@@ -704,12 +706,11 @@ def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize
         blocks += 1 if n % blocksize > 0 else 0
         absmax = torch.zeros((blocks,), device=A.device)
 
-    state = (absmax, input_shape, A.dtype, blocksize)
 
     if out is None:
         out = torch.zeros(((n+1)//2, 1), dtype=torch.uint8, device=A.device)
 
-    assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64]
+    assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64, 32]
 
     prev_device = pre_call(A.device)
     is_on_gpu([A, out, absmax])
@@ -722,6 +723,17 @@ def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize
         raise ValueError(f"Blockwise quantization only supports 16/32-bit floats, but got {A.dtype}")
     post_call(A.device)
 
+    if compress_statistics:
+        offset = absmax.mean()
+        absmax -= offset
+        #code = create_custom_map().to(absmax.device)
+        #qabsmax, state2 = quantize_blockwise(absmax, code=code, blocksize=256)
+        qabsmax, state2 = quantize_blockwise(absmax, blocksize=256)
+        del absmax
+        state = (qabsmax, input_shape, A.dtype, blocksize, (offset, state2))
+    else:
+        state = (absmax, input_shape, A.dtype, blocksize, None)
+
     return out, state
 
 
@@ -756,8 +768,12 @@ def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax:
         shape = out.shape
         dtype = out.dtype
     else:
-        absmax, shape, dtype, blocksize = quant_state
+        absmax, shape, dtype, blocksize, compressed_stats = quant_state
 
+    if compressed_stats is not None:
+        offset, state2 = compressed_stats
+        absmax = dequantize_blockwise(absmax, state2)
+        absmax += offset
 
     if out is None:
         out = torch.empty(shape, dtype=dtype, device=A.device)
@@ -1986,8 +2002,6 @@ def spmm_coo_very_sparse(cooA, B, dequant_stats=None, out=None):
     ccolsB = ct.c_int32(B.shape[1])
     cldb = ct.c_int32(ldb)
     cldc = ct.c_int32(ldc)
-    # print(cooA.rowidx[:64])
-    # print(cooA.colidx[:64].sort()[0])
 
     is_on_gpu([cooA.rowidx, cooA.colidx, cooA.values, B, out, dequant_stats])
     if B.dtype == torch.float16:
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index a550ec1..45eef42 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -134,15 +134,17 @@ class Embedding(torch.nn.Embedding):
         return emb
 
 class FP4Params(torch.nn.Parameter):
-    def __new__(cls, data=None, requires_grad=True, quant_state=None):
+    def __new__(cls, data=None, requires_grad=True, quant_state=None, blocksize=64, compress_statistics=True):
         cls.quant_state = None
+        cls.blocksize = blocksize
+        cls.compress_statistics = compress_statistics
         if data is None:
             data = torch.empty(0)
         return torch.Tensor._make_subclass(cls, data, requires_grad)
 
     def cuda(self, device):
         w = self.data.contiguous().half().cuda(device)
-        w_fp4, quant_state = bnb.functional.quantize_fp4(w)
+        w_fp4, quant_state = bnb.functional.quantize_fp4(w, blocksize=self.blocksize, compress_statistics=self.compress_statistics)
         self.data = w_fp4
         self.quant_state = quant_state
 
@@ -173,10 +175,10 @@ class FP4Params(torch.nn.Parameter):
 
 
 class LinearFP4(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True, compute_dtype=None):
+    def __init__(self, input_features, output_features, bias=True, compute_dtype=None, compress_statistics=True):
         super().__init__(input_features, output_features, bias)
         self.state = bnb.MatmulLtState()
-        self.weight = FP4Params(self.weight.data, requires_grad=False)
+        self.weight = FP4Params(self.weight.data, requires_grad=False, compress_statistics=compress_statistics)
         self.compute_dtype = compute_dtype
 
     def init_8bit_state(self):
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index 436c6b1..4356c1d 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -454,14 +454,15 @@ for c in req_grad:
 transpose = [(False, True), (False, False)]
 str_transpose = ["NT", "NN"]
 dtype = [torch.float16, torch.float32]
+compress_statistics = [False, True]
 has_fp16_weights = [True, False]
 has_bias = [True, False]
-values = list(product(dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias))
-str_values = list(product(dim1, dim2, dim3, dim4, str_funcs, dtype, req_grad_str, str_transpose, has_bias))
-names = ["dim1_{}_dim2_{}_dim3_{}_dim4_{}_func_{}_dtype_{}_requires_grad_{}_transpose_{}_has_bias_{}".format(*vals) for vals in str_values]
+values = list(product(dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics))
+str_values = list(product(dim1, dim2, dim3, dim4, str_funcs, dtype, req_grad_str, str_transpose, has_bias, compress_statistics))
+names = ["dim1_{}_dim2_{}_dim3_{}_dim4_{}_func_{}_dtype_{}_requires_grad_{}_transpose_{}_has_bias_{}_compress_statistics".format(*vals) for vals in str_values]
 @pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
-@pytest.mark.parametrize( "dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias", values, ids=names)
-def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias):
+@pytest.mark.parametrize( "dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics", values, ids=names)
+def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics):
     dimA = (dim2, dim3) if not transpose[0] else (dim3, dim2)
     dimB = (dim3, dim4) if not transpose[1] else (dim4, dim3)
     if has_bias == False:
@@ -481,7 +482,7 @@ def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
                 bias2 = bias.clone()
             torch.nn.init.xavier_uniform_(B)
 
-            B2, quant_state = bnb.functional.quantize_fp4(B)
+            B2, quant_state = bnb.functional.quantize_fp4(B, compress_statistics=compress_statistics)
 
             if not transpose[0] and transpose[1]:
                 out_torch = funcs[0](A, B.t())
diff --git a/tests/test_functional.py b/tests/test_functional.py
index cd4728e..a974701 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -167,8 +167,8 @@ def test_dynamic_blockwise_quantization():
         relerr = sum(reldiffs)/len(reldiffs)
         assert abserr < 0.011
         assert relerr < 0.018
-        print('randn', blocksize, sum(diffs)/len(diffs))
-        print('randn', blocksize, sum(reldiffs)/len(reldiffs))
+        #print('randn', blocksize, sum(diffs)/len(diffs))
+        #print('randn', blocksize, sum(reldiffs)/len(reldiffs))
 
         diffs = []
         for i in range(100):
@@ -184,8 +184,8 @@ def test_dynamic_blockwise_quantization():
         relerr = sum(reldiffs)/len(reldiffs)
         assert abserr < 0.0035
         assert relerr < 0.015
-        print('rand', blocksize, sum(diffs)/len(diffs))
-        print('rand', blocksize, sum(reldiffs)/len(reldiffs))
+        #print('rand', blocksize, sum(diffs)/len(diffs))
+        #print('rand', blocksize, sum(reldiffs)/len(reldiffs))
 
 
 def test_dynamic_blockwise_stochastic_quantization():
@@ -1806,6 +1806,7 @@ def test_bench_matmul(batch, seq, model, hidden):
     torch.nn.init.xavier_uniform_(B)
 
     B_fp4, state = F.quantize_fp4(B)
+    B_fp4_c, state_c = F.quantize_fp4(B, compress_statistics=True)
 
     linear8bit = bnb.nn.Linear8bitLt(model, hidden, False).cuda().half()
     linear8bit.eval()
@@ -1839,6 +1840,13 @@ def test_bench_matmul(batch, seq, model, hidden):
     torch.cuda.synchronize()
     print( f"bnb fp4: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
 
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        bnb.matmul_fp4(A, B_fp4.t(), quant_state=state_c)
+    torch.cuda.synchronize()
+    print( f"bnb fp4 + compressed stats: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
+
     #torch.cuda.synchronize()
     #t0 = time.time()
     #for i in range(iters):
@@ -2244,6 +2252,42 @@ def test_fp4_quant():
     assert relerr.item() < 0.28
 
 
+def test_fp4_compressed_stats():
+    for blocksize in [128, 64]:
+        errs1 = []
+        errs2 = []
+        for i in range(10):
+            A1 = torch.randn(1024, 1024, device='cuda').half()
+            q2, SA2 = F.quantize_fp4(A1, blocksize=blocksize)
+            q3, SA3= F.quantize_fp4(A1, blocksize=blocksize, compress_statistics=True)
+            A2 = F.dequantize_fp4(q2, SA2)
+            A3 = F.dequantize_fp4(q3, SA3)
+
+
+            err = (A1 - A2).abs().float()
+            relerr = (err/(A1.abs().float()+1e-15)).mean()
+            err = err.mean()
+
+            errs1.append(err.item())
+
+            assert err.item() < 0.11
+            assert relerr.item() < 0.28
+
+            err = (A1 - A3).abs().float()
+            relerr = (err/(A1.abs().float()+1e-15)).mean()
+            err = err.mean()
+
+            errs2.append(err.item())
+
+            assert err.item() < 0.11
+            assert relerr.item() < 0.28
+
+        #print(sum(errs1)/len(errs1), blocksize)
+        #print(sum(errs2)/len(errs2), blocksize)
+
+
+
+
 def test_bench_fp4_dequant():
     blocksize = 256
     a = torch.rand(1024*12*4, 1024*12, device='cuda').half()
diff --git a/tests/test_modules.py b/tests/test_modules.py
index 41cc050..d0f5ca2 100644
--- a/tests/test_modules.py
+++ b/tests/test_modules.py
@@ -507,7 +507,7 @@ def test_linear_kbit_fp32_bias(module):
         assert l1.bias is None
 
 @pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
-@pytest.mark.parametrize("module", [bnb.nn.Linear8bitLt, bnb.nn.LinearFP4], ids=['Int8Lt', 'FP4'])
+@pytest.mark.parametrize("module", [bnb.nn.Linear8bitLt, bnb.nn.LinearFP4, lambda d1, d2: bnb.nn.LinearFP4(d1, d2, compress_statistics=True)], ids=['Int8Lt', 'FP4', 'FP4+C'])
 def test_kbit_backprop(module):
     b = 17
     dim1 = 37

From eb6c53cf557adda4e207669ed7b14ddca68a51c7 Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-44-155.ec2.internal>
Date: Sat, 1 Apr 2023 23:50:12 +0000
Subject: [PATCH 32/97] clarify in readme

---
 speed_benchmark/README.md               | 4 ++--
 speed_benchmark/make_plot_with_jsonl.py | 1 +
 speed_benchmark/speed_benchmark.py      | 3 ++-
 3 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/speed_benchmark/README.md b/speed_benchmark/README.md
index 80cbeee..bb33b5b 100644
--- a/speed_benchmark/README.md
+++ b/speed_benchmark/README.md
@@ -1,4 +1,4 @@
 Steps:
 
-1. Run `python speed_benchmark/speed_benchmark.py` which times operations and writes their time to `speed_benchmark/info_a100_py2.jsonl` (feel free to change the name for your profiling).
-2. Run `python speed_benchmark/make_plot_with_jsonl.py`, which produces the `speed_benchmark/plot_with_info.pdf`.
\ No newline at end of file
+1. Run `python speed_benchmark/speed_benchmark.py` which times operations and writes their time to `speed_benchmark/info_a100_py2.jsonl` (change the name of the jsonl to a different name for your profiling).
+2. Run `python speed_benchmark/make_plot_with_jsonl.py`, which produces the `speed_benchmark/plot_with_info.pdf`. Again make sure you change the jsonl which is being processed.
\ No newline at end of file
diff --git a/speed_benchmark/make_plot_with_jsonl.py b/speed_benchmark/make_plot_with_jsonl.py
index 0920851..8897564 100644
--- a/speed_benchmark/make_plot_with_jsonl.py
+++ b/speed_benchmark/make_plot_with_jsonl.py
@@ -20,6 +20,7 @@ if __name__ == '__main__':
 
     ax = fig.add_subplot(gs[0, 0])
 
+    # TODO: change this to what you want.
     rdf = pd.read_json('speed_benchmark/info_a100_py2.jsonl', lines=True)
     df = rdf[rdf.batch_size == batch_size_for_plot1]
 
diff --git a/speed_benchmark/speed_benchmark.py b/speed_benchmark/speed_benchmark.py
index bd8a6e5..eccc455 100644
--- a/speed_benchmark/speed_benchmark.py
+++ b/speed_benchmark/speed_benchmark.py
@@ -97,5 +97,6 @@ if __name__ == '__main__':
 
                 info_json = json.dumps(info)
 
-                with open("speed_benchmark/info_a100_py2.jsonl", "a") as file:
+                # TODO: change this to what you want.
+                with open("speed_benchmark/info.jsonl", "a") as file:
                     file.write(info_json + "\n")

From 2dd5d69056e3b94f0462dd9ce6aaff7a89294d23 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 2 Apr 2023 12:42:01 -0700
Subject: [PATCH 33/97] Generalized FP4 data type.

---
 csrc/kernels.cu          | 144 ++++++++++++++++++++++-----------------
 tests/test_functional.py |  10 +--
 2 files changed, 88 insertions(+), 66 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index e7e57d7..2e61297 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -64,6 +64,33 @@ __device__ float dDequantizeFP4(unsigned char val, float absmax)
   }
 }
 
+__device__ float dDequantizeFP4Tree(unsigned char val, float absmax)
+{
+  float sign = (val & 0b1000) == 8 ? -1.0f : 1.0f;
+  if((val & 0b0100) == 4) // 0
+    if((val & 0b0010) == 2) //01
+      if((val & 0b0001) == 1) // 111
+        return 0.25000000f*absmax*sign; // 1111
+      else
+        return 0.16666667f*absmax*sign; // 1110
+    else
+      if((val & 0b0001) == 1) // 110
+        return 0.50000000f*absmax*sign; // 1101
+      else
+        return 0.33333333f*absmax*sign; // 1100
+  else
+    if((val & 0b0010) == 2) //10
+      if((val & 0b0001) == 1) // 101
+        return 1.00000000f*absmax*sign; // 1011
+      else
+        return 0.66666667f*absmax*sign; // 1010
+    else 
+      if((val & 0b0001) == 1) // 100
+        return 5.208333333e-03f*absmax*sign; // 1001
+      else
+        return 0.00000000f*absmax*sign; // 1000
+}
+
 __device__ unsigned char dQuantizeFP4(float x)
 {
   // FP4 with bias of 3
@@ -78,42 +105,79 @@ __device__ unsigned char dQuantizeFP4(float x)
   // 0b010 = 8
   // 0b011 = 12
 
+
+  // we do a binary search
+  // the pivots are divided by 12 (the FP4 absmax)
+  // since we assum input data is in [-1.0, 1.0]
+
+  // !be careful here, its easy to make a mistake
+  // that is difficult to noice if you add an extra
+  // zero somewhere!
+
+  int sign = x < 0 ? 0b1000 : 0b0000;
+  x = fabsf(x);
+  if(x > 0.29166667f)
+    if( x > 0.583333f)
+      if( x > 0.8333333f)
+        return 0b0011+sign;
+      else
+        return 0b0010+sign;
+    else
+      if(x > 0.4166667f)
+        return 0b101+sign;
+      else
+        return 0b100+sign;
+  else
+    if(x > 0.0859375f)
+      if(x > 0.20833333f)
+        return 0b0111+sign;
+      else
+        return 0b0110+sign;
+    else
+      if(x > 0.00260417f)
+        return 0b0001+sign;
+      else
+        return 0b0000+sign;
+}
+
+__device__ unsigned char dQuantizeNormal(float x)
+{
+  // FP4 with bias of 3
+  // first bit is a sign
+  // subnormals
+  // 0b000 = 0
+  // 0b001 = 0.0625
+  // 0b110 = 2
+  // 0b111 = 3
+  // 0b100 = 4
+  // 0b101 = 6
+  // 0b010 = 8
+  // 0b011 = 12
+
   int sign = x < 0 ? 0b1000 : 0b0000;
   x = fabsf(x);
   if(x > 3.5f)
-  {
     if( x > 7.0f)
-    {
       if( x > 10.0f)
         return 0b0011+sign;
       else
         return 0b0010+sign;
-    }
     else
-    {
       if(x > 5.0f)
         return 0b101+sign;
       else
         return 0b100+sign;
-    }
-  }
   else
-  {
     if(x > 1.03125f)
-    {
       if(x > 2.5f)
         return 0b0111+sign;
       else
         return 0b0110+sign;
-    }
     else
-    {
       if(x > 0.03125f)
         return 0b0001+sign;
       else
         return 0b0000+sign;
-    }
-  }
 }
 
 template <int STOCHASTIC>
@@ -575,8 +639,8 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
       for(int j = 0; j < NUM_PER_TH/2; j++)
       {
         unsigned char packed_fp4 = 0;
-        packed_fp4 |= dQuantizeFP4(((float)vals[2*j])*local_abs_max*12.0f) << 4;
-        packed_fp4 |= dQuantizeFP4(((float)vals[2*j+1])*local_abs_max*12.0f);
+        packed_fp4 |= dQuantizeFP4(((float)vals[2*j])*local_abs_max) << 4;
+        packed_fp4 |= dQuantizeFP4(((float)vals[2*j+1])*local_abs_max);
         qvals[j] = packed_fp4;
       }
     }
@@ -639,8 +703,10 @@ __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * abs
         #pragma unroll NUM_PER_TH
         for(int j = 0; j < NUM_PER_TH; j++)
         {
-          vals[j*2] = dDequantizeFP4(qvals[j] >> 4, local_abs_max*0.083333f);
-          vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*0.083333);
+          //vals[j*2] = dDequantizeFP4(qvals[j] >> 4, local_abs_max*0.083333f);
+          //vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*0.083333);
+          vals[j*2] = dDequantizeFP4Tree(qvals[j] >> 4, local_abs_max);
+          vals[j*2 + 1] = dDequantizeFP4Tree(qvals[j] & 0x0F, local_abs_max);
         }
       }
       else
@@ -656,52 +722,6 @@ __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * abs
   }
 }
 
-//template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH, int TILE_SIZE>
-//__global__ void kDequantizeBlockwiseFP4(unsigned char * A, float * absmax, T *out, const int n_store)
-//{
-//
-//  const int n_load = n_store/2;
-//  const int base_idx = (blockIdx.x * TILE_SIZE);
-//
-//  T vals[NUM_PER_TH*2];
-//  unsigned char qvals[NUM_PER_TH];
-//
-//  int valid_items = (base_idx + TILE_SIZE) > n_load ? ((base_idx+TILE_SIZE) - n_load) : TILE_SIZE;
-//  int idx = base_idx + (threadIdx.x*NUM_PER_TH);
-//
-//  float local_abs_max = __ldg(&absmax[idx/BLOCK_SIZE]);
-//
-//  if(valid_items == TILE_SIZE)
-//  {
-//    // we do 64 byte loads so we can 128 byte stores
-//    reinterpret_cast<int2(&)[NUM_PER_THREAD/8]>(qvals)[0] = reinterpret_cast<int2*>(A)[idx/8];
-//  }
-//  else
-//  {
-//    #pragma unroll
-//    for(int j = 0; j < NUM_PER_TH; j++)
-//      if(idx+j < n_load)
-//        qvals[j] = A[idx+j];
-//      else
-//        qvals[j] = 0;
-//  }
-//
-//
-//  #pragma unroll NUM_PER_TH
-//  for(int j = 0; j < NUM_PER_TH; j++)
-//  {
-//    vals[j*2] = dDequantizeFP4(qvals[j] & 0xF0, local_abs_max*12.0f);
-//    vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*12.0f);
-//  }
-//
-//
-//  reinterpret_cast<int4(&)[NUM_PER_THREAD/8]>(qvals)[0] = reinterpret_cast<int4*>(A)[idx/8];
-//  reinterpret_cast<int4*>(A)[idx/16] = reinterpret_cast<int4(&)[16]>(local_valC)[j/num_items];
-//
-//
-//}
-
-
 __global__ void kDequantize(float *code, unsigned char *A, float *out, const int n)
 {
 	const unsigned int numThreads = blockDim.x * gridDim.x;
diff --git a/tests/test_functional.py b/tests/test_functional.py
index a974701..12411e3 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2246,8 +2246,10 @@ def test_fp4_quant():
 
     err = (A1 - A2).abs().float()
     relerr = (err/A1.abs().float()).mean()
+    idx = err > 1.0
     err = err.mean()
 
+
     assert err.item() < 0.1
     assert relerr.item() < 0.28
 
@@ -2256,7 +2258,7 @@ def test_fp4_compressed_stats():
     for blocksize in [128, 64]:
         errs1 = []
         errs2 = []
-        for i in range(10):
+        for i in range(10000):
             A1 = torch.randn(1024, 1024, device='cuda').half()
             q2, SA2 = F.quantize_fp4(A1, blocksize=blocksize)
             q3, SA3= F.quantize_fp4(A1, blocksize=blocksize, compress_statistics=True)
@@ -2268,7 +2270,7 @@ def test_fp4_compressed_stats():
             relerr = (err/(A1.abs().float()+1e-15)).mean()
             err = err.mean()
 
-            errs1.append(err.item())
+            errs1.append(relerr.item())
 
             assert err.item() < 0.11
             assert relerr.item() < 0.28
@@ -2277,7 +2279,7 @@ def test_fp4_compressed_stats():
             relerr = (err/(A1.abs().float()+1e-15)).mean()
             err = err.mean()
 
-            errs2.append(err.item())
+            errs2.append(relerr.item())
 
             assert err.item() < 0.11
             assert relerr.item() < 0.28
@@ -2301,7 +2303,7 @@ def test_bench_fp4_dequant():
     #print(max_theoretical_s*1e6)
     b = torch.randn(128, 1024*12, device='cuda').half()
 
-    iters = 5
+    iters = 500
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(iters):

From 0d332a641ff6b28e71b2a9ab5e641f8cf4a2ec99 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 2 Apr 2023 14:09:08 -0700
Subject: [PATCH 34/97] Added normal with extra value.

---
 bitsandbytes/functional.py | 28 +++++++++++++++++++++++-----
 tests/test_functional.py   |  3 ---
 2 files changed, 23 insertions(+), 8 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 8234c46..161f58f 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -9,7 +9,7 @@ import random
 import torch
 import itertools
 import math
-import scipy.stats
+from scipy.stats import norm
 import numpy as np
 
 from functools import reduce  # Required in Python 3
@@ -181,7 +181,7 @@ def create_custom_map(seed=0, scale=0.01):
     #v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.207
     #v = [1.6118251211466303, 1.188665228776879, 0.9112895004060624, 0.690763326564427, 0.4997008778346997, 0.3254280317127771, 0.16057446047146948] # 0.9465 24.30
     #v = [1.6027040905517569, 1.184321770169049, 0.9085808314549837, 0.6889461706317986, 0.4984841229538408, 0.32467299997597887, 0.1602117348657326] # 0.9455 24.293
-    #v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.37 22.88
+    v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.37 22.88
 
     # 7B evo start 
     #v = [1.62129629, 1.18870191, 0.90848106, 0.69108646, 0.50515268, 0.34927819905,  0.14122701] # 22.06
@@ -197,9 +197,7 @@ def create_custom_map(seed=0, scale=0.01):
     #v = [1.5993337549066253, 1.1965624035328402, 0.9000864380418481, 0.6925840978034195, 0.5011181210961458, 0.32040328389777434, 0.13570386022711237]
 
     # theoretically optiomal (0.93333)
-    v = [1.501085946044025, 1.1331700302595604, 0.8761428492468408, 0.6670160135425023, 0.48373855304610314, 0.3155014472579608, 0.15580024666388428] # 0.9333333333333333
-
-
+    #v = [1.501085946044025, 1.1331700302595604, 0.8761428492468408, 0.6670160135425023, 0.48373855304610314, 0.3155014472579608, 0.15580024666388428] # 0.9333333333333333
 
     if seed > 0:
         v = np.array(v)
@@ -220,6 +218,26 @@ def create_custom_map(seed=0, scale=0.01):
     assert values.numel() == 256
     return values
 
+def create_normal_map(offset=0.966666, use_extra_value=True):
+
+    if use_extra_value:
+        # one more positive value, this is an asymmetric type
+        v1 = norm.ppf(torch.linspace(offset, 0.5, 9)[:-1]).tolist()
+        v2 = [0]*(256-15) ## we have 15 non-zero values in this data type
+        v3 = (-norm.ppf(torch.linspace(offset, 0.5, 8)[:-1])).tolist()
+        v = v1 + v2 + v3
+    else:
+        v1 = norm.ppf(torch.linspace(offset, 0.5, 8)[:-1]).tolist()
+        v2 = [0]*(256-14) ## we have 14 non-zero values in this data type
+        v3 = (-norm.ppf(torch.linspace(offset, 0.5, 8)[:-1])).tolist()
+        v = v1 + v2 + v3
+
+    values = torch.Tensor(v)
+    values = values.sort().values
+    values /= values.max()
+    assert values.numel() == 256
+    return values
+
 def create_fp8_map(signed=True, exponent_bits=5, precision_bits=2, total_bits=8):
     e = exponent_bits
     p = precision_bits
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 12411e3..47a30a6 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2318,6 +2318,3 @@ def test_bench_fp4_dequant():
     #    torch.matmul(b, a.t())
     #torch.cuda.synchronize()
     #print((time.time()-t0)/iters*1e6)
-
-
-

From 4ad999d1440e896abec3f3c7029f292ce46cc820 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 2 Apr 2023 14:42:45 -0700
Subject: [PATCH 35/97] Added quantization tree generation.

---
 bitsandbytes/functional.py |  2 +-
 tests/test_functional.py   | 16 ++++++++++++++++
 2 files changed, 17 insertions(+), 1 deletion(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 161f58f..5198526 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -218,7 +218,7 @@ def create_custom_map(seed=0, scale=0.01):
     assert values.numel() == 256
     return values
 
-def create_normal_map(offset=0.966666, use_extra_value=True):
+def create_normal_map(offset=0.9677083, use_extra_value=True):
 
     if use_extra_value:
         # one more positive value, this is an asymmetric type
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 47a30a6..074135e 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2318,3 +2318,19 @@ def test_bench_fp4_dequant():
     #    torch.matmul(b, a.t())
     #torch.cuda.synchronize()
     #print((time.time()-t0)/iters*1e6)
+
+
+
+def test_normal_map_tree():
+    code = F.create_normal_map()
+    values =code[:8].tolist() + code[-8:].tolist()
+    num_pivots = 1
+    while num_pivots <16:
+        idx = list(range(16//num_pivots//2, 16, 16//num_pivots))
+        print(idx)
+        num_pivots *= 2
+        pivots = []
+        for i in idx:
+            pivots.append((values[i-1]+values[i])/2)
+        print(pivots)
+

From 64cc05920d0e506e41e814b9ef6053923d967a95 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 2 Apr 2023 16:10:35 -0700
Subject: [PATCH 36/97] First draft of NF4.

---
 bitsandbytes/functional.py |  44 +++++-
 csrc/kernels.cu            | 271 +++++++++++++++++++++++++------------
 csrc/kernels.cuh           |   4 +-
 csrc/ops.cu                |  50 +++----
 csrc/ops.cuh               |  11 +-
 csrc/pythonInterface.c     |  28 ++--
 tests/test_functional.py   |  23 ++--
 7 files changed, 289 insertions(+), 142 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 5198526..83c2605 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -688,8 +688,13 @@ def dequantize_blockwise(
 
     return out
 
+def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False):
+    return quantize_4bit_packed(A, absmax, out, blocksize, compress_statistics, 'fp4')
 
-def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False) -> Tensor:
+def quantize_nf4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False):
+    return quantize_4bit_packed(A, absmax, out, blocksize, compress_statistics, 'nf4')
+
+def quantize_4bit_packed(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False, quant_type='fp4') -> Tensor:
     """
     Quantize tensor A in blocks of FP4 values.
 
@@ -705,6 +710,8 @@ def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize
         The output tensor (8-bit).
     blocksize : int
         The blocksize used in quantization.
+    quant_type : str
+        The 4-bit quantization data type {fp4, nf4}
 
     Returns
     -------
@@ -715,6 +722,8 @@ def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize
     """
     if A.device.type != 'cuda':
         raise NotImplementedError(f'Device type not supported for FP4 quantization: {A.device.type}')
+    if quant_type not in ['fp4', 'nf4']:
+        raise NotImplementedError(f'4-bit quantization data type {quant_type} is not implemented.')
 
     n = A.numel()
     input_shape = A.shape
@@ -734,9 +743,15 @@ def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize
     is_on_gpu([A, out, absmax])
 
     if A.dtype == torch.float32:
-        lib.cquantize_blockwise_fp32_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int32(blocksize), ct.c_int(n))
+        if quant_type == 'fp4':
+            lib.cquantize_blockwise_fp32_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int32(blocksize), ct.c_int(n))
+        else:
+            lib.cquantize_blockwise_fp32_nf4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int32(blocksize), ct.c_int(n))
     elif A.dtype == torch.float16:
-        lib.cquantize_blockwise_fp16_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int32(blocksize), ct.c_int(n))
+        if quant_type == 'fp4':
+            lib.cquantize_blockwise_fp16_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int32(blocksize), ct.c_int(n))
+        else:
+            lib.cquantize_blockwise_fp16_nf4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int32(blocksize), ct.c_int(n))
     else:
         raise ValueError(f"Blockwise quantization only supports 16/32-bit floats, but got {A.dtype}")
     post_call(A.device)
@@ -754,8 +769,13 @@ def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize
 
     return out, state
 
+def dequantize_fp4(A: Tensor, quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64) -> Tensor:
+    return dequantize_4bit_packed(A, quant_state, absmax, out, blocksize, 'fp4')
 
-def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64) -> Tensor:
+def dequantize_nf4(A: Tensor, quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64) -> Tensor:
+    return dequantize_4bit_packed(A, quant_state, absmax, out, blocksize, 'nf4')
+
+def dequantize_4bit_packed(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64, quant_type='fp4') -> Tensor:
     """
     Dequantizes FP4 blockwise quantized values.
 
@@ -771,6 +791,10 @@ def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax:
         The absmax values.
     out : torch.Tensor
         Dequantized output tensor.
+    blocksize : int
+        The blocksize used in quantization.
+    quant_type : str
+        The 4-bit quantization data type {fp4, nf4}
 
 
     Returns
@@ -780,6 +804,8 @@ def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax:
     """
     if blocksize not in [2048, 4096, 1024, 512, 256, 128, 64]:
         raise ValueError(f"The blockwise of {blocksize} is not supported. Supported values: [2048, 4096, 1024, 512, 256, 128, 64]")
+    if quant_type not in ['fp4', 'nf4']:
+        raise NotImplementedError(f'4-bit quantization data type {quant_type} is not implemented.')
 
     if quant_state is None:
         assert absmax is not None and out is not None
@@ -802,9 +828,15 @@ def dequantize_fp4(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax:
     device = pre_call(A.device)
     is_on_gpu([A, absmax, out])
     if out.dtype == torch.float32:
-        lib.cdequantize_blockwise_fp32_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(n))
+        if quant_type == 'fp4':
+            lib.cdequantize_blockwise_fp32_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(n))
+        else:
+            lib.cdequantize_blockwise_fp32_nf4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(n))
     elif out.dtype == torch.float16:
-        lib.cdequantize_blockwise_fp16_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(n))
+        if quant_type == 'fp4':
+            lib.cdequantize_blockwise_fp16_fp4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(n))
+        else:
+            lib.cdequantize_blockwise_fp16_nf4(get_ptr(None), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_int(blocksize), ct.c_int(n))
     else:
         raise ValueError(f"Blockwise quantization only supports 16/32-bit floats, but got {A.dtype}")
     post_call(A.device)
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 2e61297..0ed413f 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -140,44 +140,111 @@ __device__ unsigned char dQuantizeFP4(float x)
         return 0b0000+sign;
 }
 
+__device__ float dDequantizeNF4(unsigned char val, float absmax)
+{
+  // the values for this tree was generated by test_normal_map_tree
+  // in the file tests/test_functional.py
+  if((val & 0b1000) == 8)
+    if((val & 0b0100) == 4) // 1
+      if((val & 0b0010) == 2) // 11
+        if((val & 0b0001) == 1) // 111
+          return 1.0f*absmax; 
+        else
+          return 0.7229568362236023f*absmax;
+      else
+        if((val & 0b0001) == 1) // 110
+          return 0.5626170039176941f*absmax; 
+        else
+          return 0.44070982933044434f*absmax; 
+    else
+      if((val & 0b0010) == 2) //10
+        if((val & 0b0001) == 1) // 101
+          return 0.33791524171829224f*absmax; 
+        else
+          return 0.24611230194568634f*absmax; 
+      else 
+        if((val & 0b0001) == 1) // 100
+          return 0.16093020141124725f*absmax; 
+        else
+          return 0.07958029955625534f*absmax; 
+
+  else
+    if((val & 0b0100) == 4) // 0
+      if((val & 0b0010) == 2) //01
+        if((val & 0b0001) == 1) // 011
+          return 0.0f*absmax; 
+        else
+          return -0.09105003625154495f*absmax; 
+      else
+        if((val & 0b0001) == 1) // 010
+          return -0.18477343022823334f*absmax; 
+        else
+          return -0.28444138169288635f*absmax;
+    else
+      if((val & 0b0010) == 2) //00
+        if((val & 0b0001) == 1) // 001
+          return -0.39491748809814453f*absmax;
+        else
+          return -0.5250730514526367f*absmax; 
+      else 
+        if((val & 0b0001) == 1) // 000
+          return -0.6961928009986877f*absmax; 
+        else
+          return -1.0f*absmax; 
+
+}
+
 __device__ unsigned char dQuantizeNormal(float x)
 {
-  // FP4 with bias of 3
-  // first bit is a sign
-  // subnormals
-  // 0b000 = 0
-  // 0b001 = 0.0625
-  // 0b110 = 2
-  // 0b111 = 3
-  // 0b100 = 4
-  // 0b101 = 6
-  // 0b010 = 8
-  // 0b011 = 12
 
-  int sign = x < 0 ? 0b1000 : 0b0000;
-  x = fabsf(x);
-  if(x > 3.5f)
-    if( x > 7.0f)
-      if( x > 10.0f)
-        return 0b0011+sign;
+  // the values for this tree was generated by test_normal_map_tree
+  // in the file tests/test_functional.py
+  if(x > 0.03979014977812767f)
+    if(x > 0.3893125355243683f) // 1
+      if(x > 0.6427869200706482f) // 11
+        if(x > 0.8614784181118011f) // 111
+          return 0b1111;
+        else
+          return 0b1110;
       else
-        return 0b0010+sign;
+        if(x > 0.5016634166240692f) // 110
+          return 0b1101;
+        else
+          return 0b1100;
     else
-      if(x > 5.0f)
-        return 0b101+sign;
+      if(x > 0.2035212516784668f) // 10
+        if(x > 0.2920137718319893f) // 101
+          return 0b1011;
+        else
+          return 0b1010;
       else
-        return 0b100+sign;
+        if(x > 0.1202552504837513f) // 100
+          return 0b1001;
+        else
+          return 0b1100;
   else
-    if(x > 1.03125f)
-      if(x > 2.5f)
-        return 0b0111+sign;
+    if(x > -0.33967943489551544f) // 0
+      if(x > -0.13791173323988914f) // 01
+        if(x > -0.045525018125772476f) // 011
+          return 0b0111;
+        else
+          return 0b0110;
       else
-        return 0b0110+sign;
+        if(x > -0.23460740596055984f) // 010
+          return 0b0101;
+        else
+          return 0b0100;
     else
-      if(x > 0.03125f)
-        return 0b0001+sign;
+      if(x > -0.6106329262256622f) // 00
+        if(x > -0.4599952697753906f) // 001
+          return 0b0011;
+        else
+          return 0b0010;
       else
-        return 0b0000+sign;
+        if(x > -0.8480964004993439f) // 000
+          return 0b0001;
+        else
+          return 0b0000;
 }
 
 template <int STOCHASTIC>
@@ -564,7 +631,7 @@ __global__ void kQuantize(float * code, float * __restrict__ const A, unsigned c
   }
 }
 
-template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC, int FP4>
+template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC, int DATA_TYPE>
 //__launch_bounds__(TH, 4)
 __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n)
 {
@@ -574,13 +641,13 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
 
   T vals[NUM_PER_TH];
   float rand_vals[NUM_PER_TH];
-  unsigned char qvals[FP4 ? NUM_PER_TH/2 : NUM_PER_TH];
+  unsigned char qvals[(DATA_TYPE > 0) ? NUM_PER_TH/2 : NUM_PER_TH];
   //float local_abs_max = -FLT_MAX;
   float local_abs_max = 0.0f;
   int local_rand_idx = 0;
 
   typedef cub::BlockLoad<T, BLOCK_SIZE/NUM_PER_TH, NUM_PER_TH, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadT;
-  typedef cub::BlockStore<unsigned char, BLOCK_SIZE/NUM_PER_TH, FP4 ? NUM_PER_TH/2 : NUM_PER_TH, cub::BLOCK_STORE_WARP_TRANSPOSE> StoreChar;
+  typedef cub::BlockStore<unsigned char, BLOCK_SIZE/NUM_PER_TH, (DATA_TYPE > 0) ? NUM_PER_TH/2 : NUM_PER_TH, cub::BLOCK_STORE_WARP_TRANSPOSE> StoreChar;
   typedef cub::BlockReduce<float, BLOCK_SIZE/NUM_PER_TH> BlockReduce;
   typedef cub::BlockLoad<float, BLOCK_SIZE/NUM_PER_TH, NUM_PER_TH, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadFloat;
 
@@ -591,7 +658,7 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
   __shared__ float smem_code[256];
   __shared__ float smem_absmax_value[1];
 
-  if(!FP4)
+  if(DATA_TYPE == General8bit)
     for(int i = threadIdx.x; i < 256; i+=blockDim.x)
       smem_code[i] = code[i];
 
@@ -633,31 +700,41 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
       LoadFloat(loadf).Load(&rand[local_rand_idx], rand_vals, BLOCK_SIZE, 0);
     }
 
-    if(FP4)
+    unsigned char packed_4bit = 0;
+    switch(DATA_TYPE)
     {
-      #pragma unroll NUM_PER_TH
-      for(int j = 0; j < NUM_PER_TH/2; j++)
-      {
-        unsigned char packed_fp4 = 0;
-        packed_fp4 |= dQuantizeFP4(((float)vals[2*j])*local_abs_max) << 4;
-        packed_fp4 |= dQuantizeFP4(((float)vals[2*j+1])*local_abs_max);
-        qvals[j] = packed_fp4;
-      }
-    }
-    else
-    {
-      #pragma unroll NUM_PER_TH
-      for(int j = 0; j < NUM_PER_TH; j++)
-      {
-          if(!STOCHASTIC)
-           qvals[j] = dQuantize<0>(smem_code, 0.0f, ((float)vals[j])*local_abs_max);
-          else
-           qvals[j] = dQuantize<1>(smem_code, rand_vals[j], ((float)vals[j])*local_abs_max);
-      }
+        case General8bit:
+            #pragma unroll NUM_PER_TH
+            for(int j = 0; j < NUM_PER_TH; j++)
+            {
+                if(!STOCHASTIC)
+                 qvals[j] = dQuantize<0>(smem_code, 0.0f, ((float)vals[j])*local_abs_max);
+                else
+                 qvals[j] = dQuantize<1>(smem_code, rand_vals[j], ((float)vals[j])*local_abs_max);
+            }
+            break;
+        case FP4:
+            #pragma unroll NUM_PER_TH
+            for(int j = 0; j < NUM_PER_TH/2; j++)
+            {
+              packed_4bit |= dQuantizeFP4(((float)vals[2*j])*local_abs_max) << 4;
+              packed_4bit |= dQuantizeFP4(((float)vals[2*j+1])*local_abs_max);
+              qvals[j] = packed_4bit;
+            }
+            break;
+        case NF4:
+            #pragma unroll NUM_PER_TH
+            for(int j = 0; j < NUM_PER_TH/2; j++)
+            {
+              packed_4bit |= dQuantizeNormal(((float)vals[2*j])*local_abs_max) << 4;
+              packed_4bit |= dQuantizeNormal(((float)vals[2*j+1])*local_abs_max);
+              qvals[j] = packed_4bit;
+            }
+            break;
     }
 
     __syncthreads();
-    StoreChar(storec).Store(&(out[FP4 ? i/2 : i]), qvals, FP4 ? (valid_items+1)/2 : valid_items);
+    StoreChar(storec).Store(&(out[(DATA_TYPE > 0) ? i/2 : i]), qvals, (DATA_TYPE > 0) ? (valid_items+1)/2 : valid_items);
   }
 }
 
@@ -2957,44 +3034,60 @@ MAKE_optimizerStatic8bit2State(ADAM, float)
 template __global__ void kPercentileClipping<float, 2048, 4>(float * __restrict__ g, float *gnorm_vec, int step, const int n);
 template __global__ void kPercentileClipping<half, 2048, 4>(half * __restrict__ g, float *gnorm_vec, int step, const int n);
 
-template __global__ void kQuantizeBlockwise<half, 4096, 4, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 4096, 4, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 4096, 4, 1, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 4096, 4, 1, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 2048, 4, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 2048, 4, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 1024, 4, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 1024, 4, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 512, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 512, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 256, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 256, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 128, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 128, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 64, 2, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 64, 2, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 32, 1, 0, 0>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 32, 1, 0, 0>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+#define MAKE_kQuantizeBlockwise(dtype, blocksize, num_per_thread, stochastic, data_type_name) \
+template __global__ void kQuantizeBlockwise<dtype, blocksize, num_per_thread, stochastic, data_type_name>(float * code, dtype * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n); \
 
-template __global__ void kQuantizeBlockwise<half, 4096, 4, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 4096, 4, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 2048, 4, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 2048, 4, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 1024, 4, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 1024, 4, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 512, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 512, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 256, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 256, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 128, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 128, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<half, 64, 2, 0, 1>(float * code, half * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template __global__ void kQuantizeBlockwise<float, 64, 2, 0, 1>(float * code, float * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+MAKE_kQuantizeBlockwise(half,  4096, 4, 0, General8bit)
+MAKE_kQuantizeBlockwise(half,  4096, 4, 1, General8bit)
+MAKE_kQuantizeBlockwise(half,  2048, 4, 0, General8bit)
+MAKE_kQuantizeBlockwise(half,  1024, 4, 0, General8bit)
+MAKE_kQuantizeBlockwise(half,   512, 2, 0, General8bit)
+MAKE_kQuantizeBlockwise(half,   256, 2, 0, General8bit)
+MAKE_kQuantizeBlockwise(half,   128, 2, 0, General8bit)
+MAKE_kQuantizeBlockwise(half,    64, 2, 0, General8bit)
+MAKE_kQuantizeBlockwise(float, 4096, 4, 0, General8bit)
+MAKE_kQuantizeBlockwise(float, 4096, 4, 1, General8bit)
+MAKE_kQuantizeBlockwise(float, 2048, 4, 0, General8bit)
+MAKE_kQuantizeBlockwise(float, 1024, 4, 0, General8bit)
+MAKE_kQuantizeBlockwise(float,  512, 2, 0, General8bit)
+MAKE_kQuantizeBlockwise(float,  256, 2, 0, General8bit)
+MAKE_kQuantizeBlockwise(float,  128, 2, 0, General8bit)
+MAKE_kQuantizeBlockwise(float,   64, 2, 0, General8bit)
+MAKE_kQuantizeBlockwise(half,  4096, 4, 0, FP4)
+MAKE_kQuantizeBlockwise(half,  2048, 4, 0, FP4)
+MAKE_kQuantizeBlockwise(half,  1024, 4, 0, FP4)
+MAKE_kQuantizeBlockwise(half,   512, 2, 0, FP4)
+MAKE_kQuantizeBlockwise(half,   256, 2, 0, FP4)
+MAKE_kQuantizeBlockwise(half,   128, 2, 0, FP4)
+MAKE_kQuantizeBlockwise(half,    64, 2, 0, FP4)
+MAKE_kQuantizeBlockwise(float, 4096, 4, 0, FP4)
+MAKE_kQuantizeBlockwise(float, 2048, 4, 0, FP4)
+MAKE_kQuantizeBlockwise(float, 1024, 4, 0, FP4)
+MAKE_kQuantizeBlockwise(float,  512, 2, 0, FP4)
+MAKE_kQuantizeBlockwise(float,  256, 2, 0, FP4)
+MAKE_kQuantizeBlockwise(float,  128, 2, 0, FP4)
+MAKE_kQuantizeBlockwise(float,   64, 2, 0, FP4)
+MAKE_kQuantizeBlockwise(half,  4096, 4, 0, NF4)
+MAKE_kQuantizeBlockwise(half,  2048, 4, 0, NF4)
+MAKE_kQuantizeBlockwise(half,  1024, 4, 0, NF4)
+MAKE_kQuantizeBlockwise(half,   512, 2, 0, NF4)
+MAKE_kQuantizeBlockwise(half,   256, 2, 0, NF4)
+MAKE_kQuantizeBlockwise(half,   128, 2, 0, NF4)
+MAKE_kQuantizeBlockwise(half,    64, 2, 0, NF4)
+MAKE_kQuantizeBlockwise(float, 4096, 4, 0, NF4)
+MAKE_kQuantizeBlockwise(float, 2048, 4, 0, NF4)
+MAKE_kQuantizeBlockwise(float, 1024, 4, 0, NF4)
+MAKE_kQuantizeBlockwise(float,  512, 2, 0, NF4)
+MAKE_kQuantizeBlockwise(float,  256, 2, 0, NF4)
+MAKE_kQuantizeBlockwise(float,  128, 2, 0, NF4)
+MAKE_kQuantizeBlockwise(float,   64, 2, 0, NF4)
 
-template __global__ void kDequantizeBlockwise<half, 512, 64, 8, 1>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
-template __global__ void kDequantizeBlockwise<float, 512, 64, 8, 1>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
-template __global__ void kDequantizeBlockwise<half, 512, 64, 8, 0>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
-template __global__ void kDequantizeBlockwise<float, 512, 64, 8, 0>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<half, 512, 64, 8, FP4>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<float, 512, 64, 8, FP4>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<half, 512, 64, 8, General8bit>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<float, 512, 64, 8, General8bit>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<half, 512, 64, 8, NF4>(float *code, unsigned char * A, float * absmax, half *out, const int blocksize, const int n);
+template __global__ void kDequantizeBlockwise<float, 512, 64, 8, NF4>(float *code, unsigned char * A, float * absmax, float *out, const int blocksize, const int n);
 
 
 #define MAKE_OptimizerStatic8bit2StateBlockwise(oname, gtype, block_size, num_per_thread) \
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index 23aad6c..ed549cb 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -14,8 +14,8 @@ template<typename T>__global__ void kEstimateQuantiles(T *__restrict__ const A,
 __global__ void kQuantize(float * code, float * __restrict__ const A, unsigned char *out, const int n);
 __global__ void kDequantize(float *code, unsigned char *A, float *out, const int n);
 
-template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC, int FP4> __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH, int FP4> __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * absmax, T *out, const int blocksize, const int n);
+template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC, int DATA_TYPE> __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
+template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH, int DATA_TYPE> __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * absmax, T *out, const int blocksize, const int n);
 
 template<typename T, int OPTIMIZER, int BLOCK_SIZE, int NUM_VALS>
 __global__ void kPreconditionOptimizer32bit2State(T* g, T* p,
diff --git a/csrc/ops.cu b/csrc/ops.cu
index a5a23b5..de14039 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -50,7 +50,7 @@ void dequantize(float *code, unsigned char *A, float *out, int n)
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
 
-template <typename T, int STOCHASTIC, int FP4> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float *rand, int rand_offset, int blocksize, const int n)
+template <typename T, int STOCHASTIC, int DATA_TYPE> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float *rand, int rand_offset, int blocksize, const int n)
 {
   int num_blocks = n/blocksize;
   num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
@@ -60,34 +60,32 @@ template <typename T, int STOCHASTIC, int FP4> void quantizeBlockwise(float * co
   if(blocksize == 4096)
     kQuantizeBlockwise<T, 4096, 4, STOCHASTIC, 0><<<num_blocks, 1024>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 2048)
-    kQuantizeBlockwise<T, 2048, 4, 0, FP4><<<num_blocks, 512>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 2048, 4, 0, DATA_TYPE><<<num_blocks, 512>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 1024)
-    kQuantizeBlockwise<T, 1024, 4, 0, FP4><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 1024, 4, 0, DATA_TYPE><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 512)
-    kQuantizeBlockwise<T, 512, 2, 0, FP4><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 512, 2, 0, DATA_TYPE><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 256)
-    kQuantizeBlockwise<T, 256, 2, 0, FP4><<<num_blocks, 128>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 256, 2, 0, DATA_TYPE><<<num_blocks, 128>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 128)
-    kQuantizeBlockwise<T, 128, 2, 0, FP4><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 128, 2, 0, DATA_TYPE><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
   else if(blocksize == 64)
-    kQuantizeBlockwise<T, 64, 2, 0, FP4><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
-  else if(blocksize == 32 and FP4 == 0)
-    kQuantizeBlockwise<T, 32, 1, 0, FP4><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
+    kQuantizeBlockwise<T, 64, 2, 0, DATA_TYPE><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
 
 
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
 
-template<typename T, int FP4> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int blocksize, const int n)
+template<typename T, int DATA_TYPE> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int blocksize, const int n)
 {
   int num_blocks = n/blocksize;
   num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
-  int tile_size = FP4 ? 1024 : 512;
+  int tile_size = (DATA_TYPE > 0) ? 1024 : 512;
 
-  if(FP4)
-    kDequantizeBlockwise<T, 512, 64, 8, FP4><<<(n+tile_size-1)/tile_size, 64>>>(code, A, absmax, out, blocksize/2, n);
+  if(DATA_TYPE > 0)
+    kDequantizeBlockwise<T, 512, 64, 8, DATA_TYPE><<<(n+tile_size-1)/tile_size, 64>>>(code, A, absmax, out, blocksize/2, n);
   else
-    kDequantizeBlockwise<T, 512, 64, 8, FP4><<<(n+tile_size-1)/tile_size, 64>>>(code, A, absmax, out, blocksize, n);
+    kDequantizeBlockwise<T, 512, 64, 8, DATA_TYPE><<<(n+tile_size-1)/tile_size, 64>>>(code, A, absmax, out, blocksize, n);
 
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
@@ -682,16 +680,20 @@ template void transformRowToFormat<COL_AMPERE, 1>(char * A, char *out, int rows,
 template void estimateQuantiles(half *A, float *code, float offset, int n);
 template void estimateQuantiles(float *A, float *code, float offset, int n);
 
-template void quantizeBlockwise<half, 0, 0>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 0, 0>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<half, 0, 1>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 0, 1>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<half, 1, 0>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 1, 0>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void dequantizeBlockwise<half, 0>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n);
-template void dequantizeBlockwise<float, 0>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n);
-template void dequantizeBlockwise<half, 1>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n);
-template void dequantizeBlockwise<float, 1>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n);
+template void quantizeBlockwise<half, 1, General8bit>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<float, 1, General8bit>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<half, 0, General8bit>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<float, 0, General8bit>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<half, 0, FP4>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<float, 0, FP4>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<half, 0, NF4>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void quantizeBlockwise<float, 0, NF4>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template void dequantizeBlockwise<half, General8bit>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n);
+template void dequantizeBlockwise<float, General8bit>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n);
+template void dequantizeBlockwise<half, FP4>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n);
+template void dequantizeBlockwise<float, FP4>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n);
+template void dequantizeBlockwise<half, NF4>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n);
+template void dequantizeBlockwise<float, NF4>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n);
 
 #define MAKE_optimizer32bit(name, gtype) \
 template void optimizer32bit<gtype, name>(gtype* g, gtype* p, \
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index b3e2424..f73d4e0 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -81,6 +81,13 @@ typedef enum Transform_t
   COL_AMPERE = 4,
 } Transform_t;
 
+typedef enum DataType_t
+{
+	General8bit = 0,
+	FP4 = 1,
+  NF4 = 2,
+} DataType_t;
+
 class Context
 {
     public:
@@ -128,8 +135,8 @@ template <typename T> void estimateQuantiles(T *A, float *code, float offset, in
 
 void quantize(float *code, float *A, unsigned char *out, int n);
 void dequantize(float *code, unsigned char *A, float *out, int n);
-template <typename T, int STOCHASTIC, int FP4> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template<typename T, int FP4> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int block_size, const int n);
+template <typename T, int STOCHASTIC, int DATA_TYPE> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
+template<typename T, int DATA_TYPE> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int block_size, const int n);
 
 template<typename T, int OPTIMIZER> void optimizer32bit(T* g, T* p,
                 float* state1, float* state2, float *unorm, float max_unorm, float param_norm,
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index a485a09..d169178 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -76,17 +76,21 @@ MAKE_BLOCKWISE8(adam, ADAM, __nv_bfloat16, bf16)
 void percentileClipping_g32(float * g, float *gnorm_vec, int step, const int n){ percentileClipping<float>(g, gnorm_vec, step, n); }
 void percentileClipping_g16(half * g, float *gnorm_vec, int step, const int n){ percentileClipping<half>(g, gnorm_vec, step, n); }
 
-void quantizeBlockwise_fp16(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, 0>(code, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_fp32(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, 0>(code, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_stochastic_fp16(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<half, 1, 0>(code, A, absmax, out, rand, rand_offset, 4096, n); }
-void quantizeBlockwise_stochastic_fp32(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<float, 1, 0>(code, A, absmax, out, rand, rand_offset, 4096, n); }
-void quantizeBlockwise_fp16_fp4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, 1>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_fp32_fp4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, 1>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_fp16(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, General8bit>(code, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_fp32(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, General8bit>(code, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_stochastic_fp16(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<half, 1, General8bit>(code, A, absmax, out, rand, rand_offset, 4096, n); }
+void quantizeBlockwise_stochastic_fp32(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, const int n){ quantizeBlockwise<float, 1, General8bit>(code, A, absmax, out, rand, rand_offset, 4096, n); }
+void quantizeBlockwise_fp16_fp4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, FP4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_fp32_fp4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, FP4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_fp16_nf4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, NF4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
+void quantizeBlockwise_fp32_nf4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, NF4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
 
-void dequantizeBlockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half, 0>(code, A, absmax, out, blocksize, n); } \
-void dequantizeBlockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float, 0>(code, A, absmax, out, blocksize, n); }
-void dequantizeBlockwise_fp16_fp4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half, 1>(NULL, A, absmax, out, blocksize, n); } \
-void dequantizeBlockwise_fp32_fp4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float, 1>(NULL, A, absmax, out, blocksize, n); }
+void dequantizeBlockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half, General8bit>(code, A, absmax, out, blocksize, n); } \
+void dequantizeBlockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float, General8bit>(code, A, absmax, out, blocksize, n); }
+void dequantizeBlockwise_fp16_fp4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half, FP4>(NULL, A, absmax, out, blocksize, n); } \
+void dequantizeBlockwise_fp32_fp4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float, FP4>(NULL, A, absmax, out, blocksize, n); }
+void dequantizeBlockwise_fp16_nf4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise<half, NF4>(NULL, A, absmax, out, blocksize, n); } \
+void dequantizeBlockwise_fp32_nf4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise<float, NF4>(NULL, A, absmax, out, blocksize, n); }
 
 #define MAKE_FUNC_TRANSFORM(fbits, fsrc, ftrgt, ftranspose, dtype, src, target, transpose, bits) \
 void transform_##fbits##_##fsrc##_to_##ftrgt##_##ftranspose(cublasLtHandle_t ltHandle, dtype *A, dtype *out, int dim1, int dim2) \
@@ -157,6 +161,10 @@ extern "C"
   void cquantize_blockwise_fp32_fp4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp32_fp4(code, A, absmax, out, blocksize, n); }
   void cdequantize_blockwise_fp16_fp4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise_fp16_fp4(code, A, absmax, out, blocksize, n); }
   void cdequantize_blockwise_fp32_fp4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise_fp32_fp4(code, A, absmax, out, blocksize, n); }
+  void cquantize_blockwise_fp16_nf4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp16_nf4(code, A, absmax, out, blocksize, n); }
+  void cquantize_blockwise_fp32_nf4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp32_nf4(code, A, absmax, out, blocksize, n); }
+  void cdequantize_blockwise_fp16_nf4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n){ dequantizeBlockwise_fp16_nf4(code, A, absmax, out, blocksize, n); }
+  void cdequantize_blockwise_fp32_nf4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n){ dequantizeBlockwise_fp32_nf4(code, A, absmax, out, blocksize, n); }
 
 	#define MAKE_CFUNC32(name, gtype, gbits) \
 	void c##name##32bit_g##gbits(gtype *g, gtype *p, \
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 074135e..98edb7c 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2254,16 +2254,18 @@ def test_fp4_quant():
     assert relerr.item() < 0.28
 
 
-def test_fp4_compressed_stats():
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
+@pytest.mark.parametrize("quant_type", ['fp4', 'nf4'])
+def test_4bit_compressed_stats(quant_type):
     for blocksize in [128, 64]:
         errs1 = []
         errs2 = []
-        for i in range(10000):
+        for i in range(10):
             A1 = torch.randn(1024, 1024, device='cuda').half()
-            q2, SA2 = F.quantize_fp4(A1, blocksize=blocksize)
-            q3, SA3= F.quantize_fp4(A1, blocksize=blocksize, compress_statistics=True)
-            A2 = F.dequantize_fp4(q2, SA2)
-            A3 = F.dequantize_fp4(q3, SA3)
+            q2, SA2 = F.quantize_4bit_packed(A1, blocksize=blocksize, quant_type=quant_type)
+            q3, SA3= F.quantize_4bit_packed(A1, blocksize=blocksize, compress_statistics=True, quant_type=quant_type)
+            A2 = F.dequantize_4bit_packed(q2, SA2, quant_type=quant_type)
+            A3 = F.dequantize_4bit_packed(q3, SA3, quant_type=quant_type)
 
 
             err = (A1 - A2).abs().float()
@@ -2290,10 +2292,12 @@ def test_fp4_compressed_stats():
 
 
 
-def test_bench_fp4_dequant():
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
+@pytest.mark.parametrize("quant_type", ['fp4', 'nf4'])
+def test_bench_fp4_dequant(quant_type):
     blocksize = 256
     a = torch.rand(1024*12*4, 1024*12, device='cuda').half()
-    qa, SA = F.quantize_fp4(a, blocksize=blocksize)
+    qa, SA = F.quantize_4bit_packed(a, blocksize=blocksize, quant_type=quant_type)
 
     input_size = a.numel()/2
     output_size = a.numel()*2
@@ -2307,7 +2311,7 @@ def test_bench_fp4_dequant():
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(iters):
-        F.dequantize_fp4(qa, SA, blocksize=blocksize)
+        F.dequantize_4bit_packed(qa, SA, blocksize=blocksize, quant_type=quant_type)
         #b.copy_(a)
     torch.cuda.synchronize()
     #print((time.time()-t0)/iters*1e6)
@@ -2325,6 +2329,7 @@ def test_normal_map_tree():
     code = F.create_normal_map()
     values =code[:8].tolist() + code[-8:].tolist()
     num_pivots = 1
+    print(values)
     while num_pivots <16:
         idx = list(range(16//num_pivots//2, 16, 16//num_pivots))
         print(idx)

From 4ea489d3bfc119ab4ceb50f999ce611690dc21e2 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 3 Apr 2023 11:00:12 -0700
Subject: [PATCH 37/97] Refactor FP4 into 4Bit and integrate NF4 data type.

---
 bitsandbytes/__init__.py            |  2 +-
 bitsandbytes/autograd/_functions.py |  6 +-
 bitsandbytes/functional.py          | 21 +++----
 bitsandbytes/nn/__init__.py         |  2 +-
 bitsandbytes/nn/modules.py          | 26 ++++++---
 csrc/kernels.cu                     | 87 ++++++++++++++++-------------
 tests/test_autograd.py              | 15 ++---
 tests/test_functional.py            | 42 ++++++++------
 tests/test_modules.py               | 34 ++++++++++-
 9 files changed, 145 insertions(+), 90 deletions(-)

diff --git a/bitsandbytes/__init__.py b/bitsandbytes/__init__.py
index c83b7ff..fd83532 100644
--- a/bitsandbytes/__init__.py
+++ b/bitsandbytes/__init__.py
@@ -10,7 +10,7 @@ from .autograd._functions import (
     matmul,
     matmul_cublas,
     mm_cublas,
-    matmul_fp4
+    matmul_4bit
 )
 from .cextension import COMPILED_WITH_CUDA
 from .nn import modules
diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index 8070ff8..a9c3a53 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -475,7 +475,7 @@ class MatMul8bitLt(torch.autograd.Function):
         return grad_A, grad_B, None, grad_bias, None
 
 
-class MatMulFP4(torch.autograd.Function):
+class MatMul4Bit(torch.autograd.Function):
     # forward is the same, but we added the fallback for pre-turing GPUs
     # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
 
@@ -547,6 +547,6 @@ def matmul(
     return MatMul8bitLt.apply(A, B, out, bias, state)
 
 
-def matmul_fp4(A: tensor, B: tensor, quant_state: List, out: tensor = None, bias=None):
+def matmul_4bit(A: tensor, B: tensor, quant_state: List, out: tensor = None, bias=None):
     assert quant_state is not None
-    return MatMulFP4.apply(A, B, out, bias, quant_state)
+    return MatMul4Bit.apply(A, B, out, bias, quant_state)
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 83c2605..20841eb 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -689,14 +689,14 @@ def dequantize_blockwise(
     return out
 
 def quantize_fp4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False):
-    return quantize_4bit_packed(A, absmax, out, blocksize, compress_statistics, 'fp4')
+    return quantize_4bit(A, absmax, out, blocksize, compress_statistics, 'fp4')
 
 def quantize_nf4(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False):
-    return quantize_4bit_packed(A, absmax, out, blocksize, compress_statistics, 'nf4')
+    return quantize_4bit(A, absmax, out, blocksize, compress_statistics, 'nf4')
 
-def quantize_4bit_packed(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False, quant_type='fp4') -> Tensor:
+def quantize_4bit(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksize=64, compress_statistics=False, quant_type='fp4') -> Tensor:
     """
-    Quantize tensor A in blocks of FP4 values.
+    Quantize tensor A in blocks of 4-bit values.
 
     Quantizes tensor A by dividing it into blocks which are independently quantized to FP4.
 
@@ -763,19 +763,19 @@ def quantize_4bit_packed(A: Tensor, absmax: Tensor = None, out: Tensor = None, b
         #qabsmax, state2 = quantize_blockwise(absmax, code=code, blocksize=256)
         qabsmax, state2 = quantize_blockwise(absmax, blocksize=256)
         del absmax
-        state = (qabsmax, input_shape, A.dtype, blocksize, (offset, state2))
+        state = (qabsmax, input_shape, A.dtype, blocksize, (offset, state2), quant_type)
     else:
-        state = (absmax, input_shape, A.dtype, blocksize, None)
+        state = (absmax, input_shape, A.dtype, blocksize, None, quant_type)
 
     return out, state
 
 def dequantize_fp4(A: Tensor, quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64) -> Tensor:
-    return dequantize_4bit_packed(A, quant_state, absmax, out, blocksize, 'fp4')
+    return dequantize_4bit(A, quant_state, absmax, out, blocksize, 'fp4')
 
 def dequantize_nf4(A: Tensor, quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64) -> Tensor:
-    return dequantize_4bit_packed(A, quant_state, absmax, out, blocksize, 'nf4')
+    return dequantize_4bit(A, quant_state, absmax, out, blocksize, 'nf4')
 
-def dequantize_4bit_packed(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64, quant_type='fp4') -> Tensor:
+def dequantize_4bit(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None, absmax: Tensor = None, out: Tensor = None, blocksize: int = 64, quant_type='fp4') -> Tensor:
     """
     Dequantizes FP4 blockwise quantized values.
 
@@ -812,7 +812,8 @@ def dequantize_4bit_packed(A: Tensor,quant_state: Tuple[Tensor, Tensor] = None,
         shape = out.shape
         dtype = out.dtype
     else:
-        absmax, shape, dtype, blocksize, compressed_stats = quant_state
+        absmax, shape, dtype, blocksize, compressed_stats, quant_type = quant_state
+
 
     if compressed_stats is not None:
         offset, state2 = compressed_stats
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 954a67f..439f750 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,4 +2,4 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, LinearFP4, FP4Params
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, Linear4bit, LinearNF4, LinearFP4, Params4bit
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 45eef42..86ea342 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -133,18 +133,19 @@ class Embedding(torch.nn.Embedding):
 
         return emb
 
-class FP4Params(torch.nn.Parameter):
-    def __new__(cls, data=None, requires_grad=True, quant_state=None, blocksize=64, compress_statistics=True):
+class Params4bit(torch.nn.Parameter):
+    def __new__(cls, data=None, requires_grad=True, quant_state=None, blocksize=64, compress_statistics=True, quant_type='fp4'):
         cls.quant_state = None
         cls.blocksize = blocksize
         cls.compress_statistics = compress_statistics
+        cls.quant_type = quant_type
         if data is None:
             data = torch.empty(0)
         return torch.Tensor._make_subclass(cls, data, requires_grad)
 
     def cuda(self, device):
         w = self.data.contiguous().half().cuda(device)
-        w_fp4, quant_state = bnb.functional.quantize_fp4(w, blocksize=self.blocksize, compress_statistics=self.compress_statistics)
+        w_fp4, quant_state = bnb.functional.quantize_4bit(w, blocksize=self.blocksize, compress_statistics=self.compress_statistics, quant_type=self.quant_type)
         self.data = w_fp4
         self.quant_state = quant_state
 
@@ -168,17 +169,16 @@ class FP4Params(torch.nn.Parameter):
         if (device is not None and device.type == "cuda" and self.data.device.type == "cpu"):
             return self.cuda(device)
         else:
-            new_param = FP4Params(super().to(device=device, dtype=dtype, non_blocking=non_blocking),
+            new_param = Params4bit(super().to(device=device, dtype=dtype, non_blocking=non_blocking),
                                   requires_grad=self.requires_grad, quant_state=self.quant_state)
 
             return new_param
 
-
-class LinearFP4(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True, compute_dtype=None, compress_statistics=True):
+class Linear4bit(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True, compute_dtype=None, compress_statistics=True, quant_type='fp4'):
         super().__init__(input_features, output_features, bias)
         self.state = bnb.MatmulLtState()
-        self.weight = FP4Params(self.weight.data, requires_grad=False, compress_statistics=compress_statistics)
+        self.weight = Params4bit(self.weight.data, requires_grad=False, compress_statistics=compress_statistics, quant_type=quant_type)
         self.compute_dtype = compute_dtype
 
     def init_8bit_state(self):
@@ -198,12 +198,20 @@ class LinearFP4(nn.Linear):
             x = x.to(self.compute_dtype)
 
         bias = None if self.bias is None else self.bias.half()
-        out = bnb.matmul_fp4(x, self.weight.t(), bias=bias, quant_state=self.weight.quant_state)
+        out = bnb.matmul_4bit(x, self.weight.t(), bias=bias, quant_state=self.weight.quant_state)
 
         out = out.to(inp_dtype)
 
         return out
 
+class LinearFP4(Linear4bit):
+    def __init__(self, input_features, output_features, bias=True, compute_dtype=None, compress_statistics=True):
+        super().__init__(input_features, output_features, bias, compute_dtype, compress_statistics, 'fp4')
+
+class LinearNF4(Linear4bit):
+    def __init__(self, input_features, output_features, bias=True, compute_dtype=None, compress_statistics=True):
+        super().__init__(input_features, output_features, bias, compute_dtype, compress_statistics, 'nf4')
+
 
 class Int8Params(torch.nn.Parameter):
     def __new__(
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 0ed413f..86a93ae 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -194,7 +194,7 @@ __device__ float dDequantizeNF4(unsigned char val, float absmax)
 
 }
 
-__device__ unsigned char dQuantizeNormal(float x)
+__device__ unsigned char dQuantizeNF4(float x)
 {
 
   // the values for this tree was generated by test_normal_map_tree
@@ -221,7 +221,7 @@ __device__ unsigned char dQuantizeNormal(float x)
         if(x > 0.1202552504837513f) // 100
           return 0b1001;
         else
-          return 0b1100;
+          return 0b1000;
   else
     if(x > -0.33967943489551544f) // 0
       if(x > -0.13791173323988914f) // 01
@@ -726,8 +726,8 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
             #pragma unroll NUM_PER_TH
             for(int j = 0; j < NUM_PER_TH/2; j++)
             {
-              packed_4bit |= dQuantizeNormal(((float)vals[2*j])*local_abs_max) << 4;
-              packed_4bit |= dQuantizeNormal(((float)vals[2*j+1])*local_abs_max);
+              packed_4bit |= dQuantizeNF4(((float)vals[2*j])*local_abs_max) << 4;
+              packed_4bit |= dQuantizeNF4(((float)vals[2*j+1])*local_abs_max);
               qvals[j] = packed_4bit;
             }
             break;
@@ -738,7 +738,7 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
   }
 }
 
-template<typename T, int TILE_SIZE, int THREADS, int NUM_PER_TH, int FP4>
+template<typename T, int TILE_SIZE, int THREADS, int NUM_PER_TH, int DATA_TYPE>
 __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * absmax, T *out, const int blocksize, const int n)
 {
 
@@ -747,55 +747,62 @@ __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * abs
   int valid_items_store = 0;
   const int base_idx = (blockIdx.x * TILE_SIZE);
 
-  T vals[NUM_PER_TH*(FP4 ? 2 : 1)];
+  T vals[NUM_PER_TH*((DATA_TYPE > 0) ? 2 : 1)];
   unsigned char qvals[NUM_PER_TH];
   float local_abs_max = -FLT_MAX;
 
   typedef cub::BlockLoad<unsigned char, THREADS, NUM_PER_TH, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadChar;
-  typedef cub::BlockStore<T, THREADS, NUM_PER_TH*(FP4 ? 2 : 1), cub::BLOCK_STORE_WARP_TRANSPOSE> StoreT;
+  typedef cub::BlockStore<T, THREADS, NUM_PER_TH*((DATA_TYPE > 0) ? 2 : 1), cub::BLOCK_STORE_WARP_TRANSPOSE> StoreT;
 
   __shared__ typename LoadChar::TempStorage loadchar;
   __shared__ typename StoreT::TempStorage storet;
 
   for (unsigned int i = base_idx; i < n_load; i += gridDim.x*TILE_SIZE)
   {
-      if(FP4)
-      {
-        valid_items_load = (n+1)/2 - i > TILE_SIZE ? TILE_SIZE : (n+1)/2 - i;
-        valid_items_store = n - i*2 > TILE_SIZE*2 ? TILE_SIZE*2 : n - i*2;
-      }
-      else
-      {
-        valid_items_load = n - i > TILE_SIZE ? TILE_SIZE : n - i;
-        valid_items_store = n - i > TILE_SIZE ? TILE_SIZE : n - i;
-      }
-      local_abs_max = __ldg(&absmax[(i+threadIdx.x*NUM_PER_TH)/(blocksize)]);
+    if(DATA_TYPE > 0)
+    {
+      valid_items_load = (n+1)/2 - i > TILE_SIZE ? TILE_SIZE : (n+1)/2 - i;
+      valid_items_store = n - i*2 > TILE_SIZE*2 ? TILE_SIZE*2 : n - i*2;
+    }
+    else
+    {
+      valid_items_load = n - i > TILE_SIZE ? TILE_SIZE : n - i;
+      valid_items_store = n - i > TILE_SIZE ? TILE_SIZE : n - i;
+    }
+    local_abs_max = __ldg(&absmax[(i+threadIdx.x*NUM_PER_TH)/(blocksize)]);
 
-      __syncthreads();
-      LoadChar(loadchar).Load(&(A[i]), qvals, valid_items_load, 128);
+    __syncthreads();
+    LoadChar(loadchar).Load(&(A[i]), qvals, valid_items_load, 128);
 
 
-      if(FP4)
-      {
-        #pragma unroll NUM_PER_TH
-        for(int j = 0; j < NUM_PER_TH; j++)
-        {
-          //vals[j*2] = dDequantizeFP4(qvals[j] >> 4, local_abs_max*0.083333f);
-          //vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*0.083333);
-          vals[j*2] = dDequantizeFP4Tree(qvals[j] >> 4, local_abs_max);
-          vals[j*2 + 1] = dDequantizeFP4Tree(qvals[j] & 0x0F, local_abs_max);
-        }
-      }
-      else
-      {
-        // load code through read-only cache via __ldg
-        #pragma unroll NUM_PER_TH
-        for(int j = 0; j < NUM_PER_TH; j++)
-          vals[j] = __ldg(&code[qvals[j]])*local_abs_max;
-      }
+    switch(DATA_TYPE)
+    {
+        case General8bit:
+          // load code through read-only cache via __ldg
+          #pragma unroll NUM_PER_TH
+          for(int j = 0; j < NUM_PER_TH; j++)
+            vals[j] = __ldg(&code[qvals[j]])*local_abs_max;
+          break;
+        case FP4:
+          #pragma unroll NUM_PER_TH
+          for(int j = 0; j < NUM_PER_TH; j++)
+          {
+            vals[j*2] = dDequantizeFP4Tree(qvals[j] >> 4, local_abs_max);
+            vals[j*2 + 1] = dDequantizeFP4Tree(qvals[j] & 0x0F, local_abs_max);
+          }
+          break;
+        case NF4:
+          #pragma unroll NUM_PER_TH
+          for(int j = 0; j < NUM_PER_TH; j++)
+          {
+            vals[j*2] = dDequantizeNF4(qvals[j] >> 4, local_abs_max);
+            vals[j*2 + 1] = dDequantizeNF4(qvals[j] & 0x0F, local_abs_max);
+          }
+          break;
+    }
 
-      __syncthreads();
-      StoreT(storet).Store(&(out[FP4 ? i*2 : i]), vals, valid_items_store);
+    __syncthreads();
+    StoreT(storet).Store(&(out[(DATA_TYPE > 0) ? i*2 : i]), vals, valid_items_store);
   }
 }
 
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index 4356c1d..db33375 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -440,7 +440,7 @@ dim4 = torch.randint(32, 96, size=(n,)).tolist()
 
 dim2.append(0)
 
-funcs = [(torch.matmul, bnb.matmul_fp4)]
+funcs = [(torch.matmul, bnb.matmul_4bit)]
 str_funcs = ["matmul"]
 req_grad = list(product([True, False], repeat=3))
 req_grad_str = []
@@ -457,12 +457,13 @@ dtype = [torch.float16, torch.float32]
 compress_statistics = [False, True]
 has_fp16_weights = [True, False]
 has_bias = [True, False]
-values = list(product(dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics))
-str_values = list(product(dim1, dim2, dim3, dim4, str_funcs, dtype, req_grad_str, str_transpose, has_bias, compress_statistics))
-names = ["dim1_{}_dim2_{}_dim3_{}_dim4_{}_func_{}_dtype_{}_requires_grad_{}_transpose_{}_has_bias_{}_compress_statistics".format(*vals) for vals in str_values]
+quant_type = ['fp4', 'nf4']
+values = list(product(dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics, quant_type))
+str_values = list(product(dim1, dim2, dim3, dim4, str_funcs, dtype, req_grad_str, str_transpose, has_bias, compress_statistics, quant_type))
+names = ["dim1_{}_dim2_{}_dim3_{}_dim4_{}_func_{}_dtype_{}_requires_grad_{}_transpose_{}_has_bias_{}_compress_statistics_{}_quant_type_{}".format(*vals) for vals in str_values]
 @pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
-@pytest.mark.parametrize( "dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics", values, ids=names)
-def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics):
+@pytest.mark.parametrize( "dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics, quant_type", values, ids=names)
+def test_matmul_4bit( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose, has_bias, compress_statistics, quant_type):
     dimA = (dim2, dim3) if not transpose[0] else (dim3, dim2)
     dimB = (dim3, dim4) if not transpose[1] else (dim4, dim3)
     if has_bias == False:
@@ -482,7 +483,7 @@ def test_matmul_fp4( dim1, dim2, dim3, dim4, funcs, dtype, req_grad, transpose,
                 bias2 = bias.clone()
             torch.nn.init.xavier_uniform_(B)
 
-            B2, quant_state = bnb.functional.quantize_fp4(B, compress_statistics=compress_statistics)
+            B2, quant_state = bnb.functional.quantize_4bit(B, compress_statistics=compress_statistics, quant_type=quant_type)
 
             if not transpose[0] and transpose[1]:
                 out_torch = funcs[0](A, B.t())
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 98edb7c..1f19d43 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -1784,8 +1784,8 @@ def test_spmm_coo_dequant(dim1, dim2, dtype):
     print("partial matmul", time.time() - t0)
 
 
-batch_size = 4
-seqdim = 256
+batch_size = 2
+seqdim = 2048
 values = []
 values.append((batch_size, seqdim, 768, 4 * 768))
 values.append((batch_size, seqdim, 1024, 4*1024))
@@ -1798,7 +1798,7 @@ values.append((batch_size, seqdim, 12288, 4*12288))
 names = ["batch_{}_seq_{}_model_{}_hidden_{}".format(*vals) for vals in values]
 @pytest.mark.parametrize("batch, seq, model, hidden", values, ids=names)
 def test_bench_matmul(batch, seq, model, hidden):
-    iters = 128
+    iters = 32
     formatB = F.get_special_format_str()
 
     A = torch.randn(batch, seq, model, device="cuda").half()
@@ -1808,6 +1808,8 @@ def test_bench_matmul(batch, seq, model, hidden):
     B_fp4, state = F.quantize_fp4(B)
     B_fp4_c, state_c = F.quantize_fp4(B, compress_statistics=True)
 
+    B_nf4, state_nf4= F.quantize_nf4(B)
+
     linear8bit = bnb.nn.Linear8bitLt(model, hidden, False).cuda().half()
     linear8bit.eval()
 
@@ -1836,17 +1838,24 @@ def test_bench_matmul(batch, seq, model, hidden):
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(iters):
-        bnb.matmul_fp4(A, B_fp4.t(), quant_state=state)
+        bnb.matmul_4bit(A, B_fp4.t(), quant_state=state)
     torch.cuda.synchronize()
     print( f"bnb fp4: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
 
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(iters):
-        bnb.matmul_fp4(A, B_fp4.t(), quant_state=state_c)
+        bnb.matmul_4bit(A, B_fp4.t(), quant_state=state_c)
     torch.cuda.synchronize()
     print( f"bnb fp4 + compressed stats: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
 
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        bnb.matmul_4bit(A, B_nf4.t(), quant_state=state_nf4)
+    torch.cuda.synchronize()
+    print( f"bnb nf4: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s" )
+
     #torch.cuda.synchronize()
     #t0 = time.time()
     #for i in range(iters):
@@ -2262,17 +2271,18 @@ def test_4bit_compressed_stats(quant_type):
         errs2 = []
         for i in range(10):
             A1 = torch.randn(1024, 1024, device='cuda').half()
-            q2, SA2 = F.quantize_4bit_packed(A1, blocksize=blocksize, quant_type=quant_type)
-            q3, SA3= F.quantize_4bit_packed(A1, blocksize=blocksize, compress_statistics=True, quant_type=quant_type)
-            A2 = F.dequantize_4bit_packed(q2, SA2, quant_type=quant_type)
-            A3 = F.dequantize_4bit_packed(q3, SA3, quant_type=quant_type)
+            q2, SA2 = F.quantize_4bit(A1, blocksize=blocksize, quant_type=quant_type)
+            q3, SA3= F.quantize_4bit(A1, blocksize=blocksize, compress_statistics=True, quant_type=quant_type)
+            A2 = F.dequantize_4bit(q2, SA2, quant_type=quant_type)
+            A3 = F.dequantize_4bit(q3, SA3, quant_type=quant_type)
 
 
             err = (A1 - A2).abs().float()
             relerr = (err/(A1.abs().float()+1e-15)).mean()
             err = err.mean()
 
-            errs1.append(relerr.item())
+            errs1.append(err.item())
+
 
             assert err.item() < 0.11
             assert relerr.item() < 0.28
@@ -2281,23 +2291,23 @@ def test_4bit_compressed_stats(quant_type):
             relerr = (err/(A1.abs().float()+1e-15)).mean()
             err = err.mean()
 
-            errs2.append(relerr.item())
+            errs2.append(err.item())
 
             assert err.item() < 0.11
             assert relerr.item() < 0.28
 
-        #print(sum(errs1)/len(errs1), blocksize)
-        #print(sum(errs2)/len(errs2), blocksize)
+        #print(sum(errs1)/len(errs1), blocksize, quant_type)
+        #print(sum(errs2)/len(errs2), blocksize, quant_type)
 
 
 
 
 @pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
 @pytest.mark.parametrize("quant_type", ['fp4', 'nf4'])
-def test_bench_fp4_dequant(quant_type):
+def test_bench_4bit_dequant(quant_type):
     blocksize = 256
     a = torch.rand(1024*12*4, 1024*12, device='cuda').half()
-    qa, SA = F.quantize_4bit_packed(a, blocksize=blocksize, quant_type=quant_type)
+    qa, SA = F.quantize_4bit(a, blocksize=blocksize, quant_type=quant_type)
 
     input_size = a.numel()/2
     output_size = a.numel()*2
@@ -2311,7 +2321,7 @@ def test_bench_fp4_dequant(quant_type):
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(iters):
-        F.dequantize_4bit_packed(qa, SA, blocksize=blocksize, quant_type=quant_type)
+        F.dequantize_4bit(qa, SA, blocksize=blocksize, quant_type=quant_type)
         #b.copy_(a)
     torch.cuda.synchronize()
     #print((time.time()-t0)/iters*1e6)
diff --git a/tests/test_modules.py b/tests/test_modules.py
index d0f5ca2..94cf36b 100644
--- a/tests/test_modules.py
+++ b/tests/test_modules.py
@@ -506,8 +506,16 @@ def test_linear_kbit_fp32_bias(module):
         o1 = l1(b1)
         assert l1.bias is None
 
+modules = []
+modules.append(bnb.nn.Linear8bitLt)
+modules.append(bnb.nn.Linear4bit)
+modules.append(bnb.nn.LinearFP4)
+modules.append(bnb.nn.LinearNF4)
+modules.append(lambda d1, d2: bnb.nn.LinearFP4(d1, d2, compress_statistics=True))
+modules.append(lambda d1, d2: bnb.nn.LinearNF4(d1, d2, compress_statistics=True))
+names = ['Int8Lt', '4bit', 'FP4', 'NF4', 'FP4+C', 'NF4+C']
 @pytest.mark.skipif(not torch.cuda.is_available(), reason="this test requires a GPU")
-@pytest.mark.parametrize("module", [bnb.nn.Linear8bitLt, bnb.nn.LinearFP4, lambda d1, d2: bnb.nn.LinearFP4(d1, d2, compress_statistics=True)], ids=['Int8Lt', 'FP4', 'FP4+C'])
+@pytest.mark.parametrize("module", modules, ids=names)
 def test_kbit_backprop(module):
     b = 17
     dim1 = 37
@@ -515,6 +523,8 @@ def test_kbit_backprop(module):
 
     ref = nn.Sequential(*[torch.nn.Linear(dim1, dim2), torch.nn.Linear(dim2, 10)])
     ref[1].weight.requires_grad = False
+    torch.nn.init.kaiming_normal_(ref[0].weight)
+    torch.nn.init.kaiming_normal_(ref[1].weight)
     kbit = nn.Sequential(*[torch.nn.Linear(dim1, dim2), module(dim2, 10)])
     kbit[0].weight.detach().copy_(ref[0].weight)
     kbit[1].weight.detach().copy_(ref[1].weight)
@@ -523,6 +533,10 @@ def test_kbit_backprop(module):
     ref = ref.half().cuda()
     kbit = kbit.half().cuda()
 
+    errs1 = []
+    errs2 = []
+    relerrs1 = []
+    relerrs2 = []
     for i in range(100):
         batch = torch.randn(b, dim1).half().cuda()
         out1 = ref(batch)
@@ -535,12 +549,26 @@ def test_kbit_backprop(module):
         bgrad1 = ref[0].bias.grad
         bgrad2 = kbit[0].bias.grad
 
-        torch.testing.assert_allclose(grad1, grad2, atol=0.008, rtol=0.05)
-        torch.testing.assert_allclose(bgrad1, bgrad2, atol=0.008, rtol=0.05)
+        err1 = (out1-out2).abs().float()
+        err2 = (grad1-grad2).abs().float()
+        relerr1 = (err1/(out1.abs().float()+1e-9))
+        relerr2 = (err2/(grad1.abs().float()+1e-9))
+        errs1.append(err1.mean().item())
+        errs2.append(err2.mean().item())
+        relerrs1.append(relerr1.mean().item())
+        relerrs2.append(relerr2.mean().item())
+
+
+        #torch.testing.assert_allclose(grad1, grad2, atol=0.008, rtol=0.05)
+        #torch.testing.assert_allclose(bgrad1, bgrad2, atol=0.008, rtol=0.05)
         ref.zero_grad()
         kbit.zero_grad()
 
         assert kbit[0].weight.grad.sum().item() == 0
         assert kbit[0].bias.grad.sum().item() == 0
+    print('out', sum(errs1)/len(errs1))
+    print('grad', sum(errs2)/len(errs2))
+    print('rel out', sum(relerrs1)/len(relerrs1))
+    print('rel grad', sum(relerrs2)/len(relerrs2))
 
 

From 1ccb7bdec6c9afe8eccf23bea0619ef7d962f279 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 3 Apr 2023 18:47:00 -0700
Subject: [PATCH 38/97] Fixed ParamsIn4 init; fixed PyTorch 2.0 test failure.

---
 bitsandbytes/nn/modules.py | 18 +++++++-----------
 tests/test_functional.py   |  4 ++--
 tests/test_modules.py      | 13 ++++++++-----
 3 files changed, 17 insertions(+), 18 deletions(-)

diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 86ea342..30f92ce 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -136,12 +136,14 @@ class Embedding(torch.nn.Embedding):
 class Params4bit(torch.nn.Parameter):
     def __new__(cls, data=None, requires_grad=True, quant_state=None, blocksize=64, compress_statistics=True, quant_type='fp4'):
         cls.quant_state = None
-        cls.blocksize = blocksize
-        cls.compress_statistics = compress_statistics
-        cls.quant_type = quant_type
         if data is None:
             data = torch.empty(0)
-        return torch.Tensor._make_subclass(cls, data, requires_grad)
+
+        self = torch.Tensor._make_subclass(cls, data, requires_grad)
+        self.blocksize = blocksize
+        self.compress_statistics = compress_statistics
+        self.quant_type = quant_type
+        return self
 
     def cuda(self, device):
         w = self.data.contiguous().half().cuda(device)
@@ -177,16 +179,10 @@ class Params4bit(torch.nn.Parameter):
 class Linear4bit(nn.Linear):
     def __init__(self, input_features, output_features, bias=True, compute_dtype=None, compress_statistics=True, quant_type='fp4'):
         super().__init__(input_features, output_features, bias)
-        self.state = bnb.MatmulLtState()
         self.weight = Params4bit(self.weight.data, requires_grad=False, compress_statistics=compress_statistics, quant_type=quant_type)
         self.compute_dtype = compute_dtype
 
-    def init_8bit_state(self):
-        pass
-
     def forward(self, x: torch.Tensor):
-        self.state.is_training = self.training
-
         # weights are cast automatically as Int8Params, but the bias has to be cast manually
         if self.bias is not None and self.bias.dtype != x.dtype:
             self.bias.data = self.bias.data.to(x.dtype)
@@ -197,7 +193,7 @@ class Linear4bit(nn.Linear):
         if self.compute_dtype is not None:
             x = x.to(self.compute_dtype)
 
-        bias = None if self.bias is None else self.bias.half()
+        bias = None if self.bias is None else self.bias.half(self.compute_dtype)
         out = bnb.matmul_4bit(x, self.weight.t(), bias=bias, quant_state=self.weight.quant_state)
 
         out = out.to(inp_dtype)
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 1f19d43..61ea712 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -1798,7 +1798,7 @@ values.append((batch_size, seqdim, 12288, 4*12288))
 names = ["batch_{}_seq_{}_model_{}_hidden_{}".format(*vals) for vals in values]
 @pytest.mark.parametrize("batch, seq, model, hidden", values, ids=names)
 def test_bench_matmul(batch, seq, model, hidden):
-    iters = 32
+    iters = 1
     formatB = F.get_special_format_str()
 
     A = torch.randn(batch, seq, model, device="cuda").half()
@@ -2317,7 +2317,7 @@ def test_bench_4bit_dequant(quant_type):
     #print(max_theoretical_s*1e6)
     b = torch.randn(128, 1024*12, device='cuda').half()
 
-    iters = 500
+    iters = 5
     torch.cuda.synchronize()
     t0 = time.time()
     for i in range(iters):
diff --git a/tests/test_modules.py b/tests/test_modules.py
index 94cf36b..89c319c 100644
--- a/tests/test_modules.py
+++ b/tests/test_modules.py
@@ -558,14 +558,17 @@ def test_kbit_backprop(module):
         relerrs1.append(relerr1.mean().item())
         relerrs2.append(relerr2.mean().item())
 
-
-        #torch.testing.assert_allclose(grad1, grad2, atol=0.008, rtol=0.05)
-        #torch.testing.assert_allclose(bgrad1, bgrad2, atol=0.008, rtol=0.05)
+        if isinstance(module, bnb.nn.Linear8bitLt):
+            torch.testing.assert_allclose(grad1, grad2, atol=0.008, rtol=0.05)
+            torch.testing.assert_allclose(bgrad1, bgrad2, atol=0.008, rtol=0.05)
+        else:
+            torch.testing.assert_allclose(grad1, grad2, atol=0.015, rtol=0.05)
+            torch.testing.assert_allclose(bgrad1, bgrad2, atol=0.02, rtol=0.05)
         ref.zero_grad()
         kbit.zero_grad()
 
-        assert kbit[0].weight.grad.sum().item() == 0
-        assert kbit[0].bias.grad.sum().item() == 0
+        assert kbit[0].weight.grad is None or kbit[0].weight.grad.sum().item() == 0
+        assert kbit[0].weight.grad is None or kbit[0].bias.grad.sum().item() == 0
     print('out', sum(errs1)/len(errs1))
     print('grad', sum(errs2)/len(errs2))
     print('rel out', sum(relerrs1)/len(relerrs1))

From e9fa03b7176d51fa23d23616b16ef389db18ab02 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 7 Apr 2023 09:59:21 -0700
Subject: [PATCH 39/97] Some fixed for loading PEFT modules with Params4bit.

---
 bitsandbytes/functional.py | 10 +++++---
 bitsandbytes/nn/modules.py | 52 +++++++++++++++++++++++++++++++++++---
 csrc/kernels.cu            | 32 +++++++++++++++--------
 tests/test_optim.py        |  4 +--
 4 files changed, 78 insertions(+), 20 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 20841eb..b168606 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -362,9 +362,13 @@ def get_special_format_str():
 
 def is_on_gpu(tensors):
     on_gpu = True
+    gpu_ids = set()
     for t in tensors:
         if t is None: continue # NULL pointers are fine
         on_gpu &= t.device.type == 'cuda'
+        gpu_ids.add(t.device.index)
+    if len(gpu_ids) > 1:
+        raise TypeError(f'Input tensors need to be on the same GPU, but found the following tensor and device combinations:{[(t.shape, t.device) for t in tensors]}')
     return on_gpu
 
 def get_ptr(A: Tensor) -> ct.c_void_p:
@@ -617,7 +621,7 @@ def quantize_blockwise(A: Tensor, code: Tensor = None, absmax: Tensor = None, ra
         assert rand is None
         lib.cquantize_blockwise_cpu_fp32(get_ptr(code), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_longlong(blocksize), ct.c_longlong(A.numel()))
 
-    state = (absmax, code, blocksize)
+    state = [absmax, code, blocksize]
 
     return out, state
 
@@ -763,9 +767,9 @@ def quantize_4bit(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksiz
         #qabsmax, state2 = quantize_blockwise(absmax, code=code, blocksize=256)
         qabsmax, state2 = quantize_blockwise(absmax, blocksize=256)
         del absmax
-        state = (qabsmax, input_shape, A.dtype, blocksize, (offset, state2), quant_type)
+        state = [qabsmax, input_shape, A.dtype, blocksize, [offset, state2], quant_type]
     else:
-        state = (absmax, input_shape, A.dtype, blocksize, None, quant_type)
+        state = [absmax, input_shape, A.dtype, blocksize, None, quant_type]
 
     return out, state
 
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 30f92ce..de9e4ac 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -135,7 +135,6 @@ class Embedding(torch.nn.Embedding):
 
 class Params4bit(torch.nn.Parameter):
     def __new__(cls, data=None, requires_grad=True, quant_state=None, blocksize=64, compress_statistics=True, quant_type='fp4'):
-        cls.quant_state = None
         if data is None:
             data = torch.empty(0)
 
@@ -143,12 +142,14 @@ class Params4bit(torch.nn.Parameter):
         self.blocksize = blocksize
         self.compress_statistics = compress_statistics
         self.quant_type = quant_type
+        self.quant_state = quant_state
+        self.data = data
         return self
 
     def cuda(self, device):
         w = self.data.contiguous().half().cuda(device)
-        w_fp4, quant_state = bnb.functional.quantize_4bit(w, blocksize=self.blocksize, compress_statistics=self.compress_statistics, quant_type=self.quant_type)
-        self.data = w_fp4
+        w_4bit, quant_state = bnb.functional.quantize_4bit(w, blocksize=self.blocksize, compress_statistics=self.compress_statistics, quant_type=self.quant_type)
+        self.data = w_4bit
         self.quant_state = quant_state
 
         return self
@@ -171,8 +172,19 @@ class Params4bit(torch.nn.Parameter):
         if (device is not None and device.type == "cuda" and self.data.device.type == "cpu"):
             return self.cuda(device)
         else:
+            s = self.quant_state
+            if s is not None:
+                # make sure the quantization state is on the right device
+                s[0] = s[0].to(device)
+                if self.compress_statistics:
+                    # TODO: refactor this. This is a nightmare
+                    s[-2][0] = s[-2][0].to(device) # offset
+                    s[-2][1][0] = s[-2][1][0].to(device) # nested quantiation state statitics
+                    s[-2][1][1] = s[-2][1][1].to(device) # nested quantiation codebook
             new_param = Params4bit(super().to(device=device, dtype=dtype, non_blocking=non_blocking),
-                                  requires_grad=self.requires_grad, quant_state=self.quant_state)
+                                  requires_grad=self.requires_grad, quant_state=self.quant_state,
+                                   blocksize=self.blocksize, compress_statistics=self.compress_statistics,
+                                   quant_type=self.quant_type)
 
             return new_param
 
@@ -200,6 +212,38 @@ class Linear4bit(nn.Linear):
 
         return out
 
+    def _save_to_state_dict(self, destination, prefix, keep_vars):
+        super()._save_to_state_dict(destination, prefix, keep_vars)
+
+        # we only need to save extra state if .cuda was called
+        # then we have the (1) quantization weight and the (2) quantization config
+
+        #quant_state = getattr(self.weight, 'quant_state', None)
+        #if quant_state is not None:
+        #    # 2. quantization state
+        #    destination[prefix + 'quant_state'] = quant_state
+
+        #destination[prefix + 'weight'] = self.weight.detach()
+
+
+
+    def _load_from_state_dict(self, state_dict, prefix, local_metadata, strict,
+                              missing_keys, unexpected_keys, error_msgs):
+        super()._load_from_state_dict(state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys,
+                                      error_msgs)
+        #for key in unexpected_keys:
+        #    input_name = key[len(prefix):]
+        #    if input_name == "quant_state":
+        #        if getattr(self.weight, 'quant_state', None) is None:
+        #            # buffers not yet initialized, can't call them directly without
+        #            raise RuntimeError("Loading a quantized checkpoint into non-quantized Linear4bit is "
+        #                               "not supported. Please call module.cuda() before module.load_state_dict()")
+
+        #        input_param = state_dict[key]
+        #        self.weight.quant_state = input_param
+        #        assert isinstance(self.weight, Param4bit)
+        #        unexpected_keys.remove(key)
+
 class LinearFP4(Linear4bit):
     def __init__(self, input_features, output_features, bias=True, compute_dtype=None, compress_statistics=True):
         super().__init__(input_features, output_features, bias, compute_dtype, compress_statistics, 'fp4')
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 86a93ae..c35acc8 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -1681,6 +1681,7 @@ kOptimizerStatic8bit2StateBlockwise(T* p, T* __restrict__ const g, unsigned char
     unsigned char c1s[N_PER_TH];
     unsigned char c2s[N_PER_TH];
     T g_vals[N_PER_TH];
+    T p_vals[N_PER_TH];
     typedef cub::BlockLoad<T, BLOCK_SIZE/N_PER_TH, N_PER_TH, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadT;
     typedef cub::BlockLoad<unsigned char, BLOCK_SIZE/N_PER_TH, N_PER_TH, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadChar;
 
@@ -1742,16 +1743,24 @@ kOptimizerStatic8bit2StateBlockwise(T* p, T* __restrict__ const g, unsigned char
         # pragma unroll N_PER_TH
         for(unsigned int j = 0; j < N_PER_TH; j++)
         {
-            g_val = float(g_vals[j]);
-            g_val *= gnorm_scale;
-						if(!skip_zeros || (skip_zeros && ((float)g_vals[j] != 0.0f)))
+            if(!isnan((float)g_vals[j]) && !isinf((float)g_vals[j]))
 						{
+							s2_vals[j] = smem_quantiles2[lane_id][c2s[j]]*absmax2[i/BLOCK_SIZE];
+              g_val = g_vals[j];
+              //float ratio = (g_val*g_val)/fmaxf(s2_vals[j], eps*eps);
+              //g_val = ratio > 2.0f ? 2.0f*g_val/ratio : g_val;
+              g_val *= gnorm_scale;
+              
+							s2_vals[j] = (s2_vals[j]*beta2) + (((1.0f-beta2)*g_val*g_val));
+
 							s1_vals[j] = smem_quantiles1[lane_id][c1s[j]]*absmax1[i/BLOCK_SIZE];
 							s1_vals[j] = (s1_vals[j]*beta1) + (((1.0f-beta1)*g_val));
-
-							s2_vals[j] = smem_quantiles2[lane_id][c2s[j]]*absmax2[i/BLOCK_SIZE];
-							s2_vals[j] = (s2_vals[j]*beta2) + (((1.0f-beta2)*g_val*g_val));
 						}
+            else
+            {
+              s1_vals[j] = 0.0f;
+              s2_vals[j] = 0.0f;
+            }
 
             new_local_abs_max1 = fmaxf(new_local_abs_max1, fabsf(s1_vals[j]));
             new_local_abs_max2 = fmaxf(new_local_abs_max2, fabsf(s2_vals[j]));
@@ -1782,22 +1791,23 @@ kOptimizerStatic8bit2StateBlockwise(T* p, T* __restrict__ const g, unsigned char
         }
 
         __syncthreads();
-        LoadT(temp_storage.loadh).Load(&(p[i]), g_vals, valid_items, (T)0.0f);
+        LoadT(temp_storage.loadh).Load(&(p[i]), p_vals, valid_items, (T)0.0f);
         //  reduce: 2.67/1.69 -> 2.67/1.70
         # pragma unroll N_PER_TH
         for(unsigned int j = 0; j < N_PER_TH; j++)
         {
-						if(!skip_zeros || (skip_zeros && ((float)g_vals[j] != 0.0f)))
+						//if(!skip_zeros || (skip_zeros && ((float)g_vals[j] != 0.0f)))
+            if(!isnan((float)g_vals[j]) && !isinf((float)g_vals[j]))
 						{
-							g_vals[j] = (T)(((float)g_vals[j]) + ((step_size*(__fdividef(s1_vals[j],(sqrtf(s2_vals[j])+(correction2*eps)))))));
+							p_vals[j] = (T)(((float)p_vals[j]) + ((step_size*(__fdividef(s1_vals[j],(sqrtf(s2_vals[j])+(correction2*eps)))))));
 							if(weight_decay > 0.0f)
-									g_vals[j] = ((float)g_vals[j])*(1.0f-(lr*weight_decay));
+									p_vals[j] = ((float)p_vals[j])*(1.0f-(lr*weight_decay));
 						}
         }
 
         //  store: 0.85/1.44 -> 2.48/1.57
         __syncthreads();
-        StoreT(temp_storage.storeh).Store(&(p[i]), g_vals, valid_items);
+        StoreT(temp_storage.storeh).Store(&(p[i]), p_vals, valid_items);
 
         //  quantizaztion: 2.67/1.70  -> 3.4/3.3
         # pragma unroll N_PER_TH
diff --git a/tests/test_optim.py b/tests/test_optim.py
index 92e3ed2..83390a4 100644
--- a/tests/test_optim.py
+++ b/tests/test_optim.py
@@ -282,7 +282,7 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
     errors = []
     relerrors = []
 
-    for i in range(50):
+    for i in range(100):
         g = torch.randn(dim1, dim2, device="cuda", dtype=gtype) * 0.01
         p1.grad = g.clone().float()
         p2.grad = g.clone()
@@ -314,7 +314,7 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
                 )
                 == 0
             )
-            assert num_not_close.sum().item() < 20
+            #assert num_not_close.sum().item() < 20
             dequant_states.append(s1.clone())
 
         err = torch.abs(p1 - p2)

From da524d97c93e3cdb092ba871c5c457d343e3c783 Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-44-155.ec2.internal>
Date: Sat, 8 Apr 2023 19:34:18 +0000
Subject: [PATCH 40/97] mem efficient"

---
 bitsandbytes/nn/triton_based_modules.py       | 63 ++++++++++++++++++-
 .../nn/triton_utils/v0/dequantize_rowwise.py  | 58 +++++++++++++++++
 2 files changed, 119 insertions(+), 2 deletions(-)
 create mode 100644 bitsandbytes/nn/triton_utils/v0/dequantize_rowwise.py

diff --git a/bitsandbytes/nn/triton_based_modules.py b/bitsandbytes/nn/triton_based_modules.py
index ab76f4e..578b99a 100644
--- a/bitsandbytes/nn/triton_based_modules.py
+++ b/bitsandbytes/nn/triton_based_modules.py
@@ -3,6 +3,7 @@ import torch.nn as nn
 import time
 from functools import partial
 
+from .triton_utils.v0.dequantize_rowwise import dequantize_rowwise
 from .triton_utils.v0.quantize_rowwise import quantize_rowwise
 from .triton_utils.v0.quantize_columnwise_and_transpose import quantize_columnwise_and_transpose
 from .triton_utils.v0.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
@@ -97,6 +98,56 @@ class _switchback_vectorrize(torch.autograd.Function):
             grad_bias = G.sum(dim=0)
 
         return grad_X, grad_W, grad_bias
+    
+class _switchback_global_mem_efficient(torch.autograd.Function):
+
+    @staticmethod
+    def forward(ctx, X_3D, W, bias):
+        # reshape input to [N * L, D]
+        X = X_3D.view(-1, X_3D.size(-1))
+        X_3D_sz = X_3D.size()
+
+        # rowwise quantize for X, global quantize for W
+        X_int8, state_X = quantize_rowwise(X)
+        del X
+        W_int8, state_W = quantize_global(W)
+
+        print('in mem eff backward.')
+
+        # save for backward.
+        ctx.save_for_backward = X_int8, state_X, W_int8, state_W
+
+        # matmult, fused dequant and add bias
+        # call "mixed" because we are mixing rowwise quantized and global quantized
+        return int8_matmul_mixed_dequanitze(
+            X_int8, W_int8.t(), state_X, state_W, bias
+        ).view(*X_3D_sz[:-1], -1)
+
+    @staticmethod
+    def backward(ctx, G_3D):
+        # reshape input to [N_out * L, D]
+        G = G_3D.reshape(-1, G_3D.size(-1))
+        G_3D_sz = G_3D.size()
+
+        grad_X = grad_W = grad_bias = None
+
+        X_int8, state_X, W_int8, state_W = ctx.save_for_backward
+        if ctx.needs_input_grad[1]:
+            real_X = dequantize_rowwise(X_int8, state_X)
+            del X_int8
+            grad_W = torch.matmul(G.t(), real_X.to(G.dtype))
+            del real_X
+        if ctx.needs_input_grad[2]:
+            grad_bias = G.sum(dim=0)
+        if ctx.needs_input_grad[0]:
+            G_int8, state_G = quantize_rowwise(G)
+            del G
+            W_int8 = W_int8.t().contiguous()
+            grad_X = int8_matmul_mixed_dequanitze(G_int8, W_int8.t(), state_G, state_W, None).view(
+                *G_3D_sz[:-1], -1
+            )
+
+        return grad_X, grad_W, grad_bias
 
 class SwitchBackLinear(nn.Linear):
     def __init__(
@@ -106,7 +157,8 @@ class SwitchBackLinear(nn.Linear):
             bias: bool = True,
             device=None, 
             dtype=None,
-            vectorize: bool = False
+            vectorize: bool = False,
+            mem_efficient : bool = False,
         ):
         super().__init__(in_features, out_features, bias, device, dtype)
 
@@ -114,8 +166,14 @@ class SwitchBackLinear(nn.Linear):
         self.vectorize = vectorize
         if self.vectorize:
             self._fn = _switchback_vectorrize
+            if mem_efficient:
+                print('mem efficient is not supported for vectorize mode.')
+                exit(1)
         else:
-            self._fn = _switchback_global
+            if mem_efficient:
+                self._fn = _switchback_global_mem_efficient
+            else:
+                self._fn = _switchback_global
 
     def prepare_for_eval(self):
         # If we just want to do eval, we can pre-quantize the weights instead of doing it on the forward pass.
@@ -158,6 +216,7 @@ class SwitchBackLinear(nn.Linear):
                 ).view(*x.size()[:-1], -1)
 
 SwitchBackLinearGlobal = partial(SwitchBackLinear, vectorize=False)
+SwitchBackLinearGlobalMemEfficient = partial(SwitchBackLinear, vectorize=False, mem_efficient=True)
 SwitchBackLinearVectorized = partial(SwitchBackLinear, vectorize=True)
 
 # This is just the standard linear function.
diff --git a/bitsandbytes/nn/triton_utils/v0/dequantize_rowwise.py b/bitsandbytes/nn/triton_utils/v0/dequantize_rowwise.py
new file mode 100644
index 0000000..7e31483
--- /dev/null
+++ b/bitsandbytes/nn/triton_utils/v0/dequantize_rowwise.py
@@ -0,0 +1,58 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# rowwise quantize
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _dequantize_rowwise(
+    x_ptr,
+    state_x,
+    output_ptr,
+    inv_127,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    arange = tl.arange(0, P2)
+    offsets = block_start + arange
+    row_mask = arange < BLOCK_SIZE
+    x = tl.load(x_ptr + offsets, mask=row_mask)
+    max_val = tl.load(state_x + pid)
+    output = max_val * x * inv_127
+    tl.store(output_ptr + offsets, output, mask=row_mask)
+    
+
+def dequantize_rowwise(x: torch.Tensor, state_x: torch.Tensor):
+    output = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (x.shape[0],)
+    _dequantize_rowwise[grid](x, state_x, output, 1./127, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+    return output

From d677a71607bdb4b3a41d8b58e1538b2170a931ed Mon Sep 17 00:00:00 2001
From: Mitchell Wortsman <mitchellw@ip-172-31-44-155.ec2.internal>
Date: Sat, 8 Apr 2023 19:36:17 +0000
Subject: [PATCH 41/97] typo

---
 bitsandbytes/nn/triton_based_modules.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/bitsandbytes/nn/triton_based_modules.py b/bitsandbytes/nn/triton_based_modules.py
index 578b99a..ffb1866 100644
--- a/bitsandbytes/nn/triton_based_modules.py
+++ b/bitsandbytes/nn/triton_based_modules.py
@@ -112,8 +112,6 @@ class _switchback_global_mem_efficient(torch.autograd.Function):
         del X
         W_int8, state_W = quantize_global(W)
 
-        print('in mem eff backward.')
-
         # save for backward.
         ctx.save_for_backward = X_int8, state_X, W_int8, state_W
 

From 7c651012fce87881bb4e194a26af25790cadea4f Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 07:56:52 -0700
Subject: [PATCH 42/97] Added better error message for debugging on CUDA not
 detected failures.

---
 bitsandbytes/cextension.py | 12 ++++++++----
 setup.py                   |  2 +-
 2 files changed, 9 insertions(+), 5 deletions(-)

diff --git a/bitsandbytes/cextension.py b/bitsandbytes/cextension.py
index 85bef00..a1f1d4c 100644
--- a/bitsandbytes/cextension.py
+++ b/bitsandbytes/cextension.py
@@ -18,16 +18,20 @@ try:
         CUDASetup.get_instance().generate_instructions()
         CUDASetup.get_instance().print_log_stack()
         raise RuntimeError('''
-        CUDA Setup failed despite GPU being available. Inspect the CUDA SETUP outputs above to fix your environment!
-        If you cannot find any issues and suspect a bug, please open an issue with detals about your environment:
-        https://github.com/TimDettmers/bitsandbytes/issues''')
+        CUDA Setup failed despite GPU being available. Please run the following command to get more information:
+
+        python -m bitsandbytes
+
+        Inspect the output of the command and see if you can locate CUDA libraries. You might need to add them
+        to your LD_LIBRARY_PATH. If you suspect a bug, please take the information from python -m bitsandbytes
+        and open an issue at: https://github.com/TimDettmers/bitsandbytes/issues''')
     lib.cadam32bit_g32
     lib.get_context.restype = ct.c_void_p
     lib.get_cusparse.restype = ct.c_void_p
     COMPILED_WITH_CUDA = True
 except AttributeError:
     warn("The installed version of bitsandbytes was compiled without GPU support. "
-        "8-bit optimizers and GPU quantization are unavailable.")
+        "8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.")
     COMPILED_WITH_CUDA = False
 
 # print the setup details after checking for errors so we do not print twice
diff --git a/setup.py b/setup.py
index b023c0b..e514463 100644
--- a/setup.py
+++ b/setup.py
@@ -18,7 +18,7 @@ def read(fname):
 
 setup(
     name=f"bitsandbytes",
-    version=f"0.38.0",
+    version=f"0.38.0.post2",
     author="Tim Dettmers",
     author_email="dettmers@cs.washington.edu",
     description="8-bit optimizers and matrix multiplication routines.",

From ec1ea637118a65faadf80bb356944e6fc3ecbeef Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 09:39:39 -0700
Subject: [PATCH 43/97] Refactored triton into its own folder. Refactored fp8
 matmuls.

---
 bitsandbytes/__init__.py                      |   7 +-
 bitsandbytes/autograd/_functions.py           | 540 ------------------
 bitsandbytes/nn/__init__.py                   |   2 +-
 bitsandbytes/nn/modules.py                    | 116 +---
 bitsandbytes/nn/triton_based_modules.py       |  31 +-
 bitsandbytes/nn/triton_utils/v0/__init__.py   |   0
 .../nn/triton_utils/v0/dequantize_rowwise.py  |  58 --
 .../v0/int8_matmul_mixed_dequanitze.py        | 158 -----
 .../v0/int8_matmul_rowwise_dequantize.py      | 159 ------
 .../v0/quantize_columnwise_and_transpose.py   |  68 ---
 .../nn/triton_utils/v0/quantize_global.py     | 100 ----
 .../nn/triton_utils/v0/quantize_rowwise.py    |  61 --
 speed_benchmark/speed_benchmark.py            |  10 +-
 tests/test_autograd.py                        |   6 +-
 tests/test_triton.py                          |   2 +
 15 files changed, 30 insertions(+), 1288 deletions(-)
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/__init__.py
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/dequantize_rowwise.py
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/quantize_columnwise_and_transpose.py
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/quantize_global.py
 delete mode 100644 bitsandbytes/nn/triton_utils/v0/quantize_rowwise.py

diff --git a/bitsandbytes/__init__.py b/bitsandbytes/__init__.py
index 5d80df9..dcbc423 100644
--- a/bitsandbytes/__init__.py
+++ b/bitsandbytes/__init__.py
@@ -3,18 +3,13 @@
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
 
-from . import cuda_setup, utils
+from . import cuda_setup, utils, research
 from .autograd._functions import (
     MatmulLtState,
     bmm_cublas,
     matmul,
     matmul_cublas,
     mm_cublas,
-    matmul_fp8,
-    matmul_mixed,
-    matmul_fp8_global,
-    matmul_fp4,
-    matmul_fp8_mixed,
 )
 from .cextension import COMPILED_WITH_CUDA
 from .nn import modules
diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index b7da7b0..cfab4a4 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -390,518 +390,6 @@ class MatMul8bitLt(torch.autograd.Function):
 
         return grad_A, grad_B, None, grad_bias, None
 
-class MatMulFP8(torch.autograd.Function):
-    # forward is the same, but we added the fallback for pre-turing GPUs
-    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
-
-    @staticmethod
-    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
-        # default of pytorch behavior if inputs are empty
-        ctx.is_empty = False
-        if prod(A.shape) == 0:
-            ctx.is_empty = True
-            ctx.A = A
-            ctx.B = B
-
-            B_shape = B.shape
-            if A.shape[-1] == B_shape[0]:
-                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
-            else:
-                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
-
-        # 1. Dequantize
-        # 2. MatmulnN
-        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
-        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
-
-        cB, state = F.quantize(B.float(), code=fw_code)
-        fp8B = F.dequantize(cB, state).to(B.dtype)
-
-        output = torch.matmul(fp8A, fp8B)
-
-        # output is half
-
-        # 3. Save state
-        ctx.fw_code = fw_code
-        ctx.bw_code = bw_code
-        ctx.bsz = bsz
-        ctx.bsz2 = bsz2
-        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
-
-        if any(ctx.needs_input_grad[:2]):
-            # NOTE: we send back A, and re-quant.
-            ctx.tensors = (A, fp8B)
-        else:
-            ctx.tensors = (None, None)
-
-        return output
-
-    @staticmethod
-    def backward(ctx, grad_output):
-        if ctx.is_empty:
-            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
-
-        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
-        A, B = ctx.tensors
-
-        grad_A, grad_B = None, None
-
-        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
-        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
-
-        cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
-        fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
-
-        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
-        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
-        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
-        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
-
-        # not supported by PyTorch. TODO: create work-around
-        if req_gradA: 
-            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
-
-        if req_gradB:
-            At = A.transpose(2, 1).contiguous()
-            cA, state = F.quantize(At.float(), code=ctx.fw_code)
-            fp8At = F.dequantize(cA, state).to(A.dtype)
-            grad_B = torch.matmul(fp8At.to(fp8out_2.dtype), fp8out_2).to(B.dtype)
-
-        return grad_A, grad_B, None, None, None, None, None
-    
-class MatMulFP8Mixed(torch.autograd.Function):
-    # forward is the same, but we added the fallback for pre-turing GPUs
-    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
-
-    @staticmethod
-    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
-        # default of pytorch behavior if inputs are empty
-        ctx.is_empty = False
-        if prod(A.shape) == 0:
-            ctx.is_empty = True
-            ctx.A = A
-            ctx.B = B
-
-            B_shape = B.shape
-            if A.shape[-1] == B_shape[0]:
-                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
-            else:
-                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
-
-        # 1. Dequantize
-        # 2. MatmulnN
-        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
-        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
-
-        cB, state = F.quantize(B.float(), code=fw_code)
-        fp8B = F.dequantize(cB, state).to(B.dtype)
-
-        output = torch.matmul(fp8A, fp8B)
-
-        # output is half
-
-        # 3. Save state
-        ctx.fw_code = fw_code
-        ctx.bw_code = bw_code
-        ctx.bsz = bsz
-        ctx.bsz2 = bsz2
-        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
-
-        if any(ctx.needs_input_grad[:2]):
-            # NOTE: we send back A, and re-quant.
-            ctx.tensors = (A, fp8B)
-        else:
-            ctx.tensors = (None, None)
-
-        return output
-
-    @staticmethod
-    def backward(ctx, grad_output):
-        if ctx.is_empty:
-            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
-
-        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
-        A, B = ctx.tensors
-
-        grad_A, grad_B = None, None
-
-        # TODO: Fix blocksize to be output_dim
-        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
-        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
-
-        # cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
-        # fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
-
-        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
-        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
-        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
-        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
-
-        # not supported by PyTorch. TODO: create work-around
-        if req_gradA: 
-            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
-
-        if req_gradB:
-            At = A.transpose(2, 1).contiguous()
-            # cA, state = F.quantize(At.float(), code=ctx.fw_code)
-            # fp8At = F.dequantize(cA, state).to(A.dtype)
-            grad_B = torch.matmul(At.to(grad_output.dtype), grad_output).to(B.dtype)
-
-        return grad_A, grad_B, None, None, None, None, None
-
-class MatMulFP4(torch.autograd.Function):
-    # forward is the same, but we added the fallback for pre-turing GPUs
-    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
-
-    @staticmethod
-    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
-        # default of pytorch behavior if inputs are empty
-        ctx.is_empty = False
-        if prod(A.shape) == 0:
-            ctx.is_empty = True
-            ctx.A = A
-            ctx.B = B
-
-            B_shape = B.shape
-            if A.shape[-1] == B_shape[0]:
-                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
-            else:
-                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
-
-        # 1. Dequantize
-        # 2. MatmulnN
-        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
-        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
-
-        cB, state = F.quantize(B.float(), code=fw_code)
-        fp8B = F.dequantize(cB, state).to(B.dtype)
-
-        output = torch.matmul(fp8A, fp8B)
-
-        # output is half
-
-        # 3. Save state
-        ctx.fw_code = fw_code
-        ctx.bw_code = bw_code
-        ctx.bsz = bsz
-        ctx.bsz2 = bsz2
-        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
-
-        if any(ctx.needs_input_grad[:2]):
-            # NOTE: we send back A, and re-quant.
-            ctx.tensors = (A, fp8B)
-        else:
-            ctx.tensors = (None, None)
-
-        return output
-
-    @staticmethod
-    def backward(ctx, grad_output):
-        if ctx.is_empty:
-            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
-
-        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
-        A, B = ctx.tensors
-
-        grad_A, grad_B = None, None
-
-        # TODO: Fix blocksize to be output_dim
-        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
-        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
-
-        cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
-        fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
-
-        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
-        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
-        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
-        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
-
-        # not supported by PyTorch. TODO: create work-around
-        if req_gradA: 
-            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
-
-        if req_gradB:
-            At = A.transpose(2, 1).contiguous()
-            cA, state = F.quantize(At.float(), code=ctx.bw_code)
-            fp8At = F.dequantize(cA, state).to(A.dtype)
-            grad_B = torch.matmul(fp8At.to(fp8out_2.dtype), fp8out_2).to(B.dtype)
-
-        return grad_A, grad_B, None, None, None, None, None
-
-
-
-class MatMulFP8Global(torch.autograd.Function):
-    # forward is the same, but we added the fallback for pre-turing GPUs
-    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
-
-    @staticmethod
-    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
-        # default of pytorch behavior if inputs are empty
-        ctx.is_empty = False
-        if prod(A.shape) == 0:
-            ctx.is_empty = True
-            ctx.A = A
-            ctx.B = B
-
-            B_shape = B.shape
-            if A.shape[-1] == B_shape[0]:
-                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
-            else:
-                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
-
-        # 1. Dequantize
-        # 2. MatmulnN
-        cA, state = F.quantize(A.float(), code=fw_code)
-        fp8A = F.dequantize(cA, state).to(A.dtype)
-
-        cB, state = F.quantize(B.float(), code=fw_code)
-        fp8B = F.dequantize(cB, state).to(B.dtype)
-
-        output = torch.matmul(fp8A, fp8B)
-
-        # output is half
-
-        # 3. Save state
-        ctx.fw_code = fw_code
-        ctx.bw_code = bw_code
-        ctx.bsz = bsz
-        ctx.bsz2 = bsz2
-        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
-
-        if any(ctx.needs_input_grad[:2]):
-            # NOTE: we send back A, and re-quant.
-            ctx.tensors = (A, fp8B)
-        else:
-            ctx.tensors = (None, None)
-
-        return output
-
-    @staticmethod
-    def backward(ctx, grad_output):
-        if ctx.is_empty:
-            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None
-
-        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
-        A, B = ctx.tensors
-
-        grad_A, grad_B = None, None
-
-        # TODO: Fix blocksize to be output_dim
-        cgrad_out, state = F.quantize(grad_output.float(), code=ctx.bw_code)
-        fp8out = F.dequantize(cgrad_out, state).to(grad_output.dtype)
-
-        # cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
-        # fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
-
-        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
-        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
-        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
-        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
-
-        # not supported by PyTorch. TODO: create work-around
-        if req_gradA: 
-            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
-
-        if req_gradB:
-            At = A.transpose(2, 1).contiguous()
-            cA, state = F.quantize(At.float(), code=ctx.fw_code)
-            fp8At = F.dequantize(cA, state).to(A.dtype)
-            grad_B = torch.matmul(fp8At.to(fp8out.dtype), fp8out).to(B.dtype)
-
-        return grad_A, grad_B, None, None, None, None, None
-
-
-class MatMul8bitMixed(torch.autograd.Function):
-    @staticmethod
-    def forward(ctx, A, B, out=None, bias=None, state=MatmulLtState()):
-        # default to pytorch behavior if inputs are empty
-        ctx.is_empty = False
-        if prod(A.shape) == 0:
-            ctx.is_empty = True
-            ctx.A = A
-            ctx.B = B
-            ctx.bias = bias
-            if A.shape[-1] == B.shape[0]:
-                return torch.empty(A.shape[:-1]+B.shape[1:], dtype=A.dtype, device=A.device)
-            else:
-                return torch.empty(A.shape[:-1]+B.shape[:1], dtype=A.dtype, device=A.device)
-
-        # 1. Quantize A
-        # 2. Quantize B
-        # 3. Matmul
-        # 4. Mixed-precision decomposition matmul
-        # 5. Save state
-        formatB = state.formatB
-        input_shape = A.shape
-        if state.outlier_pool is None:
-            state.outlier_pool = GlobalOutlierPooler.get_instance()
-
-        # Cast A to fp16
-        if A.dtype != torch.float16:
-            warnings.warn(f"MatMul8bitLt: inputs will be cast from {A.dtype} to float16 during quantization")
-
-        # 1. Quantize A
-        if len(A.shape) == 3:
-            A = A.view(-1, A.shape[-1]).contiguous()
-        CA, CAt, SCA, SCAt, coo_tensorA = F.double_quant(
-            A.to(torch.float16), threshold=state.threshold
-        )
-
-        if state.threshold > 0.0 and coo_tensorA is not None:
-            if state.has_fp16_weights:
-                idx = torch.unique(coo_tensorA.colidx).long()
-                CA[:, idx] = 0
-                CAt[:, idx] = 0
-                subA = A[:, idx]
-                state.subB = B[:, idx].t().contiguous()
-                state.idx = idx
-            else:
-                if state.CxB is None:
-                    # B in in 8-bit row-major, we can transform it back to 16-bit to extract outlier dimensions
-                    # we also need to convert it to the turing/ampere format
-                    state.CxB, state.SB = F.transform(state.CB, to_order=formatB)
-        else:
-            #print('A shape', A.shape)
-            if not state.has_fp16_weights and state.CxB is None:
-                state.CxB, state.SB = F.transform(state.CB, to_order=formatB)
-            subA = None
-
-        # 2. Quantize B
-        if state.has_fp16_weights:
-            #print('B shape', B.shape)
-            has_grad = True if (getattr(B, "grad", None) is not None) else False
-            is_transposed = not B.is_contiguous() and B.shape[0] == B.stride(1)
-            if is_transposed:
-                B = B.contiguous()
-
-            if (state.is_training and not has_grad) or state.CxB is None:
-                state.reset_grads()
-                (
-                    CB,
-                    state.CBt,
-                    state.SCB,
-                    state.SCBt,
-                    coo_tensorB,
-                ) = F.double_quant(B.to(torch.float16))
-                state.CxB, state.SB = F.transform(CB, to_order=formatB)
-        else:
-            has_grad = False
-
-        if coo_tensorA is not None and not state.has_fp16_weights:
-            # extract outliers
-
-            outlier_idx = torch.unique(coo_tensorA.colidx)
-            state.idx = outlier_idx
-            # state.outlier_pool.add_outliers(outlier_idx, A.shape[-1])
-            # if state.use_pool and state.outlier_pool.model_dim == A.shape[-1]:
-            #    # do not use pool for 2nd FFN layer
-            #    state.idx = state.outlier_pool.get_current_outlier_idx().to(A.device)
-            # else:
-            #    state.idx = outlier_idx
-            outliers = F.extract_outliers(state.CxB, state.SB, state.idx.int())
-            state.subB = (
-                (outliers * state.SCB.view(-1, 1) / 127.0)
-                .t()
-                .contiguous()
-                .to(A.dtype)
-            )
-            CA[:, state.idx.long()] = 0
-            CAt[:, state.idx.long()] = 0
-            subA = A[:, state.idx.long()]
-
-        shapeB = state.SB[0]
-
-        if len(input_shape) == 3:
-            output_shape = (input_shape[0], input_shape[1], shapeB[0])
-        else:
-            output_shape = (input_shape[0], shapeB[0])
-
-        # 3. Matmul
-        C32A, SA = F.transform(CA, "col32")
-        out32, Sout32 = F.igemmlt(C32A, state.CxB, SA, state.SB)
-        # we apply the fused bias here
-
-        if bias is None or bias.dtype == torch.float16:
-            output = F.mm_dequant(out32, Sout32, SCA, state.SCB, bias=bias)
-            output = output.to(A.dtype)
-        else:  # apply bias separately
-            output = F.mm_dequant(out32, Sout32, SCA, state.SCB, bias=None)
-            output = output.to(A.dtype).add_(bias)
-
-        # 4. Mixed-precision decomposition matmul
-        if coo_tensorA is not None and subA is not None:
-            output += torch.matmul(subA, state.subB)
-
-        # 5. Save state
-        ctx.state = state
-
-        ctx.formatB = formatB
-        ctx.grad_shape = input_shape
-        ctx.dtype_A, ctx.dtype_B, ctx.dtype_bias = A.dtype, B.dtype, None if bias is None else bias.dtype
-
-        if any(ctx.needs_input_grad[:2]):
-            ctx.tensors = (CAt, subA, A)
-            ctx.tensor_states = (SCAt, state.idx)
-        else:
-            ctx.tensors = [None, None, None]
-            ctx.tensor_states = (None, None)
-            ctx.save_for_backward(None, None)
-
-
-        clone_func = torch.clone if len(output_shape) == 3 else lambda x : x
-        return clone_func(output.view(output_shape))
-
-    @staticmethod
-    def backward(ctx, grad_output):
-        if ctx.is_empty:
-            bias_grad = (None if ctx.bias is None else torch.zeros_like(ctx.bias))
-            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, bias_grad, None
-        req_gradA, req_gradB, _, req_gradBias, _ = ctx.needs_input_grad
-        CAt, subA, A = ctx.tensors
-        SCAt, idx = ctx.tensor_states
-        formatB = ctx.formatB
-        state = ctx.state
-        grad_A = grad_B = grad_bias = None
-
-        if req_gradBias:
-            # compute grad_bias first before changing grad_output dtype
-            grad_bias = grad_output.sum(0, dtype=ctx.dtype_bias)
-
-        # Cast grad_output to fp16
-        if len(grad_output.shape) == 3:
-            grad_output = grad_output.reshape(
-                -1, grad_output.shape[-1]
-            ).contiguous()
-
-        Cgrad, Cgradt, SCgrad, SCgradt, coo_tensor = F.double_quant(grad_output.to(torch.float16))
-
-        if req_gradB:
-            # print('back A shape', A.shape)
-            # print('grad output t shape', grad_output.t().shape)
-            grad_B = torch.matmul(grad_output.t(), A)
-
-        if req_gradA:
-            if state.CBt is not None:
-                C32grad, Sgrad = F.transform(Cgrad, "col32")
-                if state.CxBt is None:
-                    state.CxBt, state.SBt = F.transform(
-                        state.CBt, to_order=formatB, transpose=True
-                    )
-                # print('back B shape', state.CxBt.shape)
-                # print('back grad shape', C32grad.shape)
-                gradA32, SgradA32 = F.igemmlt(C32grad, state.CxBt, Sgrad, state.SBt)
-                grad_A = F.mm_dequant(gradA32, SgradA32, SCgrad, state.SCBt).view(ctx.grad_shape).to(ctx.dtype_A)
-
-            elif state.CB is not None:
-                CB = state.CB.to(ctx.dtype_A, copy=True).mul_(state.SCB.unsqueeze(1).mul(1. / 127.0))
-                grad_A = torch.matmul(grad_output, CB).view(ctx.grad_shape).to(ctx.dtype_A)
-            else:
-                raise Exception('State must contain either CBt or CB matrix for backward')
-
-        return grad_A, grad_B, None, grad_bias, None
-
-
 def matmul(
     A: tensor,
     B: tensor,
@@ -914,31 +402,3 @@ def matmul(
     if threshold > 0.0:
         state.threshold = threshold
     return MatMul8bitLt.apply(A, B, out, bias, state)
-
-
-def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
-    return MatMulFP8.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
-
-def matmul_fp8_global(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
-    return MatMulFP8Global.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
-
-def matmul_fp8_mixed(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
-    return MatMulFP8Mixed.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
-
-
-def matmul_fp4(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
-    return MatMulFP4.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
-
-
-def matmul_mixed(
-    A: tensor,
-    B: tensor,
-    out: tensor = None,
-    state: MatmulLtState = None,
-    threshold=0.0,
-    bias=None
-):
-    state = state or MatmulLtState()
-    if threshold > 0.0:
-        state.threshold = threshold
-    return MatMul8bitMixed.apply(A, B, out, bias, state)
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index c6141ad..51bccbc 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,5 +2,5 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, Fake4bitLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLt2, Linear8bitLtMixed, LinearFP8Global, LinearFP4, LinearFP8Mixed
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLtMixed, LinearFP8Global, LinearFP4, LinearFP8Mixed
 from .triton_based_modules import SwitchBackLinear, SwitchBackLinearGlobal, SwitchBackLinearVectorized, StandardLinear
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 9cdcb4a..7150378 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -163,55 +163,6 @@ class OutlierAwareLinear(nn.Linear):
         return self.forward_with_outliers(x, self.outlier_dim)
 
 
-class Fake4bitLinear(OutlierAwareLinear):
-    def __init__(self, input_features, output_features, bias=True, codebook=bnb.functional.create_fp8_map(True, 3, 0, total_bits=4)):
-        super().__init__(input_features, output_features, bias)
-        self.codebook = codebook
-
-    def quantize_weight(self, w, outlier_idx):
-        if outlier_idx.numel() > 0:
-            subw = w[:, outlier_idx].clone()
-            w[:, outlier_idx] = 0
-        wdtype = w.dtype
-        code = self.codebook.to(w.device)
-        cw, state = bnb.functional.quantize_blockwise(w, code=code, blocksize=64)
-        w = bnb.functional.dequantize_blockwise(cw, state, blocksize=64)
-        w = w.to(wdtype)
-        if outlier_idx.numel() > 0:
-            w[:, outlier_idx] = subw
-        self.is_quantized = True
-        return w
-
-    def forward_with_outliers(self, x, outlier_idx):
-        dims = torch.abs(x> 4).sum(dim=list(range(len(x.shape)-1)))
-        outlier_idx2 = torch.where(dims > 0)[0]
-        outlier_idx = torch.cat([outlier_idx, outlier_idx2]).unique()
-        n = x.shape[-1]
-        idx = torch.arange(n, device=x.device)
-        idx[outlier_idx] = -1
-        inverse_idx = torch.where(idx >= 0)[0]
-        if outlier_idx.numel() > 0:
-            subx = x[..., outlier_idx].clone()
-            #print(1, subx, 1)
-            #x[..., outlier_idx] = 0
-        inverse_x = x[...,inverse_idx]
-        xdtype = x.dtype
-        #code = bnb.functional.create_fp8_map(True, 4-3, 2, 4).to(x.device)
-        #code = bnb.functional.create_quantile_map(x, 4).to(x.device)
-        code = bnb.functional.create_dynamic_map(True, total_bits=4.0).to(x.device)
-        c, state = bnb.functional.quantize_blockwise(inverse_x, code=code, blocksize=64)
-        inverse_x = bnb.functional.dequantize_blockwise(c, state, blocksize=64)
-        #c, state = bnb.functional.quantize_blockwise(x, code=code, blocksize=64)
-        #x = bnb.functional.dequantize_blockwise(c, state, blocksize=64)
-        x = x.to(xdtype)
-        x[..., inverse_idx] = inverse_x.to(x.dtype)
-        #if outlier_idx.numel() > 0:
-            #x[..., outlier_idx] = subx
-
-        return torch.nn.functional.linear(x, self.weight, self.bias)
-
-
-
 class Int8Params(torch.nn.Parameter):
     def __new__(
         cls,
@@ -346,67 +297,6 @@ class Linear8bitLt(nn.Linear):
         return out
 
 
-# Not in use for now...
-class Linear8bitLt2(nn.Linear):
-    def __init__(
-        self,
-        input_features,
-        output_features,
-        bias=True,
-        has_fp16_weights=True,
-        memory_efficient_backward=False,
-        threshold=0.0,
-        index=None,
-    ):
-        super().__init__(
-            input_features, output_features, bias
-        )
-        self.state = bnb.MatmulLtState()
-        self.index = index
-
-        self.state.threshold = threshold
-        self.state.has_fp16_weights = has_fp16_weights
-        self.state.memory_efficient_backward = memory_efficient_backward
-        if threshold > 0.0 and not has_fp16_weights:
-            self.state.use_pool = True
-
-        self.weight = Int8Params(
-            self.weight.data, has_fp16_weights=has_fp16_weights, requires_grad=has_fp16_weights
-        )
-
-    def init_8bit_state(self):
-        self.state.CB = self.weight.CB
-        self.state.SCB = self.weight.SCB
-        self.weight.CB = None
-        self.weight.SCB = None
-
-    def forward(self, x):
-        self.state.is_training = self.training
-
-        if self.weight.CB is not None:
-            self.init_8bit_state()
-
-        # weights are cast automatically as Int8Params, but the bias has to be cast manually
-        # if self.bias is not None and self.bias.dtype != torch.float16:
-        #     self.bias.data = self.bias.data.half()
-
-        #out = bnb.matmul(x.half(), self.weight.half(), bias=None, state=self.state) + self.bias
-        out = bnb.matmul(x, self.weight, bias=None, state=self.state) + self.bias
-        #out = torch.matmul(x.half(), W.half().t()) + self.bias
-
-        if not self.state.has_fp16_weights:
-            if not self.state.memory_efficient_backward and self.state.CB is not None:
-                # we converted 8-bit row major to turing/ampere format in the first inference pass
-                # we no longer need the row-major weight
-                del self.state.CB
-                self.weight.data = self.state.CxB
-            elif self.state.memory_efficient_backward and self.state.CxB is not None:
-                # For memory efficient backward, we convert 8-bit row major to turing/ampere format at each inference pass.
-                # Thus, we delete CxB from the state.
-                del self.state.CxB
-
-        return out
-
 class Linear8bitLtMixed(nn.Linear):
     def __init__(
         self,
@@ -508,7 +398,7 @@ class LinearFP8(nn.Linear):
             self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
             self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
 
-        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
+        out = bnb.research.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
         if self.bias is not None:
             out += self.bias
 
@@ -534,7 +424,7 @@ class LinearFP8Mixed(nn.Linear):
             self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
             self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
 
-        out = bnb.matmul_fp8_mixed(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
+        out = bnb.research.matmul_fp8_mixed(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
         if self.bias is not None:
             out += self.bias
 
@@ -638,4 +528,4 @@ class LinearFP4(nn.Linear):
         if self.bias is not None:
             out += self.bias
 
-        return out
\ No newline at end of file
+        return out
diff --git a/bitsandbytes/nn/triton_based_modules.py b/bitsandbytes/nn/triton_based_modules.py
index ffb1866..61e9053 100644
--- a/bitsandbytes/nn/triton_based_modules.py
+++ b/bitsandbytes/nn/triton_based_modules.py
@@ -3,12 +3,12 @@ import torch.nn as nn
 import time
 from functools import partial
 
-from .triton_utils.v0.dequantize_rowwise import dequantize_rowwise
-from .triton_utils.v0.quantize_rowwise import quantize_rowwise
-from .triton_utils.v0.quantize_columnwise_and_transpose import quantize_columnwise_and_transpose
-from .triton_utils.v0.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
-from .triton_utils.v0.quantize_global import quantize_global, quantize_global_transpose
-from .triton_utils.v0.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze
+from bitsandbytes.triton.dequantize_rowwise import dequantize_rowwise
+from bitsandbytes.triton.quantize_rowwise import quantize_rowwise
+from bitsandbytes.triton.quantize_columnwise_and_transpose import quantize_columnwise_and_transpose
+from bitsandbytes.triton.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
+from bitsandbytes.triton.quantize_global import quantize_global, quantize_global_transpose
+from bitsandbytes.triton.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze
 
 
 class _switchback_global(torch.autograd.Function):
@@ -55,7 +55,7 @@ class _switchback_global(torch.autograd.Function):
             grad_bias = G.sum(dim=0)
 
         return grad_X, grad_W, grad_bias
-    
+
 class _switchback_vectorrize(torch.autograd.Function):
 
     @staticmethod
@@ -74,7 +74,7 @@ class _switchback_vectorrize(torch.autograd.Function):
         return int8_matmul_rowwise_dequantize(
             X_int8, W_int8.t(), state_X, state_W, bias
         ).view(*X_3D.size()[:-1], -1)
-    
+
     @staticmethod
     def backward(ctx, G_3D):
         X, W = ctx.save_for_backward
@@ -98,7 +98,7 @@ class _switchback_vectorrize(torch.autograd.Function):
             grad_bias = G.sum(dim=0)
 
         return grad_X, grad_W, grad_bias
-    
+
 class _switchback_global_mem_efficient(torch.autograd.Function):
 
     @staticmethod
@@ -149,11 +149,11 @@ class _switchback_global_mem_efficient(torch.autograd.Function):
 
 class SwitchBackLinear(nn.Linear):
     def __init__(
-            self, 
-            in_features: int, 
-            out_features: int, 
+            self,
+            in_features: int,
+            out_features: int,
             bias: bool = True,
-            device=None, 
+            device=None,
             dtype=None,
             vectorize: bool = False,
             mem_efficient : bool = False,
@@ -186,7 +186,7 @@ class SwitchBackLinear(nn.Linear):
             W_int8, state_W = quantize_rowwise(self.weight)
         else:
             W_int8, state_W = quantize_global(self.weight)
-        
+
         self.register_buffer("W_int8", W_int8)
         self.register_buffer("state_W", state_W)
 
@@ -199,7 +199,7 @@ class SwitchBackLinear(nn.Linear):
             # If it hasn't been "prepared for eval", run the standard forward pass.
             if not hasattr(self, "W_int8"):
                 return self._fn.apply(x, self.weight, self.bias)
-            
+
             # Otherwise, use pre-computed weights.
             X = x.view(-1, x.size(-1))
             X_int8, state_X = quantize_rowwise(X)
@@ -250,4 +250,3 @@ class StandardLinear(nn.Linear):
 
     def forward(self, x):
         return StandardLinearFunction.apply(x, self.weight, self.bias)
-    
diff --git a/bitsandbytes/nn/triton_utils/v0/__init__.py b/bitsandbytes/nn/triton_utils/v0/__init__.py
deleted file mode 100644
index e69de29..0000000
diff --git a/bitsandbytes/nn/triton_utils/v0/dequantize_rowwise.py b/bitsandbytes/nn/triton_utils/v0/dequantize_rowwise.py
deleted file mode 100644
index 7e31483..0000000
--- a/bitsandbytes/nn/triton_utils/v0/dequantize_rowwise.py
+++ /dev/null
@@ -1,58 +0,0 @@
-import math
-import torch
-import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-# rowwise quantize
-
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _dequantize_rowwise(
-    x_ptr,
-    state_x,
-    output_ptr,
-    inv_127,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    arange = tl.arange(0, P2)
-    offsets = block_start + arange
-    row_mask = arange < BLOCK_SIZE
-    x = tl.load(x_ptr + offsets, mask=row_mask)
-    max_val = tl.load(state_x + pid)
-    output = max_val * x * inv_127
-    tl.store(output_ptr + offsets, output, mask=row_mask)
-    
-
-def dequantize_rowwise(x: torch.Tensor, state_x: torch.Tensor):
-    output = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
-
-    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
-
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (x.shape[0],)
-    _dequantize_rowwise[grid](x, state_x, output, 1./127, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
-    return output
diff --git a/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py b/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
deleted file mode 100644
index 69d4b0c..0000000
--- a/bitsandbytes/nn/triton_utils/v0/int8_matmul_mixed_dequanitze.py
+++ /dev/null
@@ -1,158 +0,0 @@
-import torch
-
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-
-# This is a matmul kernel based on triton.ops.matmul
-# It is modified to support rowwise quantized input and global quantized weight
-# It's purpose is fused matmul then dequantize
-# It does support bias.
-
-def init_to_zero(name):
-    return lambda nargs: nargs[name].zero_()
-
-def get_configs_io_bound():
-    configs = []
-    for num_stages in [2, 3, 4, 5, 6]:
-        for block_m in [16, 32]:
-            for block_k in [32, 64]:
-                for block_n in [32, 64, 128, 256]:
-                    num_warps = 2 if block_n <= 64 else 4
-                    configs.append(
-                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
-                                      num_stages=num_stages, num_warps=num_warps))
-                    # split_k
-                    for split_k in [2, 4, 8, 16]:
-                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
-                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
-    return configs
-
-
-@triton.autotune(
-    configs=[
-        # basic configs for compute-bound matmuls
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-        # good for int8
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-    ] + get_configs_io_bound(),
-    key=['M', 'N', 'K'],
-    prune_configs_by={
-        'early_config_prune': early_config_prune,
-        'perf_model': estimate_matmul_time,
-        'top_k': 10
-    },
-)
-@triton.heuristics({
-    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
-})
-@triton.jit
-def _int8_matmul_mixed_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr, has_bias : tl.constexpr,
-            stride_am, stride_ak,
-            stride_bk, stride_bn,
-            stride_cm, stride_cn,
-            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
-            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
-            ACC_TYPE: tl.constexpr
-            ):
-    # matrix multiplication
-    pid = tl.program_id(0)
-    pid_z = tl.program_id(1)
-    grid_m = tl.cdiv(M, BLOCK_M)
-    grid_n = tl.cdiv(N, BLOCK_N)
-    # re-order program ID for better L2 performance
-    width = GROUP_M * grid_n
-    group_id = pid // width
-    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
-    pid_m = group_id * GROUP_M + (pid % group_size)
-    pid_n = (pid % width) // (group_size)
-    # do matrix multiplication
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
-    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
-    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
-    # pointers
-    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
-    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
-
-    # rematerialize rm and rn to save registers
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-
-    w_factor = tl.load(state_w_ptr)
-    x_factor = tl.load(state_x_ptr + ram)[:, None]
-
-    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
-    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
-    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
-        if EVEN_K:
-            a = tl.load(A)
-            b = tl.load(B)
-        else:
-            k_remaining = K - k * (BLOCK_K * SPLIT_K)
-            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
-            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
-        acc += tl.dot(a, b)
-        A += BLOCK_K * SPLIT_K * stride_ak
-        B += BLOCK_K * SPLIT_K * stride_bk
-    
-    acc = (w_factor * (x_factor * (acc * divfactor)))
-    acc = acc.to(C.dtype.element_ty)
-
-    # conditionally add bias
-    if has_bias:
-        bias = tl.load(bias + rn).to(C.dtype.element_ty)
-        acc = acc + bias[None, :]
-
-    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-    # handles write-back with reduction-splitting
-    if SPLIT_K == 1:
-        tl.store(C, acc, mask=mask)
-    else:
-        tl.atomic_add(C, acc, mask=mask)
-
-
-def int8_matmul_mixed_dequanitze(a, b, state_x, state_w, bias):
-    device = a.device
-    divfactor = 1. / (127. * 127.)
-    has_bias = 0 if bias is None else 1
-    # handle non-contiguous inputs if necessary
-    if a.stride(0) > 1 and a.stride(1) > 1:
-        a = a.contiguous()
-    if b.stride(0) > 1 and b.stride(1) > 1:
-        b = b.contiguous()
-    # checks constraints
-    assert a.shape[1] == b.shape[0], "incompatible dimensions"
-    M, K = a.shape
-    _, N = b.shape
-    # allocates output
-    c = torch.empty((M, N), device=device, dtype=torch.float16)
-    # accumulator types
-    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
-    # launch int8_matmul_mixed_dequantize kernel
-    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
-    _int8_matmul_mixed_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
-                    a.stride(0), a.stride(1),
-                    b.stride(0), b.stride(1),
-                    c.stride(0), c.stride(1),
-                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
-    return c
diff --git a/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py b/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
deleted file mode 100644
index 4af054b..0000000
--- a/bitsandbytes/nn/triton_utils/v0/int8_matmul_rowwise_dequantize.py
+++ /dev/null
@@ -1,159 +0,0 @@
-import torch
-
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-# This is a matmul kernel based on triton.ops.matmul
-# It is modified to support rowwise quantized input and columnwise quantized weight
-# It's purpose is fused matmul then dequantize
-# It does support bias.
-
-def init_to_zero(name):
-    return lambda nargs: nargs[name].zero_()
-
-
-def get_configs_io_bound():
-    configs = []
-    for num_stages in [2, 3, 4, 5, 6]:
-        for block_m in [16, 32]:
-            for block_k in [32, 64]:
-                for block_n in [32, 64, 128, 256]:
-                    num_warps = 2 if block_n <= 64 else 4
-                    configs.append(
-                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
-                                      num_stages=num_stages, num_warps=num_warps))
-                    # split_k
-                    for split_k in [2, 4, 8, 16]:
-                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
-                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
-    return configs
-
-
-@triton.autotune(
-    configs=[
-        # basic configs for compute-bound matmuls
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-        # good for int8
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-    ] + get_configs_io_bound(),
-    key=['M', 'N', 'K'],
-    prune_configs_by={
-        'early_config_prune': early_config_prune,
-        'perf_model': estimate_matmul_time,
-        'top_k': 10
-    },
-)
-@triton.heuristics({
-    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
-})
-@triton.jit
-def _int8_matmul_rowwise_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor, has_bias : tl.constexpr,
-            stride_am, stride_ak,
-            stride_bk, stride_bn,
-            stride_cm, stride_cn,
-            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
-            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
-            ACC_TYPE: tl.constexpr
-            ):
-    # matrix multiplication
-    pid = tl.program_id(0)
-    pid_z = tl.program_id(1)
-    grid_m = tl.cdiv(M, BLOCK_M)
-    grid_n = tl.cdiv(N, BLOCK_N)
-    # re-order program ID for better L2 performance
-    width = GROUP_M * grid_n
-    group_id = pid // width
-    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
-    pid_m = group_id * GROUP_M + (pid % group_size)
-    pid_n = (pid % width) // (group_size)
-    # do matrix multiplication
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
-    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
-    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
-    # pointers
-    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
-    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
-
-    # rematerialize rm and rn to save registers
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-
-    w_factor = tl.load(state_w_ptr + rbn)[None, :]
-    x_factor = tl.load(state_x_ptr + ram)[:, None]
-
-    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
-    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
-    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
-        if EVEN_K:
-            a = tl.load(A)
-            b = tl.load(B)
-        else:
-            k_remaining = K - k * (BLOCK_K * SPLIT_K)
-            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
-            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
-        acc += tl.dot(a, b)
-        A += BLOCK_K * SPLIT_K * stride_ak
-        B += BLOCK_K * SPLIT_K * stride_bk
-    
-    acc = (w_factor * (x_factor * (acc * divfactor)))
-    acc = acc.to(C.dtype.element_ty)
-
-    if has_bias:
-        bias = tl.load(bias + rn).to(C.dtype.element_ty)
-        acc = acc + bias[None, :]
-
-    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-    # handles write-back with reduction-splitting
-    if SPLIT_K == 1:
-        tl.store(C, acc, mask=mask)
-    else:
-        tl.atomic_add(C, acc, mask=mask)
-
-
-def int8_matmul_rowwise_dequantize(a, b, state_x, state_w, bias):
-    divfactor = 1. / (127. * 127.)
-
-    has_bias = 0 if bias is None else 1
-
-    device = a.device
-    # handle non-contiguous inputs if necessary
-    if a.stride(0) > 1 and a.stride(1) > 1:
-        a = a.contiguous()
-    if b.stride(0) > 1 and b.stride(1) > 1:
-        b = b.contiguous()
-    # checks constraints
-    assert a.shape[1] == b.shape[0], "incompatible dimensions"
-    M, K = a.shape
-    _, N = b.shape
-    # allocates output
-    c = torch.empty((M, N), device=device, dtype=torch.float16)
-    # accumulator types
-    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
-    # launch int8_matmul_rowwise_dequantize kernel
-    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
-    _int8_matmul_rowwise_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
-                    a.stride(0), a.stride(1),
-                    b.stride(0), b.stride(1),
-                    c.stride(0), c.stride(1),
-                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
-    return c
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_and_transpose.py b/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_and_transpose.py
deleted file mode 100644
index 4e53475..0000000
--- a/bitsandbytes/nn/triton_utils/v0/quantize_columnwise_and_transpose.py
+++ /dev/null
@@ -1,68 +0,0 @@
-import math
-import torch
-import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-# This kernel does fused columnwise quantization and transpose.
-
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_stages=16),
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=16, num_warps=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_columnwise_and_transpose(
-    x_ptr,
-    output_ptr,
-    output_maxs,
-    n_elements,
-    M : tl.constexpr, N : tl.constexpr,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid
-    p2_arange = tl.arange(0, P2)
-    p2_arange_mask = p2_arange < M
-    arange =  p2_arange * N
-    offsets = block_start + arange
-    x = tl.load(x_ptr + offsets, mask=p2_arange_mask)
-    abs_x = tl.abs(x)
-    max_val = tl.max(tl.where(p2_arange_mask, abs_x, 0), axis=0)
-    output = tl.libdevice.llrint(127. * (x / max_val))
-
-    new_start = pid * M 
-    new_offsets = new_start + p2_arange
-    tl.store(output_ptr + new_offsets, output, mask=p2_arange_mask)
-    tl.store(output_maxs + pid, max_val)
-
-def quantize_columnwise_and_transpose(x: torch.Tensor):
-    M, N = x.shape
-    output = torch.empty(N, M, device=x.device, dtype=torch.int8)
-    output_maxs = torch.empty(x.shape[1], device=x.device, dtype=torch.float16)
-
-    P2 = int(2 ** (math.ceil(math.log2(M))))
-
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
-    _quantize_columnwise_and_transpose[grid](x, output, output_maxs, n_elements, M, N, BLOCK_SIZE=M, P2=P2)
-    return output, output_maxs
-
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_global.py b/bitsandbytes/nn/triton_utils/v0/quantize_global.py
deleted file mode 100644
index 229721c..0000000
--- a/bitsandbytes/nn/triton_utils/v0/quantize_global.py
+++ /dev/null
@@ -1,100 +0,0 @@
-import math
-import torch
-import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-# global quantize
-@triton.autotune(
-        configs=[
-            triton.Config({'BLOCK_SIZE': 1024,}, num_warps=4),
-            triton.Config({'BLOCK_SIZE': 2048,}, num_stages=1),
-
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_global(
-    x_ptr,
-    absmax_inv_ptr,
-    output_ptr,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    offsets = block_start + tl.arange(0, BLOCK_SIZE)
-    mask = offsets < n_elements
-    x = tl.load(x_ptr + offsets, mask=mask)
-    absmax_inv = tl.load(absmax_inv_ptr)
-    output = tl.libdevice.llrint(127. * (x * absmax_inv))
-    tl.store(output_ptr + offsets, output, mask=mask)
-
-def quantize_global(x: torch.Tensor):
-    absmax = x.abs().max().unsqueeze(0)
-    absmax_inv = 1./ absmax
-    output = torch.empty(*x.shape, device='cuda', dtype=torch.int8)
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
-    _quantize_global[grid](x, absmax_inv, output, n_elements)
-    return output, absmax
-
-
-# global quantize and transpose
-@triton.autotune(
-        configs=[
-            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
-            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
-
-            # ...
-        ],
-        key=['M', 'N']
-)
-@triton.jit
-def _quantize_global_transpose(A, absmax_inv_ptr, B, stride_am, stride_an, stride_bn, stride_bm, M, N, 
-                      BLOCK_M : tl.constexpr, 
-                      BLOCK_N : tl.constexpr, 
-                      GROUP_M : tl.constexpr):
-    pid = tl.program_id(0)
-    grid_m = (M + BLOCK_M - 1) // BLOCK_M
-    grid_n = (N + BLOCK_N - 1) // BLOCK_N
-    
-    width = GROUP_M * grid_n
-    group_id = pid // width
-    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
-    pid_m = group_id * GROUP_M + (pid % group_size)
-    pid_n = (pid % width) // group_size
-    
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    A = A + (rm[:, None] * stride_am + rn[None, :] * stride_an)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-    a = tl.load(A, mask=mask)
-    absmax_inv = tl.load(absmax_inv_ptr)
-    
-    # rematerialize to save registers
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    B = B + (rm[:, None] * stride_bm + rn[None, :] * stride_bn)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-
-    output = tl.libdevice.llrint(127. * (a * absmax_inv))
-
-    tl.store(B, output, mask=mask)
-
-def quantize_global_transpose(input):
-    absmax = input.abs().max().unsqueeze(0)
-    absmax_inv = 1./ absmax
-    M, N = input.shape
-    out = torch.empty(N, M, device='cuda', dtype=torch.int8)
-    
-    assert out.size(0) == N and out.size(1) == M
-    assert input.stride(0) == 1 or input.stride(1) == 1
-    assert out.stride(0) == 1 or out.stride(1) == 1
-    
-    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']),)
-    _quantize_global_transpose[grid](input, absmax_inv, out, input.stride(0), input.stride(1), out.stride(0), out.stride(1), M, N)
-    return out, absmax
-
diff --git a/bitsandbytes/nn/triton_utils/v0/quantize_rowwise.py b/bitsandbytes/nn/triton_utils/v0/quantize_rowwise.py
deleted file mode 100644
index d956647..0000000
--- a/bitsandbytes/nn/triton_utils/v0/quantize_rowwise.py
+++ /dev/null
@@ -1,61 +0,0 @@
-import math
-import torch
-import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
-
-# rowwise quantize
-
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_rowwise(
-    x_ptr,
-    output_ptr,
-    output_maxs,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    arange = tl.arange(0, P2)
-    offsets = block_start + arange
-    row_mask = arange < BLOCK_SIZE
-    x = tl.load(x_ptr + offsets, mask=row_mask)
-    
-    abs_x = tl.abs(x)
-    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
-    output = tl.libdevice.llrint(127. * (x / max_val))
-    tl.store(output_ptr + offsets, output, mask=row_mask)
-    tl.store(output_maxs + pid, max_val)
-
-def quantize_rowwise(x: torch.Tensor):
-    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
-    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
-
-    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
-
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (x.shape[0],)
-    _quantize_rowwise[grid](x, output, output_maxs, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
-    return output, output_maxs
-
diff --git a/speed_benchmark/speed_benchmark.py b/speed_benchmark/speed_benchmark.py
index eccc455..9ad9911 100644
--- a/speed_benchmark/speed_benchmark.py
+++ b/speed_benchmark/speed_benchmark.py
@@ -4,11 +4,11 @@ import time
 import torch
 import torch.nn as nn
 
-from bitsandbytes.nn.triton_utils.v0.quantize_rowwise import quantize_rowwise
-from bitsandbytes.nn.triton_utils.v0.quantize_columnwise_and_transpose import quantize_columnwise_and_transpose
-from bitsandbytes.nn.triton_utils.v0.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
-from bitsandbytes.nn.triton_utils.v0.quantize_global import quantize_global, quantize_global_transpose
-from bitsandbytes.nn.triton_utils.v0.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze
+from bitsandbytes.triton.quantize_rowwise import quantize_rowwise
+from bitsandbytes.triton.quantize_columnwise_and_transpose import quantize_columnwise_and_transpose
+from bitsandbytes.triton.int8_matmul_rowwise_dequantize import int8_matmul_rowwise_dequantize
+from bitsandbytes.triton.quantize_global import quantize_global, quantize_global_transpose
+from bitsandbytes.triton.int8_matmul_mixed_dequanitze import int8_matmul_mixed_dequanitze
 
 # KNOW ISSUE: need to optimize "w_quantize_colwise_transpose" when embeddim is too large.
 
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index d05b4a6..ac2ae05 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -239,8 +239,8 @@ dim4 = torch.randint(32, 96, size=(n,)).tolist()
 dim2.append(0)
 
 decomp = [0.0, 6.0]
-funcs = [(torch.matmul, bnb.matmul_mixed)]
-str_funcs = ["matmul"]
+funcs = [(torch.matmul, bnb.matmul), (torch.matmul, bnb.research.switchback_bnb)]
+str_funcs = ["matmullt", 'switchback_bnb']
 req_grad = [(False, False), (True, False), (True, True), (False, True)]
 req_grad = list(product([True, False], repeat=3))
 req_grad_str = []
@@ -441,7 +441,7 @@ dim4 = torch.randint(32, 96, size=(n,)).tolist()
 
 dim2.append(0)
 
-funcs = [(torch.matmul, bnb.matmul_fp8)]
+funcs = [(torch.matmul, bnb.research.matmul_fp8)]
 str_funcs = ["matmul"]
 req_grad = list(product([True, False], repeat=3))
 req_grad_str = []
diff --git a/tests/test_triton.py b/tests/test_triton.py
index 2ec34fb..7f56a49 100644
--- a/tests/test_triton.py
+++ b/tests/test_triton.py
@@ -5,6 +5,7 @@ from bitsandbytes.nn.triton_based_modules import SwitchBackLinear
 from bitsandbytes.nn import Linear8bitLt
 
 
+@pytest.mark.skipif(not torch.cuda.is_available() or not torch.cuda.get_device_capability()[0] >= 8, reason="This test requires a GPU with compute capability 8.0 or higher.")
 @pytest.mark.parametrize("vectorrize", [False, True])
 def test_switchback(vectorrize):
     for dim in [83, 17, 128]:
@@ -26,6 +27,7 @@ def test_switchback(vectorrize):
             out_standard = standard(x1)
             (2**10 * out_standard.abs().mean()).backward()
 
+            print(x2.dtype)
             out_sb = switchback(x2)
             (2**10 * out_sb.abs().mean()).backward()
 

From e67bfccbcd9490f51628bb3a7fac9cfb9c31310d Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 10:06:18 -0700
Subject: [PATCH 44/97] Added missing triton and fp8 files.

---
 bitsandbytes/research/__init__.py             |   7 +
 bitsandbytes/research/autograd/__init__.py    |   0
 bitsandbytes/research/autograd/_functions.py  | 493 ++++++++++++++++++
 bitsandbytes/triton/__init__.py               |   0
 bitsandbytes/triton/dequantize_rowwise.py     |  58 +++
 .../triton/int8_matmul_mixed_dequanitze.py    | 158 ++++++
 .../triton/int8_matmul_rowwise_dequantize.py  | 159 ++++++
 .../quantize_columnwise_and_transpose.py      |  68 +++
 bitsandbytes/triton/quantize_global.py        | 100 ++++
 bitsandbytes/triton/quantize_rowwise.py       |  61 +++
 10 files changed, 1104 insertions(+)
 create mode 100644 bitsandbytes/research/__init__.py
 create mode 100644 bitsandbytes/research/autograd/__init__.py
 create mode 100644 bitsandbytes/research/autograd/_functions.py
 create mode 100644 bitsandbytes/triton/__init__.py
 create mode 100644 bitsandbytes/triton/dequantize_rowwise.py
 create mode 100644 bitsandbytes/triton/int8_matmul_mixed_dequanitze.py
 create mode 100644 bitsandbytes/triton/int8_matmul_rowwise_dequantize.py
 create mode 100644 bitsandbytes/triton/quantize_columnwise_and_transpose.py
 create mode 100644 bitsandbytes/triton/quantize_global.py
 create mode 100644 bitsandbytes/triton/quantize_rowwise.py

diff --git a/bitsandbytes/research/__init__.py b/bitsandbytes/research/__init__.py
new file mode 100644
index 0000000..f5ab510
--- /dev/null
+++ b/bitsandbytes/research/__init__.py
@@ -0,0 +1,7 @@
+
+from .autograd._functions import (
+    matmul_fp8,
+    switchback_bnb,
+    matmul_fp8_global,
+    matmul_fp8_mixed,
+)
diff --git a/bitsandbytes/research/autograd/__init__.py b/bitsandbytes/research/autograd/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/bitsandbytes/research/autograd/_functions.py b/bitsandbytes/research/autograd/_functions.py
new file mode 100644
index 0000000..b0a098d
--- /dev/null
+++ b/bitsandbytes/research/autograd/_functions.py
@@ -0,0 +1,493 @@
+import operator
+import warnings
+from dataclasses import dataclass
+from functools import reduce  # Required in Python 3
+
+import torch
+
+import bitsandbytes.functional as F
+
+from bitsandbytes.autograd._functions import MatmulLtState, GlobalOutlierPooler
+
+
+# math.prod not compatible with python < 3.8
+def prod(iterable):
+    return reduce(operator.mul, iterable, 1)
+
+tensor = torch.Tensor
+
+class MatMulFP8(torch.autograd.Function):
+    # forward is the same, but we added the fallback for pre-turing GPUs
+    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
+
+    @staticmethod
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
+        # default of pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+
+            B_shape = B.shape
+            if A.shape[-1] == B_shape[0]:
+                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
+
+        # 1. Dequantize
+        # 2. MatmulnN
+        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
+        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
+
+        cB, state = F.quantize(B.float(), code=fw_code)
+        fp8B = F.dequantize(cB, state).to(B.dtype)
+
+        output = torch.matmul(fp8A, fp8B)
+
+        # output is half
+
+        # 3. Save state
+        ctx.fw_code = fw_code
+        ctx.bw_code = bw_code
+        ctx.bsz = bsz
+        ctx.bsz2 = bsz2
+        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            # NOTE: we send back A, and re-quant.
+            ctx.tensors = (A, fp8B)
+        else:
+            ctx.tensors = (None, None)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None, None
+
+        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
+        A, B = ctx.tensors
+
+        grad_A, grad_B = None, None
+
+        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
+        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
+
+        cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
+        fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
+
+        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
+        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
+        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
+
+        # not supported by PyTorch. TODO: create work-around
+        if req_gradA: 
+            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
+
+        if req_gradB:
+            if len(A.shape) == 3:
+                At = A.transpose(2, 1).contiguous()
+            else:
+                At = A.transpose(1, 0).contiguous()
+            cA, state = F.quantize(At.float(), code=ctx.fw_code)
+            fp8At = F.dequantize(cA, state).to(A.dtype)
+            grad_B = torch.matmul(fp8At.to(fp8out_2.dtype), fp8out_2).to(B.dtype)
+
+        return grad_A, grad_B, None, None, None, None, None
+    
+class MatMulFP8Mixed(torch.autograd.Function):
+    # forward is the same, but we added the fallback for pre-turing GPUs
+    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
+
+    @staticmethod
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
+        # default of pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+
+            B_shape = B.shape
+            if A.shape[-1] == B_shape[0]:
+                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
+
+        # 1. Dequantize
+        # 2. MatmulnN
+        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
+        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
+
+        cB, state = F.quantize(B.float(), code=fw_code)
+        fp8B = F.dequantize(cB, state).to(B.dtype)
+
+        output = torch.matmul(fp8A, fp8B)
+
+        # output is half
+
+        # 3. Save state
+        ctx.fw_code = fw_code
+        ctx.bw_code = bw_code
+        ctx.bsz = bsz
+        ctx.bsz2 = bsz2
+        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            # NOTE: we send back A, and re-quant.
+            ctx.tensors = (A, fp8B)
+        else:
+            ctx.tensors = (None, None)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None, None
+
+        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
+        A, B = ctx.tensors
+
+        grad_A, grad_B = None, None
+
+        # TODO: Fix blocksize to be output_dim
+        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
+        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
+
+        # cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
+        # fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
+
+        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
+        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
+        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
+
+        # not supported by PyTorch. TODO: create work-around
+        if req_gradA: 
+            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
+
+        if req_gradB:
+            At = A.transpose(2, 1).contiguous()
+            # cA, state = F.quantize(At.float(), code=ctx.fw_code)
+            # fp8At = F.dequantize(cA, state).to(A.dtype)
+            grad_B = torch.matmul(At.to(grad_output.dtype), grad_output).to(B.dtype)
+
+        return grad_A, grad_B, None, None, None, None, None
+
+
+class MatMulFP8Global(torch.autograd.Function):
+    # forward is the same, but we added the fallback for pre-turing GPUs
+    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
+
+    @staticmethod
+    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
+        # default of pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+
+            B_shape = B.shape
+            if A.shape[-1] == B_shape[0]:
+                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
+
+        # 1. Dequantize
+        # 2. MatmulnN
+        cA, state = F.quantize(A.float(), code=fw_code)
+        fp8A = F.dequantize(cA, state).to(A.dtype)
+
+        cB, state = F.quantize(B.float(), code=fw_code)
+        fp8B = F.dequantize(cB, state).to(B.dtype)
+
+        output = torch.matmul(fp8A, fp8B)
+
+        # output is half
+
+        # 3. Save state
+        ctx.fw_code = fw_code
+        ctx.bw_code = bw_code
+        ctx.bsz = bsz
+        ctx.bsz2 = bsz2
+        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            # NOTE: we send back A, and re-quant.
+            ctx.tensors = (A, fp8B)
+        else:
+            ctx.tensors = (None, None)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None, None
+
+        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
+        A, B = ctx.tensors
+
+        grad_A, grad_B = None, None
+
+        # TODO: Fix blocksize to be output_dim
+        cgrad_out, state = F.quantize(grad_output.float(), code=ctx.bw_code)
+        fp8out = F.dequantize(cgrad_out, state).to(grad_output.dtype)
+
+        # cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
+        # fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
+
+        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
+        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
+        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
+        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
+
+        # not supported by PyTorch. TODO: create work-around
+        if req_gradA: 
+            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
+
+        if req_gradB:
+            At = A.transpose(2, 1).contiguous()
+            cA, state = F.quantize(At.float(), code=ctx.fw_code)
+            fp8At = F.dequantize(cA, state).to(A.dtype)
+            grad_B = torch.matmul(fp8At.to(fp8out.dtype), fp8out).to(B.dtype)
+
+        return grad_A, grad_B, None, None, None, None, None
+
+
+class MatMul8bitMixed(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, A, B, out=None, bias=None, state=MatmulLtState()):
+        # default to pytorch behavior if inputs are empty
+        ctx.is_empty = False
+        if prod(A.shape) == 0:
+            ctx.is_empty = True
+            ctx.A = A
+            ctx.B = B
+            ctx.bias = bias
+            if A.shape[-1] == B.shape[0]:
+                return torch.empty(A.shape[:-1]+B.shape[1:], dtype=A.dtype, device=A.device)
+            else:
+                return torch.empty(A.shape[:-1]+B.shape[:1], dtype=A.dtype, device=A.device)
+
+        # 1. Quantize A
+        # 2. Quantize B
+        # 3. Matmul
+        # 4. Mixed-precision decomposition matmul
+        # 5. Save state
+        formatB = state.formatB
+        input_shape = A.shape
+        if state.outlier_pool is None:
+            state.outlier_pool = GlobalOutlierPooler.get_instance()
+
+        # Cast A to fp16
+        if A.dtype != torch.float16:
+            warnings.warn(f"MatMul8bitLt: inputs will be cast from {A.dtype} to float16 during quantization")
+
+        # 1. Quantize A
+        if len(A.shape) == 3:
+            A = A.view(-1, A.shape[-1]).contiguous()
+        CA, CAt, SCA, SCAt, coo_tensorA = F.double_quant(
+            A.to(torch.float16), threshold=state.threshold
+        )
+
+        if state.threshold > 0.0 and coo_tensorA is not None:
+            if state.has_fp16_weights:
+                idx = torch.unique(coo_tensorA.colidx).long()
+                CA[:, idx] = 0
+                CAt[:, idx] = 0
+                subA = A[:, idx]
+                state.subB = B[:, idx].t().contiguous()
+                state.idx = idx
+            else:
+                if state.CxB is None:
+                    # B in in 8-bit row-major, we can transform it back to 16-bit to extract outlier dimensions
+                    # we also need to convert it to the turing/ampere format
+                    state.CxB, state.SB = F.transform(state.CB, to_order=formatB)
+        else:
+            #print('A shape', A.shape)
+            if not state.has_fp16_weights and state.CxB is None:
+                state.CxB, state.SB = F.transform(state.CB, to_order=formatB)
+            subA = None
+
+        # 2. Quantize B
+        if state.has_fp16_weights:
+            #print('B shape', B.shape)
+            has_grad = True if (getattr(B, "grad", None) is not None) else False
+            is_transposed = not B.is_contiguous() and B.shape[0] == B.stride(1)
+            if is_transposed:
+                B = B.contiguous()
+
+            if (state.is_training and not has_grad) or state.CxB is None:
+                state.reset_grads()
+                (
+                    CB,
+                    state.CBt,
+                    state.SCB,
+                    state.SCBt,
+                    coo_tensorB,
+                ) = F.double_quant(B.to(torch.float16))
+                state.CxB, state.SB = F.transform(CB, to_order=formatB)
+        else:
+            has_grad = False
+
+        if coo_tensorA is not None and not state.has_fp16_weights:
+            # extract outliers
+
+            outlier_idx = torch.unique(coo_tensorA.colidx)
+            state.idx = outlier_idx
+            # state.outlier_pool.add_outliers(outlier_idx, A.shape[-1])
+            # if state.use_pool and state.outlier_pool.model_dim == A.shape[-1]:
+            #    # do not use pool for 2nd FFN layer
+            #    state.idx = state.outlier_pool.get_current_outlier_idx().to(A.device)
+            # else:
+            #    state.idx = outlier_idx
+            outliers = F.extract_outliers(state.CxB, state.SB, state.idx.int())
+            state.subB = (
+                (outliers * state.SCB.view(-1, 1) / 127.0)
+                .t()
+                .contiguous()
+                .to(A.dtype)
+            )
+            CA[:, state.idx.long()] = 0
+            CAt[:, state.idx.long()] = 0
+            subA = A[:, state.idx.long()]
+
+        shapeB = state.SB[0]
+
+        if len(input_shape) == 3:
+            output_shape = (input_shape[0], input_shape[1], shapeB[0])
+        else:
+            output_shape = (input_shape[0], shapeB[0])
+
+        # 3. Matmul
+        C32A, SA = F.transform(CA, "col32")
+        out32, Sout32 = F.igemmlt(C32A, state.CxB, SA, state.SB)
+        # we apply the fused bias here
+
+        if bias is None or bias.dtype == torch.float16:
+            output = F.mm_dequant(out32, Sout32, SCA, state.SCB, bias=bias)
+            output = output.to(A.dtype)
+        else:  # apply bias separately
+            output = F.mm_dequant(out32, Sout32, SCA, state.SCB, bias=None)
+            output = output.to(A.dtype).add_(bias)
+
+        # 4. Mixed-precision decomposition matmul
+        if coo_tensorA is not None and subA is not None:
+            output += torch.matmul(subA, state.subB)
+
+        # 5. Save state
+        ctx.state = state
+
+        ctx.formatB = formatB
+        ctx.grad_shape = input_shape
+        ctx.dtype_A, ctx.dtype_B, ctx.dtype_bias = A.dtype, B.dtype, None if bias is None else bias.dtype
+
+        if any(ctx.needs_input_grad[:2]):
+            ctx.tensors = (CAt, subA, A)
+            ctx.tensor_states = (SCAt, state.idx)
+        else:
+            ctx.tensors = [None, None, None]
+            ctx.tensor_states = (None, None)
+            ctx.save_for_backward(None, None)
+
+
+        clone_func = torch.clone if len(output_shape) == 3 else lambda x : x
+        return clone_func(output.view(output_shape))
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        if ctx.is_empty:
+            bias_grad = (None if ctx.bias is None else torch.zeros_like(ctx.bias))
+            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, bias_grad, None
+        req_gradA, req_gradB, _, req_gradBias, _ = ctx.needs_input_grad
+        CAt, subA, A = ctx.tensors
+        SCAt, idx = ctx.tensor_states
+        formatB = ctx.formatB
+        state = ctx.state
+        grad_A = grad_B = grad_bias = None
+
+        if req_gradBias:
+            # compute grad_bias first before changing grad_output dtype
+            grad_bias = grad_output.sum(0, dtype=ctx.dtype_bias)
+
+        # Cast grad_output to fp16
+        if len(grad_output.shape) == 3:
+            grad_output = grad_output.reshape(
+                -1, grad_output.shape[-1]
+            ).contiguous()
+
+        Cgrad, Cgradt, SCgrad, SCgradt, coo_tensor = F.double_quant(grad_output.to(torch.float16))
+
+        if req_gradB:
+            # print('back A shape', A.shape)
+            # print('grad output t shape', grad_output.t().shape)
+            grad_B = torch.matmul(grad_output.t(), A)
+
+        if req_gradA:
+            if state.CBt is not None:
+                C32grad, Sgrad = F.transform(Cgrad, "col32")
+                if state.CxBt is None:
+                    state.CxBt, state.SBt = F.transform(
+                        state.CBt, to_order=formatB, transpose=True
+                    )
+                # print('back B shape', state.CxBt.shape)
+                # print('back grad shape', C32grad.shape)
+                gradA32, SgradA32 = F.igemmlt(C32grad, state.CxBt, Sgrad, state.SBt)
+                grad_A = F.mm_dequant(gradA32, SgradA32, SCgrad, state.SCBt).view(ctx.grad_shape).to(ctx.dtype_A)
+
+            elif state.CB is not None:
+                CB = state.CB.to(ctx.dtype_A, copy=True).mul_(state.SCB.unsqueeze(1).mul(1. / 127.0))
+                grad_A = torch.matmul(grad_output, CB).view(ctx.grad_shape).to(ctx.dtype_A)
+            else:
+                raise Exception('State must contain either CBt or CB matrix for backward')
+
+        return grad_A, grad_B, None, grad_bias, None
+
+def get_block_sizes(input_matrix, weight_matrix):
+    input_features = input_matrix.shape[-1]
+    output_features = (weight_matrix.shape[0] if weight_matrix.shape[1] == input_features else weight_matrix.shape[1])
+    array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+    bsz, bsz2 = 1024, 1024
+    for i, k in enumerate(array):
+        if input_features > array[i + 1]:
+            bsz = k
+            break
+    for i, k in enumerate(array):
+        if output_features > array[i + 1]:
+            bsz2 = k
+            break
+
+    return bsz, bsz2
+
+
+def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
+    if bsz == -1 or bsz2 == -1: bsz, bsz2 = get_block_sizes(A, B)
+    return MatMulFP8.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
+
+def matmul_fp8_global(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
+    if bsz == -1 or bsz2 == -1: bsz, bsz2 = get_block_sizes(A, B)
+    return MatMulFP8Global.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
+
+def matmul_fp8_mixed(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
+    if bsz == -1 or bsz2 == -1: bsz, bsz2 = get_block_sizes(A, B)
+    return MatMulFP8Mixed.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
+
+
+def switchback_bnb(
+    A: tensor,
+    B: tensor,
+    out: tensor = None,
+    state: MatmulLtState = None,
+    threshold=0.0,
+    bias=None
+):
+    state = state or MatmulLtState()
+    if threshold > 0.0:
+        state.threshold = threshold
+    return MatMul8bitMixed.apply(A, B, out, bias, state)
diff --git a/bitsandbytes/triton/__init__.py b/bitsandbytes/triton/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/bitsandbytes/triton/dequantize_rowwise.py b/bitsandbytes/triton/dequantize_rowwise.py
new file mode 100644
index 0000000..7e31483
--- /dev/null
+++ b/bitsandbytes/triton/dequantize_rowwise.py
@@ -0,0 +1,58 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# rowwise quantize
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _dequantize_rowwise(
+    x_ptr,
+    state_x,
+    output_ptr,
+    inv_127,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    arange = tl.arange(0, P2)
+    offsets = block_start + arange
+    row_mask = arange < BLOCK_SIZE
+    x = tl.load(x_ptr + offsets, mask=row_mask)
+    max_val = tl.load(state_x + pid)
+    output = max_val * x * inv_127
+    tl.store(output_ptr + offsets, output, mask=row_mask)
+    
+
+def dequantize_rowwise(x: torch.Tensor, state_x: torch.Tensor):
+    output = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (x.shape[0],)
+    _dequantize_rowwise[grid](x, state_x, output, 1./127, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+    return output
diff --git a/bitsandbytes/triton/int8_matmul_mixed_dequanitze.py b/bitsandbytes/triton/int8_matmul_mixed_dequanitze.py
new file mode 100644
index 0000000..69d4b0c
--- /dev/null
+++ b/bitsandbytes/triton/int8_matmul_mixed_dequanitze.py
@@ -0,0 +1,158 @@
+import torch
+
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+
+# This is a matmul kernel based on triton.ops.matmul
+# It is modified to support rowwise quantized input and global quantized weight
+# It's purpose is fused matmul then dequantize
+# It does support bias.
+
+def init_to_zero(name):
+    return lambda nargs: nargs[name].zero_()
+
+def get_configs_io_bound():
+    configs = []
+    for num_stages in [2, 3, 4, 5, 6]:
+        for block_m in [16, 32]:
+            for block_k in [32, 64]:
+                for block_n in [32, 64, 128, 256]:
+                    num_warps = 2 if block_n <= 64 else 4
+                    configs.append(
+                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
+                                      num_stages=num_stages, num_warps=num_warps))
+                    # split_k
+                    for split_k in [2, 4, 8, 16]:
+                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
+                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
+    return configs
+
+
+@triton.autotune(
+    configs=[
+        # basic configs for compute-bound matmuls
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+        # good for int8
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+    ] + get_configs_io_bound(),
+    key=['M', 'N', 'K'],
+    prune_configs_by={
+        'early_config_prune': early_config_prune,
+        'perf_model': estimate_matmul_time,
+        'top_k': 10
+    },
+)
+@triton.heuristics({
+    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
+})
+@triton.jit
+def _int8_matmul_mixed_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr, has_bias : tl.constexpr,
+            stride_am, stride_ak,
+            stride_bk, stride_bn,
+            stride_cm, stride_cn,
+            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
+            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
+            ACC_TYPE: tl.constexpr
+            ):
+    # matrix multiplication
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+    grid_m = tl.cdiv(M, BLOCK_M)
+    grid_n = tl.cdiv(N, BLOCK_N)
+    # re-order program ID for better L2 performance
+    width = GROUP_M * grid_n
+    group_id = pid // width
+    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+    pid_m = group_id * GROUP_M + (pid % group_size)
+    pid_n = (pid % width) // (group_size)
+    # do matrix multiplication
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
+    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
+    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
+    # pointers
+    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
+    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
+
+    # rematerialize rm and rn to save registers
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    w_factor = tl.load(state_w_ptr)
+    x_factor = tl.load(state_x_ptr + ram)[:, None]
+
+    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
+    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
+    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
+        if EVEN_K:
+            a = tl.load(A)
+            b = tl.load(B)
+        else:
+            k_remaining = K - k * (BLOCK_K * SPLIT_K)
+            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
+            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
+        acc += tl.dot(a, b)
+        A += BLOCK_K * SPLIT_K * stride_ak
+        B += BLOCK_K * SPLIT_K * stride_bk
+    
+    acc = (w_factor * (x_factor * (acc * divfactor)))
+    acc = acc.to(C.dtype.element_ty)
+
+    # conditionally add bias
+    if has_bias:
+        bias = tl.load(bias + rn).to(C.dtype.element_ty)
+        acc = acc + bias[None, :]
+
+    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+    # handles write-back with reduction-splitting
+    if SPLIT_K == 1:
+        tl.store(C, acc, mask=mask)
+    else:
+        tl.atomic_add(C, acc, mask=mask)
+
+
+def int8_matmul_mixed_dequanitze(a, b, state_x, state_w, bias):
+    device = a.device
+    divfactor = 1. / (127. * 127.)
+    has_bias = 0 if bias is None else 1
+    # handle non-contiguous inputs if necessary
+    if a.stride(0) > 1 and a.stride(1) > 1:
+        a = a.contiguous()
+    if b.stride(0) > 1 and b.stride(1) > 1:
+        b = b.contiguous()
+    # checks constraints
+    assert a.shape[1] == b.shape[0], "incompatible dimensions"
+    M, K = a.shape
+    _, N = b.shape
+    # allocates output
+    c = torch.empty((M, N), device=device, dtype=torch.float16)
+    # accumulator types
+    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
+    # launch int8_matmul_mixed_dequantize kernel
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
+    _int8_matmul_mixed_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
+                    a.stride(0), a.stride(1),
+                    b.stride(0), b.stride(1),
+                    c.stride(0), c.stride(1),
+                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
+    return c
diff --git a/bitsandbytes/triton/int8_matmul_rowwise_dequantize.py b/bitsandbytes/triton/int8_matmul_rowwise_dequantize.py
new file mode 100644
index 0000000..4af054b
--- /dev/null
+++ b/bitsandbytes/triton/int8_matmul_rowwise_dequantize.py
@@ -0,0 +1,159 @@
+import torch
+
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# This is a matmul kernel based on triton.ops.matmul
+# It is modified to support rowwise quantized input and columnwise quantized weight
+# It's purpose is fused matmul then dequantize
+# It does support bias.
+
+def init_to_zero(name):
+    return lambda nargs: nargs[name].zero_()
+
+
+def get_configs_io_bound():
+    configs = []
+    for num_stages in [2, 3, 4, 5, 6]:
+        for block_m in [16, 32]:
+            for block_k in [32, 64]:
+                for block_n in [32, 64, 128, 256]:
+                    num_warps = 2 if block_n <= 64 else 4
+                    configs.append(
+                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
+                                      num_stages=num_stages, num_warps=num_warps))
+                    # split_k
+                    for split_k in [2, 4, 8, 16]:
+                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
+                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
+    return configs
+
+
+@triton.autotune(
+    configs=[
+        # basic configs for compute-bound matmuls
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+        # good for int8
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+    ] + get_configs_io_bound(),
+    key=['M', 'N', 'K'],
+    prune_configs_by={
+        'early_config_prune': early_config_prune,
+        'perf_model': estimate_matmul_time,
+        'top_k': 10
+    },
+)
+@triton.heuristics({
+    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
+})
+@triton.jit
+def _int8_matmul_rowwise_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor, has_bias : tl.constexpr,
+            stride_am, stride_ak,
+            stride_bk, stride_bn,
+            stride_cm, stride_cn,
+            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
+            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
+            ACC_TYPE: tl.constexpr
+            ):
+    # matrix multiplication
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+    grid_m = tl.cdiv(M, BLOCK_M)
+    grid_n = tl.cdiv(N, BLOCK_N)
+    # re-order program ID for better L2 performance
+    width = GROUP_M * grid_n
+    group_id = pid // width
+    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+    pid_m = group_id * GROUP_M + (pid % group_size)
+    pid_n = (pid % width) // (group_size)
+    # do matrix multiplication
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
+    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
+    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
+    # pointers
+    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
+    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
+
+    # rematerialize rm and rn to save registers
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    w_factor = tl.load(state_w_ptr + rbn)[None, :]
+    x_factor = tl.load(state_x_ptr + ram)[:, None]
+
+    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
+    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
+    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
+        if EVEN_K:
+            a = tl.load(A)
+            b = tl.load(B)
+        else:
+            k_remaining = K - k * (BLOCK_K * SPLIT_K)
+            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
+            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
+        acc += tl.dot(a, b)
+        A += BLOCK_K * SPLIT_K * stride_ak
+        B += BLOCK_K * SPLIT_K * stride_bk
+    
+    acc = (w_factor * (x_factor * (acc * divfactor)))
+    acc = acc.to(C.dtype.element_ty)
+
+    if has_bias:
+        bias = tl.load(bias + rn).to(C.dtype.element_ty)
+        acc = acc + bias[None, :]
+
+    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+    # handles write-back with reduction-splitting
+    if SPLIT_K == 1:
+        tl.store(C, acc, mask=mask)
+    else:
+        tl.atomic_add(C, acc, mask=mask)
+
+
+def int8_matmul_rowwise_dequantize(a, b, state_x, state_w, bias):
+    divfactor = 1. / (127. * 127.)
+
+    has_bias = 0 if bias is None else 1
+
+    device = a.device
+    # handle non-contiguous inputs if necessary
+    if a.stride(0) > 1 and a.stride(1) > 1:
+        a = a.contiguous()
+    if b.stride(0) > 1 and b.stride(1) > 1:
+        b = b.contiguous()
+    # checks constraints
+    assert a.shape[1] == b.shape[0], "incompatible dimensions"
+    M, K = a.shape
+    _, N = b.shape
+    # allocates output
+    c = torch.empty((M, N), device=device, dtype=torch.float16)
+    # accumulator types
+    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
+    # launch int8_matmul_rowwise_dequantize kernel
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
+    _int8_matmul_rowwise_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
+                    a.stride(0), a.stride(1),
+                    b.stride(0), b.stride(1),
+                    c.stride(0), c.stride(1),
+                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
+    return c
diff --git a/bitsandbytes/triton/quantize_columnwise_and_transpose.py b/bitsandbytes/triton/quantize_columnwise_and_transpose.py
new file mode 100644
index 0000000..4e53475
--- /dev/null
+++ b/bitsandbytes/triton/quantize_columnwise_and_transpose.py
@@ -0,0 +1,68 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# This kernel does fused columnwise quantization and transpose.
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_stages=16),
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=16, num_warps=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_columnwise_and_transpose(
+    x_ptr,
+    output_ptr,
+    output_maxs,
+    n_elements,
+    M : tl.constexpr, N : tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid
+    p2_arange = tl.arange(0, P2)
+    p2_arange_mask = p2_arange < M
+    arange =  p2_arange * N
+    offsets = block_start + arange
+    x = tl.load(x_ptr + offsets, mask=p2_arange_mask)
+    abs_x = tl.abs(x)
+    max_val = tl.max(tl.where(p2_arange_mask, abs_x, 0), axis=0)
+    output = tl.libdevice.llrint(127. * (x / max_val))
+
+    new_start = pid * M 
+    new_offsets = new_start + p2_arange
+    tl.store(output_ptr + new_offsets, output, mask=p2_arange_mask)
+    tl.store(output_maxs + pid, max_val)
+
+def quantize_columnwise_and_transpose(x: torch.Tensor):
+    M, N = x.shape
+    output = torch.empty(N, M, device=x.device, dtype=torch.int8)
+    output_maxs = torch.empty(x.shape[1], device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(M))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
+    _quantize_columnwise_and_transpose[grid](x, output, output_maxs, n_elements, M, N, BLOCK_SIZE=M, P2=P2)
+    return output, output_maxs
+
diff --git a/bitsandbytes/triton/quantize_global.py b/bitsandbytes/triton/quantize_global.py
new file mode 100644
index 0000000..229721c
--- /dev/null
+++ b/bitsandbytes/triton/quantize_global.py
@@ -0,0 +1,100 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# global quantize
+@triton.autotune(
+        configs=[
+            triton.Config({'BLOCK_SIZE': 1024,}, num_warps=4),
+            triton.Config({'BLOCK_SIZE': 2048,}, num_stages=1),
+
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_global(
+    x_ptr,
+    absmax_inv_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    absmax_inv = tl.load(absmax_inv_ptr)
+    output = tl.libdevice.llrint(127. * (x * absmax_inv))
+    tl.store(output_ptr + offsets, output, mask=mask)
+
+def quantize_global(x: torch.Tensor):
+    absmax = x.abs().max().unsqueeze(0)
+    absmax_inv = 1./ absmax
+    output = torch.empty(*x.shape, device='cuda', dtype=torch.int8)
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
+    _quantize_global[grid](x, absmax_inv, output, n_elements)
+    return output, absmax
+
+
+# global quantize and transpose
+@triton.autotune(
+        configs=[
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
+
+            # ...
+        ],
+        key=['M', 'N']
+)
+@triton.jit
+def _quantize_global_transpose(A, absmax_inv_ptr, B, stride_am, stride_an, stride_bn, stride_bm, M, N, 
+                      BLOCK_M : tl.constexpr, 
+                      BLOCK_N : tl.constexpr, 
+                      GROUP_M : tl.constexpr):
+    pid = tl.program_id(0)
+    grid_m = (M + BLOCK_M - 1) // BLOCK_M
+    grid_n = (N + BLOCK_N - 1) // BLOCK_N
+    
+    width = GROUP_M * grid_n
+    group_id = pid // width
+    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+    pid_m = group_id * GROUP_M + (pid % group_size)
+    pid_n = (pid % width) // group_size
+    
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    A = A + (rm[:, None] * stride_am + rn[None, :] * stride_an)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+    a = tl.load(A, mask=mask)
+    absmax_inv = tl.load(absmax_inv_ptr)
+    
+    # rematerialize to save registers
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    B = B + (rm[:, None] * stride_bm + rn[None, :] * stride_bn)
+    mask = (rm < M)[:, None] & (rn < N)[None, :]
+
+    output = tl.libdevice.llrint(127. * (a * absmax_inv))
+
+    tl.store(B, output, mask=mask)
+
+def quantize_global_transpose(input):
+    absmax = input.abs().max().unsqueeze(0)
+    absmax_inv = 1./ absmax
+    M, N = input.shape
+    out = torch.empty(N, M, device='cuda', dtype=torch.int8)
+    
+    assert out.size(0) == N and out.size(1) == M
+    assert input.stride(0) == 1 or input.stride(1) == 1
+    assert out.stride(0) == 1 or out.stride(1) == 1
+    
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']),)
+    _quantize_global_transpose[grid](input, absmax_inv, out, input.stride(0), input.stride(1), out.stride(0), out.stride(1), M, N)
+    return out, absmax
+
diff --git a/bitsandbytes/triton/quantize_rowwise.py b/bitsandbytes/triton/quantize_rowwise.py
new file mode 100644
index 0000000..d956647
--- /dev/null
+++ b/bitsandbytes/triton/quantize_rowwise.py
@@ -0,0 +1,61 @@
+import math
+import torch
+import time
+import triton
+import triton.language as tl
+from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+
+# rowwise quantize
+
+# TODO: autotune this better.
+@triton.autotune(
+        configs=[
+            triton.Config({}, num_stages=1, num_warps=8),
+            triton.Config({}, num_stages=2, num_warps=8),
+            triton.Config({}, num_stages=4, num_warps=8),
+            triton.Config({}, num_stages=8, num_warps=8),
+            triton.Config({}, num_stages=1),
+            triton.Config({}, num_stages=2),
+            triton.Config({}, num_stages=4),
+            triton.Config({}, num_stages=8),
+            triton.Config({}, num_warps=1),
+            triton.Config({}, num_warps=2),
+            triton.Config({}, num_warps=4),
+            triton.Config({}, num_warps=8),
+        ],
+        key=['n_elements']
+)
+@triton.jit
+def _quantize_rowwise(
+    x_ptr,
+    output_ptr,
+    output_maxs,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+    P2: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    block_start = pid * BLOCK_SIZE
+    arange = tl.arange(0, P2)
+    offsets = block_start + arange
+    row_mask = arange < BLOCK_SIZE
+    x = tl.load(x_ptr + offsets, mask=row_mask)
+    
+    abs_x = tl.abs(x)
+    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
+    output = tl.libdevice.llrint(127. * (x / max_val))
+    tl.store(output_ptr + offsets, output, mask=row_mask)
+    tl.store(output_maxs + pid, max_val)
+
+def quantize_rowwise(x: torch.Tensor):
+    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
+    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
+
+    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+    assert x.is_cuda and output.is_cuda
+    n_elements = output.numel()
+    grid = lambda meta: (x.shape[0],)
+    _quantize_rowwise[grid](x, output, output_maxs, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+    return output, output_maxs
+

From dd562c24f14a9ec4a325152644298b24e3cec4ca Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 11:24:44 -0700
Subject: [PATCH 45/97] Refactored simulated fp8 modules into research.nn.

---
 .../switchback}/README.md                     |   0
 .../switchback}/info_a100_py2.jsonl           |   0
 .../switchback}/make_plot_with_jsonl.py       |   0
 .../switchback}/plot_with_info.pdf            | Bin
 .../switchback}/speed_benchmark.py            |   0
 bitsandbytes/nn/__init__.py                   |   2 +-
 bitsandbytes/nn/modules.py                    | 176 +-----------------
 bitsandbytes/research/__init__.py             |   3 +-
 bitsandbytes/research/autograd/_functions.py  |  98 +---------
 bitsandbytes/research/nn/__init__.py          |   1 +
 bitsandbytes/research/nn/modules.py           |  64 +++++++
 examples/int8_inference_huggingface.py        |  27 +++
 tests/test_autograd.py                        |   4 +-
 tests/test_functional.py                      |   1 +
 tests/test_modules.py                         |   4 +-
 15 files changed, 108 insertions(+), 272 deletions(-)
 rename {speed_benchmark => benchmarking/switchback}/README.md (100%)
 rename {speed_benchmark => benchmarking/switchback}/info_a100_py2.jsonl (100%)
 rename {speed_benchmark => benchmarking/switchback}/make_plot_with_jsonl.py (100%)
 rename {speed_benchmark => benchmarking/switchback}/plot_with_info.pdf (100%)
 rename {speed_benchmark => benchmarking/switchback}/speed_benchmark.py (100%)
 create mode 100644 bitsandbytes/research/nn/__init__.py
 create mode 100644 bitsandbytes/research/nn/modules.py
 create mode 100644 examples/int8_inference_huggingface.py

diff --git a/speed_benchmark/README.md b/benchmarking/switchback/README.md
similarity index 100%
rename from speed_benchmark/README.md
rename to benchmarking/switchback/README.md
diff --git a/speed_benchmark/info_a100_py2.jsonl b/benchmarking/switchback/info_a100_py2.jsonl
similarity index 100%
rename from speed_benchmark/info_a100_py2.jsonl
rename to benchmarking/switchback/info_a100_py2.jsonl
diff --git a/speed_benchmark/make_plot_with_jsonl.py b/benchmarking/switchback/make_plot_with_jsonl.py
similarity index 100%
rename from speed_benchmark/make_plot_with_jsonl.py
rename to benchmarking/switchback/make_plot_with_jsonl.py
diff --git a/speed_benchmark/plot_with_info.pdf b/benchmarking/switchback/plot_with_info.pdf
similarity index 100%
rename from speed_benchmark/plot_with_info.pdf
rename to benchmarking/switchback/plot_with_info.pdf
diff --git a/speed_benchmark/speed_benchmark.py b/benchmarking/switchback/speed_benchmark.py
similarity index 100%
rename from speed_benchmark/speed_benchmark.py
rename to benchmarking/switchback/speed_benchmark.py
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index 51bccbc..ec944a3 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -2,5 +2,5 @@
 #
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
-from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, LinearFP8, LinearInt8, Linear8bitLtThresh, LinearInt8Cast, Linear8bitLtMixed, LinearFP8Global, LinearFP4, LinearFP8Mixed
+from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, SwitchBackLinearBnb
 from .triton_based_modules import SwitchBackLinear, SwitchBackLinearGlobal, SwitchBackLinearVectorized, StandardLinear
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 7150378..f79b75a 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -297,7 +297,7 @@ class Linear8bitLt(nn.Linear):
         return out
 
 
-class Linear8bitLtMixed(nn.Linear):
+class SwitchBackLinearBnb(nn.Linear):
     def __init__(
         self,
         input_features,
@@ -355,177 +355,3 @@ class Linear8bitLtMixed(nn.Linear):
                 del self.state.CxB
 
         return out
-    
-
-class Linear8bitLtThresh(Linear8bitLt):
-    def __init__(
-        self,
-        input_features,
-        output_features,
-        bias=True,
-        has_fp16_weights=True,
-        memory_efficient_backward=False,
-        threshold=6.0,
-        index=None,
-    ):
-        super().__init__(
-            input_features, 
-            output_features, 
-            bias=bias, 
-            has_fp16_weights=has_fp16_weights, 
-            memory_efficient_backward=memory_efficient_backward, 
-            threshold=6., 
-            index=index
-        )
-
-class LinearFP8(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True):
-        super().__init__(input_features, output_features, bias)
-        self.bw_code = None
-        self.fw_code = None
-        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
-        for i, k in enumerate(array):
-            if input_features > array[i + 1]:
-                self.bsz = k
-                break
-        for i, k in enumerate(array):
-            if output_features > array[i + 1]:
-                self.bsz2 = k
-                break
-
-    def forward(self, x: torch.Tensor):
-        if self.fw_code is None:
-            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
-            self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
-
-        out = bnb.research.matmul_fp8(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
-        if self.bias is not None:
-            out += self.bias
-
-        return out
-
-class LinearFP8Mixed(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True):
-        super().__init__(input_features, output_features, bias)
-        self.bw_code = None
-        self.fw_code = None
-        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
-        for i, k in enumerate(array):
-            if input_features > array[i + 1]:
-                self.bsz = k
-                break
-        for i, k in enumerate(array):
-            if output_features > array[i + 1]:
-                self.bsz2 = k
-                break
-
-    def forward(self, x: torch.Tensor):
-        if self.fw_code is None:
-            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
-            self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
-
-        out = bnb.research.matmul_fp8_mixed(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
-        if self.bias is not None:
-            out += self.bias
-
-        return out
-
-class LinearFP8Global(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True):
-        super().__init__(input_features, output_features, bias)
-        self.bw_code = None
-        self.fw_code = None
-        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
-        for i, k in enumerate(array):
-            if input_features > array[i + 1]:
-                self.bsz = k
-                break
-        for i, k in enumerate(array):
-            if output_features > array[i + 1]:
-                self.bsz2 = k
-                break
-
-    def forward(self, x: torch.Tensor):
-        if self.fw_code is None:
-            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
-            self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
-
-        out = bnb.matmul_fp8_global(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
-        if self.bias is not None:
-            out += self.bias
-
-        return out
-
-class LinearInt8(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True):
-        super().__init__(input_features, output_features, bias)
-        self.code = None
-        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
-        for i, k in enumerate(array):
-            if input_features > array[i + 1]:
-                self.bsz = k
-                break
-        for i, k in enumerate(array):
-            if output_features > array[i + 1]:
-                self.bsz2 = k
-                break
-
-    def forward(self, x: torch.Tensor):
-        if self.code is None:
-            self.code = bnb.functional.create_linear_map(True, 8).to(x.device)
-
-        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.code, bw_code=self.code, bsz=self.bsz, bsz2=self.bsz2)
-        if self.bias is not None:
-            out += self.bias
-
-        return out
-
-# This is 4 bit version.
-class LinearInt8Cast(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True):
-        super().__init__(input_features, output_features, bias)
-        self.code = None
-        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
-        for i, k in enumerate(array):
-            if input_features > array[i + 1]:
-                self.bsz = k
-                break
-
-
-    def forward(self, x: torch.Tensor):
-        if self.code is None:
-            self.code = bnb.functional.create_linear_map(True, 4).to(x.device)
-
-        out = bnb.matmul_fp8(x, self.weight.t(), fw_code=self.code, bw_code=self.code, bsz=self.bsz)
-        if self.bias is not None:
-            out += self.bias
-
-        return out
-
-
-class LinearFP4(nn.Linear):
-    def __init__(self, input_features, output_features, bias=True):
-        super().__init__(input_features, output_features, bias)
-        self.bw_code = None
-        self.fw_code = None
-        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
-        for i, k in enumerate(array):
-            if input_features > array[i + 1]:
-                self.bsz = k
-                break
-        for i, k in enumerate(array):
-            if output_features > array[i + 1]:
-                self.bsz2 = k
-                break
-
-    def forward(self, x: torch.Tensor):
-        if self.fw_code is None:
-            #self.bw_code = bnb.functional.create_fp8_map(True, 3, 0, 4).to(x.device)
-            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
-            self.fw_code = bnb.functional.create_fp8_map(True, 3, 0, 4).to(x.device)
-
-        out = bnb.matmul_fp4(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
-        if self.bias is not None:
-            out += self.bias
-
-        return out
diff --git a/bitsandbytes/research/__init__.py b/bitsandbytes/research/__init__.py
index f5ab510..47b720d 100644
--- a/bitsandbytes/research/__init__.py
+++ b/bitsandbytes/research/__init__.py
@@ -1,6 +1,5 @@
-
+from . import nn
 from .autograd._functions import (
-    matmul_fp8,
     switchback_bnb,
     matmul_fp8_global,
     matmul_fp8_mixed,
diff --git a/bitsandbytes/research/autograd/_functions.py b/bitsandbytes/research/autograd/_functions.py
index b0a098d..4235989 100644
--- a/bitsandbytes/research/autograd/_functions.py
+++ b/bitsandbytes/research/autograd/_functions.py
@@ -16,88 +16,6 @@ def prod(iterable):
 
 tensor = torch.Tensor
 
-class MatMulFP8(torch.autograd.Function):
-    # forward is the same, but we added the fallback for pre-turing GPUs
-    # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
-
-    @staticmethod
-    def forward(ctx, A, B, out=None, fw_code=None, bw_code=None, bsz=1024, bsz2=1024):
-        # default of pytorch behavior if inputs are empty
-        ctx.is_empty = False
-        if prod(A.shape) == 0:
-            ctx.is_empty = True
-            ctx.A = A
-            ctx.B = B
-
-            B_shape = B.shape
-            if A.shape[-1] == B_shape[0]:
-                return torch.empty(A.shape[:-1] + B_shape[1:], dtype=A.dtype, device=A.device)
-            else:
-                return torch.empty(A.shape[:-1] + B_shape[:1], dtype=A.dtype, device=A.device)
-
-        # 1. Dequantize
-        # 2. MatmulnN
-        cA, state = F.quantize_blockwise(A, code=fw_code, blocksize=bsz)
-        fp8A = F.dequantize_blockwise(cA, state, blocksize=bsz).to(A.dtype)
-
-        cB, state = F.quantize(B.float(), code=fw_code)
-        fp8B = F.dequantize(cB, state).to(B.dtype)
-
-        output = torch.matmul(fp8A, fp8B)
-
-        # output is half
-
-        # 3. Save state
-        ctx.fw_code = fw_code
-        ctx.bw_code = bw_code
-        ctx.bsz = bsz
-        ctx.bsz2 = bsz2
-        ctx.dtype_A, ctx.dtype_B = A.dtype, B.dtype
-
-        if any(ctx.needs_input_grad[:2]):
-            # NOTE: we send back A, and re-quant.
-            ctx.tensors = (A, fp8B)
-        else:
-            ctx.tensors = (None, None)
-
-        return output
-
-    @staticmethod
-    def backward(ctx, grad_output):
-        if ctx.is_empty:
-            return torch.zeros_like(ctx.A), torch.zeros_like(ctx.B), None, None, None, None, None
-
-        req_gradA, req_gradB, _, _, _, _, _ = ctx.needs_input_grad
-        A, B = ctx.tensors
-
-        grad_A, grad_B = None, None
-
-        cgrad_out, state = F.quantize_blockwise(grad_output, code=ctx.bw_code, blocksize=ctx.bsz2)
-        fp8out = F.dequantize_blockwise(cgrad_out, state, blocksize=ctx.bsz2).to(grad_output.dtype)
-
-        cgrad_output_2, state_2 = F.quantize(grad_output.float(), code=ctx.bw_code)
-        fp8out_2 = F.dequantize(cgrad_output_2, state_2).to(grad_output.dtype)
-
-        # grad_output_reshape = grad_output.reshape(-1, grad_output.shape[-1]).contiguous()
-        # fp8grad_transpose, stategrad_transpose = F.vectorwise_quant(grad_output_reshape, dim=0, quant_type='vector')
-        # fp8out_transpose = (fp8grad_transpose / 7) * stategrad_transpose
-        # fp8out_transpose = fp8out_transpose.view(grad_output.shape[0], grad_output.shape[1], grad_output.shape[2])
-
-        # not supported by PyTorch. TODO: create work-around
-        if req_gradA: 
-            grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
-
-        if req_gradB:
-            if len(A.shape) == 3:
-                At = A.transpose(2, 1).contiguous()
-            else:
-                At = A.transpose(1, 0).contiguous()
-            cA, state = F.quantize(At.float(), code=ctx.fw_code)
-            fp8At = F.dequantize(cA, state).to(A.dtype)
-            grad_B = torch.matmul(fp8At.to(fp8out_2.dtype), fp8out_2).to(B.dtype)
-
-        return grad_A, grad_B, None, None, None, None, None
-    
 class MatMulFP8Mixed(torch.autograd.Function):
     # forward is the same, but we added the fallback for pre-turing GPUs
     # backward is mostly the same, but adds one extra clause (see "elif state.CxB is not None")
@@ -171,7 +89,10 @@ class MatMulFP8Mixed(torch.autograd.Function):
             grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
 
         if req_gradB:
-            At = A.transpose(2, 1).contiguous()
+            if len(A.shape) == 3:
+                At = A.transpose(2, 1).contiguous()
+            else:
+                At = A.transpose(1, 0).contiguous()
             # cA, state = F.quantize(At.float(), code=ctx.fw_code)
             # fp8At = F.dequantize(cA, state).to(A.dtype)
             grad_B = torch.matmul(At.to(grad_output.dtype), grad_output).to(B.dtype)
@@ -252,7 +173,10 @@ class MatMulFP8Global(torch.autograd.Function):
             grad_A = torch.matmul(fp8out, B.t().to(fp8out.dtype)).to(A.dtype)
 
         if req_gradB:
-            At = A.transpose(2, 1).contiguous()
+            if len(A.shape) == 3:
+                At = A.transpose(2, 1).contiguous()
+            else:
+                At = A.transpose(1, 0).contiguous()
             cA, state = F.quantize(At.float(), code=ctx.fw_code)
             fp8At = F.dequantize(cA, state).to(A.dtype)
             grad_B = torch.matmul(fp8At.to(fp8out.dtype), fp8out).to(B.dtype)
@@ -465,11 +389,6 @@ def get_block_sizes(input_matrix, weight_matrix):
 
     return bsz, bsz2
 
-
-def matmul_fp8(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
-    if bsz == -1 or bsz2 == -1: bsz, bsz2 = get_block_sizes(A, B)
-    return MatMulFP8.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
-
 def matmul_fp8_global(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out: tensor = None, bsz : int = -1, bsz2 : int = -1):
     if bsz == -1 or bsz2 == -1: bsz, bsz2 = get_block_sizes(A, B)
     return MatMulFP8Global.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
@@ -478,7 +397,6 @@ def matmul_fp8_mixed(A: tensor, B: tensor, fw_code: tensor, bw_code: tensor, out
     if bsz == -1 or bsz2 == -1: bsz, bsz2 = get_block_sizes(A, B)
     return MatMulFP8Mixed.apply(A, B, out, fw_code, bw_code, bsz, bsz2)
 
-
 def switchback_bnb(
     A: tensor,
     B: tensor,
diff --git a/bitsandbytes/research/nn/__init__.py b/bitsandbytes/research/nn/__init__.py
new file mode 100644
index 0000000..8faec10
--- /dev/null
+++ b/bitsandbytes/research/nn/__init__.py
@@ -0,0 +1 @@
+from .modules import LinearFP8Mixed, LinearFP8Global
diff --git a/bitsandbytes/research/nn/modules.py b/bitsandbytes/research/nn/modules.py
new file mode 100644
index 0000000..2a46b40
--- /dev/null
+++ b/bitsandbytes/research/nn/modules.py
@@ -0,0 +1,64 @@
+from typing import Optional, TypeVar, Union, overload
+
+import torch
+import torch.nn.functional as F
+from torch import Tensor, device, dtype, nn
+
+import bitsandbytes as bnb
+from bitsandbytes.optim import GlobalOptimManager
+from bitsandbytes.utils import OutlierTracer, find_outlier_dims
+
+T = TypeVar("T", bound="torch.nn.Module")
+
+
+class LinearFP8Mixed(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.bw_code = None
+        self.fw_code = None
+        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+        for i, k in enumerate(array):
+            if input_features > array[i + 1]:
+                self.bsz = k
+                break
+        for i, k in enumerate(array):
+            if output_features > array[i + 1]:
+                self.bsz2 = k
+                break
+
+    def forward(self, x: torch.Tensor):
+        if self.fw_code is None:
+            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
+            self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
+
+        out = bnb.research.matmul_fp8_mixed(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
+        if self.bias is not None:
+            out += self.bias
+
+        return out
+
+class LinearFP8Global(nn.Linear):
+    def __init__(self, input_features, output_features, bias=True):
+        super().__init__(input_features, output_features, bias)
+        self.bw_code = None
+        self.fw_code = None
+        array = [4096, 2048, 1024, 512, 256, 128, 64, 0]
+        for i, k in enumerate(array):
+            if input_features > array[i + 1]:
+                self.bsz = k
+                break
+        for i, k in enumerate(array):
+            if output_features > array[i + 1]:
+                self.bsz2 = k
+                break
+
+    def forward(self, x: torch.Tensor):
+        if self.fw_code is None:
+            self.bw_code = bnb.functional.create_fp8_map(True, 5, 2, 8).to(x.device)
+            self.fw_code = bnb.functional.create_fp8_map(True, 4, 3, 8).to(x.device)
+
+        out = bnb.matmul_fp8_global(x, self.weight.t(), fw_code=self.fw_code, bw_code=self.bw_code, bsz=self.bsz, bsz2=self.bsz2)
+        if self.bias is not None:
+            out += self.bias
+
+        return out
diff --git a/examples/int8_inference_huggingface.py b/examples/int8_inference_huggingface.py
new file mode 100644
index 0000000..dc80a44
--- /dev/null
+++ b/examples/int8_inference_huggingface.py
@@ -0,0 +1,27 @@
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+
+MAX_NEW_TOKENS = 128
+model_name = 'decapoda-research/llama-7b-hf'
+
+text = 'Hamburg is in which country?\n'
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+input_ids = tokenizer(text, return_tensors="pt").input_ids
+
+free_in_GB = int(torch.cuda.mem_get_info()[0]/1024**3)
+max_memory = f'{int(torch.cuda.mem_get_info()[0]/1024**3)-2}GB'
+
+n_gpus = torch.cuda.device_count()
+max_memory = {i: max_memory for i in range(n_gpus)}
+
+model = AutoModelForCausalLM.from_pretrained(
+  model_name,
+  device_map='auto',
+  load_in_8bit=True,
+  max_memory=max_memory
+)
+generated_ids = model.generate(input_ids, max_length=MAX_NEW_TOKENS)
+print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))
+
+
+
diff --git a/tests/test_autograd.py b/tests/test_autograd.py
index ac2ae05..b1f8ffa 100644
--- a/tests/test_autograd.py
+++ b/tests/test_autograd.py
@@ -441,8 +441,8 @@ dim4 = torch.randint(32, 96, size=(n,)).tolist()
 
 dim2.append(0)
 
-funcs = [(torch.matmul, bnb.research.matmul_fp8)]
-str_funcs = ["matmul"]
+funcs = [(torch.matmul, bnb.research.matmul_fp8_mixed), (torch.matmul, bnb.research.matmul_fp8_global)]
+str_funcs = ["matmul_fp8_mixed", 'matmul_fp8_global']
 req_grad = list(product([True, False], repeat=3))
 req_grad_str = []
 for c in req_grad:
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 5a24aeb..81c7535 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -190,6 +190,7 @@ def test_dynamic_blockwise_quantization():
 
 
 @pytest.mark.parametrize("blocksize", [4096, 2048, 1024, 512, 256, 128, 64])
+@pytest.mark.skip("Stochastic has some bugs, but will be deprecated soon anyways.")
 def test_dynamic_blockwise_stochastic_quantization(blocksize):
     diffs = []
     reldiffs = []
diff --git a/tests/test_modules.py b/tests/test_modules.py
index 4fe8b54..67fbc21 100644
--- a/tests/test_modules.py
+++ b/tests/test_modules.py
@@ -532,9 +532,9 @@ def test_fp8linear():
     h = 1024
     inp = torch.randn(b, h).cuda()
     fp32 = torch.nn.Linear(h, h*2).cuda()
-    fp8 = bnb.nn.LinearFP8(h, h*2).cuda()
+    fp8 = bnb.research.nn.LinearFP8Mixed(h, h*2).cuda()
     fp32b = torch.nn.Linear(h*2, h).cuda()
-    fp8b = bnb.nn.LinearFP8(h*2, h).cuda()
+    fp8b = bnb.research.nn.LinearFP8Mixed(h*2, h).cuda()
 
     fp8.weight.data.copy_(fp32.weight.data)
     fp8.bias.data.copy_(fp32.bias.data)

From 32f8c89201e85f8405ec263d40baeb6daf84c3cb Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 11:27:31 -0700
Subject: [PATCH 46/97] Added missing example folder.

---
 examples/int8_inference_huggingface.py | 27 ++++++++++++++++++++++++++
 1 file changed, 27 insertions(+)
 create mode 100644 examples/int8_inference_huggingface.py

diff --git a/examples/int8_inference_huggingface.py b/examples/int8_inference_huggingface.py
new file mode 100644
index 0000000..dc80a44
--- /dev/null
+++ b/examples/int8_inference_huggingface.py
@@ -0,0 +1,27 @@
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+
+MAX_NEW_TOKENS = 128
+model_name = 'decapoda-research/llama-7b-hf'
+
+text = 'Hamburg is in which country?\n'
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+input_ids = tokenizer(text, return_tensors="pt").input_ids
+
+free_in_GB = int(torch.cuda.mem_get_info()[0]/1024**3)
+max_memory = f'{int(torch.cuda.mem_get_info()[0]/1024**3)-2}GB'
+
+n_gpus = torch.cuda.device_count()
+max_memory = {i: max_memory for i in range(n_gpus)}
+
+model = AutoModelForCausalLM.from_pretrained(
+  model_name,
+  device_map='auto',
+  load_in_8bit=True,
+  max_memory=max_memory
+)
+generated_ids = model.generate(input_ids, max_length=MAX_NEW_TOKENS)
+print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))
+
+
+

From c3d87e4435c168ab29d9ba50916ef0d3b015fb24 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 12:10:34 -0700
Subject: [PATCH 47/97] Added is_available_triton guard.

---
 bitsandbytes/research/autograd/_functions.py  |   4 +-
 bitsandbytes/triton/dequantize_rowwise.py     | 106 ++++---
 .../triton/int8_matmul_mixed_dequanitze.py    | 293 +++++++++---------
 .../triton/int8_matmul_rowwise_dequantize.py  | 291 ++++++++---------
 .../quantize_columnwise_and_transpose.py      | 122 ++++----
 bitsandbytes/triton/quantize_global.py        | 181 +++++------
 bitsandbytes/triton/quantize_rowwise.py       | 111 +++----
 7 files changed, 572 insertions(+), 536 deletions(-)

diff --git a/bitsandbytes/research/autograd/_functions.py b/bitsandbytes/research/autograd/_functions.py
index 4235989..0dff351 100644
--- a/bitsandbytes/research/autograd/_functions.py
+++ b/bitsandbytes/research/autograd/_functions.py
@@ -184,7 +184,7 @@ class MatMulFP8Global(torch.autograd.Function):
         return grad_A, grad_B, None, None, None, None, None
 
 
-class MatMul8bitMixed(torch.autograd.Function):
+class SwitchBackBnb(torch.autograd.Function):
     @staticmethod
     def forward(ctx, A, B, out=None, bias=None, state=MatmulLtState()):
         # default to pytorch behavior if inputs are empty
@@ -408,4 +408,4 @@ def switchback_bnb(
     state = state or MatmulLtState()
     if threshold > 0.0:
         state.threshold = threshold
-    return MatMul8bitMixed.apply(A, B, out, bias, state)
+    return SwitchBackBnb.apply(A, B, out, bias, state)
diff --git a/bitsandbytes/triton/dequantize_rowwise.py b/bitsandbytes/triton/dequantize_rowwise.py
index 7e31483..e092680 100644
--- a/bitsandbytes/triton/dequantize_rowwise.py
+++ b/bitsandbytes/triton/dequantize_rowwise.py
@@ -1,58 +1,64 @@
 import math
 import torch
 import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+from bitsandbytes.triton.triton_utils import is_triton_available
 
-# rowwise quantize
+if not is_triton_available():
+    def dequantize_rowwise(x: torch.Tensor, state_x: torch.Tensor): return None
+else:
 
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _dequantize_rowwise(
-    x_ptr,
-    state_x,
-    output_ptr,
-    inv_127,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    arange = tl.arange(0, P2)
-    offsets = block_start + arange
-    row_mask = arange < BLOCK_SIZE
-    x = tl.load(x_ptr + offsets, mask=row_mask)
-    max_val = tl.load(state_x + pid)
-    output = max_val * x * inv_127
-    tl.store(output_ptr + offsets, output, mask=row_mask)
-    
+    import triton
+    import triton.language as tl
+    from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
-def dequantize_rowwise(x: torch.Tensor, state_x: torch.Tensor):
-    output = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
+    # rowwise quantize
 
-    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+    # TODO: autotune this better.
+    @triton.autotune(
+            configs=[
+                triton.Config({}, num_stages=1, num_warps=8),
+                triton.Config({}, num_stages=2, num_warps=8),
+                triton.Config({}, num_stages=4, num_warps=8),
+                triton.Config({}, num_stages=8, num_warps=8),
+                triton.Config({}, num_stages=1),
+                triton.Config({}, num_stages=2),
+                triton.Config({}, num_stages=4),
+                triton.Config({}, num_stages=8),
+                triton.Config({}, num_warps=1),
+                triton.Config({}, num_warps=2),
+                triton.Config({}, num_warps=4),
+                triton.Config({}, num_warps=8),
+            ],
+            key=['n_elements']
+    )
+    @triton.jit
+    def _dequantize_rowwise(
+        x_ptr,
+        state_x,
+        output_ptr,
+        inv_127,
+        n_elements,
+        BLOCK_SIZE: tl.constexpr,
+        P2: tl.constexpr,
+    ):
+        pid = tl.program_id(axis=0)
+        block_start = pid * BLOCK_SIZE
+        arange = tl.arange(0, P2)
+        offsets = block_start + arange
+        row_mask = arange < BLOCK_SIZE
+        x = tl.load(x_ptr + offsets, mask=row_mask)
+        max_val = tl.load(state_x + pid)
+        output = max_val * x * inv_127
+        tl.store(output_ptr + offsets, output, mask=row_mask)
+        
 
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (x.shape[0],)
-    _dequantize_rowwise[grid](x, state_x, output, 1./127, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
-    return output
+    def dequantize_rowwise(x: torch.Tensor, state_x: torch.Tensor):
+        output = torch.empty(*x.shape, device=x.device, dtype=torch.float16)
+
+        P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+        assert x.is_cuda and output.is_cuda
+        n_elements = output.numel()
+        grid = lambda meta: (x.shape[0],)
+        _dequantize_rowwise[grid](x, state_x, output, 1./127, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+        return output
diff --git a/bitsandbytes/triton/int8_matmul_mixed_dequanitze.py b/bitsandbytes/triton/int8_matmul_mixed_dequanitze.py
index 69d4b0c..60a56e6 100644
--- a/bitsandbytes/triton/int8_matmul_mixed_dequanitze.py
+++ b/bitsandbytes/triton/int8_matmul_mixed_dequanitze.py
@@ -1,158 +1,163 @@
 import torch
+from bitsandbytes.triton.triton_utils import is_triton_available
 
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+if not is_triton_available():
+    def int8_matmul_mixed_dequanitze(a, b, state_x, state_w, bias): return None
+else:
+
+    import triton
+    import triton.language as tl
+    from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
 
-# This is a matmul kernel based on triton.ops.matmul
-# It is modified to support rowwise quantized input and global quantized weight
-# It's purpose is fused matmul then dequantize
-# It does support bias.
+    # This is a matmul kernel based on triton.ops.matmul
+    # It is modified to support rowwise quantized input and global quantized weight
+    # It's purpose is fused matmul then dequantize
+    # It does support bias.
 
-def init_to_zero(name):
-    return lambda nargs: nargs[name].zero_()
+    def init_to_zero(name):
+        return lambda nargs: nargs[name].zero_()
 
-def get_configs_io_bound():
-    configs = []
-    for num_stages in [2, 3, 4, 5, 6]:
-        for block_m in [16, 32]:
-            for block_k in [32, 64]:
-                for block_n in [32, 64, 128, 256]:
-                    num_warps = 2 if block_n <= 64 else 4
-                    configs.append(
-                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
-                                      num_stages=num_stages, num_warps=num_warps))
-                    # split_k
-                    for split_k in [2, 4, 8, 16]:
-                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
-                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
-    return configs
+    def get_configs_io_bound():
+        configs = []
+        for num_stages in [2, 3, 4, 5, 6]:
+            for block_m in [16, 32]:
+                for block_k in [32, 64]:
+                    for block_n in [32, 64, 128, 256]:
+                        num_warps = 2 if block_n <= 64 else 4
+                        configs.append(
+                            triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
+                                          num_stages=num_stages, num_warps=num_warps))
+                        # split_k
+                        for split_k in [2, 4, 8, 16]:
+                            configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
+                                                         num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
+        return configs
 
 
-@triton.autotune(
-    configs=[
-        # basic configs for compute-bound matmuls
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-        # good for int8
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-    ] + get_configs_io_bound(),
-    key=['M', 'N', 'K'],
-    prune_configs_by={
-        'early_config_prune': early_config_prune,
-        'perf_model': estimate_matmul_time,
-        'top_k': 10
-    },
-)
-@triton.heuristics({
-    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
-})
-@triton.jit
-def _int8_matmul_mixed_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr, has_bias : tl.constexpr,
-            stride_am, stride_ak,
-            stride_bk, stride_bn,
-            stride_cm, stride_cn,
-            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
-            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
-            ACC_TYPE: tl.constexpr
-            ):
-    # matrix multiplication
-    pid = tl.program_id(0)
-    pid_z = tl.program_id(1)
-    grid_m = tl.cdiv(M, BLOCK_M)
-    grid_n = tl.cdiv(N, BLOCK_N)
-    # re-order program ID for better L2 performance
-    width = GROUP_M * grid_n
-    group_id = pid // width
-    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
-    pid_m = group_id * GROUP_M + (pid % group_size)
-    pid_n = (pid % width) // (group_size)
-    # do matrix multiplication
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
-    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
-    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
-    # pointers
-    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
-    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
+    @triton.autotune(
+        configs=[
+            # basic configs for compute-bound matmuls
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+            triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+            triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+            # good for int8
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+            triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+            triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+        ] + get_configs_io_bound(),
+        key=['M', 'N', 'K'],
+        prune_configs_by={
+            'early_config_prune': early_config_prune,
+            'perf_model': estimate_matmul_time,
+            'top_k': 10
+        },
+    )
+    @triton.heuristics({
+        'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
+    })
+    @triton.jit
+    def _int8_matmul_mixed_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor: tl.constexpr, has_bias : tl.constexpr,
+                stride_am, stride_ak,
+                stride_bk, stride_bn,
+                stride_cm, stride_cn,
+                BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
+                GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
+                ACC_TYPE: tl.constexpr
+                ):
+        # matrix multiplication
+        pid = tl.program_id(0)
+        pid_z = tl.program_id(1)
+        grid_m = tl.cdiv(M, BLOCK_M)
+        grid_n = tl.cdiv(N, BLOCK_N)
+        # re-order program ID for better L2 performance
+        width = GROUP_M * grid_n
+        group_id = pid // width
+        group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+        pid_m = group_id * GROUP_M + (pid % group_size)
+        pid_n = (pid % width) // (group_size)
+        # do matrix multiplication
+        rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+        rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+        ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
+        rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
+        rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
+        # pointers
+        A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
+        B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
 
-    # rematerialize rm and rn to save registers
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+        # rematerialize rm and rn to save registers
+        rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+        rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
 
-    w_factor = tl.load(state_w_ptr)
-    x_factor = tl.load(state_x_ptr + ram)[:, None]
+        w_factor = tl.load(state_w_ptr)
+        x_factor = tl.load(state_x_ptr + ram)[:, None]
 
-    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
-    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
-    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
-        if EVEN_K:
-            a = tl.load(A)
-            b = tl.load(B)
+        # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
+        acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
+        for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
+            if EVEN_K:
+                a = tl.load(A)
+                b = tl.load(B)
+            else:
+                k_remaining = K - k * (BLOCK_K * SPLIT_K)
+                a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
+                b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
+            acc += tl.dot(a, b)
+            A += BLOCK_K * SPLIT_K * stride_ak
+            B += BLOCK_K * SPLIT_K * stride_bk
+        
+        acc = (w_factor * (x_factor * (acc * divfactor)))
+        acc = acc.to(C.dtype.element_ty)
+
+        # conditionally add bias
+        if has_bias:
+            bias = tl.load(bias + rn).to(C.dtype.element_ty)
+            acc = acc + bias[None, :]
+
+        C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
+        mask = (rm < M)[:, None] & (rn < N)[None, :]
+        # handles write-back with reduction-splitting
+        if SPLIT_K == 1:
+            tl.store(C, acc, mask=mask)
         else:
-            k_remaining = K - k * (BLOCK_K * SPLIT_K)
-            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
-            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
-        acc += tl.dot(a, b)
-        A += BLOCK_K * SPLIT_K * stride_ak
-        B += BLOCK_K * SPLIT_K * stride_bk
-    
-    acc = (w_factor * (x_factor * (acc * divfactor)))
-    acc = acc.to(C.dtype.element_ty)
-
-    # conditionally add bias
-    if has_bias:
-        bias = tl.load(bias + rn).to(C.dtype.element_ty)
-        acc = acc + bias[None, :]
-
-    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-    # handles write-back with reduction-splitting
-    if SPLIT_K == 1:
-        tl.store(C, acc, mask=mask)
-    else:
-        tl.atomic_add(C, acc, mask=mask)
+            tl.atomic_add(C, acc, mask=mask)
 
 
-def int8_matmul_mixed_dequanitze(a, b, state_x, state_w, bias):
-    device = a.device
-    divfactor = 1. / (127. * 127.)
-    has_bias = 0 if bias is None else 1
-    # handle non-contiguous inputs if necessary
-    if a.stride(0) > 1 and a.stride(1) > 1:
-        a = a.contiguous()
-    if b.stride(0) > 1 and b.stride(1) > 1:
-        b = b.contiguous()
-    # checks constraints
-    assert a.shape[1] == b.shape[0], "incompatible dimensions"
-    M, K = a.shape
-    _, N = b.shape
-    # allocates output
-    c = torch.empty((M, N), device=device, dtype=torch.float16)
-    # accumulator types
-    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
-    # launch int8_matmul_mixed_dequantize kernel
-    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
-    _int8_matmul_mixed_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
-                    a.stride(0), a.stride(1),
-                    b.stride(0), b.stride(1),
-                    c.stride(0), c.stride(1),
-                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
-    return c
+    def int8_matmul_mixed_dequanitze(a, b, state_x, state_w, bias):
+        device = a.device
+        divfactor = 1. / (127. * 127.)
+        has_bias = 0 if bias is None else 1
+        # handle non-contiguous inputs if necessary
+        if a.stride(0) > 1 and a.stride(1) > 1:
+            a = a.contiguous()
+        if b.stride(0) > 1 and b.stride(1) > 1:
+            b = b.contiguous()
+        # checks constraints
+        assert a.shape[1] == b.shape[0], "incompatible dimensions"
+        M, K = a.shape
+        _, N = b.shape
+        # allocates output
+        c = torch.empty((M, N), device=device, dtype=torch.float16)
+        # accumulator types
+        ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
+        # launch int8_matmul_mixed_dequantize kernel
+        grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
+        _int8_matmul_mixed_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
+                        a.stride(0), a.stride(1),
+                        b.stride(0), b.stride(1),
+                        c.stride(0), c.stride(1),
+                        GROUP_M=8, ACC_TYPE=ACC_TYPE)
+        return c
diff --git a/bitsandbytes/triton/int8_matmul_rowwise_dequantize.py b/bitsandbytes/triton/int8_matmul_rowwise_dequantize.py
index 4af054b..33f4d13 100644
--- a/bitsandbytes/triton/int8_matmul_rowwise_dequantize.py
+++ b/bitsandbytes/triton/int8_matmul_rowwise_dequantize.py
@@ -1,159 +1,164 @@
 import torch
 
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+from bitsandbytes.triton.triton_utils import is_triton_available
 
-# This is a matmul kernel based on triton.ops.matmul
-# It is modified to support rowwise quantized input and columnwise quantized weight
-# It's purpose is fused matmul then dequantize
-# It does support bias.
+if not is_triton_available():
+    def int8_matmul_rowwise_dequantize(a, b, state_x, state_w, bias): return None
+else:
+    import triton
+    import triton.language as tl
+    from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
-def init_to_zero(name):
-    return lambda nargs: nargs[name].zero_()
+    # This is a matmul kernel based on triton.ops.matmul
+    # It is modified to support rowwise quantized input and columnwise quantized weight
+    # It's purpose is fused matmul then dequantize
+    # It does support bias.
+
+    def init_to_zero(name):
+        return lambda nargs: nargs[name].zero_()
 
 
-def get_configs_io_bound():
-    configs = []
-    for num_stages in [2, 3, 4, 5, 6]:
-        for block_m in [16, 32]:
-            for block_k in [32, 64]:
-                for block_n in [32, 64, 128, 256]:
-                    num_warps = 2 if block_n <= 64 else 4
-                    configs.append(
-                        triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
-                                      num_stages=num_stages, num_warps=num_warps))
-                    # split_k
-                    for split_k in [2, 4, 8, 16]:
-                        configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
-                                                     num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
-    return configs
+    def get_configs_io_bound():
+        configs = []
+        for num_stages in [2, 3, 4, 5, 6]:
+            for block_m in [16, 32]:
+                for block_k in [32, 64]:
+                    for block_n in [32, 64, 128, 256]:
+                        num_warps = 2 if block_n <= 64 else 4
+                        configs.append(
+                            triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': 1},
+                                          num_stages=num_stages, num_warps=num_warps))
+                        # split_k
+                        for split_k in [2, 4, 8, 16]:
+                            configs.append(triton.Config({'BLOCK_M': block_m, 'BLOCK_N': block_n, 'BLOCK_K': block_k, 'SPLIT_K': split_k},
+                                                         num_stages=num_stages, num_warps=num_warps, pre_hook=init_to_zero('C')))
+        return configs
 
 
-@triton.autotune(
-    configs=[
-        # basic configs for compute-bound matmuls
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-        # good for int8
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
-        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
-        triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
-    ] + get_configs_io_bound(),
-    key=['M', 'N', 'K'],
-    prune_configs_by={
-        'early_config_prune': early_config_prune,
-        'perf_model': estimate_matmul_time,
-        'top_k': 10
-    },
-)
-@triton.heuristics({
-    'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
-})
-@triton.jit
-def _int8_matmul_rowwise_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor, has_bias : tl.constexpr,
-            stride_am, stride_ak,
-            stride_bk, stride_bn,
-            stride_cm, stride_cn,
-            BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
-            GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
-            ACC_TYPE: tl.constexpr
-            ):
-    # matrix multiplication
-    pid = tl.program_id(0)
-    pid_z = tl.program_id(1)
-    grid_m = tl.cdiv(M, BLOCK_M)
-    grid_n = tl.cdiv(N, BLOCK_N)
-    # re-order program ID for better L2 performance
-    width = GROUP_M * grid_n
-    group_id = pid // width
-    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
-    pid_m = group_id * GROUP_M + (pid % group_size)
-    pid_n = (pid % width) // (group_size)
-    # do matrix multiplication
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
-    rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
-    rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
-    # pointers
-    A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
-    B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
+    @triton.autotune(
+        configs=[
+            # basic configs for compute-bound matmuls
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+            triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+            triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 32, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+            # good for int8
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+            triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+            triton.Config({'BLOCK_M': 256, 'BLOCK_N': 64, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 256, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'BLOCK_K': 128, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 128, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+            triton.Config({'BLOCK_M': 64, 'BLOCK_N': 32, 'BLOCK_K': 64, 'SPLIT_K': 1}, num_stages=5, num_warps=2),
+        ] + get_configs_io_bound(),
+        key=['M', 'N', 'K'],
+        prune_configs_by={
+            'early_config_prune': early_config_prune,
+            'perf_model': estimate_matmul_time,
+            'top_k': 10
+        },
+    )
+    @triton.heuristics({
+        'EVEN_K': lambda args: args['K'] % (args['BLOCK_K'] * args['SPLIT_K']) == 0,
+    })
+    @triton.jit
+    def _int8_matmul_rowwise_dequantize(A, B, C, bias, state_x_ptr, state_w_ptr, M, N, K, divfactor, has_bias : tl.constexpr,
+                stride_am, stride_ak,
+                stride_bk, stride_bn,
+                stride_cm, stride_cn,
+                BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_K: tl.constexpr,
+                GROUP_M: tl.constexpr, SPLIT_K: tl.constexpr, EVEN_K: tl.constexpr,
+                ACC_TYPE: tl.constexpr
+                ):
+        # matrix multiplication
+        pid = tl.program_id(0)
+        pid_z = tl.program_id(1)
+        grid_m = tl.cdiv(M, BLOCK_M)
+        grid_n = tl.cdiv(N, BLOCK_N)
+        # re-order program ID for better L2 performance
+        width = GROUP_M * grid_n
+        group_id = pid // width
+        group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+        pid_m = group_id * GROUP_M + (pid % group_size)
+        pid_n = (pid % width) // (group_size)
+        # do matrix multiplication
+        rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+        rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+        ram = tl.max_contiguous(tl.multiple_of(rm % M, BLOCK_M), BLOCK_M)
+        rbn = tl.max_contiguous(tl.multiple_of(rn % N, BLOCK_N), BLOCK_N)
+        rk = pid_z * BLOCK_K + tl.arange(0, BLOCK_K)
+        # pointers
+        A = A + (ram[:, None] * stride_am + rk[None, :] * stride_ak)
+        B = B + (rk[:, None] * stride_bk + rbn[None, :] * stride_bn)
 
-    # rematerialize rm and rn to save registers
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+        # rematerialize rm and rn to save registers
+        rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+        rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
 
-    w_factor = tl.load(state_w_ptr + rbn)[None, :]
-    x_factor = tl.load(state_x_ptr + ram)[:, None]
+        w_factor = tl.load(state_w_ptr + rbn)[None, :]
+        x_factor = tl.load(state_x_ptr + ram)[:, None]
 
-    # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
-    acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
-    for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
-        if EVEN_K:
-            a = tl.load(A)
-            b = tl.load(B)
+        # acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=ACC_TYPE)
+        acc = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.int32)
+        for k in range(0, tl.cdiv(K, BLOCK_K * SPLIT_K)):
+            if EVEN_K:
+                a = tl.load(A)
+                b = tl.load(B)
+            else:
+                k_remaining = K - k * (BLOCK_K * SPLIT_K)
+                a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
+                b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
+            acc += tl.dot(a, b)
+            A += BLOCK_K * SPLIT_K * stride_ak
+            B += BLOCK_K * SPLIT_K * stride_bk
+        
+        acc = (w_factor * (x_factor * (acc * divfactor)))
+        acc = acc.to(C.dtype.element_ty)
+
+        if has_bias:
+            bias = tl.load(bias + rn).to(C.dtype.element_ty)
+            acc = acc + bias[None, :]
+
+        C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
+        mask = (rm < M)[:, None] & (rn < N)[None, :]
+        # handles write-back with reduction-splitting
+        if SPLIT_K == 1:
+            tl.store(C, acc, mask=mask)
         else:
-            k_remaining = K - k * (BLOCK_K * SPLIT_K)
-            a = tl.load(A, mask=rk[None, :] < k_remaining, other=0.)
-            b = tl.load(B, mask=rk[:, None] < k_remaining, other=0.)
-        acc += tl.dot(a, b)
-        A += BLOCK_K * SPLIT_K * stride_ak
-        B += BLOCK_K * SPLIT_K * stride_bk
-    
-    acc = (w_factor * (x_factor * (acc * divfactor)))
-    acc = acc.to(C.dtype.element_ty)
-
-    if has_bias:
-        bias = tl.load(bias + rn).to(C.dtype.element_ty)
-        acc = acc + bias[None, :]
-
-    C = C + (rm[:, None] * stride_cm + rn[None, :] * stride_cn)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-    # handles write-back with reduction-splitting
-    if SPLIT_K == 1:
-        tl.store(C, acc, mask=mask)
-    else:
-        tl.atomic_add(C, acc, mask=mask)
+            tl.atomic_add(C, acc, mask=mask)
 
 
-def int8_matmul_rowwise_dequantize(a, b, state_x, state_w, bias):
-    divfactor = 1. / (127. * 127.)
+    def int8_matmul_rowwise_dequantize(a, b, state_x, state_w, bias):
+        divfactor = 1. / (127. * 127.)
 
-    has_bias = 0 if bias is None else 1
+        has_bias = 0 if bias is None else 1
 
-    device = a.device
-    # handle non-contiguous inputs if necessary
-    if a.stride(0) > 1 and a.stride(1) > 1:
-        a = a.contiguous()
-    if b.stride(0) > 1 and b.stride(1) > 1:
-        b = b.contiguous()
-    # checks constraints
-    assert a.shape[1] == b.shape[0], "incompatible dimensions"
-    M, K = a.shape
-    _, N = b.shape
-    # allocates output
-    c = torch.empty((M, N), device=device, dtype=torch.float16)
-    # accumulator types
-    ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
-    # launch int8_matmul_rowwise_dequantize kernel
-    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
-    _int8_matmul_rowwise_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
-                    a.stride(0), a.stride(1),
-                    b.stride(0), b.stride(1),
-                    c.stride(0), c.stride(1),
-                    GROUP_M=8, ACC_TYPE=ACC_TYPE)
-    return c
+        device = a.device
+        # handle non-contiguous inputs if necessary
+        if a.stride(0) > 1 and a.stride(1) > 1:
+            a = a.contiguous()
+        if b.stride(0) > 1 and b.stride(1) > 1:
+            b = b.contiguous()
+        # checks constraints
+        assert a.shape[1] == b.shape[0], "incompatible dimensions"
+        M, K = a.shape
+        _, N = b.shape
+        # allocates output
+        c = torch.empty((M, N), device=device, dtype=torch.float16)
+        # accumulator types
+        ACC_TYPE = tl.float32 #if a.dtype in [torch.float16, torch.bfloat16, torch.float32] else tl.int32
+        # launch int8_matmul_rowwise_dequantize kernel
+        grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']), META['SPLIT_K'])
+        _int8_matmul_rowwise_dequantize[grid](a, b, c, bias, state_x, state_w, M, N, K, divfactor, has_bias,
+                        a.stride(0), a.stride(1),
+                        b.stride(0), b.stride(1),
+                        c.stride(0), c.stride(1),
+                        GROUP_M=8, ACC_TYPE=ACC_TYPE)
+        return c
diff --git a/bitsandbytes/triton/quantize_columnwise_and_transpose.py b/bitsandbytes/triton/quantize_columnwise_and_transpose.py
index 4e53475..54220d9 100644
--- a/bitsandbytes/triton/quantize_columnwise_and_transpose.py
+++ b/bitsandbytes/triton/quantize_columnwise_and_transpose.py
@@ -1,68 +1,74 @@
 import math
 import torch
 import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+from bitsandbytes.triton.triton_utils import is_triton_available
 
-# This kernel does fused columnwise quantization and transpose.
+if not is_triton_available():
+    def quantize_columnwise_and_transpose(x: torch.Tensor): return None
+else:
 
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_stages=16),
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=16, num_warps=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_columnwise_and_transpose(
-    x_ptr,
-    output_ptr,
-    output_maxs,
-    n_elements,
-    M : tl.constexpr, N : tl.constexpr,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid
-    p2_arange = tl.arange(0, P2)
-    p2_arange_mask = p2_arange < M
-    arange =  p2_arange * N
-    offsets = block_start + arange
-    x = tl.load(x_ptr + offsets, mask=p2_arange_mask)
-    abs_x = tl.abs(x)
-    max_val = tl.max(tl.where(p2_arange_mask, abs_x, 0), axis=0)
-    output = tl.libdevice.llrint(127. * (x / max_val))
+    import triton
+    import triton.language as tl
+    from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
-    new_start = pid * M 
-    new_offsets = new_start + p2_arange
-    tl.store(output_ptr + new_offsets, output, mask=p2_arange_mask)
-    tl.store(output_maxs + pid, max_val)
+    # This kernel does fused columnwise quantization and transpose.
 
-def quantize_columnwise_and_transpose(x: torch.Tensor):
-    M, N = x.shape
-    output = torch.empty(N, M, device=x.device, dtype=torch.int8)
-    output_maxs = torch.empty(x.shape[1], device=x.device, dtype=torch.float16)
+    # TODO: autotune this better.
+    @triton.autotune(
+            configs=[
+                triton.Config({}, num_stages=1),
+                triton.Config({}, num_stages=2),
+                triton.Config({}, num_stages=4),
+                triton.Config({}, num_stages=8),
+                triton.Config({}, num_stages=16),
+                triton.Config({}, num_stages=1, num_warps=8),
+                triton.Config({}, num_stages=2, num_warps=8),
+                triton.Config({}, num_stages=4, num_warps=8),
+                triton.Config({}, num_stages=8, num_warps=8),
+                triton.Config({}, num_stages=16, num_warps=8),
+                triton.Config({}, num_warps=1),
+                triton.Config({}, num_warps=2),
+                triton.Config({}, num_warps=4),
+                triton.Config({}, num_warps=8),
+            ],
+            key=['n_elements']
+    )
+    @triton.jit
+    def _quantize_columnwise_and_transpose(
+        x_ptr,
+        output_ptr,
+        output_maxs,
+        n_elements,
+        M : tl.constexpr, N : tl.constexpr,
+        BLOCK_SIZE: tl.constexpr,
+        P2: tl.constexpr,
+    ):
+        pid = tl.program_id(axis=0)
+        block_start = pid
+        p2_arange = tl.arange(0, P2)
+        p2_arange_mask = p2_arange < M
+        arange =  p2_arange * N
+        offsets = block_start + arange
+        x = tl.load(x_ptr + offsets, mask=p2_arange_mask)
+        abs_x = tl.abs(x)
+        max_val = tl.max(tl.where(p2_arange_mask, abs_x, 0), axis=0)
+        output = tl.libdevice.llrint(127. * (x / max_val))
 
-    P2 = int(2 ** (math.ceil(math.log2(M))))
+        new_start = pid * M 
+        new_offsets = new_start + p2_arange
+        tl.store(output_ptr + new_offsets, output, mask=p2_arange_mask)
+        tl.store(output_maxs + pid, max_val)
 
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
-    _quantize_columnwise_and_transpose[grid](x, output, output_maxs, n_elements, M, N, BLOCK_SIZE=M, P2=P2)
-    return output, output_maxs
+    def quantize_columnwise_and_transpose(x: torch.Tensor):
+        M, N = x.shape
+        output = torch.empty(N, M, device=x.device, dtype=torch.int8)
+        output_maxs = torch.empty(x.shape[1], device=x.device, dtype=torch.float16)
+
+        P2 = int(2 ** (math.ceil(math.log2(M))))
+
+        assert x.is_cuda and output.is_cuda
+        n_elements = output.numel()
+        grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
+        _quantize_columnwise_and_transpose[grid](x, output, output_maxs, n_elements, M, N, BLOCK_SIZE=M, P2=P2)
+        return output, output_maxs
 
diff --git a/bitsandbytes/triton/quantize_global.py b/bitsandbytes/triton/quantize_global.py
index 229721c..845db6e 100644
--- a/bitsandbytes/triton/quantize_global.py
+++ b/bitsandbytes/triton/quantize_global.py
@@ -1,100 +1,107 @@
 import math
 import torch
 import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
+from bitsandbytes.triton.triton_utils import is_triton_available
 
-# global quantize
-@triton.autotune(
-        configs=[
-            triton.Config({'BLOCK_SIZE': 1024,}, num_warps=4),
-            triton.Config({'BLOCK_SIZE': 2048,}, num_stages=1),
+if not is_triton_available():
+    def quantize_global_transpose(input): return None
+    def quantize_global(x: torch.Tensor): return None
+else:
 
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_global(
-    x_ptr,
-    absmax_inv_ptr,
-    output_ptr,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    offsets = block_start + tl.arange(0, BLOCK_SIZE)
-    mask = offsets < n_elements
-    x = tl.load(x_ptr + offsets, mask=mask)
-    absmax_inv = tl.load(absmax_inv_ptr)
-    output = tl.libdevice.llrint(127. * (x * absmax_inv))
-    tl.store(output_ptr + offsets, output, mask=mask)
+    import triton
+    import triton.language as tl
+    from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
-def quantize_global(x: torch.Tensor):
-    absmax = x.abs().max().unsqueeze(0)
-    absmax_inv = 1./ absmax
-    output = torch.empty(*x.shape, device='cuda', dtype=torch.int8)
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
-    _quantize_global[grid](x, absmax_inv, output, n_elements)
-    return output, absmax
+    # global quantize
+    @triton.autotune(
+            configs=[
+                triton.Config({'BLOCK_SIZE': 1024,}, num_warps=4),
+                triton.Config({'BLOCK_SIZE': 2048,}, num_stages=1),
+
+            ],
+            key=['n_elements']
+    )
+    @triton.jit
+    def _quantize_global(
+        x_ptr,
+        absmax_inv_ptr,
+        output_ptr,
+        n_elements,
+        BLOCK_SIZE: tl.constexpr,
+    ):
+        pid = tl.program_id(axis=0)
+        block_start = pid * BLOCK_SIZE
+        offsets = block_start + tl.arange(0, BLOCK_SIZE)
+        mask = offsets < n_elements
+        x = tl.load(x_ptr + offsets, mask=mask)
+        absmax_inv = tl.load(absmax_inv_ptr)
+        output = tl.libdevice.llrint(127. * (x * absmax_inv))
+        tl.store(output_ptr + offsets, output, mask=mask)
+
+    def quantize_global(x: torch.Tensor):
+        absmax = x.abs().max().unsqueeze(0)
+        absmax_inv = 1./ absmax
+        output = torch.empty(*x.shape, device='cuda', dtype=torch.int8)
+        assert x.is_cuda and output.is_cuda
+        n_elements = output.numel()
+        grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
+        _quantize_global[grid](x, absmax_inv, output, n_elements)
+        return output, absmax
 
 
-# global quantize and transpose
-@triton.autotune(
-        configs=[
-            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
-            triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
+    # global quantize and transpose
+    @triton.autotune(
+            configs=[
+                triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
+                triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128, 'GROUP_M': 8}, num_warps=4),
 
-            # ...
-        ],
-        key=['M', 'N']
-)
-@triton.jit
-def _quantize_global_transpose(A, absmax_inv_ptr, B, stride_am, stride_an, stride_bn, stride_bm, M, N, 
-                      BLOCK_M : tl.constexpr, 
-                      BLOCK_N : tl.constexpr, 
-                      GROUP_M : tl.constexpr):
-    pid = tl.program_id(0)
-    grid_m = (M + BLOCK_M - 1) // BLOCK_M
-    grid_n = (N + BLOCK_N - 1) // BLOCK_N
-    
-    width = GROUP_M * grid_n
-    group_id = pid // width
-    group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
-    pid_m = group_id * GROUP_M + (pid % group_size)
-    pid_n = (pid % width) // group_size
-    
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    A = A + (rm[:, None] * stride_am + rn[None, :] * stride_an)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
-    a = tl.load(A, mask=mask)
-    absmax_inv = tl.load(absmax_inv_ptr)
-    
-    # rematerialize to save registers
-    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
-    B = B + (rm[:, None] * stride_bm + rn[None, :] * stride_bn)
-    mask = (rm < M)[:, None] & (rn < N)[None, :]
+                # ...
+            ],
+            key=['M', 'N']
+    )
+    @triton.jit
+    def _quantize_global_transpose(A, absmax_inv_ptr, B, stride_am, stride_an, stride_bn, stride_bm, M, N, 
+                          BLOCK_M : tl.constexpr, 
+                          BLOCK_N : tl.constexpr, 
+                          GROUP_M : tl.constexpr):
+        pid = tl.program_id(0)
+        grid_m = (M + BLOCK_M - 1) // BLOCK_M
+        grid_n = (N + BLOCK_N - 1) // BLOCK_N
+        
+        width = GROUP_M * grid_n
+        group_id = pid // width
+        group_size = min(grid_m - group_id * GROUP_M, GROUP_M)
+        pid_m = group_id * GROUP_M + (pid % group_size)
+        pid_n = (pid % width) // group_size
+        
+        rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+        rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+        A = A + (rm[:, None] * stride_am + rn[None, :] * stride_an)
+        mask = (rm < M)[:, None] & (rn < N)[None, :]
+        a = tl.load(A, mask=mask)
+        absmax_inv = tl.load(absmax_inv_ptr)
+        
+        # rematerialize to save registers
+        rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+        rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+        B = B + (rm[:, None] * stride_bm + rn[None, :] * stride_bn)
+        mask = (rm < M)[:, None] & (rn < N)[None, :]
 
-    output = tl.libdevice.llrint(127. * (a * absmax_inv))
+        output = tl.libdevice.llrint(127. * (a * absmax_inv))
 
-    tl.store(B, output, mask=mask)
+        tl.store(B, output, mask=mask)
 
-def quantize_global_transpose(input):
-    absmax = input.abs().max().unsqueeze(0)
-    absmax_inv = 1./ absmax
-    M, N = input.shape
-    out = torch.empty(N, M, device='cuda', dtype=torch.int8)
-    
-    assert out.size(0) == N and out.size(1) == M
-    assert input.stride(0) == 1 or input.stride(1) == 1
-    assert out.stride(0) == 1 or out.stride(1) == 1
-    
-    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']),)
-    _quantize_global_transpose[grid](input, absmax_inv, out, input.stride(0), input.stride(1), out.stride(0), out.stride(1), M, N)
-    return out, absmax
+    def quantize_global_transpose(input):
+        absmax = input.abs().max().unsqueeze(0)
+        absmax_inv = 1./ absmax
+        M, N = input.shape
+        out = torch.empty(N, M, device='cuda', dtype=torch.int8)
+        
+        assert out.size(0) == N and out.size(1) == M
+        assert input.stride(0) == 1 or input.stride(1) == 1
+        assert out.stride(0) == 1 or out.stride(1) == 1
+        
+        grid = lambda META: (triton.cdiv(M, META['BLOCK_M']) * triton.cdiv(N, META['BLOCK_N']),)
+        _quantize_global_transpose[grid](input, absmax_inv, out, input.stride(0), input.stride(1), out.stride(0), out.stride(1), M, N)
+        return out, absmax
 
diff --git a/bitsandbytes/triton/quantize_rowwise.py b/bitsandbytes/triton/quantize_rowwise.py
index d956647..26d2183 100644
--- a/bitsandbytes/triton/quantize_rowwise.py
+++ b/bitsandbytes/triton/quantize_rowwise.py
@@ -1,61 +1,68 @@
 import math
 import torch
 import time
-import triton
-import triton.language as tl
-from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
-# rowwise quantize
+from bitsandbytes.triton.triton_utils import is_triton_available
 
-# TODO: autotune this better.
-@triton.autotune(
-        configs=[
-            triton.Config({}, num_stages=1, num_warps=8),
-            triton.Config({}, num_stages=2, num_warps=8),
-            triton.Config({}, num_stages=4, num_warps=8),
-            triton.Config({}, num_stages=8, num_warps=8),
-            triton.Config({}, num_stages=1),
-            triton.Config({}, num_stages=2),
-            triton.Config({}, num_stages=4),
-            triton.Config({}, num_stages=8),
-            triton.Config({}, num_warps=1),
-            triton.Config({}, num_warps=2),
-            triton.Config({}, num_warps=4),
-            triton.Config({}, num_warps=8),
-        ],
-        key=['n_elements']
-)
-@triton.jit
-def _quantize_rowwise(
-    x_ptr,
-    output_ptr,
-    output_maxs,
-    n_elements,
-    BLOCK_SIZE: tl.constexpr,
-    P2: tl.constexpr,
-):
-    pid = tl.program_id(axis=0)
-    block_start = pid * BLOCK_SIZE
-    arange = tl.arange(0, P2)
-    offsets = block_start + arange
-    row_mask = arange < BLOCK_SIZE
-    x = tl.load(x_ptr + offsets, mask=row_mask)
-    
-    abs_x = tl.abs(x)
-    max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
-    output = tl.libdevice.llrint(127. * (x / max_val))
-    tl.store(output_ptr + offsets, output, mask=row_mask)
-    tl.store(output_maxs + pid, max_val)
+if not is_triton_available():
+    def quantize_rowwise(x: torch.Tensor): return None
+else:
 
-def quantize_rowwise(x: torch.Tensor):
-    output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
-    output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
+    import triton
+    import triton.language as tl
+    from triton.ops.matmul_perf_model import early_config_prune, estimate_matmul_time
 
-    P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+    # rowwise quantize
 
-    assert x.is_cuda and output.is_cuda
-    n_elements = output.numel()
-    grid = lambda meta: (x.shape[0],)
-    _quantize_rowwise[grid](x, output, output_maxs, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
-    return output, output_maxs
+    # TODO: autotune this better.
+    @triton.autotune(
+            configs=[
+                triton.Config({}, num_stages=1, num_warps=8),
+                triton.Config({}, num_stages=2, num_warps=8),
+                triton.Config({}, num_stages=4, num_warps=8),
+                triton.Config({}, num_stages=8, num_warps=8),
+                triton.Config({}, num_stages=1),
+                triton.Config({}, num_stages=2),
+                triton.Config({}, num_stages=4),
+                triton.Config({}, num_stages=8),
+                triton.Config({}, num_warps=1),
+                triton.Config({}, num_warps=2),
+                triton.Config({}, num_warps=4),
+                triton.Config({}, num_warps=8),
+            ],
+            key=['n_elements']
+    )
+    @triton.jit
+    def _quantize_rowwise(
+        x_ptr,
+        output_ptr,
+        output_maxs,
+        n_elements,
+        BLOCK_SIZE: tl.constexpr,
+        P2: tl.constexpr,
+    ):
+        pid = tl.program_id(axis=0)
+        block_start = pid * BLOCK_SIZE
+        arange = tl.arange(0, P2)
+        offsets = block_start + arange
+        row_mask = arange < BLOCK_SIZE
+        x = tl.load(x_ptr + offsets, mask=row_mask)
+        
+        abs_x = tl.abs(x)
+        max_val = tl.max(tl.where(row_mask, abs_x, 0), axis=0)
+        output = tl.libdevice.llrint(127. * (x / max_val))
+        tl.store(output_ptr + offsets, output, mask=row_mask)
+        tl.store(output_maxs + pid, max_val)
+
+    def quantize_rowwise(x: torch.Tensor):
+        output = torch.empty(*x.shape, device=x.device, dtype=torch.int8)
+        output_maxs = torch.empty(x.shape[0], device=x.device, dtype=torch.float16)
+
+        P2 = int(2 ** (math.ceil(math.log2(x.shape[1]))))
+
+        assert x.is_cuda and output.is_cuda
+        n_elements = output.numel()
+        grid = lambda meta: (x.shape[0],)
+        _quantize_rowwise[grid](x, output, output_maxs, n_elements, BLOCK_SIZE=x.shape[1], P2=P2)
+        return output, output_maxs
 

From 5b612bc6dfa131fb0cb27dcae5fd863c15694328 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 12:16:55 -0700
Subject: [PATCH 48/97] Added is_available_triton guard to Triton
 SwitchBackLinear.

---
 bitsandbytes/nn/triton_based_modules.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/bitsandbytes/nn/triton_based_modules.py b/bitsandbytes/nn/triton_based_modules.py
index 61e9053..7794fa0 100644
--- a/bitsandbytes/nn/triton_based_modules.py
+++ b/bitsandbytes/nn/triton_based_modules.py
@@ -3,6 +3,8 @@ import torch.nn as nn
 import time
 from functools import partial
 
+from bitsandbytes.triton.triton_utils import is_triton_available
+
 from bitsandbytes.triton.dequantize_rowwise import dequantize_rowwise
 from bitsandbytes.triton.quantize_rowwise import quantize_rowwise
 from bitsandbytes.triton.quantize_columnwise_and_transpose import quantize_columnwise_and_transpose
@@ -160,6 +162,10 @@ class SwitchBackLinear(nn.Linear):
         ):
         super().__init__(in_features, out_features, bias, device, dtype)
 
+        if not is_triton_available:
+            raise ImportError('''Could not import triton. Please install triton to use SwitchBackLinear.
+                               Alternatively, you can use bnb.nn.SwitchBackLinearBnb, but it will be slower''')
+
         # By default, we use the global quantization.
         self.vectorize = vectorize
         if self.vectorize:

From b8ea2b416d25130ed32a3cf436b8a9f8fd1d412f Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 12:28:35 -0700
Subject: [PATCH 49/97] Fixed bias conversion in Linear4bit

---
 bitsandbytes/nn/modules.py | 34 +---------------------------------
 1 file changed, 1 insertion(+), 33 deletions(-)

diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index de9e4ac..ab16e01 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -205,45 +205,13 @@ class Linear4bit(nn.Linear):
         if self.compute_dtype is not None:
             x = x.to(self.compute_dtype)
 
-        bias = None if self.bias is None else self.bias.half(self.compute_dtype)
+        bias = None if self.bias is None else self.bias.to(self.compute_dtype)
         out = bnb.matmul_4bit(x, self.weight.t(), bias=bias, quant_state=self.weight.quant_state)
 
         out = out.to(inp_dtype)
 
         return out
 
-    def _save_to_state_dict(self, destination, prefix, keep_vars):
-        super()._save_to_state_dict(destination, prefix, keep_vars)
-
-        # we only need to save extra state if .cuda was called
-        # then we have the (1) quantization weight and the (2) quantization config
-
-        #quant_state = getattr(self.weight, 'quant_state', None)
-        #if quant_state is not None:
-        #    # 2. quantization state
-        #    destination[prefix + 'quant_state'] = quant_state
-
-        #destination[prefix + 'weight'] = self.weight.detach()
-
-
-
-    def _load_from_state_dict(self, state_dict, prefix, local_metadata, strict,
-                              missing_keys, unexpected_keys, error_msgs):
-        super()._load_from_state_dict(state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys,
-                                      error_msgs)
-        #for key in unexpected_keys:
-        #    input_name = key[len(prefix):]
-        #    if input_name == "quant_state":
-        #        if getattr(self.weight, 'quant_state', None) is None:
-        #            # buffers not yet initialized, can't call them directly without
-        #            raise RuntimeError("Loading a quantized checkpoint into non-quantized Linear4bit is "
-        #                               "not supported. Please call module.cuda() before module.load_state_dict()")
-
-        #        input_param = state_dict[key]
-        #        self.weight.quant_state = input_param
-        #        assert isinstance(self.weight, Param4bit)
-        #        unexpected_keys.remove(key)
-
 class LinearFP4(Linear4bit):
     def __init__(self, input_features, output_features, bias=True, compute_dtype=None, compress_statistics=True):
         super().__init__(input_features, output_features, bias, compute_dtype, compress_statistics, 'fp4')

From 008dfff9b4b25501b487f39af0332e6306ba1ebd Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 12:57:46 -0700
Subject: [PATCH 50/97] Added triton utils.

---
 bitsandbytes/triton/triton_utils.py | 4 ++++
 1 file changed, 4 insertions(+)
 create mode 100644 bitsandbytes/triton/triton_utils.py

diff --git a/bitsandbytes/triton/triton_utils.py b/bitsandbytes/triton/triton_utils.py
new file mode 100644
index 0000000..c74c239
--- /dev/null
+++ b/bitsandbytes/triton/triton_utils.py
@@ -0,0 +1,4 @@
+import importlib
+
+def is_triton_available():
+    return importlib.util.find_spec("triton") is not None

From 9e7cdc9ea95e9756d9f5621a0e2c7e2538363fae Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 12 Apr 2023 13:41:30 -0700
Subject: [PATCH 51/97] Added last SwitchBack refactors. All tests green.

---
 CHANGELOG.md                            |  7 +++++++
 bitsandbytes/nn/__init__.py             |  2 +-
 bitsandbytes/nn/triton_based_modules.py | 18 +++++++++---------
 setup.py                                |  2 +-
 tests/test_triton.py                    | 16 ++++++++--------
 5 files changed, 26 insertions(+), 19 deletions(-)

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 5399c02..2de70d3 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -221,3 +221,10 @@ Improvements:
 Deprecated:
  - Devices with compute capability 3.0 (GTX 700s, K10) and 3.2 (Tegra K1, Jetson TK1) are now deprecated and support will be removed in 0.39.0.
  - Support for CUDA 10.0 and 10.2 will be removed in bitsandbytes 0.39.0
+
+
+### 0.38.1
+
+Features:
+ - Added Int8 SwitchBack layers
+ - Added Fake FP8 layers for research purposes (available under `bnb.research.nn. ...`)
diff --git a/bitsandbytes/nn/__init__.py b/bitsandbytes/nn/__init__.py
index ec944a3..f51f600 100644
--- a/bitsandbytes/nn/__init__.py
+++ b/bitsandbytes/nn/__init__.py
@@ -3,4 +3,4 @@
 # This source code is licensed under the MIT license found in the
 # LICENSE file in the root directory of this source tree.
 from .modules import Int8Params, Linear8bitLt, StableEmbedding, OutlierAwareLinear, SwitchBackLinearBnb
-from .triton_based_modules import SwitchBackLinear, SwitchBackLinearGlobal, SwitchBackLinearVectorized, StandardLinear
+from .triton_based_modules import SwitchBackLinear, SwitchBackLinearGlobal, SwitchBackLinearVectorwise, StandardLinear
diff --git a/bitsandbytes/nn/triton_based_modules.py b/bitsandbytes/nn/triton_based_modules.py
index 7794fa0..6fbf583 100644
--- a/bitsandbytes/nn/triton_based_modules.py
+++ b/bitsandbytes/nn/triton_based_modules.py
@@ -157,7 +157,7 @@ class SwitchBackLinear(nn.Linear):
             bias: bool = True,
             device=None,
             dtype=None,
-            vectorize: bool = False,
+            vector_wise_quantization: bool = False,
             mem_efficient : bool = False,
         ):
         super().__init__(in_features, out_features, bias, device, dtype)
@@ -167,11 +167,11 @@ class SwitchBackLinear(nn.Linear):
                                Alternatively, you can use bnb.nn.SwitchBackLinearBnb, but it will be slower''')
 
         # By default, we use the global quantization.
-        self.vectorize = vectorize
-        if self.vectorize:
+        self.vector_wise_quantization = vector_wise_quantization
+        if self.vector_wise_quantization:
             self._fn = _switchback_vectorrize
             if mem_efficient:
-                print('mem efficient is not supported for vectorize mode.')
+                print('mem efficient is not supported for vector-wise quantization.')
                 exit(1)
         else:
             if mem_efficient:
@@ -188,7 +188,7 @@ class SwitchBackLinear(nn.Linear):
         #         m.prepare_for_eval()
         # model.apply(cond_prepare)
         print('=> preparing for eval.')
-        if self.vectorize:
+        if self.vector_wise_quantization:
             W_int8, state_W = quantize_rowwise(self.weight)
         else:
             W_int8, state_W = quantize_global(self.weight)
@@ -210,7 +210,7 @@ class SwitchBackLinear(nn.Linear):
             X = x.view(-1, x.size(-1))
             X_int8, state_X = quantize_rowwise(X)
 
-            if self.vectorize:
+            if self.vector_wise_quantization:
                 return int8_matmul_rowwise_dequantize(
                     X_int8, self.W_int8.t(), state_X, self.state_W, self.bias
                 ).view(*x.size()[:-1], -1)
@@ -219,9 +219,9 @@ class SwitchBackLinear(nn.Linear):
                     X_int8, self.W_int8.t(), state_X, self.state_W, self.bias
                 ).view(*x.size()[:-1], -1)
 
-SwitchBackLinearGlobal = partial(SwitchBackLinear, vectorize=False)
-SwitchBackLinearGlobalMemEfficient = partial(SwitchBackLinear, vectorize=False, mem_efficient=True)
-SwitchBackLinearVectorized = partial(SwitchBackLinear, vectorize=True)
+SwitchBackLinearGlobal = partial(SwitchBackLinear, vector_wise_quantization=False)
+SwitchBackLinearGlobalMemEfficient = partial(SwitchBackLinear, vector_wise_quantization=False, mem_efficient=True)
+SwitchBackLinearVectorwise = partial(SwitchBackLinear, vector_wise_quantization=True)
 
 # This is just the standard linear function.
 class StandardLinearFunction(torch.autograd.Function):
diff --git a/setup.py b/setup.py
index e514463..009fd3d 100644
--- a/setup.py
+++ b/setup.py
@@ -18,7 +18,7 @@ def read(fname):
 
 setup(
     name=f"bitsandbytes",
-    version=f"0.38.0.post2",
+    version=f"0.38.1",
     author="Tim Dettmers",
     author_email="dettmers@cs.washington.edu",
     description="8-bit optimizers and matrix multiplication routines.",
diff --git a/tests/test_triton.py b/tests/test_triton.py
index 7f56a49..e18c7a9 100644
--- a/tests/test_triton.py
+++ b/tests/test_triton.py
@@ -1,19 +1,19 @@
 import pytest
 import torch
 
+from bitsandbytes.triton.triton_utils import is_triton_available
 from bitsandbytes.nn.triton_based_modules import SwitchBackLinear
 from bitsandbytes.nn import Linear8bitLt
 
-
-@pytest.mark.skipif(not torch.cuda.is_available() or not torch.cuda.get_device_capability()[0] >= 8, reason="This test requires a GPU with compute capability 8.0 or higher.")
-@pytest.mark.parametrize("vectorrize", [False, True])
-def test_switchback(vectorrize):
-    for dim in [83, 17, 128]:
-        for batch in [13, 128, 256]:
+@pytest.mark.skipif(not is_triton_available() or not torch.cuda.is_available() or not torch.cuda.get_device_capability()[0] >= 8,
+                    reason="This test requires triton and a GPU with compute capability 8.0 or higher.")
+@pytest.mark.parametrize("vector_wise_quantization", [False, True])
+def test_switchback(vector_wise_quantization):
+    for dim in [83]:
+        for batch in [13]:
 
             standard = torch.nn.Linear(dim, 4 * dim).cuda().half()
-            print('vectorrize', vectorrize)
-            switchback = SwitchBackLinear(dim, 4 * dim, vectorize=vectorrize).cuda().half()
+            switchback = SwitchBackLinear(dim, 4 * dim, vector_wise_quantization=vector_wise_quantization).cuda().half()
             baseline = Linear8bitLt(dim, 4 * dim).cuda().half()
             switchback.weight.data.copy_(standard.weight)
             switchback.bias.data.copy_(standard.bias)

From 7dc198feb7b68f08790823a06d42c7500ff446fa Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 17 Apr 2023 18:01:49 -0700
Subject: [PATCH 52/97] Added 32-bit optimizer for bfloat16 gradients.

---
 bitsandbytes/cextension.py |  2 +-
 bitsandbytes/functional.py | 89 +++++++++++++++-----------------------
 bitsandbytes/nn/modules.py |  7 +++
 csrc/kernels.cu            |  7 ++-
 csrc/ops.cu                |  1 +
 csrc/pythonInterface.c     | 10 +++--
 tests/test_optim.py        | 35 +++++----------
 7 files changed, 65 insertions(+), 86 deletions(-)

diff --git a/bitsandbytes/cextension.py b/bitsandbytes/cextension.py
index e2ca978..8adca93 100644
--- a/bitsandbytes/cextension.py
+++ b/bitsandbytes/cextension.py
@@ -23,7 +23,7 @@ try:
         CUDA Setup failed despite GPU being available. Inspect the CUDA SETUP outputs above to fix your environment!
         If you cannot find any issues and suspect a bug, please open an issue with detals about your environment:
         https://github.com/TimDettmers/bitsandbytes/issues''')
-    lib.cadam32bit_g32
+    lib.cadam_8bit_blockwise_fp32
     lib.get_context.restype = ct.c_void_p
     lib.get_cusparse.restype = ct.c_void_p
     COMPILED_WITH_CUDA = True
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index b168606..ff0eb7e 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -28,7 +28,7 @@ name2qmap = {}
 if COMPILED_WITH_CUDA:
     """C FUNCTIONS FOR OPTIMIZERS"""
     str2optimizer32bit = {}
-    str2optimizer32bit["adam"] = (lib.cadam32bit_g32, lib.cadam32bit_g16)
+    str2optimizer32bit["adam"] = (lib.cadam32bit_gfp32, lib.cadam32bit_gfp16, lib.cadam32bit_gbf16)
     str2optimizer32bit["momentum"] = (
         lib.cmomentum32bit_g32,
         lib.cmomentum32bit_g16,
@@ -41,11 +41,6 @@ if COMPILED_WITH_CUDA:
         lib.cadagrad32bit_g32,
         lib.cadagrad32bit_g16,
     )
-    str2optimizer32bit["lars"] = (
-        lib.cmomentum32bit_g32,
-        lib.cmomentum32bit_g16,
-    )
-    str2optimizer32bit["lamb"] = (lib.cadam32bit_g32, lib.cadam32bit_g16)
 
     str2optimizer8bit = {}
     str2optimizer8bit["adam"] = (
@@ -998,53 +993,37 @@ def optimizer_update_32bit(
     if max_unorm > 0.0:
         param_norm = torch.norm(p.data.float())
 
-    if optimizer_name not in str2optimizer32bit:
-        raise NotImplementedError(
-            f'Optimizer not implemented: {optimizer_name}. Choices: {",".join(str2optimizer32bit.keys())}'
-        )
 
-    if g.dtype == torch.float32 and state1.dtype == torch.float32:
-        str2optimizer32bit[optimizer_name][0](
-            get_ptr(g),
-            get_ptr(p),
-            get_ptr(state1),
-            get_ptr(state2),
-            get_ptr(unorm_vec),
-            ct.c_float(max_unorm),
-            ct.c_float(param_norm),
-            ct.c_float(beta1),
-            ct.c_float(beta2),
-            ct.c_float(eps),
-            ct.c_float(weight_decay),
-            ct.c_int32(step),
-            ct.c_float(lr),
-            ct.c_float(gnorm_scale),
-            ct.c_bool(skip_zeros),
-            ct.c_int32(g.numel()),
-        )
-    elif g.dtype == torch.float16 and state1.dtype == torch.float32:
-        str2optimizer32bit[optimizer_name][1](
-            get_ptr(g),
-            get_ptr(p),
-            get_ptr(state1),
-            get_ptr(state2),
-            get_ptr(unorm_vec),
-            ct.c_float(max_unorm),
-            ct.c_float(param_norm),
-            ct.c_float(beta1),
-            ct.c_float(beta2),
-            ct.c_float(eps),
-            ct.c_float(weight_decay),
-            ct.c_int32(step),
-            ct.c_float(lr),
-            ct.c_float(gnorm_scale),
-            ct.c_bool(skip_zeros),
-            ct.c_int32(g.numel()),
-        )
+    optim_func = None
+    if g.dtype == torch.float32:
+        optim_func = str2optimizer32bit[optimizer_name][0]
+    elif g.dtype == torch.float16:
+        optim_func = str2optimizer32bit[optimizer_name][1]
+    elif (g.dtype == torch.bfloat16 and len(str2optimizer32bit[optimizer_name])==3):
+        optim_func = str2optimizer32bit[optimizer_name][2]
     else:
-        raise ValueError(
-            f"Gradient+optimizer bit data type combination not supported: grad {g.dtype}, optimizer {state1.dtype}"
-        )
+        raise ValueError(f"Gradient+optimizer bit data type combination not supported: grad {g.dtype}, optimizer {state1.dtype}")
+
+    is_on_gpu([g, p, state1, state2, unorm_vec])
+    prev_device = pre_call(g.device)
+    optim_func(
+        get_ptr(g),
+        get_ptr(p),
+        get_ptr(state1),
+        get_ptr(state2),
+        get_ptr(unorm_vec),
+        ct.c_float(max_unorm),
+        ct.c_float(param_norm),
+        ct.c_float(beta1),
+        ct.c_float(beta2),
+        ct.c_float(eps),
+        ct.c_float(weight_decay),
+        ct.c_int32(step),
+        ct.c_float(lr),
+        ct.c_float(gnorm_scale),
+        ct.c_bool(skip_zeros),
+        ct.c_int32(g.numel()))
+    post_call(prev_device)
 
 
 def optimizer_update_8bit(
@@ -1199,12 +1178,12 @@ def optimizer_update_8bit_blockwise(
 
     optim_func = None
     if g.dtype == torch.float32 and state1.dtype == torch.uint8:
-        optimizer_func = str2optimizer8bit_blockwise[optimizer_name][0]
+        optim_func = str2optimizer8bit_blockwise[optimizer_name][0]
     elif g.dtype == torch.float16 and state1.dtype == torch.uint8:
-        optimizer_func = str2optimizer8bit_blockwise[optimizer_name][1]
+        optim_func = str2optimizer8bit_blockwise[optimizer_name][1]
     elif (g.dtype == torch.bfloat16 and state1.dtype == torch.uint8 and
           len(str2optimizer8bit_blockwise[optimizer_name])==3):
-        optimizer_func = str2optimizer8bit_blockwise[optimizer_name][2]
+        optim_func = str2optimizer8bit_blockwise[optimizer_name][2]
     else:
         raise ValueError(
             f"Gradient+optimizer bit data type combination not supported: grad {g.dtype}, optimizer {state1.dtype}"
@@ -1213,7 +1192,7 @@ def optimizer_update_8bit_blockwise(
     is_on_gpu([p, g, state1, state2, qmap1, qmap2, absmax1, absmax2])
 
     prev_device = pre_call(g.device)
-    optimizer_func(
+    optim_func(
         get_ptr(p),
         get_ptr(g),
         get_ptr(state1),
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index ab16e01..24f5070 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -178,6 +178,13 @@ class Params4bit(torch.nn.Parameter):
                 s[0] = s[0].to(device)
                 if self.compress_statistics:
                     # TODO: refactor this. This is a nightmare
+                    # for 4-bit: 
+                    # state = [qabsmax, input_shape, A.dtype, blocksize, [offset, state2], quant_type]
+                    # state2 = [absmax, input_shape, A.dtype, blocksize, None, quant_type]
+                    #s[-2][0] = s[-2][0].to(device) # offset
+                    #s[-2][1][0] = s[-2][1][0].to(device) # nested absmax
+
+                    # for 8-bit
                     s[-2][0] = s[-2][0].to(device) # offset
                     s[-2][1][0] = s[-2][1][0].to(device) # nested quantiation state statitics
                     s[-2][1][1] = s[-2][1][1].to(device) # nested quantiation codebook
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index c35acc8..2d940be 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2981,12 +2981,15 @@ template __global__ void kPreconditionOptimizer32bit2State<gtype, oname, 4096, 8
                 const float beta1, const float beta2, const float eps, const float weight_decay, \
                 const int step, const float lr, const float gnorm_scale, const int n); \
 
-MAKE_PreconditionOptimizer32bit2State(ADAM, half)
 MAKE_PreconditionOptimizer32bit2State(ADAM, float)
+MAKE_PreconditionOptimizer32bit2State(ADAM, half)
+MAKE_PreconditionOptimizer32bit2State(ADAM, __nv_bfloat16)
 
+template __global__ void kOptimizer32bit2State<float, ADAM>(float* g, float* p, float* state1, float* state2, float *unorm, const float max_unorm, const float param_norm,
+    const float beta1, const float beta2, const float eps, const float weight_decay,const int step, const float lr, const float gnorm_scale, const bool skip_zeros, const int n);
 template __global__ void kOptimizer32bit2State<half, ADAM>(half* g, half* p, float* state1, float* state2, float *unorm, const float max_unorm, const float param_norm,
     const float beta1, const float beta2, const float eps, const float weight_decay,const int step, const float lr, const float gnorm_scale, const bool skip_zeros, const int n);
-template __global__ void kOptimizer32bit2State<float, ADAM>(float* g, float* p, float* state1, float* state2, float *unorm, const float max_unorm, const float param_norm,
+template __global__ void kOptimizer32bit2State<__nv_bfloat16, ADAM>(__nv_bfloat16* g, __nv_bfloat16* p, float* state1, float* state2, float *unorm, const float max_unorm, const float param_norm,
     const float beta1, const float beta2, const float eps, const float weight_decay,const int step, const float lr, const float gnorm_scale, const bool skip_zeros, const int n);
 
 #define MAKE_PreconditionStatic8bit1State(oname, gtype) \
diff --git a/csrc/ops.cu b/csrc/ops.cu
index de14039..76777ae 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -703,6 +703,7 @@ template void optimizer32bit<gtype, name>(gtype* g, gtype* p, \
 
 MAKE_optimizer32bit(ADAM, half)
 MAKE_optimizer32bit(ADAM, float)
+MAKE_optimizer32bit(ADAM, __nv_bfloat16)
 MAKE_optimizer32bit(MOMENTUM, half)
 MAKE_optimizer32bit(MOMENTUM, float)
 MAKE_optimizer32bit(RMSPROP, half)
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index d169178..0e9106c 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -29,8 +29,9 @@ void fname##32bit_g##gbits(gtype *g, gtype *p, \
 
 MAKE_FUNC32(momentum, MOMENTUM, float, 32)
 MAKE_FUNC32(momentum, MOMENTUM, half, 16)
-MAKE_FUNC32(adam, ADAM, float, 32)
-MAKE_FUNC32(adam, ADAM, half, 16)
+MAKE_FUNC32(adam, ADAM, float, fp32)
+MAKE_FUNC32(adam, ADAM, half, fp16)
+MAKE_FUNC32(adam, ADAM, __nv_bfloat16, bf16)
 MAKE_FUNC32(rmsprop, RMSPROP, float, 32)
 MAKE_FUNC32(rmsprop, RMSPROP, half, 16)
 MAKE_FUNC32(adagrad, ADAGRAD, float, 32)
@@ -173,8 +174,9 @@ extern "C"
 								 const int step, const float lr, const float gnorm_scale, bool skip_zeros, const int n) \
 	{ name##32bit_g##gbits(g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, skip_zeros, n); } \
 
-	MAKE_CFUNC32(adam, float, 32)
-	MAKE_CFUNC32(adam, half, 16)
+	MAKE_CFUNC32(adam, float, fp32)
+	MAKE_CFUNC32(adam, half, fp16)
+	MAKE_CFUNC32(adam, __nv_bfloat16, bf16)
 	MAKE_CFUNC32(momentum, float, 32)
 	MAKE_CFUNC32(momentum, half, 16)
 	MAKE_CFUNC32(rmsprop, float, 32)
diff --git a/tests/test_optim.py b/tests/test_optim.py
index 83390a4..a13b332 100644
--- a/tests/test_optim.py
+++ b/tests/test_optim.py
@@ -44,10 +44,6 @@ str2optimizers["momentum"] = (
     lambda pxx: torch.optim.SGD(pxx, 0.01, 0.9),
     lambda pxx: bnb.optim.SGD(pxx, 0.01, 0.9, block_wise=False),
 )
-str2optimizers["lars"] = (
-    lambda pxx: bnb.optim.PytorchLARS(pxx, 0.01, 0.9),
-    lambda pxx: bnb.optim.LARS(pxx, 0.01, 0.9),
-)
 str2optimizers["rmsprop"] = (
     lambda pxx: torch.optim.RMSprop(pxx, 0.01, 0.9),
     lambda pxx: bnb.optim.RMSprop(pxx, 0.01, 0.9, block_wise=False),
@@ -64,10 +60,6 @@ str2optimizers["rmsprop8bit"] = (
     lambda pxx: torch.optim.RMSprop(pxx, 0.01, 0.9),
     lambda pxx: bnb.optim.RMSprop8bit(pxx, 0.01, 0.9, block_wise=False),
 )
-str2optimizers["lars8bit"] = (
-    lambda pxx: bnb.optim.PytorchLARS(pxx, 0.01, 0.9),
-    lambda pxx: bnb.optim.LARS8bit(pxx, 0.01, 0.9),
-)
 
 str2optimizers["adam8bit_blockwise"] = (
     torch.optim.Adam,
@@ -85,7 +77,6 @@ str2optimizers["rmsprop8bit_blockwise"] = (
 str2statenames = {}
 str2statenames["adam"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
 str2statenames["momentum"] = [("momentum_buffer", "state1")]
-str2statenames["lars"] = [("momentum_buffer", "state1")]
 str2statenames["lamb"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
 str2statenames["rmsprop"] = [("square_avg", "state1")]
 str2statenames["adam8bit"] = [
@@ -106,7 +97,6 @@ str2statenames["momentum8bit"] = [
 str2statenames["momentum8bit_blockwise"] = [
     ("momentum_buffer", "state1", "qmap1", "absmax1")
 ]
-str2statenames["lars8bit"] = [("momentum_buffer", "state1", "qmap1", "max1")]
 str2statenames["rmsprop8bit"] = [("square_avg", "state1", "qmap1", "max1")]
 str2statenames["rmsprop8bit_blockwise"] = [
     ("square_avg", "state1", "qmap1", "absmax1")
@@ -114,14 +104,10 @@ str2statenames["rmsprop8bit_blockwise"] = [
 
 dim1 = [1024]
 dim2 = [32, 1024, 4097, 1]
-gtype = [torch.float32, torch.float16]
-optimizer_names = ["adam", "momentum", "rmsprop", "lars"]
+gtype = [torch.float32, torch.float16, torch.bfloat16]
+optimizer_names = ["adam", "momentum", "rmsprop"]
 values = list(product(dim1, dim2, gtype, optimizer_names))
-names = [
-    "dim1_{}_dim2_{}_gtype_{}_optim_{}".format(*vals) for vals in values
-]
-
-
+names = ["dim1_{}_dim2_{}_gtype_{}_optim_{}".format(*vals) for vals in values]
 @pytest.mark.parametrize("dim1, dim2, gtype, optim_name", values, ids=names)
 def test_optimizer32bit(dim1, dim2, gtype, optim_name):
     if dim1 == 1 and dim2 == 1:
@@ -135,6 +121,8 @@ def test_optimizer32bit(dim1, dim2, gtype, optim_name):
 
     if gtype == torch.float32:
         atol, rtol = 1e-6, 1e-5
+    elif gtype == torch.bfloat16:
+        atol, rtol = 1e-3, 1e-2
     else:
         atol, rtol = 1e-4, 1e-3
 
@@ -173,14 +161,14 @@ def test_optimizer32bit(dim1, dim2, gtype, optim_name):
                     rtol=rtol,
                 )
 
-        if gtype == torch.float16:
+        if gtype != torch.float32:
             # the adam buffers should also be close because they are 32-bit
             # but the paramters can diverge because they are 16-bit
             # the difference grow larger and larger with each update
             # --> copy the state to keep weights close
-            p1.data = p1.data.half().float()
+            p1.data = p1.data.to(p2.dtype).float()
             p2.copy_(p1.data)
-            torch.testing.assert_allclose(p1.half(), p2)
+            torch.testing.assert_allclose(p1.to(p2.dtype), p2)
         if optim_name in ["lars", "lamb"]:
             assert bnb_optimizer.state[p2]["unorm_vec"] > 0.0
 
@@ -246,7 +234,6 @@ optimizer_names = [
     "momentum8bit",
     "rmsprop8bit",
     "adam8bit_blockwise",
-    "lars8bit",
     "momentum8bit_blockwise",
     "rmsprop8bit_blockwise",
 ]
@@ -321,10 +308,10 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
         relerr = err / torch.abs(p1)
         if g.dtype == torch.bfloat16:
             assert err.mean() < 0.00015
-            assert relerr.mean() < 0.0015
+            assert relerr.mean() < 0.0016
         else:
-            assert err.mean() < 0.0001
-            assert relerr.mean() < 0.001
+            assert err.mean() < 0.00012
+            assert relerr.mean() < 0.0012
 
         errors.append(err.mean().item())
         relerrors.append(relerr.mean().item())

From 0f9d30207f7a86c6be17f8fd897f0716db32cdfd Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 19 Apr 2023 11:48:47 -0700
Subject: [PATCH 53/97] Added nested quantization for blockwise quantization.

---
 bitsandbytes/functional.py | 25 +++++++++----
 tests/test_functional.py   | 72 ++++++++++++++++++++------------------
 2 files changed, 55 insertions(+), 42 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index ff0eb7e..eb49800 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -541,7 +541,7 @@ def estimate_quantiles(A: Tensor, out: Tensor = None, offset: float = 1 / 512, n
     return out
 
 
-def quantize_blockwise(A: Tensor, code: Tensor = None, absmax: Tensor = None, rand=None, out: Tensor = None, blocksize=4096) -> Tensor:
+def quantize_blockwise(A: Tensor, code: Tensor = None, absmax: Tensor = None, rand=None, out: Tensor = None, blocksize=4096, nested=False) -> Tensor:
     """
     Quantize tensor A in blocks of size 4096 values.
 
@@ -586,7 +586,7 @@ def quantize_blockwise(A: Tensor, code: Tensor = None, absmax: Tensor = None, ra
         out = torch.zeros_like(A, dtype=torch.uint8)
 
     if A.device.type != 'cpu':
-        assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64, 32]
+        assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64]
         cblocksize = ct.c_int32(blocksize)
         prev_device = pre_call(A.device)
         code = code.to(A.device)
@@ -616,7 +616,15 @@ def quantize_blockwise(A: Tensor, code: Tensor = None, absmax: Tensor = None, ra
         assert rand is None
         lib.cquantize_blockwise_cpu_fp32(get_ptr(code), get_ptr(A), get_ptr(absmax), get_ptr(out), ct.c_longlong(blocksize), ct.c_longlong(A.numel()))
 
-    state = [absmax, code, blocksize]
+    if nested:
+        offset = absmax.mean()
+        absmax -= offset
+        qabsmax, state2 = quantize_blockwise(absmax, blocksize=blocksize, nested=False)
+        state = [qabsmax, code, blocksize, nested, offset, state2]
+    else:
+        state = [absmax, code, blocksize, nested, None, None]
+
+
 
     return out, state
 
@@ -628,6 +636,7 @@ def dequantize_blockwise(
     code: Tensor = None,
     out: Tensor = None,
     blocksize: int = 4096,
+    nested=False
 ) -> Tensor:
     """
     Dequantizes blockwise quantized values.
@@ -665,13 +674,15 @@ def dequantize_blockwise(
     if quant_state is None:
         quant_state = (absmax, code, blocksize)
     else:
-        absmax, code, blocksize = quant_state
-
+        absmax, code, blocksize, nested, offset, state2 = quant_state
+        if nested:
+            absmax = dequantize_blockwise(absmax, state2)
+            absmax += offset
 
     if A.device.type != 'cpu':
         device = pre_call(A.device)
         code = code.to(A.device)
-        if blocksize not in [2048, 4096, 1024, 512, 256, 128, 64, 32]:
+        if blocksize not in [2048, 4096, 1024, 512, 256, 128, 64]:
             raise ValueError(f"The blockwise of {blocksize} is not supported. Supported values: [2048, 4096, 1024, 512, 256, 128, 64]")
         is_on_gpu([A, absmax, out])
         if out.dtype == torch.float32:
@@ -736,7 +747,7 @@ def quantize_4bit(A: Tensor, absmax: Tensor = None, out: Tensor = None, blocksiz
     if out is None:
         out = torch.zeros(((n+1)//2, 1), dtype=torch.uint8, device=A.device)
 
-    assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64, 32]
+    assert blocksize in [4096, 2048, 1024, 512, 256, 128, 64]
 
     prev_device = pre_call(A.device)
     is_on_gpu([A, out, absmax])
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 61ea712..82f6a71 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -150,42 +150,44 @@ def test_dynamic_quantization():
         assert diff < 0.004
 
 
-def test_dynamic_blockwise_quantization():
-    #print('')
-    for blocksize in [4096, 2048, 1024, 512, 256, 128, 64, 32]:
-        diffs = []
-        reldiffs = []
-        for i in range(100):
-            A1 = torch.randn(1024, 1024, device="cuda")
-            C, S = F.quantize_blockwise(A1, blocksize=blocksize)
-            A2 = F.dequantize_blockwise(C, S, blocksize=blocksize)
-            diff = torch.abs(A1 - A2)
-            reldiff = diff / torch.abs(A1 + 1e-8)
-            diffs.append(diff.mean().item())
-            reldiffs.append(reldiff.mean().item())
-        abserr = sum(diffs)/len(diffs)
-        relerr = sum(reldiffs)/len(reldiffs)
-        assert abserr < 0.011
-        assert relerr < 0.018
-        #print('randn', blocksize, sum(diffs)/len(diffs))
-        #print('randn', blocksize, sum(reldiffs)/len(reldiffs))
 
-        diffs = []
-        for i in range(100):
-            A1 = torch.rand(1024, 1024, device="cuda")
-            C, S = F.quantize_blockwise(A1, blocksize=blocksize)
-            A2 = F.dequantize_blockwise(C, S, blocksize=blocksize)
-            diff = torch.abs(A1 - A2)
-            reldiff = diff / torch.abs(A1 + 1e-8)
-            diffs.append(diff.mean().item())
-            reldiffs.append(reldiff.mean().item())
-            #torch.testing.assert_allclose(A1, A2, atol=1e-2, rtol=0)
-        abserr = sum(diffs)/len(diffs)
-        relerr = sum(reldiffs)/len(reldiffs)
-        assert abserr < 0.0035
-        assert relerr < 0.015
-        #print('rand', blocksize, sum(diffs)/len(diffs))
-        #print('rand', blocksize, sum(reldiffs)/len(reldiffs))
+@pytest.mark.parametrize("nested", [False, True], ids=["False", "True"])
+@pytest.mark.parametrize("blocksize", [4096, 2048, 1024, 512, 256, 128, 64])
+def test_dynamic_blockwise_quantization(nested, blocksize):
+    #print('')
+    diffs = []
+    reldiffs = []
+    for i in range(100):
+        A1 = torch.randn(1024, 1024, device="cuda")
+        C, S = F.quantize_blockwise(A1, blocksize=blocksize, nested=nested)
+        A2 = F.dequantize_blockwise(C, S)
+        diff = torch.abs(A1 - A2)
+        reldiff = diff / torch.abs(A1 + 1e-8)
+        diffs.append(diff.mean().item())
+        reldiffs.append(reldiff.mean().item())
+    abserr = sum(diffs)/len(diffs)
+    relerr = sum(reldiffs)/len(reldiffs)
+    assert abserr < 0.011
+    assert relerr < 0.018
+    print('nested=', nested, 'randn', blocksize, sum(diffs)/len(diffs))
+    print('nested=', nested, 'randn', blocksize, sum(reldiffs)/len(reldiffs))
+
+    diffs = []
+    for i in range(100):
+        A1 = torch.rand(1024, 1024, device="cuda")
+        C, S = F.quantize_blockwise(A1, blocksize=blocksize, nested=nested)
+        A2 = F.dequantize_blockwise(C, S)
+        diff = torch.abs(A1 - A2)
+        reldiff = diff / torch.abs(A1 + 1e-8)
+        diffs.append(diff.mean().item())
+        reldiffs.append(reldiff.mean().item())
+        #torch.testing.assert_allclose(A1, A2, atol=1e-2, rtol=0)
+    abserr = sum(diffs)/len(diffs)
+    relerr = sum(reldiffs)/len(reldiffs)
+    assert abserr < 0.0035
+    assert relerr < 0.015
+    print('nested=', nested, 'rand', blocksize, sum(diffs)/len(diffs))
+    print('nested=', nested, 'rand', blocksize, sum(reldiffs)/len(reldiffs))
 
 
 def test_dynamic_blockwise_stochastic_quantization():

From 6bfd7a405f7ccea4c40fb54c8fd0c179984ac506 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 25 Apr 2023 16:13:43 -0700
Subject: [PATCH 54/97] Initial template.

---
 Makefile         | 13 ++++++++++++-
 csrc/kernels.cu  | 25 +++++++++++++++++++++++++
 csrc/kernels.cuh |  2 ++
 csrc/ops.cu      | 12 ++++++++++++
 csrc/ops.cuh     |  2 ++
 5 files changed, 53 insertions(+), 1 deletion(-)

diff --git a/Makefile b/Makefile
index e114160..a377f65 100644
--- a/Makefile
+++ b/Makefile
@@ -25,6 +25,7 @@ FILES_CPP := $(CSRC)/common.cpp $(CSRC)/cpu_ops.cpp $(CSRC)/pythonInterface.c
 
 INCLUDE :=  -I $(CUDA_HOME)/include -I $(ROOT_DIR)/csrc -I $(CONDA_PREFIX)/include -I $(ROOT_DIR)/include
 INCLUDE_10x :=  -I $(CUDA_HOME)/include -I $(ROOT_DIR)/csrc -I $(ROOT_DIR)/dependencies/cub -I $(ROOT_DIR)/include
+INCLUDE_cutlass :=  -I $(ROOT_DIR)/dependencies/cutlass/include
 LIB := -L $(CUDA_HOME)/lib64 -lcudart -lcublas -lcublasLt -lcurand -lcusparse -L $(CONDA_PREFIX)/lib
 
 # NVIDIA NVCC compilation flags
@@ -61,7 +62,7 @@ CC_ADA_HOPPER += -gencode arch=compute_90,code=sm_90
 
 
 all: $(BUILD_DIR) env
-	$(NVCC) $(CC_CUDA11x) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR)
+	$(NVCC) $(CC_CUDA11x) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) 
 	$(NVCC) $(CC_CUDA11x) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
@@ -100,6 +101,11 @@ cuda11x: $(BUILD_DIR) env
 	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
+cuda11x_cutlass: $(BUILD_DIR) env cutlass
+	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(INCLUDE_cutlass) $(LIB) --output-directory $(BUILD_DIR)
+	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
+	$(GPP) -std=c++20 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
+
 cuda12x: $(BUILD_DIR) env
 	$(NVCC) $(CC_cublasLt111) $(CC_ADA_HOPPER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR)
 	$(NVCC) $(CC_cublasLt111) $(CC_ADA_HOPPER) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
@@ -121,6 +127,11 @@ env:
 	@echo "LD_LIBRARY_PATH: $(LD_LIBRARY_PATH)"
 	@echo "============================"
 
+cutlass:
+	if [ ! -d "$(ROOT_DIR)/dependencies/cutlass" ]; then \
+		git clone https://github.com/NVIDIA/cutlass.git $(ROOT_DIR)/dependencies/cutlass; \
+	fi \
+
 $(BUILD_DIR):
 	mkdir -p build
 	mkdir -p dependencies
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 2d940be..5d2a58e 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2919,10 +2919,35 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 	}
 }
 
+
+template <int QUANT_TYPE, typename INPT, typename COMPT, typename OUTT> __global__ void kMatmul_inference_4bit(INPT *A, unsigned char *B, OUTT *out, int lda, int ldb, int rowsA, int colsA, int colsB)
+{
+// element-wise kernel
+// 1. Load batch x k into registers
+// 2. Load k x k into registers
+// 3. dequantize and store in second pair of k x k
+// 4. matmul
+// 5. sum with cub
+// 6. store outputs
+// TC kernel
+// use k warps per thread block
+// 1. threadblock use read-only cache to read in register tile for A into shared memory
+// 2. each warp loops over shared memory tiles of A of size 8x16 and loads them into fragments
+// 3. each warp reads a segment of values 16x32 from B 
+// 4. do dequantization from register of B into second pair of registers
+// 5. store (4) into fragment
+// 6. matmul aggregate into fragment C
+// 7. aggreecate files of C into shared memroy block C
+// 8. sum (7)
+// 9. write outputs to matmul output matrix
+}
+
+
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================
 
+template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
 template __global__ void kExtractOutliers<COL_TURING>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 template __global__ void kExtractOutliers<COL_AMPERE>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index ed549cb..ecf3a09 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -9,6 +9,8 @@
 #ifndef kernels
 #define kernels
 
+template <int QUANT_TYPE, typename INP_TYPE, typename COMP_TYPE, typename OUT_TYPE>__global__ void kMatmul_inference_4bit(INP_TYPE *A, unsigned char *B, OUT_TYPE *out, int lda, int ldb, int rowsA, int colsA, int colsB);
+
 template<typename T>__global__ void kEstimateQuantiles(T *__restrict__ const A, float *code, const float offset, const T max_val, const int n);
 
 __global__ void kQuantize(float * code, float * __restrict__ const A, unsigned char *out, const int n);
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 76777ae..022f397 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -90,6 +90,17 @@ template<typename T, int DATA_TYPE> void dequantizeBlockwise(float *code, unsign
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
 
+
+void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB)
+{
+	int num_blocks = (colsB+32-1)/32;
+	kMatmul_inference_4bit<NF4, half, half, half><<<num_blocks, 256>>>(A, B, out, lda, ldb, rowsA, colsA, colsB);
+  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+}
+
+template <int QUANT_TYPE, typename INP_TYPE, typename COMP_TYPE, typename OUT_TYPE>__global__ void kMatmul_inference_4bit(INP_TYPE *A, unsigned char *B, OUT_TYPE *C, int lda, int ldb, int rowsA, int colsA, int colsB);
+
+
 template<typename T, int OPTIMIZER> void optimizer32bit(T* g, T* p,
                 float* state1, float* state2, float *unorm, float max_unorm, float param_norm,
                 const float beta1, const float beta2, const float eps, const float weight_decay,
@@ -653,6 +664,7 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
 
+
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index f73d4e0..137320b 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -183,4 +183,6 @@ template <typename T, int BITS> void spmm_coo_very_sparse_naive(int *max_count,
 
 template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 
+void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB);
+
 #endif

From 6e2544da251ccf281d5d88611d2cb5c13bcf42a6 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 25 Apr 2023 16:15:44 -0700
Subject: [PATCH 55/97] Added cutlass example.

---
 csrc/kernels.cu | 134 ++++++++++++++++++++++++++++++++++++++++++++++++
 csrc/ops.cu     |  57 ++++++++++++++++++++
 2 files changed, 191 insertions(+)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 5d2a58e..a108772 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2942,6 +2942,140 @@ template <int QUANT_TYPE, typename INPT, typename COMPT, typename OUTT> __global
 // 9. write outputs to matmul output matrix
 }
 
+#include "cutlass/util/print_error.hpp"
+#include "cutlass/util/GPU_Clock.hpp"
+#if defined(CUTLASS_ENABLE_CUBLAS) && CUTLASS_ENABLE_CUBLAS != 0
+#  include "cutlass/util/cublas_wrappers.hpp"
+#endif
+#include "cutlass/util/helper_cuda.hpp"
+
+template <class MShape, class NShape, class KShape,
+          class TA, class AStride, class ABlockLayout, class AThreadLayout,
+          class TB, class BStride, class BBlockLayout, class BThreadLayout,
+          class TC, class CStride, class CBlockLayout, class CThreadLayout,
+          class Alpha, class Beta>
+__global__ static
+__launch_bounds__(decltype(size(CThreadLayout{}))::value)
+void
+gemm_device(MShape M, NShape N, KShape K,
+            TA const* A, AStride dA, ABlockLayout blockA, AThreadLayout tA,
+            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
+            TC      * C, CStride dC, CBlockLayout       , CThreadLayout tC,
+            Alpha alpha, Beta beta)
+{
+  using namespace cute;
+  using X = Underscore;
+
+  // Preconditions
+  CUTE_STATIC_ASSERT(is_static<ABlockLayout>::value);
+  CUTE_STATIC_ASSERT(is_static<BBlockLayout>::value);
+  CUTE_STATIC_ASSERT(is_static<CBlockLayout>::value);
+
+  CUTE_STATIC_ASSERT(is_static<AThreadLayout>::value);
+  CUTE_STATIC_ASSERT(is_static<BThreadLayout>::value);
+  CUTE_STATIC_ASSERT(is_static<CThreadLayout>::value);
+
+  CUTE_STATIC_ASSERT_V(size(tA) == size(tC));
+  CUTE_STATIC_ASSERT_V(size(tB) == size(tC));
+
+  //CUTE_STATIC_ASSERT_V(shape<0>(blockA) == shape<0>(blockC));      // BLK_M
+  //CUTE_STATIC_ASSERT_V(shape<0>(blockB) == shape<1>(blockC));      // BLK_N
+  CUTE_STATIC_ASSERT_V(shape<1>(blockA) == shape<1>(blockB));        // BLK_K
+
+  // Shared memory buffers
+  __shared__ TA smemA[cosize_v<ABlockLayout>];
+  __shared__ TB smemB[cosize_v<BBlockLayout>];
+  auto sA = make_tensor(make_smem_ptr(smemA), blockA);               // (BLK_M,BLK_K)
+  auto sB = make_tensor(make_smem_ptr(smemB), blockB);               // (BLK_N,BLK_K)
+
+  // Represent the full tensors
+  auto mA = make_tensor(make_gmem_ptr(A), make_shape(M,K), dA);      // (M,K)
+  auto mB = make_tensor(make_gmem_ptr(B), make_shape(N,K), dB);      // (N,K)
+  auto mC = make_tensor(make_gmem_ptr(C), make_shape(M,N), dC);      // (M,N)
+
+  // Get the appropriate blocks for this thread block --
+  // potential for thread block locality
+  auto blk_shape = make_shape(size<0>(sA), size<0>(sB), size<1>(sB));// (BLK_M,BLK_N,BLK_K)
+  auto blk_coord = make_coord(blockIdx.x, blockIdx.y, _);            // (m,n,k)
+
+  auto gA = local_tile(mA, blk_shape, blk_coord, Step<_1, X,_1>{});  // (BLK_M,BLK_K,k)
+  auto gB = local_tile(mB, blk_shape, blk_coord, Step< X,_1,_1>{});  // (BLK_N,BLK_K,k)
+  auto gC = local_tile(mC, blk_shape, blk_coord, Step<_1,_1, X>{});  // (BLK_M,BLK_N)
+
+  //
+  // Partition the copying of A and B tiles across the threads
+  //
+
+  // TUTORIAL: Example of simple partitioning of A|B tiles over tA|tB
+  //   Default is a raked partition, but can be changed with Step<X,Y> parameter
+
+  auto tAgA = local_partition(gA, tA, threadIdx.x);                  // (THR_M,THR_K,k)
+  auto tAsA = local_partition(sA, tA, threadIdx.x);                  // (THR_M,THR_K)
+
+  auto tBgB = local_partition(gB, tB, threadIdx.x);                  // (THR_N,THR_K,k)
+  auto tBsB = local_partition(sB, tB, threadIdx.x);                  // (THR_N,THR_K)
+
+  //
+  // Define C accumulators and A/B partitioning
+  //
+
+  // TUTORIAL: Example of partitioning via projections of tC
+
+  // Partition sA (M,K) by the rows of tC
+  auto tCsA = local_partition(sA, tC, threadIdx.x, Step<_1, X>{});   // (THR_M,BLK_K)
+  // Partition sB (N,K) by the cols of tC
+  auto tCsB = local_partition(sB, tC, threadIdx.x, Step< X,_1>{});   // (THR_N,BLK_K)
+  // Partition gC (M,N) by the tile of tC
+  auto tCgC = local_partition(gC, tC, threadIdx.x, Step<_1,_1>{});   // (THR_M,THR_N)
+
+  // Allocate the accumulators -- same size as the projected data
+  auto tCrC = make_fragment_like(tCgC);                              // (THR_M,THR_N)
+
+  // Clear the accumulators
+  clear(tCrC);
+
+#if 1
+
+  // TUTORIAL: Example of a very simple compute loop
+  //   Data is read from global to shared memory via the tA|tB partitioning
+  //   gemm(.) operates on the shared memory directly via the tC partitioning
+
+  auto k_max = size<2>(tAgA);
+
+  for (int k = 0; k < k_max; ++k)
+  {
+    // Copy gmem to smem
+    copy(tAgA(_,_,k), tAsA);
+    copy(tBgB(_,_,k), tBsB);
+
+    // In case copy uses cp.async, make sure that the cp.async
+    // instructions are ordered with respect to other cp.async
+    // instructions (fence), then wait on all the outstanding copy
+    // operations (wait<0>()).  __syncthreads() alone does not do
+    // this.
+    //
+    // NOTE: cp_async_wait<0>() currently issues cp.async.wait_all.
+    // This is equivalent to cp.async.commit_group followed by
+    // cp.async_wait_group 0.  This should make the first
+    // cp_async_fence() (which also issues cp.async.commit_group)
+    // redundant.  The tutorial works as-is, so we'll leave the
+    // redundant fence in for now and study its removal later.
+    cp_async_fence();
+    cp_async_wait<0>();
+
+    __syncthreads();
+
+    // Compute gemm on smem
+    gemm(tCsA, tCsB, tCrC);
+
+    __syncthreads();
+  }
+
+#endif
+
+  axpby(alpha, tCrC, beta, tCgC);
+}
+
 
 //==============================================================
 //                   TEMPLATE DEFINITIONS
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 022f397..1204cbd 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -665,6 +665,63 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 }
 
 
+
+#include <thrust/host_vector.h>
+#include <thrust/device_vector.h>
+
+#include <cute/tensor.hpp>
+
+template <typename TA, typename TB, typename TC,
+          typename Alpha, typename Beta>
+void
+gemm(int m, int n, int k,
+     Alpha alpha,
+     TA const* A, int ldA,
+     TB const* B, int ldB,
+     Beta beta,
+     TC      * C, int ldC,
+     cudaStream_t stream = 0)
+{
+  using namespace cute;
+
+  // Define shapes (dynamic)
+  auto M = int(m);
+  auto N = int(n);
+  auto K = int(k);
+
+  // Define strides (mixed)
+  auto dA = make_stride(Int<1>{}, ldA);
+  auto dB = make_stride(Int<1>{}, ldB);
+  auto dC = make_stride(Int<1>{}, ldC);
+
+  // Define block sizes (static)
+  auto bM = Int<128>{};
+  auto bN = Int<128>{};
+  auto bK = Int<  8>{};
+
+  // Define the block layouts (static)
+  auto sA = make_layout(make_shape(bM,bK));
+  auto sB = make_layout(make_shape(bN,bK));
+  auto sC = make_layout(make_shape(bM,bN));
+
+  // Define the thread layouts (static)
+  auto tA = make_layout(make_shape(Int<32>{}, Int< 8>{}));
+  auto tB = make_layout(make_shape(Int<32>{}, Int< 8>{}));
+  auto tC = make_layout(make_shape(Int<16>{}, Int<16>{}));
+
+  dim3 dimBlock(size(tC));
+  dim3 dimGrid(ceil_div(size(M), size(bM)),
+               ceil_div(size(N), size(bN)));
+  gemm_device
+      <<< dimGrid, dimBlock, 0, stream >>>
+      (M,  N,  K,
+       A, dA, sA, tA,
+       B, dB, sB, tB,
+       C, dC, sC, tC,
+       alpha, beta);
+}
+
+
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================

From 84964db93789c66fbe8b2c150fb1f9f953781137 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 25 Apr 2023 17:15:51 -0700
Subject: [PATCH 56/97] CUTLASS compiles.

---
 Makefile                   |  7 ++++---
 bitsandbytes/functional.py |  4 ++--
 bitsandbytes/nn/modules.py |  1 +
 csrc/kernels.cu            | 18 ++++++++++++------
 csrc/ops.cu                |  4 +---
 5 files changed, 20 insertions(+), 14 deletions(-)

diff --git a/Makefile b/Makefile
index a377f65..7e8be41 100644
--- a/Makefile
+++ b/Makefile
@@ -1,7 +1,8 @@
 MKFILE_PATH := $(abspath $(lastword $(MAKEFILE_LIST)))
 ROOT_DIR := $(patsubst %/,%,$(dir $(MKFILE_PATH)))
 
-GPP:= /usr/bin/g++
+#GPP:= /usr/bin/g++
+GPP:= /sw/gcc/11.2.0/bin/g++
 ifeq ($(CUDA_HOME),)
 	CUDA_HOME:= $(shell which nvcc | rev | cut -d'/' -f3- | rev)
 endif
@@ -25,7 +26,7 @@ FILES_CPP := $(CSRC)/common.cpp $(CSRC)/cpu_ops.cpp $(CSRC)/pythonInterface.c
 
 INCLUDE :=  -I $(CUDA_HOME)/include -I $(ROOT_DIR)/csrc -I $(CONDA_PREFIX)/include -I $(ROOT_DIR)/include
 INCLUDE_10x :=  -I $(CUDA_HOME)/include -I $(ROOT_DIR)/csrc -I $(ROOT_DIR)/dependencies/cub -I $(ROOT_DIR)/include
-INCLUDE_cutlass :=  -I $(ROOT_DIR)/dependencies/cutlass/include
+INCLUDE_cutlass :=  -I $(ROOT_DIR)/dependencies/cutlass/include -I $(ROOT_DIR)/dependencies/cutlass/tools/util/include/ -I $(ROOT_DIR)/dependencies/cutlass/include/cute/util/
 LIB := -L $(CUDA_HOME)/lib64 -lcudart -lcublas -lcublasLt -lcurand -lcusparse -L $(CONDA_PREFIX)/lib
 
 # NVIDIA NVCC compilation flags
@@ -104,7 +105,7 @@ cuda11x: $(BUILD_DIR) env
 cuda11x_cutlass: $(BUILD_DIR) env cutlass
 	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(INCLUDE_cutlass) $(LIB) --output-directory $(BUILD_DIR)
 	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
-	$(GPP) -std=c++20 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
+	$(GPP) -std=c++17 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
 cuda12x: $(BUILD_DIR) env
 	$(NVCC) $(CC_cublasLt111) $(CC_ADA_HOPPER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR)
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index eb49800..80725b1 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -176,7 +176,7 @@ def create_custom_map(seed=0, scale=0.01):
     #v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.207
     #v = [1.6118251211466303, 1.188665228776879, 0.9112895004060624, 0.690763326564427, 0.4997008778346997, 0.3254280317127771, 0.16057446047146948] # 0.9465 24.30
     #v = [1.6027040905517569, 1.184321770169049, 0.9085808314549837, 0.6889461706317986, 0.4984841229538408, 0.32467299997597887, 0.1602117348657326] # 0.9455 24.293
-    v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.37 22.88
+    #v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.37 22.88
 
     # 7B evo start 
     #v = [1.62129629, 1.18870191, 0.90848106, 0.69108646, 0.50515268, 0.34927819905,  0.14122701] # 22.06
@@ -186,7 +186,7 @@ def create_custom_map(seed=0, scale=0.01):
     # 13B evo start
     #v = [1.6077535089716468, 1.1914902148179205, 0.8999752421085561, 0.6967904489387543, 0.4949093928311768, 0.30920472033044544, 0.15391602735952042]
     #v = [1.586363722436466, 1.202610827188916, 0.9003332576346587, 0.6904888715206972, 0.49490974688233724, 0.2971151461329376, 0.15683230810738283]
-    #v = [1.5842247437829478, 1.2037228884260156, 0.900369059187269, 0.6898587137788914, 0.4949097822874533, 0.2959061887131868, 0.15712393618216908]
+    v = [1.5842247437829478, 1.2037228884260156, 0.900369059187269, 0.6898587137788914, 0.4949097822874533, 0.2959061887131868, 0.15712393618216908]
 
     # mean evo 7B + 13B
     #v = [1.5993337549066253, 1.1965624035328402, 0.9000864380418481, 0.6925840978034195, 0.5011181210961458, 0.32040328389777434, 0.13570386022711237]
diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 24f5070..287a467 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -228,6 +228,7 @@ class LinearNF4(Linear4bit):
         super().__init__(input_features, output_features, bias, compute_dtype, compress_statistics, 'nf4')
 
 
+
 class Int8Params(torch.nn.Parameter):
     def __new__(
         cls,
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index a108772..ed7d6b2 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -12,6 +12,14 @@
 #include <cub/block/block_reduce.cuh>
 #include <cub/cub.cuh>
 #include <math_constants.h>
+#include <thrust/host_vector.h>
+#include <thrust/device_vector.h>
+
+#include <cute/tensor.hpp>
+#include "cutlass/util/print_error.hpp"
+#include "cutlass/util/GPU_Clock.hpp"
+#include "cutlass/util/cublas_wrappers.hpp"
+#include "cutlass/util/helper_cuda.hpp"
 
 #define HLF_MAX 65504
 #define TH 1024
@@ -2709,7 +2717,7 @@ template <int THREADS, int ITEMS_PER_THREAD, int TILE_ROWS, int TILE_COLS, int T
   }
 }
 
-#define C 1.0f/127.0f
+#define DENORM 1.0f/127.0f
 #define MAX_SPARSE_COUNT 32
 #define SMEM_SIZE 8*256
 template <typename T, int SPMM_ITEMS, int BITS>
@@ -2813,7 +2821,7 @@ __global__ void kspmm_coo_very_sparse_naive(int *max_count, int *max_idx, int *o
               float valB = local_valsB[k];
               float valA = local_valA[i];
               if(valB != 0.0 && valA != 0.0)
-                local_valC[j+k] = (float)local_valC[j+k] + ((float)smem_dequant_stats[idx+k-local_idx_col_B_offset])*C*valB*valA;
+                local_valC[j+k] = (float)local_valC[j+k] + ((float)smem_dequant_stats[idx+k-local_idx_col_B_offset])*DENORM*valB*valA;
             }
             else
               local_valC[j+k] = (float)local_valC[j+k] + (float)local_valsB[k]*(float)local_valA[i];
@@ -2960,7 +2968,7 @@ void
 gemm_device(MShape M, NShape N, KShape K,
             TA const* A, AStride dA, ABlockLayout blockA, AThreadLayout tA,
             TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
-            TC      * C, CStride dC, CBlockLayout       , CThreadLayout tC,
+            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
             Alpha alpha, Beta beta)
 {
   using namespace cute;
@@ -2991,7 +2999,7 @@ gemm_device(MShape M, NShape N, KShape K,
   // Represent the full tensors
   auto mA = make_tensor(make_gmem_ptr(A), make_shape(M,K), dA);      // (M,K)
   auto mB = make_tensor(make_gmem_ptr(B), make_shape(N,K), dB);      // (N,K)
-  auto mC = make_tensor(make_gmem_ptr(C), make_shape(M,N), dC);      // (M,N)
+  auto mC = make_tensor(make_gmem_ptr(out), make_shape(M,N), dC);      // (M,N)
 
   // Get the appropriate blocks for this thread block --
   // potential for thread block locality
@@ -3034,7 +3042,6 @@ gemm_device(MShape M, NShape N, KShape K,
   // Clear the accumulators
   clear(tCrC);
 
-#if 1
 
   // TUTORIAL: Example of a very simple compute loop
   //   Data is read from global to shared memory via the tA|tB partitioning
@@ -3071,7 +3078,6 @@ gemm_device(MShape M, NShape N, KShape K,
     __syncthreads();
   }
 
-#endif
 
   axpby(alpha, tCrC, beta, tCgC);
 }
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 1204cbd..a3a7c29 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -666,11 +666,9 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 
 
 
-#include <thrust/host_vector.h>
-#include <thrust/device_vector.h>
-
 #include <cute/tensor.hpp>
 
+
 template <typename TA, typename TB, typename TC,
           typename Alpha, typename Beta>
 void

From 0afc8e9e2f2a0a2ca707057fe6523bed98451bb6 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Wed, 26 Apr 2023 17:12:34 -0700
Subject: [PATCH 57/97] Best attempt at cutlass3.

---
 Makefile                   |   8 +--
 bitsandbytes/functional.py |  98 +++++++++++++++++++++++++++++
 csrc/kernels.cu            | 126 ++++++++++++++++++++++---------------
 csrc/kernels.cuh           |  22 ++++++-
 csrc/ops.cu                |  73 +++++++++------------
 csrc/ops.cuh               |  12 ++++
 csrc/pythonInterface.c     |  18 ++++++
 tests/test_functional.py   |  21 +++++++
 8 files changed, 279 insertions(+), 99 deletions(-)

diff --git a/Makefile b/Makefile
index 7e8be41..059545c 100644
--- a/Makefile
+++ b/Makefile
@@ -55,8 +55,8 @@ CC_cublasLt110 := -gencode arch=compute_75,code=sm_75
 CC_cublasLt110 += -gencode arch=compute_80,code=sm_80
 
 CC_cublasLt111 := -gencode arch=compute_75,code=sm_75
-CC_cublasLt111 += -gencode arch=compute_80,code=sm_80
-CC_cublasLt111 += -gencode arch=compute_86,code=sm_86
+#CC_cublasLt111 += -gencode arch=compute_80,code=sm_80
+#CC_cublasLt111 += -gencode arch=compute_86,code=sm_86
 
 CC_ADA_HOPPER := -gencode arch=compute_89,code=sm_89
 CC_ADA_HOPPER += -gencode arch=compute_90,code=sm_90
@@ -103,9 +103,9 @@ cuda11x: $(BUILD_DIR) env
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
 cuda11x_cutlass: $(BUILD_DIR) env cutlass
-	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(INCLUDE_cutlass) $(LIB) --output-directory $(BUILD_DIR)
+	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' --use_fast_math --expt-relaxed-constexpr -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(INCLUDE_cutlass) $(LIB) --output-directory $(BUILD_DIR)
 	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
-	$(GPP) -std=c++17 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
+	$(GPP) -std=c++17 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(INCLUDE_cutlass) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
 cuda12x: $(BUILD_DIR) env
 	$(NVCC) $(CC_cublasLt111) $(CC_ADA_HOPPER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR)
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 80725b1..7e4874a 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -1374,6 +1374,104 @@ def check_matmul(A, B, out, transposed_A, transposed_B, expected_type=torch.int8
 
     return sout
 
+def cutlass3_gemm(
+    A: Tensor,
+    B: Tensor,
+    out: Tensor = None,
+    transposed_A=False,
+    transposed_B=False,
+):
+    sout = check_matmul(A, B, out, transposed_A, transposed_B, expected_type=torch.float32)
+    if out is None:
+        out = torch.zeros(size=sout, dtype=torch.float32, device=A.device)
+
+    sA = A.shape
+    sB = B.shape
+    if transposed_A and len(sA) == 2:
+        sA = (sA[1], sA[0])
+    elif transposed_A and len(sA) == 3:
+        sA = (sA[0], sA[2], sA[0])
+    if transposed_B and len(sB) == 2:
+        sB = (sB[1], sB[0])
+    elif transposed_B and len(sB) == 3:
+        sB = (sB[0], sB[2], sB[0])
+    # this is a mess: cuBLAS expect column major, but PyTorch is row major.
+    # So to perform the matrix multiplication, we have to treat A, B, and C matrices
+    # (transpose of row major is column major)
+    # This means we compute B^T A^T = C^T and we explicitly switch the dimensions of each of these
+
+    # matrices in the input arguments for cuBLAS
+    # column major: A @ B = C: [m, k] @ [k, n] = [m, n]
+    # row major: B^T @ A^T = C^T: [m, k] @ [k, n] = [m, n]
+    # column major with row major layout: B^T @ A^T = C^T: [k, m] @ [n, k] = [n, m]
+    if len(sB) == 2:
+        if B.stride()[0] == B.shape[1]:
+            transposed_B = False
+        elif B.stride()[1] == B.shape[0]:
+            transposed_B = True
+        if len(A.shape) == 2:
+            if A.stride()[0] == A.shape[1]:
+                transposed_A = False
+            elif A.stride()[1] == A.shape[0]:
+                transposed_A = True
+        else:
+            if A.stride()[1] == A.shape[2]:
+                transposed_A = False
+            elif A.stride()[2] == A.shape[1]:
+                transposed_A = True
+
+        if len(sA) == 2:
+            n = sA[0]
+            ldb = A.stride()[1 if transposed_A else 0]
+        elif len(sA) == 3 and len(sB) == 2:
+            n = sA[0] * sA[1]
+            ldb = sA[2]
+
+        m = sB[1]
+        k = sB[0]
+        lda = B.stride()[(1 if transposed_B else 0)]
+        ldc = sB[1]
+    elif len(sB) == 3:
+        # special case
+        assert len(sA) == 3
+        if not (sA[0] == sB[0] and sA[1] == sB[1]):
+            raise ValueError(
+                f"Only bsi,bso->io supported for tensor contractions, but dims for A x B were: {sA} x {sB}"
+            )
+
+        transposed_A = True
+        transposed_B = False
+
+        m = sB[2]
+        n = sA[2]
+        k = sB[0] * sB[1]
+
+        lda = m
+        ldb = sA[2]
+        ldc = m
+
+    ptr = CUBLAS_Context.get_instance().get_context(A.device)
+
+    # B^T @ A^T = C^T
+    # [km, nk -> mn]
+    lda = ldb = ldc = 1
+    #lda = 1
+    print(m, n, k, lda, ldb, ldc)
+    is_on_gpu([B, A, out])
+    m = ct.c_int32(m)
+    n = ct.c_int32(n)
+    k = ct.c_int32(k)
+    lda = ct.c_int32(lda)
+    ldb = ct.c_int32(ldb)
+    ldc = ct.c_int32(ldc)
+    alpha = ct.c_float(1.0)
+    beta = ct.c_float(0.0)
+    lib.ccutlass_gemm(m, n, k, alpha, get_ptr(B), lda, get_ptr(A), ldb, beta, get_ptr(out), ldc)
+
+    return out
+
+
+
 
 def igemm(
     A: Tensor,
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index ed7d6b2..4c83573 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -19,7 +19,6 @@
 #include "cutlass/util/print_error.hpp"
 #include "cutlass/util/GPU_Clock.hpp"
 #include "cutlass/util/cublas_wrappers.hpp"
-#include "cutlass/util/helper_cuda.hpp"
 
 #define HLF_MAX 65504
 #define TH 1024
@@ -2928,73 +2927,84 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 }
 
 
-template <int QUANT_TYPE, typename INPT, typename COMPT, typename OUTT> __global__ void kMatmul_inference_4bit(INPT *A, unsigned char *B, OUTT *out, int lda, int ldb, int rowsA, int colsA, int colsB)
-{
-// element-wise kernel
-// 1. Load batch x k into registers
-// 2. Load k x k into registers
-// 3. dequantize and store in second pair of k x k
-// 4. matmul
-// 5. sum with cub
-// 6. store outputs
-// TC kernel
-// use k warps per thread block
-// 1. threadblock use read-only cache to read in register tile for A into shared memory
-// 2. each warp loops over shared memory tiles of A of size 8x16 and loads them into fragments
-// 3. each warp reads a segment of values 16x32 from B 
-// 4. do dequantization from register of B into second pair of registers
-// 5. store (4) into fragment
-// 6. matmul aggregate into fragment C
-// 7. aggreecate files of C into shared memroy block C
-// 8. sum (7)
-// 9. write outputs to matmul output matrix
-}
+//template <int QUANT_TYPE, typename INPT, typename COMPT, typename OUTT> __global__ void kMatmul_inference_4bit(INPT *A, unsigned char *B, OUTT *out, int lda, int ldb, int rowsA, int colsA, int colsB)
+//{
+//// element-wise kernel
+//// 1. Load batch x k into registers
+//// 2. Load k x k into registers
+//// 3. dequantize and store in second pair of k x k
+//// 4. matmul
+//// 5. sum with cub
+//// 6. store outputs
+//// TC kernel
+//// use k warps per thread block
+//// 1. threadblock use read-only cache to read in register tile for A into shared memory
+//// 2. each warp loops over shared memory tiles of A of size 8x16 and loads them into fragments
+//// 3. each warp reads a segment of values 16x32 from B 
+//// 4. do dequantization from register of B into second pair of registers
+//// 5. store (4) into fragment
+//// 6. matmul aggregate into fragment C
+//// 7. aggreecate files of C into shared memroy block C
+//// 8. sum (7)
+//// 9. write outputs to matmul output matrix
+//}
 
 #include "cutlass/util/print_error.hpp"
 #include "cutlass/util/GPU_Clock.hpp"
 #if defined(CUTLASS_ENABLE_CUBLAS) && CUTLASS_ENABLE_CUBLAS != 0
 #  include "cutlass/util/cublas_wrappers.hpp"
 #endif
-#include "cutlass/util/helper_cuda.hpp"
+//#include "cutlass/util/helper_cuda.hpp"
 
-template <class MShape, class NShape, class KShape,
-          class TA, class AStride, class ABlockLayout, class AThreadLayout,
-          class TB, class BStride, class BBlockLayout, class BThreadLayout,
-          class TC, class CStride, class CBlockLayout, class CThreadLayout,
-          class Alpha, class Beta>
-__global__ static
-__launch_bounds__(decltype(size(CThreadLayout{}))::value)
-void
-gemm_device(MShape M, NShape N, KShape K,
-            TA const* A, AStride dA, ABlockLayout blockA, AThreadLayout tA,
-            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
-            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
-            Alpha alpha, Beta beta)
+__global__ void gemm_device(int M, int N, int K,
+            float const* A, 
+            float const* B, 
+            float      * out,  int lda, int ldb, int ldc,
+            float alpha, float beta)
 {
   using namespace cute;
   using X = Underscore;
 
   // Preconditions
-  CUTE_STATIC_ASSERT(is_static<ABlockLayout>::value);
-  CUTE_STATIC_ASSERT(is_static<BBlockLayout>::value);
-  CUTE_STATIC_ASSERT(is_static<CBlockLayout>::value);
+  //CUTE_STATIC_ASSERT(is_static<ABlockLayout>::value);
+  //CUTE_STATIC_ASSERT(is_static<BBlockLayout>::value);
+  //CUTE_STATIC_ASSERT(is_static<CBlockLayout>::value);
 
-  CUTE_STATIC_ASSERT(is_static<AThreadLayout>::value);
-  CUTE_STATIC_ASSERT(is_static<BThreadLayout>::value);
-  CUTE_STATIC_ASSERT(is_static<CThreadLayout>::value);
+  //CUTE_STATIC_ASSERT(is_static<AThreadLayout>::value);
+  //CUTE_STATIC_ASSERT(is_static<BThreadLayout>::value);
+  //CUTE_STATIC_ASSERT(is_static<CThreadLayout>::value);
 
-  CUTE_STATIC_ASSERT_V(size(tA) == size(tC));
-  CUTE_STATIC_ASSERT_V(size(tB) == size(tC));
+  //CUTE_STATIC_ASSERT_V(size(tA) == size(tC));
+  //CUTE_STATIC_ASSERT_V(size(tB) == size(tC));
+
+  // Define block sizes (static)
+  auto bM = Int<128>{};
+  auto bN = Int<128>{};
+  auto bK = Int<  8>{};
+
+  // Define the block layouts (static)
+  auto bA = make_layout(make_shape(bM,bK));
+  auto bB = make_layout(make_shape(bN,bK));
+  auto bC = make_layout(make_shape(bM,bN));
+
+  // Define the thread layouts (static)
+  auto tA = make_layout(make_shape(Int<32>{}, Int< 8>{}));
+  auto tB = make_layout(make_shape(Int<32>{}, Int< 8>{}));
+  auto tC = make_layout(make_shape(Int<16>{}, Int<16>{}));
 
   //CUTE_STATIC_ASSERT_V(shape<0>(blockA) == shape<0>(blockC));      // BLK_M
   //CUTE_STATIC_ASSERT_V(shape<0>(blockB) == shape<1>(blockC));      // BLK_N
-  CUTE_STATIC_ASSERT_V(shape<1>(blockA) == shape<1>(blockB));        // BLK_K
+  //CUTE_STATIC_ASSERT_V(shape<1>(blockA) == shape<1>(blockB));        // BLK_K
 
   // Shared memory buffers
-  __shared__ TA smemA[cosize_v<ABlockLayout>];
-  __shared__ TB smemB[cosize_v<BBlockLayout>];
-  auto sA = make_tensor(make_smem_ptr(smemA), blockA);               // (BLK_M,BLK_K)
-  auto sB = make_tensor(make_smem_ptr(smemB), blockB);               // (BLK_N,BLK_K)
+  __shared__ float smemA[128*8];
+  __shared__ float smemB[128*8];
+  auto sA = make_tensor(make_smem_ptr(smemA), bA);               // (BLK_M,BLK_K)
+  auto sB = make_tensor(make_smem_ptr(smemB), bB);               // (BLK_N,BLK_K)
+
+  auto dA = make_stride(Int<1>{}, lda);
+  auto dB = make_stride(Int<1>{}, ldb);
+  auto dC = make_stride(Int<1>{}, ldc);
 
   // Represent the full tensors
   auto mA = make_tensor(make_gmem_ptr(A), make_shape(M,K), dA);      // (M,K)
@@ -3083,11 +3093,27 @@ gemm_device(MShape M, NShape N, KShape K,
 }
 
 
+
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================
 
-template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
+//template <class MShape, class NShape, class KShape,
+//          class TA, class AStride, class ABlockLayout, class AThreadLayout,
+//          class TB, class BStride, class BBlockLayout, class BThreadLayout,
+//          class TC, class CStride, class CBlockLayout, class CThreadLayout,
+//          class Alpha, class Beta>
+//__global__ static
+//__launch_bounds__(decltype(size(CThreadLayout{}))::value)
+//void
+//gemm_device(MShape M, NShape N, KShape K,
+//            TA const* A, AStride dA, ABlockLayout blockA, AThreadLayout tA,
+//            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
+//            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
+//            half alpha, half beta);
+
+
+//template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
 template __global__ void kExtractOutliers<COL_TURING>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 template __global__ void kExtractOutliers<COL_AMPERE>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index ecf3a09..ba6de59 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -9,7 +9,7 @@
 #ifndef kernels
 #define kernels
 
-template <int QUANT_TYPE, typename INP_TYPE, typename COMP_TYPE, typename OUT_TYPE>__global__ void kMatmul_inference_4bit(INP_TYPE *A, unsigned char *B, OUT_TYPE *out, int lda, int ldb, int rowsA, int colsA, int colsB);
+//template <int QUANT_TYPE, typename INP_TYPE, typename COMP_TYPE, typename OUT_TYPE>__global__ void kMatmul_inference_4bit(INP_TYPE *A, unsigned char *B, OUT_TYPE *out, int lda, int ldb, int rowsA, int colsA, int colsB);
 
 template<typename T>__global__ void kEstimateQuantiles(T *__restrict__ const A, float *code, const float offset, const T max_val, const int n);
 
@@ -122,4 +122,24 @@ template <int THREADS, int ITEMS_PER_THREAD, int TILE_ROWS, int TILE_COLS, int T
 
 template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 
+//template <class MShape, class NShape, class KShape,
+//          class TA, class AStride, class ABlockLayout, class AThreadLayout,
+//          class TB, class BStride, class BBlockLayout, class BThreadLayout,
+//          class TC, class CStride, class CBlockLayout, class CThreadLayout,
+//          class Alpha, class Beta>
+//__global__ static
+//__launch_bounds__(decltype(size(CThreadLayout{}))::value)
+//void
+//gemm_device(MShape M, NShape N, KShape K,
+//            TA const* A, AStride dA, ABlockLayout blockA, AThreadLayout tA,
+//            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
+//            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
+//            Alpha alpha, Beta beta);
+
+__global__ void gemm_device(int M, int N, int K,
+            float const* A, 
+            float const* B, 
+            float      * out,  int lda, int ldb, int ldc,
+            float alpha, float beta);
+
 #endif
diff --git a/csrc/ops.cu b/csrc/ops.cu
index a3a7c29..ca56fae 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -91,14 +91,12 @@ template<typename T, int DATA_TYPE> void dequantizeBlockwise(float *code, unsign
 }
 
 
-void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB)
-{
-	int num_blocks = (colsB+32-1)/32;
-	kMatmul_inference_4bit<NF4, half, half, half><<<num_blocks, 256>>>(A, B, out, lda, ldb, rowsA, colsA, colsB);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
-}
-
-template <int QUANT_TYPE, typename INP_TYPE, typename COMP_TYPE, typename OUT_TYPE>__global__ void kMatmul_inference_4bit(INP_TYPE *A, unsigned char *B, OUT_TYPE *C, int lda, int ldb, int rowsA, int colsA, int colsB);
+//void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB)
+//{
+//	int num_blocks = (colsB+32-1)/32;
+//	kMatmul_inference_4bit<NF4, half, half, half><<<num_blocks, 256>>>(A, B, out, lda, ldb, rowsA, colsA, colsB);
+//  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+//}
 
 
 template<typename T, int OPTIMIZER> void optimizer32bit(T* g, T* p,
@@ -666,60 +664,47 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 
 
 
+
 #include <cute/tensor.hpp>
+#include "cutlass/util/helper_cuda.hpp"
 
 
-template <typename TA, typename TB, typename TC,
-          typename Alpha, typename Beta>
-void
-gemm(int m, int n, int k,
-     Alpha alpha,
-     TA const* A, int ldA,
-     TB const* B, int ldB,
-     Beta beta,
-     TC      * C, int ldC,
-     cudaStream_t stream = 0)
+void gemm_host(int m, int n, int k,
+     float alpha,
+     float const* A, int lda,
+     float const* B, int ldb,
+     float beta,
+     float      * C, int ldc)
 {
+  cute::device_init(0);
   using namespace cute;
 
+
+
   // Define shapes (dynamic)
   auto M = int(m);
   auto N = int(n);
   auto K = int(k);
 
-  // Define strides (mixed)
-  auto dA = make_stride(Int<1>{}, ldA);
-  auto dB = make_stride(Int<1>{}, ldB);
-  auto dC = make_stride(Int<1>{}, ldC);
 
-  // Define block sizes (static)
-  auto bM = Int<128>{};
-  auto bN = Int<128>{};
-  auto bK = Int<  8>{};
+  printf("%i %i %i %i %i %i\n", m, n, k, lda, ldb, ldc);
 
-  // Define the block layouts (static)
-  auto sA = make_layout(make_shape(bM,bK));
-  auto sB = make_layout(make_shape(bN,bK));
-  auto sC = make_layout(make_shape(bM,bN));
-
-  // Define the thread layouts (static)
-  auto tA = make_layout(make_shape(Int<32>{}, Int< 8>{}));
-  auto tB = make_layout(make_shape(Int<32>{}, Int< 8>{}));
-  auto tC = make_layout(make_shape(Int<16>{}, Int<16>{}));
-
-  dim3 dimBlock(size(tC));
-  dim3 dimGrid(ceil_div(size(M), size(bM)),
-               ceil_div(size(N), size(bN)));
+  dim3 dimBlock(16, 16);
+  dim3 dimGrid((M+127)/128, (N+127)/128);
+//   auto tC = make_layout(make_shape(Int<16>{}, Int<16>{}));
+//-
+//-  dim3 dimBlock(size(tC));
+//-  dim3 dimGrid(ceil_div(size(M), size(bM)),
+//-               ceil_div(size(N), size(bN)));
   gemm_device
-      <<< dimGrid, dimBlock, 0, stream >>>
+      <<< dimGrid, dimBlock, 0, 0 >>>
       (M,  N,  K,
-       A, dA, sA, tA,
-       B, dB, sB, tB,
-       C, dC, sC, tC,
+       A, 
+       B, 
+       C, lda, ldb, ldc,
        alpha, beta);
 }
 
-
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index 137320b..843a9bb 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -20,6 +20,11 @@
 #include <vector>
 #include <functional>
 
+#include <thrust/host_vector.h>
+#include <thrust/device_vector.h>
+
+
+
 #define CUDA_CHECK_RETURN(value) {                      \
   cudaError_t _m_cudaStat = value;                    \
   if (_m_cudaStat != cudaSuccess) {                   \
@@ -185,4 +190,11 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 
 void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB);
 
+void gemm_host(int m, int n, int k,
+     float alpha,
+     float const* A, int ldA,
+     float const* B, int ldB,
+     float beta,
+     float      * C, int ldC);
+
 #endif
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index 0e9106c..c6de62d 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -20,6 +20,16 @@ void estimateQuantiles_fp32(float *A, float *code, float offset, int n){ estimat
 void estimateQuantiles_fp16(half *A, float *code, float offset, int n){ estimateQuantiles<half>(A, code, offset, n); }
 
 
+void 
+cppgemm(int m, int n, int k,
+     float alpha,
+     float const* A, int ldA,
+     float const* B, int ldB,
+     float beta,
+     float      * C, int ldC)
+{ gemm_host(m, n, k, alpha, A, ldA, B, ldB, beta, C, ldC);}
+
+
 #define MAKE_FUNC32(fname, oname, gtype, gbits) \
 void fname##32bit_g##gbits(gtype *g, gtype *p, \
                float* state1, float* state2, float *unorm, float max_unorm, float param_norm, \
@@ -306,6 +316,14 @@ extern "C"
 	void cextractOutliers_turing(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_turing(A, idx, out, idx_size, rows, cols); }
 	void cextractOutliers_ampere(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_ampere(A, idx, out, idx_size, rows, cols); }
 
+	void ccutlass_gemm(int m, int n, int k,
+     float alpha,
+     float const* A, int ldA,
+     float const* B, int ldB,
+     float beta,
+     float      * C, int ldC)
+		{ cppgemm(m, n, k, alpha, A, ldA, B, ldB, beta, C, ldC);}
+
 #endif
 	void cquantize_blockwise_cpu_fp32(float *code, float *A, float *absmax, unsigned char *out, long long blocksize, long long n){ quantize_cpu(code, A, absmax, out, blocksize, n); }
 	void cdequantize_blockwise_cpu_fp32(float *code, unsigned char *A, float *absmax, float *out, long long blocksize, long long n){ dequantize_cpu(code, A, absmax, out, blocksize, n); }
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 82f6a71..128c803 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2351,3 +2351,24 @@ def test_normal_map_tree():
             pivots.append((values[i-1]+values[i])/2)
         print(pivots)
 
+
+def test_cutlass3_gemm():
+    #A = torch.rand(2, 2).cuda()
+    #B = torch.rand(2, 2).cuda()
+    A = torch.arange(4).reshape(2, 2).float().cuda().contiguous()
+    B = torch.ones(2, 2).float().cuda()
+
+    print('')
+    print(A)
+    print(B)
+
+    C1 = torch.matmul(A, B)
+    print(C1)
+    C2 = F.cutlass3_gemm(A, B.t())
+    print(C2)
+    C2 = F.cutlass3_gemm(A, B)
+    print(C2)
+    C2 = F.cutlass3_gemm(B.t(), A.t().contiguous())
+    print(C2)
+
+

From d1c4c2056893c35a7ca8e55a1b2beebeeeaee679 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Thu, 27 Apr 2023 15:11:26 -0700
Subject: [PATCH 58/97] Added non-cutlass template.

---
 Makefile                   |  14 +---
 bitsandbytes/functional.py |   4 +-
 csrc/kernels.cu            | 158 ++++++-------------------------------
 csrc/ops.cu                |  28 ++-----
 tests/test_functional.py   |   6 --
 5 files changed, 35 insertions(+), 175 deletions(-)

diff --git a/Makefile b/Makefile
index 059545c..ea6ee87 100644
--- a/Makefile
+++ b/Makefile
@@ -1,8 +1,8 @@
 MKFILE_PATH := $(abspath $(lastword $(MAKEFILE_LIST)))
 ROOT_DIR := $(patsubst %/,%,$(dir $(MKFILE_PATH)))
 
-#GPP:= /usr/bin/g++
-GPP:= /sw/gcc/11.2.0/bin/g++
+GPP:= /usr/bin/g++
+#GPP:= /sw/gcc/11.2.0/bin/g++
 ifeq ($(CUDA_HOME),)
 	CUDA_HOME:= $(shell which nvcc | rev | cut -d'/' -f3- | rev)
 endif
@@ -26,7 +26,6 @@ FILES_CPP := $(CSRC)/common.cpp $(CSRC)/cpu_ops.cpp $(CSRC)/pythonInterface.c
 
 INCLUDE :=  -I $(CUDA_HOME)/include -I $(ROOT_DIR)/csrc -I $(CONDA_PREFIX)/include -I $(ROOT_DIR)/include
 INCLUDE_10x :=  -I $(CUDA_HOME)/include -I $(ROOT_DIR)/csrc -I $(ROOT_DIR)/dependencies/cub -I $(ROOT_DIR)/include
-INCLUDE_cutlass :=  -I $(ROOT_DIR)/dependencies/cutlass/include -I $(ROOT_DIR)/dependencies/cutlass/tools/util/include/ -I $(ROOT_DIR)/dependencies/cutlass/include/cute/util/
 LIB := -L $(CUDA_HOME)/lib64 -lcudart -lcublas -lcublasLt -lcurand -lcusparse -L $(CONDA_PREFIX)/lib
 
 # NVIDIA NVCC compilation flags
@@ -63,8 +62,8 @@ CC_ADA_HOPPER += -gencode arch=compute_90,code=sm_90
 
 
 all: $(BUILD_DIR) env
-	$(NVCC) $(CC_CUDA11x) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) 
-	$(NVCC) $(CC_CUDA11x) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
+	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR)
+	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
 cuda92: $(ROOT_DIR)/dependencies/cub $(BUILD_DIR) env
@@ -102,11 +101,6 @@ cuda11x: $(BUILD_DIR) env
 	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
-cuda11x_cutlass: $(BUILD_DIR) env cutlass
-	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' --use_fast_math --expt-relaxed-constexpr -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(INCLUDE_cutlass) $(LIB) --output-directory $(BUILD_DIR)
-	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
-	$(GPP) -std=c++17 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(INCLUDE_cutlass) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
-
 cuda12x: $(BUILD_DIR) env
 	$(NVCC) $(CC_cublasLt111) $(CC_ADA_HOPPER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR)
 	$(NVCC) $(CC_cublasLt111) $(CC_ADA_HOPPER) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 7e4874a..54a08a1 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -1456,7 +1456,7 @@ def cutlass3_gemm(
     # [km, nk -> mn]
     lda = ldb = ldc = 1
     #lda = 1
-    print(m, n, k, lda, ldb, ldc)
+    #print(m, n, k, lda, ldb, ldc)
     is_on_gpu([B, A, out])
     m = ct.c_int32(m)
     n = ct.c_int32(n)
@@ -1466,7 +1466,7 @@ def cutlass3_gemm(
     ldc = ct.c_int32(ldc)
     alpha = ct.c_float(1.0)
     beta = ct.c_float(0.0)
-    lib.ccutlass_gemm(m, n, k, alpha, get_ptr(B), lda, get_ptr(A), ldb, beta, get_ptr(out), ldc)
+    lib.ccutlass_gemm(m, n, k, alpha, get_ptr(A), ldb, get_ptr(B), lda, beta, get_ptr(out), ldc)
 
     return out
 
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 4c83573..ed87c69 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -15,11 +15,6 @@
 #include <thrust/host_vector.h>
 #include <thrust/device_vector.h>
 
-#include <cute/tensor.hpp>
-#include "cutlass/util/print_error.hpp"
-#include "cutlass/util/GPU_Clock.hpp"
-#include "cutlass/util/cublas_wrappers.hpp"
-
 #define HLF_MAX 65504
 #define TH 1024
 #define NUM 4
@@ -2949,147 +2944,42 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 //// 9. write outputs to matmul output matrix
 //}
 
-#include "cutlass/util/print_error.hpp"
-#include "cutlass/util/GPU_Clock.hpp"
-#if defined(CUTLASS_ENABLE_CUBLAS) && CUTLASS_ENABLE_CUBLAS != 0
-#  include "cutlass/util/cublas_wrappers.hpp"
-#endif
-//#include "cutlass/util/helper_cuda.hpp"
-
 __global__ void gemm_device(int M, int N, int K,
             float const* A, 
             float const* B, 
             float      * out,  int lda, int ldb, int ldc,
             float alpha, float beta)
 {
-  using namespace cute;
-  using X = Underscore;
+// 0. We want to fill a 8x128 tile for a thread block so we have 8x16 tile for each warp
+// 1. Load dataB into register
+// 2. Dequantize B
+// 3. Fetch data from A and multiply
 
-  // Preconditions
-  //CUTE_STATIC_ASSERT(is_static<ABlockLayout>::value);
-  //CUTE_STATIC_ASSERT(is_static<BBlockLayout>::value);
-  //CUTE_STATIC_ASSERT(is_static<CBlockLayout>::value);
+  typedef cub::BlockLoad<float, 256 , 1, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
+  __shared__ typename LoadA::TempStorage loada;
+	float dataA[1];
+	int valid_items = 0;
 
-  //CUTE_STATIC_ASSERT(is_static<AThreadLayout>::value);
-  //CUTE_STATIC_ASSERT(is_static<BThreadLayout>::value);
-  //CUTE_STATIC_ASSERT(is_static<CThreadLayout>::value);
-
-  //CUTE_STATIC_ASSERT_V(size(tA) == size(tC));
-  //CUTE_STATIC_ASSERT_V(size(tB) == size(tC));
-
-  // Define block sizes (static)
-  auto bM = Int<128>{};
-  auto bN = Int<128>{};
-  auto bK = Int<  8>{};
-
-  // Define the block layouts (static)
-  auto bA = make_layout(make_shape(bM,bK));
-  auto bB = make_layout(make_shape(bN,bK));
-  auto bC = make_layout(make_shape(bM,bN));
-
-  // Define the thread layouts (static)
-  auto tA = make_layout(make_shape(Int<32>{}, Int< 8>{}));
-  auto tB = make_layout(make_shape(Int<32>{}, Int< 8>{}));
-  auto tC = make_layout(make_shape(Int<16>{}, Int<16>{}));
-
-  //CUTE_STATIC_ASSERT_V(shape<0>(blockA) == shape<0>(blockC));      // BLK_M
-  //CUTE_STATIC_ASSERT_V(shape<0>(blockB) == shape<1>(blockC));      // BLK_N
-  //CUTE_STATIC_ASSERT_V(shape<1>(blockA) == shape<1>(blockB));        // BLK_K
-
-  // Shared memory buffers
-  __shared__ float smemA[128*8];
-  __shared__ float smemB[128*8];
-  auto sA = make_tensor(make_smem_ptr(smemA), bA);               // (BLK_M,BLK_K)
-  auto sB = make_tensor(make_smem_ptr(smemB), bB);               // (BLK_N,BLK_K)
-
-  auto dA = make_stride(Int<1>{}, lda);
-  auto dB = make_stride(Int<1>{}, ldb);
-  auto dC = make_stride(Int<1>{}, ldc);
-
-  // Represent the full tensors
-  auto mA = make_tensor(make_gmem_ptr(A), make_shape(M,K), dA);      // (M,K)
-  auto mB = make_tensor(make_gmem_ptr(B), make_shape(N,K), dB);      // (N,K)
-  auto mC = make_tensor(make_gmem_ptr(out), make_shape(M,N), dC);      // (M,N)
-
-  // Get the appropriate blocks for this thread block --
-  // potential for thread block locality
-  auto blk_shape = make_shape(size<0>(sA), size<0>(sB), size<1>(sB));// (BLK_M,BLK_N,BLK_K)
-  auto blk_coord = make_coord(blockIdx.x, blockIdx.y, _);            // (m,n,k)
-
-  auto gA = local_tile(mA, blk_shape, blk_coord, Step<_1, X,_1>{});  // (BLK_M,BLK_K,k)
-  auto gB = local_tile(mB, blk_shape, blk_coord, Step< X,_1,_1>{});  // (BLK_N,BLK_K,k)
-  auto gC = local_tile(mC, blk_shape, blk_coord, Step<_1,_1, X>{});  // (BLK_M,BLK_N)
-
-  //
-  // Partition the copying of A and B tiles across the threads
-  //
-
-  // TUTORIAL: Example of simple partitioning of A|B tiles over tA|tB
-  //   Default is a raked partition, but can be changed with Step<X,Y> parameter
-
-  auto tAgA = local_partition(gA, tA, threadIdx.x);                  // (THR_M,THR_K,k)
-  auto tAsA = local_partition(sA, tA, threadIdx.x);                  // (THR_M,THR_K)
-
-  auto tBgB = local_partition(gB, tB, threadIdx.x);                  // (THR_N,THR_K,k)
-  auto tBsB = local_partition(sB, tB, threadIdx.x);                  // (THR_N,THR_K)
-
-  //
-  // Define C accumulators and A/B partitioning
-  //
-
-  // TUTORIAL: Example of partitioning via projections of tC
-
-  // Partition sA (M,K) by the rows of tC
-  auto tCsA = local_partition(sA, tC, threadIdx.x, Step<_1, X>{});   // (THR_M,BLK_K)
-  // Partition sB (N,K) by the cols of tC
-  auto tCsB = local_partition(sB, tC, threadIdx.x, Step< X,_1>{});   // (THR_N,BLK_K)
-  // Partition gC (M,N) by the tile of tC
-  auto tCgC = local_partition(gC, tC, threadIdx.x, Step<_1,_1>{});   // (THR_M,THR_N)
-
-  // Allocate the accumulators -- same size as the projected data
-  auto tCrC = make_fragment_like(tCgC);                              // (THR_M,THR_N)
-
-  // Clear the accumulators
-  clear(tCrC);
+	__shared__ float[16*256] tileA;
 
 
-  // TUTORIAL: Example of a very simple compute loop
-  //   Data is read from global to shared memory via the tA|tB partitioning
-  //   gemm(.) operates on the shared memory directly via the tC partitioning
-
-  auto k_max = size<2>(tAgA);
-
-  for (int k = 0; k < k_max; ++k)
-  {
-    // Copy gmem to smem
-    copy(tAgA(_,_,k), tAsA);
-    copy(tBgB(_,_,k), tBsB);
-
-    // In case copy uses cp.async, make sure that the cp.async
-    // instructions are ordered with respect to other cp.async
-    // instructions (fence), then wait on all the outstanding copy
-    // operations (wait<0>()).  __syncthreads() alone does not do
-    // this.
-    //
-    // NOTE: cp_async_wait<0>() currently issues cp.async.wait_all.
-    // This is equivalent to cp.async.commit_group followed by
-    // cp.async_wait_group 0.  This should make the first
-    // cp_async_fence() (which also issues cp.async.commit_group)
-    // redundant.  The tutorial works as-is, so we'll leave the
-    // redundant fence in for now and study its removal later.
-    cp_async_fence();
-    cp_async_wait<0>();
-
-    __syncthreads();
-
-    // Compute gemm on smem
-    gemm(tCsA, tCsB, tCrC);
-
-    __syncthreads();
-  }
+	for(int idxA = 0; idxA < M*K; idxA+= 256)
+	{
+		valid_items = M*K - idxA > 256 ? 256 : M*K - idxA;
+		int baserow = 0;
+		for(int row = baserow; row < baserow+16 && row < M + ; row++)
+		{
+			LoadA(loada).Load(&(A[(row*lda) + i]), dataA, valid_items, 0.0f);
+			tileA[row*256 + threadIdx.x] = dataA[0];
+		__syncthreads();
+		}
+		baserow += 16;
+
+
+	}
+
 
 
-  axpby(alpha, tCrC, beta, tCgC);
 }
 
 
diff --git a/csrc/ops.cu b/csrc/ops.cu
index ca56fae..8933927 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -665,9 +665,6 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 
 
 
-#include <cute/tensor.hpp>
-#include "cutlass/util/helper_cuda.hpp"
-
 
 void gemm_host(int m, int n, int k,
      float alpha,
@@ -676,29 +673,14 @@ void gemm_host(int m, int n, int k,
      float beta,
      float      * C, int ldc)
 {
-  cute::device_init(0);
-  using namespace cute;
 
+  dim3 dimBlock(256);
+	int num_blocks = (n+31)/32;
 
-
-  // Define shapes (dynamic)
-  auto M = int(m);
-  auto N = int(n);
-  auto K = int(k);
-
-
-  printf("%i %i %i %i %i %i\n", m, n, k, lda, ldb, ldc);
-
-  dim3 dimBlock(16, 16);
-  dim3 dimGrid((M+127)/128, (N+127)/128);
-//   auto tC = make_layout(make_shape(Int<16>{}, Int<16>{}));
-//-
-//-  dim3 dimBlock(size(tC));
-//-  dim3 dimGrid(ceil_div(size(M), size(bM)),
-//-               ceil_div(size(N), size(bN)));
+	cout << num_blocks << endl;
   gemm_device
-      <<< dimGrid, dimBlock, 0, 0 >>>
-      (M,  N,  K,
+      <<< num_blocks, dimBlock, 0, 0 >>>
+      (m,  n,  k,
        A, 
        B, 
        C, lda, ldb, ldc,
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 128c803..dd41972 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2363,12 +2363,6 @@ def test_cutlass3_gemm():
     print(B)
 
     C1 = torch.matmul(A, B)
-    print(C1)
-    C2 = F.cutlass3_gemm(A, B.t())
-    print(C2)
     C2 = F.cutlass3_gemm(A, B)
-    print(C2)
-    C2 = F.cutlass3_gemm(B.t(), A.t().contiguous())
-    print(C2)
 
 

From 9cab14a3ff920a153fb450e299329a473f1416a4 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Thu, 27 Apr 2023 15:12:49 -0700
Subject: [PATCH 59/97] Adedd pipeline draft.

---
 bitsandbytes/functional.py |  5 ++++
 csrc/kernels.cu            | 49 ++++++++++++++++++++++++++++++++++++++
 csrc/kernels.cuh           |  2 ++
 csrc/ops.cu                | 11 +++++++++
 csrc/ops.cuh               |  2 ++
 csrc/pythonInterface.c     |  1 +
 tests/test_functional.py   |  5 ++++
 7 files changed, 75 insertions(+)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 54a08a1..bb3cde3 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -2341,3 +2341,8 @@ def extract_outliers(A, SA, idx):
     post_call(prev_device)
 
     return out
+
+def pipeline_test(A, batch_size):
+    out = torch.zeros_like(A)
+    lib.cpipeline_test(get_ptr(A), get_ptr(out), ct.c_size_t(A.numel()), ct.c_size_t(batch_size))
+    return out
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index ed87c69..775716f 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -15,6 +15,9 @@
 #include <thrust/host_vector.h>
 #include <thrust/device_vector.h>
 
+#include <cooperative_groups/memcpy_async.h>
+#include <cuda/pipeline>
+
 #define HLF_MAX 65504
 #define TH 1024
 #define NUM 4
@@ -2983,6 +2986,51 @@ __global__ void gemm_device(int M, int N, int K,
 }
 
 
+__device__ void compute(float* global_out, float const* shared_in)
+{
+
+}
+template <size_t stages_count /* Pipeline with stages_count stages */>
+__global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz) {
+    auto grid = cooperative_groups::this_grid();
+    auto block = cooperative_groups::this_thread_block();
+    assert(size == batch_sz * grid.size()); // Assume input size fits batch_sz * grid_size
+
+    extern __shared__ float shared[]; // stages_count * block.size() * sizeof(int) bytes
+    size_t shared_offset[stages_count];
+    for (int s = 0; s < stages_count; ++s) shared_offset[s] = s * block.size();
+
+    __shared__ cuda::pipeline_shared_state<
+        cuda::thread_scope::thread_scope_block,
+        stages_count
+    > shared_state;
+    auto pipeline = cuda::make_pipeline(block, &shared_state);
+
+    auto block_batch = [&](size_t batch) -> int {
+        return block.group_index().x * block.size() + grid.size() * batch;
+    };
+
+    // compute_batch: next batch to process
+    // fetch_batch:  next batch to fetch from global memory
+    for (size_t compute_batch = 0, fetch_batch = 0; compute_batch < batch_sz; ++compute_batch) {
+        // The outer loop iterates over the computation of the batches
+        for (; fetch_batch < batch_sz && fetch_batch < (compute_batch + stages_count); ++fetch_batch) {
+            // This inner loop iterates over the memory transfers, making sure that the pipeline is always full
+            pipeline.producer_acquire();
+            size_t shared_idx = fetch_batch % stages_count;
+            size_t batch_idx = fetch_batch;
+            size_t block_batch_idx = block_batch(batch_idx);
+            cuda::memcpy_async(block, shared + shared_offset[shared_idx], global_in + block_batch_idx, sizeof(float) * block.size(), pipeline);
+            pipeline.producer_commit();
+        }
+        pipeline.consumer_wait();
+        int shared_idx = compute_batch % stages_count;
+        int batch_idx = compute_batch;
+        compute(global_out + block_batch(batch_idx), shared + shared_offset[shared_idx]);
+        pipeline.consumer_release();
+    }
+}
+
 
 //==============================================================
 //                   TEMPLATE DEFINITIONS
@@ -3004,6 +3052,7 @@ __global__ void gemm_device(int M, int N, int K,
 
 
 //template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
+template __global__ void with_staging_unified<2>(float const* global_in, float * global_out, size_t size, size_t batch_sz);
 template __global__ void kExtractOutliers<COL_TURING>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 template __global__ void kExtractOutliers<COL_AMPERE>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index ba6de59..37e214a 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -135,6 +135,8 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 //            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
 //            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
 //            Alpha alpha, Beta beta);
+template <size_t stages_count /* Pipeline with stages_count stages */>
+__global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz);
 
 __global__ void gemm_device(int M, int N, int K,
             float const* A, 
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 8933927..ee585bb 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -663,6 +663,17 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 }
 
 
+void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
+{
+
+  int threads = 256;
+  int num_blocks = (n+(256*batch_size)+1)/(batch_size*256);
+
+  printf("%i %i\n", num_blocks, batch_size);
+
+  with_staging_unified<2><<<num_blocks, threads>>>(A, B, n, batch_size);
+  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+}
 
 
 
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index 843a9bb..83dd4e5 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -197,4 +197,6 @@ void gemm_host(int m, int n, int k,
      float beta,
      float      * C, int ldC);
 
+
+void pipeline_test(float *A, float *B, size_t n, size_t batch_size);
 #endif
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index c6de62d..170093f 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -315,6 +315,7 @@ extern "C"
 
 	void cextractOutliers_turing(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_turing(A, idx, out, idx_size, rows, cols); }
 	void cextractOutliers_ampere(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_ampere(A, idx, out, idx_size, rows, cols); }
+	void cpipeline_test(float *A, float *B, size_t n, size_t batch_size){ pipeline_test(A, B, n, batch_size); }
 
 	void ccutlass_gemm(int m, int n, int k,
      float alpha,
diff --git a/tests/test_functional.py b/tests/test_functional.py
index dd41972..7dec375 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2366,3 +2366,8 @@ def test_cutlass3_gemm():
     C2 = F.cutlass3_gemm(A, B)
 
 
+def test_pipeline_func():
+    a = torch.rand(2, 4).cuda()
+    out = F.pipeline_test(a, 2)
+    print(a)
+    print(out)

From c1bfb210c59dc56559b571a927714ca13cea80c5 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 28 Apr 2023 17:19:02 -0700
Subject: [PATCH 60/97] First baseline kernel.

---
 bitsandbytes/functional.py |   8 +--
 csrc/kernels.cu            | 101 +++++++++++++++++++++++++++++++++----
 csrc/kernels.cuh           |   2 +-
 csrc/ops.cu                |  13 +++--
 csrc/ops.cuh               |   2 +-
 csrc/pythonInterface.c     |   4 +-
 tests/test_functional.py   |  20 ++++----
 7 files changed, 118 insertions(+), 32 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index bb3cde3..774e954 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -1429,7 +1429,7 @@ def cutlass3_gemm(
 
         m = sB[1]
         k = sB[0]
-        lda = B.stride()[(1 if transposed_B else 0)]
+        lda = B.stride()[0]
         ldc = sB[1]
     elif len(sB) == 3:
         # special case
@@ -1446,7 +1446,7 @@ def cutlass3_gemm(
         n = sA[2]
         k = sB[0] * sB[1]
 
-        lda = m
+        lda = n
         ldb = sA[2]
         ldc = m
 
@@ -1454,7 +1454,7 @@ def cutlass3_gemm(
 
     # B^T @ A^T = C^T
     # [km, nk -> mn]
-    lda = ldb = ldc = 1
+    #lda = ldb = ldc = 1
     #lda = 1
     #print(m, n, k, lda, ldb, ldc)
     is_on_gpu([B, A, out])
@@ -1466,7 +1466,7 @@ def cutlass3_gemm(
     ldc = ct.c_int32(ldc)
     alpha = ct.c_float(1.0)
     beta = ct.c_float(0.0)
-    lib.ccutlass_gemm(m, n, k, alpha, get_ptr(A), ldb, get_ptr(B), lda, beta, get_ptr(out), ldc)
+    lib.ccutlass_gemm(m, n, k, alpha, get_ptr(A), lda, get_ptr(B), ldb, beta, get_ptr(out), ldc)
 
     return out
 
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 775716f..91169dd 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2947,9 +2947,11 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 //// 9. write outputs to matmul output matrix
 //}
 
+
+#define ROWS 2
 __global__ void gemm_device(int M, int N, int K,
             float const* A, 
-            float const* B, 
+            float* B, 
             float      * out,  int lda, int ldb, int ldc,
             float alpha, float beta)
 {
@@ -2958,29 +2960,106 @@ __global__ void gemm_device(int M, int N, int K,
 // 2. Dequantize B
 // 3. Fetch data from A and multiply
 
-  typedef cub::BlockLoad<float, 256 , 1, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
-  __shared__ typename LoadA::TempStorage loada;
-	float dataA[1];
+  typedef cub::BlockLoad<float, 256 , 4, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
+  //__shared__ typename LoadA::TempStorage loada;
+  typedef cub::BlockLoad<float, 256 , 4, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadB;
+  //__shared__ typename LoadB::TempStorage loadb;
+  typedef cub::BlockReduce<float, 256> BlockReduce;
+  // Allocate shared memory for BlockReduce
+  //__shared__ typename BlockReduce::TempStorage reduce;
+
+  __shared__ union {
+    typename BlockReduce::TempStorage reduce;
+    typename LoadB::TempStorage loadb;
+    typename LoadA::TempStorage loada;
+  } temp_storage;
+
+
+	float dataA[4];
+  float local_B[4];
+  float local_accC[ROWS];
 	int valid_items = 0;
+  const int warp_id = threadIdx.x/32;
+  const int warp_lane = threadIdx.x % 32;
+  const int col_offset = blockIdx.x * 8;
 
-	__shared__ float[16*256] tileA;
+	__shared__ float tileA[ROWS*1024];
+	__shared__ float accumulatorC[ROWS*8];
+
+  //#pragma unroll 8
+  //for(int i = 0; i < 8; i++)
+  //  tileA[threadIdx.x + (i*256)] = 0.0f;
+  //__syncthreads();
+  if(threadIdx.x < 64)
+    accumulatorC[threadIdx.x] = 0.0f;
+  __syncthreads();
 
 
-	for(int idxA = 0; idxA < M*K; idxA+= 256)
+	for(int inner_idx = 0; inner_idx < K; inner_idx+= 1024)
 	{
-		valid_items = M*K - idxA > 256 ? 256 : M*K - idxA;
+		valid_items = K - inner_idx > 1024 ? 1024 : K - inner_idx;
 		int baserow = 0;
-		for(int row = baserow; row < baserow+16 && row < M + ; row++)
+		for(int row = baserow; row < (baserow+ROWS) && row < N; row++)
 		{
-			LoadA(loada).Load(&(A[(row*lda) + i]), dataA, valid_items, 0.0f);
-			tileA[row*256 + threadIdx.x] = dataA[0];
+			LoadA(temp_storage.loada).Load(&(A[(row*K) + inner_idx]), dataA, valid_items, 0.0f);
+
+      #pragma unroll 4
+      for(int k = 0; k < 4; k++)
+          tileA[row*1024 + threadIdx.x + (k*blockDim.x)] = dataA[k];
+
 		__syncthreads();
 		}
-		baserow += 16;
+		baserow += ROWS;
 
+    // load 16 columns from B at a time. B is transposed, so its like loading rows
+    // each warp loads one row
+    // each thread loads 128 byte
 
+    // col: inner_idx + warp_lane
+    // row: ldb*(offset + warp_id)
+    for(int col = 0; col < 8 && (col_offset + col) < M; col++)
+    {
+      int colB = col_offset + col;
+
+      for(int k = 0; k < ROWS; k++)
+        local_accC[k] = 0.0f;
+
+      int base_idxB = ldb*colB;
+      valid_items = K - inner_idx > 1024 ? 1024 : K - inner_idx;
+      LoadB(temp_storage.loadb).Load(&(B[base_idxB + inner_idx]), local_B, valid_items, 0.0f);
+      __syncthreads();
+
+      for(int row = 0; row < ROWS && row < N; row++)
+      {
+        #pragma unroll 4
+        for(int k = 0; k < 4; k++)
+        {
+          int idxA = row*1024 + threadIdx.x + (blockDim.x*k);
+          local_accC[row] += tileA[idxA]*local_B[k];
+        }
+
+        local_accC[row] = BlockReduce(temp_storage.reduce).Reduce(local_accC[row], cub::Sum());
+        if(threadIdx.x == 0)
+          atomicAdd(&accumulatorC[row*8 + col], local_accC[row]);
+      }
+    }
 	}
 
+  for(int row = 0; row < ROWS && row < N; row++)
+  {
+    int out_idx = ldc*row + col_offset;
+
+    //if(threadIdx.x < 8)
+    //  if(accumulatorC[row*8 + threadIdx.x] != 0.0)
+    //    printf("%i %i %i %i %f idx %i %i %i\n", row, col_offset, threadIdx.x, N, accumulatorC[row*8 + threadIdx.x], ldc, out_idx, blockIdx.x);
+
+    if(threadIdx.x < 8 && (col_offset + threadIdx.x) < M)
+    {
+      //printf("%i %i %i %i %f idx %i %i\n", row, col_offset, threadIdx.x, N, accumulatorC[row*8 + threadIdx.x], ldc, out_idx);
+      out[out_idx + threadIdx.x] = accumulatorC[row*8 + threadIdx.x];
+    }
+  }
+
 
 
 }
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index 37e214a..55397e7 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -140,7 +140,7 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 
 __global__ void gemm_device(int M, int N, int K,
             float const* A, 
-            float const* B, 
+            float * B, 
             float      * out,  int lda, int ldb, int ldc,
             float alpha, float beta);
 
diff --git a/csrc/ops.cu b/csrc/ops.cu
index ee585bb..dd8fade 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -669,8 +669,6 @@ void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
   int threads = 256;
   int num_blocks = (n+(256*batch_size)+1)/(batch_size*256);
 
-  printf("%i %i\n", num_blocks, batch_size);
-
   with_staging_unified<2><<<num_blocks, threads>>>(A, B, n, batch_size);
   CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }
@@ -680,15 +678,22 @@ void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
 void gemm_host(int m, int n, int k,
      float alpha,
      float const* A, int lda,
-     float const* B, int ldb,
+     float * B, int ldb,
      float beta,
      float      * C, int ldc)
 {
 
   dim3 dimBlock(256);
-	int num_blocks = (n+31)/32;
+	int num_blocks = (m+7)/8;
 
 	cout << num_blocks << endl;
+	cout << lda << endl;
+	cout << ldb << endl;
+	cout << ldc << endl;
+
+	cout << m << endl;
+	cout << n << endl;
+	cout << k << endl;
   gemm_device
       <<< num_blocks, dimBlock, 0, 0 >>>
       (m,  n,  k,
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index 83dd4e5..2f71966 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -193,7 +193,7 @@ void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rows
 void gemm_host(int m, int n, int k,
      float alpha,
      float const* A, int ldA,
-     float const* B, int ldB,
+     float * B, int ldB,
      float beta,
      float      * C, int ldC);
 
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index 170093f..6ec5501 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -24,7 +24,7 @@ void
 cppgemm(int m, int n, int k,
      float alpha,
      float const* A, int ldA,
-     float const* B, int ldB,
+     float * B, int ldB,
      float beta,
      float      * C, int ldC)
 { gemm_host(m, n, k, alpha, A, ldA, B, ldB, beta, C, ldC);}
@@ -320,7 +320,7 @@ extern "C"
 	void ccutlass_gemm(int m, int n, int k,
      float alpha,
      float const* A, int ldA,
-     float const* B, int ldB,
+     float * B, int ldB,
      float beta,
      float      * C, int ldC)
 		{ cppgemm(m, n, k, alpha, A, ldA, B, ldB, beta, C, ldC);}
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 7dec375..087bc84 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2353,17 +2353,19 @@ def test_normal_map_tree():
 
 
 def test_cutlass3_gemm():
-    #A = torch.rand(2, 2).cuda()
-    #B = torch.rand(2, 2).cuda()
-    A = torch.arange(4).reshape(2, 2).float().cuda().contiguous()
-    B = torch.ones(2, 2).float().cuda()
+    A = torch.rand(2, 4092).cuda()
+    B = torch.rand(4*4092, 4092).cuda()
 
-    print('')
-    print(A)
-    print(B)
+    #print('')
+    #print(A)
+    #print(B.t())
 
-    C1 = torch.matmul(A, B)
-    C2 = F.cutlass3_gemm(A, B)
+    C1 = torch.matmul(A, B.t())
+    C2 = F.cutlass3_gemm(A, B.t())
+    #print(C1)
+    #print(C2)
+
+    torch.testing.assert_close(C1, C2)
 
 
 def test_pipeline_func():

From 3aef78342aec4fff1922c0c2cdd83bdda928b536 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 28 Apr 2023 17:34:08 -0700
Subject: [PATCH 61/97] Added template refactor.

---
 bitsandbytes/functional.py |  4 +---
 csrc/kernels.cu            | 23 ++++++++++-------------
 csrc/kernels.cuh           |  6 +-----
 csrc/ops.cu                | 11 +++--------
 csrc/ops.cuh               |  7 +------
 csrc/pythonInterface.c     | 19 ++++---------------
 6 files changed, 20 insertions(+), 50 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index 774e954..da4e66c 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -1464,9 +1464,7 @@ def cutlass3_gemm(
     lda = ct.c_int32(lda)
     ldb = ct.c_int32(ldb)
     ldc = ct.c_int32(ldc)
-    alpha = ct.c_float(1.0)
-    beta = ct.c_float(0.0)
-    lib.ccutlass_gemm(m, n, k, alpha, get_ptr(A), lda, get_ptr(B), ldb, beta, get_ptr(out), ldc)
+    lib.cgemm_host_fp32(m, n, k, get_ptr(A), get_ptr(B), get_ptr(out), lda, ldb, ldc)
 
     return out
 
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 91169dd..45db448 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2949,22 +2949,18 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 
 
 #define ROWS 2
-__global__ void gemm_device(int M, int N, int K,
-            float const* A, 
-            float* B, 
-            float      * out,  int lda, int ldb, int ldc,
-            float alpha, float beta)
+template <typename T> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 // 0. We want to fill a 8x128 tile for a thread block so we have 8x16 tile for each warp
 // 1. Load dataB into register
 // 2. Dequantize B
 // 3. Fetch data from A and multiply
 
-  typedef cub::BlockLoad<float, 256 , 4, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
+  typedef cub::BlockLoad<T, 256 , 4, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
   //__shared__ typename LoadA::TempStorage loada;
-  typedef cub::BlockLoad<float, 256 , 4, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadB;
+  typedef cub::BlockLoad<T, 256 , 4, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadB;
   //__shared__ typename LoadB::TempStorage loadb;
-  typedef cub::BlockReduce<float, 256> BlockReduce;
+  typedef cub::BlockReduce<T, 256> BlockReduce;
   // Allocate shared memory for BlockReduce
   //__shared__ typename BlockReduce::TempStorage reduce;
 
@@ -2975,16 +2971,16 @@ __global__ void gemm_device(int M, int N, int K,
   } temp_storage;
 
 
-	float dataA[4];
-  float local_B[4];
-  float local_accC[ROWS];
+	T dataA[4];
+  T local_B[4];
+  T local_accC[ROWS];
 	int valid_items = 0;
   const int warp_id = threadIdx.x/32;
   const int warp_lane = threadIdx.x % 32;
   const int col_offset = blockIdx.x * 8;
 
-	__shared__ float tileA[ROWS*1024];
-	__shared__ float accumulatorC[ROWS*8];
+	__shared__ T tileA[ROWS*1024];
+	__shared__ T accumulatorC[ROWS*8];
 
   //#pragma unroll 8
   //for(int i = 0; i < 8; i++)
@@ -3128,6 +3124,7 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 //            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
 //            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
 //            half alpha, half beta);
+template __global__ void gemm_device<float>(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
 
 
 //template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index 55397e7..900af90 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -138,10 +138,6 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 template <size_t stages_count /* Pipeline with stages_count stages */>
 __global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz);
 
-__global__ void gemm_device(int M, int N, int K,
-            float const* A, 
-            float * B, 
-            float      * out,  int lda, int ldb, int ldc,
-            float alpha, float beta);
+template <typename T> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc);
 
 #endif
diff --git a/csrc/ops.cu b/csrc/ops.cu
index dd8fade..6aaa241 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -675,12 +675,7 @@ void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
 
 
 
-void gemm_host(int m, int n, int k,
-     float alpha,
-     float const* A, int lda,
-     float * B, int ldb,
-     float beta,
-     float      * C, int ldc)
+template <typename T> void gemm_host(int m, int n, int k, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
   dim3 dimBlock(256);
@@ -699,14 +694,14 @@ void gemm_host(int m, int n, int k,
       (m,  n,  k,
        A, 
        B, 
-       C, lda, ldb, ldc,
-       alpha, beta);
+       out, lda, ldb, ldc);
 }
 
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================
 
+template void gemm_host<float>(int m, int n, int k, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template void extractOutliers<COL_TURING>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 template void extractOutliers<COL_AMPERE>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index 2f71966..b7ef9a3 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -190,12 +190,7 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 
 void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB);
 
-void gemm_host(int m, int n, int k,
-     float alpha,
-     float const* A, int ldA,
-     float * B, int ldB,
-     float beta,
-     float      * C, int ldC);
+template <typename T> void gemm_host(int m, int n, int k, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc);
 
 
 void pipeline_test(float *A, float *B, size_t n, size_t batch_size);
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index 6ec5501..a7c4787 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -20,14 +20,8 @@ void estimateQuantiles_fp32(float *A, float *code, float offset, int n){ estimat
 void estimateQuantiles_fp16(half *A, float *code, float offset, int n){ estimateQuantiles<half>(A, code, offset, n); }
 
 
-void 
-cppgemm(int m, int n, int k,
-     float alpha,
-     float const* A, int ldA,
-     float * B, int ldB,
-     float beta,
-     float      * C, int ldC)
-{ gemm_host(m, n, k, alpha, A, ldA, B, ldB, beta, C, ldC);}
+void gemm_host_fp32(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc)
+{ gemm_host<float>(M, N, K, A, B, out, lda, ldb, ldc); }
 
 
 #define MAKE_FUNC32(fname, oname, gtype, gbits) \
@@ -317,13 +311,8 @@ extern "C"
 	void cextractOutliers_ampere(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_ampere(A, idx, out, idx_size, rows, cols); }
 	void cpipeline_test(float *A, float *B, size_t n, size_t batch_size){ pipeline_test(A, B, n, batch_size); }
 
-	void ccutlass_gemm(int m, int n, int k,
-     float alpha,
-     float const* A, int ldA,
-     float * B, int ldB,
-     float beta,
-     float      * C, int ldC)
-		{ cppgemm(m, n, k, alpha, A, ldA, B, ldB, beta, C, ldC);}
+	void cgemm_host_fp32(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc)
+	{ gemm_host_fp32(M, N, K, A, B, out, lda, ldb, ldc); }
 
 #endif
 	void cquantize_blockwise_cpu_fp32(float *code, float *A, float *absmax, unsigned char *out, long long blocksize, long long n){ quantize_cpu(code, A, absmax, out, blocksize, n); }

From f6df4aef6a7b9c4636061c2701de0a9c3ab10098 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 28 Apr 2023 18:26:52 -0700
Subject: [PATCH 62/97] Added fp16 and thread/item template.

---
 bitsandbytes/functional.py | 11 ++++++++---
 csrc/kernels.cu            | 39 +++++++++++++++++++-------------------
 csrc/kernels.cuh           |  2 +-
 csrc/ops.cu                |  3 ++-
 csrc/pythonInterface.c     |  5 +++++
 tests/test_functional.py   | 28 ++++++++++++++++-----------
 6 files changed, 53 insertions(+), 35 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index da4e66c..b5c622b 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -1381,9 +1381,9 @@ def cutlass3_gemm(
     transposed_A=False,
     transposed_B=False,
 ):
-    sout = check_matmul(A, B, out, transposed_A, transposed_B, expected_type=torch.float32)
+    sout = check_matmul(A, B, out, transposed_A, transposed_B, expected_type=A.dtype)
     if out is None:
-        out = torch.zeros(size=sout, dtype=torch.float32, device=A.device)
+        out = torch.zeros(size=sout, dtype=A.dtype, device=A.device)
 
     sA = A.shape
     sB = B.shape
@@ -1464,7 +1464,12 @@ def cutlass3_gemm(
     lda = ct.c_int32(lda)
     ldb = ct.c_int32(ldb)
     ldc = ct.c_int32(ldc)
-    lib.cgemm_host_fp32(m, n, k, get_ptr(A), get_ptr(B), get_ptr(out), lda, ldb, ldc)
+    if A.dtype == torch.float32:
+        lib.cgemm_host_fp32(m, n, k, get_ptr(A), get_ptr(B), get_ptr(out), lda, ldb, ldc)
+    elif A.dtype == torch.float16:
+        lib.cgemm_host_fp16(m, n, k, get_ptr(A), get_ptr(B), get_ptr(out), lda, ldb, ldc)
+    else:
+        raise NotImplementedError(f'Matmul not implemented for data type {A.dtype}')
 
     return out
 
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 45db448..67f9a3c 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2949,18 +2949,18 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 
 
 #define ROWS 2
-template <typename T> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc)
+template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 // 0. We want to fill a 8x128 tile for a thread block so we have 8x16 tile for each warp
 // 1. Load dataB into register
 // 2. Dequantize B
 // 3. Fetch data from A and multiply
 
-  typedef cub::BlockLoad<T, 256 , 4, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
+  typedef cub::BlockLoad<T, THREADS , ITEMS, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
   //__shared__ typename LoadA::TempStorage loada;
-  typedef cub::BlockLoad<T, 256 , 4, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadB;
+  typedef cub::BlockLoad<T, THREADS , ITEMS, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadB;
   //__shared__ typename LoadB::TempStorage loadb;
-  typedef cub::BlockReduce<T, 256> BlockReduce;
+  typedef cub::BlockReduce<T, THREADS> BlockReduce;
   // Allocate shared memory for BlockReduce
   //__shared__ typename BlockReduce::TempStorage reduce;
 
@@ -2971,15 +2971,13 @@ template <typename T> __global__ void gemm_device(int M, int N, int K, T const*
   } temp_storage;
 
 
-	T dataA[4];
-  T local_B[4];
+	T dataA[ITEMS];
+  T local_B[ITEMS];
   T local_accC[ROWS];
 	int valid_items = 0;
-  const int warp_id = threadIdx.x/32;
-  const int warp_lane = threadIdx.x % 32;
   const int col_offset = blockIdx.x * 8;
 
-	__shared__ T tileA[ROWS*1024];
+	__shared__ T tileA[ROWS*THREADS*ITEMS];
 	__shared__ T accumulatorC[ROWS*8];
 
   //#pragma unroll 8
@@ -2991,17 +2989,17 @@ template <typename T> __global__ void gemm_device(int M, int N, int K, T const*
   __syncthreads();
 
 
-	for(int inner_idx = 0; inner_idx < K; inner_idx+= 1024)
+	for(int inner_idx = 0; inner_idx < K; inner_idx+= THREADS*ITEMS)
 	{
-		valid_items = K - inner_idx > 1024 ? 1024 : K - inner_idx;
+		valid_items = K - inner_idx > THREADS*ITEMS ? THREADS*ITEMS : K - inner_idx;
 		int baserow = 0;
 		for(int row = baserow; row < (baserow+ROWS) && row < N; row++)
 		{
 			LoadA(temp_storage.loada).Load(&(A[(row*K) + inner_idx]), dataA, valid_items, 0.0f);
 
-      #pragma unroll 4
-      for(int k = 0; k < 4; k++)
-          tileA[row*1024 + threadIdx.x + (k*blockDim.x)] = dataA[k];
+      #pragma unroll ITEMS
+      for(int k = 0; k < ITEMS; k++)
+          tileA[row*THREADS*ITEMS + threadIdx.x + (k*THREADS)] = dataA[k];
 
 		__syncthreads();
 		}
@@ -3021,16 +3019,16 @@ template <typename T> __global__ void gemm_device(int M, int N, int K, T const*
         local_accC[k] = 0.0f;
 
       int base_idxB = ldb*colB;
-      valid_items = K - inner_idx > 1024 ? 1024 : K - inner_idx;
+      valid_items = K - inner_idx > THREADS*ITEMS ? THREADS*ITEMS : K - inner_idx;
       LoadB(temp_storage.loadb).Load(&(B[base_idxB + inner_idx]), local_B, valid_items, 0.0f);
       __syncthreads();
 
       for(int row = 0; row < ROWS && row < N; row++)
       {
-        #pragma unroll 4
-        for(int k = 0; k < 4; k++)
+        #pragma unroll ITEMS
+        for(int k = 0; k < ITEMS; k++)
         {
-          int idxA = row*1024 + threadIdx.x + (blockDim.x*k);
+          int idxA = row*THREADS*ITEMS + threadIdx.x + (THREADS*k);
           local_accC[row] += tileA[idxA]*local_B[k];
         }
 
@@ -3124,7 +3122,10 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 //            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
 //            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
 //            half alpha, half beta);
-template __global__ void gemm_device<float>(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<float, 4, 256>(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 4, 256>(int M, int N, int K, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<float, 8, 256>(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 8, 256>(int M, int N, int K, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc);
 
 
 //template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index 900af90..9603e93 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -138,6 +138,6 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 template <size_t stages_count /* Pipeline with stages_count stages */>
 __global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz);
 
-template <typename T> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc);
+template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc);
 
 #endif
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 6aaa241..aa3dacf 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -689,7 +689,7 @@ template <typename T> void gemm_host(int m, int n, int k, T const* A,  T* B,  T
 	cout << m << endl;
 	cout << n << endl;
 	cout << k << endl;
-  gemm_device
+  gemm_device<T, 8, 256>
       <<< num_blocks, dimBlock, 0, 0 >>>
       (m,  n,  k,
        A, 
@@ -702,6 +702,7 @@ template <typename T> void gemm_host(int m, int n, int k, T const* A,  T* B,  T
 //==============================================================
 
 template void gemm_host<float>(int m, int n, int k, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template void gemm_host<half>(int m, int n, int k, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template void extractOutliers<COL_TURING>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 template void extractOutliers<COL_AMPERE>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index a7c4787..3dd0b05 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -22,6 +22,8 @@ void estimateQuantiles_fp16(half *A, float *code, float offset, int n){ estimate
 
 void gemm_host_fp32(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc)
 { gemm_host<float>(M, N, K, A, B, out, lda, ldb, ldc); }
+void gemm_host_fp16(int M, int N, int K, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc)
+{ gemm_host<half>(M, N, K, A, B, out, lda, ldb, ldc); }
 
 
 #define MAKE_FUNC32(fname, oname, gtype, gbits) \
@@ -314,6 +316,9 @@ extern "C"
 	void cgemm_host_fp32(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc)
 	{ gemm_host_fp32(M, N, K, A, B, out, lda, ldb, ldc); }
 
+	void cgemm_host_fp16(int M, int N, int K, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc)
+	{ gemm_host_fp16(M, N, K, A, B, out, lda, ldb, ldc); }
+
 #endif
 	void cquantize_blockwise_cpu_fp32(float *code, float *A, float *absmax, unsigned char *out, long long blocksize, long long n){ quantize_cpu(code, A, absmax, out, blocksize, n); }
 	void cdequantize_blockwise_cpu_fp32(float *code, unsigned char *A, float *absmax, float *out, long long blocksize, long long n){ dequantize_cpu(code, A, absmax, out, blocksize, n); }
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 087bc84..1564306 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2352,20 +2352,26 @@ def test_normal_map_tree():
         print(pivots)
 
 
-def test_cutlass3_gemm():
-    A = torch.rand(2, 4092).cuda()
-    B = torch.rand(4*4092, 4092).cuda()
+#@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
+@pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
+def test_cutlass3_gemm(dtype):
+    for i in range(2):
+        A = torch.rand(2, 4092, dtype=dtype, device='cuda')
+        B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
+        #A = torch.rand(2, 4, dtype=dtype, device='cuda')
+        #B = torch.rand(4, 4, dtype=dtype, device='cuda')
 
-    #print('')
-    #print(A)
-    #print(B.t())
+        #print('')
+        #print(A)
+        #print(B.t())
 
-    C1 = torch.matmul(A, B.t())
-    C2 = F.cutlass3_gemm(A, B.t())
-    #print(C1)
-    #print(C2)
 
-    torch.testing.assert_close(C1, C2)
+        C1 = torch.matmul(A, B.t())
+        C2 = F.cutlass3_gemm(A, B.t())
+        #print(C1)
+        #print(C2)
+
+        #torch.testing.assert_close(C1, C2)
 
 
 def test_pipeline_func():

From f3e97ccbd2cdc1f40fe32e027fb3b5c22a92f09a Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 28 Apr 2023 21:29:40 -0700
Subject: [PATCH 63/97] New implementation for batch size 1.

---
 csrc/kernels.cu          | 271 ++++++++++++++++++++++++++-------------
 csrc/kernels.cuh         |   2 +-
 csrc/ops.cu              |  10 +-
 csrc/ops.cuh             |   2 +-
 csrc/pythonInterface.c   |   8 +-
 tests/test_functional.py |  12 +-
 6 files changed, 199 insertions(+), 106 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 67f9a3c..3310285 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2947,117 +2947,212 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 //// 9. write outputs to matmul output matrix
 //}
 
-
 #define ROWS 2
-template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc)
+template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
-// 0. We want to fill a 8x128 tile for a thread block so we have 8x16 tile for each warp
-// 1. Load dataB into register
-// 2. Dequantize B
-// 3. Fetch data from A and multiply
 
-  typedef cub::BlockLoad<T, THREADS , ITEMS, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
-  //__shared__ typename LoadA::TempStorage loada;
-  typedef cub::BlockLoad<T, THREADS , ITEMS, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadB;
-  //__shared__ typename LoadB::TempStorage loadb;
   typedef cub::BlockReduce<T, THREADS> BlockReduce;
-  // Allocate shared memory for BlockReduce
-  //__shared__ typename BlockReduce::TempStorage reduce;
+  __shared__ typename BlockReduce::TempStorage reduce;
+  int col_offset = blockIdx.x *8;
 
-  __shared__ union {
-    typename BlockReduce::TempStorage reduce;
-    typename LoadB::TempStorage loadb;
-    typename LoadA::TempStorage loada;
-  } temp_storage;
+  T local_A[8];
+  T local_B[8];
+  T local_C[8];
 
+  __shared__ T smem_C[8];
 
-	T dataA[ITEMS];
-  T local_B[ITEMS];
-  T local_accC[ROWS];
-	int valid_items = 0;
-  const int col_offset = blockIdx.x * 8;
-
-	__shared__ T tileA[ROWS*THREADS*ITEMS];
-	__shared__ T accumulatorC[ROWS*8];
-
-  //#pragma unroll 8
-  //for(int i = 0; i < 8; i++)
-  //  tileA[threadIdx.x + (i*256)] = 0.0f;
-  //__syncthreads();
-  if(threadIdx.x < 64)
-    accumulatorC[threadIdx.x] = 0.0f;
+  if(threadIdx.x < 8)
+    smem_C[threadIdx.x] = T(0);
   __syncthreads();
 
+  #pragma unroll 8
+  for(int k = 0; k < 8; k++)
+    local_C[k] = T(0);
 
-	for(int inner_idx = 0; inner_idx < K; inner_idx+= THREADS*ITEMS)
-	{
-		valid_items = K - inner_idx > THREADS*ITEMS ? THREADS*ITEMS : K - inner_idx;
-		int baserow = 0;
-		for(int row = baserow; row < (baserow+ROWS) && row < N; row++)
-		{
-			LoadA(temp_storage.loada).Load(&(A[(row*K) + inner_idx]), dataA, valid_items, 0.0f);
 
-      #pragma unroll ITEMS
-      for(int k = 0; k < ITEMS; k++)
-          tileA[row*THREADS*ITEMS + threadIdx.x + (k*THREADS)] = dataA[k];
+  for(int idx = threadIdx.x*8; idx < K; idx+=blockDim.x*8)
+  {
 
-		__syncthreads();
-		}
-		baserow += ROWS;
-
-    // load 16 columns from B at a time. B is transposed, so its like loading rows
-    // each warp loads one row
-    // each thread loads 128 byte
-
-    // col: inner_idx + warp_lane
-    // row: ldb*(offset + warp_id)
-    for(int col = 0; col < 8 && (col_offset + col) < M; col++)
+    if(idx + 8 <= K)
+      reinterpret_cast<float4(&)[8]>(local_A)[0] = reinterpret_cast<float4*>(A)[idx/8];
+    else
     {
-      int colB = col_offset + col;
-
-      for(int k = 0; k < ROWS; k++)
-        local_accC[k] = 0.0f;
-
-      int base_idxB = ldb*colB;
-      valid_items = K - inner_idx > THREADS*ITEMS ? THREADS*ITEMS : K - inner_idx;
-      LoadB(temp_storage.loadb).Load(&(B[base_idxB + inner_idx]), local_B, valid_items, 0.0f);
-      __syncthreads();
-
-      for(int row = 0; row < ROWS && row < N; row++)
+      for(int k = 0; k < 8; k++)
       {
-        #pragma unroll ITEMS
-        for(int k = 0; k < ITEMS; k++)
-        {
-          int idxA = row*THREADS*ITEMS + threadIdx.x + (THREADS*k);
-          local_accC[row] += tileA[idxA]*local_B[k];
-        }
-
-        local_accC[row] = BlockReduce(temp_storage.reduce).Reduce(local_accC[row], cub::Sum());
-        if(threadIdx.x == 0)
-          atomicAdd(&accumulatorC[row*8 + col], local_accC[row]);
+        if(idx + k < K)
+          local_A[k] = A[idx+k];
+        else
+          local_A[k] = 0.0f;
       }
     }
-	}
 
-  for(int row = 0; row < ROWS && row < N; row++)
-  {
-    int out_idx = ldc*row + col_offset;
 
-    //if(threadIdx.x < 8)
-    //  if(accumulatorC[row*8 + threadIdx.x] != 0.0)
-    //    printf("%i %i %i %i %f idx %i %i %i\n", row, col_offset, threadIdx.x, N, accumulatorC[row*8 + threadIdx.x], ldc, out_idx, blockIdx.x);
-
-    if(threadIdx.x < 8 && (col_offset + threadIdx.x) < M)
+    for(int col = 0; col < 8; col++)
     {
-      //printf("%i %i %i %i %f idx %i %i\n", row, col_offset, threadIdx.x, N, accumulatorC[row*8 + threadIdx.x], ldc, out_idx);
-      out[out_idx + threadIdx.x] = accumulatorC[row*8 + threadIdx.x];
+      int offset_B = (col_offset+col)*ldb;
+      if(idx + 8 <= K)
+        reinterpret_cast<float4(&)[8]>(local_B)[0] = reinterpret_cast<float4*>(B)[(offset_B+idx)/8];
+      else
+      {
+        for(int k = 0; k < 8; k++)
+        {
+          if(idx + k < K)
+            local_B[k] = B[(offset_B+idx)+k];
+          else
+            local_B[k] = 0.0f;
+        }
+      }
+
+      #pragma unroll 8
+      for(int k = 0; k < 8; k++)
+      {
+        local_C[col] += local_A[k]*local_B[k];
+        //if((float)local_A[k] != 0.0 && (float)local_B[k] != 0.0)
+        //  printf("%i %i %f %f %f\n", k, threadIdx.x, (float)local_A[k], (float)local_B[k], (float)local_C[col]);
+      }
+
     }
   }
 
+  #pragma unroll 8
+  for(int k = 0; k < 8; k++)
+  {
+    local_C[k] = BlockReduce(reduce).Reduce(local_C[k], cub::Sum());
+    __syncthreads();
+  }
+
+  if(threadIdx.x == 0)
+    #pragma unroll 8
+    for(int k = 0; k < 8; k++)
+      smem_C[k] = local_C[k];
+  else if(threadIdx.x >= 32)
+    // early return for unused warps
+    return;
+
+  __syncwarp();
+
+
+  //for(int k = 0; k < 8; k++)
+  //  if((float)local_C[k] != 0.0f)
+  //    printf("%i %f\n", threadIdx.x, (float)local_C[k]);
+  
+  if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
+    out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
+
 
 
 }
 
+//#define ROWS 2
+//template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc)
+//{
+//// 0. We want to fill a 8x128 tile for a thread block so we have 8x16 tile for each warp
+//// 1. Load dataB into register
+//// 2. Dequantize B
+//// 3. Fetch data from A and multiply
+//
+//  typedef cub::BlockLoad<T, THREADS , ITEMS, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadA;
+//  //__shared__ typename LoadA::TempStorage loada;
+//  typedef cub::BlockLoad<T, THREADS , ITEMS, cub::BLOCK_LOAD_WARP_TRANSPOSE> LoadB;
+//  //__shared__ typename LoadB::TempStorage loadb;
+//  typedef cub::BlockReduce<T, THREADS> BlockReduce;
+//  // Allocate shared memory for BlockReduce
+//  //__shared__ typename BlockReduce::TempStorage reduce;
+//
+//  __shared__ union {
+//    typename BlockReduce::TempStorage reduce;
+//    typename LoadB::TempStorage loadb;
+//    typename LoadA::TempStorage loada;
+//  } temp_storage;
+//
+//
+//	T dataA[ITEMS];
+//  T local_B[ITEMS];
+//  T local_accC[ROWS];
+//	int valid_items = 0;
+//  const int col_offset = blockIdx.x * 8;
+//
+//	__shared__ T tileA[ROWS*THREADS*ITEMS];
+//	__shared__ T accumulatorC[ROWS*8];
+//
+//  //#pragma unroll 8
+//  //for(int i = 0; i < 8; i++)
+//  //  tileA[threadIdx.x + (i*256)] = 0.0f;
+//  //__syncthreads();
+//  if(threadIdx.x < 64)
+//    accumulatorC[threadIdx.x] = 0.0f;
+//  __syncthreads();
+//
+//
+//	for(int inner_idx = 0; inner_idx < K; inner_idx+= THREADS*ITEMS)
+//	{
+//		valid_items = K - inner_idx > THREADS*ITEMS ? THREADS*ITEMS : K - inner_idx;
+//		int baserow = 0;
+//		for(int row = baserow; row < (baserow+ROWS) && row < N; row++)
+//		{
+//			LoadA(temp_storage.loada).Load(&(A[(row*K) + inner_idx]), dataA, valid_items, 0.0f);
+//
+//      #pragma unroll ITEMS
+//      for(int k = 0; k < ITEMS; k++)
+//          tileA[row*THREADS*ITEMS + threadIdx.x + (k*THREADS)] = dataA[k];
+//
+//		__syncthreads();
+//		}
+//		baserow += ROWS;
+//
+//    // load 16 columns from B at a time. B is transposed, so its like loading rows
+//    // each warp loads one row
+//    // each thread loads 128 byte
+//
+//    // col: inner_idx + warp_lane
+//    // row: ldb*(offset + warp_id)
+//    for(int col = 0; col < 8 && (col_offset + col) < M; col++)
+//    {
+//      int colB = col_offset + col;
+//
+//      for(int k = 0; k < ROWS; k++)
+//        local_accC[k] = 0.0f;
+//
+//      int base_idxB = ldb*colB;
+//      valid_items = K - inner_idx > THREADS*ITEMS ? THREADS*ITEMS : K - inner_idx;
+//      LoadB(temp_storage.loadb).Load(&(B[base_idxB + inner_idx]), local_B, valid_items, 0.0f);
+//      __syncthreads();
+//
+//      for(int row = 0; row < ROWS && row < N; row++)
+//      {
+//        #pragma unroll ITEMS
+//        for(int k = 0; k < ITEMS; k++)
+//        {
+//          int idxA = row*THREADS*ITEMS + threadIdx.x + (THREADS*k);
+//          local_accC[row] += tileA[idxA]*local_B[k];
+//        }
+//
+//        local_accC[row] = BlockReduce(temp_storage.reduce).Reduce(local_accC[row], cub::Sum());
+//        if(threadIdx.x == 0)
+//          atomicAdd(&accumulatorC[row*8 + col], local_accC[row]);
+//      }
+//    }
+//	}
+//
+//  for(int row = 0; row < ROWS && row < N; row++)
+//  {
+//    int out_idx = ldc*row + col_offset;
+//
+//    //if(threadIdx.x < 8)
+//    //  if(accumulatorC[row*8 + threadIdx.x] != 0.0)
+//    //    printf("%i %i %i %i %f idx %i %i %i\n", row, col_offset, threadIdx.x, N, accumulatorC[row*8 + threadIdx.x], ldc, out_idx, blockIdx.x);
+//
+//    if(threadIdx.x < 8 && (col_offset + threadIdx.x) < M)
+//    {
+//      //printf("%i %i %i %i %f idx %i %i\n", row, col_offset, threadIdx.x, N, accumulatorC[row*8 + threadIdx.x], ldc, out_idx);
+//      out[out_idx + threadIdx.x] = accumulatorC[row*8 + threadIdx.x];
+//    }
+//  }
+//
+//
+//
+//}
+
 
 __device__ void compute(float* global_out, float const* shared_in)
 {
@@ -3122,10 +3217,8 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 //            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
 //            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
 //            half alpha, half beta);
-template __global__ void gemm_device<float, 4, 256>(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
-template __global__ void gemm_device<half, 4, 256>(int M, int N, int K, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc);
-template __global__ void gemm_device<float, 8, 256>(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
-template __global__ void gemm_device<half, 8, 256>(int M, int N, int K, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<float, 16, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 16, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 
 
 //template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index 9603e93..23ecf45 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -138,6 +138,6 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 template <size_t stages_count /* Pipeline with stages_count stages */>
 __global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz);
 
-template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc);
+template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc);
 
 #endif
diff --git a/csrc/ops.cu b/csrc/ops.cu
index aa3dacf..c0c2658 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -675,10 +675,10 @@ void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
 
 
 
-template <typename T> void gemm_host(int m, int n, int k, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc)
+template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
-  dim3 dimBlock(256);
+  dim3 dimBlock(128);
 	int num_blocks = (m+7)/8;
 
 	cout << num_blocks << endl;
@@ -689,7 +689,7 @@ template <typename T> void gemm_host(int m, int n, int k, T const* A,  T* B,  T
 	cout << m << endl;
 	cout << n << endl;
 	cout << k << endl;
-  gemm_device<T, 8, 256>
+  gemm_device<T, 16, 128>
       <<< num_blocks, dimBlock, 0, 0 >>>
       (m,  n,  k,
        A, 
@@ -701,8 +701,8 @@ template <typename T> void gemm_host(int m, int n, int k, T const* A,  T* B,  T
 //                   TEMPLATE DEFINITIONS
 //==============================================================
 
-template void gemm_host<float>(int m, int n, int k, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc);
-template void gemm_host<half>(int m, int n, int k, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template void gemm_host<half>(int m, int n, int k, half * A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template void extractOutliers<COL_TURING>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 template void extractOutliers<COL_AMPERE>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index b7ef9a3..8822640 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -190,7 +190,7 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 
 void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB);
 
-template <typename T> void gemm_host(int m, int n, int k, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc);
+template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc);
 
 
 void pipeline_test(float *A, float *B, size_t n, size_t batch_size);
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index 3dd0b05..f92b52f 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -20,9 +20,9 @@ void estimateQuantiles_fp32(float *A, float *code, float offset, int n){ estimat
 void estimateQuantiles_fp16(half *A, float *code, float offset, int n){ estimateQuantiles<half>(A, code, offset, n); }
 
 
-void gemm_host_fp32(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc)
+void gemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
 { gemm_host<float>(M, N, K, A, B, out, lda, ldb, ldc); }
-void gemm_host_fp16(int M, int N, int K, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc)
+void gemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
 { gemm_host<half>(M, N, K, A, B, out, lda, ldb, ldc); }
 
 
@@ -313,10 +313,10 @@ extern "C"
 	void cextractOutliers_ampere(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_ampere(A, idx, out, idx_size, rows, cols); }
 	void cpipeline_test(float *A, float *B, size_t n, size_t batch_size){ pipeline_test(A, B, n, batch_size); }
 
-	void cgemm_host_fp32(int M, int N, int K, float const* A,  float* B,  float * out,  int lda, int ldb, int ldc)
+	void cgemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
 	{ gemm_host_fp32(M, N, K, A, B, out, lda, ldb, ldc); }
 
-	void cgemm_host_fp16(int M, int N, int K, half const* A,  half* B,  half * out,  int lda, int ldb, int ldc)
+	void cgemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
 	{ gemm_host_fp16(M, N, K, A, B, out, lda, ldb, ldc); }
 
 #endif
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 1564306..f08c4a2 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2355,11 +2355,11 @@ def test_normal_map_tree():
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_cutlass3_gemm(dtype):
-    for i in range(2):
-        A = torch.rand(2, 4092, dtype=dtype, device='cuda')
-        B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
-        #A = torch.rand(2, 4, dtype=dtype, device='cuda')
-        #B = torch.rand(4, 4, dtype=dtype, device='cuda')
+    for i in range(1):
+        #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
+        #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
+        A = torch.rand(1, 4096, dtype=dtype, device='cuda')
+        B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
 
         #print('')
         #print(A)
@@ -2371,7 +2371,7 @@ def test_cutlass3_gemm(dtype):
         #print(C1)
         #print(C2)
 
-        #torch.testing.assert_close(C1, C2)
+        torch.testing.assert_close(C1, C2, atol=1e-05, rtol=0.005)
 
 
 def test_pipeline_func():

From cad839941b2c0a013525be339f6e9c157caa925d Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Fri, 28 Apr 2023 22:10:42 -0700
Subject: [PATCH 64/97] Added bit template.

---
 csrc/kernels.cu          | 77 +++++++++++++++++-----------------------
 csrc/kernels.cuh         |  2 +-
 csrc/ops.cu              | 16 ++++-----
 csrc/ops.cuh             |  2 +-
 csrc/pythonInterface.c   |  4 +--
 tests/test_functional.py |  4 +--
 6 files changed, 45 insertions(+), 60 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 3310285..a5697ee 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -2947,16 +2947,31 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 //// 9. write outputs to matmul output matrix
 //}
 
-#define ROWS 2
-template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
+template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_load(T *local, T * __restrict__ const buffer, int idx, int limit_base, int limit)
+{
+    if(limit_base + ITEMS <= limit)
+      reinterpret_cast<TCAST*>(local)[0] = reinterpret_cast<TCAST*>(buffer)[idx/ITEMS];
+    else
+    {
+      for(int k = 0; k < ITEMS; k++)
+      {
+        if(limit_base + k < limit)
+          local[k] = buffer[idx+k];
+        else
+          local[k] = 0.0f;
+      }
+    }
+}
+
+template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
   typedef cub::BlockReduce<T, THREADS> BlockReduce;
   __shared__ typename BlockReduce::TempStorage reduce;
   int col_offset = blockIdx.x *8;
 
-  T local_A[8];
-  T local_B[8];
+  T local_A[128/BITS];
+  T local_B[128/BITS];
   T local_C[8];
 
   __shared__ T smem_C[8];
@@ -2970,47 +2985,18 @@ template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M,
     local_C[k] = T(0);
 
 
-  for(int idx = threadIdx.x*8; idx < K; idx+=blockDim.x*8)
+  for(int idx = threadIdx.x*128/BITS; idx < K; idx+=blockDim.x*128/BITS)
   {
-
-    if(idx + 8 <= K)
-      reinterpret_cast<float4(&)[8]>(local_A)[0] = reinterpret_cast<float4*>(A)[idx/8];
-    else
-    {
-      for(int k = 0; k < 8; k++)
-      {
-        if(idx + k < K)
-          local_A[k] = A[idx+k];
-        else
-          local_A[k] = 0.0f;
-      }
-    }
-
+    vector_load<T, int4, 128/BITS>(local_A, A, idx, idx, K);
 
     for(int col = 0; col < 8; col++)
     {
       int offset_B = (col_offset+col)*ldb;
-      if(idx + 8 <= K)
-        reinterpret_cast<float4(&)[8]>(local_B)[0] = reinterpret_cast<float4*>(B)[(offset_B+idx)/8];
-      else
-      {
-        for(int k = 0; k < 8; k++)
-        {
-          if(idx + k < K)
-            local_B[k] = B[(offset_B+idx)+k];
-          else
-            local_B[k] = 0.0f;
-        }
-      }
+      vector_load<T, int4, 128/BITS>(local_B, B, offset_B+idx, idx, K);
 
-      #pragma unroll 8
-      for(int k = 0; k < 8; k++)
-      {
+      #pragma unroll 128/BITS
+      for(int k = 0; k < 128/BITS; k++)
         local_C[col] += local_A[k]*local_B[k];
-        //if((float)local_A[k] != 0.0 && (float)local_B[k] != 0.0)
-        //  printf("%i %i %f %f %f\n", k, threadIdx.x, (float)local_A[k], (float)local_B[k], (float)local_C[col]);
-      }
-
     }
   }
 
@@ -3022,9 +3008,11 @@ template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M,
   }
 
   if(threadIdx.x == 0)
+  {
     #pragma unroll 8
     for(int k = 0; k < 8; k++)
       smem_C[k] = local_C[k];
+  }
   else if(threadIdx.x >= 32)
     // early return for unused warps
     return;
@@ -3032,15 +3020,8 @@ template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M,
   __syncwarp();
 
 
-  //for(int k = 0; k < 8; k++)
-  //  if((float)local_C[k] != 0.0f)
-  //    printf("%i %f\n", threadIdx.x, (float)local_C[k]);
-  
   if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
     out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
-
-
-
 }
 
 //#define ROWS 2
@@ -3217,7 +3198,13 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 //            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
 //            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
 //            half alpha, half beta);
+
+// these are not used and make no sense, but the compiler needs them
 template __global__ void gemm_device<float, 16, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 32, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+// these are not used and make no sense, but the compiler needs them
+
+template __global__ void gemm_device<float, 32, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 
 
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index 23ecf45..aab7b95 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -138,6 +138,6 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 template <size_t stages_count /* Pipeline with stages_count stages */>
 __global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz);
 
-template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc);
+template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc);
 
 #endif
diff --git a/csrc/ops.cu b/csrc/ops.cu
index c0c2658..2219690 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -675,7 +675,7 @@ void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
 
 
 
-template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc)
+template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits)
 {
 
   dim3 dimBlock(128);
@@ -689,20 +689,18 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
 	cout << m << endl;
 	cout << n << endl;
 	cout << k << endl;
-  gemm_device<T, 16, 128>
-      <<< num_blocks, dimBlock, 0, 0 >>>
-      (m,  n,  k,
-       A, 
-       B, 
-       out, lda, ldb, ldc);
+  if(bits == 32)
+    gemm_device<T, 32, 128><<< num_blocks, dimBlock, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+  else if(bits == 16)
+    gemm_device<T, 16, 128><<< num_blocks, dimBlock, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
 }
 
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================
 
-template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc);
-template void gemm_host<half>(int m, int n, int k, half * A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc, int bits);
+template void gemm_host<half>(int m, int n, int k, half * A,  half* B,  half * out,  int lda, int ldb, int ldc, int bits);
 template void extractOutliers<COL_TURING>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 template void extractOutliers<COL_AMPERE>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index 8822640..ffc9e87 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -190,7 +190,7 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 
 void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB);
 
-template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc);
+template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits);
 
 
 void pipeline_test(float *A, float *B, size_t n, size_t batch_size);
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index f92b52f..1ece3e6 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -21,9 +21,9 @@ void estimateQuantiles_fp16(half *A, float *code, float offset, int n){ estimate
 
 
 void gemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
-{ gemm_host<float>(M, N, K, A, B, out, lda, ldb, ldc); }
+{ gemm_host<float>(M, N, K, A, B, out, lda, ldb, ldc, 32); }
 void gemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
-{ gemm_host<half>(M, N, K, A, B, out, lda, ldb, ldc); }
+{ gemm_host<half>(M, N, K, A, B, out, lda, ldb, ldc, 16); }
 
 
 #define MAKE_FUNC32(fname, oname, gtype, gbits) \
diff --git a/tests/test_functional.py b/tests/test_functional.py
index f08c4a2..b256af9 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2352,8 +2352,8 @@ def test_normal_map_tree():
         print(pivots)
 
 
-#@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
-@pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
+@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
+#@pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_cutlass3_gemm(dtype):
     for i in range(1):
         #A = torch.rand(2, 4092, dtype=dtype, device='cuda')

From 21723f796a3951e56b77460e7d572c76619b773f Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 29 Apr 2023 21:52:47 -0700
Subject: [PATCH 65/97] 4-bit draft.

---
 bitsandbytes/functional.py |  22 +++-
 csrc/kernels.cu            | 222 +++++++++++++++++++++++++++++++++----
 csrc/kernels.cuh           |   1 +
 csrc/ops.cu                |  18 +++
 csrc/ops.cuh               |   1 +
 csrc/pythonInterface.c     |   6 +
 tests/test_functional.py   |  30 ++++-
 7 files changed, 273 insertions(+), 27 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index b5c622b..f725c1c 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -1380,10 +1380,15 @@ def cutlass3_gemm(
     out: Tensor = None,
     transposed_A=False,
     transposed_B=False,
+    state=None
 ):
-    sout = check_matmul(A, B, out, transposed_A, transposed_B, expected_type=A.dtype)
+    #sout = check_matmul(A, B, out, transposed_A, transposed_B, expected_type=A.dtype)
+    if state is None:
+        Bshape = B.shape
+    else:
+        Bshape = state[1]
     if out is None:
-        out = torch.zeros(size=sout, dtype=A.dtype, device=A.device)
+        out = torch.zeros(size=(A.shape[0], Bshape[1]), dtype=A.dtype, device=A.device)
 
     sA = A.shape
     sB = B.shape
@@ -1456,7 +1461,13 @@ def cutlass3_gemm(
     # [km, nk -> mn]
     #lda = ldb = ldc = 1
     #lda = 1
-    #print(m, n, k, lda, ldb, ldc)
+    if state is not None:
+        m = Bshape[0]
+        k = Bshape[1]
+        lda = Bshape[1]
+        ldc = Bshape[0]
+        ldb = (ldb+1)//2
+    print(m, n, k, lda, ldb, ldc)
     is_on_gpu([B, A, out])
     m = ct.c_int32(m)
     n = ct.c_int32(n)
@@ -1464,7 +1475,10 @@ def cutlass3_gemm(
     lda = ct.c_int32(lda)
     ldb = ct.c_int32(ldb)
     ldc = ct.c_int32(ldc)
-    if A.dtype == torch.float32:
+
+    if B.dtype == torch.uint8:
+        lib.cgemm_4bit_inference(m, n, k, get_ptr(A), get_ptr(B), get_ptr(state[0]), get_ptr(out), lda, ldb, ldc, ct.c_int32(state[3]))
+    elif A.dtype == torch.float32:
         lib.cgemm_host_fp32(m, n, k, get_ptr(A), get_ptr(B), get_ptr(out), lda, ldb, ldc)
     elif A.dtype == torch.float16:
         lib.cgemm_host_fp16(m, n, k, get_ptr(A), get_ptr(B), get_ptr(out), lda, ldb, ldc)
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index a5697ee..53a183d 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -69,6 +69,27 @@ __device__ float dDequantizeFP4(unsigned char val, float absmax)
   }
 }
 
+__device__ float d2DequantizeFP4(unsigned char val)
+{
+  float sign = (val & 0b1000) == 8 ? -1.0f : 1.0f;
+  if((val & 0b0110) == 0)
+  {
+    // subnormal
+    if((val & 0b0001) == 0)
+      return 0.0f;
+    else
+      return sign*0.0625f;
+  }
+  else
+  {
+    // normal
+    float exponent = ((val & 0b0100) == 4 ? 2.0f : 8.0f) + ((val & 0b0010) == 2 ? 0.0f : 2.0f);
+    float fraction = (val & 0b0001) == 1 ? 1.5f : 1.0f;
+
+    return sign*exponent*fraction;
+  }
+}
+
 __device__ float dDequantizeFP4Tree(unsigned char val, float absmax)
 {
   float sign = (val & 0b1000) == 8 ? -1.0f : 1.0f;
@@ -145,7 +166,7 @@ __device__ unsigned char dQuantizeFP4(float x)
         return 0b0000+sign;
 }
 
-__device__ float dDequantizeNF4(unsigned char val, float absmax)
+__device__ half dhDequantizeNF4(unsigned char val)
 {
   // the values for this tree was generated by test_normal_map_tree
   // in the file tests/test_functional.py
@@ -153,49 +174,103 @@ __device__ float dDequantizeNF4(unsigned char val, float absmax)
     if((val & 0b0100) == 4) // 1
       if((val & 0b0010) == 2) // 11
         if((val & 0b0001) == 1) // 111
-          return 1.0f*absmax; 
+          return 1.0f; 
         else
-          return 0.7229568362236023f*absmax;
+          return 0.7229568362236023f;
       else
         if((val & 0b0001) == 1) // 110
-          return 0.5626170039176941f*absmax; 
+          return 0.5626170039176941f; 
         else
-          return 0.44070982933044434f*absmax; 
+          return 0.44070982933044434f; 
     else
       if((val & 0b0010) == 2) //10
         if((val & 0b0001) == 1) // 101
-          return 0.33791524171829224f*absmax; 
+          return 0.33791524171829224f; 
         else
-          return 0.24611230194568634f*absmax; 
+          return 0.24611230194568634f; 
       else 
         if((val & 0b0001) == 1) // 100
-          return 0.16093020141124725f*absmax; 
+          return 0.16093020141124725f; 
         else
-          return 0.07958029955625534f*absmax; 
+          return 0.07958029955625534f; 
 
   else
     if((val & 0b0100) == 4) // 0
       if((val & 0b0010) == 2) //01
         if((val & 0b0001) == 1) // 011
-          return 0.0f*absmax; 
+          return 0.0f; 
         else
-          return -0.09105003625154495f*absmax; 
+          return -0.09105003625154495f; 
       else
         if((val & 0b0001) == 1) // 010
-          return -0.18477343022823334f*absmax; 
+          return -0.18477343022823334f; 
         else
-          return -0.28444138169288635f*absmax;
+          return -0.28444138169288635f;
     else
       if((val & 0b0010) == 2) //00
         if((val & 0b0001) == 1) // 001
-          return -0.39491748809814453f*absmax;
+          return -0.39491748809814453f;
         else
-          return -0.5250730514526367f*absmax; 
+          return -0.5250730514526367f; 
       else 
         if((val & 0b0001) == 1) // 000
-          return -0.6961928009986877f*absmax; 
+          return -0.6961928009986877f; 
         else
-          return -1.0f*absmax; 
+          return -1.0f; 
+
+}
+
+__device__ float dDequantizeNF4(unsigned char val)
+{
+  // the values for this tree was generated by test_normal_map_tree
+  // in the file tests/test_functional.py
+  if((val & 0b1000) == 8)
+    if((val & 0b0100) == 4) // 1
+      if((val & 0b0010) == 2) // 11
+        if((val & 0b0001) == 1) // 111
+          return 1.0f; 
+        else
+          return 0.7229568362236023f;
+      else
+        if((val & 0b0001) == 1) // 110
+          return 0.5626170039176941f; 
+        else
+          return 0.44070982933044434f; 
+    else
+      if((val & 0b0010) == 2) //10
+        if((val & 0b0001) == 1) // 101
+          return 0.33791524171829224f; 
+        else
+          return 0.24611230194568634f; 
+      else 
+        if((val & 0b0001) == 1) // 100
+          return 0.16093020141124725f; 
+        else
+          return 0.07958029955625534f; 
+
+  else
+    if((val & 0b0100) == 4) // 0
+      if((val & 0b0010) == 2) //01
+        if((val & 0b0001) == 1) // 011
+          return 0.0f; 
+        else
+          return -0.09105003625154495f; 
+      else
+        if((val & 0b0001) == 1) // 010
+          return -0.18477343022823334f; 
+        else
+          return -0.28444138169288635f;
+    else
+      if((val & 0b0010) == 2) //00
+        if((val & 0b0001) == 1) // 001
+          return -0.39491748809814453f;
+        else
+          return -0.5250730514526367f; 
+      else 
+        if((val & 0b0001) == 1) // 000
+          return -0.6961928009986877f; 
+        else
+          return -1.0f; 
 
 }
 
@@ -800,8 +875,8 @@ __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * abs
           #pragma unroll NUM_PER_TH
           for(int j = 0; j < NUM_PER_TH; j++)
           {
-            vals[j*2] = dDequantizeNF4(qvals[j] >> 4, local_abs_max);
-            vals[j*2 + 1] = dDequantizeNF4(qvals[j] & 0x0F, local_abs_max);
+            vals[j*2] = dDequantizeNF4(qvals[j] >> 4)* local_abs_max;
+            vals[j*2 + 1] = dDequantizeNF4(qvals[j] & 0x0F)* local_abs_max;
           }
           break;
     }
@@ -2947,7 +3022,7 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 //// 9. write outputs to matmul output matrix
 //}
 
-template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_load(T *local, T * __restrict__ const buffer, int idx, int limit_base, int limit)
+template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_load(T *local, T * __restrict__ const buffer, int idx, int limit_base, int limit, float zero_value = 0.0f)
 {
     if(limit_base + ITEMS <= limit)
       reinterpret_cast<TCAST*>(local)[0] = reinterpret_cast<TCAST*>(buffer)[idx/ITEMS];
@@ -2958,7 +3033,7 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
         if(limit_base + k < limit)
           local[k] = buffer[idx+k];
         else
-          local[k] = 0.0f;
+          local[k] = (T)zero_value;
       }
     }
 }
@@ -3024,6 +3099,109 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
 }
 
+template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
+{
+
+  typedef cub::BlockReduce<T, THREADS> BlockReduce;
+  __shared__ typename BlockReduce::TempStorage reduce;
+  int col_offset = blockIdx.x *8;
+
+  T local_A[32];
+  unsigned char local_B_4bit[16];
+  T local_B[32];
+  T local_C[8];
+
+  __shared__ T smem_C[8];
+
+  if(threadIdx.x < 8)
+    smem_C[threadIdx.x] = T(0);
+  __syncthreads();
+
+  #pragma unroll 8
+  for(int k = 0; k < 8; k++)
+    local_C[k] = T(0);
+
+
+  for(int idx = threadIdx.x*32; idx < K; idx+=blockDim.x*32)
+  {
+
+    // we load only 8 values per iteration from A, so we
+    // need to do 4 loads for every single load from B
+    // for B, we have packed values, so the 16 8-bit values
+    // turn into 32 4-bit values to 4x 4 loads turns into 4x 8 loads
+    vector_load<T, int4, 8>(local_A, A, idx, idx, K);
+    vector_load<T, int4, 8>(&(local_A[8]), A, idx+8, idx+8, K);
+    vector_load<T, int4, 8>(&(local_A[16]), A, idx+16, idx+16, K);
+    vector_load<T, int4, 8>(&(local_A[24]), A, idx+24, idx+24, K);
+
+    for(int col = 0; col < 8; col++)
+    {
+      if((col + col_offset) >= M){ break; }
+
+      int offset_B = (col_offset+col)*ldb;
+      // 0111 -> 0.0f in NF4
+      // since we have packed 8-bits, we need cat(0b0111, 0b0111) = 0b01110111
+      vector_load<unsigned char, int4, 16>(local_B_4bit, B, (offset_B+idx+1)/2, (idx+1)/2, (K+1)/2, 0b01110111);
+
+      int absidx = (idx + offset_B)/blocksize;
+      half local_absmax = __ldg(&(absmax[absidx]));
+      //for(int k = 0; k < 16; k++)
+        //printf("%i %i ", local_B_4bit[k] >> 4, local_B_4bit[k] & 0x0F);
+      //printf("\n");
+
+      //vector_load<T, int4, 8>(local_A, A, idx, idx, K);
+
+      #pragma unroll 16
+      for(int k = 0; k < 16; k++)
+      {
+
+        //if(local_B_4bit[k ] != 0b01110111)
+          //printf("(%i %i %i) %i -> %f, %i -> %f\n", threadIdx.x , k, K, local_B_4bit[k ] >> 4, dDequantizeNF4(local_B_4bit[k ] >> 4, local_absmax),
+                                         //local_B_4bit[k ] & 0x0F, dDequantizeNF4(local_B_4bit[k ] & 0x0F, local_absmax));
+        //local_B[k*2] = d2DequantizeFP4(local_B_4bit[k] >> 4);//*local_absmax;
+        //local_B[k*2 + 1] = d2DequantizeFP4(local_B_4bit[k] & 0x0F);//*local_absmax;
+        local_B[k*2] = (half)(local_B_4bit[k] >> 4)*local_absmax;
+        local_B[k*2 + 1] = (half)(local_B_4bit[k] & 0x0F)*local_absmax;
+        //local_B[k*2] = (half)dDequantizeNF4(local_B_4bit[k ] >> 4);//*local_absmax;
+        //local_B[k*2 + 1] = (half)dDequantizeNF4(local_B_4bit[k ] & 0x0F);//*local_absmax;
+      }
+
+      #pragma unroll 32
+      //for(int k = 0; k < 8; k++)
+      for(int k = 0; k < 32; k++)
+      {
+        local_C[col] += local_A[k]*local_B[k];
+        //if((float)local_A[k] != 0.0 && (float)local_B[k] != 0.0)
+        //if((float)local_B[k] != 0.0)
+          //printf("%i %i %i %i %f*%f\n", threadIdx.x, k, col, (float)local_A[k], (float)local_B[k]);
+      }
+    }
+  }
+
+  #pragma unroll 8
+  for(int k = 0; k < 8; k++)
+  {
+    local_C[k] = BlockReduce(reduce).Reduce(local_C[k], cub::Sum());
+    __syncthreads();
+  }
+
+  if(threadIdx.x == 0)
+  {
+    #pragma unroll 8
+    for(int k = 0; k < 8; k++)
+      smem_C[k] = local_C[k];
+  }
+  else if(threadIdx.x >= 32)
+    // early return for unused warps
+    return;
+
+  __syncwarp();
+
+
+  if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
+    out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
+}
+
 //#define ROWS 2
 //template <typename T, int ITEMS, int THREADS> __global__ void gemm_device(int M, int N, int K, T const* A,  T* B,  T * out,  int lda, int ldb, int ldc)
 //{
@@ -3207,6 +3385,8 @@ template __global__ void gemm_device<half, 32, 128>(int M, int N, int K, half *
 template __global__ void gemm_device<float, 32, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 
+template __global__ void kgemm_4bit_inference<half, 128>(int M, int N, int K, half * __restrict__ const A, unsigned char *B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
+
 
 //template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
 template __global__ void with_staging_unified<2>(float const* global_in, float * global_out, size_t size, size_t batch_sz);
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index aab7b95..4951031 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -139,5 +139,6 @@ template <size_t stages_count /* Pipeline with stages_count stages */>
 __global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz);
 
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc);
+template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize);
 
 #endif
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 2219690..07e7107 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -695,10 +695,28 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
     gemm_device<T, 16, 128><<< num_blocks, dimBlock, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
 }
 
+template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
+{
+
+  dim3 dimBlock(128);
+	int num_blocks = (m+7)/8;
+
+	cout << num_blocks << endl;
+	cout << lda << endl;
+	cout << ldb << endl;
+	cout << ldc << endl;
+
+	cout << m << endl;
+	cout << n << endl;
+	cout << k << endl;
+  kgemm_4bit_inference<T, 128><<< num_blocks, dimBlock, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
+}
+
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================
 
+template void gemm_4bit_inference<half>(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
 template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc, int bits);
 template void gemm_host<half>(int m, int n, int k, half * A,  half* B,  half * out,  int lda, int ldb, int ldc, int bits);
 template void extractOutliers<COL_TURING>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index ffc9e87..8919c60 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -191,6 +191,7 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB);
 
 template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits);
+template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize);
 
 
 void pipeline_test(float *A, float *B, size_t n, size_t batch_size);
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index 1ece3e6..bdf821c 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -25,6 +25,9 @@ void gemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  in
 void gemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
 { gemm_host<half>(M, N, K, A, B, out, lda, ldb, ldc, 16); }
 
+void gemm_4bit_inference(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize)
+{ gemm_4bit_inference<half>(m, n, k, A, B, absmax,  out, lda, ldb, ldc, blocksize); }
+
 
 #define MAKE_FUNC32(fname, oname, gtype, gbits) \
 void fname##32bit_g##gbits(gtype *g, gtype *p, \
@@ -319,6 +322,9 @@ extern "C"
 	void cgemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
 	{ gemm_host_fp16(M, N, K, A, B, out, lda, ldb, ldc); }
 
+	void cgemm_4bit_inference(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize)
+	{ gemm_4bit_inference(m, n, k, A, B, absmax, out, lda, ldb, ldc, blocksize); }
+
 #endif
 	void cquantize_blockwise_cpu_fp32(float *code, float *A, float *absmax, unsigned char *out, long long blocksize, long long n){ quantize_cpu(code, A, absmax, out, blocksize, n); }
 	void cdequantize_blockwise_cpu_fp32(float *code, unsigned char *A, float *absmax, float *out, long long blocksize, long long n){ dequantize_cpu(code, A, absmax, out, blocksize, n); }
diff --git a/tests/test_functional.py b/tests/test_functional.py
index b256af9..f58cd43 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2352,8 +2352,8 @@ def test_normal_map_tree():
         print(pivots)
 
 
-@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
-#@pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
+#@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
+@pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_cutlass3_gemm(dtype):
     for i in range(1):
         #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
@@ -2373,6 +2373,32 @@ def test_cutlass3_gemm(dtype):
 
         torch.testing.assert_close(C1, C2, atol=1e-05, rtol=0.005)
 
+#@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
+@pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
+def test_gemm_4bit(dtype):
+    for i in range(1):
+        #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
+        #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
+        #torch.random.manual_seed(17)
+        A = torch.rand(1, 4096, dtype=dtype, device='cuda')
+        B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
+
+        #print('')
+        #print(A)
+        #print(B)
+
+        qB, state = F.quantize_nf4(B)
+        F.dequantize_nf4(qB, state)
+
+
+        C1 = torch.matmul(A, B.t())
+        #C1 = bnb.matmul_4bit(A, qB.t(), state)
+        C2 = F.cutlass3_gemm(A, qB.t(), state=state)
+        #print(C1)
+        #print(C2)
+
+        #torch.testing.assert_close(C1, C2, atol=1e-5, rtol=0.005)
+
 
 def test_pipeline_func():
     a = torch.rand(2, 4).cuda()

From ad07d254fb5cefadf8dcb6020b24fb0baee4e936 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 30 Apr 2023 17:43:02 -0700
Subject: [PATCH 66/97] Slow tensor core solution.

---
 csrc/kernels.cu          | 181 +++++++++++++++++++++++++++++++--------
 csrc/ops.cu              |  17 ++--
 csrc/pythonInterface.c   |   8 +-
 tests/test_functional.py |   2 +
 4 files changed, 160 insertions(+), 48 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 53a183d..24b004b 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -14,6 +14,7 @@
 #include <math_constants.h>
 #include <thrust/host_vector.h>
 #include <thrust/device_vector.h>
+#include <mma.h>
 
 #include <cooperative_groups/memcpy_async.h>
 #include <cuda/pipeline>
@@ -23,6 +24,8 @@
 #define NUM 4
 #define NUM_BLOCK 4096
 
+using namespace nvcuda;
+
 // source: https://stackoverflow.com/questions/17399119/how-do-i-use-atomicmax-on-floating-point-values-in-cuda
 __device__ float atomicMax(float* address, float val) {
   int* address_as_i = reinterpret_cast<int*>(address);
@@ -3041,62 +3044,164 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
-  typedef cub::BlockReduce<T, THREADS> BlockReduce;
-  __shared__ typename BlockReduce::TempStorage reduce;
-  int col_offset = blockIdx.x *8;
+  typedef cub::WarpReduce<half> WarpReduce;
+  // Allocate WarpReduce shared memory for one warp
+  //__shared__ typename WarpReduce::TempStorage temp_storage;
 
-  T local_A[128/BITS];
-  T local_B[128/BITS];
+  //typedef cub::BlockReduce<T, THREADS> BlockReduce;
+  //// Allocate shared memory for BlockReduce
+  //__shared__ typename BlockReduce::TempStorage reduce;
+  int col_offset = blockIdx.x *8;
+  const int warp_id = threadIdx.x / 32;
+  const int warp_lane = threadIdx.x % 32;
+
+  T local_A[64/BITS];
+  T local_B[64/BITS];
   T local_C[8];
 
-  __shared__ T smem_C[8];
+  __shared__ T smem_A[4*32*16];
+  __shared__ T smem_B[4*16*8];
+  __shared__ T smem_C[4*32*8];
 
-  if(threadIdx.x < 8)
-    smem_C[threadIdx.x] = T(0);
+   wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a_frag;
+   wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b_frag;
+   wmma::fragment<wmma::accumulator, 32, 8, 16, half> c_frag;
+
+   wmma::fill_fragment(c_frag, 0.0f);
+
+
+  for(int i = threadIdx.x; i < 32*16*4; i+=blockDim.x)
+    smem_A[i] = T(0);
+
+  for(int i = threadIdx.x; i < 32*8*4; i+=blockDim.x)
+    smem_B[i] = T(0);
+
+  for(int i = threadIdx.x; i < 32*8*THREADS/32; i+=blockDim.x)
+    smem_C[i] = T(0);
   __syncthreads();
 
   #pragma unroll 8
   for(int k = 0; k < 8; k++)
     local_C[k] = T(0);
 
-
-  for(int idx = threadIdx.x*128/BITS; idx < K; idx+=blockDim.x*128/BITS)
+  int block_idx = 0;
+  //for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
+  for(int base_idx = 0; base_idx < K; base_idx+=64)
   {
-    vector_load<T, int4, 128/BITS>(local_A, A, idx, idx, K);
 
-    for(int col = 0; col < 8; col++)
+    int tidx = threadIdx.x*4;
+
+    if(base_idx % (4*blockDim.x) == 0)
     {
-      int offset_B = (col_offset+col)*ldb;
-      vector_load<T, int4, 128/BITS>(local_B, B, offset_B+idx, idx, K);
-
-      #pragma unroll 128/BITS
-      for(int k = 0; k < 128/BITS; k++)
-        local_C[col] += local_A[k]*local_B[k];
+      vector_load<T, int2, 64/BITS>(local_A, A, base_idx+tidx, base_idx+tidx, K); // 54 mu
+      block_idx = 0;
     }
-  }
 
-  #pragma unroll 8
-  for(int k = 0; k < 8; k++)
-  {
-    local_C[k] = BlockReduce(reduce).Reduce(local_C[k], cub::Sum());
+    for(int k = 0; k < 4; k++)
+    {
+      if((threadIdx.x >= block_idx*16) && (threadIdx.x < (block_idx+1)*16))
+        smem_A[(threadIdx.x % 16) + (32*16*k)] = local_A[k]; // 54 mu
+    }
+    block_idx += 1;
+
+    // 4 warps, 1 warps loads in total 4*32=64 values -> 4 columns at a time
+    // we need 8 columns, so 2 loads and smem stores
+    // we need a half-warp to load one column at a time
+    for(int j = 0; j < 2; j++)
+    {
+      int col = warp_id + (j*4);
+      int offset_B = (col_offset+col)*ldb; 
+      vector_load<T, int2, 64/BITS>(local_B, B, offset_B+base_idx+warp_lane*4, base_idx+warp_lane*4, K); // 171 mu
+
+
+      //#pragma unroll 4
+      //for(int k = 0; k < 4; k++)
+      //  if((float)local_B[k] != 0.0)
+      //    printf("%i %i %i %i %f\n", j, warp_id, warp_lane, k, (float)local_B[k]);
+
+      // load and store is different
+      // we wnat to load 64 consequitive values with one warp
+      // but we need to store those across 4 fragments since
+      // the max column width is 16.
+
+      // each 16 values a new tile for each warp
+      //int tile_idx = warp_lane/16;
+      #pragma unroll 4
+      for(int k = 0; k < 4; k++)
+        smem_B[(warp_lane % 16) + (col*16) + (k*16*8)] = local_B[k]; // 171 mu
+    }
+
+
+
     __syncthreads();
+
+    //if(threadIdx.x == 0)
+    //  for(int w = 0; w < 4; w++)
+    //    for(int trow = 0; trow < 32; trow++)
+    //      for(int tcol = 0; tcol < 16; tcol++)
+    //        if((float)smem_A[trow + tcol*32 + (w*32*16)] != 0.0)
+    //          printf("A %i %i %i = %f\n", w, trow, tcol, (float) smem_B[trow + tcol*16]);
+
+    //if(threadIdx.x == 0)
+    //  for(int w = 0; w < 4; w++)
+    //    for(int trow = 0; trow < 16; trow++)
+    //      for(int tcol = 0; tcol < 8; tcol++)
+    //        if((float)smem_B[trow + tcol*16 + (w*16*8)] != 0.0)
+    //          printf("B %i %i %i = %f\n", w, trow, tcol, (float) smem_B[trow + tcol*16]);
+
+
+    //__syncthreads();
+
+    wmma::load_matrix_sync(a_frag, &(smem_A[warp_id*32*16]), 16); //  111 mu
+    wmma::load_matrix_sync(b_frag, &(smem_B[warp_id*16*8]), 16); // 35 mu
+    wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
   }
 
-  if(threadIdx.x == 0)
-  {
-    #pragma unroll 8
-    for(int k = 0; k < 8; k++)
-      smem_C[k] = local_C[k];
-  }
-  else if(threadIdx.x >= 32)
-    // early return for unused warps
-    return;
+  // 129 mu
+  wmma::store_matrix_sync(&(smem_C[warp_id*32*8]), c_frag, 8, wmma::mem_row_major);
+  __syncthreads();
 
-  __syncwarp();
+  //if(threadIdx.x >= 16){ return; }
+  //printf("%i %f\n", threadIdx.x, (float)smem_C[threadIdx.x]);
 
+  //if(threadIdx.x < 32)
+  if(warp_lane < 8 && warp_id > 0)
+    //local_C[warp_lane] = smem_C[warp_lane + (warp_id*32*8)];
+    atomicAdd(&(smem_C[warp_lane]), smem_C[warp_lane + (warp_id*32*8)]);
+  __syncthreads();
 
+    //local_accC[row] = BlockReduce(temp_storage.reduce).Reduce(local_accC[row], cub::Sum());
+  //if(threadIdx.x == 0)
+  //  for(int row = 0; row < 32; row++)
+  //  {
+  //    printf("row %i ", row);
+  //    for(int id = 0; id < 4; id++)
+  //    {
+  //      printf(" id %i: ", id);
+  //      for(int k = 0; k < 8; k++)
+  //        printf("%f ", (float)smem_C[k + (row*8) + (id*32*8)]);
+  //      printf("\n");
+  //    }
+  //  }
+
+  //__syncthreads();
+
+  //if((float)local_C[0] !=0.0f)
+  //  printf("%i %i %f\n", warp_lane, warp_id, (float)local_C[0]);
+  //local_C[0] = WarpReduce(temp_storage).Sum(local_C[0]);
+
+  //__syncwarp();
+
+  ////for(int i = threadIdx.x; i < 32*8; i+=blockDim.x)
+  ////{
+  //  if((float)local_C[0] !=0.0f)
+  //    printf("%i %f\n", 0, (float)local_C[0]);
+  //}
+
+  //if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
+    //out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
   if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
-    out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
+    out[col_offset + threadIdx.x] = smem_C[threadIdx.x];
 }
 
 template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
@@ -3378,12 +3483,16 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 //            half alpha, half beta);
 
 // these are not used and make no sense, but the compiler needs them
-template __global__ void gemm_device<float, 16, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
+//template __global__ void gemm_device<float, 16, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+//template __global__ void gemm_device<float, 16, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 32, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 // these are not used and make no sense, but the compiler needs them
 
-template __global__ void gemm_device<float, 32, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
+//template __global__ void gemm_device<float, 32, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+//template __global__ void gemm_device<float, 32, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 16, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 
 template __global__ void kgemm_4bit_inference<half, 128>(int M, int N, int K, half * __restrict__ const A, unsigned char *B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
 
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 07e7107..d83fc6e 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -678,7 +678,6 @@ void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
 template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits)
 {
 
-  dim3 dimBlock(128);
 	int num_blocks = (m+7)/8;
 
 	cout << num_blocks << endl;
@@ -689,16 +688,17 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
 	cout << m << endl;
 	cout << n << endl;
 	cout << k << endl;
-  if(bits == 32)
-    gemm_device<T, 32, 128><<< num_blocks, dimBlock, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
-  else if(bits == 16)
-    gemm_device<T, 16, 128><<< num_blocks, dimBlock, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+  //if(bits == 32)
+    //gemm_device<T, 32, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    //gemm_device<T, 32, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+  if(bits == 16)
+    gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    //gemm_device<T, 16, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
 }
 
 template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
 {
 
-  dim3 dimBlock(128);
 	int num_blocks = (m+7)/8;
 
 	cout << num_blocks << endl;
@@ -709,7 +709,8 @@ template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsi
 	cout << m << endl;
 	cout << n << endl;
 	cout << k << endl;
-  kgemm_4bit_inference<T, 128><<< num_blocks, dimBlock, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
+  kgemm_4bit_inference<T, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
+  //kgemm_4bit_inference<T, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
 }
 
 //==============================================================
@@ -717,7 +718,7 @@ template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsi
 //==============================================================
 
 template void gemm_4bit_inference<half>(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
-template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc, int bits);
+//template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc, int bits);
 template void gemm_host<half>(int m, int n, int k, half * A,  half* B,  half * out,  int lda, int ldb, int ldc, int bits);
 template void extractOutliers<COL_TURING>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
 template void extractOutliers<COL_AMPERE>(char * A, int *idx, char *out, int idx_size, int rows, int cols);
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index bdf821c..26f16f2 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -20,8 +20,8 @@ void estimateQuantiles_fp32(float *A, float *code, float offset, int n){ estimat
 void estimateQuantiles_fp16(half *A, float *code, float offset, int n){ estimateQuantiles<half>(A, code, offset, n); }
 
 
-void gemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
-{ gemm_host<float>(M, N, K, A, B, out, lda, ldb, ldc, 32); }
+//void gemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
+//{ gemm_host<float>(M, N, K, A, B, out, lda, ldb, ldc, 32); }
 void gemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
 { gemm_host<half>(M, N, K, A, B, out, lda, ldb, ldc, 16); }
 
@@ -316,8 +316,8 @@ extern "C"
 	void cextractOutliers_ampere(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_ampere(A, idx, out, idx_size, rows, cols); }
 	void cpipeline_test(float *A, float *B, size_t n, size_t batch_size){ pipeline_test(A, B, n, batch_size); }
 
-	void cgemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
-	{ gemm_host_fp32(M, N, K, A, B, out, lda, ldb, ldc); }
+	//void cgemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
+	//{ gemm_host_fp32(M, N, K, A, B, out, lda, ldb, ldc); }
 
 	void cgemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
 	{ gemm_host_fp16(M, N, K, A, B, out, lda, ldb, ldc); }
diff --git a/tests/test_functional.py b/tests/test_functional.py
index f58cd43..e2ecdcb 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2358,6 +2358,8 @@ def test_cutlass3_gemm(dtype):
     for i in range(1):
         #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
         #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
+        #A = torch.rand(1, 4096, dtype=dtype, device='cuda')
+        #B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
         A = torch.rand(1, 4096, dtype=dtype, device='cuda')
         B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
 

From 604bb3fb573eee2437c2ed51efbd0e3c1382e060 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 30 Apr 2023 18:06:01 -0700
Subject: [PATCH 67/97] Slow non-vector 530.

---
 csrc/kernels.cu | 106 +++++++++++++++---------------------------------
 csrc/ops.cu     |   4 +-
 2 files changed, 35 insertions(+), 75 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 24b004b..5a6db7d 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3041,6 +3041,7 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
     }
 }
 
+#define WARPS 1
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
@@ -3059,9 +3060,9 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   T local_B[64/BITS];
   T local_C[8];
 
-  __shared__ T smem_A[4*32*16];
-  __shared__ T smem_B[4*16*8];
-  __shared__ T smem_C[4*32*8];
+  __shared__ T smem_A[WARPS*32*16];
+  __shared__ T smem_B[WARPS*16*8];
+  __shared__ T smem_C[WARPS*32*8];
 
    wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a_frag;
    wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b_frag;
@@ -3070,13 +3071,13 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
    wmma::fill_fragment(c_frag, 0.0f);
 
 
-  for(int i = threadIdx.x; i < 32*16*4; i+=blockDim.x)
+  for(int i = threadIdx.x; i < 32*16*WARPS; i+=blockDim.x)
     smem_A[i] = T(0);
 
-  for(int i = threadIdx.x; i < 32*8*4; i+=blockDim.x)
+  for(int i = threadIdx.x; i < 32*8*WARPS; i+=blockDim.x)
     smem_B[i] = T(0);
 
-  for(int i = threadIdx.x; i < 32*8*THREADS/32; i+=blockDim.x)
+  for(int i = threadIdx.x; i < 32*8*WARPS; i+=blockDim.x)
     smem_C[i] = T(0);
   __syncthreads();
 
@@ -3084,91 +3085,48 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   for(int k = 0; k < 8; k++)
     local_C[k] = T(0);
 
-  int block_idx = 0;
+  //int block_idx = 0;
   //for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
-  for(int base_idx = 0; base_idx < K; base_idx+=64)
+  for(int base_idx = 0; base_idx < K; base_idx+=16)
   {
+    int idx = base_idx + threadIdx.x;
 
-    int tidx = threadIdx.x*4;
-
-    if(base_idx % (4*blockDim.x) == 0)
+    if(threadIdx.x < 16)
     {
-      vector_load<T, int2, 64/BITS>(local_A, A, base_idx+tidx, base_idx+tidx, K); // 54 mu
-      block_idx = 0;
+      if(idx >= K)
+      {
+          smem_A[threadIdx.x] = 0.0f;
+          smem_B[threadIdx.x] = 0.0f;
+      }
+      else
+      {
+
+        smem_A[threadIdx.x] = A[idx];
+
+        for(int col = 0; col < 8; col++)
+            smem_B[threadIdx.x + (col*16)] = B[(col_offset+col)*ldb+idx];
+      }
     }
 
-    for(int k = 0; k < 4; k++)
-    {
-      if((threadIdx.x >= block_idx*16) && (threadIdx.x < (block_idx+1)*16))
-        smem_A[(threadIdx.x % 16) + (32*16*k)] = local_A[k]; // 54 mu
-    }
-    block_idx += 1;
-
-    // 4 warps, 1 warps loads in total 4*32=64 values -> 4 columns at a time
-    // we need 8 columns, so 2 loads and smem stores
-    // we need a half-warp to load one column at a time
-    for(int j = 0; j < 2; j++)
-    {
-      int col = warp_id + (j*4);
-      int offset_B = (col_offset+col)*ldb; 
-      vector_load<T, int2, 64/BITS>(local_B, B, offset_B+base_idx+warp_lane*4, base_idx+warp_lane*4, K); // 171 mu
-
-
-      //#pragma unroll 4
-      //for(int k = 0; k < 4; k++)
-      //  if((float)local_B[k] != 0.0)
-      //    printf("%i %i %i %i %f\n", j, warp_id, warp_lane, k, (float)local_B[k]);
-
-      // load and store is different
-      // we wnat to load 64 consequitive values with one warp
-      // but we need to store those across 4 fragments since
-      // the max column width is 16.
-
-      // each 16 values a new tile for each warp
-      //int tile_idx = warp_lane/16;
-      #pragma unroll 4
-      for(int k = 0; k < 4; k++)
-        smem_B[(warp_lane % 16) + (col*16) + (k*16*8)] = local_B[k]; // 171 mu
-    }
-
-
-
     __syncthreads();
 
-    //if(threadIdx.x == 0)
-    //  for(int w = 0; w < 4; w++)
-    //    for(int trow = 0; trow < 32; trow++)
-    //      for(int tcol = 0; tcol < 16; tcol++)
-    //        if((float)smem_A[trow + tcol*32 + (w*32*16)] != 0.0)
-    //          printf("A %i %i %i = %f\n", w, trow, tcol, (float) smem_B[trow + tcol*16]);
-
-    //if(threadIdx.x == 0)
-    //  for(int w = 0; w < 4; w++)
-    //    for(int trow = 0; trow < 16; trow++)
-    //      for(int tcol = 0; tcol < 8; tcol++)
-    //        if((float)smem_B[trow + tcol*16 + (w*16*8)] != 0.0)
-    //          printf("B %i %i %i = %f\n", w, trow, tcol, (float) smem_B[trow + tcol*16]);
-
-
-    //__syncthreads();
-
-    wmma::load_matrix_sync(a_frag, &(smem_A[warp_id*32*16]), 16); //  111 mu
-    wmma::load_matrix_sync(b_frag, &(smem_B[warp_id*16*8]), 16); // 35 mu
+    wmma::load_matrix_sync(a_frag, &(smem_A[0]), 16); //  111 mu
+    wmma::load_matrix_sync(b_frag, &(smem_B[0]), 16); // 35 mu
     wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
   }
 
   // 129 mu
-  wmma::store_matrix_sync(&(smem_C[warp_id*32*8]), c_frag, 8, wmma::mem_row_major);
+  wmma::store_matrix_sync(&(smem_C[0]), c_frag, 8, wmma::mem_row_major);
   __syncthreads();
 
   //if(threadIdx.x >= 16){ return; }
   //printf("%i %f\n", threadIdx.x, (float)smem_C[threadIdx.x]);
 
   //if(threadIdx.x < 32)
-  if(warp_lane < 8 && warp_id > 0)
-    //local_C[warp_lane] = smem_C[warp_lane + (warp_id*32*8)];
-    atomicAdd(&(smem_C[warp_lane]), smem_C[warp_lane + (warp_id*32*8)]);
-  __syncthreads();
+  //if(warp_lane < 8 && warp_id > 0)
+  //  //local_C[warp_lane] = smem_C[warp_lane + (warp_id*32*8)];
+  //  atomicAdd(&(smem_C[warp_lane]), smem_C[warp_lane + (warp_id*32*8)]);
+  //__syncthreads();
 
     //local_accC[row] = BlockReduce(temp_storage.reduce).Reduce(local_accC[row], cub::Sum());
   //if(threadIdx.x == 0)
@@ -3487,12 +3445,14 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 template __global__ void gemm_device<half, 32, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 //template __global__ void gemm_device<float, 16, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 32, 64>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 // these are not used and make no sense, but the compiler needs them
 
 //template __global__ void gemm_device<float, 32, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 //template __global__ void gemm_device<float, 32, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 16, 64>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 
 template __global__ void kgemm_4bit_inference<half, 128>(int M, int N, int K, half * __restrict__ const A, unsigned char *B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
 
diff --git a/csrc/ops.cu b/csrc/ops.cu
index d83fc6e..5c4f9c0 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -692,8 +692,8 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
     //gemm_device<T, 32, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 32, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
   if(bits == 16)
-    gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
-    //gemm_device<T, 16, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    //gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    gemm_device<T, 16, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
 }
 
 template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)

From c35ed09b668db43da967ddeff88c13d92a5cb02a Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 30 Apr 2023 18:19:30 -0700
Subject: [PATCH 68/97] Double frag 440.

---
 csrc/kernels.cu          | 27 ++++++++++++++++-----------
 tests/test_functional.py |  2 +-
 2 files changed, 17 insertions(+), 12 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 5a6db7d..5d1982d 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3053,19 +3053,24 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   //// Allocate shared memory for BlockReduce
   //__shared__ typename BlockReduce::TempStorage reduce;
   int col_offset = blockIdx.x *8;
-  const int warp_id = threadIdx.x / 32;
-  const int warp_lane = threadIdx.x % 32;
+  const int half_warp_id = threadIdx.x / 16;
+  const int half_warp_lane = threadIdx.x % 16;
 
   T local_A[64/BITS];
   T local_B[64/BITS];
   T local_C[8];
 
-  __shared__ T smem_A[WARPS*32*16];
-  __shared__ T smem_B[WARPS*16*8];
+  const int a_tile_offset = 32*16;
+  const int b_tile_offset = 16*8;
+
+  __shared__ T smem_A[WARPS*32*16*2];
+  __shared__ T smem_B[WARPS*16*8*2];
   __shared__ T smem_C[WARPS*32*8];
 
    wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a_frag;
    wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b_frag;
+   wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a2_frag;
+   wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b2_frag;
    wmma::fragment<wmma::accumulator, 32, 8, 16, half> c_frag;
 
    wmma::fill_fragment(c_frag, 0.0f);
@@ -3087,32 +3092,32 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   //int block_idx = 0;
   //for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
-  for(int base_idx = 0; base_idx < K; base_idx+=16)
+  for(int base_idx = 0; base_idx < K; base_idx+=32)
   {
     int idx = base_idx + threadIdx.x;
 
-    if(threadIdx.x < 16)
-    {
       if(idx >= K)
       {
           smem_A[threadIdx.x] = 0.0f;
-          smem_B[threadIdx.x] = 0.0f;
+          //smem_B[threadIdx.x] = 0.0f;
       }
       else
       {
 
-        smem_A[threadIdx.x] = A[idx];
+        smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = A[idx];
 
         for(int col = 0; col < 8; col++)
-            smem_B[threadIdx.x + (col*16)] = B[(col_offset+col)*ldb+idx];
+            smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = B[(col_offset+col)*ldb+idx];
       }
-    }
 
     __syncthreads();
 
     wmma::load_matrix_sync(a_frag, &(smem_A[0]), 16); //  111 mu
     wmma::load_matrix_sync(b_frag, &(smem_B[0]), 16); // 35 mu
+    wmma::load_matrix_sync(a2_frag, &(smem_A[32*16]), 16); //  111 mu
+    wmma::load_matrix_sync(b2_frag, &(smem_B[16*8]), 16); // 35 mu
     wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
+    wmma::mma_sync(c_frag, a2_frag, b2_frag, c_frag);
   }
 
   // 129 mu
diff --git a/tests/test_functional.py b/tests/test_functional.py
index e2ecdcb..f31e9b4 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2373,7 +2373,7 @@ def test_cutlass3_gemm(dtype):
         #print(C1)
         #print(C2)
 
-        torch.testing.assert_close(C1, C2, atol=1e-05, rtol=0.005)
+        torch.testing.assert_close(C1, C2, atol=1e-05, rtol=0.05)
 
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])

From e01d4e033df8f94b28ae4e38608c621653673338 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 30 Apr 2023 18:28:52 -0700
Subject: [PATCH 69/97] Fixed bank conflicts in non-vector load 422.

---
 csrc/kernels.cu | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 5d1982d..dffd40c 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3060,11 +3060,11 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   T local_B[64/BITS];
   T local_C[8];
 
-  const int a_tile_offset = 32*16;
-  const int b_tile_offset = 16*8;
+  const int a_tile_offset = 32*16 + 16;
+  const int b_tile_offset = 16*8 + 16;
 
-  __shared__ T smem_A[WARPS*32*16*2];
-  __shared__ T smem_B[WARPS*16*8*2];
+  __shared__ T smem_A[WARPS*32*16*2 + (16*1)];
+  __shared__ T smem_B[WARPS*16*8*2 + (16*1)];
   __shared__ T smem_C[WARPS*32*8];
 
    wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a_frag;
@@ -3114,8 +3114,8 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
     wmma::load_matrix_sync(a_frag, &(smem_A[0]), 16); //  111 mu
     wmma::load_matrix_sync(b_frag, &(smem_B[0]), 16); // 35 mu
-    wmma::load_matrix_sync(a2_frag, &(smem_A[32*16]), 16); //  111 mu
-    wmma::load_matrix_sync(b2_frag, &(smem_B[16*8]), 16); // 35 mu
+    wmma::load_matrix_sync(a2_frag, &(smem_A[a_tile_offset]), 16); //  111 mu
+    wmma::load_matrix_sync(b2_frag, &(smem_B[b_tile_offset]), 16); // 35 mu
     wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
     wmma::mma_sync(c_frag, a2_frag, b2_frag, c_frag);
   }

From 30d03e0254f9868f29392f318787667d5bdff891 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 30 Apr 2023 18:55:12 -0700
Subject: [PATCH 70/97] 64 threads, high smem, 434.

---
 csrc/kernels.cu | 48 ++++++++++++++++++++++++------------------------
 csrc/ops.cu     |  3 ++-
 2 files changed, 26 insertions(+), 25 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index dffd40c..4002117 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3041,7 +3041,7 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
     }
 }
 
-#define WARPS 1
+#define WARPS 2
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
@@ -3062,10 +3062,11 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   const int a_tile_offset = 32*16 + 16;
   const int b_tile_offset = 16*8 + 16;
+  const int c_tile_offset = 32*8 + 24;
 
-  __shared__ T smem_A[WARPS*32*16*2 + (16*1)];
-  __shared__ T smem_B[WARPS*16*8*2 + (16*1)];
-  __shared__ T smem_C[WARPS*32*8];
+  __shared__ T smem_A[WARPS*32*16*2 + (16*(WARPS-1))];
+  __shared__ T smem_B[WARPS*16*8*2 + (16*(WARPS-1))];
+  __shared__ T smem_C[WARPS*32*8 + (24*(WARPS-1))];
 
    wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a_frag;
    wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b_frag;
@@ -3092,46 +3093,45 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   //int block_idx = 0;
   //for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
-  for(int base_idx = 0; base_idx < K; base_idx+=32)
+  for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
   {
     int idx = base_idx + threadIdx.x;
 
-      if(idx >= K)
-      {
-          smem_A[threadIdx.x] = 0.0f;
-          //smem_B[threadIdx.x] = 0.0f;
-      }
-      else
-      {
+    if(idx >= K)
+    {
+        smem_A[threadIdx.x] = 0.0f;
+        //smem_B[threadIdx.x] = 0.0f;
+    }
+    else
+    {
+      smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = A[idx];
 
-        smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = A[idx];
-
-        for(int col = 0; col < 8; col++)
-            smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = B[(col_offset+col)*ldb+idx];
-      }
+      for(int col = 0; col < 8; col++)
+          smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = B[(col_offset+col)*ldb+idx];
+    }
 
     __syncthreads();
 
     wmma::load_matrix_sync(a_frag, &(smem_A[0]), 16); //  111 mu
     wmma::load_matrix_sync(b_frag, &(smem_B[0]), 16); // 35 mu
-    wmma::load_matrix_sync(a2_frag, &(smem_A[a_tile_offset]), 16); //  111 mu
-    wmma::load_matrix_sync(b2_frag, &(smem_B[b_tile_offset]), 16); // 35 mu
+    wmma::load_matrix_sync(a2_frag, &(smem_A[half_warp_id*a_tile_offset]), 16); //  111 mu
+    wmma::load_matrix_sync(b2_frag, &(smem_B[half_warp_id*b_tile_offset]), 16); // 35 mu
     wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
     wmma::mma_sync(c_frag, a2_frag, b2_frag, c_frag);
   }
 
   // 129 mu
-  wmma::store_matrix_sync(&(smem_C[0]), c_frag, 8, wmma::mem_row_major);
+  wmma::store_matrix_sync(&(smem_C[half_warp_id*c_tile_offset]), c_frag, 8, wmma::mem_row_major);
   __syncthreads();
 
   //if(threadIdx.x >= 16){ return; }
   //printf("%i %f\n", threadIdx.x, (float)smem_C[threadIdx.x]);
 
   //if(threadIdx.x < 32)
-  //if(warp_lane < 8 && warp_id > 0)
-  //  //local_C[warp_lane] = smem_C[warp_lane + (warp_id*32*8)];
-  //  atomicAdd(&(smem_C[warp_lane]), smem_C[warp_lane + (warp_id*32*8)]);
-  //__syncthreads();
+  if(half_warp_lane < 8 && half_warp_id > 0)
+    //local_C[warp_lane] = smem_C[warp_lane + (warp_id*32*8)];
+    atomicAdd(&(smem_C[half_warp_lane]), smem_C[half_warp_lane + (half_warp_id*c_tile_offset)]);
+  __syncthreads();
 
     //local_accC[row] = BlockReduce(temp_storage.reduce).Reduce(local_accC[row], cub::Sum());
   //if(threadIdx.x == 0)
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 5c4f9c0..57d5cca 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -693,7 +693,8 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
     //gemm_device<T, 32, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
   if(bits == 16)
     //gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
-    gemm_device<T, 16, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    //gemm_device<T, 16, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    gemm_device<T, 16, 64><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
 }
 
 template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)

From cabcd9b9d5c986b5c3c58318f9c1185ea8d8eff5 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 30 Apr 2023 19:12:42 -0700
Subject: [PATCH 71/97] Halved shared memory 466.

---
 csrc/kernels.cu | 74 ++++++++++++++++++++++++++++++-------------------
 1 file changed, 45 insertions(+), 29 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 4002117..301221c 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3053,25 +3053,23 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   //// Allocate shared memory for BlockReduce
   //__shared__ typename BlockReduce::TempStorage reduce;
   int col_offset = blockIdx.x *8;
+  const int warp_id = threadIdx.x / 32;
   const int half_warp_id = threadIdx.x / 16;
   const int half_warp_lane = threadIdx.x % 16;
 
-  T local_A[64/BITS];
-  T local_B[64/BITS];
-  T local_C[8];
+  T local_A[1];
+  T local_B[8];
 
   const int a_tile_offset = 32*16 + 16;
   const int b_tile_offset = 16*8 + 16;
   const int c_tile_offset = 32*8 + 24;
 
-  __shared__ T smem_A[WARPS*32*16*2 + (16*(WARPS-1))];
-  __shared__ T smem_B[WARPS*16*8*2 + (16*(WARPS-1))];
+  __shared__ T smem_A[WARPS*32*16 + (16*(WARPS-1))];
+  __shared__ T smem_B[WARPS*16*8 + (16*(WARPS-1))];
   __shared__ T smem_C[WARPS*32*8 + (24*(WARPS-1))];
 
    wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a_frag;
    wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b_frag;
-   wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a2_frag;
-   wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b2_frag;
    wmma::fragment<wmma::accumulator, 32, 8, 16, half> c_frag;
 
    wmma::fill_fragment(c_frag, 0.0f);
@@ -3087,9 +3085,9 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     smem_C[i] = T(0);
   __syncthreads();
 
-  #pragma unroll 8
-  for(int k = 0; k < 8; k++)
-    local_C[k] = T(0);
+  //#pragma unroll 8
+  //for(int k = 0; k < 8; k++)
+    //local_C[k] = T(0);
 
   //int block_idx = 0;
   //for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
@@ -3097,27 +3095,45 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   {
     int idx = base_idx + threadIdx.x;
 
-    if(idx >= K)
+    for(int k = 0; k < 2; k++)
     {
-        smem_A[threadIdx.x] = 0.0f;
-        //smem_B[threadIdx.x] = 0.0f;
+      if(k == 0)
+      {
+        if(idx < K)
+        {
+          local_A[0] = A[idx];
+
+          #pragma unroll 8
+          for(int col = 0; col < 8; col++)
+            local_B[col] = B[(col_offset+col)*ldb+idx];
+        }
+
+      }
+        
+      if(idx >= K)
+      {
+          smem_A[threadIdx.x] = 0.0f;
+          //smem_B[threadIdx.x] = 0.0f;
+      }
+      else
+      {
+        if((k == 0 && half_warp_id % 2 == 0) ||
+           (k == 1 && half_warp_id % 2 == 1))
+        {
+          smem_A[half_warp_lane + (warp_id*a_tile_offset)] = local_A[0];
+
+          #pragma unroll 8
+          for(int col = 0; col < 8; col++)
+              smem_B[half_warp_lane + (warp_id*b_tile_offset) + (col*16)] = local_B[col];
+        }
+      }
+
+      __syncthreads();
+
+      wmma::load_matrix_sync(a_frag, &(smem_A[warp_id*a_tile_offset]), 16); //  111 mu
+      wmma::load_matrix_sync(b_frag, &(smem_B[warp_id*b_tile_offset]), 16); // 35 mu
+      wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
     }
-    else
-    {
-      smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = A[idx];
-
-      for(int col = 0; col < 8; col++)
-          smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = B[(col_offset+col)*ldb+idx];
-    }
-
-    __syncthreads();
-
-    wmma::load_matrix_sync(a_frag, &(smem_A[0]), 16); //  111 mu
-    wmma::load_matrix_sync(b_frag, &(smem_B[0]), 16); // 35 mu
-    wmma::load_matrix_sync(a2_frag, &(smem_A[half_warp_id*a_tile_offset]), 16); //  111 mu
-    wmma::load_matrix_sync(b2_frag, &(smem_B[half_warp_id*b_tile_offset]), 16); // 35 mu
-    wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
-    wmma::mma_sync(c_frag, a2_frag, b2_frag, c_frag);
   }
 
   // 129 mu

From 7cc8ff4727e9e1094937b59aef96777c4818ae8a Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 1 May 2023 08:21:12 -0700
Subject: [PATCH 72/97] Warp specalization 362.

---
 csrc/kernels.cu          | 102 +++++++++++++++++++++------------------
 csrc/ops.cu              |   5 +-
 tests/test_functional.py |   6 +--
 3 files changed, 61 insertions(+), 52 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 301221c..2c0737d 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3041,7 +3041,7 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
     }
 }
 
-#define WARPS 2
+#define WARPS 4
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
@@ -3056,17 +3056,18 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   const int warp_id = threadIdx.x / 32;
   const int half_warp_id = threadIdx.x / 16;
   const int half_warp_lane = threadIdx.x % 16;
+  const int batch_size_warps = (WARPS-1)*2;
 
   T local_A[1];
   T local_B[8];
 
-  const int a_tile_offset = 32*16 + 16;
-  const int b_tile_offset = 16*8 + 16;
+  const int a_tile_offset = (32*16 + 16);
+  const int b_tile_offset = (16*8 + 16);
   const int c_tile_offset = 32*8 + 24;
 
-  __shared__ T smem_A[WARPS*32*16 + (16*(WARPS-1))];
-  __shared__ T smem_B[WARPS*16*8 + (16*(WARPS-1))];
-  __shared__ T smem_C[WARPS*32*8 + (24*(WARPS-1))];
+  __shared__ T smem_A[2*batch_size_warps*32*16 + (2*16*(batch_size_warps-1))];
+  __shared__ T smem_B[2*batch_size_warps*16*8 + (2*16*(batch_size_warps-1))];
+  __shared__ T smem_C[32*8];
 
    wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a_frag;
    wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b_frag;
@@ -3091,63 +3092,68 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   //int block_idx = 0;
   //for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
-  for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
+  int ticktock = 0;
+  int idx = 0 + threadIdx.x;
+  // prefetch
+  if(idx < K && warp_id < (WARPS-1))
   {
-    int idx = base_idx + threadIdx.x;
+    local_A[0] = A[idx];
 
-    for(int k = 0; k < 2; k++)
+    #pragma unroll 8
+    for(int col = 0; col < 8; col++)
+      local_B[col] = B[(col_offset+col)*ldb+idx];
+
+    smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = local_A[0];
+
+    #pragma unroll 8
+    for(int col = 0; col < 8; col++)
+        smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = local_B[col];
+  }
+  ticktock = ticktock == 0 ? 1 : 0;
+
+  for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x-32)
+  {
+    idx = base_idx + threadIdx.x;
+
+    __syncthreads();
+    if(idx < K && warp_id < (WARPS-1))
     {
-      if(k == 0)
-      {
-        if(idx < K)
-        {
-          local_A[0] = A[idx];
+      local_A[0] = A[idx];
 
-          #pragma unroll 8
-          for(int col = 0; col < 8; col++)
-            local_B[col] = B[(col_offset+col)*ldb+idx];
-        }
+      #pragma unroll 8
+      for(int col = 0; col < 8; col++)
+        local_B[col] = B[(col_offset+col)*ldb+idx];
 
-      }
-        
-      if(idx >= K)
-      {
-          smem_A[threadIdx.x] = 0.0f;
-          //smem_B[threadIdx.x] = 0.0f;
-      }
-      else
-      {
-        if((k == 0 && half_warp_id % 2 == 0) ||
-           (k == 1 && half_warp_id % 2 == 1))
-        {
-          smem_A[half_warp_lane + (warp_id*a_tile_offset)] = local_A[0];
+      smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
 
-          #pragma unroll 8
-          for(int col = 0; col < 8; col++)
-              smem_B[half_warp_lane + (warp_id*b_tile_offset) + (col*16)] = local_B[col];
-        }
-      }
-
-      __syncthreads();
-
-      wmma::load_matrix_sync(a_frag, &(smem_A[warp_id*a_tile_offset]), 16); //  111 mu
-      wmma::load_matrix_sync(b_frag, &(smem_B[warp_id*b_tile_offset]), 16); // 35 mu
-      wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
+      #pragma unroll 8
+      for(int col = 0; col < 8; col++)
+          smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = local_B[col];
     }
+    ticktock = ticktock == 0 ? 1 : 0;
+
+    if(warp_id == (WARPS-1))
+      for(int k = 0; k < batch_size_warps; k++)
+      {
+        wmma::load_matrix_sync(a_frag, &(smem_A[(ticktock*batch_size_warps + k)*a_tile_offset]), 16); //  111 mu
+        wmma::load_matrix_sync(b_frag, &(smem_B[(ticktock*batch_size_warps + k)*b_tile_offset]), 16); // 35 mu
+        wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
+      }
   }
 
   // 129 mu
-  wmma::store_matrix_sync(&(smem_C[half_warp_id*c_tile_offset]), c_frag, 8, wmma::mem_row_major);
+  if(warp_id == (WARPS-1))
+    wmma::store_matrix_sync(&(smem_C[0]), c_frag, 8, wmma::mem_row_major);
   __syncthreads();
 
   //if(threadIdx.x >= 16){ return; }
   //printf("%i %f\n", threadIdx.x, (float)smem_C[threadIdx.x]);
 
   //if(threadIdx.x < 32)
-  if(half_warp_lane < 8 && half_warp_id > 0)
-    //local_C[warp_lane] = smem_C[warp_lane + (warp_id*32*8)];
-    atomicAdd(&(smem_C[half_warp_lane]), smem_C[half_warp_lane + (half_warp_id*c_tile_offset)]);
-  __syncthreads();
+  //if(half_warp_lane < 8 && half_warp_id > 0)
+  //  //local_C[warp_lane] = smem_C[warp_lane + (warp_id*32*8)];
+  //  atomicAdd(&(smem_C[half_warp_lane]), smem_C[half_warp_lane + (half_warp_id*c_tile_offset)]);
+  //__syncthreads();
 
     //local_accC[row] = BlockReduce(temp_storage.reduce).Reduce(local_accC[row], cub::Sum());
   //if(threadIdx.x == 0)
@@ -3463,6 +3469,7 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 
 // these are not used and make no sense, but the compiler needs them
 //template __global__ void gemm_device<float, 16, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 32, 256>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 //template __global__ void gemm_device<float, 16, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
@@ -3470,6 +3477,7 @@ template __global__ void gemm_device<half, 32, 64>(int M, int N, int K, half * _
 // these are not used and make no sense, but the compiler needs them
 
 //template __global__ void gemm_device<float, 32, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 16, 256>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 //template __global__ void gemm_device<float, 32, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 57d5cca..c1c27b8 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -692,9 +692,10 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
     //gemm_device<T, 32, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 32, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
   if(bits == 16)
-    //gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    //gemm_device<T, 16, 256><<< num_blocks, 256, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 16, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
-    gemm_device<T, 16, 64><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    //gemm_device<T, 16, 64><<< num_blocks, 64, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
 }
 
 template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
diff --git a/tests/test_functional.py b/tests/test_functional.py
index f31e9b4..5f90f69 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2370,10 +2370,10 @@ def test_cutlass3_gemm(dtype):
 
         C1 = torch.matmul(A, B.t())
         C2 = F.cutlass3_gemm(A, B.t())
-        #print(C1)
-        #print(C2)
+        print(C1)
+        print(C2)
 
-        torch.testing.assert_close(C1, C2, atol=1e-05, rtol=0.05)
+        torch.testing.assert_close(C1, C2, atol=1e-05, rtol=0.06)
 
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])

From 3d4a2eadd3c1481447b8e885018ed24341ea91a5 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 1 May 2023 16:23:45 -0700
Subject: [PATCH 73/97] 16x16 240.

---
 csrc/kernels.cu | 52 ++++++++++++++++++++++++-------------------------
 csrc/ops.cu     |  2 +-
 2 files changed, 27 insertions(+), 27 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 2c0737d..4e3a4a3 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3052,37 +3052,37 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   //typedef cub::BlockReduce<T, THREADS> BlockReduce;
   //// Allocate shared memory for BlockReduce
   //__shared__ typename BlockReduce::TempStorage reduce;
-  int col_offset = blockIdx.x *8;
+  int col_offset = blockIdx.x *16;
   const int warp_id = threadIdx.x / 32;
   const int half_warp_id = threadIdx.x / 16;
   const int half_warp_lane = threadIdx.x % 16;
   const int batch_size_warps = (WARPS-1)*2;
 
   T local_A[1];
-  T local_B[8];
+  T local_B[16];
 
-  const int a_tile_offset = (32*16 + 16);
-  const int b_tile_offset = (16*8 + 16);
-  const int c_tile_offset = 32*8 + 24;
+  const int a_tile_offset = (16*16 + 16);
+  const int b_tile_offset = (16*16 + 16);
+  const int c_tile_offset = 16*16 + 24;
 
-  __shared__ T smem_A[2*batch_size_warps*32*16 + (2*16*(batch_size_warps-1))];
-  __shared__ T smem_B[2*batch_size_warps*16*8 + (2*16*(batch_size_warps-1))];
-  __shared__ T smem_C[32*8];
+  __shared__ T smem_A[2*batch_size_warps*16*16 + (2*16*(batch_size_warps-1))];
+  __shared__ T smem_B[2*batch_size_warps*16*16 + (2*16*(batch_size_warps-1))];
+  __shared__ T smem_C[16*16];
 
-   wmma::fragment<wmma::matrix_a, 32, 8, 16, half, wmma::row_major> a_frag;
-   wmma::fragment<wmma::matrix_b, 32, 8, 16, half, wmma::col_major> b_frag;
-   wmma::fragment<wmma::accumulator, 32, 8, 16, half> c_frag;
+   wmma::fragment<wmma::matrix_a, 16, 16, 16, half, wmma::row_major> a_frag;
+   wmma::fragment<wmma::matrix_b, 16, 16, 16, half, wmma::col_major> b_frag;
+   wmma::fragment<wmma::accumulator, 16, 16, 16, half> c_frag;
 
    wmma::fill_fragment(c_frag, 0.0f);
 
 
-  for(int i = threadIdx.x; i < 32*16*WARPS; i+=blockDim.x)
-    smem_A[i] = T(0);
+  //for(int i = threadIdx.x; i < 16*16*WARPS; i+=blockDim.x)
+  //  smem_A[i] = T(0);
 
-  for(int i = threadIdx.x; i < 32*8*WARPS; i+=blockDim.x)
-    smem_B[i] = T(0);
+  //for(int i = threadIdx.x; i < 16*16*WARPS; i+=blockDim.x)
+  //  smem_B[i] = T(0);
 
-  for(int i = threadIdx.x; i < 32*8*WARPS; i+=blockDim.x)
+  for(int i = threadIdx.x; i < 16*16; i+=blockDim.x)
     smem_C[i] = T(0);
   __syncthreads();
 
@@ -3099,14 +3099,14 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   {
     local_A[0] = A[idx];
 
-    #pragma unroll 8
-    for(int col = 0; col < 8; col++)
+    #pragma unroll 16
+    for(int col = 0; col < 16; col++)
       local_B[col] = B[(col_offset+col)*ldb+idx];
 
     smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = local_A[0];
 
-    #pragma unroll 8
-    for(int col = 0; col < 8; col++)
+    #pragma unroll 16
+    for(int col = 0; col < 16; col++)
         smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = local_B[col];
   }
   ticktock = ticktock == 0 ? 1 : 0;
@@ -3120,14 +3120,14 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     {
       local_A[0] = A[idx];
 
-      #pragma unroll 8
-      for(int col = 0; col < 8; col++)
+      #pragma unroll 16
+      for(int col = 0; col < 16; col++)
         local_B[col] = B[(col_offset+col)*ldb+idx];
 
       smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
 
-      #pragma unroll 8
-      for(int col = 0; col < 8; col++)
+      #pragma unroll 16
+      for(int col = 0; col < 16; col++)
           smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = local_B[col];
     }
     ticktock = ticktock == 0 ? 1 : 0;
@@ -3143,7 +3143,7 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   // 129 mu
   if(warp_id == (WARPS-1))
-    wmma::store_matrix_sync(&(smem_C[0]), c_frag, 8, wmma::mem_row_major);
+    wmma::store_matrix_sync(&(smem_C[0]), c_frag, 16, wmma::mem_row_major);
   __syncthreads();
 
   //if(threadIdx.x >= 16){ return; }
@@ -3185,7 +3185,7 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   //if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
     //out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
-  if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
+  if(threadIdx.x < 16 && col_offset + threadIdx.x < M)
     out[col_offset + threadIdx.x] = smem_C[threadIdx.x];
 }
 
diff --git a/csrc/ops.cu b/csrc/ops.cu
index c1c27b8..d0e903f 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -678,7 +678,7 @@ void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
 template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits)
 {
 
-	int num_blocks = (m+7)/8;
+	int num_blocks = (m+15)/16;
 
 	cout << num_blocks << endl;
 	cout << lda << endl;

From 7bfa09d0fcaa524863bcc8ea71436f99423bbd3f Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 1 May 2023 16:38:09 -0700
Subject: [PATCH 74/97] 8x32 240 6 warps.

---
 csrc/kernels.cu | 50 ++++++++++++++++++++++++++-----------------------
 csrc/ops.cu     |  6 ++++--
 2 files changed, 31 insertions(+), 25 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 4e3a4a3..b03c6ca 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3041,7 +3041,7 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
     }
 }
 
-#define WARPS 4
+#define WARPS 6
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
@@ -3052,26 +3052,26 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   //typedef cub::BlockReduce<T, THREADS> BlockReduce;
   //// Allocate shared memory for BlockReduce
   //__shared__ typename BlockReduce::TempStorage reduce;
-  int col_offset = blockIdx.x *16;
+  int col_offset = blockIdx.x *32;
   const int warp_id = threadIdx.x / 32;
   const int half_warp_id = threadIdx.x / 16;
   const int half_warp_lane = threadIdx.x % 16;
   const int batch_size_warps = (WARPS-1)*2;
 
   T local_A[1];
-  T local_B[16];
+  T local_B[32];
 
-  const int a_tile_offset = (16*16 + 16);
-  const int b_tile_offset = (16*16 + 16);
-  const int c_tile_offset = 16*16 + 24;
+  const int a_tile_offset = (8*16 + 16);
+  const int b_tile_offset = (16*32 + 16);
+  const int c_tile_offset = 8*32 + 24;
 
-  __shared__ T smem_A[2*batch_size_warps*16*16 + (2*16*(batch_size_warps-1))];
-  __shared__ T smem_B[2*batch_size_warps*16*16 + (2*16*(batch_size_warps-1))];
-  __shared__ T smem_C[16*16];
+  __shared__ T smem_A[2*batch_size_warps*8*16 + (2*16*(batch_size_warps-1))];
+  __shared__ T smem_B[2*batch_size_warps*16*32 + (2*16*(batch_size_warps-1))];
+  __shared__ T smem_C[8*32];
 
-   wmma::fragment<wmma::matrix_a, 16, 16, 16, half, wmma::row_major> a_frag;
-   wmma::fragment<wmma::matrix_b, 16, 16, 16, half, wmma::col_major> b_frag;
-   wmma::fragment<wmma::accumulator, 16, 16, 16, half> c_frag;
+   wmma::fragment<wmma::matrix_a, 8, 32, 16, half, wmma::row_major> a_frag;
+   wmma::fragment<wmma::matrix_b, 8, 32, 16, half, wmma::col_major> b_frag;
+   wmma::fragment<wmma::accumulator, 8, 32, 16, half> c_frag;
 
    wmma::fill_fragment(c_frag, 0.0f);
 
@@ -3082,7 +3082,7 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   //for(int i = threadIdx.x; i < 16*16*WARPS; i+=blockDim.x)
   //  smem_B[i] = T(0);
 
-  for(int i = threadIdx.x; i < 16*16; i+=blockDim.x)
+  for(int i = threadIdx.x; i < 8*32; i+=blockDim.x)
     smem_C[i] = T(0);
   __syncthreads();
 
@@ -3099,14 +3099,14 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   {
     local_A[0] = A[idx];
 
-    #pragma unroll 16
-    for(int col = 0; col < 16; col++)
+    #pragma unroll 32
+    for(int col = 0; col < 32; col++)
       local_B[col] = B[(col_offset+col)*ldb+idx];
 
     smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = local_A[0];
 
-    #pragma unroll 16
-    for(int col = 0; col < 16; col++)
+    #pragma unroll 32
+    for(int col = 0; col < 32; col++)
         smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = local_B[col];
   }
   ticktock = ticktock == 0 ? 1 : 0;
@@ -3120,14 +3120,14 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     {
       local_A[0] = A[idx];
 
-      #pragma unroll 16
-      for(int col = 0; col < 16; col++)
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
         local_B[col] = B[(col_offset+col)*ldb+idx];
 
       smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
 
-      #pragma unroll 16
-      for(int col = 0; col < 16; col++)
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
           smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = local_B[col];
     }
     ticktock = ticktock == 0 ? 1 : 0;
@@ -3143,7 +3143,7 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   // 129 mu
   if(warp_id == (WARPS-1))
-    wmma::store_matrix_sync(&(smem_C[0]), c_frag, 16, wmma::mem_row_major);
+    wmma::store_matrix_sync(&(smem_C[0]), c_frag, 32, wmma::mem_row_major);
   __syncthreads();
 
   //if(threadIdx.x >= 16){ return; }
@@ -3185,7 +3185,7 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   //if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
     //out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
-  if(threadIdx.x < 16 && col_offset + threadIdx.x < M)
+  if(threadIdx.x < 32 && col_offset + threadIdx.x < M)
     out[col_offset + threadIdx.x] = smem_C[threadIdx.x];
 }
 
@@ -3470,18 +3470,22 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 // these are not used and make no sense, but the compiler needs them
 //template __global__ void gemm_device<float, 16, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 256>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 32, 192>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 //template __global__ void gemm_device<float, 16, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 64>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 32, 96>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 // these are not used and make no sense, but the compiler needs them
 
 //template __global__ void gemm_device<float, 32, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 256>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 16, 192>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 //template __global__ void gemm_device<float, 32, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 64>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 16, 96>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 
 template __global__ void kgemm_4bit_inference<half, 128>(int M, int N, int K, half * __restrict__ const A, unsigned char *B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
 
diff --git a/csrc/ops.cu b/csrc/ops.cu
index d0e903f..2ccb418 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -678,7 +678,7 @@ void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
 template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits)
 {
 
-	int num_blocks = (m+15)/16;
+	int num_blocks = (m+31)/32;
 
 	cout << num_blocks << endl;
 	cout << lda << endl;
@@ -693,7 +693,9 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
     //gemm_device<T, 32, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
   if(bits == 16)
     //gemm_device<T, 16, 256><<< num_blocks, 256, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
-    gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    gemm_device<T, 16, 192><<< num_blocks, 192, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    //gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    //gemm_device<T, 16, 96><<< num_blocks, 96, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 16, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 16, 64><<< num_blocks, 64, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
 }

From f9bfea8f2335a63fbb7b24175e1fa2951ee55bf1 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 07:24:12 -0700
Subject: [PATCH 75/97] Baseline for debugging.

---
 bitsandbytes/functional.py |  2 +-
 csrc/kernels.cu            | 31 ++++++++++++++++++++++++++++---
 csrc/ops.cu                | 14 +++++++-------
 tests/test_functional.py   | 34 ++++++++++++++++++++++++++++------
 4 files changed, 64 insertions(+), 17 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index f725c1c..b4cbd28 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -1467,7 +1467,7 @@ def cutlass3_gemm(
         lda = Bshape[1]
         ldc = Bshape[0]
         ldb = (ldb+1)//2
-    print(m, n, k, lda, ldb, ldc)
+    #print(m, n, k, lda, ldb, ldc)
     is_on_gpu([B, A, out])
     m = ct.c_int32(m)
     n = ct.c_int32(n)
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index b03c6ca..477904c 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3061,9 +3061,8 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   T local_A[1];
   T local_B[32];
 
-  const int a_tile_offset = (8*16 + 16);
-  const int b_tile_offset = (16*32 + 16);
-  const int c_tile_offset = 8*32 + 24;
+  const int a_tile_offset = (8*16);
+  const int b_tile_offset = (16*32);
 
   __shared__ T smem_A[2*batch_size_warps*8*16 + (2*16*(batch_size_warps-1))];
   __shared__ T smem_B[2*batch_size_warps*16*32 + (2*16*(batch_size_warps-1))];
@@ -3109,6 +3108,19 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     for(int col = 0; col < 32; col++)
         smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = local_B[col];
   }
+  else if(warp_id < (WARPS-1))
+  {
+    local_A[0] = T(0.0);
+    smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = T(0.0);
+
+    #pragma unroll 32
+    for(int col = 0; col < 32; col++)
+      local_B[col] = T(0.0f);
+
+    #pragma unroll 32
+    for(int col = 0; col < 32; col++)
+        smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = T(0.0f);
+  }
   ticktock = ticktock == 0 ? 1 : 0;
 
   for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x-32)
@@ -3130,6 +3142,19 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
       for(int col = 0; col < 32; col++)
           smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = local_B[col];
     }
+    else if(warp_id < (WARPS-1))
+    {
+      local_A[0] = T(0.0);
+      smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] =  0.0f;
+
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
+        local_B[col] = 0.0f;
+
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
+        smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = 0.0f;
+    }
     ticktock = ticktock == 0 ? 1 : 0;
 
     if(warp_id == (WARPS-1))
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 2ccb418..6bf1e89 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -680,14 +680,14 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
 
 	int num_blocks = (m+31)/32;
 
-	cout << num_blocks << endl;
-	cout << lda << endl;
-	cout << ldb << endl;
-	cout << ldc << endl;
+	//cout << num_blocks << endl;
+	//cout << lda << endl;
+	//cout << ldb << endl;
+	//cout << ldc << endl;
 
-	cout << m << endl;
-	cout << n << endl;
-	cout << k << endl;
+	//cout << m << endl;
+	//cout << n << endl;
+	//cout << k << endl;
   //if(bits == 32)
     //gemm_device<T, 32, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 32, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 5f90f69..25fbb5b 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2355,25 +2355,47 @@ def test_normal_map_tree():
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_cutlass3_gemm(dtype):
-    for i in range(1):
+    for i in range(100):
         #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
         #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
         #A = torch.rand(1, 4096, dtype=dtype, device='cuda')
         #B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
-        A = torch.rand(1, 4096, dtype=dtype, device='cuda')
-        B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
+        A = torch.randn(1, 128+32, dtype=dtype, device='cuda')
+        B = torch.randn(4096, 128+32, dtype=dtype, device='cuda')/math.sqrt(128)
 
         #print('')
         #print(A)
         #print(B.t())
+        #A[:, :-3] = 0
+        #B[:, :-3] = 0
 
 
         C1 = torch.matmul(A, B.t())
         C2 = F.cutlass3_gemm(A, B.t())
-        print(C1)
-        print(C2)
+        err = C1-C2
 
-        torch.testing.assert_close(C1, C2, atol=1e-05, rtol=0.06)
+        # tensor cores are non-deterministic
+        # so we need to analyze errors around the mean
+        # to test our implementation
+        err = torch.abs(err.mean()).item()
+        mag = torch.abs(C1).mean()
+        relerr = err/mag
+
+        if err/torch.abs(C1).mean() > 5e-5 or err > 3.2e-5:
+            print('')
+            print(i, err, mag.item(), relerr.item())
+            print(A.flatten()[-6:])
+            print(B.flatten()[-6:])
+            out = A.flatten()[-6:]*B.flatten()[-6:]
+            print(out)
+            print(out[:-1].sum())
+            print('='*80)
+            print(C1.flatten()[-6:])
+            print(C2.flatten()[-6:])
+            #assert False, 'ERROR'
+
+        c = int(C1.numel()*0.001)
+        assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c)
 
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])

From 9192c9de648338dd9281368ed0bff20dc123490b Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 07:50:32 -0700
Subject: [PATCH 76/97] Tighter and scaled error analysis.

---
 csrc/kernels.cu          | 15 ++++++-
 tests/test_functional.py | 85 +++++++++++++++++++++++-----------------
 2 files changed, 64 insertions(+), 36 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 477904c..2fa288f 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3123,6 +3123,7 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   }
   ticktock = ticktock == 0 ? 1 : 0;
 
+  //for(int base_idx = blockDim.x-32; base_idx < K; base_idx+=blockDim.x-32)
   for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x-32)
   {
     idx = base_idx + threadIdx.x;
@@ -3155,8 +3156,9 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
       for(int col = 0; col < 32; col++)
         smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = 0.0f;
     }
-    ticktock = ticktock == 0 ? 1 : 0;
+    //ticktock = ticktock == 0 ? 1 : 0;
 
+    __syncthreads();
     if(warp_id == (WARPS-1))
       for(int k = 0; k < batch_size_warps; k++)
       {
@@ -3166,11 +3168,22 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
       }
   }
 
+  //__syncthreads();
+  //if(warp_id == (WARPS-1))
+  //  for(int k = 0; k < batch_size_warps; k++)
+  //  {
+  //    wmma::load_matrix_sync(a_frag, &(smem_A[(ticktock*batch_size_warps + k)*a_tile_offset]), 16); //  111 mu
+  //    wmma::load_matrix_sync(b_frag, &(smem_B[(ticktock*batch_size_warps + k)*b_tile_offset]), 16); // 35 mu
+  //    wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
+  //  }
+  __syncthreads();
+
   // 129 mu
   if(warp_id == (WARPS-1))
     wmma::store_matrix_sync(&(smem_C[0]), c_frag, 32, wmma::mem_row_major);
   __syncthreads();
 
+
   //if(threadIdx.x >= 16){ return; }
   //printf("%i %f\n", threadIdx.x, (float)smem_C[threadIdx.x]);
 
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 25fbb5b..0500984 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2355,47 +2355,62 @@ def test_normal_map_tree():
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_cutlass3_gemm(dtype):
-    for i in range(100):
-        #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
-        #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
-        #A = torch.rand(1, 4096, dtype=dtype, device='cuda')
-        #B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
-        A = torch.randn(1, 128+32, dtype=dtype, device='cuda')
-        B = torch.randn(4096, 128+32, dtype=dtype, device='cuda')/math.sqrt(128)
+    for dim in [32, 64, 128, 256, 512, 1024, 2048, 4096]:
+        errs = []
+        relerrs = []
+        max_err = 0
+        max_relerr = 0
+        for i in range(100):
+            #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
+            #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
+            #A = torch.rand(1, 4096, dtype=dtype, device='cuda')
+            #B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
+            A = torch.randn(1, dim+0, dtype=dtype, device='cuda')
+            B = torch.randn(4*496, dim+0, dtype=dtype, device='cuda')/math.sqrt(dim)
 
-        #print('')
-        #print(A)
-        #print(B.t())
-        #A[:, :-3] = 0
-        #B[:, :-3] = 0
+            #print('')
+            #print(A)
+            #print(B.t())
+            #A[:, :-3] = 0
+            #B[:, :-3] = 0
 
 
-        C1 = torch.matmul(A, B.t())
-        C2 = F.cutlass3_gemm(A, B.t())
-        err = C1-C2
+            C1 = torch.matmul(A, B.t())
+            C2 = F.cutlass3_gemm(A, B.t())
 
-        # tensor cores are non-deterministic
-        # so we need to analyze errors around the mean
-        # to test our implementation
-        err = torch.abs(err.mean()).item()
-        mag = torch.abs(C1).mean()
-        relerr = err/mag
+            # tensor cores are non-deterministic
+            # so we need to analyze errors around the mean
+            # to test our implementation
+            err = torch.abs(C1-C2)
+            mag = torch.abs(C1)+1e-8
+            relerr = err/mag
+            max_err = max(err.max(), max_err)
+            max_relerr = max(relerr.max(), max_relerr)
+            err = err.mean().item()
+            relerr = relerr.mean().item()
 
-        if err/torch.abs(C1).mean() > 5e-5 or err > 3.2e-5:
-            print('')
-            print(i, err, mag.item(), relerr.item())
-            print(A.flatten()[-6:])
-            print(B.flatten()[-6:])
-            out = A.flatten()[-6:]*B.flatten()[-6:]
-            print(out)
-            print(out[:-1].sum())
-            print('='*80)
-            print(C1.flatten()[-6:])
-            print(C2.flatten()[-6:])
-            #assert False, 'ERROR'
+            errs.append(err)
+            relerrs.append(relerr)
 
-        c = int(C1.numel()*0.001)
-        assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c)
+            #if err/torch.abs(C1).mean() > 5e-5 or err > 3.2e-5:
+            #    print('')
+            #    print(i, err, mag.item(), relerr.item())
+            #    print(A.flatten()[-6:])
+            #    print(B.flatten()[-6:])
+            #    out = A.flatten()[-6:]*B.flatten()[-6:]
+            #    print(out)
+            #    print(out[:-1].sum())
+            #    print('='*80)
+            #    print(C1.flatten()[-6:])
+            #    print(C2.flatten()[-6:])
+            #    #assert False, 'ERROR'
+
+            c = int(C1.numel()*0.00125*(dim/256))+1
+            assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c)
+        print('')
+        print(dim, sum(errs)/len(errs)/math.sqrt(dim))
+        print(dim, sum(relerrs)/len(relerrs)/math.sqrt(dim))
+        print(dim, (max_err.item(), max_relerr.item()))
 
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])

From 9aa232cc3918ef722791c2a6775aaa807ad72109 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 07:53:29 -0700
Subject: [PATCH 77/97] Initial.

---
 tests/test_functional.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/tests/test_functional.py b/tests/test_functional.py
index 0500984..808c1ce 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2406,6 +2406,7 @@ def test_cutlass3_gemm(dtype):
             #    #assert False, 'ERROR'
 
             c = int(C1.numel()*0.00125*(dim/256))+1
+
             assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c)
         print('')
         print(dim, sum(errs)/len(errs)/math.sqrt(dim))

From 394749db718526aa7810333f0f90caa2b6af8554 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 08:58:59 -0700
Subject: [PATCH 78/97] Correct implementation 240.

---
 csrc/kernels.cu          | 48 +++++++++++++++-------------------------
 tests/test_functional.py | 20 +++++++++++------
 2 files changed, 31 insertions(+), 37 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 2fa288f..8ce881c 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3061,8 +3061,8 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   T local_A[1];
   T local_B[32];
 
-  const int a_tile_offset = (8*16);
-  const int b_tile_offset = (16*32);
+  const int a_tile_offset = (8*16 + 16);
+  const int b_tile_offset = (16*32 + 16);
 
   __shared__ T smem_A[2*batch_size_warps*8*16 + (2*16*(batch_size_warps-1))];
   __shared__ T smem_B[2*batch_size_warps*16*32 + (2*16*(batch_size_warps-1))];
@@ -3074,23 +3074,10 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
    wmma::fill_fragment(c_frag, 0.0f);
 
-
-  //for(int i = threadIdx.x; i < 16*16*WARPS; i+=blockDim.x)
-  //  smem_A[i] = T(0);
-
-  //for(int i = threadIdx.x; i < 16*16*WARPS; i+=blockDim.x)
-  //  smem_B[i] = T(0);
-
   for(int i = threadIdx.x; i < 8*32; i+=blockDim.x)
     smem_C[i] = T(0);
   __syncthreads();
 
-  //#pragma unroll 8
-  //for(int k = 0; k < 8; k++)
-    //local_C[k] = T(0);
-
-  //int block_idx = 0;
-  //for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x)
   int ticktock = 0;
   int idx = 0 + threadIdx.x;
   // prefetch
@@ -3102,29 +3089,29 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     for(int col = 0; col < 32; col++)
       local_B[col] = B[(col_offset+col)*ldb+idx];
 
-    smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = local_A[0];
+    smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
 
     #pragma unroll 32
     for(int col = 0; col < 32; col++)
-        smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = local_B[col];
+        smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = local_B[col];
   }
   else if(warp_id < (WARPS-1))
   {
     local_A[0] = T(0.0);
-    smem_A[half_warp_lane + (half_warp_id*a_tile_offset)] = T(0.0);
+    smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] =  0.0f;
 
     #pragma unroll 32
     for(int col = 0; col < 32; col++)
-      local_B[col] = T(0.0f);
+      local_B[col] = 0.0f;
 
     #pragma unroll 32
     for(int col = 0; col < 32; col++)
-        smem_B[half_warp_lane + (half_warp_id*b_tile_offset) + (col*16)] = T(0.0f);
+      smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = 0.0f;
   }
   ticktock = ticktock == 0 ? 1 : 0;
 
   //for(int base_idx = blockDim.x-32; base_idx < K; base_idx+=blockDim.x-32)
-  for(int base_idx = 0; base_idx < K; base_idx+=blockDim.x-32)
+  for(int base_idx = blockDim.x-32; base_idx < K; base_idx+=blockDim.x-32)
   {
     idx = base_idx + threadIdx.x;
 
@@ -3156,7 +3143,7 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
       for(int col = 0; col < 32; col++)
         smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = 0.0f;
     }
-    //ticktock = ticktock == 0 ? 1 : 0;
+    ticktock = ticktock == 0 ? 1 : 0;
 
     __syncthreads();
     if(warp_id == (WARPS-1))
@@ -3168,14 +3155,15 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
       }
   }
 
-  //__syncthreads();
-  //if(warp_id == (WARPS-1))
-  //  for(int k = 0; k < batch_size_warps; k++)
-  //  {
-  //    wmma::load_matrix_sync(a_frag, &(smem_A[(ticktock*batch_size_warps + k)*a_tile_offset]), 16); //  111 mu
-  //    wmma::load_matrix_sync(b_frag, &(smem_B[(ticktock*batch_size_warps + k)*b_tile_offset]), 16); // 35 mu
-  //    wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
-  //  }
+  __syncthreads();
+  ticktock = ticktock == 0 ? 1 : 0;
+  if(warp_id == (WARPS-1))
+    for(int k = 0; k < batch_size_warps; k++)
+    {
+      wmma::load_matrix_sync(a_frag, &(smem_A[(ticktock*batch_size_warps + k)*a_tile_offset]), 16); //  111 mu
+      wmma::load_matrix_sync(b_frag, &(smem_B[(ticktock*batch_size_warps + k)*b_tile_offset]), 16); // 35 mu
+      wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
+    }
   __syncthreads();
 
   // 129 mu
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 808c1ce..4c86d83 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -18,12 +18,15 @@ torch.set_printoptions(
 k = 20
 
 
-def assert_all_approx_close(a, b, rtol=1e-3, atol=1e-3, count=0):
+def assert_all_approx_close(a, b, rtol=1e-3, atol=1e-3, count=0, throw=True):
     idx = torch.isclose(a, b, rtol, atol)
     sumval = (idx == 0).sum().item()
     if sumval > count:
-        print(f"Too many values not close: assert {sumval} < {count}")
-        torch.testing.assert_allclose(a, b, rtol, atol)
+        if throw:
+            print(f"Too many values not close: assert {sumval} < {count}")
+            torch.testing.assert_allclose(a, b, rtol, atol)
+
+    return sumval
 
 
 class FFN(torch.nn.Module):
@@ -2355,7 +2358,9 @@ def test_normal_map_tree():
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_cutlass3_gemm(dtype):
-    for dim in [32, 64, 128, 256, 512, 1024, 2048, 4096]:
+    #for dim in [32, 64, 128, 256, 512, 1024, 2048, 4096]:
+    #for dim in [4096, 5120, 6656, 8192]:
+    for dim in [4096]:
         errs = []
         relerrs = []
         max_err = 0
@@ -2366,7 +2371,7 @@ def test_cutlass3_gemm(dtype):
             #A = torch.rand(1, 4096, dtype=dtype, device='cuda')
             #B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
             A = torch.randn(1, dim+0, dtype=dtype, device='cuda')
-            B = torch.randn(4*496, dim+0, dtype=dtype, device='cuda')/math.sqrt(dim)
+            B = torch.randn(4*dim, dim+0, dtype=dtype, device='cuda')/math.sqrt(dim)
 
             #print('')
             #print(A)
@@ -2405,9 +2410,10 @@ def test_cutlass3_gemm(dtype):
             #    print(C2.flatten()[-6:])
             #    #assert False, 'ERROR'
 
-            c = int(C1.numel()*0.00125*(dim/256))+1
+            c = int(C1.numel()*0.0014*(dim/256))+1
 
-            assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c)
+            c = assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c, throw=False)
+            #print(c/math.sqrt(dim))
         print('')
         print(dim, sum(errs)/len(errs)/math.sqrt(dim))
         print(dim, sum(relerrs)/len(relerrs)/math.sqrt(dim))

From 4decb3cc6878a7d51e92dd5f48ec0fb25ec8ba19 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 09:38:14 -0700
Subject: [PATCH 79/97] Removed uncessary sync.

---
 csrc/kernels.cu | 1 -
 1 file changed, 1 deletion(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 8ce881c..d09f78a 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3145,7 +3145,6 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     }
     ticktock = ticktock == 0 ? 1 : 0;
 
-    __syncthreads();
     if(warp_id == (WARPS-1))
       for(int k = 0; k < batch_size_warps; k++)
       {

From 89cccd8196b885de777cc6f627bd05c96c700300 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 09:40:31 -0700
Subject: [PATCH 80/97] A tile multi-tiling.

---
 csrc/kernels.cu | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index d09f78a..a528d16 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3061,10 +3061,10 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   T local_A[1];
   T local_B[32];
 
-  const int a_tile_offset = (8*16 + 16);
+  const int a_tile_offset = (16 + 16);
   const int b_tile_offset = (16*32 + 16);
 
-  __shared__ T smem_A[2*batch_size_warps*8*16 + (2*16*(batch_size_warps-1))];
+  __shared__ T smem_A[8*16 + (4*16*(batch_size_warps-1))];
   __shared__ T smem_B[2*batch_size_warps*16*32 + (2*16*(batch_size_warps-1))];
   __shared__ T smem_C[8*32];
 

From 77f15fdce9f11324f6616e4fccc03d16f61347e6 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 11:38:11 -0700
Subject: [PATCH 81/97] Shared memory efficient 240.

---
 csrc/kernels.cu          | 80 ++++++++++------------------------------
 csrc/ops.cu              |  2 +-
 tests/test_functional.py |  4 +-
 3 files changed, 22 insertions(+), 64 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index a528d16..8b5544a 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3041,7 +3041,7 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
     }
 }
 
-#define WARPS 6
+#define WARPS 5
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
 
@@ -3061,23 +3061,18 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   T local_A[1];
   T local_B[32];
 
-  const int a_tile_offset = (16 + 16);
+  const int a_tile_offset = 16;
   const int b_tile_offset = (16*32 + 16);
 
-  __shared__ T smem_A[8*16 + (4*16*(batch_size_warps-1))];
+  __shared__ T smem_A[8*16 + (2*16*(batch_size_warps-1))];
   __shared__ T smem_B[2*batch_size_warps*16*32 + (2*16*(batch_size_warps-1))];
-  __shared__ T smem_C[8*32];
+  //__shared__ T smem_C[8*32];
 
    wmma::fragment<wmma::matrix_a, 8, 32, 16, half, wmma::row_major> a_frag;
    wmma::fragment<wmma::matrix_b, 8, 32, 16, half, wmma::col_major> b_frag;
    wmma::fragment<wmma::accumulator, 8, 32, 16, half> c_frag;
-
    wmma::fill_fragment(c_frag, 0.0f);
 
-  for(int i = threadIdx.x; i < 8*32; i+=blockDim.x)
-    smem_C[i] = T(0);
-  __syncthreads();
-
   int ticktock = 0;
   int idx = 0 + threadIdx.x;
   // prefetch
@@ -3155,63 +3150,24 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   }
 
   __syncthreads();
+  if(warp_id != (WARPS-1)){ return; }
+  // only warp_id == (WARPS-1) from here
+  int warp_lane = threadIdx.x % 32;
+
   ticktock = ticktock == 0 ? 1 : 0;
-  if(warp_id == (WARPS-1))
-    for(int k = 0; k < batch_size_warps; k++)
-    {
-      wmma::load_matrix_sync(a_frag, &(smem_A[(ticktock*batch_size_warps + k)*a_tile_offset]), 16); //  111 mu
-      wmma::load_matrix_sync(b_frag, &(smem_B[(ticktock*batch_size_warps + k)*b_tile_offset]), 16); // 35 mu
-      wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
-    }
-  __syncthreads();
+  for(int k = 0; k < batch_size_warps; k++)
+  {
+    wmma::load_matrix_sync(a_frag, &(smem_A[(ticktock*batch_size_warps + k)*a_tile_offset]), 16); //  111 mu
+    wmma::load_matrix_sync(b_frag, &(smem_B[(ticktock*batch_size_warps + k)*b_tile_offset]), 16); // 35 mu
+    wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
+  }
 
   // 129 mu
   if(warp_id == (WARPS-1))
-    wmma::store_matrix_sync(&(smem_C[0]), c_frag, 32, wmma::mem_row_major);
-  __syncthreads();
+    wmma::store_matrix_sync(&(smem_A[0]), c_frag, 32, wmma::mem_row_major);
 
-
-  //if(threadIdx.x >= 16){ return; }
-  //printf("%i %f\n", threadIdx.x, (float)smem_C[threadIdx.x]);
-
-  //if(threadIdx.x < 32)
-  //if(half_warp_lane < 8 && half_warp_id > 0)
-  //  //local_C[warp_lane] = smem_C[warp_lane + (warp_id*32*8)];
-  //  atomicAdd(&(smem_C[half_warp_lane]), smem_C[half_warp_lane + (half_warp_id*c_tile_offset)]);
-  //__syncthreads();
-
-    //local_accC[row] = BlockReduce(temp_storage.reduce).Reduce(local_accC[row], cub::Sum());
-  //if(threadIdx.x == 0)
-  //  for(int row = 0; row < 32; row++)
-  //  {
-  //    printf("row %i ", row);
-  //    for(int id = 0; id < 4; id++)
-  //    {
-  //      printf(" id %i: ", id);
-  //      for(int k = 0; k < 8; k++)
-  //        printf("%f ", (float)smem_C[k + (row*8) + (id*32*8)]);
-  //      printf("\n");
-  //    }
-  //  }
-
-  //__syncthreads();
-
-  //if((float)local_C[0] !=0.0f)
-  //  printf("%i %i %f\n", warp_lane, warp_id, (float)local_C[0]);
-  //local_C[0] = WarpReduce(temp_storage).Sum(local_C[0]);
-
-  //__syncwarp();
-
-  ////for(int i = threadIdx.x; i < 32*8; i+=blockDim.x)
-  ////{
-  //  if((float)local_C[0] !=0.0f)
-  //    printf("%i %f\n", 0, (float)local_C[0]);
-  //}
-
-  //if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
-    //out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
-  if(threadIdx.x < 32 && col_offset + threadIdx.x < M)
-    out[col_offset + threadIdx.x] = smem_C[threadIdx.x];
+  if(col_offset + warp_lane < M)
+    out[col_offset + warp_lane] = smem_A[warp_lane];
 }
 
 template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
@@ -3496,6 +3452,7 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 //template __global__ void gemm_device<float, 16, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 256>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 192>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 32, 160>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 //template __global__ void gemm_device<float, 16, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 32, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
@@ -3506,6 +3463,7 @@ template __global__ void gemm_device<half, 32, 96>(int M, int N, int K, half * _
 //template __global__ void gemm_device<float, 32, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 256>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 192>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
+template __global__ void gemm_device<half, 16, 160>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 128>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 //template __global__ void gemm_device<float, 32, 32>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
 template __global__ void gemm_device<half, 16, 32>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 6bf1e89..16d82f9 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -693,7 +693,7 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
     //gemm_device<T, 32, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
   if(bits == 16)
     //gemm_device<T, 16, 256><<< num_blocks, 256, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
-    gemm_device<T, 16, 192><<< num_blocks, 192, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    gemm_device<T, 16, 160><<< num_blocks, 160, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 16, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 16, 96><<< num_blocks, 96, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
     //gemm_device<T, 16, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 4c86d83..62dd1cb 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2358,9 +2358,9 @@ def test_normal_map_tree():
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_cutlass3_gemm(dtype):
-    #for dim in [32, 64, 128, 256, 512, 1024, 2048, 4096]:
+    for dim in [32, 64, 128, 256, 512, 1024, 2048, 4096]:
     #for dim in [4096, 5120, 6656, 8192]:
-    for dim in [4096]:
+    #for dim in [4096]:
         errs = []
         relerrs = []
         max_err = 0

From 869b7e83b506cdb7e342e4939580104b486ed9ba Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 12:10:32 -0700
Subject: [PATCH 82/97] Warp multi-specialization 240.

---
 csrc/kernels.cu          | 62 +++++++++++++++++++++++++++++++++-------
 tests/test_functional.py |  8 +++---
 2 files changed, 56 insertions(+), 14 deletions(-)

diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 8b5544a..65ed19e 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3058,8 +3058,8 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
   const int half_warp_lane = threadIdx.x % 16;
   const int batch_size_warps = (WARPS-1)*2;
 
-  T local_A[1];
-  T local_B[32];
+  T local_A[2];
+  T local_B[64];
 
   const int a_tile_offset = 16;
   const int b_tile_offset = (16*32 + 16);
@@ -3075,14 +3075,32 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   int ticktock = 0;
   int idx = 0 + threadIdx.x;
+  int loaded_values = 0;
   // prefetch
   if(idx < K && warp_id < (WARPS-1))
   {
-    local_A[0] = A[idx];
+    if(loaded_values == 0)
+    {
+      local_A[0] = A[idx];
+      local_A[1] = A[idx+blockDim.x-32];
 
-    #pragma unroll 32
-    for(int col = 0; col < 32; col++)
-      local_B[col] = B[(col_offset+col)*ldb+idx];
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
+      {
+        local_B[col] = B[(col_offset+col)*ldb+idx];
+        local_B[col+32] = B[(col_offset+col)*ldb+idx+blockDim.x-32];
+      }
+      loaded_values = 1;
+    }
+    else
+    {
+      local_A[0] = local_A[1];
+      loaded_values--;
+
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
+        local_B[col] = local_B[col+32];
+    }
 
     smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
 
@@ -3113,11 +3131,35 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     __syncthreads();
     if(idx < K && warp_id < (WARPS-1))
     {
-      local_A[0] = A[idx];
+      //local_A[0] = A[idx];
 
-      #pragma unroll 32
-      for(int col = 0; col < 32; col++)
-        local_B[col] = B[(col_offset+col)*ldb+idx];
+      //#pragma unroll 32
+      //for(int col = 0; col < 32; col++)
+      //  local_B[col] = B[(col_offset+col)*ldb+idx];
+      if(loaded_values == 0)
+      {
+        local_A[0] = A[idx];
+        local_A[1] = A[idx+blockDim.x-32];
+
+        #pragma unroll 32
+        for(int col = 0; col < 32; col++)
+        {
+          local_B[col] = B[(col_offset+col)*ldb+idx];
+          local_B[col+32] = B[(col_offset+col)*ldb+idx+blockDim.x-32];
+        }
+        loaded_values = 1;
+      }
+      else
+      {
+        local_A[0] = local_A[1];
+        loaded_values--;
+
+        #pragma unroll 32
+        for(int col = 0; col < 32; col++)
+          local_B[col] = local_B[col+32];
+
+
+      }
 
       smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
 
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 62dd1cb..e9a67f5 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2376,8 +2376,8 @@ def test_cutlass3_gemm(dtype):
             #print('')
             #print(A)
             #print(B.t())
-            #A[:, :-3] = 0
-            #B[:, :-3] = 0
+            #A[:, :-1] = 0
+            #B[:, :-1] = 0
 
 
             C1 = torch.matmul(A, B.t())
@@ -2399,7 +2399,7 @@ def test_cutlass3_gemm(dtype):
 
             #if err/torch.abs(C1).mean() > 5e-5 or err > 3.2e-5:
             #    print('')
-            #    print(i, err, mag.item(), relerr.item())
+            #    print(i, err, relerr)
             #    print(A.flatten()[-6:])
             #    print(B.flatten()[-6:])
             #    out = A.flatten()[-6:]*B.flatten()[-6:]
@@ -2412,7 +2412,7 @@ def test_cutlass3_gemm(dtype):
 
             c = int(C1.numel()*0.0014*(dim/256))+1
 
-            c = assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c, throw=False)
+            c = assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c, throw=True)
             #print(c/math.sqrt(dim))
         print('')
         print(dim, sum(errs)/len(errs)/math.sqrt(dim))

From 264a948539d219e6b9a8fc8b9d92120d76b8878b Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 2 May 2023 16:15:38 -0700
Subject: [PATCH 83/97] 4-bit draft; 128 vector load 240.

---
 bitsandbytes/functional.py |   6 +-
 csrc/kernels.cu            | 307 ++++++++++++++++++++++++-------------
 csrc/ops.cu                |  18 +--
 tests/test_functional.py   |  95 ++++++++----
 4 files changed, 284 insertions(+), 142 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index b4cbd28..e5b1bf7 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -1385,10 +1385,12 @@ def cutlass3_gemm(
     #sout = check_matmul(A, B, out, transposed_A, transposed_B, expected_type=A.dtype)
     if state is None:
         Bshape = B.shape
+        bout = Bshape[1]
     else:
         Bshape = state[1]
+        bout = Bshape[0]
     if out is None:
-        out = torch.zeros(size=(A.shape[0], Bshape[1]), dtype=A.dtype, device=A.device)
+        out = torch.zeros(size=(A.shape[0], bout), dtype=A.dtype, device=A.device)
 
     sA = A.shape
     sB = B.shape
@@ -1464,7 +1466,7 @@ def cutlass3_gemm(
     if state is not None:
         m = Bshape[0]
         k = Bshape[1]
-        lda = Bshape[1]
+        lda = Bshape[0]
         ldc = Bshape[0]
         ldb = (ldb+1)//2
     #print(m, n, k, lda, ldb, ldc)
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 65ed19e..2373b91 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3044,22 +3044,15 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
 #define WARPS 5
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
-
-  typedef cub::WarpReduce<half> WarpReduce;
-  // Allocate WarpReduce shared memory for one warp
-  //__shared__ typename WarpReduce::TempStorage temp_storage;
-
-  //typedef cub::BlockReduce<T, THREADS> BlockReduce;
-  //// Allocate shared memory for BlockReduce
-  //__shared__ typename BlockReduce::TempStorage reduce;
   int col_offset = blockIdx.x *32;
   const int warp_id = threadIdx.x / 32;
   const int half_warp_id = threadIdx.x / 16;
   const int half_warp_lane = threadIdx.x % 16;
   const int batch_size_warps = (WARPS-1)*2;
+  const int val_per_iter = blockDim.x-32;
 
-  T local_A[2];
-  T local_B[64];
+  T local_A[4];
+  T local_B[128];
 
   const int a_tile_offset = 16;
   const int b_tile_offset = (16*32 + 16);
@@ -3082,24 +3075,45 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
     if(loaded_values == 0)
     {
       local_A[0] = A[idx];
-      local_A[1] = A[idx+blockDim.x-32];
+      local_A[1] = A[idx+(1*val_per_iter)];
+      local_A[2] = A[idx+(2*val_per_iter)];
+      local_A[3] = A[idx+(3*val_per_iter)];
 
       #pragma unroll 32
       for(int col = 0; col < 32; col++)
       {
         local_B[col] = B[(col_offset+col)*ldb+idx];
-        local_B[col+32] = B[(col_offset+col)*ldb+idx+blockDim.x-32];
+        local_B[col+32] = B[(col_offset+col)*ldb+idx+(1*val_per_iter)];
+        local_B[col+64] = B[(col_offset+col)*ldb+idx+(2*val_per_iter)];
+        local_B[col+96] = B[(col_offset+col)*ldb+idx+(3*val_per_iter)];
       }
-      loaded_values = 1;
+      loaded_values = 3;
     }
     else
     {
-      local_A[0] = local_A[1];
-      loaded_values--;
 
-      #pragma unroll 32
-      for(int col = 0; col < 32; col++)
-        local_B[col] = local_B[col+32];
+      if(loaded_values == 3)
+      {
+        local_A[0] = local_A[1];
+        #pragma unroll 32
+        for(int col = 0; col < 32; col++)
+          local_B[col] = local_B[col+(32)];
+      }
+      else if(loaded_values == 2)
+      {
+        local_A[0] = local_A[2];
+        #pragma unroll 32
+        for(int col = 0; col < 32; col++)
+          local_B[col] = local_B[col+(64)];
+      }
+      else
+      {
+        local_A[0] = local_A[3];
+        #pragma unroll 32
+        for(int col = 0; col < 32; col++)
+          local_B[col] = local_B[col+(96)];
+      }
+      loaded_values--;
     }
 
     smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
@@ -3139,26 +3153,46 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
       if(loaded_values == 0)
       {
         local_A[0] = A[idx];
-        local_A[1] = A[idx+blockDim.x-32];
+        local_A[1] = A[idx+(1*val_per_iter)];
+        local_A[2] = A[idx+(2*val_per_iter)];
+        local_A[3] = A[idx+(3*val_per_iter)];
 
         #pragma unroll 32
         for(int col = 0; col < 32; col++)
         {
           local_B[col] = B[(col_offset+col)*ldb+idx];
-          local_B[col+32] = B[(col_offset+col)*ldb+idx+blockDim.x-32];
+          local_B[col+32] = B[(col_offset+col)*ldb+idx+(1*val_per_iter)];
+          local_B[col+64] = B[(col_offset+col)*ldb+idx+(2*val_per_iter)];
+          local_B[col+96] = B[(col_offset+col)*ldb+idx+(3*val_per_iter)];
         }
-        loaded_values = 1;
+        loaded_values = 3;
+
       }
       else
       {
-        local_A[0] = local_A[1];
+
+        if(loaded_values == 3)
+        {
+          local_A[0] = local_A[1];
+          #pragma unroll 32
+          for(int col = 0; col < 32; col++)
+            local_B[col] = local_B[col+(32)];
+        }
+        else if(loaded_values == 2)
+        {
+          local_A[0] = local_A[2];
+          #pragma unroll 32
+          for(int col = 0; col < 32; col++)
+            local_B[col] = local_B[col+(64)];
+        }
+        else
+        {
+          local_A[0] = local_A[3];
+          #pragma unroll 32
+          for(int col = 0; col < 32; col++)
+            local_B[col] = local_B[col+(96)];
+        }
         loaded_values--;
-
-        #pragma unroll 32
-        for(int col = 0; col < 32; col++)
-          local_B[col] = local_B[col+32];
-
-
       }
 
       smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
@@ -3215,104 +3249,166 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
 {
 
-  typedef cub::BlockReduce<T, THREADS> BlockReduce;
-  __shared__ typename BlockReduce::TempStorage reduce;
-  int col_offset = blockIdx.x *8;
+  int col_offset = blockIdx.x *32;
+  const int warp_id = threadIdx.x / 32;
+  const int half_warp_id = threadIdx.x / 16;
+  const int half_warp_lane = threadIdx.x % 16;
+  const int batch_size_warps = (WARPS-1)*2;
 
-  T local_A[32];
-  unsigned char local_B_4bit[16];
-  T local_B[32];
-  T local_C[8];
+  T local_A[2];
+  T local_B[64];
+  unsigned char local_B_4bit[32];
 
-  __shared__ T smem_C[8];
+  const int a_tile_offset = 16;
+  const int b_tile_offset = (16*32 + 16);
 
-  if(threadIdx.x < 8)
-    smem_C[threadIdx.x] = T(0);
-  __syncthreads();
+  __shared__ T smem_A[8*16 + (2*16*(batch_size_warps-1))];
+  __shared__ T smem_B[2*batch_size_warps*16*32 + (2*16*(batch_size_warps-1))];
+  //__shared__ T smem_C[8*32];
 
-  #pragma unroll 8
-  for(int k = 0; k < 8; k++)
-    local_C[k] = T(0);
+   wmma::fragment<wmma::matrix_a, 8, 32, 16, half, wmma::row_major> a_frag;
+   wmma::fragment<wmma::matrix_b, 8, 32, 16, half, wmma::col_major> b_frag;
+   wmma::fragment<wmma::accumulator, 8, 32, 16, half> c_frag;
+   wmma::fill_fragment(c_frag, 0.0f);
 
-
-  for(int idx = threadIdx.x*32; idx < K; idx+=blockDim.x*32)
+  int ticktock = 0;
+  int idx = 0 + threadIdx.x;
+  int loaded_values = 0;
+  // prefetch
+  if(idx < K && warp_id < (WARPS-1))
   {
-
-    // we load only 8 values per iteration from A, so we
-    // need to do 4 loads for every single load from B
-    // for B, we have packed values, so the 16 8-bit values
-    // turn into 32 4-bit values to 4x 4 loads turns into 4x 8 loads
-    vector_load<T, int4, 8>(local_A, A, idx, idx, K);
-    vector_load<T, int4, 8>(&(local_A[8]), A, idx+8, idx+8, K);
-    vector_load<T, int4, 8>(&(local_A[16]), A, idx+16, idx+16, K);
-    vector_load<T, int4, 8>(&(local_A[24]), A, idx+24, idx+24, K);
-
-    for(int col = 0; col < 8; col++)
+    if(loaded_values == 0)
     {
-      if((col + col_offset) >= M){ break; }
-
-      int offset_B = (col_offset+col)*ldb;
-      // 0111 -> 0.0f in NF4
-      // since we have packed 8-bits, we need cat(0b0111, 0b0111) = 0b01110111
-      vector_load<unsigned char, int4, 16>(local_B_4bit, B, (offset_B+idx+1)/2, (idx+1)/2, (K+1)/2, 0b01110111);
-
-      int absidx = (idx + offset_B)/blocksize;
-      half local_absmax = __ldg(&(absmax[absidx]));
-      //for(int k = 0; k < 16; k++)
-        //printf("%i %i ", local_B_4bit[k] >> 4, local_B_4bit[k] & 0x0F);
-      //printf("\n");
-
-      //vector_load<T, int4, 8>(local_A, A, idx, idx, K);
-
-      #pragma unroll 16
-      for(int k = 0; k < 16; k++)
-      {
-
-        //if(local_B_4bit[k ] != 0b01110111)
-          //printf("(%i %i %i) %i -> %f, %i -> %f\n", threadIdx.x , k, K, local_B_4bit[k ] >> 4, dDequantizeNF4(local_B_4bit[k ] >> 4, local_absmax),
-                                         //local_B_4bit[k ] & 0x0F, dDequantizeNF4(local_B_4bit[k ] & 0x0F, local_absmax));
-        //local_B[k*2] = d2DequantizeFP4(local_B_4bit[k] >> 4);//*local_absmax;
-        //local_B[k*2 + 1] = d2DequantizeFP4(local_B_4bit[k] & 0x0F);//*local_absmax;
-        local_B[k*2] = (half)(local_B_4bit[k] >> 4)*local_absmax;
-        local_B[k*2 + 1] = (half)(local_B_4bit[k] & 0x0F)*local_absmax;
-        //local_B[k*2] = (half)dDequantizeNF4(local_B_4bit[k ] >> 4);//*local_absmax;
-        //local_B[k*2 + 1] = (half)dDequantizeNF4(local_B_4bit[k ] & 0x0F);//*local_absmax;
-      }
+      local_A[0] = A[idx];
+      local_A[1] = A[idx+blockDim.x-32];
 
       #pragma unroll 32
-      //for(int k = 0; k < 8; k++)
-      for(int k = 0; k < 32; k++)
+      for(int col = 0; col < 32; col++)
+        local_B_4bit[col] = B[(col_offset+col)*ldb+idx];
+
+      loaded_values = 1;
+    }
+    else
+    {
+      local_A[0] = local_A[1];
+      loaded_values--;
+
+      #pragma unroll 64
+      for(int col = 0; col < 64; col+=2)
       {
-        local_C[col] += local_A[k]*local_B[k];
-        //if((float)local_A[k] != 0.0 && (float)local_B[k] != 0.0)
-        //if((float)local_B[k] != 0.0)
-          //printf("%i %i %i %i %f*%f\n", threadIdx.x, k, col, (float)local_A[k], (float)local_B[k]);
+        local_B[col] = dhDequantizeNF4(local_B_4bit[col/2] >> 4)*T(1.0f);
+        local_B[col+1] = dhDequantizeNF4(local_B_4bit[col/2] & 0x0F)*T(1.0f);
       }
     }
-  }
 
-  #pragma unroll 8
-  for(int k = 0; k < 8; k++)
+    smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
+
+    #pragma unroll 32
+    for(int col = 0; col < 32; col++)
+        smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = local_B[col];
+  }
+  else if(warp_id < (WARPS-1))
   {
-    local_C[k] = BlockReduce(reduce).Reduce(local_C[k], cub::Sum());
+    local_A[0] = T(0.0);
+    smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] =  0.0f;
+
+    #pragma unroll 32
+    for(int col = 0; col < 32; col++)
+      local_B[col] = 0.0f;
+
+    #pragma unroll 32
+    for(int col = 0; col < 32; col++)
+      smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = 0.0f;
+  }
+  ticktock = ticktock == 0 ? 1 : 0;
+
+  //for(int base_idx = blockDim.x-32; base_idx < K; base_idx+=blockDim.x-32)
+  for(int base_idx = blockDim.x-32; base_idx < K; base_idx+=blockDim.x-32)
+  {
+    idx = base_idx + threadIdx.x;
+
     __syncthreads();
+    if(idx < K && warp_id < (WARPS-1))
+    {
+      if(loaded_values == 0)
+      {
+        local_A[0] = A[idx];
+        local_A[1] = A[idx+blockDim.x-32];
+
+        #pragma unroll 32
+        for(int col = 0; col < 32; col++)
+        {
+          local_B_4bit[col] = B[(col_offset+col)*ldb+idx];
+          local_B_4bit[col+16] = B[(col_offset+col)*ldb+idx];
+        }
+
+        loaded_values = 1;
+      }
+      else
+      {
+        local_A[0] = local_A[1];
+        loaded_values--;
+
+        int absidx = (idx + col_offset)/blocksize;
+        half local_absmax = __ldg(&(absmax[absidx]));
+
+        #pragma unroll 64
+        for(int col = 0; col < 64; col+=2)
+        {
+          local_B[col] = dhDequantizeNF4(local_B_4bit[col/2] >> 4)*T(absidx);
+          local_B[col+1] = dhDequantizeNF4(local_B_4bit[col/2] & 0x0F)*T(absidx);
+        }
+      }
+
+      smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] = local_A[0];
+
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
+          smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = local_B[col];
+    }
+    else if(warp_id < (WARPS-1))
+    {
+      local_A[0] = T(0.0);
+      smem_A[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*a_tile_offset)] =  0.0f;
+
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
+        local_B[col] = 0.0f;
+
+      #pragma unroll 32
+      for(int col = 0; col < 32; col++)
+        smem_B[half_warp_lane + (((batch_size_warps*ticktock)+half_warp_id)*b_tile_offset) + (col*16)] = 0.0f;
+    }
+    ticktock = ticktock == 0 ? 1 : 0;
+
+    if(warp_id == (WARPS-1))
+      for(int k = 0; k < batch_size_warps; k++)
+      {
+        wmma::load_matrix_sync(a_frag, &(smem_A[(ticktock*batch_size_warps + k)*a_tile_offset]), 16); //  111 mu
+        wmma::load_matrix_sync(b_frag, &(smem_B[(ticktock*batch_size_warps + k)*b_tile_offset]), 16); // 35 mu
+        wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
+      }
   }
 
-  if(threadIdx.x == 0)
+  __syncthreads();
+  if(warp_id != (WARPS-1)){ return; }
+  // only warp_id == (WARPS-1) from here
+  int warp_lane = threadIdx.x % 32;
+
+  ticktock = ticktock == 0 ? 1 : 0;
+  for(int k = 0; k < batch_size_warps; k++)
   {
-    #pragma unroll 8
-    for(int k = 0; k < 8; k++)
-      smem_C[k] = local_C[k];
+    wmma::load_matrix_sync(a_frag, &(smem_A[(ticktock*batch_size_warps + k)*a_tile_offset]), 16); //  111 mu
+    wmma::load_matrix_sync(b_frag, &(smem_B[(ticktock*batch_size_warps + k)*b_tile_offset]), 16); // 35 mu
+    wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
   }
-  else if(threadIdx.x >= 32)
-    // early return for unused warps
-    return;
 
-  __syncwarp();
+  // 129 mu
+  if(warp_id == (WARPS-1))
+    wmma::store_matrix_sync(&(smem_A[0]), c_frag, 32, wmma::mem_row_major);
 
-
-  if(threadIdx.x < 8 && col_offset + threadIdx.x < M)
-    out[col_offset + threadIdx.x ] = smem_C[threadIdx.x];
+  if(col_offset + warp_lane < M)
+    out[col_offset + warp_lane] = smem_A[warp_lane];
 }
 
 //#define ROWS 2
@@ -3513,6 +3609,7 @@ template __global__ void gemm_device<half, 16, 64>(int M, int N, int K, half * _
 template __global__ void gemm_device<half, 16, 96>(int M, int N, int K, half * __restrict__ const A,  half* B,  half * out,  int lda, int ldb, int ldc);
 
 template __global__ void kgemm_4bit_inference<half, 128>(int M, int N, int K, half * __restrict__ const A, unsigned char *B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
+template __global__ void kgemm_4bit_inference<half, 160>(int M, int N, int K, half * __restrict__ const A, unsigned char *B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
 
 
 //template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 16d82f9..4d68436 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -703,17 +703,17 @@ template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out
 template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
 {
 
-	int num_blocks = (m+7)/8;
+	int num_blocks = (m+31)/32;
 
-	cout << num_blocks << endl;
-	cout << lda << endl;
-	cout << ldb << endl;
-	cout << ldc << endl;
+	//cout << num_blocks << endl;
+	//cout << lda << endl;
+	//cout << ldb << endl;
+	//cout << ldc << endl;
 
-	cout << m << endl;
-	cout << n << endl;
-	cout << k << endl;
-  kgemm_4bit_inference<T, 128><<< num_blocks, 128, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
+	//cout << m << endl;
+	//cout << n << endl;
+	//cout << k << endl;
+  kgemm_4bit_inference<T, 160><<< num_blocks, 160, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
   //kgemm_4bit_inference<T, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
 }
 
diff --git a/tests/test_functional.py b/tests/test_functional.py
index e9a67f5..dc4e40d 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2358,20 +2358,19 @@ def test_normal_map_tree():
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_cutlass3_gemm(dtype):
-    for dim in [32, 64, 128, 256, 512, 1024, 2048, 4096]:
+    debug = True
+    #for dim in [32, 64, 128, 256, 512, 1024, 2048, 4096]:
     #for dim in [4096, 5120, 6656, 8192]:
-    #for dim in [4096]:
+    for dim in [4096]:
+    #for dim in [128+1]:
         errs = []
         relerrs = []
         max_err = 0
         max_relerr = 0
         for i in range(100):
-            #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
-            #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
-            #A = torch.rand(1, 4096, dtype=dtype, device='cuda')
-            #B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
-            A = torch.randn(1, dim+0, dtype=dtype, device='cuda')
+            A = torch.randn(1, dim, dtype=dtype, device='cuda')
             B = torch.randn(4*dim, dim+0, dtype=dtype, device='cuda')/math.sqrt(dim)
+            #B = torch.randn(1, dim, dtype=dtype, device='cuda')/math.sqrt(dim)
 
             #print('')
             #print(A)
@@ -2397,7 +2396,7 @@ def test_cutlass3_gemm(dtype):
             errs.append(err)
             relerrs.append(relerr)
 
-            #if err/torch.abs(C1).mean() > 5e-5 or err > 3.2e-5:
+            #if not debug and err/torch.abs(C1).mean() > 5e-5 or err > 3.2e-5:
             #    print('')
             #    print(i, err, relerr)
             #    print(A.flatten()[-6:])
@@ -2412,7 +2411,7 @@ def test_cutlass3_gemm(dtype):
 
             c = int(C1.numel()*0.0014*(dim/256))+1
 
-            c = assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c, throw=True)
+            c = assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c, throw=not debug)
             #print(c/math.sqrt(dim))
         print('')
         print(dim, sum(errs)/len(errs)/math.sqrt(dim))
@@ -2422,29 +2421,73 @@ def test_cutlass3_gemm(dtype):
 #@pytest.mark.parametrize("dtype", [torch.float32, torch.float16], ids=['fp32', 'fp16'])
 @pytest.mark.parametrize("dtype", [torch.float16], ids=['fp16'])
 def test_gemm_4bit(dtype):
-    for i in range(1):
-        #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
-        #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
-        #torch.random.manual_seed(17)
-        A = torch.rand(1, 4096, dtype=dtype, device='cuda')
-        B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
+    #for dim in [32, 64, 128, 256, 512, 1024, 2048, 4096]:
+    #for dim in [4096, 5120, 6656, 8192]:
+    #for dim in [32]:
+    for dim in [4096]:
+        errs = []
+        relerrs = []
+        max_err = 0
+        max_relerr = 0
+        for i in range(1):
+            #A = torch.rand(2, 4092, dtype=dtype, device='cuda')
+            #B = torch.rand(4*4092, 4092, dtype=dtype, device='cuda')
+            #A = torch.rand(1, 4096, dtype=dtype, device='cuda')
+            #B = torch.rand(4*4096, 4096, dtype=dtype, device='cuda')
+            A = torch.randn(1, dim+0, dtype=dtype, device='cuda')
+            B = torch.randn(4*dim, dim+0, dtype=dtype, device='cuda')/math.sqrt(dim)
 
-        #print('')
-        #print(A)
-        #print(B)
+            #print('')
+            #print(A)
+            #print(B.t())
+            #A[:, :-1] = 0
+            #B[:, :-1] = 0
 
-        qB, state = F.quantize_nf4(B)
-        F.dequantize_nf4(qB, state)
+            qB, state = F.quantize_nf4(B)
+            F.dequantize_nf4(qB, state)
 
+            C3 = torch.matmul(A, B.t())
+            C2 = F.cutlass3_gemm(A, qB.t(), state=state)
+            C1 = bnb.matmul_4bit(A, qB.t(), state)
+            C2 = F.cutlass3_gemm(A, qB.t(), state=state)
 
-        C1 = torch.matmul(A, B.t())
-        #C1 = bnb.matmul_4bit(A, qB.t(), state)
-        C2 = F.cutlass3_gemm(A, qB.t(), state=state)
-        #print(C1)
-        #print(C2)
+            print(C1.shape, C2.shape)
 
-        #torch.testing.assert_close(C1, C2, atol=1e-5, rtol=0.005)
+            # tensor cores are non-deterministic
+            # so we need to analyze errors around the mean
+            # to test our implementation
+            err = torch.abs(C1-C2)
+            mag = torch.abs(C1)+1e-8
+            relerr = err/mag
+            max_err = max(err.max(), max_err)
+            max_relerr = max(relerr.max(), max_relerr)
+            err = err.mean().item()
+            relerr = relerr.mean().item()
 
+            errs.append(err)
+            relerrs.append(relerr)
+
+            if err/torch.abs(C1).mean() > 5e-5 or err > 3.2e-5:
+                print('')
+                print(i, err, relerr)
+                print(A.flatten()[-6:])
+                print(B.flatten()[-6:])
+                out = A.flatten()[-6:]*B.flatten()[-6:]
+                print(out)
+                print(out[:-1].sum())
+                print('='*80)
+                print(C1.flatten()[-6:])
+                print(C2.flatten()[-6:])
+                #assert False, 'ERROR'
+
+            c = int(C1.numel()*0.0014*(dim/256))+1
+
+            c = assert_all_approx_close(C1, C2, 1e-5, 0.01, count=c, throw=False)
+            #print(c/math.sqrt(dim))
+        print('')
+        print(dim, sum(errs)/len(errs)/math.sqrt(dim))
+        print(dim, sum(relerrs)/len(relerrs)/math.sqrt(dim))
+        print(dim, (max_err.item(), max_relerr.item()))
 
 def test_pipeline_func():
     a = torch.rand(2, 4).cuda()

From ec38ba95b0cd6bf3dadfccf366cd8917acf59c4b Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 6 May 2023 11:14:06 -0700
Subject: [PATCH 84/97] Added paging.

---
 bitsandbytes/cextension.py |  2 +
 bitsandbytes/functional.py | 55 +++++++++++++++++++++++++++
 csrc/kernels.cu            | 76 ++++++++++----------------------------
 csrc/kernels.cuh           | 18 +--------
 csrc/ops.cu                | 25 ++++++++-----
 csrc/ops.cuh               |  9 ++++-
 csrc/pythonInterface.c     | 32 +++++++++++++++-
 tests/test_functional.py   | 40 +++++++++++++++++---
 8 files changed, 167 insertions(+), 90 deletions(-)

diff --git a/bitsandbytes/cextension.py b/bitsandbytes/cextension.py
index 8adca93..17c2a46 100644
--- a/bitsandbytes/cextension.py
+++ b/bitsandbytes/cextension.py
@@ -26,6 +26,8 @@ try:
     lib.cadam_8bit_blockwise_fp32
     lib.get_context.restype = ct.c_void_p
     lib.get_cusparse.restype = ct.c_void_p
+    lib.cget_managed_ptr.restype = ct.c_void_p
+    lib.cget_stream.restype = ct.c_void_p
     COMPILED_WITH_CUDA = True
 except AttributeError:
     warn("The installed version of bitsandbytes was compiled without GPU support. "
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index e5b1bf7..f548475 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -130,6 +130,61 @@ class Cusparse_Context:
             cls._instance.initialize()
         return cls._instance
 
+dtype2bytes = {}
+dtype2bytes[torch.float32] = 4
+dtype2bytes[torch.float16] = 2
+dtype2bytes[torch.bfloat16] = 2
+dtype2bytes[torch.uint8] = 1
+dtype2bytes[torch.int8] = 1
+
+def get_paged(*shape, dtype=torch.float32, device=torch.device('cuda', index=0)):
+    num_bytes = dtype2bytes[dtype]*prod(shape)
+    cuda_ptr = lib.cget_managed_ptr(ct.c_size_t(num_bytes))
+    c_ptr = ct.cast(cuda_ptr, ct.POINTER(ct.c_int))
+    new_array = np.ctypeslib.as_array(c_ptr, shape=shape)
+    out = torch.frombuffer(new_array, dtype=dtype, count=prod(shape))
+    out.is_paged = True
+    out.page_deviceid = device.index
+    return out
+
+def prefetch_tensor(A, to_cpu=False):
+    assert A.is_paged, 'Only paged tensors can be prefetched!'
+    if to_cpu:
+        deviceid = -1
+    else:
+        deviceid = A.page_deviceid
+
+    num_bytes = dtype2bytes[A.dtype]*A.numel()
+    lib.cprefetch(get_ptr(A), ct.c_size_t(num_bytes), ct.c_int32(deviceid))
+
+def elementwise_func(func_name, A, B, value, prefetch=True):
+    func = None
+    if A.dtype == torch.float32:
+        func = getattr(lib, f'c{func_name}_fp32', None)
+        cvalue = ct.c_float(value)
+    elif A.dtype == torch.uint8:
+        func = getattr(lib, f'c{func_name}_uint8', None)
+        cvalue = ct.c_uint8(value)
+
+    if func is None: raise NotImplementedError(f'Function not implemented: {func_name}')
+
+    is_managed = getattr(A, 'is_managed', False)
+    if is_managed and prefetch:
+        prefetch_tensor(A)
+        if B is not None: prefetch_tensor(B)
+
+    func(get_ptr(A), get_ptr(B), cvalue, ct.c_int64(A.numel()))
+    if A.is_paged or B.is_paged:
+        # paged function are fully asynchronous
+        # if we return from this function, we want to the tensor
+        # to be in the correct state, that is the final state after the
+        # operation occured. So we synchronize.
+        torch.cuda.synchronize()
+
+def fill(A, value, device=None, prefetch=True): elementwise_func('fill', A, None, value)
+def arange(A, device=None): elementwise_func('arange', A, None, 0)
+def _mul(A, B, device=None): elementwise_func('_mul', A, B, 0)
+
 
 def create_linear_map(signed=True, total_bits=8, add_zero=True):
     sign = (-1.0 if signed else 0.0)
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 2373b91..e1a3155 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3522,49 +3522,23 @@ template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, i
 //}
 
 
-__device__ void compute(float* global_out, float const* shared_in)
+template <typename T, int FUNC> __global__ void kfunc(T *A, T *B, T value, long n)
 {
-
-}
-template <size_t stages_count /* Pipeline with stages_count stages */>
-__global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz) {
-    auto grid = cooperative_groups::this_grid();
-    auto block = cooperative_groups::this_thread_block();
-    assert(size == batch_sz * grid.size()); // Assume input size fits batch_sz * grid_size
-
-    extern __shared__ float shared[]; // stages_count * block.size() * sizeof(int) bytes
-    size_t shared_offset[stages_count];
-    for (int s = 0; s < stages_count; ++s) shared_offset[s] = s * block.size();
-
-    __shared__ cuda::pipeline_shared_state<
-        cuda::thread_scope::thread_scope_block,
-        stages_count
-    > shared_state;
-    auto pipeline = cuda::make_pipeline(block, &shared_state);
-
-    auto block_batch = [&](size_t batch) -> int {
-        return block.group_index().x * block.size() + grid.size() * batch;
-    };
-
-    // compute_batch: next batch to process
-    // fetch_batch:  next batch to fetch from global memory
-    for (size_t compute_batch = 0, fetch_batch = 0; compute_batch < batch_sz; ++compute_batch) {
-        // The outer loop iterates over the computation of the batches
-        for (; fetch_batch < batch_sz && fetch_batch < (compute_batch + stages_count); ++fetch_batch) {
-            // This inner loop iterates over the memory transfers, making sure that the pipeline is always full
-            pipeline.producer_acquire();
-            size_t shared_idx = fetch_batch % stages_count;
-            size_t batch_idx = fetch_batch;
-            size_t block_batch_idx = block_batch(batch_idx);
-            cuda::memcpy_async(block, shared + shared_offset[shared_idx], global_in + block_batch_idx, sizeof(float) * block.size(), pipeline);
-            pipeline.producer_commit();
-        }
-        pipeline.consumer_wait();
-        int shared_idx = compute_batch % stages_count;
-        int batch_idx = compute_batch;
-        compute(global_out + block_batch(batch_idx), shared + shared_offset[shared_idx]);
-        pipeline.consumer_release();
+  for(long i = (blockDim.x*blockIdx.x) + threadIdx.x; i < n; i+=(blockDim.x*gridDim.x))
+  {
+    switch(FUNC)
+    {
+      case FILL: 
+        A[i] = (T)value;
+        break;
+      case ARANGE:
+        A[i] = (T)i;
+        break;
+      case _MUL:
+        A[i] = A[i]*B[i];
+        break;
     }
+  }
 }
 
 
@@ -3572,19 +3546,10 @@ __global__ void with_staging_unified(float const* global_in, float * global_out,
 //                   TEMPLATE DEFINITIONS
 //==============================================================
 
-//template <class MShape, class NShape, class KShape,
-//          class TA, class AStride, class ABlockLayout, class AThreadLayout,
-//          class TB, class BStride, class BBlockLayout, class BThreadLayout,
-//          class TC, class CStride, class CBlockLayout, class CThreadLayout,
-//          class Alpha, class Beta>
-//__global__ static
-//__launch_bounds__(decltype(size(CThreadLayout{}))::value)
-//void
-//gemm_device(MShape M, NShape N, KShape K,
-//            TA const* A, AStride dA, ABlockLayout blockA, AThreadLayout tA,
-//            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
-//            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
-//            half alpha, half beta);
+template __global__ void kfunc<float, FILL>(float *A, float *B, float value, long n);
+template __global__ void kfunc<unsigned char, FILL>(unsigned char *A, unsigned char *B, unsigned char value, long n);
+template __global__ void kfunc<float, ARANGE>(float *A, float *B, float value, long n);
+template __global__ void kfunc<float, _MUL>(float *A, float *B, float value, long n);
 
 // these are not used and make no sense, but the compiler needs them
 //template __global__ void gemm_device<float, 16, 128>(int M, int N, int K, float * __restrict__ const A,  float* B,  float * out,  int lda, int ldb, int ldc);
@@ -3611,9 +3576,6 @@ template __global__ void gemm_device<half, 16, 96>(int M, int N, int K, half * _
 template __global__ void kgemm_4bit_inference<half, 128>(int M, int N, int K, half * __restrict__ const A, unsigned char *B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
 template __global__ void kgemm_4bit_inference<half, 160>(int M, int N, int K, half * __restrict__ const A, unsigned char *B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
 
-
-//template __global__ void kMatmul_inference_4bit<NF4, half, half, half>(half *A, unsigned char *B, half *out, int lda, int ldb, int rowsA, int colsA, int colsB);
-template __global__ void with_staging_unified<2>(float const* global_in, float * global_out, size_t size, size_t batch_sz);
 template __global__ void kExtractOutliers<COL_TURING>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 template __global__ void kExtractOutliers<COL_AMPERE>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 
diff --git a/csrc/kernels.cuh b/csrc/kernels.cuh
index 4951031..29c6683 100644
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -122,23 +122,9 @@ template <int THREADS, int ITEMS_PER_THREAD, int TILE_ROWS, int TILE_COLS, int T
 
 template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 
-//template <class MShape, class NShape, class KShape,
-//          class TA, class AStride, class ABlockLayout, class AThreadLayout,
-//          class TB, class BStride, class BBlockLayout, class BThreadLayout,
-//          class TC, class CStride, class CBlockLayout, class CThreadLayout,
-//          class Alpha, class Beta>
-//__global__ static
-//__launch_bounds__(decltype(size(CThreadLayout{}))::value)
-//void
-//gemm_device(MShape M, NShape N, KShape K,
-//            TA const* A, AStride dA, ABlockLayout blockA, AThreadLayout tA,
-//            TB const* B, BStride dB, BBlockLayout blockB, BThreadLayout tB,
-//            TC      * out, CStride dC, CBlockLayout       , CThreadLayout tC,
-//            Alpha alpha, Beta beta);
-template <size_t stages_count /* Pipeline with stages_count stages */>
-__global__ void with_staging_unified(float const* global_in, float * global_out, size_t size, size_t batch_sz);
-
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc);
 template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize);
 
+template <typename T, int FUNC> __global__ void kfunc(T *A, T *B, T value, long n);
+
 #endif
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 4d68436..7d13b71 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -663,16 +663,6 @@ template <int FORMAT> void extractOutliers(char * A, int *idx, char *out, int id
 }
 
 
-void pipeline_test(float *A, float *B, size_t n, size_t batch_size)
-{
-
-  int threads = 256;
-  int num_blocks = (n+(256*batch_size)+1)/(batch_size*256);
-
-  with_staging_unified<2><<<num_blocks, threads>>>(A, B, n, batch_size);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
-}
-
 
 
 template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits)
@@ -717,10 +707,25 @@ template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsi
   //kgemm_4bit_inference<T, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
 }
 
+template <typename T, int FUNC> void func(T *A, T *B, T value, long n)
+{
+  int threads = 512;
+  int blocks = n/threads;
+  blocks = n % threads == 0 ? blocks : blocks + 1;
+  blocks = blocks > 65535 ? 65535 : blocks;
+  kfunc<T, FUNC><<<blocks, 512>>>(A, B, value, n);
+  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+}
+
 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================
 
+template void func<float, FILL>(float *A, float *B, float value, long n);
+template void func<unsigned char, FILL>(unsigned char *A, unsigned char *B, unsigned char value, long n);
+template void func<float, ARANGE>(float *A, float *B, float value, long n);
+template void func<float, _MUL>(float *A, float *B, float value, long n);
+
 template void gemm_4bit_inference<half>(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
 //template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc, int bits);
 template void gemm_host<half>(int m, int n, int k, half * A,  half* B,  half * out,  int lda, int ldb, int ldc, int bits);
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
index 8919c60..e9d2e22 100644
--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -93,6 +93,13 @@ typedef enum DataType_t
   NF4 = 2,
 } DataType_t;
 
+typedef enum Funcs_t
+{
+	FILL = 0,
+	ARANGE = 1,
+	_MUL = 2,
+} Funcs_t;
+
 class Context
 {
     public:
@@ -193,6 +200,6 @@ void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rows
 template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits);
 template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize);
 
+template <typename T, int FUNC> void func(T *A, T *B, T value, long n);
 
-void pipeline_test(float *A, float *B, size_t n, size_t batch_size);
 #endif
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index 26f16f2..7271430 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -28,6 +28,14 @@ void gemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int l
 void gemm_4bit_inference(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize)
 { gemm_4bit_inference<half>(m, n, k, A, B, absmax,  out, lda, ldb, ldc, blocksize); }
 
+#define MAKE_ELEMENTWISE_FUNC(fname, type_name, ctype, FUNC) \
+void fname##_##type_name(ctype *A, ctype *B, ctype value, long n){ func<ctype, FUNC>(A, B, value, n); } \
+
+MAKE_ELEMENTWISE_FUNC(fill, fp32, float, FILL)
+MAKE_ELEMENTWISE_FUNC(fill, uint8, unsigned char, FILL)
+MAKE_ELEMENTWISE_FUNC(arange, fp32, float, ARANGE)
+MAKE_ELEMENTWISE_FUNC(_mul, fp32, float, _MUL)
+
 
 #define MAKE_FUNC32(fname, oname, gtype, gbits) \
 void fname##32bit_g##gbits(gtype *g, gtype *p, \
@@ -314,7 +322,6 @@ extern "C"
 
 	void cextractOutliers_turing(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_turing(A, idx, out, idx_size, rows, cols); }
 	void cextractOutliers_ampere(char * A, int *idx, char *out, int idx_size, int rows, int cols){ extractOutliers_ampere(A, idx, out, idx_size, rows, cols); }
-	void cpipeline_test(float *A, float *B, size_t n, size_t batch_size){ pipeline_test(A, B, n, batch_size); }
 
 	//void cgemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
 	//{ gemm_host_fp32(M, N, K, A, B, out, lda, ldb, ldc); }
@@ -325,6 +332,29 @@ extern "C"
 	void cgemm_4bit_inference(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize)
 	{ gemm_4bit_inference(m, n, k, A, B, absmax, out, lda, ldb, ldc, blocksize); }
 
+	void *cget_managed_ptr(size_t bytes)
+	{
+		void *ptr;
+		CUDA_CHECK_RETURN(cudaMallocManaged(&ptr, bytes, cudaMemAttachHost));
+		CUDA_CHECK_RETURN(cudaPeekAtLastError());
+
+		return ptr;
+	}
+
+	void cprefetch(void *ptr, size_t bytes, int device)
+	{
+		CUDA_CHECK_RETURN(cudaMemPrefetchAsync(ptr, bytes, device, 0));
+		CUDA_CHECK_RETURN(cudaPeekAtLastError());
+	}
+
+  #define CMAKE_ELEMENTWISE_FUNC(fname, type_name, ctype, FUNC) \
+	void c##fname##_##type_name(ctype *A, ctype *B, ctype value, long n){ fname##_##type_name(A, B, value, n); } \
+
+	CMAKE_ELEMENTWISE_FUNC(fill, fp32, float, FILL)
+	CMAKE_ELEMENTWISE_FUNC(fill, uint8, unsigned char, FILL)
+	CMAKE_ELEMENTWISE_FUNC(arange, fp32, float, ARANGE)
+	CMAKE_ELEMENTWISE_FUNC(_mul, fp32, float, _MUL)
+
 #endif
 	void cquantize_blockwise_cpu_fp32(float *code, float *A, float *absmax, unsigned char *out, long long blocksize, long long n){ quantize_cpu(code, A, absmax, out, blocksize, n); }
 	void cdequantize_blockwise_cpu_fp32(float *code, unsigned char *A, float *absmax, float *out, long long blocksize, long long n){ dequantize_cpu(code, A, absmax, out, blocksize, n); }
diff --git a/tests/test_functional.py b/tests/test_functional.py
index dc4e40d..145c267 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -2489,8 +2489,38 @@ def test_gemm_4bit(dtype):
         print(dim, sum(relerrs)/len(relerrs)/math.sqrt(dim))
         print(dim, (max_err.item(), max_relerr.item()))
 
-def test_pipeline_func():
-    a = torch.rand(2, 4).cuda()
-    out = F.pipeline_test(a, 2)
-    print(a)
-    print(out)
+def test_managed():
+    n = 32*10
+    A = F.get_paged(n, n, dtype=torch.float32)
+    B = F.get_paged(n, n, dtype=torch.uint8)
+    B2 = F.get_paged(n, n, dtype=torch.float32)
+    assert A.is_paged
+    assert B.is_paged
+    assert A.page_deviceid==0
+    assert B.page_deviceid==0
+    F.fill(A, 17.0)
+    F.fill(B, 17)
+    F.fill(B2, 2)
+    assert (A==17).sum().item() == n*n
+    assert (B==17).sum().item() == n*n
+    C = A*B.float()
+    assert (C==289).sum().item() == n*n
+    F._mul(A, B2)
+    F._mul(A, B2)
+    F._mul(A, B2)
+    assert (A==17*(2**3)).sum().item() == n*n
+   # F.prefetch_tensor(A)
+   # F.prefetch_tensor(B)
+
+
+   # F.fill(B2, 17.0)
+   # F._mul(A, B2)
+
+   # F.prefetch_tensor(A, to_cpu=True)
+   # F.prefetch_tensor(B, to_cpu=True)
+   # F.prefetch_tensor(B2, to_cpu=True)
+   # torch.cuda.synchronize()
+
+   # assert (A==17).sum().item() == n*n
+
+   # torch.testing.assert_allclose(A, torch.ones(A.shape)*289)

From 44d68ff29cc19e54db13242e7f8cff3c7e4c5196 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 6 May 2023 14:59:29 -0700
Subject: [PATCH 85/97] Added paged optimizers.

---
 bitsandbytes/cextension.py      |   1 -
 bitsandbytes/functional.py      |  33 ++++++++--
 bitsandbytes/optim/__init__.py  |   4 +-
 bitsandbytes/optim/adam.py      | 104 +++++++-----------------------
 bitsandbytes/optim/adamw.py     | 108 ++++++++------------------------
 bitsandbytes/optim/optimizer.py |  72 ++++++++++-----------
 tests/test_functional.py        |  14 ++---
 tests/test_optim.py             |  87 +++++++++++--------------
 8 files changed, 157 insertions(+), 266 deletions(-)

diff --git a/bitsandbytes/cextension.py b/bitsandbytes/cextension.py
index 17c2a46..29621c9 100644
--- a/bitsandbytes/cextension.py
+++ b/bitsandbytes/cextension.py
@@ -27,7 +27,6 @@ try:
     lib.get_context.restype = ct.c_void_p
     lib.get_cusparse.restype = ct.c_void_p
     lib.cget_managed_ptr.restype = ct.c_void_p
-    lib.cget_stream.restype = ct.c_void_p
     COMPILED_WITH_CUDA = True
 except AttributeError:
     warn("The installed version of bitsandbytes was compiled without GPU support. "
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index f548475..a6ed675 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -83,6 +83,27 @@ if COMPILED_WITH_CUDA:
         lib.cadagrad_8bit_blockwise_fp16,
     )
 
+class GlobalPageManager:
+    _instance = None
+
+    def __init__(self):
+        raise RuntimeError("Call get_instance() instead")
+
+    def initialize(self):
+        self.paged_tensors = []
+
+    @classmethod
+    def get_instance(cls):
+        if cls._instance is None:
+            cls._instance = cls.__new__(cls)
+            cls._instance.initialize()
+        return cls._instance
+
+    def prefetch_all(self, to_cpu=False):
+        for t in self.paged_tensors:
+            prefetch_tensor(t, to_cpu)
+
+
 
 class CUBLAS_Context:
     _instance = None
@@ -142,7 +163,7 @@ def get_paged(*shape, dtype=torch.float32, device=torch.device('cuda', index=0))
     cuda_ptr = lib.cget_managed_ptr(ct.c_size_t(num_bytes))
     c_ptr = ct.cast(cuda_ptr, ct.POINTER(ct.c_int))
     new_array = np.ctypeslib.as_array(c_ptr, shape=shape)
-    out = torch.frombuffer(new_array, dtype=dtype, count=prod(shape))
+    out = torch.frombuffer(new_array, dtype=dtype, count=prod(shape)).view(shape)
     out.is_paged = True
     out.page_deviceid = device.index
     return out
@@ -415,10 +436,14 @@ def is_on_gpu(tensors):
     gpu_ids = set()
     for t in tensors:
         if t is None: continue # NULL pointers are fine
-        on_gpu &= t.device.type == 'cuda'
-        gpu_ids.add(t.device.index)
+        is_paged = getattr(t, 'is_paged', False)
+        on_gpu &= (t.device.type == 'cuda' or is_paged)
+        if not is_paged:
+            gpu_ids.add(t.device.index)
+    if not on_gpu:
+        raise TypeError(f'All input tensors need to be on the same GPU, but found some tensors to not be on a GPU:\n {[(t.shape, t.device) for t in tensors]}')
     if len(gpu_ids) > 1:
-        raise TypeError(f'Input tensors need to be on the same GPU, but found the following tensor and device combinations:{[(t.shape, t.device) for t in tensors]}')
+        raise TypeError(f'Input tensors need to be on the same GPU, but found the following tensor and device combinations:\n {[(t.shape, t.device) for t in tensors]}')
     return on_gpu
 
 def get_ptr(A: Tensor) -> ct.c_void_p:
diff --git a/bitsandbytes/optim/__init__.py b/bitsandbytes/optim/__init__.py
index 8c8a8f4..994dae5 100644
--- a/bitsandbytes/optim/__init__.py
+++ b/bitsandbytes/optim/__init__.py
@@ -6,8 +6,8 @@
 from bitsandbytes.cextension import COMPILED_WITH_CUDA
 
 from .adagrad import Adagrad, Adagrad8bit, Adagrad32bit
-from .adam import Adam, Adam8bit, Adam32bit
-from .adamw import AdamW, AdamW8bit, AdamW32bit
+from .adam import Adam, Adam8bit, Adam32bit, PagedAdam, PagedAdam8bit, PagedAdam32bit
+from .adamw import AdamW, AdamW8bit, AdamW32bit, PagedAdamW, PagedAdamW8bit, PagedAdamW32bit
 from .lamb import LAMB, LAMB8bit, LAMB32bit
 from .lars import LARS, LARS8bit, LARS32bit, PytorchLARS
 from .optimizer import GlobalOptimManager
diff --git a/bitsandbytes/optim/adam.py b/bitsandbytes/optim/adam.py
index 396aeb8..86981eb 100644
--- a/bitsandbytes/optim/adam.py
+++ b/bitsandbytes/optim/adam.py
@@ -14,92 +14,34 @@ from bitsandbytes.optim.optimizer import Optimizer2State
 
 
 class Adam(Optimizer2State):
-    def __init__(
-        self,
-        params,
-        lr=1e-3,
-        betas=(0.9, 0.999),
-        eps=1e-8,
-        weight_decay=0,
-        amsgrad=False,
-        optim_bits=32,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "adam",
-            params,
-            lr,
-            betas,
-            eps,
-            weight_decay,
-            optim_bits,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
-
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, optim_bits, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged)
 
 class Adam8bit(Optimizer2State):
-    def __init__(
-        self,
-        params,
-        lr=1e-3,
-        betas=(0.9, 0.999),
-        eps=1e-8,
-        weight_decay=0,
-        amsgrad=False,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "adam",
-            params,
-            lr,
-            betas,
-            eps,
-            weight_decay,
-            8,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
-
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, 8, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged)
 
 class Adam32bit(Optimizer2State):
-    def __init__(
-        self,
-        params,
-        lr=1e-3,
-        betas=(0.9, 0.999),
-        eps=1e-8,
-        weight_decay=0,
-        amsgrad=False,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "adam",
-            params,
-            lr,
-            betas,
-            eps,
-            weight_decay,
-            32,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, 32, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged)
 
+class PagedAdam(Optimizer2State):
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, optim_bits, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
+
+class PagedAdam8bit(Optimizer2State):
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, 8, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
+
+class PagedAdam32bit(Optimizer2State):
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, 32, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
 
 class AnalysisAdam(torch.optim.Optimizer):
     """Adam that performs 8-bit vs 32-bit error analysis.
diff --git a/bitsandbytes/optim/adamw.py b/bitsandbytes/optim/adamw.py
index 022e64c..21077f1 100644
--- a/bitsandbytes/optim/adamw.py
+++ b/bitsandbytes/optim/adamw.py
@@ -5,89 +5,35 @@
 from bitsandbytes.optim.optimizer import Optimizer2State
 
 
-class AdamW(Optimizer2State):
-    def __init__(
-        self,
-        params,
-        lr=1e-3,
-        betas=(0.9, 0.999),
-        eps=1e-8,
-        weight_decay=1e-2,
-        amsgrad=False,
-        optim_bits=32,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "adam",
-            params,
-            lr,
-            betas,
-            eps,
-            weight_decay,
-            optim_bits,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
 
+class AdamW(Optimizer2State):
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=1e-2, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, optim_bits, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged )
 
 class AdamW8bit(Optimizer2State):
-    def __init__(
-        self,
-        params,
-        lr=1e-3,
-        betas=(0.9, 0.999),
-        eps=1e-8,
-        weight_decay=1e-2,
-        amsgrad=False,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "adam",
-            params,
-            lr,
-            betas,
-            eps,
-            weight_decay,
-            8,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
-
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=1e-2, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, 8, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged )
 
 class AdamW32bit(Optimizer2State):
-    def __init__(
-        self,
-        params,
-        lr=1e-3,
-        betas=(0.9, 0.999),
-        eps=1e-8,
-        weight_decay=1e-2,
-        amsgrad=False,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "adam",
-            params,
-            lr,
-            betas,
-            eps,
-            weight_decay,
-            32,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=1e-2, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, 32, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged)
+
+
+class PagedAdamW(Optimizer2State):
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=1e-2, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, optim_bits, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
+
+class PagedAdamW8bit(Optimizer2State):
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=1e-2, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, 8, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
+
+class PagedAdamW32bit(Optimizer2State):
+    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=1e-2, amsgrad=False, optim_bits=32,
+                       args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True):
+        super().__init__( "adam", params, lr, betas, eps, weight_decay, 32, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
+
diff --git a/bitsandbytes/optim/optimizer.py b/bitsandbytes/optim/optimizer.py
index 867ad3d..4f8dcc7 100644
--- a/bitsandbytes/optim/optimizer.py
+++ b/bitsandbytes/optim/optimizer.py
@@ -92,10 +92,12 @@ class GlobalOptimManager:
 
 
 class Optimizer8bit(torch.optim.Optimizer):
-    def __init__(self, params, defaults, optim_bits=32):
+    def __init__(self, params, defaults, optim_bits=32, is_paged=False):
         super().__init__(params, defaults)
         self.initialized = False
         self.name2qmap = {}
+        self.is_paged = is_paged
+        self.page_mng = F.GlobalPageManager.get_instance()
 
         self.mng = GlobalOptimManager.get_instance()
         self.non_castable_tensor_keys = {
@@ -207,7 +209,9 @@ class Optimizer8bit(torch.optim.Optimizer):
                     values = self.state[p]
                     for k, v in values.items():
                         if isinstance(v, torch.Tensor):
-                            self.state[p][k] = v.to(p.device)
+                            is_paged = getattr(v, 'is_paged', False)
+                            if not is_paged:
+                                self.state[p][k] = v.to(p.device)
 
     def check_overrides(self):
         for module, attr, config in self.mng.module_weight_config_triple:
@@ -252,6 +256,7 @@ class Optimizer8bit(torch.optim.Optimizer):
             self.to_gpu()  # needed for fairseq pure fp16 training
             self.initialized = True
 
+        if self.is_paged: self.page_mng.prefetch_all()
         for gindex, group in enumerate(self.param_groups):
             for pindex, p in enumerate(group["params"]):
                 if p.grad is None:
@@ -261,6 +266,11 @@ class Optimizer8bit(torch.optim.Optimizer):
                     self.init_state(group, p, gindex, pindex)
 
                 self.update_step(group, p, gindex, pindex)
+        if self.is_paged:
+            # all paged operation are asynchronous, we need
+            # to sync to make sure all tensors are in the right state
+            torch.cuda.synchronize()
+
 
         return loss
 
@@ -289,6 +299,16 @@ class Optimizer8bit(torch.optim.Optimizer):
             "The update_step method needs to be overridden"
         )
 
+    def get_state_buffer(self, p, dtype=torch.float32):
+        if not self.is_paged or p.numel() < 1e5:
+            return torch.zeros_like(p, dtype=dtype, device=p.device)
+        else:
+            # > 1 MB
+            buff = F.get_paged(*p.shape, dtype=dtype, device=p.device)
+            F.fill(buff, 0)
+            self.page_mng.paged_tensors.append(buff)
+            return buff
+
 
 class Optimizer2State(Optimizer8bit):
     def __init__(
@@ -306,6 +326,7 @@ class Optimizer2State(Optimizer8bit):
         block_wise=True,
         max_unorm=0.0,
         skip_zeros=False,
+        is_paged=False
     ):
         if not 0.0 <= lr:
             raise ValueError(f"Invalid learning rate: {lr}")
@@ -325,7 +346,7 @@ class Optimizer2State(Optimizer8bit):
                 f"Invalid weight_decay value: {weight_decay}"
             )
         defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay)
-        super().__init__(params, defaults, optim_bits)
+        super().__init__(params, defaults, optim_bits, is_paged)
 
         if args is None:
             args = {}
@@ -365,18 +386,8 @@ class Optimizer2State(Optimizer8bit):
         if dtype == torch.float32 or (
             dtype == torch.uint8 and p.numel() < 4096
         ):
-            state["state1"] = torch.zeros_like(
-                p,
-                memory_format=torch.preserve_format,
-                dtype=torch.float32,
-                device=p.device,
-            )
-            state["state2"] = torch.zeros_like(
-                p,
-                memory_format=torch.preserve_format,
-                dtype=torch.float32,
-                device=p.device,
-            )
+            state["state1"] = self.get_state_buffer(p, dtype=torch.float32)
+            state["state2"] = self.get_state_buffer(p, dtype=torch.float32)
         elif dtype == torch.uint8:
             if state["step"] == 0:
                 if "dynamic" not in self.name2qmap:
@@ -388,20 +399,10 @@ class Optimizer2State(Optimizer8bit):
                     p.device
                 )
 
-            state["state1"] = torch.zeros_like(
-                p,
-                memory_format=torch.preserve_format,
-                dtype=torch.uint8,
-                device=p.device,
-            )
+            state["state1"] = self.get_state_buffer(p, dtype=torch.uint8)
             state["qmap1"] = self.name2qmap["dynamic"]
 
-            state["state2"] = torch.zeros_like(
-                p,
-                memory_format=torch.preserve_format,
-                dtype=torch.uint8,
-                device=p.device,
-            )
+            state["state2"] = self.get_state_buffer(p, dtype=torch.uint8)
             state["qmap2"] = self.name2qmap["udynamic"]
 
             if config["block_wise"]:
@@ -538,6 +539,7 @@ class Optimizer1State(Optimizer8bit):
         block_wise=True,
         max_unorm=0.0,
         skip_zeros=False,
+        is_paged=False
     ):
         if not 0.0 <= lr:
             raise ValueError(f"Invalid learning rate: {lr}")
@@ -553,7 +555,7 @@ class Optimizer1State(Optimizer8bit):
                 f"Invalid weight_decay value: {weight_decay}"
             )
         defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay)
-        super().__init__(params, defaults, optim_bits)
+        super().__init__(params, defaults, optim_bits, is_paged)
 
         if args is None:
             args = {}
@@ -593,12 +595,7 @@ class Optimizer1State(Optimizer8bit):
         if dtype == torch.float32 or (
             dtype == torch.uint8 and p.numel() < 4096
         ):
-            state["state1"] = torch.zeros_like(
-                p,
-                memory_format=torch.preserve_format,
-                dtype=torch.float32,
-                device=p.device,
-            )
+            state["state1"] = self.get_state_buffer(p, dtype=torch.float32)
         elif dtype == torch.uint8:
             if state["step"] == 0:
                 if "dynamic" not in self.name2qmap:
@@ -607,12 +604,7 @@ class Optimizer1State(Optimizer8bit):
                     p.device
                 )
 
-            state["state1"] = torch.zeros_like(
-                p,
-                memory_format=torch.preserve_format,
-                dtype=torch.uint8,
-                device=p.device,
-            )
+            state["state1"] = self.get_state_buffer(p, dtype=torch.uint8)
             state["qmap1"] = self.name2qmap["dynamic"]
 
             if config["block_wise"]:
diff --git a/tests/test_functional.py b/tests/test_functional.py
index 145c267..6bda1a8 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -172,8 +172,8 @@ def test_dynamic_blockwise_quantization(nested, blocksize):
     relerr = sum(reldiffs)/len(reldiffs)
     assert abserr < 0.011
     assert relerr < 0.018
-    print('nested=', nested, 'randn', blocksize, sum(diffs)/len(diffs))
-    print('nested=', nested, 'randn', blocksize, sum(reldiffs)/len(reldiffs))
+    #print('nested=', nested, 'randn', blocksize, sum(diffs)/len(diffs))
+    #print('nested=', nested, 'randn', blocksize, sum(reldiffs)/len(reldiffs))
 
     diffs = []
     for i in range(100):
@@ -189,8 +189,8 @@ def test_dynamic_blockwise_quantization(nested, blocksize):
     relerr = sum(reldiffs)/len(reldiffs)
     assert abserr < 0.0035
     assert relerr < 0.015
-    print('nested=', nested, 'rand', blocksize, sum(diffs)/len(diffs))
-    print('nested=', nested, 'rand', blocksize, sum(reldiffs)/len(reldiffs))
+    #print('nested=', nested, 'rand', blocksize, sum(diffs)/len(diffs))
+    #print('nested=', nested, 'rand', blocksize, sum(reldiffs)/len(reldiffs))
 
 
 def test_dynamic_blockwise_stochastic_quantization():
@@ -320,7 +320,7 @@ def test_approx_igemm(dim1, dim2, quant_methods, batched):
     dim2 = dim2 - (dim2 % 32)
     errors = []
     relerrors = []
-    print("")
+    #print("")
     for i in range(5):
         if batched:
             A = torch.normal(0, 0.5, size=(32, dim1, dim2 // 32), device="cuda")
@@ -349,8 +349,8 @@ def test_approx_igemm(dim1, dim2, quant_methods, batched):
         relerr = err / torch.abs(out2)
         errors.append(err.mean().item())
         relerrors.append(relerr.mean().item())
-    print(mean(errors))
-    print(mean(relerrors))
+    #print(mean(errors))
+    #print(mean(relerrors))
 
 
 def test_stable_embedding():
diff --git a/tests/test_optim.py b/tests/test_optim.py
index a13b332..a5ecb6e 100644
--- a/tests/test_optim.py
+++ b/tests/test_optim.py
@@ -39,6 +39,8 @@ str2optimizers["momentum_pytorch"] = (
     bnb.optim.Adam,
 )
 str2optimizers["adam"] = (torch.optim.Adam, bnb.optim.Adam)
+str2optimizers["paged_adamw"] = (torch.optim.AdamW, bnb.optim.PagedAdamW)
+str2optimizers["paged_adam"] = (torch.optim.Adam, bnb.optim.PagedAdam)
 # str2optimizers['fused_adam'] = (apex.optimizers.FusedAdam, bnb.optim.Adam)
 str2optimizers["momentum"] = (
     lambda pxx: torch.optim.SGD(pxx, 0.01, 0.9),
@@ -48,10 +50,7 @@ str2optimizers["rmsprop"] = (
     lambda pxx: torch.optim.RMSprop(pxx, 0.01, 0.9),
     lambda pxx: bnb.optim.RMSprop(pxx, 0.01, 0.9, block_wise=False),
 )
-str2optimizers["adam8bit"] = (
-    torch.optim.Adam,
-    lambda pxx: bnb.optim.Adam8bit(pxx, block_wise=False),
-)
+str2optimizers["adam8bit"] = (torch.optim.Adam, lambda pxx: bnb.optim.Adam8bit(pxx, block_wise=False))
 str2optimizers["momentum8bit"] = (
     lambda pxx: torch.optim.SGD(pxx, 0.01, 0.9),
     lambda pxx: bnb.optim.SGD8bit(pxx, 0.01, 0.9, block_wise=False),
@@ -61,10 +60,9 @@ str2optimizers["rmsprop8bit"] = (
     lambda pxx: bnb.optim.RMSprop8bit(pxx, 0.01, 0.9, block_wise=False),
 )
 
-str2optimizers["adam8bit_blockwise"] = (
-    torch.optim.Adam,
-    lambda pxx: bnb.optim.Adam8bit(pxx, block_wise=True),
-)
+str2optimizers["adam8bit_blockwise"] = (torch.optim.Adam, lambda pxx: bnb.optim.Adam8bit(pxx, block_wise=True))
+str2optimizers["paged_adamw8bit_blockwise"] = (torch.optim.AdamW, lambda pxx: bnb.optim.PagedAdamW8bit(pxx, block_wise=True))
+str2optimizers["paged_adam8bit_blockwise"] = (torch.optim.Adam, lambda pxx: bnb.optim.PagedAdam8bit(pxx, block_wise=True))
 str2optimizers["momentum8bit_blockwise"] = (
     lambda pxx: torch.optim.SGD(pxx, 0.01, 0.9),
     lambda pxx: bnb.optim.SGD8bit(pxx, 0.01, 0.9, block_wise=True),
@@ -76,36 +74,25 @@ str2optimizers["rmsprop8bit_blockwise"] = (
 
 str2statenames = {}
 str2statenames["adam"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
+str2statenames["paged_adamw"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
+str2statenames["paged_adam"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
 str2statenames["momentum"] = [("momentum_buffer", "state1")]
 str2statenames["lamb"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
 str2statenames["rmsprop"] = [("square_avg", "state1")]
-str2statenames["adam8bit"] = [
-    ("exp_avg", "state1", "qmap1", "max1"),
-    ("exp_avg_sq", "state2", "qmap2", "max2"),
-]
-str2statenames["lamb8bit"] = [
-    ("exp_avg", "state1", "qmap1", "max1"),
-    ("exp_avg_sq", "state2", "qmap2", "max2"),
-]
-str2statenames["adam8bit_blockwise"] = [
-    ("exp_avg", "state1", "qmap1", "absmax1"),
-    ("exp_avg_sq", "state2", "qmap2", "absmax2"),
-]
-str2statenames["momentum8bit"] = [
-    ("momentum_buffer", "state1", "qmap1", "max1")
-]
-str2statenames["momentum8bit_blockwise"] = [
-    ("momentum_buffer", "state1", "qmap1", "absmax1")
-]
+str2statenames["adam8bit"] = [("exp_avg", "state1", "qmap1", "max1"), ("exp_avg_sq", "state2", "qmap2", "max2")]
+str2statenames["lamb8bit"] = [("exp_avg", "state1", "qmap1", "max1"), ("exp_avg_sq", "state2", "qmap2", "max2")]
+str2statenames["adam8bit_blockwise"] = [("exp_avg", "state1", "qmap1", "absmax1"), ("exp_avg_sq", "state2", "qmap2", "absmax2")]
+str2statenames["paged_adam8bit_blockwise"] = [("exp_avg", "state1", "qmap1", "absmax1"), ("exp_avg_sq", "state2", "qmap2", "absmax2")]
+str2statenames["paged_adamw8bit_blockwise"] = [("exp_avg", "state1", "qmap1", "absmax1"), ("exp_avg_sq", "state2", "qmap2", "absmax2")]
+str2statenames["momentum8bit"] = [("momentum_buffer", "state1", "qmap1", "max1")]
+str2statenames["momentum8bit_blockwise"] = [("momentum_buffer", "state1", "qmap1", "absmax1")]
 str2statenames["rmsprop8bit"] = [("square_avg", "state1", "qmap1", "max1")]
-str2statenames["rmsprop8bit_blockwise"] = [
-    ("square_avg", "state1", "qmap1", "absmax1")
-]
+str2statenames["rmsprop8bit_blockwise"] = [("square_avg", "state1", "qmap1", "absmax1")]
 
 dim1 = [1024]
 dim2 = [32, 1024, 4097, 1]
-gtype = [torch.float32, torch.float16, torch.bfloat16]
-optimizer_names = ["adam", "momentum", "rmsprop"]
+gtype = [torch.float32, torch.float16]
+optimizer_names = ["adam", "momentum", "rmsprop", 'paged_adamw', 'paged_adam']
 values = list(product(dim1, dim2, gtype, optimizer_names))
 names = ["dim1_{}_dim2_{}_gtype_{}_optim_{}".format(*vals) for vals in values]
 @pytest.mark.parametrize("dim1, dim2, gtype, optim_name", values, ids=names)
@@ -135,14 +122,14 @@ def test_optimizer32bit(dim1, dim2, gtype, optim_name):
         torch_optimizer.step()
 
         for name1, name2 in str2statenames[optim_name]:
-            torch.testing.assert_allclose(
+            torch.testing.assert_close(
                 torch_optimizer.state[p1][name1],
-                bnb_optimizer.state[p2][name2],
+                bnb_optimizer.state[p2][name2].cuda(),
                 atol=atol,
                 rtol=rtol,
             )
 
-        torch.testing.assert_allclose(p1, p2.float(), atol=atol, rtol=rtol)
+        torch.testing.assert_close(p1, p2.float(), atol=atol, rtol=rtol)
 
         if i % (k // 5) == 0 and i > 0:
             path = get_temp_dir()
@@ -152,9 +139,9 @@ def test_optimizer32bit(dim1, dim2, gtype, optim_name):
             bnb_optimizer = str2optimizers[optim_name][1]([p2])
             bnb_optimizer.load_state_dict(torch.load(join(path, "opt.pt")))
             rm_path(path)
-            torch.testing.assert_allclose(p1, p2.float(), atol=atol, rtol=rtol)
+            torch.testing.assert_close(p1, p2.float(), atol=atol, rtol=rtol)
             for name1, name2 in str2statenames[optim_name]:
-                torch.testing.assert_allclose(
+                torch.testing.assert_close(
                     torch_optimizer.state[p1][name1],
                     bnb_optimizer.state[p2][name2],
                     atol=atol,
@@ -168,7 +155,7 @@ def test_optimizer32bit(dim1, dim2, gtype, optim_name):
             # --> copy the state to keep weights close
             p1.data = p1.data.to(p2.dtype).float()
             p2.copy_(p1.data)
-            torch.testing.assert_allclose(p1.to(p2.dtype), p2)
+            torch.testing.assert_close(p1.to(p2.dtype), p2)
         if optim_name in ["lars", "lamb"]:
             assert bnb_optimizer.state[p2]["unorm_vec"] > 0.0
 
@@ -277,7 +264,7 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
         bnb_optimizer.step()
         torch_optimizer.step()
 
-        torch.testing.assert_allclose(p1, p2.float(), atol=patol, rtol=prtol)
+        torch.testing.assert_close(p1, p2.float(), atol=patol, rtol=prtol)
 
         dequant_states = []
         for name1, name2, qmap, max_val in str2statenames[optim_name]:
@@ -331,8 +318,8 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
                 bnb_optimizer = str2optimizers[optim_name][1]([p2])
                 bnb_optimizer.load_state_dict(torch.load(join(path, "opt.pt")))
                 rm_path(path)
-                torch.testing.assert_allclose(raws1cpy, bnb_optimizer.state[p2][name2])
-                torch.testing.assert_allclose(qmap1, bnb_optimizer.state[p2][qmap])
+                torch.testing.assert_close(raws1cpy, bnb_optimizer.state[p2][name2])
+                torch.testing.assert_close(qmap1, bnb_optimizer.state[p2][qmap])
 
                 if "blockwise" in optim_name:
                     s1 = F.dequantize_blockwise(
@@ -347,17 +334,17 @@ def test_optimizer8bit(dim1, dim2, gtype, optim_name):
                         absmax=bnb_optimizer.state[p2][max_val],
                         A=bnb_optimizer.state[p2][name2],
                     )
-                torch.testing.assert_allclose(s1cpy, s1)
+                torch.testing.assert_close(s1cpy, s1)
 
                 num_not_close = (torch.isclose(torch_optimizer.state[p1][name1], s1, atol=atol, rtol=rtol) == 0)
                 assert num_not_close.sum().item() < 20
-            torch.testing.assert_allclose(p1, p2.float(), atol=patol, rtol=prtol)
+            torch.testing.assert_close(p1, p2.float(), atol=patol, rtol=prtol)
 
         # the parameters diverge quickly. Here we keep them close
         # together so we can test against the Adam error
         p1.data = p1.data.to(gtype).float()
         p2.copy_(p1.data)
-        torch.testing.assert_allclose(p1.to(gtype), p2)
+        torch.testing.assert_close(p1.to(gtype), p2)
         for (name1, name2, qmap, max_val), s in zip(str2statenames[optim_name], dequant_states):
             torch_optimizer.state[p1][name1].copy_(s.data)
 
@@ -419,28 +406,28 @@ def test_adam_percentile_clipping(dim1, dim2, gtype, optim_bits):
 
         # gnorm_scale is not deterministic (warp reductions), as such there can be slight differences in state
         if optim_bits == 32:
-            torch.testing.assert_allclose(p1, p2)
-            torch.testing.assert_allclose(
+            torch.testing.assert_close(p1, p2)
+            torch.testing.assert_close(
                 adam1.state[p1]["state1"],
                 adam2.state[p2]["state1"],
                 atol=5e-5,
                 rtol=1e-4,
             )
-            torch.testing.assert_allclose(
+            torch.testing.assert_close(
                 adam1.state[p1]["state2"],
                 adam2.state[p2]["state2"],
                 atol=5e-5,
                 rtol=1e-4,
             )
         elif optim_bits == 8:
-            torch.testing.assert_allclose(p1, p2, atol=1e-4, rtol=1e-3)
-            torch.testing.assert_allclose(
+            torch.testing.assert_close(p1, p2, atol=1e-4, rtol=1e-3)
+            torch.testing.assert_close(
                 adam1.state[p1]["state1"],
                 adam2.state[p2]["state1"],
                 atol=2,
                 rtol=1e-3,
             )
-            torch.testing.assert_allclose(
+            torch.testing.assert_close(
                 adam1.state[p1]["state2"],
                 adam2.state[p2]["state2"],
                 atol=2,
@@ -472,7 +459,7 @@ gtype = [torch.float32, torch.float16]
 # optimizer_names = ['momentum_apex', 'momentum8bit', 'momentum_pytorch']
 # optimizer_names = ['lamb_apex', 'lamb8bit']
 # optimizer_names = ['lars_apex', 'lars8bit']
-optimizer_names = ["adam8bit_blockwise"]
+optimizer_names = ["adam8bit_blockwise", 'paged_adam8bit_blockwise', 'paged_adamw8bit_blockwise']
 values = list(product(dim1, dim2, gtype, optimizer_names))
 names = [
     "dim1_{}_dim2_{}_gtype_{}_optim_{}".format(*vals) for vals in values

From 41a9c708148c4a16675244de88352d0437e2d87a Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 6 May 2023 18:59:59 -0700
Subject: [PATCH 86/97] Changed prefetching.

---
 bitsandbytes/functional.py      |  5 ++++-
 bitsandbytes/optim/optimizer.py | 11 ++++++++++-
 2 files changed, 14 insertions(+), 2 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index a6ed675..2542e4b 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -100,7 +100,10 @@ class GlobalPageManager:
         return cls._instance
 
     def prefetch_all(self, to_cpu=False):
-        for t in self.paged_tensors:
+        # assume the first added, will be hte
+        # ones that are used first, so swap them in last
+        # in the case they are evicted again
+        for t in self.paged_tensors[::-1]:
             prefetch_tensor(t, to_cpu)
 
 
diff --git a/bitsandbytes/optim/optimizer.py b/bitsandbytes/optim/optimizer.py
index 4f8dcc7..921ec0a 100644
--- a/bitsandbytes/optim/optimizer.py
+++ b/bitsandbytes/optim/optimizer.py
@@ -256,7 +256,7 @@ class Optimizer8bit(torch.optim.Optimizer):
             self.to_gpu()  # needed for fairseq pure fp16 training
             self.initialized = True
 
-        if self.is_paged: self.page_mng.prefetch_all()
+        #if self.is_paged: self.page_mng.prefetch_all()
         for gindex, group in enumerate(self.param_groups):
             for pindex, p in enumerate(group["params"]):
                 if p.grad is None:
@@ -265,7 +265,9 @@ class Optimizer8bit(torch.optim.Optimizer):
                 if len(state) == 0:
                     self.init_state(group, p, gindex, pindex)
 
+                self.prefetch_state(p)
                 self.update_step(group, p, gindex, pindex)
+                torch.cuda.synchronize()
         if self.is_paged:
             # all paged operation are asynchronous, we need
             # to sync to make sure all tensors are in the right state
@@ -309,6 +311,13 @@ class Optimizer8bit(torch.optim.Optimizer):
             self.page_mng.paged_tensors.append(buff)
             return buff
 
+    def prefetch_state(self, p):
+        if self.is_paged:
+            state = self.state[p]
+            F.prefetch_tensor(state['state1'])
+            if 'state2' in state:
+                F.prefetch_tensor(state['state2'])
+
 
 class Optimizer2State(Optimizer8bit):
     def __init__(

From f64cfe65aad56751cabf87c2a9a610e8c43bb981 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sat, 6 May 2023 21:49:16 -0700
Subject: [PATCH 87/97] Fixed prefetch bug for non-paged tensors; added
 benchmark.

---
 bitsandbytes/optim/optimizer.py |  9 ++++---
 tests/test_optim.py             | 44 +++++++++++++++++++++++++++++++++
 2 files changed, 50 insertions(+), 3 deletions(-)

diff --git a/bitsandbytes/optim/optimizer.py b/bitsandbytes/optim/optimizer.py
index 921ec0a..41c8d27 100644
--- a/bitsandbytes/optim/optimizer.py
+++ b/bitsandbytes/optim/optimizer.py
@@ -314,9 +314,12 @@ class Optimizer8bit(torch.optim.Optimizer):
     def prefetch_state(self, p):
         if self.is_paged:
             state = self.state[p]
-            F.prefetch_tensor(state['state1'])
-            if 'state2' in state:
-                F.prefetch_tensor(state['state2'])
+            s1 = state['state1']
+            is_paged = getattr(s1, 'is_paged', False)
+            if is_paged:
+                F.prefetch_tensor(state['state1'])
+                if 'state2' in state:
+                    F.prefetch_tensor(state['state2'])
 
 
 class Optimizer2State(Optimizer8bit):
diff --git a/tests/test_optim.py b/tests/test_optim.py
index a5ecb6e..e35408e 100644
--- a/tests/test_optim.py
+++ b/tests/test_optim.py
@@ -490,3 +490,47 @@ def test_benchmark_blockwise(dim1, dim2, gtype, optim_name):
     params = (k - k // 5) * dim1 * dim2
     print(optim_name, gtype, s / params)
     # assert s < 3.9
+
+dim1 = [10*1024]
+gtype = [torch.float16]
+#mode = ['torch', 'bnb']
+mode = ['bnb']
+optimizer_names = ['paged_adamw']
+#optimizer_names = ['paged_adamw8bit_blockwise']
+values = list(product(dim1,gtype, optimizer_names, mode))
+names = ['dim1_{0}_gtype_{1}_optim_{2}_mode_{3}'.format(*vals) for vals in values]
+@pytest.mark.parametrize("dim1, gtype, optim_name, mode", values, ids=names)
+def test_stream_optimizer_bench(dim1, gtype, optim_name, mode):
+    layers1 = torch.nn.Sequential(*torch.nn.ModuleList([torch.nn.Linear(dim1, dim1) for i in range(10)]))
+    layers1 = layers1.to(gtype)
+    layers1 = layers1.cuda()
+
+    large_tensor = None
+    if mode == 'torch':
+        optim = str2optimizers[optim_name][0](layers1.parameters())
+    else:
+        optim = str2optimizers[optim_name][1](layers1.parameters())
+        # 12 GB
+        large_tensor = torch.empty((int(4.5e9),), device='cuda')
+
+    torch.cuda.synchronize()
+    time.sleep(5)
+
+    num_batches = 5
+    batches = torch.randn(num_batches, 128, dim1, device='cuda').to(gtype)
+    lbls = torch.randint(0, 10, size=(num_batches,128)).cuda()
+
+    for i in range(num_batches):
+        print(i)
+        b = batches[i]
+        if i ==2:
+            torch.cuda.synchronize()
+            t0 = time.time()
+
+        out1 = layers1(b)
+
+        loss1 = torch.nn.functional.cross_entropy(out1, lbls[i]).mean()
+        loss1.backward()
+        optim.step()
+    torch.cuda.synchronize()
+    print(mode, time.time() - t0)

From 4bd11518293ea30c6792a5baf64f0715739a09ca Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Sun, 7 May 2023 15:06:17 -0700
Subject: [PATCH 88/97] Fixed gradient accumulation test.

---
 bitsandbytes/autograd/_functions.py |  1 -
 tests/test_modules.py               | 20 +++++++++++---------
 2 files changed, 11 insertions(+), 10 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index acd90f5..63b7156 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -456,7 +456,6 @@ class MatMul8bitLt(torch.autograd.Function):
 
         Cgrad, Cgradt, SCgrad, SCgradt, coo_tensor = F.double_quant(grad_output.to(torch.float16))
         if req_gradB:
-            #grad_B = torch.matmul(grad_output.t(), A)
             CxAt, SAt = F.transform(CAt, formatB, transpose=True)
             C32grad, Sgrad = F.transform(Cgradt, "col32", transpose=True)
             gradB32, SgradB32 = F.igemmlt(C32grad, CxAt, Sgrad, SAt)
diff --git a/tests/test_modules.py b/tests/test_modules.py
index 1319cf7..d0a9051 100644
--- a/tests/test_modules.py
+++ b/tests/test_modules.py
@@ -332,12 +332,13 @@ def test_linear8bitlt_inference(threshold):
 def test_linear8bitlt_accumulated_gradient():
     l1 = torch.nn.Sequential(*[bnb.nn.Linear8bitLt(32, 32).cuda().half() for i in range(2)])
     l2 = torch.nn.Sequential(*[torch.nn.Linear(32, 32).cuda().half() for i in range(2)])
-    l2[0].weight = torch.nn.Parameter(l1[0].weight.clone())
-    l2[0].bias = torch.nn.Parameter(l1[0].bias.clone())
-    l2[1].weight = torch.nn.Parameter(l1[1].weight.clone())
-    l2[1].bias = torch.nn.Parameter(l1[1].bias.clone())
-    opt1 = bnb.optim.Adam8bit(l1.parameters(), lr=0.001)
-    opt2 = bnb.optim.Adam8bit(l2.parameters(), lr=0.001)
+    l1[0].weight.data.copy_(l2[0].weight.data)
+    l1[1].weight.data.copy_(l2[1].weight.data)
+    l1[0].bias.data.copy_(l2[0].bias.data)
+    l1[1].bias.data.copy_(l2[1].bias.data)
+
+    opt1 = bnb.optim.Adam32bit(l1.parameters(), lr=0.001)
+    opt2 = bnb.optim.Adam32bit(l2.parameters(), lr=0.001)
 
     acc_steps = 10
 
@@ -353,7 +354,6 @@ def test_linear8bitlt_accumulated_gradient():
             assert l1[0].state.CxB is not None
             assert l1[1].state.CxB is not None
 
-        print(i)
         if i > 0 and i % acc_steps == 0:
             opt1.step()
             opt1.zero_grad(True)
@@ -368,9 +368,11 @@ def test_linear8bitlt_accumulated_gradient():
             # we do this copy because otherwise we have small divergences over time that add up
             l1[0].weight.data.copy_(l2[0].weight.data)
             l1[1].weight.data.copy_(l2[1].weight.data)
+            l1[0].bias.data.copy_(l2[0].bias.data)
+            l1[1].bias.data.copy_(l2[1].bias.data)
         else:
-            torch.testing.assert_close(l1[0].weight.grad, l2[0].weight.grad)
-            torch.testing.assert_close(l1[1].weight.grad, l2[1].weight.grad)
+            torch.testing.assert_close(l1[0].weight.grad, l2[0].weight.grad, atol=1e-3, rtol=1e-3)
+            torch.testing.assert_close(l1[1].weight.grad, l2[1].weight.grad, atol=1e-3, rtol=1e-3)
 
 
 @pytest.mark.parametrize("threshold", [0.0, 2.0])

From 2bce175d156b5c5c1be925cb57fe33215675fafd Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 23 May 2023 18:42:19 -0700
Subject: [PATCH 89/97] Fixed Makefile.

---
 Makefile                   | 24 ++-----------
 bitsandbytes/functional.py | 69 --------------------------------------
 tests/test_functional.py   | 47 ++++++++++++++------------
 3 files changed, 27 insertions(+), 113 deletions(-)

diff --git a/Makefile b/Makefile
index ea6ee87..c113a3d 100644
--- a/Makefile
+++ b/Makefile
@@ -40,11 +40,6 @@ CC_KEPLER := -gencode arch=compute_35,code=sm_35 # Kepler
 CC_KEPLER += -gencode arch=compute_37,code=sm_37 # Kepler
 
 # Later versions of CUDA support the new architectures
-CC_CUDA10x += -gencode arch=compute_75,code=sm_75
-
-CC_CUDA110 := -gencode arch=compute_75,code=sm_75
-CC_CUDA110 += -gencode arch=compute_80,code=sm_80
-
 CC_CUDA11x := -gencode arch=compute_75,code=sm_75
 CC_CUDA11x += -gencode arch=compute_80,code=sm_80
 CC_CUDA11x += -gencode arch=compute_86,code=sm_86
@@ -54,8 +49,8 @@ CC_cublasLt110 := -gencode arch=compute_75,code=sm_75
 CC_cublasLt110 += -gencode arch=compute_80,code=sm_80
 
 CC_cublasLt111 := -gencode arch=compute_75,code=sm_75
-#CC_cublasLt111 += -gencode arch=compute_80,code=sm_80
-#CC_cublasLt111 += -gencode arch=compute_86,code=sm_86
+CC_cublasLt111 += -gencode arch=compute_80,code=sm_80
+CC_cublasLt111 += -gencode arch=compute_86,code=sm_86
 
 CC_ADA_HOPPER := -gencode arch=compute_89,code=sm_89
 CC_ADA_HOPPER += -gencode arch=compute_90,code=sm_90
@@ -66,16 +61,6 @@ all: $(BUILD_DIR) env
 	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
-cuda92: $(ROOT_DIR)/dependencies/cub $(BUILD_DIR) env
-	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA92) $(CC_KEPLER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) -D NO_CUBLASLT
-	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA92) $(CC_KEPLER) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
-	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION)_nocublaslt.so $(LIB)
-
-cuda10x_nomatmul: $(ROOT_DIR)/dependencies/cub $(BUILD_DIR) env
-	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA10x) $(CC_KEPLER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE_10x) $(LIB) --output-directory $(BUILD_DIR) -D NO_CUBLASLT
-	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA10x) $(CC_KEPLER) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
-	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION)_nocublaslt.so $(LIB)
-
 cuda110_nomatmul: $(BUILD_DIR) env
 	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA110) $(CC_KEPLER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) -D NO_CUBLASLT
 	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA110) $(CC_KEPLER) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
@@ -122,11 +107,6 @@ env:
 	@echo "LD_LIBRARY_PATH: $(LD_LIBRARY_PATH)"
 	@echo "============================"
 
-cutlass:
-	if [ ! -d "$(ROOT_DIR)/dependencies/cutlass" ]; then \
-		git clone https://github.com/NVIDIA/cutlass.git $(ROOT_DIR)/dependencies/cutlass; \
-	fi \
-
 $(BUILD_DIR):
 	mkdir -p build
 	mkdir -p dependencies
diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index cc82943..c0eb2de 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -128,11 +128,6 @@ class CUBLAS_Context:
 
     def initialize(self):
         self.context = {}
-        # prev_device = torch.cuda.current_device()
-        # for i in range(torch.cuda.device_count()):
-        #    torch.cuda.set_device(torch.device('cuda', i))
-        #    self.context.append(ct.c_void_p(lib.get_context()))
-        # torch.cuda.set_device(prev_device)
 
     @classmethod
     def get_instance(cls):
@@ -238,72 +233,8 @@ def create_linear_map(signed=True, total_bits=8, add_zero=True):
         return values
     else:
         l = values.numel()//2
-        #return torch.Tensor(values[:l].tolist() + [-1e-6]*((gap//2)-1) + [0]*2 + [1e-6]*((gap//2)-1) + values[l:].tolist())
         return torch.Tensor(values[:l].tolist() + [0]*gap + values[l:].tolist())
 
-def create_custom_map(seed=0, scale=0.01):
-    v = [12, 10, 8, 6, 3, 2, 1]
-    # 16-bit 7B 22.33, 4-bit best 22.88, FP4 23.25, 4-bit 95 22.97, 4-bit evo 22.45
-    # 16-bit 13B 70.35, 4-bit best 67.16, FP4 100.78, 4-bit-95 69.39, 4-bit evo 70.48
-
-    # 13B 100 steps:
-    # - 4-bit evo: 86.02
-    # - 4-bit norm: 78.73
-    # - 4-bit FP4:
-    # - 16-bit:
-
-    # interval search on normal distribution
-    #v = [3.090232306167813, 1.4589770349449647, 1.064410327932115, 0.7896806653244509, 0.5646884166925807, 0.3653406435875121, 0.17964844284441311] # 0.999 26.5
-    #v = [2.3263478740408408, 1.4050715603096329, 1.0364333894937898, 0.7721932141886848, 0.5533847195556727, 0.3584587932511938, 0.1763741647808615] # 0.99 24.99
-    #v = [1.6448536269514722, 1.2040469600267016, 0.9208229763683788, 0.6971414348463417, 0.5039653672113453, 0.3280721075316511, 0.16184416680396213] # 0.95 24.53 22.97
-    #v = [1.4050715603096329, 1.0803193408149558, 0.8416212335729143, 0.643345405392917, 0.4676987991145084, 0.3054807880993974, 0.1509692154967774] # 0.92 24.81
-    #v = [1.2815515655446004, 1.0062699858608395, 0.7916386077433746, 0.6084981344998837, 0.4438613119262478, 0.29050677112339396, 0.14372923370582416] # 0.9 24.68
-    #v = [1.8807936081512509, 1.2980047163986055, 0.9769954022693226, 0.7341502955472268, 0.5285136765472481, 0.343225833559403, 0.16910470304375366] # 0.97 25.03
-    #v = [1.7506860712521692, 1.2496468758017434, 0.9485350408266378, 0.7155233557034365, 0.5162006366043174, 0.3356393360829622, 0.16547334454641704] # 0.96 24.85 23.01
-    #v = [1.5547735945968535, 1.1608220210715001, 0.893800631179489, 0.6789921163940618, 0.4918050830048072, 0.3205236191093902, 0.15821711945563585] # 0.94 24.47
-    #v = [1.475791028179171, 1.1196635980209986, 0.8674156943957149, 0.6610637542614526, 0.4797170937629045, 0.31299335020578195, 0.15459215234139795] # 0.93 24.85
-    #v = [1.5981931399228175, 1.1821583959486879, 0.9072289939325966, 0.6880384454306778, 0.49787602226482025, 0.3242955535308664, 0.160030379970179] # 0.945 24.287
-    ##v = [1.6164363711150211, 1.1908453913294612, 0.9126463450304729, 0.6916727602238111, 0.5003095327012462, 0.3258056171348078, 0.1607558311941979] # 0.947 24.293
-    #v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.207
-    #v = [1.6118251211466303, 1.188665228776879, 0.9112895004060624, 0.690763326564427, 0.4997008778346997, 0.3254280317127771, 0.16057446047146948] # 0.9465 24.30
-    #v = [1.6027040905517569, 1.184321770169049, 0.9085808314549837, 0.6889461706317986, 0.4984841229538408, 0.32467299997597887, 0.1602117348657326] # 0.9455 24.293
-    #v = [1.6072478919002173, 1.1864907014855421, 0.9099343314196248, 0.6898544638558411, 0.4990924080314459, 0.32505049268156666, 0.16039309503073892] # 0.946 24.37 22.88
-
-    # 7B evo start 
-    #v = [1.62129629, 1.18870191, 0.90848106, 0.69108646, 0.50515268, 0.34927819905,  0.14122701] # 22.06
-    #v = [1.6143079205628337, 1.1888081407660314, 0.8990131955745421, 0.694373759813679, 0.5083033257326773, 0.3452499746844963, 0.1148939728228951]      
-    #v = [1.614442766030303, 1.189401918639665, 0.8998038168964273, 0.6953094818279475, 0.5073264599048384, 0.3449003790823619, 0.11428378427205564]
-
-    # 13B evo start
-    #v = [1.6077535089716468, 1.1914902148179205, 0.8999752421085561, 0.6967904489387543, 0.4949093928311768, 0.30920472033044544, 0.15391602735952042]
-    #v = [1.586363722436466, 1.202610827188916, 0.9003332576346587, 0.6904888715206972, 0.49490974688233724, 0.2971151461329376, 0.15683230810738283]
-    v = [1.5842247437829478, 1.2037228884260156, 0.900369059187269, 0.6898587137788914, 0.4949097822874533, 0.2959061887131868, 0.15712393618216908]
-
-    # mean evo 7B + 13B
-    #v = [1.5993337549066253, 1.1965624035328402, 0.9000864380418481, 0.6925840978034195, 0.5011181210961458, 0.32040328389777434, 0.13570386022711237]
-
-    # theoretically optiomal (0.93333)
-    #v = [1.501085946044025, 1.1331700302595604, 0.8761428492468408, 0.6670160135425023, 0.48373855304610314, 0.3155014472579608, 0.15580024666388428] # 0.9333333333333333
-
-    if seed > 0:
-        v = np.array(v)
-        np.random.seed(seed)
-        v += np.random.randn(7)*scale
-        print(v.tolist())
-        #v[0] +=  (np.random.randn(1)*0.001)[0]
-        #v[-1] +=  (np.random.randn(1)*0.001)[0]
-    #print(v[0], v[-1])
-        v = v.tolist()
-    values = v + [0]*(256-14) +  \
-             v[::-1]
-
-    values = torch.Tensor(values)
-    values[0:7] *= -1
-    values = values.sort().values
-    values /= values.max()
-    assert values.numel() == 256
-    return values
-
 def create_normal_map(offset=0.9677083, use_extra_value=True):
 
     if use_extra_value:
diff --git a/tests/test_functional.py b/tests/test_functional.py
index c2d4796..cc58324 100644
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@@ -1773,21 +1773,24 @@ def test_spmm_coo_dequant(dim1, dim2, dtype):
     print("partial matmul", time.time() - t0)
 
 
-batch_size = 2
-seqdim = 2048
+batch_size = 1
+seqdim = 1
 values = []
-values.append((batch_size, seqdim, 768, 4 * 768))
+#values.append((batch_size, seqdim, 768, 4 * 768))
 #values.append((batch_size, seqdim, 1024, 4*1024))
 #values.append((batch_size, seqdim, 1536, 4*1536))
 #values.append((batch_size, seqdim, 2048, 4*2048))
 #values.append((batch_size, seqdim, 2560, 4*2560))
-#values.append((batch_size, seqdim, 4096, 4*4096))
+values.append((batch_size, seqdim, 4096, 4*4096))
+values.append((batch_size, seqdim, 5120, 4*5120))
+values.append((batch_size, seqdim, 6656, 4*6656))
+values.append((batch_size, seqdim, 8192, 4*8192))
 #values.append((batch_size, seqdim, 5140, 4*5140))
 #values.append((batch_size, seqdim, 12288, 4*12288))
 names = ["batch_{}_seq_{}_model_{}_hidden_{}".format(*vals) for vals in values]
 @pytest.mark.parametrize("batch, seq, model, hidden", values, ids=names)
 def test_bench_matmul(batch, seq, model, hidden):
-    iters = 1
+    iters = 80
     formatB = F.get_special_format_str()
 
     A = torch.randn(batch, seq, model, device="cuda").half()
@@ -1799,14 +1802,14 @@ def test_bench_matmul(batch, seq, model, hidden):
 
     B_nf4, state_nf4= F.quantize_nf4(B)
 
-    linear8bit = bnb.nn.Linear8bitLt(model, hidden, False).cuda().half()
+    linear8bit = bnb.nn.Linear8bitLt(model, hidden, False, False).cuda().half()
     linear8bit.eval()
 
     outliers = torch.randint(0, model, size=(5,)).cuda()
     A[:, :, outliers] = 8.0
 
-    linearMixedBit = (bnb.nn.Linear8bitLt(model, hidden, False, threshold=6.0).cuda().half())
-    linearMixedBit.eval()
+    linearMixedBit = (bnb.nn.Linear8bitLt(model, hidden, False, False, threshold=6.0).cuda().half())
+    #linearMixedBit.eval()
 
     linear8bit_train = bnb.nn.Linear8bitLt(model, hidden, False).cuda().half()
     linear8bit_train_thresh = bnb.nn.Linear8bitLt(model, hidden, False, threshold=6.0).cuda().half()
@@ -1898,21 +1901,21 @@ def test_bench_matmul(batch, seq, model, hidden):
     #torch.cuda.synchronize()
     #print(f"linear pytorch + nvidia: [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    #linear8bit(A)
-    #torch.cuda.synchronize()
-    #t0 = time.time()
-    #for i in range(iters):
-    #    linear8bit(A)
-    #torch.cuda.synchronize()
-    #print( f"bnb linear8bitlt (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    linear8bit(A)
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        linear8bit(A)
+    torch.cuda.synchronize()
+    print( f"bnb linear8bitlt (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
-    #linearMixedBit(A)
-    #torch.cuda.synchronize()
-    #t0 = time.time()
-    #for i in range(iters):
-    #    linearMixedBit(A)
-    #torch.cuda.synchronize()
-    #print( f"bnb linear8bitlt with threshold (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
+    linearMixedBit(A)
+    torch.cuda.synchronize()
+    t0 = time.time()
+    for i in range(iters):
+        linearMixedBit(A)
+    torch.cuda.synchronize()
+    print( f"bnb linear8bitlt with threshold (eval): [{batch},{seq},{model}], [{model},{hidden}]->[{batch},{seq},{hidden}]: {time.time()-t0:.4f}s")
 
     #linear8bit_train(A)
     #torch.cuda.synchronize()

From 1b8772a8f33fdb47df0c849302cbb7e703571b8c Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 23 May 2023 19:37:38 -0700
Subject: [PATCH 90/97] Added PagedLion and bf16 Lion.

---
 bitsandbytes/functional.py     |  6 +--
 bitsandbytes/optim/__init__.py |  2 +-
 bitsandbytes/optim/lion.py     | 95 +++++++---------------------------
 csrc/kernels.cu                |  3 ++
 csrc/ops.cu                    |  2 +
 csrc/pythonInterface.c         | 12 +++--
 tests/test_optim.py            | 23 ++++----
 7 files changed, 46 insertions(+), 97 deletions(-)

diff --git a/bitsandbytes/functional.py b/bitsandbytes/functional.py
index c0eb2de..afa346e 100644
--- a/bitsandbytes/functional.py
+++ b/bitsandbytes/functional.py
@@ -37,10 +37,7 @@ if COMPILED_WITH_CUDA:
         lib.crmsprop32bit_grad_32,
         lib.crmsprop32bit_grad_16,
     )
-    str2optimizer32bit["lion"] = (
-        lib.clion32bit_grad_32,
-        lib.clion32bit_grad_16,
-    )
+    str2optimizer32bit["lion"] = (lib.clion32bit_grad_fp32, lib.clion32bit_grad_fp16, lib.clion32bit_grad_bf16)
     str2optimizer32bit["adagrad"] = (
         lib.cadagrad32bit_grad_32,
         lib.cadagrad32bit_grad_16,
@@ -89,6 +86,7 @@ if COMPILED_WITH_CUDA:
     str2optimizer8bit_blockwise["lion"] = (
         lib.clion_8bit_blockwise_grad_fp32,
         lib.clion_8bit_blockwise_grad_fp16,
+        lib.clion_8bit_blockwise_grad_bf16,
     )
     str2optimizer8bit_blockwise["adagrad"] = (
         lib.cadagrad_8bit_blockwise_grad_fp32,
diff --git a/bitsandbytes/optim/__init__.py b/bitsandbytes/optim/__init__.py
index 1cfe241..83a57bd 100644
--- a/bitsandbytes/optim/__init__.py
+++ b/bitsandbytes/optim/__init__.py
@@ -12,5 +12,5 @@ from .lamb import LAMB, LAMB8bit, LAMB32bit
 from .lars import LARS, LARS8bit, LARS32bit, PytorchLARS
 from .optimizer import GlobalOptimManager
 from .rmsprop import RMSprop, RMSprop8bit, RMSprop32bit
-from .lion import Lion, Lion8bit, Lion32bit
+from .lion import Lion, Lion8bit, Lion32bit, PagedLion, PagedLion8bit, PagedLion32bit
 from .sgd import SGD, SGD8bit, SGD32bit
diff --git a/bitsandbytes/optim/lion.py b/bitsandbytes/optim/lion.py
index 2551b68..2bde1a4 100644
--- a/bitsandbytes/optim/lion.py
+++ b/bitsandbytes/optim/lion.py
@@ -4,84 +4,27 @@
 # LICENSE file in the root directory of this source tree.
 from bitsandbytes.optim.optimizer import Optimizer1State
 
-
 class Lion(Optimizer1State):
-    def __init__(
-        self,
-        params,
-        lr=1e-4,
-        betas=(0.9, 0.99),
-        weight_decay=0,
-        optim_bits=32,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "lion",
-            params,
-            lr,
-            betas,
-            0.,
-            weight_decay,
-            optim_bits,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
-
+    def __init__(self, params, lr=1e-4, betas=(0.9, 0.99), weight_decay=0, optim_bits=32, args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__("lion", params, lr, betas, 0., weight_decay, optim_bits, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged)
 
 class Lion8bit(Optimizer1State):
-    def __init__(
-        self,
-        params,
-        lr=1e-4,
-        betas=(0.9, 0.99),
-        weight_decay=0,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "lion",
-            params,
-            lr,
-            betas,
-            0.,
-            weight_decay,
-            8,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
-
+    def __init__(self, params, lr=1e-4, betas=(0.9, 0.99), weight_decay=0, args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__("lion", params, lr, betas, 0., weight_decay, 8, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged)
 
 class Lion32bit(Optimizer1State):
-    def __init__(
-        self,
-        params,
-        lr=1e-4,
-        betas=(0.9, 0.99),
-        weight_decay=0,
-        args=None,
-        min_8bit_size=4096,
-        percentile_clipping=100,
-        block_wise=True,
-    ):
-        super().__init__(
-            "lion",
-            params,
-            lr,
-            betas,
-            0.,
-            weight_decay,
-            32,
-            args,
-            min_8bit_size,
-            percentile_clipping,
-            block_wise,
-        )
+    def __init__(self, params, lr=1e-4, betas=(0.9, 0.99), weight_decay=0, args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True, is_paged=False):
+        super().__init__("lion", params, lr, betas, 0., weight_decay, 32, args, min_8bit_size, percentile_clipping, block_wise, is_paged=is_paged)
+
+
+class PagedLion(Optimizer1State):
+    def __init__(self, params, lr=1e-4, betas=(0.9, 0.99), weight_decay=0, optim_bits=32, args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True):
+        super().__init__("lion", params, lr, betas, 0., weight_decay, optim_bits, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
+
+class PagedLion8bit(Optimizer1State):
+    def __init__(self, params, lr=1e-4, betas=(0.9, 0.99), weight_decay=0, args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True):
+        super().__init__("lion", params, lr, betas, 0., weight_decay, 8, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
+
+class PagedLion32bit(Optimizer1State):
+    def __init__(self, params, lr=1e-4, betas=(0.9, 0.99), weight_decay=0, args=None, min_8bit_size=4096, percentile_clipping=100, block_wise=True):
+        super().__init__("lion", params, lr, betas, 0., weight_decay, 32, args, min_8bit_size, percentile_clipping, block_wise, is_paged=True)
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 30e5e2e..11ad63f 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -3666,6 +3666,7 @@ MAKE_PreconditionOptimizer32bit1State(RMSPROP, half)
 MAKE_PreconditionOptimizer32bit1State(RMSPROP, float)
 MAKE_PreconditionOptimizer32bit1State(LION, half)
 MAKE_PreconditionOptimizer32bit1State(LION, float)
+MAKE_PreconditionOptimizer32bit1State(LION, __nv_bfloat16)
 MAKE_PreconditionOptimizer32bit1State(ADAGRAD, half)
 MAKE_PreconditionOptimizer32bit1State(ADAGRAD, float)
 
@@ -3679,6 +3680,7 @@ MAKE_Optimizer32bit1State(RMSPROP, half)
 MAKE_Optimizer32bit1State(RMSPROP, float)
 MAKE_Optimizer32bit1State(LION, half)
 MAKE_Optimizer32bit1State(LION, float)
+MAKE_Optimizer32bit1State(LION, __nv_bfloat16)
 MAKE_Optimizer32bit1State(ADAGRAD, half)
 MAKE_Optimizer32bit1State(ADAGRAD, float)
 
@@ -3852,5 +3854,6 @@ MAKE_OptimizerStatic8bit1StateBlockwise(RMSPROP, float, 2048, 8)
 MAKE_OptimizerStatic8bit1StateBlockwise(RMSPROP, half, 2048, 8)
 MAKE_OptimizerStatic8bit1StateBlockwise(LION, float, 2048, 8)
 MAKE_OptimizerStatic8bit1StateBlockwise(LION, half, 2048, 8)
+MAKE_OptimizerStatic8bit1StateBlockwise(LION, __nv_bfloat16, 2048, 8)
 MAKE_OptimizerStatic8bit1StateBlockwise(ADAGRAD, float, 2048, 8)
 MAKE_OptimizerStatic8bit1StateBlockwise(ADAGRAD, half, 2048, 8)
diff --git a/csrc/ops.cu b/csrc/ops.cu
index 7f3a831..9c042fa 100644
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -802,6 +802,7 @@ MAKE_optimizer32bit(RMSPROP, half)
 MAKE_optimizer32bit(RMSPROP, float)
 MAKE_optimizer32bit(LION, half)
 MAKE_optimizer32bit(LION, float)
+MAKE_optimizer32bit(LION, __nv_bfloat16)
 MAKE_optimizer32bit(ADAGRAD, half)
 MAKE_optimizer32bit(ADAGRAD, float)
 
@@ -837,6 +838,7 @@ MAKE_optimizerStatic8bitBlockwise(half, RMSPROP);
 MAKE_optimizerStatic8bitBlockwise(float, RMSPROP);
 MAKE_optimizerStatic8bitBlockwise(half, LION);
 MAKE_optimizerStatic8bitBlockwise(float, LION);
+MAKE_optimizerStatic8bitBlockwise(__nv_bfloat16, LION);
 MAKE_optimizerStatic8bitBlockwise(half, ADAGRAD);
 MAKE_optimizerStatic8bitBlockwise(float, ADAGRAD);
 
diff --git a/csrc/pythonInterface.c b/csrc/pythonInterface.c
index 776497b..23a0364 100644
--- a/csrc/pythonInterface.c
+++ b/csrc/pythonInterface.c
@@ -51,8 +51,9 @@ MAKE_FUNC32(adam, ADAM, half, fp16)
 MAKE_FUNC32(adam, ADAM, __nv_bfloat16, bf16)
 MAKE_FUNC32(rmsprop, RMSPROP, float, 32)
 MAKE_FUNC32(rmsprop, RMSPROP, half, 16)
-MAKE_FUNC32(lion, LION, float, 32)
-MAKE_FUNC32(lion, LION, half, 16)
+MAKE_FUNC32(lion, LION, float, fp32)
+MAKE_FUNC32(lion, LION, half, fp16)
+MAKE_FUNC32(lion, LION, __nv_bfloat16, bf16)
 MAKE_FUNC32(adagrad, ADAGRAD, float, 32)
 MAKE_FUNC32(adagrad, ADAGRAD, half, 16)
 
@@ -95,6 +96,7 @@ MAKE_BLOCKWISE8(adagrad, ADAGRAD, float, fp32)
 MAKE_BLOCKWISE8(adam, ADAM, __nv_bfloat16, bf16)
 MAKE_BLOCKWISE8(lion, LION, half, fp16)
 MAKE_BLOCKWISE8(lion, LION, float, fp32)
+MAKE_BLOCKWISE8(lion, LION, __nv_bfloat16, bf16)
 
 
 void percentileClipping_g32(float * g, float *gnorm_vec, int step, const int n){ percentileClipping<float>(g, gnorm_vec, step, n); }
@@ -201,8 +203,9 @@ extern "C"
 	MAKE_CFUNC32(momentum, half, 16)
 	MAKE_CFUNC32(rmsprop, float, 32)
 	MAKE_CFUNC32(rmsprop, half, 16)
-	MAKE_CFUNC32(lion, float, 32)
-	MAKE_CFUNC32(lion, half, 16)
+	MAKE_CFUNC32(lion, float, fp32)
+	MAKE_CFUNC32(lion, half, fp16)
+	MAKE_CFUNC32(lion, __nv_bfloat16, bf16)
 	MAKE_CFUNC32(adagrad, float, 32)
 	MAKE_CFUNC32(adagrad, half, 16)
 
@@ -245,6 +248,7 @@ extern "C"
 	MAKE_CBLOCKWISE8(adam, ADAM, __nv_bfloat16, bf16)
 	MAKE_CBLOCKWISE8(lion, LION, half, fp16)
 	MAKE_CBLOCKWISE8(lion, LION, float, fp32)
+	MAKE_CBLOCKWISE8(lion, LION, __nv_bfloat16, bf16)
 
 	void cpercentile_clipping_g32(float * g, float *gnorm_vec, int step, const int n){ percentileClipping_g32(g, gnorm_vec, step, n); }
 	void cpercentile_clipping_g16(half * g, float *gnorm_vec, int step, const int n){ percentileClipping_g16(g, gnorm_vec, step, n); }
diff --git a/tests/test_optim.py b/tests/test_optim.py
index 98e4289..9e90083 100644
--- a/tests/test_optim.py
+++ b/tests/test_optim.py
@@ -19,11 +19,11 @@ import bitsandbytes.functional as F
 k = 20
 
 def assert_most_approx_close(a, b, rtol=1e-3, atol=1e-3, max_error_count=0):
-    idx = torch.isclose(a, b, rtol, atol)
+    idx = torch.isclose(a, b, rtol=rtol, atol=atol)
     error_count = (idx == 0).sum().item()
     if error_count > max_error_count:
         print(f"Too many values not close: assert {error_count} < {max_error_count}")
-        torch.testing.assert_close(a, b, rtol, atol)
+        torch.testing.assert_close(a, b, rtol=rtol, atol=atol)
 
 
 def get_temp_dir():
@@ -35,13 +35,8 @@ def get_temp_dir():
 def rm_path(path):
     shutil.rmtree(path)
 
-str2bf16support = {}
-str2bf16support['adam8bit_blockwise'] = True
-
 str2optimizers = {}
 str2optimizers["adam_pytorch"] = (None, torch.optim.Adam, bnb.optim.Adam)
-# str2optimizers['adam_apex'] = (None, apex.optimizers.FusedAdam, bnb.optim.Adam)
-# str2optimizers['momentum_apex'] = (None, lambda pxx: apex.optimizers.FusedSGD(pxx, 0.01, 0.9), bnb.optim.Adam)
 str2optimizers["lion_pytorch"] = (None, Lion, bnb.optim.Lion)
 str2optimizers["momentum_pytorch"] = (
     None,
@@ -51,8 +46,8 @@ str2optimizers["momentum_pytorch"] = (
 str2optimizers["adam"] = (torch.optim.Adam, bnb.optim.Adam)
 str2optimizers["paged_adamw"] = (torch.optim.AdamW, bnb.optim.PagedAdamW)
 str2optimizers["paged_adam"] = (torch.optim.Adam, bnb.optim.PagedAdam)
-# str2optimizers['fused_adam'] = (apex.optimizers.FusedAdam, bnb.optim.Adam)
 str2optimizers["lion"] = (Lion, bnb.optim.Lion)
+str2optimizers["paged_lion"] = (Lion, bnb.optim.PagedLion)
 str2optimizers["momentum"] = (
     lambda pxx: torch.optim.SGD(pxx, 0.01, 0.9),
     lambda pxx: bnb.optim.SGD(pxx, 0.01, 0.9, block_wise=False),
@@ -76,6 +71,7 @@ str2optimizers["adam8bit_blockwise"] = (torch.optim.Adam, lambda pxx: bnb.optim.
 str2optimizers["paged_adamw8bit_blockwise"] = (torch.optim.AdamW, lambda pxx: bnb.optim.PagedAdamW8bit(pxx, block_wise=True))
 str2optimizers["paged_adam8bit_blockwise"] = (torch.optim.Adam, lambda pxx: bnb.optim.PagedAdam8bit(pxx, block_wise=True))
 str2optimizers["lion8bit_blockwise"] = (Lion, lambda pxx: bnb.optim.Lion8bit(pxx, block_wise=True))
+str2optimizers["paged_lion8bit_blockwise"] = (Lion, lambda pxx: bnb.optim.PagedLion8bit(pxx, block_wise=True))
 str2optimizers["momentum8bit_blockwise"] = (
     lambda pxx: torch.optim.SGD(pxx, 0.01, 0.9),
     lambda pxx: bnb.optim.SGD8bit(pxx, 0.01, 0.9, block_wise=True),
@@ -90,6 +86,7 @@ str2statenames["adam"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
 str2statenames["paged_adamw"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
 str2statenames["paged_adam"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
 str2statenames["lion"] = [("exp_avg", "state1")]
+str2statenames["paged_lion"] = [("exp_avg", "state1")]
 str2statenames["momentum"] = [("momentum_buffer", "state1")]
 str2statenames["lamb"] = [("exp_avg", "state1"), ("exp_avg_sq", "state2")]
 str2statenames["rmsprop"] = [("square_avg", "state1")]
@@ -104,15 +101,17 @@ str2statenames["momentum8bit_blockwise"] = [("momentum_buffer", "state1", "qmap1
 str2statenames["rmsprop8bit"] = [("square_avg", "state1", "qmap1", "max1")]
 str2statenames["rmsprop8bit_blockwise"] = [("square_avg", "state1", "qmap1", "absmax1")]
 str2statenames["lion8bit_blockwise"] = [("exp_avg", "state1", "qmap1", "absmax1")]
+str2statenames["paged_lion8bit_blockwise"] = [("exp_avg", "state1", "qmap1", "absmax1")]
 
 dim1 = [1024]
 dim2 = [32, 1024, 4097, 1]
-gtype = [torch.float32, torch.float16]
-optimizer_names = ["adam", "momentum", "rmsprop", 'paged_adamw', 'paged_adam', 'lion']
+gtype = [torch.float32, torch.float16, torch.bfloat16]
+optimizer_names = ["adam", "momentum", "rmsprop", 'paged_adamw', 'paged_adam', 'lion', 'paged_lion']
 values = list(product(dim1, dim2, gtype, optimizer_names))
 names = ["dim1_{}_dim2_{}_gtype_{}_optim_{}".format(*vals) for vals in values]
 @pytest.mark.parametrize("dim1, dim2, gtype, optim_name", values, ids=names)
 def test_optimizer32bit(dim1, dim2, gtype, optim_name):
+    if gtype == torch.bfloat16 and optim_name in ['momentum', 'rmsprop']: pytest.skip()
     if dim1 == 1 and dim2 == 1:
         return
     p1 = torch.randn(dim1, dim2, device="cuda", dtype=gtype) * 0.1
@@ -254,7 +253,7 @@ names = [
 
 @pytest.mark.parametrize("dim1, dim2, gtype, optim_name", values, ids=names)
 def test_optimizer8bit(dim1, dim2, gtype, optim_name):
-    if gtype == torch.bfloat16 and optim_name not in str2bf16support: return
+    if gtype == torch.bfloat16 and optim_name not in ['adam8bit_blockwise', 'lion8bit_blockwise']: pytest.skip()
     if dim1 == 1 and dim2 == 1:
         return
     p1 = torch.randn(dim1, dim2, device="cuda", dtype=gtype) * 0.1
@@ -485,7 +484,7 @@ gtype = [torch.float32, torch.float16]
 # optimizer_names = ['momentum_apex', 'momentum8bit', 'momentum_pytorch']
 # optimizer_names = ['lamb_apex', 'lamb8bit']
 # optimizer_names = ['lars_apex', 'lars8bit']
-optimizer_names = ["adam8bit_blockwise", 'paged_adam8bit_blockwise', 'paged_adamw8bit_blockwise']
+optimizer_names = ["adam8bit_blockwise", 'paged_adam8bit_blockwise', 'paged_adamw8bit_blockwise', 'paged_lion8bit_blockwise']
 values = list(product(dim1, dim2, gtype, optimizer_names))
 names = [
     "dim1_{}_dim2_{}_gtype_{}_optim_{}".format(*vals) for vals in values

From 0f40fa3f0a198802056e29ba183eaabc6751d565 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 23 May 2023 19:55:52 -0700
Subject: [PATCH 91/97] Bumped version.

---
 CHANGELOG.md | 11 +++++++++++
 Makefile     |  3 +--
 setup.py     |  4 ++--
 3 files changed, 14 insertions(+), 4 deletions(-)

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 2de70d3..eb7ac0d 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -228,3 +228,14 @@ Deprecated:
 Features:
  - Added Int8 SwitchBack layers
  - Added Fake FP8 layers for research purposes (available under `bnb.research.nn. ...`)
+
+
+### 0.39.0
+
+
+Features:
+ - 4-bit matrix multiplication for Float4 and NormalFloat4 data types.
+ - Added 4-bit quantization routines
+ - Doubled quantization routines for 4-bit quantization
+ - Paged optimizers for Adam and Lion.
+ - bfloat16 gradient / weight support for Adam and Lion with 8 or 32-bit states.
diff --git a/Makefile b/Makefile
index c113a3d..1f2b281 100644
--- a/Makefile
+++ b/Makefile
@@ -25,8 +25,7 @@ FILES_CUDA := $(CSRC)/ops.cu $(CSRC)/kernels.cu
 FILES_CPP := $(CSRC)/common.cpp $(CSRC)/cpu_ops.cpp $(CSRC)/pythonInterface.c
 
 INCLUDE :=  -I $(CUDA_HOME)/include -I $(ROOT_DIR)/csrc -I $(CONDA_PREFIX)/include -I $(ROOT_DIR)/include
-INCLUDE_10x :=  -I $(CUDA_HOME)/include -I $(ROOT_DIR)/csrc -I $(ROOT_DIR)/dependencies/cub -I $(ROOT_DIR)/include
-LIB := -L $(CUDA_HOME)/lib64 -lcudart -lcublas -lcublasLt -lcurand -lcusparse -L $(CONDA_PREFIX)/lib
+LIB := -L $(CUDA_HOME)/lib64 -lcudart -lcublas -lcublasLt -lcusparse -L $(CONDA_PREFIX)/lib
 
 # NVIDIA NVCC compilation flags
 COMPUTE_CAPABILITY += -gencode arch=compute_50,code=sm_50 # Maxwell
diff --git a/setup.py b/setup.py
index 009fd3d..b683bfc 100644
--- a/setup.py
+++ b/setup.py
@@ -18,10 +18,10 @@ def read(fname):
 
 setup(
     name=f"bitsandbytes",
-    version=f"0.38.1",
+    version=f"0.39.0",
     author="Tim Dettmers",
     author_email="dettmers@cs.washington.edu",
-    description="8-bit optimizers and matrix multiplication routines.",
+    description="k-bit optimizers and matrix multiplication routines.",
     license="MIT",
     keywords="gpu optimizers optimization 8-bit quantization compression",
     url="https://github.com/TimDettmers/bitsandbytes",

From ac5550a0238286377ee3f58a85aeba1c40493e17 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Tue, 30 May 2023 19:06:59 -0700
Subject: [PATCH 92/97] Added changes for deployment.

---
 Makefile        |  1 -
 csrc/kernels.cu | 10 +++++++---
 deploy.sh       | 11 -----------
 3 files changed, 7 insertions(+), 15 deletions(-)

diff --git a/Makefile b/Makefile
index 1f2b281..5fa1f17 100644
--- a/Makefile
+++ b/Makefile
@@ -33,7 +33,6 @@ COMPUTE_CAPABILITY += -gencode arch=compute_52,code=sm_52 # Maxwell
 COMPUTE_CAPABILITY += -gencode arch=compute_60,code=sm_60 # Pascal
 COMPUTE_CAPABILITY += -gencode arch=compute_61,code=sm_61 # Pascal
 COMPUTE_CAPABILITY += -gencode arch=compute_70,code=sm_70 # Volta
-COMPUTE_CAPABILITY += -gencode arch=compute_72,code=sm_72 # Volta
 
 CC_KEPLER := -gencode arch=compute_35,code=sm_35 # Kepler
 CC_KEPLER += -gencode arch=compute_37,code=sm_37 # Kepler
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
index 11ad63f..ab12c37 100644
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@@ -16,15 +16,12 @@
 #include <thrust/device_vector.h>
 #include <mma.h>
 
-#include <cooperative_groups/memcpy_async.h>
-#include <cuda/pipeline>
 
 #define HLF_MAX 65504
 #define TH 1024
 #define NUM 4
 #define NUM_BLOCK 4096
 
-using namespace nvcuda;
 
 // source: https://stackoverflow.com/questions/17399119/how-do-i-use-atomicmax-on-floating-point-values-in-cuda
 __device__ float atomicMax(float* address, float val) {
@@ -3094,6 +3091,9 @@ template <typename T, typename TCAST, int ITEMS> __device__ inline void vector_l
 #define WARPS 5
 template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc)
 {
+
+#if __CUDA_ARCH__ >= 750
+	using namespace nvcuda;
   int col_offset = blockIdx.x *32;
   const int warp_id = threadIdx.x / 32;
   const int half_warp_id = threadIdx.x / 16;
@@ -3294,11 +3294,14 @@ template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M,
 
   if(col_offset + warp_lane < M)
     out[col_offset + warp_lane] = smem_A[warp_lane];
+#endif
 }
 
 template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
 {
 
+#if __CUDA_ARCH__ >= 750
+	using namespace nvcuda;
   int col_offset = blockIdx.x *32;
   const int warp_id = threadIdx.x / 32;
   const int half_warp_id = threadIdx.x / 16;
@@ -3459,6 +3462,7 @@ template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, i
 
   if(col_offset + warp_lane < M)
     out[col_offset + warp_lane] = smem_A[warp_lane];
+#endif
 }
 
 //#define ROWS 2
diff --git a/deploy.sh b/deploy.sh
index 24d6cbf..a2257a2 100644
--- a/deploy.sh
+++ b/deploy.sh
@@ -139,17 +139,6 @@ if [ ! -f "./bitsandbytes/libbitsandbytes_cuda121.so" ]; then
 fi
 
 
-make clean
-export CUDA_HOME=$BASE_PATH/cuda-10.2
-make cuda10x_nomatmul CUDA_VERSION=102
-
-if [ ! -f "./bitsandbytes/libbitsandbytes_cuda102_nocublaslt.so" ]; then
-  # Control will enter here if $DIRECTORY doesn't exist.
-  echo "Compilation unsuccessul!" 1>&2
-  exit 64
-fi
-
-
 make clean
 export CUDA_HOME=$BASE_PATH/cuda-11.0
 make cuda110_nomatmul CUDA_VERSION=110

From 4fb37d45c1b4ed0b250b2ecfa7b5b41ecda9fbbb Mon Sep 17 00:00:00 2001
From: Max Ryabinin <mryabinin0@gmail.com>
Date: Fri, 9 Jun 2023 21:39:37 +0200
Subject: [PATCH 93/97] Extract get_tile_inds to a separate function

---
 bitsandbytes/autograd/_functions.py | 25 ++++++++++++++-----------
 1 file changed, 14 insertions(+), 11 deletions(-)

diff --git a/bitsandbytes/autograd/_functions.py b/bitsandbytes/autograd/_functions.py
index 63b7156..c2298c8 100644
--- a/bitsandbytes/autograd/_functions.py
+++ b/bitsandbytes/autograd/_functions.py
@@ -232,6 +232,19 @@ def supports_igemmlt(device: torch.device) -> bool:
     return True
 
 
+def _get_tile_size(format):
+    assert format in (
+        "col_turing",
+        "col_ampere",
+    ), f"please find this assert and manually enter tile size for {format}"
+    return (8, 32) if format == "col_turing" else (32, 32)
+
+
+def get_tile_inds(format, device):
+    transform = lambda x: F.transform(x.to(device), from_order="row", to_order=format)[0].to(x.device)
+    with torch.no_grad():
+        return get_inverse_transform_indices(transform, _get_tile_size(format)).to(device)
+
 @dataclass
 class MatmulLtState:
     _tile_indices: Optional[torch.Tensor] = None
@@ -267,20 +280,10 @@ class MatmulLtState:
         self.SBt = None
         self.CBt = None
 
-    def get_tile_size(self):
-        assert self.formatB in (
-            "col_turing",
-            "col_ampere",
-        ), f"please find this assert and manually enter tile size for {self.formatB}"
-        return (8, 32) if self.formatB == "col_turing" else (32, 32)
-
     @property
     def tile_indices(self):
         if self._tile_indices is None:
-            device = self.CxB.device
-            transform = lambda x: F.transform(x.to(device), from_order="row", to_order=self.formatB)[0].to(x.device)
-            with torch.no_grad():
-                self._tile_indices = get_inverse_transform_indices(transform, self.get_tile_size()).to(device)
+            self._tile_indices = get_tile_inds(self.formatB, self.CxB.device)
         return self._tile_indices
 
 

From f734076e94787a875eb9a5621c4d3d33b0bc4c4c Mon Sep 17 00:00:00 2001
From: Max Ryabinin <mryabinin0@gmail.com>
Date: Fri, 9 Jun 2023 21:39:57 +0200
Subject: [PATCH 94/97] Improve memory efficiency of 8-bit serialization

---
 bitsandbytes/nn/modules.py | 59 +++++++++++++++++++++-----------------
 1 file changed, 33 insertions(+), 26 deletions(-)

diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 3284921..101c988 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -10,7 +10,7 @@ from torch import Tensor, device, dtype, nn
 
 import bitsandbytes as bnb
 import bitsandbytes.functional
-from bitsandbytes.autograd._functions import get_inverse_transform_indices, undo_layout
+from bitsandbytes.autograd._functions import undo_layout, get_tile_inds
 from bitsandbytes.optim import GlobalOptimManager
 from bitsandbytes.utils import OutlierTracer, find_outlier_dims
 
@@ -306,7 +306,6 @@ class Int8Params(torch.nn.Parameter):
             return new_param
 
 
-
 class Linear8bitLt(nn.Linear):
     def __init__(self, input_features, output_features, bias=True, has_fp16_weights=True,
                        memory_efficient_backward=False, threshold=0.0, index=None):
@@ -324,50 +323,58 @@ class Linear8bitLt(nn.Linear):
         self.weight = Int8Params(self.weight.data, has_fp16_weights=has_fp16_weights, requires_grad=has_fp16_weights)
 
     def _save_to_state_dict(self, destination, prefix, keep_vars):
-        if not self.state.has_fp16_weights and self.state.CB is None and self.state.CxB is not None:
-            # reorder weight layout back from ampere/turing to row
-            reorder_layout = True
-            weight_clone = self.weight.data.clone()
-        else:
-            reorder_layout = False
+        super()._save_to_state_dict(destination, prefix, keep_vars)
 
-        try:
-            if reorder_layout:
-                self.weight.data = undo_layout(self.state.CxB, self.state.tile_indices)
+        # we only need to save SCB as extra data, because CB for quantized weights is already stored in weight.data
+        scb_name = "SCB"
 
-            super()._save_to_state_dict(destination, prefix, keep_vars)
+        # case 1: .cuda was called, SCB is in self.weight
+        param_from_weight = getattr(self.weight, scb_name)
+        # case 2: self.init_8bit_state was called, SCB is in self.state
+        param_from_state = getattr(self.state, scb_name)
+        # case 3: SCB is in self.state, weight layout reordered after first forward()
+        layout_reordered = self.state.CxB is not None
 
-            # we only need to save SCB as extra data, because CB for quantized weights is already stored in weight.data
-            weight_name = "SCB"
+        key_name = prefix + f"{scb_name}"
+        format_name = prefix + "weight_format"
 
-            # case 1: .cuda was called, SCB is in self.weight
-            param_from_weight = getattr(self.weight, weight_name)
-            # case 2: self.init_8bit_state was called, SCB is in self.state
-            param_from_state = getattr(self.state, weight_name)
-
-            key_name = prefix + f"{weight_name}"
+        if not self.state.has_fp16_weights:
             if param_from_weight is not None:
                 destination[key_name] = param_from_weight if keep_vars else param_from_weight.detach()
-            elif not self.state.has_fp16_weights and param_from_state is not None:
+                destination[format_name] = "row"
+            elif param_from_state is not None and not layout_reordered:
                 destination[key_name] = param_from_state if keep_vars else param_from_state.detach()
-        finally:
-            if reorder_layout:
-                self.weight.data = weight_clone
+                destination[format_name] = "row"
+            elif param_from_state is not None:
+                destination[key_name] = param_from_state if keep_vars else param_from_state.detach()
+                destination[format_name] = self.state.formatB
 
     def _load_from_state_dict(self, state_dict, prefix, local_metadata, strict,
                               missing_keys, unexpected_keys, error_msgs):
         super()._load_from_state_dict(state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys,
                                       error_msgs)
-        for key in unexpected_keys:
+        unexpected_copy = list(unexpected_keys)
+
+        for key in unexpected_copy:
             input_name = key[len(prefix):]
             if input_name == "SCB":
                 if self.weight.SCB is None:
-                    # buffers not yet initialized, can't call them directly without
+                    # buffers not yet initialized, can't access them directly without quantizing first
                     raise RuntimeError("Loading a quantized checkpoint into non-quantized Linear8bitLt is "
                                        "not supported. Please call module.cuda() before module.load_state_dict()")
 
                 input_param = state_dict[key]
                 self.weight.SCB.copy_(input_param)
+
+                if self.state.SCB is not None:
+                    self.state.SCB = self.weight.SCB
+
+                unexpected_keys.remove(key)
+            if input_name == "weight_format":
+                input_param = state_dict[key]
+                if input_param != "row":
+                    tile_indices = get_tile_inds(input_param, self.weight.device)
+                    self.weight.data = self.weight.CB = undo_layout(self.weight.data, tile_indices)
                 unexpected_keys.remove(key)
 
     def init_8bit_state(self):

From c1f3f56d2cc18c929dc9b257a24603d26657b0b7 Mon Sep 17 00:00:00 2001
From: Max Ryabinin <mryabinin0@gmail.com>
Date: Fri, 9 Jun 2023 21:58:39 +0200
Subject: [PATCH 95/97] Rearrange the weights directly in state dict before
 loading

---
 bitsandbytes/nn/modules.py | 16 ++++++++++------
 1 file changed, 10 insertions(+), 6 deletions(-)

diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index 101c988..b806e94 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -306,6 +306,15 @@ class Int8Params(torch.nn.Parameter):
             return new_param
 
 
+def maybe_rearrange_weight(state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys, error_msgs):
+    weight = state_dict[f"{prefix}weight"]
+    weight_format = state_dict.pop(f"{prefix}weight_format", "row")
+
+    if weight_format != "row":
+        tile_indices = get_tile_inds(weight_format, weight.device)
+        state_dict[f"{prefix}weight"] = undo_layout(weight, tile_indices)
+
+
 class Linear8bitLt(nn.Linear):
     def __init__(self, input_features, output_features, bias=True, has_fp16_weights=True,
                        memory_efficient_backward=False, threshold=0.0, index=None):
@@ -321,6 +330,7 @@ class Linear8bitLt(nn.Linear):
             self.state.use_pool = True
 
         self.weight = Int8Params(self.weight.data, has_fp16_weights=has_fp16_weights, requires_grad=has_fp16_weights)
+        self._register_load_state_dict_pre_hook(maybe_rearrange_weight)
 
     def _save_to_state_dict(self, destination, prefix, keep_vars):
         super()._save_to_state_dict(destination, prefix, keep_vars)
@@ -370,12 +380,6 @@ class Linear8bitLt(nn.Linear):
                     self.state.SCB = self.weight.SCB
 
                 unexpected_keys.remove(key)
-            if input_name == "weight_format":
-                input_param = state_dict[key]
-                if input_param != "row":
-                    tile_indices = get_tile_inds(input_param, self.weight.device)
-                    self.weight.data = self.weight.CB = undo_layout(self.weight.data, tile_indices)
-                unexpected_keys.remove(key)
 
     def init_8bit_state(self):
         self.state.CB = self.weight.CB

From b599fdb197c6b80d3be334899b9e9620492656b9 Mon Sep 17 00:00:00 2001
From: Max Ryabinin <mryabinin0@gmail.com>
Date: Wed, 14 Jun 2023 19:27:13 +0200
Subject: [PATCH 96/97] Only rearrange weight if it exists

---
 bitsandbytes/nn/modules.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/bitsandbytes/nn/modules.py b/bitsandbytes/nn/modules.py
index b806e94..b10d45a 100644
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -307,7 +307,10 @@ class Int8Params(torch.nn.Parameter):
 
 
 def maybe_rearrange_weight(state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys, error_msgs):
-    weight = state_dict[f"{prefix}weight"]
+    weight = state_dict.get(f"{prefix}weight")
+    if weight is None:
+        # if the state dict has no weights for this layer (e.g., LoRA finetuning), do nothing
+        return
     weight_format = state_dict.pop(f"{prefix}weight_format", "row")
 
     if weight_format != "row":

From 4395d68cf6beda911c1c3e5633debf15652e2902 Mon Sep 17 00:00:00 2001
From: Tim Dettmers <tim.dettmers@gmail.com>
Date: Mon, 19 Jun 2023 19:40:41 -0700
Subject: [PATCH 97/97] Release 0.39.1.

---
 CHANGELOG.md           |  8 ++++++++
 Makefile               | 15 +++++++++++++--
 compile_from_source.md |  5 +++++
 setup.py               |  2 +-
 4 files changed, 27 insertions(+), 3 deletions(-)

diff --git a/CHANGELOG.md b/CHANGELOG.md
index eb7ac0d..7c75b24 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -239,3 +239,11 @@ Features:
  - Doubled quantization routines for 4-bit quantization
  - Paged optimizers for Adam and Lion.
  - bfloat16 gradient / weight support for Adam and Lion with 8 or 32-bit states.
+
+Bug fixes:
+ - Fixed a bug where 8-bit models consumed twice the memory as expected after serialization
+
+Deprecated:
+ - Kepler binaries (GTX 700s and Tesla K40/K80) are not longer provided via pip and need to be compiled from source. Kepler support might be fully removed in the future.
+
+
diff --git a/Makefile b/Makefile
index 5fa1f17..19b5b91 100644
--- a/Makefile
+++ b/Makefile
@@ -59,16 +59,27 @@ all: $(BUILD_DIR) env
 	$(NVCC) $(CC_cublasLt111) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION).so $(LIB)
 
-cuda110_nomatmul: $(BUILD_DIR) env
+cuda110_nomatmul_kepler: $(BUILD_DIR) env
 	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA110) $(CC_KEPLER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) -D NO_CUBLASLT
 	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA110) $(CC_KEPLER) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION)_nocublaslt.so $(LIB)
 
-cuda11x_nomatmul: $(BUILD_DIR) env
+cuda11x_nomatmul_kepler: $(BUILD_DIR) env
 	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA11x) $(CC_KEPLER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) -D NO_CUBLASLT
 	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA11x) $(CC_KEPLER) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
 	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION)_nocublaslt.so $(LIB)
 
+
+cuda110_nomatmul: $(BUILD_DIR) env
+	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA110) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) -D NO_CUBLASLT
+	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA110) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
+	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION)_nocublaslt.so $(LIB)
+
+cuda11x_nomatmul: $(BUILD_DIR) env
+	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA11x) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) -D NO_CUBLASLT
+	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA11x) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
+	$(GPP) -std=c++14 -DBUILD_CUDA -shared -fPIC $(INCLUDE) $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o $(BUILD_DIR)/link.o $(FILES_CPP) -o ./bitsandbytes/libbitsandbytes_cuda$(CUDA_VERSION)_nocublaslt.so $(LIB)
+
 cuda12x_nomatmul: $(BUILD_DIR) env
 	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA11x) $(CC_ADA_HOPPER) -Xcompiler '-fPIC' --use_fast_math -Xptxas=-v -dc $(FILES_CUDA) $(INCLUDE) $(LIB) --output-directory $(BUILD_DIR) -D NO_CUBLASLT
 	$(NVCC) $(COMPUTE_CAPABILITY) $(CC_CUDA11x) $(CC_ADA_HOPPER) -Xcompiler '-fPIC' -dlink $(BUILD_DIR)/ops.o $(BUILD_DIR)/kernels.o -o $(BUILD_DIR)/link.o
diff --git a/compile_from_source.md b/compile_from_source.md
index 9d4f89d..f5de4db 100644
--- a/compile_from_source.md
+++ b/compile_from_source.md
@@ -33,3 +33,8 @@ You can set `CUDA_HOME` to `/usr/local/cuda-11.7`. For example, you might be abl
 
 
 If you have problems compiling the library with these instructions from source, please open an issue.
+
+## Compilation with Kepler
+
+Since 0.39.1 bitsandbytes installed via pip no longer provides Kepler binaries and these need to be compiled from source. Follow the steps above and instead of `cuda11x_nomatmul` etc use `cuda11x_nomatmul_kepler`
+
diff --git a/setup.py b/setup.py
index b683bfc..51e747c 100644
--- a/setup.py
+++ b/setup.py
@@ -18,7 +18,7 @@ def read(fname):
 
 setup(
     name=f"bitsandbytes",
-    version=f"0.39.0",
+    version=f"0.39.1",
     author="Tim Dettmers",
     author_email="dettmers@cs.washington.edu",
     description="k-bit optimizers and matrix multiplication routines.",