Generalized FP4 data type.

2023-04-02 12:42:01 -07:00 · 2023-04-02 12:42:01 -07:00 · 2dd5d69056
commit 2dd5d69056
parent 51a21df728
2 changed files with 88 additions and 66 deletions
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
@ -64,6 +64,33 @@ __device__ float dDequantizeFP4(unsigned char val, float absmax)
  }
 }

+__device__ float dDequantizeFP4Tree(unsigned char val, float absmax)
+{
+  float sign = (val & 0b1000) == 8 ? -1.0f : 1.0f;
+  if((val & 0b0100) == 4) // 0
+    if((val & 0b0010) == 2) //01
+      if((val & 0b0001) == 1) // 111
+        return 0.25000000f*absmax*sign; // 1111
+      else
+        return 0.16666667f*absmax*sign; // 1110
+    else
+      if((val & 0b0001) == 1) // 110
+        return 0.50000000f*absmax*sign; // 1101
+      else
+        return 0.33333333f*absmax*sign; // 1100
+  else
+    if((val & 0b0010) == 2) //10
+      if((val & 0b0001) == 1) // 101
+        return 1.00000000f*absmax*sign; // 1011
+      else
+        return 0.66666667f*absmax*sign; // 1010
+    else 
+      if((val & 0b0001) == 1) // 100
+        return 5.208333333e-03f*absmax*sign; // 1001
+      else
+        return 0.00000000f*absmax*sign; // 1000
+}
+
 __device__ unsigned char dQuantizeFP4(float x)
 {
  // FP4 with bias of 3
@ -78,42 +105,79 @@ __device__ unsigned char dQuantizeFP4(float x)
  // 0b010 = 8
  // 0b011 = 12

+
+  // we do a binary search
+  // the pivots are divided by 12 (the FP4 absmax)
+  // since we assum input data is in [-1.0, 1.0]
+
+  // !be careful here, its easy to make a mistake
+  // that is difficult to noice if you add an extra
+  // zero somewhere!
+
+  int sign = x < 0 ? 0b1000 : 0b0000;
+  x = fabsf(x);
+  if(x > 0.29166667f)
+    if( x > 0.583333f)
+      if( x > 0.8333333f)
+        return 0b0011+sign;
+      else
+        return 0b0010+sign;
+    else
+      if(x > 0.4166667f)
+        return 0b101+sign;
+      else
+        return 0b100+sign;
+  else
+    if(x > 0.0859375f)
+      if(x > 0.20833333f)
+        return 0b0111+sign;
+      else
+        return 0b0110+sign;
+    else
+      if(x > 0.00260417f)
+        return 0b0001+sign;
+      else
+        return 0b0000+sign;
+}
+
+__device__ unsigned char dQuantizeNormal(float x)
+{
+  // FP4 with bias of 3
+  // first bit is a sign
+  // subnormals
+  // 0b000 = 0
+  // 0b001 = 0.0625
+  // 0b110 = 2
+  // 0b111 = 3
+  // 0b100 = 4
+  // 0b101 = 6
+  // 0b010 = 8
+  // 0b011 = 12
+
  int sign = x < 0 ? 0b1000 : 0b0000;
  x = fabsf(x);
  if(x > 3.5f)
-  {
    if( x > 7.0f)
-    {
      if( x > 10.0f)
        return 0b0011+sign;
      else
        return 0b0010+sign;
-    }
    else
-    {
      if(x > 5.0f)
        return 0b101+sign;
      else
        return 0b100+sign;
-    }
-  }
  else
-  {
    if(x > 1.03125f)
-    {
      if(x > 2.5f)
        return 0b0111+sign;
      else
        return 0b0110+sign;
-    }
    else
-    {
      if(x > 0.03125f)
        return 0b0001+sign;
      else
        return 0b0000+sign;
-    }
-  }
 }

 template <int STOCHASTIC>
@ -575,8 +639,8 @@ __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float
      for(int j = 0; j < NUM_PER_TH/2; j++)
      {
        unsigned char packed_fp4 = 0;
-        packed_fp4 |= dQuantizeFP4(((float)vals[2*j])*local_abs_max*12.0f) << 4;
-        packed_fp4 |= dQuantizeFP4(((float)vals[2*j+1])*local_abs_max*12.0f);
+        packed_fp4 |= dQuantizeFP4(((float)vals[2*j])*local_abs_max) << 4;
+        packed_fp4 |= dQuantizeFP4(((float)vals[2*j+1])*local_abs_max);
        qvals[j] = packed_fp4;
      }
    }
@ -639,8 +703,10 @@ __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * abs
        #pragma unroll NUM_PER_TH
        for(int j = 0; j < NUM_PER_TH; j++)
        {
-          vals[j*2] = dDequantizeFP4(qvals[j] >> 4, local_abs_max*0.083333f);
-          vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*0.083333);
+          //vals[j*2] = dDequantizeFP4(qvals[j] >> 4, local_abs_max*0.083333f);
+          //vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*0.083333);
+          vals[j*2] = dDequantizeFP4Tree(qvals[j] >> 4, local_abs_max);
+          vals[j*2 + 1] = dDequantizeFP4Tree(qvals[j] & 0x0F, local_abs_max);
        }
      }
      else
@ -656,52 +722,6 @@ __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * abs
  }
 }

-//template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH, int TILE_SIZE>
-//__global__ void kDequantizeBlockwiseFP4(unsigned char * A, float * absmax, T *out, const int n_store)
-//{
-//
-//  const int n_load = n_store/2;
-//  const int base_idx = (blockIdx.x * TILE_SIZE);
-//
-//  T vals[NUM_PER_TH*2];
-//  unsigned char qvals[NUM_PER_TH];
-//
-//  int valid_items = (base_idx + TILE_SIZE) > n_load ? ((base_idx+TILE_SIZE) - n_load) : TILE_SIZE;
-//  int idx = base_idx + (threadIdx.x*NUM_PER_TH);
-//
-//  float local_abs_max = __ldg(&absmax[idx/BLOCK_SIZE]);
-//
-//  if(valid_items == TILE_SIZE)
-//  {
-//    // we do 64 byte loads so we can 128 byte stores
-//    reinterpret_cast<int2(&)[NUM_PER_THREAD/8]>(qvals)[0] = reinterpret_cast<int2*>(A)[idx/8];
-//  }
-//  else
-//  {
-//    #pragma unroll
-//    for(int j = 0; j < NUM_PER_TH; j++)
-//      if(idx+j < n_load)
-//        qvals[j] = A[idx+j];
-//      else
-//        qvals[j] = 0;
-//  }
-//
-//
-//  #pragma unroll NUM_PER_TH
-//  for(int j = 0; j < NUM_PER_TH; j++)
-//  {
-//    vals[j*2] = dDequantizeFP4(qvals[j] & 0xF0, local_abs_max*12.0f);
-//    vals[j*2 + 1] = dDequantizeFP4(qvals[j] & 0x0F, local_abs_max*12.0f);
-//  }
-//
-//
-//  reinterpret_cast<int4(&)[NUM_PER_THREAD/8]>(qvals)[0] = reinterpret_cast<int4*>(A)[idx/8];
-//  reinterpret_cast<int4*>(A)[idx/16] = reinterpret_cast<int4(&)[16]>(local_valC)[j/num_items];
-//
-//
-//}
-
-
 __global__ void kDequantize(float *code, unsigned char *A, float *out, const int n)
 {
 	const unsigned int numThreads = blockDim.x * gridDim.x;
--- a/tests/test_functional.py
+++ b/tests/test_functional.py
@ -2246,8 +2246,10 @@ def test_fp4_quant():

    err = (A1 - A2).abs().float()
    relerr = (err/A1.abs().float()).mean()
+    idx = err > 1.0
    err = err.mean()

+
    assert err.item() < 0.1
    assert relerr.item() < 0.28

@ -2256,7 +2258,7 @@ def test_fp4_compressed_stats():
    for blocksize in [128, 64]:
        errs1 = []
        errs2 = []
-        for i in range(10):
+        for i in range(10000):
            A1 = torch.randn(1024, 1024, device='cuda').half()
            q2, SA2 = F.quantize_fp4(A1, blocksize=blocksize)
            q3, SA3= F.quantize_fp4(A1, blocksize=blocksize, compress_statistics=True)
@ -2268,7 +2270,7 @@ def test_fp4_compressed_stats():
            relerr = (err/(A1.abs().float()+1e-15)).mean()
            err = err.mean()

-            errs1.append(err.item())
+            errs1.append(relerr.item())

            assert err.item() < 0.11
            assert relerr.item() < 0.28
@ -2277,7 +2279,7 @@ def test_fp4_compressed_stats():
            relerr = (err/(A1.abs().float()+1e-15)).mean()
            err = err.mean()

-            errs2.append(err.item())
+            errs2.append(relerr.item())

            assert err.item() < 0.11
            assert relerr.item() < 0.28
@ -2301,7 +2303,7 @@ def test_bench_fp4_dequant():
    #print(max_theoretical_s*1e6)
    b = torch.randn(128, 1024*12, device='cuda').half()

-    iters = 5
+    iters = 500
    torch.cuda.synchronize()
    t0 = time.time()
    for i in range(iters):