FK20-CUDAdocs/fk20test__poly_8cu_source.html

 // bls12_381: Arithmetic for BLS12-381

 // Copyright 2022-2023 Dag Arne Osvik

 // Copyright 2022-2023 Luan Cardoso dos Santos


 #include <stdio.h>

 #include <time.h>


 #include "g1.cuh"

 #include "fk20.cuh"

 #include "fk20test.cuh"

 #include "fk20_testvector.cuh"


 static __managed__ uint8_t cmp[16*512];

 static __managed__ fr_t fr_tmp[16*512];

 static __managed__ g1p_t g1p_tmp[512];


 void FK20TestPoly() {

     printf(">>>> Poly Tests\n");

     //fk20_setup2xext_fft_test(setup, xext_fft); //deprecated

     fk20_poly2toeplitz_coefficients_test(polynomial, toeplitz_coefficients);

     //fk20_poly2toeplitz_coefficients_fft_test(polynomial, toeplitz_coefficients_fft); //deprecated

     fk20_poly2hext_fft_test(polynomial, xext_fft, hext_fft);

     fk20_msmloop(hext_fft, toeplitz_coefficients_fft, xext_fft);

     fk20_poly2h_fft_test(polynomial, xext_fft, h_fft);


     fullTest();

     fullTestFalsifiability();


 }


 void fullTest() {

     const int rows = 1;

     cudaError_t err;

     bool pass = true;

     CLOCKINIT; //Initializes the time variables


     // Setup


     SET_SHAREDMEM(fr_sharedmem,  fr_fft_wrapper);

     SET_SHAREDMEM(g1p_sharedmem, g1p_fft_wrapper);

     SET_SHAREDMEM(g1p_sharedmem, g1p_ift_wrapper);


     // polynomial -> tc

     // All steps follow the same format

     printf("\n>>>>Full integration test\n"); fflush(stdout);

     printf("polynomial -> tc\n"); fflush(stdout);


     CLOCKSTART; // Starts a basic timer

     fk20_poly2toeplitz_coefficients<<<rows, 256>>>(fr_tmp, polynomial);

     CUDASYNC("fk20_poly2toeplitz_coefficients"); // Ensures the GPU has finished the computation, and check for errors

     CLOCKEND; // Reports time


     clearRes;

     fr_eq_wrapper<<<256, 32>>>(cmp, 16*512, fr_tmp, (fr_t *)toeplitz_coefficients);

     CUDASYNC("fr_eq_wrapper");

     CMPCHECK(16*512);

     PRINTPASS(pass);


     // tc -> tc_fft


     printf("tc -> tc_fft\n"); fflush(stdout);


     CLOCKSTART;

     for(int i=0; i<16; i++){

         fr_fft_wrapper<<<rows, 256, fr_sharedmem>>>(fr_tmp+512*i, fr_tmp+512*i);  // Needs to do 16 of those

     }

     CUDASYNC("fr_fft_wrapper");

     CLOCKEND;


     clearRes;

     fr_eq_wrapper<<<256, 32>>>(cmp, 16*512, fr_tmp, (fr_t *)toeplitz_coefficients_fft);

     CUDASYNC("fr_eq_wrapper");

     CMPCHECK(16*512);

     PRINTPASS(pass);


     // tc_fft -> hext_fft

     printf("tc_fft -> hext_fft\n"); fflush(stdout);

     CLOCKSTART;

     fk20_msm<<<rows, 256>>>(g1p_tmp, fr_tmp,  (g1p_t *)xext_fft);

     CUDASYNC("fk20_msm");

     CLOCKEND;

     clearRes;

     g1p_eq_wrapper<<<16, 32>>>(cmp, 512, g1p_tmp, (g1p_t *)hext_fft);

     CUDASYNC("g1p_eq_wrapper");

     CMPCHECK(512);

     PRINTPASS(pass);


     // hext_fft -> hext -> h


     printf("hext_fft -> hext -> h\n"); fflush(stdout);


     CLOCKSTART;

     g1p_ift_wrapper<<<rows, 256, g1p_sharedmem>>>(g1p_tmp, g1p_tmp);

     CUDASYNC("g1p_ift_wrapper");

     fk20_hext2h<<<rows, 256>>>(g1p_tmp);

     CLOCKEND;

     CUDASYNC("fk20_hext2h");

     clearRes;

     g1p_eq_wrapper<<<16, 32>>>(cmp, 256, g1p_tmp, (g1p_t *)h);

     CUDASYNC("g1p_eq_wrapper");

     CMPCHECK(256);

     PRINTPASS(pass);


     // h -> h_fft


     printf("h -> h_fft\n"); fflush(stdout);


     CLOCKSTART;

     g1p_fft_wrapper<<<rows, 256, g1p_sharedmem>>>(g1p_tmp, g1p_tmp);

     CUDASYNC("g1p_fft_wrapper");

     CLOCKEND;


     clearRes;

     g1p_eq_wrapper<<<16, 32>>>(cmp, 512, g1p_tmp, h_fft);

     CUDASYNC("g1p_eq_wrapper");

     CMPCHECK(512);

     PRINTPASS(pass);

 }


 void fullTestFalsifiability() {

     const int rows = 1;

     cudaError_t err;

     bool pass = true;

     CLOCKINIT;


     // Setup


     SET_SHAREDMEM(fr_sharedmem,  fr_fft_wrapper);

     SET_SHAREDMEM(g1p_sharedmem, g1p_fft_wrapper);

     SET_SHAREDMEM(g1p_sharedmem, g1p_ift_wrapper);


     varMangle((fr_t*)polynomial, 4096, 512); // Non destructively changes polynomial


     printf("\n>>>>Full integration test\n"); fflush(stdout);


     // polynomial -> tc


     printf("polynomial -> tc\n"); fflush(stdout);


     CLOCKSTART;

     fk20_poly2toeplitz_coefficients<<<rows, 256, fr_sharedmem>>>(fr_tmp, polynomial);

     CUDASYNC("fk20_poly2toeplitz_coefficients");

     CLOCKEND;


     clearRes;

     fr_eq_wrapper<<<256, 32>>>(cmp, 16*512, fr_tmp, (fr_t *)toeplitz_coefficients);

     CUDASYNC("fr_eq_wrapper");

     NEGCMPCHECK(16*512);

     NEGPRINTPASS(pass);


     // tc -> tc_fft


     printf("tc -> tc_fft\n"); fflush(stdout);


     CLOCKSTART;

     for(int i=0; i<16; i++){

         fr_fft_wrapper<<<rows, 256, fr_sharedmem>>>(fr_tmp+512*i, fr_tmp+512*i);  // Needs to do 16 of those

     }

     CUDASYNC("fr_fft_wrapper");

     CLOCKEND;


     clearRes;

     fr_eq_wrapper<<<256, 32>>>(cmp, 16*512, fr_tmp, (fr_t *)toeplitz_coefficients_fft);

     CUDASYNC("fr_eq_wrapper");

     NEGCMPCHECK(16*512);

     NEGPRINTPASS(pass);


     // tc_fft -> hext_fft


     printf("tc_fft -> hext_fft\n"); fflush(stdout);


     CLOCKSTART;

     fk20_msm<<<rows, 256>>>(g1p_tmp, fr_tmp,  (g1p_t *)xext_fft);

     CUDASYNC("fk20_msm");

     CLOCKEND;


     clearRes;

     g1p_eq_wrapper<<<16, 32>>>(cmp, 512, g1p_tmp, (g1p_t *)hext_fft);

     CUDASYNC("g1p_eq_wrapper");

     NEGCMPCHECK(512);

     NEGPRINTPASS(pass);


     // hext_fft -> hext -> h


     printf("hext_fft -> hext -> h\n"); fflush(stdout);


     CLOCKSTART;

     g1p_ift_wrapper<<<rows, 256, g1p_sharedmem>>>(g1p_tmp, g1p_tmp);

     CUDASYNC("g1p_ift_wrapper");

     fk20_hext2h<<<rows, 256>>>(g1p_tmp);

     CLOCKEND;


     CUDASYNC("fk20_hext2h");

     clearRes;

     g1p_eq_wrapper<<<16, 32>>>(cmp, 256, g1p_tmp, (g1p_t *)h);

     CUDASYNC("g1p_eq_wrapper");

     NEGCMPCHECK(256);

     NEGPRINTPASS(pass);


     // h -> h_fft


     printf("h -> h_fft\n"); fflush(stdout);


     CLOCKSTART;

     g1p_fft_wrapper<<<rows, 256, g1p_sharedmem>>>(g1p_tmp, g1p_tmp);

     CUDASYNC("g1p_fft_wrapper");

     CLOCKEND;


     clearRes;

     g1p_eq_wrapper<<<16, 32>>>(cmp, 512, g1p_tmp, h_fft);

     CUDASYNC("g1p_eq_wrapper");

     NEGCMPCHECK(512);

     NEGPRINTPASS(pass);


     varMangle((fr_t*)polynomial, 4096, 512); // Restore polynomial

 }


 /*******************************************************************************


 The testing functions follow an common template, described in ./doc/fk20test.md


 *******************************************************************************/


 void fk20_poly2toeplitz_coefficients_test(fr_t polynomial_l[4096], fr_t toeplitz_coefficients_l[16][512]){

     cudaError_t err;

     bool pass = true;

     CLOCKINIT;


     printf("=== RUN   %s\n", "fk20_poly2toeplitz_coefficients: polynomial -> toeplitz_coefficients");

     memset(fr_tmp, 0xAA,16*512*sizeof(fr_t)); // Pattern on tmp dest.

     for(int testIDX=0; testIDX<=1; testIDX++){


         CLOCKSTART;

         fk20_poly2toeplitz_coefficients<<<1, 256 >>>(fr_tmp, polynomial_l);

         // IMPORTANT: This function does not need shared memory. Making the kernel call with a dynamic shared

         // memory allocation is known to cause some subtle bugs, which do not always show during normal execution.

         CUDASYNC("fk20_poly2toeplitz_coefficients");

         CLOCKEND;


         clearRes;

         fr_eq_wrapper<<<256, 32>>>(cmp, 16*512, fr_tmp, (fr_t *)toeplitz_coefficients_l);

         CUDASYNC("fr_eq_wrapper");


         // Check result

         if (testIDX == 0){

             CMPCHECK(16 * 512)

             PRINTPASS(pass);

             }

         else{

             NEGCMPCHECK(16*512);

             NEGPRINTPASS(pass);

         }


         varMangle((fr_t*)polynomial_l, 4096, 512);

     }

 }


 void fk20_poly2hext_fft_test(fr_t polynomial_l[4096], g1p_t xext_fft_l[16][512], g1p_t hext_fft_l[512]){

     cudaError_t err;

     CLOCKINIT;

     bool pass = true;


     SET_SHAREDMEM(g1p_sharedmem, fk20_poly2hext_fft)


     printf("=== RUN   %s\n", "fk20_poly2hext_fft: polynomial -> hext_fft");

     memset(g1p_tmp,0xAA,512*sizeof(g1p_t)); // Pattern on tmp dest

     for(int testIDX=0; testIDX<=1; testIDX++){


         CLOCKSTART;

         fk20_poly2hext_fft<<<1, 256, fr_sharedmem>>>(g1p_tmp, polynomial_l, (const g1p_t *)xext_fft_l);

         CUDASYNC("fk20_poly2hext_fft");

         CLOCKEND;


         clearRes;

         g1p_eq_wrapper<<<16, 32>>>(cmp, 512, g1p_tmp, (g1p_t *)hext_fft_l);

         CUDASYNC("g1p_eq_wrapper");


         // Check result

         if (testIDX == 0){

             CMPCHECK(512)

             PRINTPASS(pass);

             }

         else{

             NEGCMPCHECK(512);

             NEGPRINTPASS(pass);

         }

         varMangle(hext_fft_l, 512, 64);

     }

 }


 void fk20_poly2h_fft_test(fr_t polynomial_l[4096], g1p_t xext_fft_l[16][512], g1p_t h_fft_l[512]){

     cudaError_t err;

     CLOCKINIT;

     bool pass = true;


     printf("=== RUN   %s\n", "fk20_poly2h_fft: polynomial -> h_fft (full computation)");

     // memset(g1p_tmp,0x88,512*sizeof(g1p_t)); // Pattern on tmp dest

     memset(g1p_tmp,0,512*sizeof(g1p_t)); // Pattern on tmp dest

     memset(fr_tmp,0xAA,8192*sizeof(fr_t)); // Pattern on tmp dest

     for(int testIDX=0; testIDX<=1; testIDX++){


         CLOCKSTART;

         fk20_poly2h_fft(g1p_tmp, polynomial_l, (const g1p_t *)xext_fft_l, 1); // This causes memory issues

         CUDASYNC("fk20_poly2h_fft");

         CLOCKEND;


         clearRes;

         g1p_eq_wrapper<<<16, 32>>>(cmp, 512, g1p_tmp, (g1p_t *)h_fft_l);

         CUDASYNC("g1p_eq_wrapper");


         // Check result

         if (testIDX == 0){

             CMPCHECK(512)

             PRINTPASS(pass);

             }

         else{

             NEGCMPCHECK(512);

             NEGPRINTPASS(pass);

         }

         varMangle(h_fft_l, 512, 64);

     }

 }


 void fk20_msmloop(g1p_t hext_fft_l[512], fr_t toeplitz_coefficients_fft_l[16][512],

                   g1p_t xext_fft_l[16][512]){

     cudaError_t err;

     CLOCKINIT;

     bool pass = true;


     printf("=== RUN   %s\n", "fk20_msm: Toeplitz_coefficients+xext_fft -> hext_fft");

     memset(g1p_tmp,0x88,512*sizeof(g1p_t)); // Pattern on tmp dest

     for(int testIDX=0; testIDX<=1; testIDX++){


         CLOCKSTART;

         fk20_msm<<<1, 256>>>(g1p_tmp, (const fr_t*)toeplitz_coefficients_fft_l, (const g1p_t*)xext_fft_l);

         CUDASYNC("fk20_msm");

         CLOCKEND;


         clearRes;

         g1p_eq_wrapper<<<16, 32>>>(cmp, 512, g1p_tmp, (g1p_t *)hext_fft_l);

         CUDASYNC("g1p_eq_wrapper");


         // Check result

                 if (testIDX == 0){

                 CMPCHECK(512)

                 PRINTPASS(pass);

                 }

             else{

                 NEGCMPCHECK(512);

                 NEGPRINTPASS(pass);

             }

             varMangle(hext_fft_l, 512, 64);

         }

 }


 // Deprecated function

 /*

 void fk20_setup2xext_fft_test(g1p_t setup_l[4097], g1p_t xext_fft_l[16][512]){

     cudaError_t err;

     bool pass = true;

     g1p_t g1ptmp[16*512];


     CLOCKINIT;


     printf("=== RUN   %s\n", "fk20_setup2xext_fft: setup -> xext_fft");

     memset(g1ptmp, 0xAA, 16*512*sizeof(g1p_t)); //pattern on tmp dest.

     SET_SHAREDMEM(g1p_sharedmem, fk20_setup2xext_fft)

     for(int testIDX=0; testIDX<=1; testIDX++){


         CLOCKSTART;

         fk20_setup2xext_fft<<<16, 256, g1p_sharedmem>>>(g1ptmp, setup);


         CUDASYNC("fk20_setup2xext_fft");

         CLOCKEND;


         clearRes;

         g1p_eq_wrapper<<<256, 32>>>(cmp, 16*512, g1ptmp, (g1p_t*)xext_fft);

         CUDASYNC("g1p_eq_wrapper");


         // Check result

         if (testIDX == 0){

             CMPCHECK(16 * 512)

             PRINTPASS(pass);

             }

         else{

             NEGCMPCHECK(16*512);

             NEGPRINTPASS(pass);

         }


         varMangle((g1p_t*)xext_fft_l, 4096, 512);

     }

 }

 */


 //Deprecated function

 /*

 void fk20_poly2toeplitz_coefficients_fft_test(fr_t polynomial_l[4096], fr_t toeplitz_coefficients_fft_l[16][512]){

     cudaError_t err;

     CLOCKINIT;

     bool pass = true;


     SET_SHAREDMEM(g1p_sharedmem, fk20_poly2toeplitz_coefficients_fft);


     printf("=== RUN   %s\n", "fk20_poly2toeplitz_coefficients_fft: polynomial -> toeplitz_coefficients_fft");

     memset(fr_tmp, 0xAA,16*512*sizeof(fr_t)); //pattern on tmp dest.

     CLOCKSTART;

     fk20_poly2toeplitz_coefficients_fft<<<1, 256, fr_sharedmem>>>(fr_tmp, polynomial_l);

     err = cudaDeviceSynchronize();

     end = clock();


     if (err != cudaSuccess)

         printf("Error fk20_poly2toeplitz_coefficients_fft: %d (%s)\n", err, cudaGetErrorName(err));

     else

         printf(" (%.3f s)\n", (end - start) * (1.0 / CLOCKS_PER_SEC));


     // Clear comparison results


     for (int i=0; i<16*512; i++)

         cmp[i] = 0;


     fr_eq_wrapper<<<16, 256>>>(cmp, 16*512, fr_tmp, (fr_t *)toeplitz_coefficients_fft_l);


     err = cudaDeviceSynchronize();

     if (err != cudaSuccess) printf("Error fr_eq_wrapper: %d (%s)\n", err, cudaGetErrorName(err));


     // Check result


     for (int i=0; i<16*512; i++)

         if (cmp[i] != 1) {

             printf("poly2tc error %04x\n", i);

             pass = false;

             break;

         }


     PRINTPASS(pass);

 }

 */


 // vim: ts=4 et sw=4 si

fk20.cuh

g1p_sharedmem
const size_t g1p_sharedmem
Definition: fk20.cuh:14

fk20_poly2h_fft
__host__ void fk20_poly2h_fft(g1p_t *h_fft, const fr_t *polynomial, const g1p_t xext_fft[8192], unsigned rows)
polynomial + xext_fft -> h_fft This function is a wrapper for the full FK20 computation,...
Definition: fk20_poly2h_fft.cu:47

fk20_poly2hext_fft
__global__ void fk20_poly2hext_fft(g1p_t *hext_fft, const fr_t *polynomial, const g1p_t xext_fft[8192])
polynomial + xext_fft -> hext_fft
Definition: fk20_poly2hext_fft.cu:24

SET_SHAREDMEM
#define SET_SHAREDMEM(SZ, FN)
Definition: fk20.cuh:48

CUDASYNC
#define CUDASYNC(fmt,...)
Definition: fk20.cuh:39

fr_sharedmem
const size_t fr_sharedmem
Definition: fk20.cuh:15

xext_fft
__managed__ g1p_t xext_fft[16][512]
Definition: fk20_testvector.cu:24603

hext_fft
__managed__ g1p_t hext_fft[512 *512]
Definition: fk20_testvector.cu:82052

h_fft
__managed__ g1p_t h_fft[512 *512]
Definition: fk20_testvector.cu:87178

toeplitz_coefficients
__managed__ fr_t toeplitz_coefficients[512 *16][512]
Definition: fk20_testvector.cu:65598

polynomial
__managed__ fr_t polynomial[512 *4096]
Definition: fk20_testvector.cu:16

toeplitz_coefficients_fft
__managed__ fr_t toeplitz_coefficients_fft[512 *16][512]
Definition: fk20_testvector.cu:73825

varMangle
void varMangle(fr_t *target, size_t size, unsigned step)
swap elements at positions multiple of step. Nondestructive, call a second time to undo the changes
Definition: fk20_512test.cu:730

h
__managed__ g1p_t h[512 *512]
Definition: fk20_testvector.cu:84615

fk20_testvector.cuh

cmp
__managed__ uint8_t cmp[16 *512]
Definition: fk20benchmark.cu:54

fk20test.cuh

fk20_msmloop
void fk20_msmloop(g1p_t hext_fft_l[512], fr_t toeplitz_coefficients_fft_l[16][512], g1p_t xext_fft_l[16][512])
Test for fk20_msm: Toeplitz_coefficients+xext_fft -> hext_fft.
Definition: fk20test_poly.cu:372

fullTest
void fullTest()
Definition: fk20test_poly.cu:44

FK20TestPoly
void FK20TestPoly()
Definition: fk20test_poly.cu:24

fk20_poly2hext_fft_test
void fk20_poly2hext_fft_test(fr_t polynomial_l[4096], g1p_t xext_fft_l[16][512], g1p_t hext_fft_l[512])
Test for fk20_poly2hext_fft: polynomial -> hext_fft.
Definition: fk20test_poly.cu:292

fk20_poly2h_fft_test
void fk20_poly2h_fft_test(fr_t polynomial_l[4096], g1p_t xext_fft_l[16][512], g1p_t h_fft_l[512])
Test for fk20_poly2h_fft: polynomial -> h_fft.
Definition: fk20test_poly.cu:332

fullTestFalsifiability
void fullTestFalsifiability()
Definition: fk20test_poly.cu:140

fk20_poly2toeplitz_coefficients_test
void fk20_poly2toeplitz_coefficients_test(fr_t polynomial_l[4096], fr_t toeplitz_coefficients_l[16][512])
Test for fk20_poly2toeplitz_coefficients: polynomial -> toeplitz_coefficients.
Definition: fk20test_poly.cu:251

fr_t
uint64_t fr_t[4]
Subgroup element stored as a 256-bit array (a 4-element little-endian array of uint64_t)....
Definition: fr.cuh:24

fr_fft_wrapper
__global__ void fr_fft_wrapper(fr_t *output, const fr_t *input)
wrapper for fr_fft: FFT for fr_t[512]
Definition: fr_fft.cu:316

g1.cuh

g1p_fft_wrapper
__global__ void g1p_fft_wrapper(g1p_t *output, const g1p_t *input)
wrapper for g1p_fft: FFT for arrays of g1p_t with length 512
Definition: g1p_fft.cu:336

g1p_ift_wrapper
__global__ void g1p_ift_wrapper(g1p_t *output, const g1p_t *input)
wrapper for g1p_ift: inverse FFT for arrays of g1p_t with length 512
Definition: g1p_fft.cu:349

g1p_tmp
__shared__ g1p_t g1p_tmp[]

g1p_t
G1 point in projective coordinates.
Definition: g1.cuh:27

CLOCKINIT
#define CLOCKINIT
Definition: test.h:98

NEGCMPCHECK
#define NEGCMPCHECK(LENGTH)
Definition: test.h:116

clearRes
#define clearRes
Definition: test.h:87

PRINTPASS
#define PRINTPASS(pass)
Definition: test.h:25

CLOCKEND
#define CLOCKEND
Definition: test.h:100

CLOCKSTART
#define CLOCKSTART
Definition: test.h:99

NEGPRINTPASS
#define NEGPRINTPASS(pass)
Definition: test.h:32

CMPCHECK
#define CMPCHECK(LENGTH)
Definition: test.h:106