Ideas for CUDA kernel calls with parameters greater than 256 bytes

Question

Ideas for CUDA kernel calls with parameters greater than 256 bytes

I have a couple of structures that summarize, exceed the size of 256 bytes allowed for passing as parameters in a kernel call.

Both structures are already allocated and copied to the device’s global memory.

1) How can I use these structures in one core without being passed as parameters?

More details. Separately, these structures can be passed as parameters. For example, in different cores. But:

2) How can I use both structures in one core?

+3

memory management parameters gpgpu cuda

mrei Feb 19 '14 at 23:49

source share

2 answers

, .

4 2.x :

:
256 1.x,
4 2.x .
.

(c.f. http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#function-parameters)

+3

Tom 20 . '14 10:54

sandeep.ganage · Accepted Answer · 2014-02-20T12:10:08+0000

, . opencl.. :

( opencl, .. .!)

"Mapper.c" → Host

typedef struct data
{
  double dattr[10];
  int d_id;
  int bestCent;
}Data;


typedef struct cent
{
  double cattr[5];
  int c_id;
}Cent;

Data *dataNode;
Cent *centNode;

. , :

mapper.cl:

#pragma OPENCL EXTENSION cl_khr_fp64 : enable
typedef struct data
{
  double dattr[10];
  int d_id;
  int bestCent;
}Data;


typedef struct cent
{
  double cattr[5];
  int c_id;
}Cent;

__kernel void mapper(__global int *keyMobj, __global int *valueMobj,__global Data *dataMobj,__global Cent *centMobj)
{
    int i= get_global_id(0);
    int j,k,color=0;
    double dmin=1000000.0, dx;
    for(j=0; j<2; j++)      //here 2 is number of centroids considered
     {
        dx = 0.0;
        for(k=0; k<2; k++)
        {
           dx+= ((centMobj[j].cattr[k])-(dataMobj[i].dattr[k])) * ((centMobj[j].cattr[k])-(dataMobj[i].dattr[k]));
        }  
        if(dx<dmin)            
        {  color = j;   
           dmin = dx;
        }
     }  
     keyMobj[i] = color;
     valueMobj[i] = dataMobj[i].d_id;

}

, , .. keyMobj valueMobj.

kernel = clCreateKernel(program, "mapper", &ret);
ret = clSetKernelArg(kernel, 0, sizeof(cl_mem), (void *)&keyMobj);
ret = clSetKernelArg(kernel, 1, sizeof(cl_mem), (void *)&valueMobj);
ret = clSetKernelArg(kernel, 2, sizeof(cl_mem), (void *)&dataMobj);
ret = clSetKernelArg(kernel, 3, sizeof(cl_mem), (void *)&centMobj);

(mapper.c), (mapper.cl).. 4 (clSetKernelArg..) .

Ideas for CUDA kernel calls with parameters greater than 256 bytes

More articles: