Introduction to GPU programming

29.08.2013

Eirik Ola Aksnes

Agenda

What are GPUs?
Where can GPUs be found?
Historical motivation - the video game industry
GPGPU - general-purpose computing on GPUs
CPU vs. GPU
Data parallelism
Nvidia CUDA
CUDA example - Vector addition
Final comments

What are GPUs?

GPUs are highly parallel, multithreaded, many-core processors
Hundreds of cores
Thousands of concurrent threads
First GPU - Nvidia's GeForce 256 (1999)
Vendors - NVIDIA, AMD, Intel

Where can GPUs be found?

Mobile phones
Personal computers
Clusters
Supercomputers
Game consoles

Historical motivation - the video game industry

Constantly pushes to improve the ability to perform massive numbers of floating point calculations in video games (multi-billion dollar industry!)

1981 - 3D Monster Maze

2013 - Tom Clancy’s The Division

GPGPU - General-purpose computing on GPUs

GPUs can be used for more than just graphic rendering
GPUs can accelerate applications in a variety of disciplines
- Big speedup compared to CPUs in some cases
In the beginning graphic APIs, like OpenGL, was used to do GPGPU (big hack)
- Difficult to develop, debug, and optimize
Improvements in hardware and software has made GPGPU easier
- Programmability

History of GPGPU computing

Hvis vi ser på historien til GPGPU programmering:

Vi set at i begynnelsen ble grafikk APIer brukt:

OpenGL
DirectX (Microsoft)

Rundt ~ 2005 - Ulike abstraksjoner - Høy nivå (tredjeparts) språk som abstrahert bort grafikken.

BrookGPU - Et generelt rammeverk for GPU programmering utviklet av Stanford University. Programmer skrives i språket Brook som er en utvidet versjon av standard C.

Rundt ~ 2006 - Ble det sluppet fra leverandører, dedikerte språk for GPGPU programmering.

I dag skal vi se på NVIDIA sitt som heter CUDA
AMD - Close-to-Metal (CTM)
DirectCompute - Microsoft
OpenCL bør også nevnes:

OpenCL står for Open Computing Language
Tilsvarende CUDA, men er en åpen standard
Opprinnelig utviklet av Apple, men er nå vedlikeholdt av Khronos gruppen (same gruppe som vedlikeholder OpenGL)
En stor fordel med OpenCL er at man ikke bare er begrenset til en GPU leverandør, man kan faktisk også bruke CPUer, og potensielt en rekke andre enheter. For å gjøre data-parallelle beregninger.....

CPU vs. GPU

Floating-point performance

Hvorfor har man startet å bruke GPUer til andre ting en grafikk?

En av grunnene er at de har svært god ytelse i forhold til CPUer.

Her ser vi en graf som viser hva NVIDIA sine GPUer og Intel sine CPUer klarer av antall flyttallsoperasjoner per sekund. Det vi ser ut ifra grafen er at:

GPUene er først å fremst raskere en CPuene, men vi kan også se at
ytelsen til GPUer øker raskere enn ytelsen til CPUer.
De har en større stigende kurve...
Det er viktig å huske at dette er den teoretiske beste ytelsen, og at det er skal veldig mye til for å få til en så god ytelsen…

Memory bandwidth

Design

CPU	GPU
Few complex and speedy cores	Many simple and slow cores
Each core has own sophisticated control logic (independent execution)	Groups of compute cores share control logic
Memory latency hidden by cache and prefetching	Memory latency hidden by swapping threads. Massive multithreading. Very fast context switching

Tenkte å gå igjennom en del punkter som skiller CPUer og GPUer i design…

En CPU har noen få kjerner (typisk to, ﬁre eller åtte kjerner) som er veldig komplekse og raske.
En GPU har mange (hundrevis) enkle og trege kjerner.

Hver CPU kjerne har egen avansert kontroll logikk.
Hos en GPU så deler grupper av kjerner kontrol logikk.

En CPU skjuler minne ventetid ved bruk av “cacheing” og “prefetching”.
En GPU skjuler minne ventetid ved å bytte mellom tråder som kjører.
Hvis en tråd venter på minne aksess, så bytter GPUen til annen tråd, som kan gjøre beregninger istedenfor.
Det å bytte mellom tråder går veldig fort (man har veldig rask kontekst svitsjing).

Transistors

CPU: Uses large fraction of the chip area for control logic and cache
GPU: Uses most of the chip area for data processing units

Latency vs. Throughput

What is better? What do you need?

CPU - Low latency	GPU - High Throughput
E.g. deliver a package as soon as possible	E.g. deliver many packages within a reasonable time

En CPU kan sammenlignes med to sportsbiler.
En GPU kan sammenlignes med mange scootere.

Hva er bedre? Det er avhengig av hva du trenger?

En CPU er optimalisert for lav ventetid, altså designet for å minimere kjøretiden til en enkel tråd.
En GPU er optimalisert for høy gjennomstrømning, altså designet for å få prossesert ferdig flest mulig tråder innenfor en gitt tid.

Beregn en jobb så fort som mulig -> CPU, kan sammenlignes med f.eks levere en pakke så snart som mulig.
Beregn mange jobber innenfor en gitt tid -> GPU, kan sammenlignes med f.eks levere mange pakker innenfor en gitt tid.

Det er mange applikasjoner hvor det å optimalisere for høy gjennomstrømning er mest viktig.
I f.eks bilde prosessering er man mer opptatt av antall piksler per sekund, enn ventetiden av en hvilken som helst piksel.
Man er villig til å la tiden det tar å prosessere en piksel ta dobbel så lang tid, så lenge vi får prosessert flere pikseler på innenfor en git tid.
For dette vil en GPU være gunstig.

Latency:

Hvor lang tid tar det å bli ferdig med en oppgave
Time (Seconds)

Throughput:

Antall oppgaver ferdig i en gitt tid
Stuff / Time (Jobs/Hours)
Image processing - Pixels / Seconds

Data parallelism

Multiple processing units performs in parallel the same operation on different data elements
Flynn's taxonomy: Single-Instruction Multiple-Data (SIMD)
NVIDIA: Single-Instruction Multiple-Threads (SIMT)

Data parallelism - Image example

Hvis vi ser på ett enkelt eksempel…
...prosessering av piksler i ett bilde..
...vi antar at vi kan prosessere piksler uavhengig av hverandre...
Hvis vi ser på CPU eksempelet først, så er det typisk en tråd som går igjennom alle pikslene, en etter en, via en for-løkke. F.eks for å konvertere piksler fra farge verdier til svart hvit…
Hvis vi ser på GPU eksempelet, så er ideen at man har mange tråder som prosesserer piksel i parallell.
Hver tråd vil utføre den samme operasjonen, bare på forskjellige data elementer...
Hvor mange tråder som vil bli prosessert i parallell er avhengig av hvor mange kjerner GPUen man benytter har.

What is CUDA?

Compute Unified Device Architecture
Nvidia introduced CUDA in 2006
Specially designed for GPGPU
Only supported by Nvidia graphics cards
Write code in C/C++, Java, Python, Fortran, Perl...
You do not need parallel programming experience
Requires no knowledge of graphics APIs
Access to native instructions and memory

Get started - CUDA Toolkit

Driver
Compiler nvcc
Development, profiling and debugging tools
Various libraries
Programming guides, and API reference
Example codes

Get started

Det er tre måter man kan starte å bruke CUDA:

cuFFT, - Fast Fourier Transforms Library
cuBLAS - Complete BLAS bibliotek

Man legger til PRAGMAer (direktiver) i koden, som forteller kompilatoren at den skal parallisere den kommenterte delen av koden for deg.
F.eks hvis man skriver #pragma acc parallel foran en for-løkker, skal kompliatoren automatisk paralllisere for-løkken for deg...

CUDA C Programming Guide

The advent of multicore CPUs and many-core GPUs means that mainstream processor chips are now parallel systems. Furthermore, their parallelism continues to scale with Moore’s law. The challenge is to develop application software that transparently scales its parallelism to leverage the increasing number of processor cores...

At its core are three key abstractions – a hierarchy of thread groups, shared memories, and barrier synchronization...

...data parallelism...

CUDA terminology

Heterogeneous programming

Serial code → Host
Parallel code → Device

Kernels

C functions, that when called, are executed N times in parallel by N different threads on the device. As opposed to only once, like a regular C functions.

Hva er en kernel?

det er en C-funksjon, som, når den blir kalt, blir utført N ganger i parallell av N forskjellige tråder, i motsetning til en vanlig C-funksjon, som bare blir utført en gang.
...så alt som skjer inne funksjonen, blir utført N antall ganger...
__global__ definerer at funksjonen er en kernel, og at funksjonen skal bli kjørt på GPUen...
Antallet ganger “kernelen” blir utført (eller antall tråder), er spesifisert med en spesiell syntaks… <<<>>>...vi skal komme tilbake til det snart...

Thread hierarchy

A kernel is executed by thousands of threads in parallel, organized as a hierarchy.

Thread hierarchy - Blocks

Threads are grouped into blocks (1D, 2D or 3D)
- Each thread has its own local block ID

Thread hierarchy - Grids

Blocks are grouped into a grid (1D, 2D or 3D)
- Each block as its own ID
- All blocks in a grid have the same dimension

Thread hierarchy - Scalability

Threads in the same block can
- Be synchronized
- Share data (shared memory)
Threads in different blocks can not cooperate
- Thread blocks are independent
- Can be executed in any order -> scalability

How to launch a kernel?

Execution configuration example


dim3 dimGrid(2, 2); // 4 blocks (2D)
dim3 dimBlock(2, 4); // 8 threads per block (2D)
myKernel<<<dimGrid, dimBlock>>>();

dim3 is a structure with three properties, x, y and z.

How to determine unique thread IDs?

With this execution configuration


dim3 dimGrid(3); // 3 blocks in 1D
dim3 dimBlock (5); // 5 threads per block in 1D

How are kernels executed?

The GPU core is the stream processor (SP)
- Able to run a single sequential thread
SPs are grouped into streaming multiprocessors (SMs)
- Can execute hundreds of threads concurrently
- SMs is basically a SIMD processor
There are multiple SMs per GPU

For å forklarer hvordan GPUer utfører “kernels”, må vi først se på hvordan GPUer fra NVIDIA er designet ….
Hver stream prosessor er i stand til å kjøre en sekvensiell tråd...
Stream processorer er gruppert til streaming multiprocessorer...
En streaming multiprosessor kan kjøre et stort antall tråder samtidig, hvor hver tråd kjører det samme program.
En stream multiprosessor kan ses på som en SIMD-prosessor.

NVIDIA's consumer graphics cards

How are kernels executed - Grid

Grid → GPU
- An entire grid is handled by a single GPU chip
- The GPU is responsible for allocating blocks to SMs that has available capacity

How are kernels executed - Block

Block → Streaming multiprocessor
- A block is never divided across multiple streaming multiprocessors

How are kernels executed - Thread

Thread → Stream processor
- Each stream processor handles one or more threads in a block

Synchronization

Point in the program where threads stop and wait
When all threads have reached the barrier, they can proceed

Inside kernel


    __syncthreads() // Synchronize threads within a block

Memory hierarchy

Memory management

Inside kernel


float variable; // Local memory (registers)
__shared__ float variable; // Shared memory
__device__ float variable; // Global memory

Memory management

Allocate GPU memory:
- cudaMalloc(......)
Copy data to/from GPU:
- cudaMemcpy(......, cudaMemcpyHostToDevice)
- cudaMemcpy(......, cudaMemcpyDeviceToHost)
Free GPU memory:
- cudaFree(......)

CUDA C Programming Guide...

At its core are three key abstractions – a hierarchy of thread groups, shared memories, and barrier synchronization...

CUDA example - Vector addition

Typical program execution

Allocate memory and initialize data on CPU
Allocate memory on GPU
Transfer data from CPU to GPU
- A slow operation, aim to minimize this!
Lunch kernel
Transfer results back from GPU to CPU
Free CPU and GPU memory

The problem to solve

C = A + B

Vector addition on CPU


for(int i=0; i<N-1; i++) {
    C[i] = A[i] + B[i];
}

Only one thread of execution
No explicit parallelism

Allocate memory on CPU


int main() {
    // Size of vectors
    int n = 50000;

    // Size, in bytes, of each vector
    size_t bytes = n * sizeof(float);

    // Allocate memory for the host vectors
    float *h_A = (float *) malloc(bytes);
    float *h_B = (float *) malloc(bytes);
    float *h_C = (float *) malloc(bytes);

Initialize vectors with some values


    for(int i=0; i<n; ++i) {
      h_A[i] = 1;
      h_B[i] = 3;
    }

Allocate memory on GPU


    // Allocate memory for the device vectors
    float *d_A = NULL;
    cudaMalloc((void **) &d_A, bytes);
    float *d_B = NULL;
    cudaMalloc((void **) &d_B, bytes);
    float *d_C = NULL;
    cudaMalloc((void **) &d_C, bytes);

Transfer data from CPU to GPU


    // Copy the host vectors to the device
    cudaMemcpy(d_A, h_A, bytes, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, bytes, cudaMemcpyHostToDevice);

Lunch kernel


    // Execution configuration
    int threadsPerBlock = 256;
    int blocksPerGrid =(n + threadsPerBlock - 1) / threadsPerBlock;

    // Launch kernel
    vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B,
    d_C, n);

    printf("Kernel launch with %d blocks of %d threads\n",
    blocksPerGrid, threadsPerBlock);

Transfer results back from GPU to CPU


    // Copy the result back to the host result vector
    cudaMemcpy(h_C, d_C, bytes, cudaMemcpyDeviceToHost);

Show the result


    // Sum up host result vector and print result divided by n,
    // this should equal 4
    float sum = 0;
    for(int i=0; i<n; i++) {
        sum += h_C[i];
    }
    sum = sum / n;
    printf("Final result: %f\n", sum);

Free CPU and GPU memory


    // Free device global memory
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);

    // Free host memory
    free(h_A);
    free(h_B);
    free(h_C);

    return 0;
}

The kernel

The for-loop is removed!


#include <stdio.h>
#include <cuda_runtime.h>

__global__ void vectorAdd(float *d_A, float *d_B, float *d_C, int n) {
    // Calculate the thread ID
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    // Make sure we do not go out of bounds
    if (i < n) {
        d_C[i] = d_A[i] + d_B[i];
    }
}

De tre vektorene A, B og C blir tatt inn som parametere, og er lagret i det globalet minnet.
N spesifiserer antall elementer i vektorene, og er lagret i det lokalet minnet til tråden.
Hvis vi ser på GPU eksempelet, så ser vi at for-løkken har blitt borte.
Istedenfor blir denne “kernelen” kjørt i parallell av mange tråder, hvor hver tråd operere på ett spesifikt element fra hver vektor.
Vi bruker tråd IDen for å bestemme hvilket element en tråd skal operere på.
Vi har minst like mange tråder som det er elementer i vektorene.

Visualized

Example: Vector addition on GPU


$ Kernel launch with 196 blocks of 256 threads
$ Final result: 4.000000

Execution time CPU vs. GPU - Assume we do 64 additions

CPU uses 2 ns for 1 addition. CPU execution time = number of additions * time it takes for 1 addition = 64 * 2 ns = 128 ns
GPU uses 10 ns for 1 addition. GPU execution time = the time it takes for 1 addition (we assume we have enough resources to do the all additions in parallel) = 10 ns

Final comments

Performance guidelines

High arithmetic intensity: Math (maximize) / memory (minimize)
High number of threads: Keep the GPU busy. Need enough threads to hide memory latency
Avoid thread divergence (caused by if, switch, do, for, while statements): Different execution paths -> serialisation (SIMT)
Large data sets: Plenty to operate on in parallel
Minimize CPU-GPU memory transfers: Slow operation
Use single precision if possible
...

Litt om noen ytelse retningslinjer….

Aritmetisk intensitet - Sier noe om hvor mange regne operasjoner et program utfører i forhold til antall minne operasjoner.
Det er ønskelig at denne er høy (for å skjule minne latens).

For å få til det:

Maksimere antall bergeninger per tråd
Minimere antall minne aksesser
Minimere tid brukt på minne aksess
Bruk raskest mulig minne

Unngå tråd avvik/divergens… det kan føre til at ting må utføres sekvensielt… altså redusere ytelsen….prøv derfor å få hver tråd til å følge samme sti… Som vi nå har sett så er det altså andre ytelse retningslinjer enn på en CPU…..

Why use GPUs?

Computing power. It is powerful
- Number crunching: 1 GPU ~= 4 TFLOPS ~= Small cluster
It is a cheap commodity hardware
- FLOPS per NOK
It is everywhere
- Sold hundreds of millions programmable GPUs
Power
- FLOPS per Watt

NVIDIA - Tesla cards

No graphic output! What?
Aimed at scientific computing rather than gaming
Tested and burned-in for long-running calculations

GPGPU - Areas

Graphics
Multimedia
Ultrasound Imaging
Molecular Dynamics
Seismic Imaging
Astrophysic
Data Mining
Finance
Physics
Chemistry
...

More Responsibility

GPU programming puts more responsibility on the programmer than "regular" programming
For example the programmer must decide and explicitly code:
- How to partition the computation into a grid, blocks, and threads
- Where (in what kind of memory) to put each piece of data for best performance

The end!

CPU + GPU = combination of flexibility and performance
GPUs can make your simulations go faster. So that you can not slack off....
Getting started with GPU programming is easy, being able to fully utilize GPU hardware is hard...
CPU optimizations does not apply to GPU
Memory movement is very expensive

Introduction to GPU programming

29.08.2013

Agenda

What are GPUs?

Where can GPUs be found?

Historical motivation - the video game industry

1981 - 3D Monster Maze

2013 - Tom Clancy’s The Division

GPGPU - General-purpose computing on GPUs

History of GPGPU computing

CPU vs. GPU

Floating-point performance

Memory bandwidth

Design

Transistors

Latency vs. Throughput

Data parallelism

Data parallelism - Image example

What is CUDA?

Get started - CUDA Toolkit

Get started

CUDA C Programming Guide

CUDA terminology

Heterogeneous programming

Kernels

Thread hierarchy

Thread hierarchy - Blocks

Thread hierarchy - Grids

Thread hierarchy - Scalability

How to launch a kernel?

How to determine unique thread IDs?

How are kernels executed?

NVIDIA's consumer graphics cards

How are kernels executed - Grid

How are kernels executed - Block

How are kernels executed - Thread

Synchronization

Memory hierarchy

Memory management

Memory management

CUDA C Programming Guide...

CUDA example - Vector addition

Typical program execution

The problem to solve

Vector addition on CPU

Allocate memory on CPU

Initialize vectors with some values

Allocate memory on GPU

Transfer data from CPU to GPU

Lunch kernel

Transfer results back from GPU to CPU

Show the result

Free CPU and GPU memory

The kernel

Visualized

Example: Vector addition on GPU

Execution time CPU vs. GPU - Assume we do 64 additions

Final comments

Performance guidelines

Why use GPUs?

NVIDIA - Tesla cards

GPGPU - Areas

More Responsibility

The end!

References