<style>
.reveal {
font-size: 24px;
}
</style>

# Περιγραφή και οδηγίες χρήσης της συστοιχίας HPC Αριστοτέλης του ΑΠΘ
---
## Ανατομία ενός HPC cluster (συστοιχίας)
- Αποτελείται από πολλούς υπολογιστές (εξυπηρετητές) που ονομάζονται nodes (κόμβοι)
- Τα nodes "συνδέονται" μεταξύ τους μέσω δικτύου υψηλού εύρους (high bandwidth) και χαμηλής απόκρισης (low latency)
- Οι εξυπηρετητές είναι είτε rack mountable (pizza boxes) είτε blade (για εξοικονόμιση χώρου)
| Nodes (κόμβοι) | Διασύνδεση κόμβων |
|:-----:|:-----:|
|  |  |
----
<!-- .slide: data-background="#FFFFFF" -->
## Είδη κόμβων (nodes) και τυπικό σενάριο χρήσης
- Login Nodes: Εκεί που οι χρήστες κάνουν login (π.χ. SSH)
- Compute Nodes: Εκεί που εκτελούνται οι υπολογιστικές εργασίες
- Storage Nodes: Κόμβοι στους οποίους αποθηκεύονται τα δεδομένα
- Service Nodes: Εκεί που τρέχουν οι βοηθητικές υπηρεσίες, π.χ. ο scheduler, η βάση των χρηστών κ.α. (συνήθως είναι εικονικές μηχανές)
- Visualization Nodes: Για οπτική επεξεργασία δεδομένων εισόδου ή εξόδου

----
<!-- .slide: data-background="#FFFFFF" -->
## Ανατομία ενός compute κόμβου
- Κάθε node (κόμβος) διαθέτει 1, 2 ή 4 sockets
- Σε κάθε socket "κάθεται" μία φυσική μονάδα επεξεργαστή που διαθέτει ν cores
- (Ιδανικά) σε cores γίνονται map 1-1 τα processes/tasks
- Σε κάθε core μπορεί να υποστηρίζεται threading
| Επεξεργαστής | Σχηματική αναπαράσταση |
|:-----:|:-----:|
|  |  |
<!--
## Ηigh Performance Computing (HPC)
- Με τον όρο HPC αναφερόμαστε σε υπολογιστικές υποδομές αιχμής που μπορούν να επιτελέσουν πολλές αριθμητικές πράξεις στη μονάδα του χρόνου με σκοπό:
- είτε να επιλυθούν υφιστάμενα προβλήματα πιο γρήγορα (π.χ. πρόγνωση καιρού)
- είτε να επιλυθούν μεγαλύτερα προβλήματα (π.χ. κλιματική αλλαγή)
- Το πλήθος των υπολογισμών στη μονάδα του χρόνου εξαρτάται *κυρίως* από την ταχύτητα του επεξεργαστή και το εύρος διαμεταγωγής δεδομένων από και προς τη μνήμη RAM
- Μετριέται σε FLOPs (Floating Point Operations per second) και *συνήθως* μας ενδιαφέρει το πλήθος πράξεων με **double precision** floating points
## Συστοιχίες HPC
- Φτιάχνοντας συστοιχίες υπολογιστών/εξυπηρετητών (servers) και διασυνδέοντάς τους πετυχαίνουμε υψηλότερες τιμές FLOPs
- Επιπέον τα τελευταία ~20 χρόνια έχει βρει έδαφος η χρήση Co-processors όπως GPUs (π.χ. CUDA, OpenACC κ.α.) ή/και FPGAs (programmable chips) για την επιτάχυνση των υπολογισμών (επίτευξη περισσότερων FLOPs)
- Επιπλέον, για να είναι αποδοτική η παραλληλία συνήθως απαιτείται η διασύνδεση των Η/Υ να γίνεται με δικτύωση χαμηλής απόκρισης (~μs) και υψηλού εύρους (>10Gpbs)
-->
---
<!-- .slide: data-background="#FFFFFF" -->
## Partitions (ουρές) στον Αριστοτέλη
| Partition Name | Number of nodes | # Sockets per node | # Cores per socket | Memory per node | CPU Type | GPU Type |
| --- | --- | --- | --- | --- | --- | --- |
| login nodes | 3 | 2 | 32 | 64GB | AMD Epyc Rome | - |
| `batch` | 20 | 2 | 10 | 128GB | Intel Broadwell | - |
| `gpu` | 2 | 2 | 10 | 128GB | Intel Broadwell | NVIDIA P100(x1) |
| `rome` | 17 | 2 | 64 | 256GB/1TB | AMD EPYC Rome | - |
| `ampere` | 1 | 2 | 64 | 1TB | AMD EPYC Rome | NVIDIA A100 (**x8**) |
| `ondemand` | 12 | 1 | 12 | 48GB | Intel Cascade Lake | NVIDIA RTX 6000 (vGPU)|
| ... | ... | ... | ... | ... |
:::info
:point_right: Πιο αναλυτική καταγραφή: https://hpc.it.auth.gr/nodes-summary/
:::
----
<!-- .slide: data-background="#FFFFFF" -->
#### Η συστοιχία Αριστοτέλης

:::success
:bulb: Η/Υ (server) ίδιων χαρακτηριστικών ομαδοποιούνται σε partitions (ή ουρές)
:::
----
<!-- .slide: data-background="#FFFFFF" -->
## Κατανομή RAM ανά partition και ανά κόμβο

----
<!-- .slide: data-background="#FFFFFF" -->
## Κατανομή GPU VRAM ανά partition και ανά κόμβο

---
## Πρόσβαση στον Αριστοτέλη
- Πρόσβαση δικαιούνται όλα τα μέλη του ΑΠΘ και επιστημονικοί συνεργάτες.
:::info
:information_source: Φόρμα αίτησης για λογαριασμό: https://eforms.auth.gr/it/scientific_account/
:::
----
:::success
Μέσω γραμμής εντολών (Windows Powershell, MacOS Terminal, Linux Terminal)
```
# ssh {{ username }}@aristotle.it.auth.gr
```
:::info
- :point_right: Οδηγίες πρόσβασης με ssh: https://hpc.it.auth.gr/intro/
- :information_source: Εισαγωγή στη γραμμή εντολών: https://hackmd.io/@pkoro/H1bqSpwXp
:::
:::success
Μέσω browser: https://hpc.auth.gr
:::info
:point_right: Οδηγίες πρόσβασης με browser: https://hpc.it.auth.gr/web-portal/
:::
---
## Διαθέσιμα λογισμικά
- μεταγλωτιστές (π.χ. `gcc`, `intel`)
- interpreters (π.χ. `python`, `mathematica`, `matlab`, `R`),
- βιβλιοθήκες παράλληλου προγραμματισμού (π.χ. `openmpi`, `julia`)
- υπολογιστικές βιβλιοθήκες (π.χ. `fftw`, `openblas`)
- διεπαφές χρηστών (π.χ. `Jyputer`, `RStudio`, `PyCharm`)
- πακέτα εφαρμογών (π.χ. `ANSYS`, `OpenFOAM`, `ANSA`).
:::info
:point_right: Ενημερωμένες λίστες: https://hpc.it.auth.gr/software/avail/
:::
----
## Περί modulefiles
- Καθώς ένα πακέτο λογισμικού μπορεί να είναι (και συνήθως είναι) εγκατεστημένο σε πολλαπλές εκδόσεις χρησιμοποιούνται modulefiles για τη διαχείριση λογισμικών. Δηλαδή π.χ. για να "φορτώσουμε" την εντολή `R` στο περιβάλλον χρήσης είναι απαραίτητο να έχουμε φορτώσει πρώτα το σχετικό modulefile.
:::success
- Παράδειγμα χρήσης `R` (έκδοση `4.4.0`)
```
[pkoro@aristotle4 ~]$ R --version
-bash: R: command not found
[pkoro@aristotle4 ~]$ module load gcc/13.2.0-iqpfkya r/4.4.0-7fr4ot4
[pkoro@aristotle4 ~]$ R --version
R version 4.4.0 (2024-04-24) -- "Puppy Cup"
Copyright (C) 2024 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu
R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under the terms of the
GNU General Public License versions 2 or 3.
For more information about these matters see
https://www.gnu.org/licenses/.
```
:::
----
### Δομή modulefiles
Η δομή των modulefiles είναι **ιεραρχική**, έτσι οι βιβλιοθήκες ή εφαρμογές που έχουν γίνει compile με ένα συγκεκριμένο compiler γίνονται διαθέσιμες μόνο εφόσον έχουμε φορτώσει στο περιβάλλον το δεδομένο compiler.
1. Στο πρώτο επίπεδο της ιεραρχίας βρίσκονται οι compilers.
1. Στο δεύτερο επίπεδο βρίσκονται οι περισσότερες εφαρμογές. Δηλαδή, θα πρέπει πρώτα να φορτώσουμε ένα compiler (π.χ. `gcc`).
1. Κάποιες εφαρμογές που είναι παράλληλες (αξιοποιούν τη χρήση μίας mpi βιβλιοθήκης) βρίσκονται σε τρίτο επίπεδο. Δηλαδή, θα πρέπει πρώτα να φορτώσουμε μία MPI βιβλιοθήκη (π.χ. `openmpi`)
----
### Χρήση `module spider`
Για να δούμε ποιά modulefiles θα χρειαστεί να φορτώσουμε προκειμένου να φορτώσουμε ένα λογισμικό μπορούμε να χρησιμοποιούμε την `module spider`:
```
$ module spider fftw/3.3.8
---------------------------------------------------------------------------------------------------------------
fftw: fftw/3.3.8
---------------------------------------------------------------------------------------------------------------
You will need to load all module(s) on any one of the lines below before the "fftw/3.3.8" module is available t
o load.
gcc/10.2.0 mvapich2/2.3.4
gcc/10.2.0 openmpi/3.1.6
gcc/10.2.0 openmpi/4.0.4
gcc/7.3.0 openmpi/3.1.3
gcc/7.3.0 openmpi/3.1.4
gcc/7.3.0 openmpi/3.1.6
gcc/8.2.0 mvapich2/2.3.4
gcc/8.2.0 openmpi/3.1.3
gcc/8.2.0 openmpi/3.1.6
gcc/9.2.0 mvapich2/2.3.1
gcc/9.2.0 mvapich2/2.3.2
gcc/9.2.0 mvapich2/2.3.3
gcc/9.2.0 mvapich2/2.3.4
gcc/9.2.0 openmpi/3.1.4
gcc/9.2.0 openmpi/3.1.6
gcc/9.2.0 openmpi/4.0.3
gcc/9.2.0 openmpi/4.0.4
gcc/9.2.0 openmpi/4.0.5
intel/19.0.5 intel-mpi/2019.8.254
intel/19.0.5 openmpi/3.1.6
intel/20.0.2 intel-mpi/2019.8.254
Help:
FFTW is a C subroutine library for computing the discrete Fourier
transform (DFT) in one or more dimensions, of arbitrary input size, and
of both real and complex data (as well as of even/odd data, i.e. the
discrete cosine/sine transforms or DCT/DST). We believe that FFTW, which
```
Βλέπουμε ότι η συγκερκιμένη βιβλιοθήκη (`fftw/3.3.8`) υπάρχει πολλές φορές εγκατεστημένη και για να την φέρουμε στο περιβάλλον χρήσης θα πρέπει να φορτώσουμε πρώτα ένα συνδυασμό του gcc και του openmpi, π.χ.:
```
# module load gcc/9.2.0 openmpi/3.1.4 fftw/3.3.8
```
---
## Scheduler (χρονοδρομολογητής)
- Προκειμένου οι χρήστες να μην χρησιμοποιούν ταυτόχρονα τους ίδιους πόρους "μπροστά" από τη συστοιχία βρίσκεται ένας χρονοδρομολογητής (scheduler) εργασιών που αποφασίζει ποιά εργασία, ποιού/-ας χρήστη θα τρέξει επόμενη και σε ποιό (ή ποιά) μηχανήματα.
- Ο χρήστης καθορίζει τις απαιτήσεις του εκάστοτε job με κατάλληλες μακροεντολές. Με βάση αυτές γίνεται το matchmaking χρηστών, εργασιών και διαθέσιμων πόρων. Στόχος του scheduler είναι να αξιοποιούνται πλήρως οι πόροι.
- Ο χρονοπρογραμματισμός (scheduling) γίνεται **ανά partition (ουρά)**.
:::info
:point_right: Αναλυτική τεκμηρίωση μακροεντολών: https://hpc.it.auth.gr/jobs/slurm/
:::
----
:::info
:bulb: Παράδειγμα σειριακής εργασίας στο `batch` partition
```bash
#!/bin/bash
#SBATCH --job-name=Serial_example
#SBATCH --partition=batch
#SBATCH --time=10:00:00 # (10 ώρες)
#SBATCH --ntasks=1 # Δέσμευση ενός CPU Core
module load ....
....
```
:::
----
:::info
:bulb: Παράδειγμα εργασίας που θέλουμε να εκτελεστεί παράλληλα (με MPI) σε 4 μηχανήματα του `batch` partition
```bash
#!/bin/bash
#SBATCH --job-name=MPI_example
#SBATCH --partition=batch
#SBATCH --time=10:00:00 # (10 ώρες)
#SBATCH --nodes=4 # 4 nodes required
#SBATCH --ntasks-per-node=20 # Δέσμευση όλων των CPU Cores ανά node
module load ....
srun ....
```
:::
----
:::info
:bulb: Παράδειγμα εργασίας που θέλουμε να αξιοποιήσει δύο GPUs στο `ampere` partition
```bash
#!/bin/bash
#SBATCH --job-name=GPU_example
#SBATCH --partition=ampere
#SBATCH --time=10:00 # (10 λεπτά)
#SBATCH --gres=gpu:2 # Δέσμευση δύο GPUs
module load ....
srun ....
```
:::
----
:::info
:bulb: Παράδειγμα εργασίας όπου χρειαζόμαστε συνολικά 400GB RAM
```bash
#!/bin/bash
#SBATCH --job-name=RAM_example
#SBATCH --partition=rome
#SBATCH --time=1-00:00:00 # (1 ημέρα)
#SBATCH --mem=400GB # Δέσμευση 400GB RAM
#SBATCH --ntasks=16 # Δέσμευση 16 CPU Cores
#SBATCH --nodes=1 # Το job να "τρέξει" σε 1 node
module load ....
srun ....
```
:::
----
## Job composer
- Για απλές εργασίες μπορούμε να χρησιμοποιήσουμε υφιστάμενα templates εργασιών:
- https://hpc.auth.gr/pun/sys/myjobs
---
## Έλεγχος κατάστασης ενός partition
Πριν υποβάλλουμε μία εργασία μπορούμε για να δούμε την καταληψιμότητα ενός partition να χρησιμοποιήσουμε την εντολή `sinfo`, ως εξής:
```
$ sinfo -p gpu
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
gpu up 1-00:00:00 1 alloc cn21
gpu up 1-00:00:00 1 idle cn22
```
---
## Υποβολή εργασιών
- Εφόσον έχουμε ετοιμάσει ένα script (έστω `run.sh`) η υποβολή γίνεται με την εντολή `sbatch`, π.χ.
```
# sbatch run.sh
```
:::success
:bulb: Στην έξοδό της η `sbatch` επιστρέφει ένα ID (auto increment integer) που είναι μοναδικό για κάθε εργασία (job) που υποβάλλουμε με `sbatch`.
:::
----
## Επισκόπηση ουράς
:::info
- Για να δούμε τις εργασίες μίας ουράς (ενός partition) χρησιμοποιούμε την `squeue`, ως εξής:
```
# squeue -p rome
```
- Για να δούμε μόνο τις δικές μας εργασίες ως εξής:
```
# squeue -u {{ username }}
```
:::
----
## Προτεραιότητα εργασιών
:::info
- Μπορούμε να δούμε την προτεραιότητα μίας ουράς (partition) με την εξής εντολή:
```
# sprio -p rome
```
:::success
- Βασικοί παράγοντες προτεραιότητας:
- Χρόνος αναμονής
- Μέγεθος εργασίας
- Fairshare (δίκαιη κατανομή πόρων)
:::
----
:::info
:timer_clock: Εκτίμηση χρόνου εκκίνησης εργασίας
Μπορούμε να έχουμε μιά εκτίμηση του πότε θα ξεκινήσει να εκτελείται μία εργασία χρησιμοποιώντας την παράμετρο `--test-only` στην sbatch, ως εξής:
$ sbatch --test-only run.sh
sbatch: Job 1708173 to start at 2046-10-11T11:13:44 using 8 processors on nodes cn42 in partition rome
Με την παράμετρο `--test-only` το job **δεν** θα υποβληθεί. Για να μπει στην ουρά το job θα πρέπει να ξανατρέξουμε την εντολή χωρίς την παράμετρο `--test-only`.
:::
----
## Έλεγχος και διαχείριση τρέχουσας εργασίας
- Όσο εκτελείται μία εργασία μπορούμε να παρακολουθούμε την έξοδό της από το login node
```
# tail -f slurm-{{ ID }}.out
```
- Αν θέλουμε να σταματήσουμε την εκτέλεση μίας εργασίας την κάνουμε cancel με την εντολή `scancel`
```
# scancel {{ ID }}
```
---
## Έλεγχος απόδοσης μιάς ολοκληρωμένης εργασίας
Για να δούμε μία εργασία που έχει ολοκληρωθεί πόσους πόρους αξιοποίησε πραγματικά (σε σχέση με όσους δεσμεύτηκαν) και αν τελικά ήταν αποδοτική μπορούμε να χρησιμοποιήσουμε την εντολή `seff`, π.χ. ως εξής:
```
# seff {{ ID }}
```
---
## Έλεγχος accounting records
- Για να δούμε τι εργασίες έχουμε τρέξει σε ένα βάθος χρόνου μπορούμε να χρησιμοποιήσουμε την εντολή `sacct`, π.χ. ως εξής:
```
# sacct -S now-5days # Εργασίες που έτρεξαν τις τελευταίες 5 ημέρες
```
---
## Στατιστικά χρήσης
### Αξιοποίηση CPU πόρων

----
### Μέγεθος εργασιών
#### `rome`
<!--
$ sreport job SizesByAccount -t hourper Start=01/01
partitions=rome grouping=33,65,129,513
-->
```
--------------------------------------------------------------------------------
Job Sizes 2024-01-01T00:00:00 - 2024-12-07T23:59:59 (29548800 secs)
Time reported in Hours/Percentage of Total
--------------------------------------------------------------------------------
Cluster Account 0-32 CPUs 33-64 CPUs 65-128 CPUs 129-512 CPUs >= 513 CPUs % of cluster
--------- --------- -------------------- -------------------- -------------------- -------------------- -------------------- ------------
aristotle root 1309966(13.33%) 1259719(12.82%) 4928752(50.15%) 986900(10.04%) 1342961(13.66%) 100.00%
```
#### `batch`
```
--------------------------------------------------------------------------------
Job Sizes 2024-01-01T00:00:00 - 2024-12-07T23:59:59 (29548800 secs)
Time reported in Hours/Percentage of Total
--------------------------------------------------------------------------------
Cluster Account 0-10 CPUs 11-20 CPUs 21-40 CPUs >= 41 CPUs % of cluster
--------- --------- -------------------- -------------------- -------------------- -------------------- ------------
aristotle root 307272(16.73%) 1229468(66.92%) 208530(11.35%) 91814(5.00%) 100.00%
```
----
## Στατιστικά χρήσης
### Modulefiles usage

----
## Στατιστικά χρήσης
### Πλήθος χρηστών

---
## Υποστήριξη χρηστών
- Email support: hpc-support@auth.gr
----
### Κανάλια επικοινωνίας
- Mailing list: hpc-users@lists.auth.gr
- AUTH HPC Slack: https://join.slack.com/t/auth-hpc/signup
- Message of the day: `/etc/motd`