meta data stránky
  •  
Překlady této stránky:

Toto je starší verze dokumentu!


Cluster KRAKEN

KRAKEN - Hardware

Cluster KRAKEN je složen z administrativního uzlu (přístup, ovládání front, příprava úloh, …)

Platí zákaz obsazování administrativního uzlu výpočetními úlohami!

Procesor:AMD EPYC 7302P 16-Core Processor 16 jader, 3.0GHz, hyperthreading, 128MB cache
Paměť:320GBDDR4 3200 ECC
Disky:2x 960GB NVMe M.2 SSD
Vzdálená správa:IPMI KVM-o-E

a dvou výpočetních částí (všem uživatelům je přístupná jen část „M“):

M - jako MultiCore

Část M obsahuje celkem 10 výpočetních uzlů (celkem 576 jader, 2.82TB RAM) postavených na třech architekturách procesorů, pro které jsou v modulech prostředí dostupné i optimalizované softwarové balíky:

1. Intel - broadwell, 6 uzlů (kraken-m1, …, kraken-m6):

Základní deska:SUPERMICRO X10DRW-ET 2x Intel Xeon processor E5-2600 v4, max. 2TB RAM, 2x 10 Gbit Ethernet, Remote management
Procesory:2x Intel(R) Xeon(R) CPU E5-2683 v4 @ 2.10-3.0GHz 16 jader, hyperthreading, 48MB cache
Paměť:256GB na 1 nod DDR4 2400MHz ECC reg.
Disky:4x 6TB SATA, 2x1TB SSD TOSHIBA MG04ACA6, Micron_5100_MTFD
Vzdálená správa:IPMI IPMI 2.0 with virtual media over LAN and KVM-over-LAN support

2. AMD - zen 2, 3 uzly (kraken-m7,…,kraken-m9), v provozu od 10/2021:

Procesory:2x 2nd Gen AMD EPYC(TM) 7552 48 jader, 2.2-3.3GHz, 192MB cache (96 jader na 1 nod)
Paměť:2 uzly 256GB, 1 uzel 512GB (kraken-m8) DDR4 3200MHz ECC
Disky:960GB na 1 nod NVMe M.2 SSD
Vzdálená správa:IPMI KVM-o-E

3. AMD - zen 4, 1 uzel (kraken-m10), v provozu od 11/2023:

Procesory:1x 4nd Gen AMD EPYC(TM) 9654P 96 jader, 2.4-3.7GHz, 384MB cache
Paměť:256GB DDR5 4800MHz ECC
Disky:960GB NVMe M.2 SSD
Vzdálená správa:IPMI KVM-o-E

L - jako LowCore (dostupná jen vybraným uživatelům)

Část L obsahuje 4 uzly (kraken-l1,…,kraken-l4):

Základní deska:SUPERMICRO X10DRW-ET 2x Intel Xeon processor E5-2600 v4, max. 2TB RAM, 2x 10 Gbit Ethernet, Remote management
Procesory:2x Intel(R) Xeon(R) CPU E5-2637 v4 @ 3.50GHz 4 jádra, hyperthreading, 16MB cache
Paměť:256GB na 1 nod DDR4 2400 ECC reg.
Disky:4x 6TB SATA, 2x1TB SSD TOSHIBA MG04ACA6, Micron_5100_MTFD
Vzdálená správa:IPMI IPMI 2.0 with virtual media over LAN and KVM-over-LAN support
Teplota v serverovně

Temperature TR1 Omezení výkonu clusteru dle teploty v serverovně:

  1. 32˚C - 34˚C omezovat spouštění dalších úloh ve frontách (režim DRAIN)
  2. 34˚C - 36˚C vypínat stroje (režim DOWN)

Omezování (DRAIN) provádět nejprve na strojích, na kterých mají úlohy brzy doběhnout.

Vypínat (DOWN) nejprve stroje na nichž běží úlohy s nižším poměrem „doba běhu/deklarovaná doba běhu“

V delších obdobích problémů s vysokými teplotami ponechat části clusteru odstavené v pořadí

  1. nody m1-m6
  2. nody l1-l4
  3. nody m7-m9