e-mail: [email protected] man.poznan.pl

66
1 e-mail: [email protected] http://www.man.poznan.pl/

description

e-mail: [email protected] http://www.man.poznan.pl/. POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER. Plan wykładow / Laboratoria. IO. POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER. Plan wykładow / Laboratoria. IO. POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER. Wprowadzenie. - PowerPoint PPT Presentation

Transcript of e-mail: [email protected] man.poznan.pl

Page 1: e-mail: meyer@man.poznan.pl             man.poznan.pl

1e-mail: [email protected] http://www.man.poznan.pl/

Page 2: e-mail: meyer@man.poznan.pl             man.poznan.pl

2

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Plan wykładow / LaboratoriaPlan wykładow / Laboratoria

•IOIO

Page 3: e-mail: meyer@man.poznan.pl             man.poznan.pl

3

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Plan wykładow / LaboratoriaPlan wykładow / Laboratoria

•IOIO

Page 4: e-mail: meyer@man.poznan.pl             man.poznan.pl

4

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

WprowadzenieWprowadzenie

• Środowisko: homogeniczne, heterogeniczneŚrodowisko: homogeniczne, heterogeniczne

• ZasobyZasoby

• Klastry, metakomputer, GRIDKlastry, metakomputer, GRID

• Systemy kolejkoweSystemy kolejkowe

• Globus, LegionGlobus, Legion

Page 5: e-mail: meyer@man.poznan.pl             man.poznan.pl

5

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Homogeniczne i heterogeniczne środowiskaHomogeniczne i heterogeniczne środowiska

• Środowisko homogeniczne:Środowisko homogeniczne:• jednorodnejednorodne

• elementy składowe charakteryzują się tymi samymi elementy składowe charakteryzują się tymi samymi

wartościami, cechamiwartościami, cechami

• skalowalneskalowalne

• Środowisko heterogeniczne:Środowisko heterogeniczne:• różnorodność elementów składowychróżnorodność elementów składowych

• zróżnicowany zbiór parametrów, cechzróżnicowany zbiór parametrów, cech

• skalowalneskalowalne

• trudne w zarządzaniutrudne w zarządzaniu

• Różne systemy

operacyjne

• Różne architektury

• Różni producenci

Page 6: e-mail: meyer@man.poznan.pl             man.poznan.pl

6

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Zasoby Zasoby

• procesor (cpu, rodzaj)procesor (cpu, rodzaj)• częstotliwość (zróżnicowane płyty CPU),częstotliwość (zróżnicowane płyty CPU),

• typ, np. skalarny, wektorowy , graficznytyp, np. skalarny, wektorowy , graficzny

• RAM (typ, wielkość)RAM (typ, wielkość)

• we/wywe/wy• interfejsy sieciowe,interfejsy sieciowe,

• dyski,dyski,

• ‘ ‘graphics engines’graphics engines’

• pamięć masowapamięć masowa

• pojedyncze systemy (węzły w sieci)pojedyncze systemy (węzły w sieci)• specjalizowane systemy (obliczeniowe, graficzne, archiwizacji, etc.)specjalizowane systemy (obliczeniowe, graficzne, archiwizacji, etc.)

Page 7: e-mail: meyer@man.poznan.pl             man.poznan.pl

7

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Poziomy zarządzania zasobami Poziomy zarządzania zasobami

GRID

Poziom systemu operacyjnego

Specjalizowane moduły zarządzania zasobami (moduły powyżej systemu operacyjnego

Zarządzanie w środowisku

homogenicznym

‹ ‹

Page 8: e-mail: meyer@man.poznan.pl             man.poznan.pl

8

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Zapotrzebowanie na zasoby 1/2 Zapotrzebowanie na zasoby 1/2

ComputeCompute

VisualizeVisualizeDataData

BIG Compute Problems•Computing•Visualization •Data Handling

BIG Visualization Problems•Computing•Visualization •Data Handling

BIG Data Problems•Computing•Visualization •Data Handling

Page 9: e-mail: meyer@man.poznan.pl             man.poznan.pl

9

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Zapotrzebowanie na zasoby 2/2 Zapotrzebowanie na zasoby 2/2

I/O

Web serving

Weather simulation CPU

Storage

Repository / archive

Signal processing

Media streaming

Traditional big supercomputer

Scale in Any and All Dimensions

Page 10: e-mail: meyer@man.poznan.pl             man.poznan.pl

10

C-brickCPU Module

D-brickDisk Storage

R-brickRouter Interconnect

X-brickXIO Expansion

P-brickPCI Expansion

I-brickBase I/O Module

G-brickGraphics Expansion

Stopień złożonościStopień złożoności

Page 11: e-mail: meyer@man.poznan.pl             man.poznan.pl

11

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Elementy zarządzania

ZŁOŻONOŚĆZŁOŻONOŚĆ

• Partycjonowanie

• strojenie na poziomie systemu operacyjnego

• systemy wielozadaniowe

• systemy kolejkowe

• jeden lub wielu użytkowników

Page 12: e-mail: meyer@man.poznan.pl             man.poznan.pl

12

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Klastry homogeniczne

• GigaRing, SuperCluster GigaRing, SuperCluster

• PowerChallengeArrayPowerChallengeArray

• Zarządzanie dużymi ilościami danychZarządzanie dużymi ilościami danych

• Systemy archiwizacjiSystemy archiwizacji

Page 13: e-mail: meyer@man.poznan.pl             man.poznan.pl

GigaRing ChannelGigaRing Channel• The GigaRing channel architecture is a modification of Scalable

Coherent Interface (SCI) specification and is designed to be the common channel that carries information between Input/Output Nodes (ION)

• This channel consists of a pair of 500 MB/s. channels configured as counter-rotating rings

• The two rings form a single logical channel with a maximum bandwidth of 1.0 GB/s. Protocol overhead lowers the channel rate to 920 MB/s.

• A client connects to the GigaRing channel through the ION via a 64-bit full-duplex interface

• Detection of lost packets and cyclic redundancy checksums

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Page 14: e-mail: meyer@man.poznan.pl             man.poznan.pl

GigaRing ChannelGigaRing ChannelThe counter rotating rings provide two forms of system resiliency:

• Ring folding

• Ring masking

GigaRing Node Interface

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Client-specificChip

GigaRing NodeChip

64 - bit Client Port

GigaRing Node

Positive In Link Positive Out Link

Negative In LinkNegative Out Link

Page 15: e-mail: meyer@man.poznan.pl             man.poznan.pl

Ring Folding• The GigaRing channel can be software configured to map out one or

more IONs from the system. Ring folding converts the counter-rotating rings to form a single ring

• The maximum channel bandwith for a folded ring is approximately 500 MB/s

GigaRing ChannelGigaRing Channel

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

ION

ION

ION

IONION

ION GiGaRingChannel

Page 16: e-mail: meyer@man.poznan.pl             man.poznan.pl

Ring Masking• Ring masking removes one of the counter-rotating rings from the

system, which results in one fully connected, uniderectional ring

• The maximum channel bandwidth = 500 MB/s

GigaRing ChannelGigaRing Channel

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

IONION

ION

ION

GigaRingGigaRingChannelChannel

Page 17: e-mail: meyer@man.poznan.pl             man.poznan.pl

Input/Output Nodes (ION)• All devices that connect directly to the GigaRing channel are

considered to be IONs

• There are three types of IONs :

Single-purpose Node (SPN)

Multipurpose node (MPN)

Mainframe node • Available mainframe nodes :

GigaRing ChannelGigaRing Channel

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Cray T3ECray T3ECray J90seCray J90se

Cray T90Cray T90

Page 18: e-mail: meyer@man.poznan.pl             man.poznan.pl

GigaRing ChannelGigaRing Channel

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

GigaRing Channel

Cray T3E

Cray T3E

Cray T90

Cray J90se

HPN-2 (HIPPI)

HIPPI Network

Disk Array

Cray J90se

Cray J90

Page 19: e-mail: meyer@man.poznan.pl             man.poznan.pl

Massively Parallel Processing (MPP)Massively Parallel Processing (MPP)• Massively parallel approaches achieve high processing rates by

assembling large numbers of relatively slow processors

• Traditional approaches focus on improving the speed of individual processors and assembly only a few of these powerfull processors for a complete machine

• Improving network speed and communication overheads

• Examples :

– Thinking Machines (CM-2, CM-5)

– Intel Paragon

– Kendall Square (KS-1)

– SGI Origin 2000

– Cray T3D, T3E

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Page 20: e-mail: meyer@man.poznan.pl             man.poznan.pl

Some commonly used network topologies

MPP’s network topologies MPP’s network topologies

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Ring

2

2-DimensionalMesh

44

3-DimensionalMesh

66

N=3

Hypercube2N Nodes

2N

Nodes

TopologyTopology ConnectivityConnectivity

Page 21: e-mail: meyer@man.poznan.pl             man.poznan.pl

Cray T3E, T3DCray T3E, T3D• The Cray MPP system contains four types of components: processing

element nodes, the interconnect network, I/O gateways and a clock

• Network topology: 3D Mesh

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

-Y

+Y

+X

-X +Z

-Z

Node B

Node A

Cray T3D Cray T3D System ComponentsSystem Components

InterconnectNetwork

Processing ElementNode

I/O Gateway

Page 22: e-mail: meyer@man.poznan.pl             man.poznan.pl

Processing Element Nodes (PE)• Each PE contains a microprocessor, local memory and support circuitry

• 64-bit DEC Alpha RISC processor

• Very high scalability (8 ... 2048 CPUs)

Cray T3ECray T3E

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Memory

CPU Switch

Links

Node B

Node A

Page 23: e-mail: meyer@man.poznan.pl             man.poznan.pl

Interconnect Network

• The interconnect network provides communication paths between PEs

• There is formed a three dimensional matrix of paths that connect the nodes in X, Y and Z dimensions

• A communication linkcommunication link transfers data and control information between two network routers, connects two nodes in one dimension.

A communication link is actually two unidirectional channels. Each channel in the link contains data, control and acknowledge signals.

• Dimension order routing (predefined methods of information traveling)

• Fault tolerance

Cray T3ECray T3E

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Page 24: e-mail: meyer@man.poznan.pl             man.poznan.pl

Distributed operating system (Unicos/microkernel) • Unicos/mk does not require a common memory architecture. Unlike

Unicos, the functions of Unicos/mk are devided between a microkernel and numerous servers. For this reason, Unicos/mk is referred to as a serverized operating system.

• Serverized operating systems offer a distinct advantage for the Cray T3E system because of its distributed memory architecture. Within these systems, the local memory of each PE is not required to hold the entire set of OS code

• The operating system can be distributed across the PEs in the whole system • Under Unicos/mk, traditional UNICOS processes are implemented as

actors. Actors represents a resource allocation entity. The microkernel views all user processes, servers and daemons as actors

• A multiple PE application has one actor per PE. User and daemon actors reside in user address space; server actors reside in supervisory (kernel address) space.

Cray T3ECray T3EPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Page 25: e-mail: meyer@man.poznan.pl             man.poznan.pl

Distributed operating system (Unicos/mk) In the CRAY T3E systems, the local memory of each PE must contain a

copy of the microkernel and one or more servers. Under Unicos/mk each PE is configured as one of the following types of PEs:

• Support PEs

The local memory of support PEs contains a copy of the microkernel and servers. The exact number and type of servers vary depending on configuration tuning.

• User PEs

The local memory of user PEs contains a copy of the microkernel and a minimum number of servers. Because it contains a limited amount of operating system code, most of a user PE’s local memory is available to the user. User PEs include command and application PEs

• Redundant PE

A redundant PE is not configured into the system until an active PE fails.

Cray T3ECray T3EPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Page 26: e-mail: meyer@man.poznan.pl             man.poznan.pl

SuperCluster EnvironmentSuperCluster EnvironmentPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Parallel Vector Supercomputers J90

Cray T3E Cray T90

HIPPI Switch

HIPPI Disk Array

PVM

NQE

NFS

DFS

DCE

EthernetFDDI

ATM

HeterogenousWorkstation

Servers

HIPPI

Page 27: e-mail: meyer@man.poznan.pl             man.poznan.pl

• Job distribution and load balancing

Cray NQX (NQE for Unicos)

• Open systems remote file access:

NFS

• Standard, secured distributed file system:

DCE DFS Server

• Client/server based distributed computing:

DCE Client Services

• Cray Message Passing Toolkit (MPT):

PVM, MPI

• High performance, resilient file sharing: opt.

Shared File System (SFS)

• Client/server hierarchical storage management: opt.

Data Migration Facility (DMF)

SuperCluster Software ComponentsSuperCluster Software ComponentsPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Page 28: e-mail: meyer@man.poznan.pl             man.poznan.pl

Network Queuing Environment (NQE)• NQE consists of four components :

Network Queuing System (NQS), Network Load Balancer (NLB)

File Transfer Agent (FTA), Network Qeuing Environment clients

• NQE is a batch queuing system that automatically load balances jobs across heterogenous systems on a network. It runs each job submitted to the network as efficiently as possible on the ressources available.

• This provides faster turnaround for users and automatic load balancing to ensure that all systems on the network are used effectively.

SuperCluster Software ComponentsSuperCluster Software ComponentsPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

NQS

NLB server

FTA Collector

NQS FTA

Collector

NQE Clients NQE master server NQE execution servers

Page 29: e-mail: meyer@man.poznan.pl             man.poznan.pl

RequirementsRequirements

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Requirement for Interprocesscommunications : GB/s

Ethernet 10Mb/s

(1,25 MB/s.)

FDDI 100 Mb/s(12,5 MB/s)

ATM 155 Mb/s(19,4 MB/s)

ATM 622 Mb/s(77,8 MB/s)

HIPPI 800 Mb/s(100 MB/s)

HIPPI 1600 Mb/s(200 MB/s)

GigaRing channel1 GB/s

Page 30: e-mail: meyer@man.poznan.pl             man.poznan.pl

• Consists of up to eight Power Challenge or Power Onyx (POWERnode) supercomputing systems connected by a high performance HIPPI interconnect

• Two level communication hierarchy, whereas CPUs within a POWERnode communicate via a fast shared bus interconnect and CPUs across POWERnode communicate via HIPPI interconnect

POWER CHALLENGEarrayPOWER CHALLENGEarray

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

M

P PP

M

P PP

M

P PP

M

P PP

HiPPIswitch

Page 31: e-mail: meyer@man.poznan.pl             man.poznan.pl

Parallel programming models supported:

• Shared memory with n processes inside a POWERnode

• Message passing with n processes inside a POWERnode

• Hybrid model with n processes inside a POWERnode, using a combination of shared memory and message passing

• Message passing with n processes over p POWERnodes

• Hybrid model with n processes over p POWERnodes, using a combination of shared memory within a POWERnode system and message passing between POWERnodes

POWER CHALLENGEarrayPOWER CHALLENGEarray

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Page 32: e-mail: meyer@man.poznan.pl             man.poznan.pl

Shared Memory

MPI Task

MPI Task

Communicationvia sockets

MPI Task

MPI Task MPI Task

MPI Task

Shared Memory

Multiparallel Memory Sharing

Message Passing MPI Model

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Page 33: e-mail: meyer@man.poznan.pl             man.poznan.pl

Software:• Native POWERnode tools

IRIX 6.x, XFS, NFS, MIPSpro compilers, scientific and math libraries,

development environment

• Array services

Allows to manage and administer the array as a single system

• Distributed program development tools

HPF, MPI and PVM libraries, tools for distributed program visualization and debugging (Upshot, XPVM)

• Distributed batch processing tools

LSF, CODINE

• Distributed system management tools

IRIXPro, Performance Co-Pilot (PCP)

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

POWER CHALLENGEarrayPOWER CHALLENGEarray

Page 34: e-mail: meyer@man.poznan.pl             man.poznan.pl

An array session is a set of processes, possibly running across several POWERnodes, that are related to another by a single, unique identifier called the Array Session Handle (ASH). A local ASH is assigned by the kernel and is guaranteed to be unique within a single POWERnode, whereas a global ASH is assigned by the array services daemon

and is unique across the entire POWER CHALLENGEarray.

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

POWERnode4

arrayservicesdaemon

POWERnode3

arrayservicesdaemon

POWERnode1

arrayservicesdaemon

POWERnode2

arrayservicesdaemon

ARRAY 1

ArraySession

Process 2

Process 1

Process 3

Page 35: e-mail: meyer@man.poznan.pl             man.poznan.pl

35

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Zarządzanie dużymi ilościami danych Zarządzanie dużymi ilościami danych

Główne problemy:

• duże ilości danych

• czas odpowiedzi

• przepustowość istniejących sieci

• opóźnienia

• odnalezienie źródła danych

• kompatybilność formatów

• spójność danych

Page 36: e-mail: meyer@man.poznan.pl             man.poznan.pl

36

Konfiguracja Archiwizatora• Pojemność 5,2 TB bez kompresji• Serwer Sun Enterprise 450

– 2 proc., 512 MB RAM, 100 GB dysków– interfejsy - ATM, FDDI, Ethernet 10/100– oprogramowanie UniTree

• Robot ATL - 198 taśm (10/20 i 35/70 GB)• Roboty dysków magneto-optycznych HP

– 660ex - 128 płytek po 5,2 GB– 165st - 128 płytek po 1,3 GB

Page 37: e-mail: meyer@man.poznan.pl             man.poznan.pl

37

Hierarchiczny system pamięci masowej

• Poziom 1 - pamięć dyskowa (cache)– szybki dostęp, drogi nośnik

• Poziom 2 - dyski magneto-optyczne– dostęp w kilkanaście sekund, tańszy nośnik

• Poziom 3 - taśmy– dostęp do kilku minut, najtańszy nośnik

(taśma CompactTape IV 35/70 GB - 100USD)

Cen

a nośn

ika

Czas d

ostępu

Page 38: e-mail: meyer@man.poznan.pl             man.poznan.pl

38

Zarządzanie UniTree• Dostęp (ftp, nfs)• Widoczny normalny system plików• Cache

– „dolny i górny wysoki znacznik poziomu wody”– wirtualny cache - aktualnie ponad 80 GB

• Polityka migracji (wielkość, wiek)• Repakowanie (defragmentacja) nośników (zapis

sekwencyjny także na płytkach M-O)• Backup baz systemu archiwizacji na taśmy

Page 39: e-mail: meyer@man.poznan.pl             man.poznan.pl

39

Ustalenie polityki migracji

• Analiza rozkładu danych, ilości plików o ustalonej wielkości

• Równomierne obciążenie dostępnych mediów wszystkich poziomów (nie licząc pamięci dyskowej)

• Pliki zapisywane są na poszczególne media w zależności od wielkości

• Zdefiniowanie polityki równoległego zapisu dalszych kopii; ważne, aby kopia znajdowała się w innej bibliotece

• Analiza dynamiki przyrostu ilości i wielkości plików

• Definiowanie czasu po jakim nieużywane pliki przenoszone są na tańsze media

Page 40: e-mail: meyer@man.poznan.pl             man.poznan.pl

40

Problemy i ograniczenia

• Przepustowość - liczba napędów (robotów)

• Występowanie kolejki taśm

• „nieograniczony rozmiar pliku” – praktycznie zależy od wielkości cache

• duże zasoby dyskowe PCSS

• okna czasowe dla backupów

• równoległy dostęp użytkowników

Page 41: e-mail: meyer@man.poznan.pl             man.poznan.pl

41

Zarządzanie rozproszonymi systemami archiwizacji

• Wszystkie systemy widoczne jako jeden wielki system pamięci masowej

• Wybór najszybciej dostępnego systemu – analiza obciążenia i przepustowości sieci

• Replika wybranych danych pomiędzy systemami – problem spójności danych

• Polityka rozliczania użytkowników z rozproszonymi danymi

Page 42: e-mail: meyer@man.poznan.pl             man.poznan.pl

42

Rozproszony system pamięci masowej

DistributedDistributedStorageStorage

Data backupData backupData recoveryData recovery

- Even data distribution - Even data distribution

- Geographical - Geographical mirrormirror

- Fast backup- Fast backup

- Fast recovery- Fast recovery

mirror

Page 43: e-mail: meyer@man.poznan.pl             man.poznan.pl

43

•Łatwy, zdalny dostęp do archiwizatora przez WWW

•Automatyczny i okresowy backup systemów

•Bezpieczna transmisja

•Zwiększona odporność na błędy

•Kontrola stanu systemu archiwizacji

•Dedykowany serwer i klient ftp

•Zdefiniowane okno czasowe

System Automatycznej Archiwizacji - główne cele

Page 44: e-mail: meyer@man.poznan.pl             man.poznan.pl

44

System Automatycznej Archiwizacji - działanie

single or periodic backups

Data baseData baseData baseData baseDistributedDistributed

ArchiveArchive

ManagerManagerServerServer

ManagerManagerServerServer

WWWbrowser

Secure transmission

e-mail

single or periodic backups

Data baseData baseData baseData baseDistributedDistributed

StorageStorage

ManagerManagerServerServer

ManagerManagerServerServer

WWW

Page 45: e-mail: meyer@man.poznan.pl             man.poznan.pl

45

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Środowisko heterogeniczne - przykłady

Page 46: e-mail: meyer@man.poznan.pl             man.poznan.pl

46

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Metacomputer at PSNC

Page 47: e-mail: meyer@man.poznan.pl             man.poznan.pl

47

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

National Computing Grid

GDAŃSK

ŁÓDŹ

KRAKÓW

POZNAŃ

WROCŁAW

Page 48: e-mail: meyer@man.poznan.pl             man.poznan.pl

48

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

National Computing Grid - PLATFORMS

GDAŃSK

POZNAŃ

ŁÓDŹ

WROCŁAW

SILESIA

KRAKÓW

• Cray systems

• SGI systems (Origin2000,

Onyx2, Pchallenge)

• other platforms (i.e. SUN)

Page 49: e-mail: meyer@man.poznan.pl             man.poznan.pl

49

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Systemy kolejkowe

Jest to system zarządzania zadaniami umożliwiający: Jest to system zarządzania zadaniami umożliwiający: • wykonanie większej ilości zadań w mniejszym czasie poprzez wykonanie większej ilości zadań w mniejszym czasie poprzez dopasowanie ich wymagań obliczeniowych do dostępnych dopasowanie ich wymagań obliczeniowych do dostępnych zasobów - lepsze wykorzystanie mocy obliczeniowejzasobów - lepsze wykorzystanie mocy obliczeniowej• łatwe zarządzanie równym obciążeniem procesorówłatwe zarządzanie równym obciążeniem procesorów• sprawiedliwy przydział zasobów procesom użytkownikówsprawiedliwy przydział zasobów procesom użytkowników• restartowanie zadań zatrzymanych w przypadku awarii sprzętu restartowanie zadań zatrzymanych w przypadku awarii sprzętu lub czynności administracyjnychlub czynności administracyjnych• warunkowe wykonywanie ciągów programówwarunkowe wykonywanie ciągów programów

Systemy zarządzania zadaniami w trybie wsadowym.Systemy zarządzania zadaniami w trybie wsadowym.

Page 50: e-mail: meyer@man.poznan.pl             man.poznan.pl

50

Struktura systemu kolejkowego

– Maszyna Przetwarzająca (ang. Executing Machines)

– Maszyna Zlecająca (ang. Submitting Machines)

– Maszyna Szeregująca (ang. Scheduling Machines)

– Centralnego Zarządca (ang. Central Manager)

Wszystkie w/w funkcje mogą być realizowane na jednej

maszynie

Page 51: e-mail: meyer@man.poznan.pl             man.poznan.pl

51

Przepływ zadania

Centralny ZarządcaCentralny Zarządca

informacjeo maszynie

Maszyna Przetwarzająca

Maszyna Przetwarzająca

Maszyna Szeregująca

Maszyna Szeregująca

dołączenie zadania informacjeo zadaniu

status zadania

Maszyna Zlecająca

Maszyna Zlecająca

Page 52: e-mail: meyer@man.poznan.pl             man.poznan.pl

52

Rozwój systemów kolejkowych

LL

LSF

NQE

Page 53: e-mail: meyer@man.poznan.pl             man.poznan.pl

53

Kolejki typu pipe• Kolejki „organizacyjne”

• Przekazują zadania do kolejek typu batch, w zależności od parametrów zadania i aktualnego stanu kolejek

day

night

day_small

day_medium

day_large

night_small

night_large

Kolejkitypupipe

Kolejkitypubatch

Page 54: e-mail: meyer@man.poznan.pl             man.poznan.pl

54

Kolejki typu batch• Kolejki obliczeniowe

• Każda kolejka ma określony priorytet i limit zasobów, które zadanie może wykorzystywać

• Definiowana jest maksymalna liczba uruchomionych zadań w kolejce. Pozostałe zadania oczekują i uruchamiane są w razie możliwości.

Page 55: e-mail: meyer@man.poznan.pl             man.poznan.pl

55

Kolejki typu interaktywnego• Kolejki zadań interaktywnych (np. vi, ABAQUS, Matlab)

- zadania nie wymagają wiele czasu CPU

• Ubieganie się o zasoby w systemie wsadowo-interakcyjnym - sterowanie parametrami kolejek wsadowych w celu uniknięcia rezerwacji wszystkich dostępnych zasobów

• Najważniejsza jest minimalizacja liczby dostępów do pamięci wirtualnej, im jest ona większa, tym czas odpowiedzi systemu mniejszy

• Niektóre systemy kolejkowe dostarczają narzędzia uruchamiającego zadania ‘w klastrze’ bez konieczności specyfikowania nazwy serwera

Page 56: e-mail: meyer@man.poznan.pl             man.poznan.pl

56

Równoważenie obciążenia• Statyczny przydział zasobów do zadania na podstawie

wiedzy o bieżącym obciążeniu wszystkich systemów

• Usypianie i budzenie zadań w związku z ich priorytetami

• Usypianie zadań w kolejce aktywnej np. tylko w nocy

• Dynamiczna migracja zadań pomiędzy mocno - słabo obciążonymi serwerami

• Migracja zadań na serwery o bardziej odpowiednich zasobach

• Wada migracji - niekompatybilność obrazów pamięci procesów pomiędzy architekturami komputerów

Page 57: e-mail: meyer@man.poznan.pl             man.poznan.pl

57

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Systemy kolejkowe - podsumowanie

LSFLSF

NQENQE

LLLL

• równoważenie obciążeniarównoważenie obciążenia• praca w trybie wsadowym i interaktywnympraca w trybie wsadowym i interaktywnym• interfejsy do innych systemów kolejkowychinterfejsy do innych systemów kolejkowych• checkpointingcheckpointing• możliwość migracji zadańmożliwość migracji zadań• budowanie klastrów (środowiska budowanie klastrów (środowiska heterogenicznego)heterogenicznego)• nie wspierają zadań rozproszonychnie wspierają zadań rozproszonych• migracja zadań możliwa tylko w środowiskumigracja zadań możliwa tylko w środowisku homogenicznym (systemy binarnie homogenicznym (systemy binarnie kompatybilne)kompatybilne)

Page 58: e-mail: meyer@man.poznan.pl             man.poznan.pl

58

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

GLOBUS

System metakomputerowy

Page 59: e-mail: meyer@man.poznan.pl             man.poznan.pl

59

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

The Computational Grid

• Dependable: can provide

performance and functionality

guarantees

• Consistent: uniform interfaces to wide variety of resources

• Pervasive: ability to „plug-in” from anywhere

"Dependable, consistent, pervasive access to resources"

Page 60: e-mail: meyer@man.poznan.pl             man.poznan.pl

60

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Globus - goals

• Metacomputer = networked virtual supercomputer• Provide basic infrastructure that can be used to

construct portable, high-performance implementations

• Understand application requirements and develop the essential technologies required to meet these requirements

Page 61: e-mail: meyer@man.poznan.pl             man.poznan.pl

61

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Globus toolkit - overview

• The toolkit comprises a set of components that implement basic services of security, resource management, communication, etc.

• The toolkit distinguishes between local services, and global services (on top of local).

• Interfaces are defined so as to manage heterogeneity, rather than hiding it.

• An information service is an integral component of the toolkit

Page 62: e-mail: meyer@man.poznan.pl             man.poznan.pl

62

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Globus Toolkit

Page 63: e-mail: meyer@man.poznan.pl             man.poznan.pl

63

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Core Globus Services

• Resource management (GRAM)

• Information services (MDS)

• Communication infrastructure (Nexus)

• Remote file and executable managment (GASS and GEM)

• Process monitoring (HBM)

• Security (GSI)

Page 64: e-mail: meyer@man.poznan.pl             man.poznan.pl

64

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Resource Management

• RSL - used to express requests• Resource brokers - take high-level RSL and

transform it into more concrete specification• Co-allocator - responsible for coordinating the

allocation and management of resources at multiple sites

• Information service - provides efficient and pervasive access to information about the current availability and capability of resources

Page 65: e-mail: meyer@man.poznan.pl             man.poznan.pl

65

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Resource Management

Page 66: e-mail: meyer@man.poznan.pl             man.poznan.pl

66

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

GRAM functions

• Processing RSL specifications representing resource requests, by either denying the request or by cerating one or more processes

• Enabling remote monitoring and management of jobs, created in response to a resource request

• Periodically updating the MDS information service with information about the current availability and capabilities of the resources that it manages