ARCHITEKTURY KOMPUTERÓW -...

ARCHITEKTURY KOMPUTERÓW

DR HAB INZ. WITOLD DZWINEL prof.n.AGH

Katedra Informatyki AGH, Grupa Systemów Równoleglych p.410-412

Kraków, maj 2004

TEMATYKA WYKLADU (I)

3. WIELOPOZIOMOWOSC OPISU ARCHITEKTUR KOMPUTE-ROWYCH

ARCHITEKTURA =ROZWIAZANIA SPRZETOWE + OPROGRAMOWANIE Model wielopoziomowy - opisuje mikrosystem na wielu poziomach abstrakcji, odpowiadaja-cych z reguly potrzebom róznych grup ludzi nad nim pracujacych lub z niego korzystajacych. • poziom obwodów elektronicznych • poziom pikoarchitektury • poziom mikroarchitektury • poziom makroarchitektury • poziom systemu operacyjnego • poziom megaarchitektury

Poziom obwodów elektronicznych Obraz sprzetu w oczach konstruktora technologa elementów cyfrowych uzytych do konstrukcji tego sprzetu. Poziom - teoria obwodów elektronicznych, elementy obwodów: tranzystory, dio-dy, rezystory, kondensatory, zródla napiecia.

Zmiany napiecwejsciowych wtrakcie realizacjirozkazów

Czarneskrzynki

Zmiany napiecwyjsciowych

Poziom pikoarchitektury

Obraz sprzetu w oczach konstruktora elementów cyfrowych o róznym stopniu integracji. Opis sprzetu w kategoriach dzialania ukladów logicznych kombinacyjnych i sekwencyjnych, z któ-rych skladaja sie elementy cyfrowe uzyte przez konstruktora sprzetu

JCK

JCK

QQ

QQ

Czarneskrzynki

Zmiany wyjsc izmiany stanówelementówlogicznych

Zmiany wejscelementówlogicznych wtrakcie realizacjirozkazu

Poziom mikroarchitektury

Obraz sprzetu w oczach konstruktora elementów tego sprzetu lub w oczach programisty pa-mieci stalej ukladu sterowania mikroprocesorów systemu. Redukcja ukladu do zestawu reje-strów, przesylanie wektorów informacji cyfrowej w trakcie przesylania moga one ulegac zmiana (poziom przesylan miedzyrejestrowych). Umozliwia okreslenie przebiegu kazdego rozkazu z dokladnoscia do przesylan miedzyrejestrowych.

REJESTR A

REJESTR B

SUMATOR

REJESTR C

Czarneskrzynki

Przebieg realizacjirozkazu

Zmiany wejscelementówlogicznych wtrakcierealizacjirozkazu

Poziom makroarchitektury

Obraz sprzetu w oczach konstruktora tego systemu (elektronika, inz. oprogramowania pod-stawowego, oprogramowania uzytkowego). Potrzebne tylko te szczególy których znajomosc jest wymagana przy montazu systemu ze skladajacych sie nan elementów i przy pisaniu oprogramowania przy pomocy asemblera (mikroprocesory, elementy pamieci inne elementy wielkiejintegracji).

Uklad polaczenelementówsystemu

Ciag rozkazówsformulowanychprzezkonstruktoraoprogramowaniapodstawowegolub uzytkowego

Sprzet z dokladnoscia doszczególów wystarczajacychdo montazu systemu iopracowania programu wasemblerze

Czarnaskrzynka

Reakcjasprzetu

Poziom systemu operacyjnego

Obraz sprzetu i oprogramowania podstawowego, widzianego przez konstruktora oprogra-mowania uzytkowego. Okresla architekture jezyków wysokiego poziomu. Sprzet + oprogra-mowanie = system komputerowy. Historycznie - nowa era komputerów (koniec 50-tych po-czatek 60). Opis swego rodzaju “sprzetu wirtualnego” (sprzetu teoretycznie mozliwego) na który sklada sie nie tylko sprzet lecz i oprogramowanie podstawowe. Zwalnie konstruktora od zajmowania sie szczególami technicznymi. Szczególy niedostrzegalne dla konstruktora oprogramowania uzytkowego.

Ciagmakroinstrukcjisformulowanychprzezkonstruktoraoprogramowaniauzytkowego

Sprzet i oprogramowaniepodstawowe

Czarnaskrzynka

Reakcja sprzetuioprogramowaniapodstawowego

Poziom megaarchitektury

Megaarchitektura jest obrazem calego sprzetu i oprogramowania w oczach uzytkownika. Na poziomie megaarchitektury sprzet i oprogramowanie jest nierozdzielne. Wynika to z:

• wlasciwosci sprzetu i oprogramowania determinuja istotne dla uzytkownika wlasnosci i ce-chy systemu

• z punktu widzenia i sprzetu i uzytkownika jest nieistotne i nierostrzygalne które z wlasciwo-sci i cech systemu sa generowane sprzetowo a które programowo.

Inne szczególy nieistotne.

Poleceniauzytkownika

System komputerowy

Czarnaskrzynka

Reakcja systemu

1. Interpretacja fizyczna modelu 2. Niezaleznosc poszczególnych poziomów

a) wybór poziomu zdeterminowany celem któremu ten opis sluzy b) inny jezyk opisu na kazdym poziomie c) inna definicja podstawowego elementu systemu (“czarnej skrzynki”) d) zasady opisu na kazdym z poziomów nie sa ze soba powiazane (silnie zwiaza-

ne), kazdym z poziomów zajmuje sie innego rodzaju specjalista e) Rozumienie dzialania mikrosystemu zwieksza sie wraz z przechodzeniem z

poziomu na poziom (nizej - dzialanie elementów, wyzej - ich wspóldzialanie) 3. Na kazdym z poziomów stosujemy opis “czarnej skrzynki”. “Czarna skrzynka” - nazywamy dowolny system, dla którego uzytkowania wystarczy wylacznie znajomosc wlasciwosci wejsciowo-wyjsciowych, okreslonych przez prze-biegi zmian jego wielkosci wyjsciowych w odpowiedzi na wszystkie dopuszczalne zmiany jego wielkosci wejsciowych.

Szybkosc maksymalna - najwieksza szybkosc z jaka moze pracowac dana maszyna. Jest to górna granica szybkosci procesora okreslona przez fizyczna strukture sprzetu. 1 flop = jedna operacja zmennoprzecinkowa 1 flops = 1 flop/s = szybkosc obliczen Wydajnosc w piku = peak performance =Rpeak Wydajnosc maksymalna = Rmax najwieksza szybkosc uzyskana dla problemu algebry liniowej pakietu benchmarków Linpack (Jack Dongarra) Nmax - wielkosc najwiekszego problemu dla którego uzyskano Rmax N1/2 - wielkosc problemu dla którego uzyskano wydajnosc równa polowie Rmax (powinna byc jak naj-mniejsza) Istnieja INNE pomiary predkosci maszyny (MIPS, SPEC (int, float), benchmarki, tpm/c, SAP R3 deliv. and sale users)

NAJWIEKSZA aktualnie projektowana architektura ma miec 3600 Teraflops’ów (0.36 * 1015 flopsów) “Blue Gene” - IBM Power4 65.000 procesorów instalacja: Lawrance Livermore National Labolatory w 2004 roku cel: analiza genotypów Pokonac Earth Simulator Najwieksze instalacje na swiecie znajduja sie na liscie TOP 500

100 GFLOPS = komputer z zegarem 100.000 Mhz z zalozeniem ze jeden takt odpowiada jednemu dziala-niu! Czy jest mozliwe osiagniecie takiej predkosci obliczen! BARIERY FIZYCZNE ROZWOJU ARCHITEKTUR: a.) skonczona predkosc rozchodzenia sie sygnalów, b.) wieksza czestotliwosc ograniczona bezwladnoscia ukladu, wieksze wydzielanie sie ciepla, dalsze zwiek-szenie bezwladnosci ukladu.

Wyjscie: pipelining, interleaving, RISC architectures, zwiekszenie ilosci jednostek funkcjonalnych, masowa równoleglosc (massive parallelism) Szybkosc maksymalna (peak performance) to szybkosc której maszyna na pewno nigdy nie uzyska. Ograniczenia: wspólpraca procesora z innymi elementami architektury (pamieci, realizacja operacji wej-scia-wyjscia, instrukcje rozgalezienia)

Szybkosc srednia (sustained performance)- najwieksza stale osiagana szybkosc komputera. Dobry para-metr opisujacy predkosc komputera

Wzrost predkosci maksymalnej ------> wzrost predkosci sredniej NOZYCE: Rosnie równoczesnie róznica pomiedzy predkoscia maksymalna i predkoscia srednia! Np. podwojenie predkosci zegara zwieksza szybkosc maksymalna 2 razy. Szybkosc srednia rosnie mniej niz 2 razy ze wzgledu na dostep do pamieci. Stosunek koszt/ szybkosc (price performance) Maszyna Nr. 1 10 Gflopsów koszt 10 mln. USD 1 Mflops = 1000 USD Maszyna Nr 2 100 Mflopsów koszt 50 tys. USD 1 Mflops = 500 USD

Instrukcje Jest to najdrobniejszy fragment obliczen dostepny dla programisty. W jaki sposób interpretowane sa in-strukcje w mikrokodzie (uklad komponentów) tak dokonuje sie podzialu procesorów (komputerów) CISC (complex instruction set computer) - maszyna której instrukcje procesora zbudowane sa z róznej ilo-sci komponentów (nawet bardzo róznej! od 3 - setek !!). Kazda instrukcja wymaga wiec zdecydowanie ró-znych czasów wykonania. W maszynach CISC istnieja oprócz pojedynczych instrukcji takze instrukcje skladajace sie z kilku i kil-kunastu instrukcji mikrokodu. Na starych procesorach mikrokod dla dzielenia zajmuje wiecej cykli niz sekwencja innych instrukcji re-alizujacych to dzielenie. Instrukcje na procesorach CISC wykonuja operacje pobrania i zapisywania w pamieci (na proceorach RISC istnieja TYLKO 2 instrukcje które to robia)

Typy dzialan Rodzaje instrukcji typowych dla dzialania danego procesora nosza nazwe zbioru in-strukcji procesora. 4 klasy dzialan: 1. Dzialania pamieciowe (load/store) 2. Obliczenia na liczbach calkowitych 3. Obliczenia na liczbach zmiennoprzecinkowych. 4. Instrukcje rozgalezienia (zmiana przeplywu sterowania programu) Zmiana pomiar z MIPSów na FLOPSy dokonala sie w momencie szczytowego okresu panowania procesorów CISC.

Jak zwiekszyc szybkosc pojedynczego procesora? X cykli/sekunde X Speed = -------------------------------------------- = --------------- instrukcji/sekunde Y cykli/instrukcje Y X -- zwiekszyc czestotliwosc = zmniejszyc opóznienie zwiazane z przeplywem danych przez procesor (skrócenie sciezek przez które plynie prad) Y -- zmniejszyc liczbe cykli na instrukcje (zuniformizowanie dlugosci instrukcji, efektywniejsze zakodowanie instrukcji, pipelining, wzrost liczby jednostek funkcjo-nalnych, out-of-order sequencing)

Komputery RISC RISC - reduced instruction set computer - komputery z procesorami o zuniformizowanym zbiorze in-strukcji o jednakowej dlugosci, wymagajacych tej samej liczby podobnych kroków. (Rysunek) CEL - uproszczenie operacji mikroprocesora OBSERWACJA - najwiecej czasu procesor spedza na wykonanie instrukcji z ograniczonego podzbioru instrukcji. Sa to instrukcje najprostsze. WNIOSEK - zbiór instrukcji ograniczyc do najprostszych, niezbednych dzialan, zapisac je jak najefek-tywniej Dodawanie CISC - jedna dluga instrukcja w mikrokodzie Dodawanie RISC - 4 jednakowe instrukcje, niektóre realizowane sprzetowo KORZYSCI - • Instrukcje wykonywane szybciej (niektóre dzialania realizowane w 2 czy 1 cyklu) • Prostsza implementacja. Maly zbiór prostych instrukcji = mniej krzemu = na plytce procesora mozna

zmiescic cos jeszcze np. pamiec cache. • Instrukcje wykonywane tylko na rejestrach (oprócz load/store)

Podzial instrukcji RISC

IF ID EX MEM WB

IF - pobierz z pamieci ID - rozkoduj EX - wykonaj MEM - zapisz

WB - przenies do akumulatora

Pipelining (przetwarzanie potokowe) Pipelining zapewnia teoretyczna mozliwosc wykonywania jednej instrukcji w jednym cyklu zegara. Rysunek NIEBEZPIECZENSTWA: 1. Data hazard (zaleznosc danych) 2. Control hazard (instrukcje warunkowe) 3. Structural hazard (równoczesnosc dostepu do pamieci) 4. Rózny czas wykonania kroku EX 5. Komunikacja z pamiecia operacyjna

Przetwarzanie potokowe 1 2 3 4 5 6 7 8 9 IF ID EX MEM WB

Instrukcja 1

IF ID EX MEM WB Instrukcja 2




Data hazard - wystepuje gdy instrukcja potrzebuje wyniku poprzedniej instrukcji. WYJSCIE: 1) oczekiwanie na rezultat (stall) 2) sprzetowy “forwarding” z EX (i) do ID (i+1)

Control hazard - spowodowany nieliniowym przeplywem sterowania i wystepowaniem instrukcji np. warunkowych. Zmiana licznika przeplywu programu znana po wykonaniu EX z warunkiem. Tymczasem licza sie trzy instrukcje niepotrzebnie. Strata czasu: na wrzucenie tych instrukcji i opróznienie oraz przywrócenie poprzedniego stanu rejestrów. WYJSCIE: dodatkowe opcje w procesorze i zabezpieczenia w kompilatorze 1) wstawienie 2 instrukcji “no-ops” za kazdym rozgalezieniem w programie (komp.) 2) wstawienie za kazdym rozgalezieniem instrukcji, które wykonuja sie niezaleznie od rezultatu warunku (branch delay slot). (komp. raczej trudne) 3) “dynamic branch prediction” “speculative execution”, dodatkowy bufor w procesorze i mechanizm predykcji rezultatu warunku. Moze sie pomylic! Potrzebny mechanizm przywracania stanu rejestrów przed pomylka.

Structural hazard - kiedy instrukcje lancuchowane chca w tym samym czasie skorzystac z tych sa-mych zasobów. Jezeli istnieje tylko jeden port dla instrukcji i danych, wtedy pobieranie instrukcji moze zajsc równoczesnie z odwolaniem do danych w pa-mieci, wtedy jedna z instrukcji musi czekac az wczesniejsza zakonczy czynnosc. Jedynym wyjsciem jest albo duplikacja zasobów (drogie), albo duplikacja portów pamieci. Jeden dla danych drugi dla instrukcji.

Procesory superskalarne. Operacje zmiennoprzecinkowe potrzebuja wiecej cykli niz inne. Zatem dlugosc kroku EX moze byc róz-na. POZADANE: • Zwiekszenie liczby rodzajów jednostek funkcjonalnych EX (Rysunek) • A nawet ich zduplikowanie REZULTAT:

WIECEJ NIZ JEDNA INSTRUKCJA/cykl = MASZYNY SUPERSKALARNE

SKUTKI UBOCZNE: Wykonanie instrukcji OUT-OF-ORDER (Rysunek) a[1] = 20. / 2. b = a[1] *3.0 a[1] = 5.0+3. c = a[1] + b powinno byc c=38 moze byc c=34

Out of order execution

AMD OPTERON

POWER 4

Hierarchia pamieci (0)

Rejestry

Podstawowa cache

Druga cache

Pamiec pierwszego poziomu

Pamiec dodatkowa

Pamiec dyskowa

High Performance storage devices(pamiec CD. optyczna, roboty tasmowe)

Pamiec wirtualna

Procesor

Hierarchia pamieci (I) • Decydujacy element degradujacy wydajnosc obliczen. • Degradacja ta zachodzi juz na poziomie przesylan miedzyrejestrowych Gwaltowne obnizenie wydajnosci, gdy nastepuje zmiana sterowania spowodowana przez wywolanie pro-cedur. WYJSCIE: • W architekturach RISC (SPARC) tworzy sie banki rejestrów (okna - Windows). Ilosc okien = glebokosc

zagniezdzenia • W celu unikniecia konfliktów WAW i WAR stosuje sie przemianowanie rejestrów (register renaming) Jezeli rejestr nie moze byc wykorzystany przez instrukcje do zapisu, poniewaz jest uzywany przez inna instrukcje, wynik przesylany jest do innego wol-nego rejestru i wszystkie odwolania do tego rezultatu zostaja skierowane do aktualnie zajmowanego przez niego rejestru.

Okna rejestrowe

Hierarchia pamieci (II) CISC - moze dokonywac operacji na operandach bezposrednio w pamieci RISC - laduje dane pamieci do rejestrów wykonuje operacje i wynik przesyla do pamieci. Instrukcje tez musi zaladowac z pamieci i to z predkoscia przynajmniej 1 instrukcja/cykl WNIOSEK: Musi istniec podsystem pamieci który pozwala na zaladowanie z pamieci przynajmniej 2 po-brania na jeden cykl (takt) UWAGA: Zaprojektowanie pamieci to jednak cos wiecej niz sama jej predkosc. • virtual memory spaces • security and safety in microprogramming • process synchronization • semantic correctness of program

Hierarchia pamieci (pamiec wirtualna) Pozwala na dzielenie pamieci operacyjnej pomiedzy oddzielne procesy w taki sposób by detale implemen-tacji nie byly dostrzegalne przez uzytkownika, a kazdy proces mial wirtualna mozliwosc dostepu do swo-jej wlasnej i pelnej przestrzeni adresowej. W rzeczywistosci fizyczna pamiec jest szatkowana na bloki i dzielona pomiedzy wykonujace sie procesy. System zarzadzania pamiecia pozwala na translacje abstrakcyjnej pamieci na dostepna fizyczna pamiec operacyjna. Wielkosc pamieci determinowana jest wielkoscia przestrzeni adresowej. Dla procesorów 64 bitowych 264=~2*1019. Dlatego nie istnieje potrzeba ponownego wykorzystania adresu, az do momentu zrebootowania przestrzeni adresowej. Kompilator nie musi sie „martwic” o dealokacje i inicjalizacje pamieci, alokuje pamiec w dowolnym nie uzywanym miejscu. (mnóstwo smieci)

Stronnicowanie (paging) - daje iluzje wiekszej pamieci niz aktualnie jest dostepna. (pamiec fizyczna jest dzielona na strony i pamiec wirtualna takze na strony. Aktywne strony procesów laduja sie do pamieci podczas gdy nieaktywne pozostaja na dysku). Wirtualny adres zawiera adres strony i offset. Page table zawiera informacje do numeru jakiej strony pamieci fizycznej „dopieta” zostala aktywna strona pamieci wirtualnej. W przypadku „page fault” strona aktywna jest wyrzucana z pamieci fizycznej i ladowana nowa strona. Dla architektur 64 bitowych stronicowana jest równiez Page table. Bardzo kosztowne. WYJSCIE : Transaction Lookside buffer (TLB) - pamiec podreczna typu cache. Przechowuje odpowiednik adresu pamieci rzeczywistej do adresu wirtualnego. Kazdy nowy dostep do pamieci (strony aktywnej) odwoluje sie do TLB zamiast do page table. Cache procesora odwoluje sie do TLB gdy na wejsciu cacha znajduje sie adres fizyczny, a cache indeksowany jest wirtualnie. Gdy na wejsciu znajduje sie adres wirtualny nie potrzbny jest TLB. Niezbedne jest jednak sprawdzanie kontekstu w przypadku wiekszej ilosci wykonywanych procesów (1 adres wirtualny = wiele ad-resów fizycznych).

Hierarchia pamieci (optymalizacja pamieci DRAM) ZALOZENIE - wielkosc strony pamieci DRAM 1024 bajty, kazde chybienie pamieci to dodatkowe 10 cy-kli.

Przypadek 1. REAL A(256), B(256), C(256) INTEGER I DO I = 1, 256, 1 A(I) = B(I) + C(I) ENDDO Ilosc chybien 30 * 256 = 7680 cykli

Przypadek 2 REAL A(256), B(256), C(256) INTEGER T1, T2,T3,T4, S1,S2,S3,S4, I DO I = 1, 256, 4 T1 = B(I) T2 = B(I+1) T3 = B(I+2) T4 = B(I+3) S1 = C(I) S2 = C(I+1) S3 = C(I+2) Ilosc chybien 4 razy mniejsza S4 = C(I+3) T1 = T1 + S1 T2 = T2+S2 T3 = T3+S3 T4 = T4+S4 A(I) = T1 A(I+1) = T2 A(I+2) = T3 A(I+3) = T4 ENDDO

Hierarchia pamieci (pamiec cache) Cache (skrytka) - szybka pamiec wykorzystywana jako bufor danych, które mozna szybko zaladowac do rejestrów CPU (w procesorach RISC oddzielne skrytki dla danych i instrukcji) Do skrytki wczytywane dane aktualnie potrzebne i sasiadujace (rezydujace blisko w pamieci operacyjnej) w postaci tzw. Wiersza cache (jest to najmniejsza ilosc informacji przesylana do pamieci roboczej). Instrukcja prefetch laduje wartosc z pamieci do cacha zanim bedzie wykorzystana. PRZYKLAD: REAL A(100,300), B(100,300), C(100,300) INTEGER I, J DO I = 1, 100, 1 DO J = 1, 300, 1 A(I,J) = B(I,J) + C(I,J) ENDDO ENDDO

Ewolucja typowego komputera sekwencyjnego

Minimal Instruction Set Computers

The term MISC refers to Minimal Instruction Set Computers in general, and to the chips designed by Chuck Moore at Computer Cowboys. These chips are unusual in many ways. They are designed on Chuck's VLSI CAD software called OKAD. They are implemented in CMOS Silicon VLSI proces-ses and are very small and fast. They use a CPU architecture based on the Forth computer language, and with only five bit instructions. The first chip to be produced at Computer Cowboys was MuP21. MuP21 stands for Multi-Micro Processor. With only 25 instructions MuP21 is a Minimal Instruc-tion Set Computer. But it is not just he instruction set that has been minimized, much of the com-plexity in modern chips is gone. MuP21 is implemented in only 7000 transistors vs millions of tran-sistors on other modern chips. MuP21 includes not only a Forth Engine CPU, but also a memory in-terface processor, and a video output processor on the chip. With only 7000 CMOS transistors MuP21 can execute 80 million instructions per second and only draw 50 milliwatts of power. A paper entitled MuP21 a High Performance MISC Processor was published by Charles Moore and C.H. Ting in the January 1995 issue of Forth Dimensions.

Some of the problems in the RISC architecture are quite evident: a. RISC processors are inherently slow, because each instruction still needs many machine cycles to exe-cute. Instruction pipelines are used to accelerate the execution. However, the pipeline must be flushed and refilled when a branch instruction is encountered. b. Increasing speed in the RISC processor creates a large disparity between the processor and the slower memory. To increase the memory accessing speed, it is necessary to use cache memory to buffer instruc-tion and data streams. The cache memory brings in a whole set of problems which complicate the system design and render the system more expensive. c. RISC processors are very inefficient in handling subroutine calls and returns. Efficient subroutine me-chanism is critical to the performance of a processor in supporting high level languages. Many RISC pro-cessors use a large register file, which is windowed to facilitate subroutine call and return. However, the register window must be big enough to handle a large set of input, output, and local parameters. The lar-ge register window wastes the most precious resource in the RISC processor. A large register file also slows down the computer system during a context switch, which must save the register file and later re-store it.

Minimal Instruction Set Computers a. What is the minimum set of instructions in a microprocessor to make it useful in solving practical programming problems? b. What will be the performance of a microprocessor with such a minimum set of instructions? c. What facilities in a microprocessor are necessary to reduce the complexity and the system costs of a computer? d. How to best utilize the current CMOS technology to build such MISC processors? What is the minimum set of instructions in a practical microprocessor? The CISC processors generally have 100 or more instruc-tions. The RISC processors have about 50 instructions. In our investigations, it was obvious that 16 instructions are not sufficient to support all the necessary functions required in a microprocessor. 50 instructions are too many. The minimum number of in-structions is somewhere between 16 and 32. A convenient choice is to limit the number of instructions to 32 and implement a microprocessor with 5 bit instructions. Here is the instruction set implemented in MuP21: MuP21 INSTRUCTION SET Transfer Instructions: JUMP, CALL, RET, JZ, JCZ Memory Instructions: LOAD, STORE, LOADP, STOREP, LIT ALU Instructions: COM, XOR, AND, ADD, SHL, SHR, ADDNZ Register Instructions: LOADA, STOREA, DUP, DROP, OVER, NOP

ARCHITEKTURY MAINFRAME W historycznej kolejnosci pojawiania sie na rynku sa to architektury: • host/terminal - bazujace glównie na mainframach, • klient/serwer (ang. Client/Server) - aktualnie bazujace w zdecydowanym stopniu na komputerach

o procesorach RISC, • sieciowe lub tzw. Java Computing zwane takze chudy-klient/tlusty-serwer (z ang. thin-client/fat-

server). W przezywajacych swój rozkwit w latach 70-tych architekturach typu host/terminal, zarówno wszystkie dane jak i aplikacje rezyduja na komputerze mainframe (najczesciej pod kontrola systemu operacyjnego MVS lub OS/390 - obecnie). Uzytkownik posiada do nich dostep poprzez proste (funkcyjnie zdeterminowane - ang. fixed-function, slepe, glupie - ang. "dumb") terminale o malej mocy obliczeniowej (nie posiadajace swojej pamieci dyskowej) zazwyczaj malej pamieci operacyj-nej i niskiej efektywnosci przetwarzania obrazu. Aplikacje uruchamia sie zwykle w systemie batch jobs.

ARCHITEKTURY KLIENT-SERVER

Architektury typu K/S (klient/serwer), które szczególnie mocno weszly na rynek w latach 90-tych, w przeciwienstwie do swych poprzedników bazuja na nowej generacji - niezwykle mocnych, wypo-sazonych w procesory RISC, wyspecjalizowanych serwerach UNIXowych. Kontaktujacy sie z nimi "klienci" to komputery poczynajac od klasy PC do wyspecjalizowanych stacji roboczych, posiadaja-ce, (choc w zróznicowanym stopniu w zaleznosci od klasy sprzetu) swoje lokalne zasoby pamieci operacyjnej, dyskowej, mozliwosci graficzne, podstawowe aplikacje i bazy danych.

ARCHITEKTURY SIECIOWE

Architektury sieciowe (ang. Network or Java Computing) to calkiem nowy paradygmat architektury bedacy rezultatem obserwowanej w ostatnim czasie eksplozji pomyslów wykorzystania sieci lokal-nych i globalnych oraz sukcesu Internetu. Aktualnie jest to raczej propozycja niz nowa technologia. Idee architektury sieciowej charakteryzuje ogromna liczba tzw. chudych-klientów, komputerów sie-ciowych wyposazonych jedynie w OS Java oraz maszyne wirtualna Java w celu uruchamiania aple-tów i aplikacji. Komputery sieciowe polaczone sa z wydajnym superserwerem (gruby-serwer) i po-przez szybkie lacza pobieraja z jego dysku aplikacje (aplety) wykonujac je lokalnie, lecz korzystajac z baz danych umieszczonych na dyskach serwera. Wymagania takiej architektury w stosunku do komputerów sieciowych odnosnie szybkosci przetwarzania, wielkosci pamieci operacyjnej i dysko-wej sa znacznie skromniejsze niz dla klientów/serwerów UNIX-owych. Niski koszt komputera sie-ciowego (ok. 800-1000 USD) oraz niskie koszty jego utrzymania sa glównym elementem preferuja-cym ta architekture w przyszlosci.

Obserwowane trendy rynkowe odnosnie wymienionych trzech klas architektur wska-zuja na rosnaca dominacje architektur klient/serwer, dalej silna, lecz wyraznie slab-naca pozycje architektur host/terminal i jeszcze embrionalny rozwój architektur sie-ciowych. Zarówno systemy oparte o K/S jak i mainframe, a przede wszystkim systemy UNI-X'owe stanowiace "pole doswiadczalne" obliczen sieciowych, posiadaja mechanizmy umozliwiajace latwa i efektywna emulacje architektur sieciowych (web-enabled appli-cations).

Jedna z najwazniejszych cech architektur K/S jest mozliwosc fizycznego i logicznego rozdzialu zlozonych aplikacji w taki sposób, ze przetwarzania dokonuje sie w opty-malnym miejscu. Z tego tez powodu nowoczesne instalacje realizuja tzw. trójwar-stwowe podejscie: • serwer dla baz danych, • serwery aplikacyjne, • serwery do prezentacji.

MAINFRAMY IBM NOWEJ GENERACJI W okresie najwiekszego spadku zamówien na sprzet produkowany przez IBM (1993-94), firma ta wprowadzila na rynek serie serwerów typu mainframe nowej generacji (klasy 9672) opartej na technologii CMOS. Nosza one nazwe Parallel Enterprise Servers (slowo mainframe, kojarzace sie z komputerami starej generacji, firma IBM stara sie wyrzucic z nowego nazewnictwa), ostatnie z nich to serwery S/390, a najnowsze produkty firmy ukrywaja sie pod nazwa System/390 (9672-RY5). OS/390 jest najnowsza wersja MVS po-siadajaca funkcjonalnosc K/S UNIX'a. Sredni roczny wzrost mocy zainstalowanych serwe-rów S/390 wynosi od kilku lat az 50% , zas liczby instalacji okolo 65%.

WPLYW NOWEJ TECHNOLOGII NA PRZYROST SPRZEDAZY

WZROST PRZYCHODÓW W SEKTORZE SYSTEMÓW OTWARTYCH I ICH SPADEK W SEKTORZE KOMPUTERÓW IBM MAINFRAME W %.

Komputery UNIX Mainframy IBM

IBM SUN HP Cena za 1 MIPS

8,000 USD (9672) 1030 USD (UE10000 (64)

600 USD (V2200 (16)

Cena entry level

50,000 (Multiprise 2000)

brak danych 15,000 USD (HP D-Class)

Wydajnosc (MIPS) (w konfigu-racji mak-symalnej)

490 (9672, RY5, 10 proc.)

2000 (UE10000, 64 proc)

940 (V2200, 16 proc.)

Cena za 1 MIPS, entry level i wydajnosc porównywalnych systemów w danej klasie.

1EPS Reports, koniec 1997,

Rodzaj komputera

1Porównanie wydajnosci (MIPS) niektórych seryjnych starszych serwerów HP 9000 oraz mainframów IBM starej generacji1.

Porównanie wydajnosci (MIPs) serwerów systemów otwartych (na przykladzie HP) z tzw. Su-perserwerami IBM (serwery RY4, RY5 maja po 10 procesorów)

A Historical PerspectiveOpen Enterprise Computing

Maximum IntegrationLimited Flexibility

Proprietary Systems Open Systems "Flexible IT'

Mainfram

e

Database

Application

Hardware Platform and OS

Open Enterprise Computing

Man

agem

ent

Con

sulta

nts

S I

App

licat

ion

Dat

abas

e

Pla

tform

Mid

dlew

are

Maximum FlexibilityLimited Integration

Maximum Integration and Flexibility

Management Consultants

S I

Database

Platform

MiddlewareApplication

Rys. 3.1.1 Historyczna perspektywa rozwoju architektur bazodanowych

2”A castomer study of Client/Server usage”: Technology, (Gartner Group- MDC:KA-300-179).

Rys. 3.1.2 Przewidywana popularnosc systemów operacyjnych2.

ZBIORCZYSKLAD DANYCH

System/390

MAGAZYNINFORMACJI

WIELKIEAPLIKACJE

GLOBALNECENTRUMDANYCH

ZARZADZANIE ZASOBAMI ROZPROSZONYMI

SERWERPRZEDSIEBIORSTWA

EKONOMIA KOSZTÓW IWYDAJNOSC OPERACJI

Rys.3.1.8 Schematyczne przedstawienie roli architektur mainframe w Centrach Obliczeniowych [wg. Raportu ITG, 1995]

KLASYFIKACJA ARCHITEKTUR KOMERCYJNYCH

• mechanizmu przetwarzania informacji (instruction flow, data flow), • wzajemnej zale¿noœci strumieni instrukcji i danych zdeterminowanej sposobem

sterowania procesem przetwarzania informacji (SISD, SIMD, MIMD, MISD), • dostêpu do pamiêci i sposobu komunikacji pomiêdzy wêz³ami (shared memory -

threds, distributed memory - message passing), • hierarchizacji dostepu do pamiêci (UMA - uniform memory access, NUMA -

non- uniform memory access), • rodzaju sieci po³¹czeñ pomiêdzy wêz³ami obliczeniowymi oraz procesorami i

blokami pamiêci.

Fundamentalnymi jej elementami sa: 1. Uniform Memory Access Architectures (UMA) - architektury jednorodnego dostepu do pamieci,

gdzie z punktu widzenia pojedynczego wezla obliczeniowego dostep do kazdego bloku pamieci za-biera srednio taka sama ilosc czasu.

2. Non-Uniform Memory Access Architectures (NUMA) - architektury o zhierarchizowanym dostepie do pamieci, gdzie predkosc dostepu do poszczególnych poziomów pamieci, dla kazdego z wezlów obliczeniowych, jest inna (pamiec bliska i daleka).

Kazda z tych klas dzieli sie jeszcze na podklasy. UMA • Symmetric MultiProcessing System (SMP) • High Availability Clusters (HAC) NUMA • Cache Coherent Non-Uniform Memory Access (ccNUMA) • Massively Parallel Processing (MPP) • Parallel SMP (nazywany równiez hybryda SMP/MPP) • Shared Memory Clusters • Cache Only Memory Architectures (COMA)

SYMETRYCZNE SYSTEMY WIELOPROCESOROWE SMP S¹ to najprostsze i najbardziej popularne architektury systemów komercyjnych. Ten podstawowy schemat systemu o pamiêci dzielonej zyska³ najwiêksz¹ popular-noœæ poniewa¿ idealnie odpowiada celom aplikacji ogólnego zastosowania typu • OLTP (on-line transaction processing) dotycz¹cych np. operacji transakcji na du¿ych

bazach danych, • DSS (decision support system) czyli wspomagania decyzji i systemom eksperckim.

CPU

CPU

CPU

Pamiec I/O

SMP

Rys.3.2.3.2 Schemat architektury SMP (I/O urzadzenia wejscia-wyjscia).

Przyk³ady systemów high-end o architekturze SMP: • DEC 8400 • HP 9000 K-Class, T-Class and V-Class • IBM RS/6000 J50 i R50 • NRC 5100S • Sun UE6000 i E10000 ZALETY SMP to: 1. Brak problemu “w¹skiego gard³a” procesora, gdy¿ wszystkie procesory dziel¹ pomiêdzy siebie wszystkie zadania. 2. Du¿a wydajnoœæ dla operacji na dzielonej wspólnej pamiêci. Rzeczywiœcie arcitektury oprogramowania Systemów Zarz¹dzania Relacyjnymi

Bazami Danych (RDBMS) ewoluuj¹ symbiotycznie wraz z architektur¹ SMP. 3. Architektura SMP idealnie odpowiada wiêkszoœciom aplikacji komercyjnych typu OLTP i DSS. 4. Jasny i wygodny model programowania. 5. £atwoœæ zwiêkszenia wydajnoœci poprzez Simple Scaling. 6. £atwoœæ zarz¹dzania systemem ze wzglêdu na jego ma³¹ z³o¿onoœæ. 7. SMP uwa¿any jest za najlepszy w skalowaniu wydajnoœci oprogramowania. WADY 1. Skoñczona skalowalnoœæ ze wzglêdu na “rywalizacjê o zasoby” pamiêci operacyjnej oraz I/O. 2. Skalowalnoœæ ogranicza tak¿e w¹skie gard³o przepustowoœci, spowodowane g³ównie poprzez protoko³y szynowe zapewniaj¹ce zgodnoœæ

pamiêci podrêcznej (cache coherency problem). 3. Ma³a przepustowoœæ szyny ograniczona przez fizykê (czym szybszy zegar taktuj¹cy dla szyny tym krótsza szyna. 4. Pamiêæ operacyjna oraz procesory s¹ pojedynczymi (niezduplikowanymi) punktami awaryjnymi dla ca³ego systemu (single points of failure). 5. Graniczna liczba procesorów to 4-64. Maksymalna efektywnoœæ dla aplikacji typu OLTP uzyskiwana jest dla 20-24 procesorów3. UWAGI Szybsze 64-bitowe procesory zastapi³y wolniejsze 32 bitowe. Du¿a przestrzeñ adresowa zwiêkszy³a wydajnoœæ aplikacji oraz zapewni³a mo¿liwoœæ wykorzystania du¿ych pamiêci operacyjnych oraz masowych. Wydajnoœæ SMP dalej nie wyczerpa³a swoich mo¿liwoœci wzrostu. SMP pokrywaæ bêdzie do roku 2001 zapotrzebowanie na moc obliczeniow¹ dla 90% aplikacji komercyjnych

3 E.J. Bodnar, High-End Commercial System Architectures, HP whitepapers, May 1997.

HAC CZYLI SYSTEMY PRACY CI¥G£EJ - KLASTRY Architektury typu High Availability Clusters dotycz¹ niezale¿nych systemów zgrupowanych razem w celu zmniejszenia prawdopodobieñstwa zak³ócenia przebiegu obliczeñ. Wi¹¿¹ siê one w sposób bezpoœredni z ide¹ systemów pracy ci¹g³ej, odpornych na wszelkiego rodzaju zdarzenia losowe i katastrofy. Opis tego rodzaju systemów komputerowych, zarówno sprzêtu jak i oprogramowania znajduje siê w dalszej czêœci. Architektury te powi¹zane s¹ z architekturami SMP i powsta³y poprzez zwielokrotnienie zasobów SMP (pojedynczych wêz³ów systemu). Iloœæ wêz³ów SMP ograniczona jest do 2-16. Wêz³y ³¹czone s¹ sieci¹ o stosunkowo du¿ym opóŸnieniu (latency) np. Ethernet lub szybszymi np. FiberChannel. Celem tej redundancji by³o stworzenie systemu przeznaczonego do uruchamiania aplikacji typu mission critical, i maksy-malnego ograniczenia wp³ywu punktów awaryjnych systemów SMP na ci¹g³oœæ pracy ca³ego systemu. Powszechnie s¹dzi siê, ¿e klaster SMP jest najlepsz¹ opcj¹ architektoniczn¹ zapewniaj¹c¹ wysok¹ dostêpnoœæ opartego na niej systemu. “..As far as application availability requirements are concerned, clustering is probably the best option...”5. Typowe istniej¹ce systemy wysokiej dostêpnoœci daj¹ gwarancjê ci¹g³ej pracy 99.95% na 24*365 godzin w roku. Przyk³adami systemów wysokiej dostêpnoœci pracuj¹cych na klastrach HAC s¹: • IBM HACMP • Digital Open VMS • HP Service Guard • NCR Lifekeeper • Sun PBD Cluster • HP MC Lock Menager

PAMIEC

CPU

CPU

CPU

CPU

I/O

PAMIEC

CPU

CPU

CPU

CPU

I/O

PAMIEC

CPU

CPU

CPU

CPU

I/O

HAC

Rys.3.2.3.3 Schemat architektury HAC (I/O - urzadzenia wejscia-wyjscia).

ARCHITEKTURY NUMA

• Sieæ rozproszona (distributed network) Sieæ rozproszona (distributed network - DN) lub “model p³askiej Ziemi” zosta³ wprowadzony zupe³nie niedawno jako ko-mercyjne rozwi¹zanie Microsoft’u. Ideê t¹ reprezentuje tak¿e nowoczesne rozwi¹zania Sun Microsystems w myœl has³a: Ne-twork is computer. Rozwi¹zania te bazuj¹ na za³o¿eniu i¿ wiele problemów obliczeniowych mo¿e byæ rozwi¹zane przy po-mocy sieci ma³ych komputerów lub serwerów. Istniej¹ pewne dziedziny które mog¹ czerpaæ korzyœci z takich rozwi¹zañ, jednak¿e brak jest miêdzy nimi problemów OLTP i DSS ze wzglêdu na rozproszon¹ naturê danych wymagan¹ w systemach DN. Gdy dane s¹ rozproszone pomiêdzy niezale¿ne wêz³y obliczeniowe (ma³e komputery czy serwery) wêz³y te spêdzaj¹ wiele czasu na komunikacjê pomiêdzy sob¹ i przesy³anie rozproszonych danych po wolnej sieci po³¹czeñ. Dodatkow¹ wad¹ tego rodzaju systemów jest wymóg tworzenia replik danych na wêz³ach w wypadku ich wymiany pomiêdzy tymi wêz³ami (dla systemów wysokiej dostêpnoœci) oraz zapewnie równowa¿enia obci¹¿enia na poszczególnych wêz³ach w celu podnie-sienia efektywnoœci obliczeñ. Wprowadza to dodatkowy stopieñ z³o¿onoœci i wyklucza systemy rozproszone do obs³ugi aplikacji typu mission critical. ZALETY 1. Ekonomia zasobów obliczeniowych serwerów. 2. Architektura odpowiednia dla serwisów informacji on-line jednak nie o zasadniczym znaczeniu. WADY 1. Trudna w zarz¹dzaniu. 2. Ograniczona dostêpnoœæ (wiele pojedynczych punktów mo¿liwych awarii). 3. Sieæ po³¹czeñ zdecydowanie za wolna.

ARCHITEKTURY NUMA Typowe systemy reprezentuj¹ce architektury MPP to: • IBM Uniprocessor RS/6000 SP (“SP”) • Tandem Himalaya K 20000 • Pyramid RM 1000 • ICL Goldrush • Intel Paragon • Cray T3E (w ograniczonym zakresie) ZALETY 1. Mo¿liwoœæ skalowania do setek i tysiêcy procesorów. 2. Ogromna moc obliczeniowa dla zadañ typu “Dziel i rz¹dŸ”. Wykorzystywane w obliczeniach wielkiej skali i proble-

mach Wielkich Wyzwañ Nauki. 3. Zaawansowany model przesy³ania wiadomoœci umo¿liwiaj¹cy osi¹gniêcie wysokiego stopnia zrównoleglenia roz-

wi¹zywanego problemu. WADY 1. Nieefektywne dla operacji wykorzystuj¹cych dzielon¹ pamiêæ i problemów o niezlokalizowanych obliczeniach (wyko-

rzystuj¹cych pamiêæ globaln¹). 2. W porównaniu do SMP, wymiana danych i rezultatów pomiêdzy CPUs jest wolniejsza. 3. Model wymiany wiadomoœci stanowi “w¹skie gard³o” dla zdecydowanej wiêkszoœci komercyjnych aplikacji. 4. Publikowane benchmarki DSS wyró¿niaj¹ architektury DSS jako bardziej wydajne. 5. Skomplikowany model programowania. 6. Z³o¿one zarz¹dzanie zwi¹zane wspó³istniej¹cymi w systemach MPP wieloma kopiami O/S (jedna na wêze³). 7. Ograniczona dostêpnoœæ systemów MPP (du¿a iloœæ trudnych do zduplikowania elementów nieodpornych na awarie).

ARCHITEKTURY ccNUMA Pomimo wad systemów rozproszonych i MPP nie ma w¹tpliwoœci, ¿e wiele elementów charakterystycz-nych dla obu tych architektur wskazuje na mo¿liwoœæ bezpoœredniego, liniowego wzrostu przepustowo-œci i wydajnoœci systemów równoleg³ych wraz z dodawaniem kolejnych wêz³ów. Z drugiej jednak strony prostota modelu programowania dla architektur SMP sk³ania do opracowania nowego rodzaju architektury, który ³¹czy³by zalety tych systemów. Systemy o rozproszonej i dzielonej pamiêci (Distributed Shared Me-mory - DSM) s¹ przyk³adem tego rodzaju architektury. Realizacja systemu DSM zak³ada istnienie logicznie jednej, liniowo adresowalnej pamiêci, fizycznie roz-proszonej pomiêdzy wêz³y obliczeniowe. Zatem czas dostêpu do takiej pamiêci przestaje byæ jednakowy. W celu uzyskania w pe³ni transparentnego (“przeŸroczystego”) modelu programowania, problemem pozo-staje minimalizacja ró¿nic w czasach dostêpu do bliskiej i oddalonej pamiêci i opracownaie rozwi¹zañ sprzêtowych i programowych, które pozwoli³yby na maksymalizacjê odwo³añ lokalnych. Dodatkowo, pod-system I/O jest globalnie dostêpny przez fizyczne odwo³anie siê do dowolnego urz¹dzenia I/O skierowane ze strony dowolnego procesora. Pomimo wielkiej liczby mo¿liwoœci fizycznej realizacji wy¿ej opisanej architektury, zazwyczaj definiuje j¹ struktura wêz³ów obliczeniowych (np. ka¿dy wêze³ mo¿e posiadaæ strukturê SMP), fizyczna sieæ po³¹czeñ zarówno lokalna jak i globalna (prze³¹cznica krzy¿owa, ko³o), przesy³ania niskiego poziomu i protokó³ za-pewniaj¹cy koherentnoœæ (zgodnoœæ) pamiêci podrêcznej.

CPU

CPU

CPU

Pamiec I/O

ccNUMA

CPU

CPU

CPU

Pamiec I/O

NUMAlink

NUMAlink

Rys.3.2.3.5 Schemat architektury ccNUMA (I/O - urzadzenia wejscia-wyjscia).

ARCHITEKTURY ccNUMA Typowe systemy reprezentuj¹ce architektury ccNUMA to: • Sequent’s NUMA-Q 2000 • Data General’s AV2000 • SGI Origin 200/2000 • HP/Convex Exemplar X-Class ZALETY

1. Rozszerzona skalowalnoœæ systemu (do 1024+ CPU). 2. Mniejsza iloœæ komunikacji pomiêdzy procesorami ni¿ ta dla modelu MPP oraz opisywanej dalej architektury “Parallel SMP” szczególnie dla aplikacji typu DSS. WADY

1. Wolniejszy œredni dostêp do pamiêci ni¿ w systemach SMP. 2. Architektura niesprawdzona w zastosowaniach komercyjnych (brak benchmarków, szczególnie TPC-C). 3. Nie wiadomo jakie jest opóŸnienie dostêpu do pamiêci dla aplikacji OLTP oraz czy jest ono dopuszczalne. Dostêpnoœæ systemu jest te¿ stosunkowo niska ze wzglê-

du na du¿¹ iloœæ CPU, jedn¹ pamiêæ dzielon¹ i jeden O/S, co w wypadku awarii jednego komponentu wy³ancza z pracy ca³y system. Systemy NUMA uzywa siê tradycyjnie w œrodowiskach obliczeniowych zwi¹zanych z obliczeniami in¿ynierskimi i nauk¹.

UWAGI

1. Sprzedawcy systemów komputerowych bêd¹ dalej inwestowaæ w architekturê NUMA by przyspieszyæ moment jej zaakceptowania przez rynek komercyjny. 2. Sukces tej architektury na rynku zale¿y od tego czy “czynnik kary” (penalty factor) za dostêp do odleg³ego poziomu pamiêci bêdzie dostatecznie niski. ¯adnemu z

wytwórców sprzêtu tej klasy to siê dotychczas nie uda³o. Na przyk³ad SGI opublikowa³ dane dotyczace “czynnika kary” wyra¿onego jako stosunek czasów dostêpu do pamiêci bliskiej i dalekiej. Wynosi on 1:2 do 1:3 czyli odpowiednio 310 ns do 540ns w 4-dro¿nej konfiguracji. Symulacje przeprowadzone dla Sequenta wskazuj¹, ¿e dla benchmarków TPC-C ni¿ 18% odwo³añ dotyczy pamiêci odleg³ych4.

3. Z czasem, gdy “czynnik kary” zostanie maksymalnie obni¿ony inni wytwórcy sprzêtu (jak np. HP) wprowadz¹ technologiê ccNUMA do swojej komercyjnej oferty (HP/Convex X-Class zaliczany jest do klasy tzw. technicznych - in¿ynierskich serwerów).

4. Zainteresownie sie architektur¹ ccNUMA Microsoftu stanowi wa¿ny czynnik jej dalszego sukcesu. 5. Oprogramowanie na SMP mo¿na bez zmian uruchomiæ na architekturach ccNUMA. 6. Je¿eli architektura procesora Merced zostanie zaprojektowana jako uk³ad SMP, wtedy sposób po³¹czeñ procesorów stanie siê bardzo istotny. Decyzja ta do tej pory

nie zapad³a, lecz jest prawdopodobne, ¿e bêdzie to architektura ccNUMA.

4 E.J. Bodnar, High-End Commercial System Architectures, HP whitepapers, Maj 1997.

P P

P P

MEM

I/O

P P

P P

MEM

I/O

P P

P P

MEM

I/O

P P

P PMEM

I/O

P P

P PMEM

I/O

P P

P PMEM

I/O

High Speed Communication Fabric

ParallelSMP

Rys.3.2.3.6 Schemat architektury Parallel SMP (P.-CPU, MEM-Pamiec, I/O-urzadzenia wejscia-wyjscia).

ARCHITEKTURY PSMP Typowe systemy reprezentuj¹ce architektury PSMP to: • HP Enterprise Parallel Server (EPS) • NCR World Mark 5100M • IBM SMP-base RS/6000 SP ZALETY 1. Wskazuje dalszy kierunek rozwoju dojrza³ej, sprawdzonej i komercyjnie uznawanej architektury SMP. 2. Wykorzystuje sprawdzone elementy najnowszej technologii informatycznej (np. po³¹czenia Fibre Cannel, równoleg³e ba-

zy danych). 3. £atwiejszy model programowania ni¿ w przypadku MPP. 4. Mozliwoœæ bardzo du¿ej skalowalnoœci daje w wyniku ogromn¹ wydajnoœæ, która wychodzi na przeciw wzrastaj¹cym

potrzebom rynku. 5. Zapewnia wysok¹ dostêpnoœæ sprzêtu i aplikacji poprzez system zabezpieczeñ przed awari¹ poszczególnych komponen-

tów systemu komputerowego. WADY 1. Ni¿szy poziom zabezpieczeñ przed sytuacjami awaryjnymi w porównaniu do klastrów HA zwi¹zany ze sposobem prze-

twarzania równoleg³ego (zabezpieczenia programowe np. HP/Service Guard). UWAGI G³ówni producenci systemów komputerowych wielkiej skali (HP, NCR i in.) zaadoptowali PSMP na serwerach nale¿¹cych do high-end’u swoich produktów.

KLASTRY O PAMIÊCI DZIELONEJ

Szczególnym przypadkiem architektury PSMP jest architektura klastrowa o dzielonej pamiêci. Dotyczy ona przypadku, gdy pojedynczy wêze³ SMP jest dostatecznie du¿y (ok. 30 procesorów) i ze wzglêdu na wzrastaj¹ce potrzeby centrum ³¹czy siê kilka takich wêz³ów w klaster (4-8 wêz³ów). Dzielone zasoby s¹ nadzorowane przez tzw. Parallel Lock Management PLM. Aplikacja uruchamiana jest na wszystkich wêz³ach równoczeœnie, które komunikuj¹ siê miêdzy sob¹ zanim nanie-sione zostan¹ zmiany w dzielonych danych. W takim œrodowisku jedynie aplikacje, które wykorzystuj¹ informacje o kla-strowej konfiguracji sprzêtu i które wspó³dzia³aj¹ z PLM mog¹ to œrodowisko efektywnie wykorzystaæ. Iloœæ takich apli-kacji jest aktualnie ograniczona przede wszystkim do tych wykorzystuj¹cych pakiety Oracle OPS, Informix XPS oraz takich które by³y konstruowane z myœl¹ o obs³udze sklastrowanych systemów plików. Komunikacja w rozwa¿anych systemach klastrowych jest dwukana³owa. 1. Dedykowany link sieciowy (dedicated network link) bazuj¹cy na Ethernecie lub FDDI, podtrzymuje zrówno traffic lock

jak i zapytania “o zdrowie systemu” (system health” enquiries) ci¹gle wymieniane pomiêdzy wêz³ami, tj. kana³ który identyfikuje awariê jednego z wêz³ów.

2. Kana³ komunikacji pomiêdzy wêz³ami u¿ywany do synchronizacji podsystemów pamiêci w wêz³ach. Istniej¹ dwa podejœcia do realizacji drugiego z kana³ów komunikacyjnych. Pierwsze polega na wprowadzeniu dzielonej szyny I/O (np. SCSI-2 o du¿ej przepustowoœci i szerokoœci, podtrzymuj¹cej wielokrotn¹ inicjacjê) wykorzystywanej do przesy³añ pamiêæ-pamiêæ realizowanej poprzez pod-system dyskowy. Jak widaæ czas oczekiwania na transfer pamiêæ-pamiêæ oraz pamiêæ-dysk stanowi w¹skie gard³o takiego podejœcia. Inne podejœcie polega na zastosowaniu technologi bezpoœredniego przesy³ania pamiêæ-do-pamiêci poprzez szybki kana³ I/O bez poœrednictwa systemu dyskowego.

ARCHITEKTURY COMA

Architektura COMA (Cache Only Memory Architecture) stanowiæ bêdzie ostatni¹ architekturê omawian¹ w tym rozdziale. Pamiêæ podrêczna dla tego typu architektury zosta³a powiêkszona w celu zminimalizowania czasu dostêpu do pamiêci w przypadku odleg³ych do niej odwo³añ, a w przeciwieñstwie do ccNUMA globalna pamiêæ dzielona nie wystêpuje. Typowe systemy reprezentuj¹ce architektury COMA to: • SUN S3.MP • Kendall Square Research (KSR) AllCache ZALETY Dostarcza mechanizmu który pozwala na migracjê od nic-nie-dziel¹cej architektury MPP do modelów programowania na systemach dziel¹cych wspóln¹ pamiêæ. WADY 1. Z³o¿ony podsystem zarz¹dzania pamiêci¹ wirtualn¹ bazuj¹cy na migracji stronic pamiêci i ich replikacji. 2. Wymaga kosztownych zmian kontrolerów pamiêci poszczególnych wêz³ów. UWAGI I PRZYSZ£OŒÆ ARCHITEKTURY COMA 1. Bior¹c pod uwagê nik³e zainteresowanie t¹ architektur¹ na rynku komercyjnym, prawdopodobnie rozwi¹zanie to stanowi

“niszê technologiczn¹”. 2. IBM pracuje nad now¹ koncepcj¹ architektury COMA (simple COMA) dla nowej generacji serwerów RS/6000 SP, która

wprowadzaj¹c uproszczenia i redukuj¹c koszt standardu COMA mo¿e stanowiæ konkurencjê dla innych architektur do-minuj¹cych na rynku.

Realizacja sprzêtowa liniowej skalowalnoœci systemu podparta byæ musi równie wa¿nym kom-ponentem jakim jest system operacyjny. Jego kluczowa rola w tworzeniu systemów skalowalnych polega na zapewnieniu optymalnej eksploatacji zasobów systemu przy jego pe³nej “przeŸroczystoœci” dla u¿ytkownika (rozumianej tu jako wypracowanie takiego oprogramowania by detale konstrukcyjne architek-tury nie posiada³y swego odzwierciedlenia w przyjêtym modelu programowania). Mówi¹c ogólnie, podczas gdy rozwi¹zania takie jak np. elementy (primitives) synchronizacji, s¹ wspólne zarówno dla architektury UMA i NUMA, to w przypadku NUMA wymaga siê dodatkowo od oprogramowania by zapewnia³o mini-malizacjê odwo³añ dalekich. Osi¹gane jest to g³ównie poprzez podsystem zarz¹dzania pamiêci¹ oraz zestawienie-listowanie (scheduling) procesów/w¹tków. Kluczowym problemem jest zapewnienie afinicznoœci poprzez utrzymywanie w jednym miejscu razem procesów i ich danych. Je¿eli którykolwiek proces/w¹tek zgubi swój slot na danym proceso-rze, to gdy jest zestawiany (scheduled) oraz uruchamiany ponownie, powinien byæ ulokowany dok³adnie na tym samym procesorze, przy za³o¿eniu ¿e pewne dane i tekst u¿yte pierwotnie bêd¹ dalej dostêpne w lo-kalnych pamiêciach podrêcznych i pamiêci operacyjnej powi¹zanych z tamtym procesorem. Równorzêdne procesy i w¹tki które s¹ z sob¹ w pewien sposób powi¹zane powinny byæ uruchamiane na grupach proceso-rów, które na przyk³ad dziel¹ tê sam¹ pamiêæ. Polityka migracji stron pamiêci, bazuj¹ca na wykorzystaniu statystyki dla tych stron które s¹ czêsto u¿ywane, mo¿e w pewnym stopniu równie¿ minimalizowaæ dalekie odwo³ania do pamiêci operacyjnej i podrêcznej. Algorytmy zapewniaj¹ce afinicznoœæ (powinowactwo) procesora i pamiêci s¹ z³o¿one, lecz wa¿nym jest uœwiadomienie sobie i¿ do pozytywnego wyniku badañ prowadz¹cych do wydajnych i skalowalnych sys-temów wieloprocesorowych wnios³y równie wiele rozwi¹zania architekturowe jak i oprogramowane.

TABELA ODPOWIEDNIOŒCI ARCHITEKTURY DO RODZAJU APLIKACJI (najlepsza dla a, najgorsza dla d).

General Purpose OLTP

Smal to large Scale DSS (up to 1 TB)

Large to Very Large Scale DSS (TB+)

SMP A A C NUMA B B/A B/A MPP D D B Parallel SMP C A A

SMP

HACccNUMA

Parallel SMP

MPP?

Komercyjne architektury komputerowe........ Która jest najlepsza???

Rys.3.2.3.1 Taksonomia komercyjnych architektur komputerowych

DWIE STRATEGIE PODEJŒCIA DO REALIZACJI PSMP

W ramach istniej¹cych na rynku produktów zgodnych z dwoma rekomendowanymi architekturami SMP i PSMP nale¿y wydzieliæ dwie strategie podejœcia do ich realizacji. Wynikaj¹ one g³ównie z mocy procesorów na których bazuja architektury. W przypadku procesorów o wiêkszej mocy obli-czeniowej dominuje tendencja tworzenia architektur SMP o mniejszej liczbie procesorów (np. IBM SP, HP V-Class), podczas gdy dla procesorów s³abszych pojedyncze wêz³y SMP zawieraj¹ ich znacz-nie wiêcej (Sun UE). Nale¿y jednak zwróciæ uwagê na nastêpuj¹ce aspekty. • W przypadku architektury SMP opartej o interface CPU-pamiêæ-I/O, wzrost liczby CPU powodu-

je zwiêkszenie siê “t³oku” (na szynie, lub prze³¹cznicy krzyzowej), a co za tym idzie zwi¹zane z tym opóŸnienie dostêpu CPU do zasobów i stosowanie z³o¿onych protoko³ów komunikacji (szyna) i me-chanizmów routingu (crossbar) zapobiegaj¹cych zjawisku tzw. “zatkania” (deadlock).

• Mniejsza liczba CPU zapewnia lepsz¹ skalowalnoœæ (liniowy wzrost wydajnoœci w zale¿noœci od rosn¹cej liczby procesorów) i lepsze wykorzystanie ka¿dego z CPU.

• Ka¿de zwiêkszenie iloœci CPU powoduje wzrost ceny wêz³a SMP • Wzrost iloœci tak wa¿nych komponentów jakimi s¹ CPU powoduje zwiêkszenie iloœci tzw. single

points of failure obni¿aj¹c stopieñ dostêpnoœci (niezawodnoœci sprzêtu) • £¹czenie wêz³ów SMP w PSMP w przypadku mniejszej liczby CPU w wêŸle, u³atwia komunikacjê

pojedynczego CPU z pamiêci¹ znajduj¹c¹ siê na innym wêŸle SMP.

TYPOWI REPREZENTANCI KLAS SERWERÓW

Serwery SMP (middle range)

Compaq 6500/7000 6/200 DEC 8400 IBM J50/R50 SUN UE6000 HP K570

Serwery SMP (high-end)

Sun Enterprise 6000 Sun Enterprise 10000 HP V2200 HP V2250 NCR 4300S IBM RS 6000/S70

Serwery HAC (du¿e centra danych)

Sun Enterprise Cluster Sun Enterprise Cluster HA 1.3 HP HA (2-16) nodes K570

Serwery PSMD (du¿e centra danych)

IBM SP 309 EPS23 4node w/6-way K570 SGI NUMA NCR 5150M

Podstawowym problemem, jaki pojawia sie w osrodkach komputerowych jest dlugotrwale przechowywa-nie rosnacej ilosci informacji. Mimo systematycznego spadku cen pamieci dyskowej rosnace zapotrze-bowanie powoduje, ze wydatki na masowa pamiec dyskowa przybieraja coraz wieksze rozmiary. Drugim problemem zwiazanym z dostepem do danych jest ich ochrona przed utrata lub zniszczeniem. Zagadnienie to jest zwlaszcza istotne w przypadku informacji o duzej wartosci np. komercyjnej, która wy-maga trwalej i pewnej archiwizacji. Powszechnie stosowana metoda zagwarantowania dostepnosci danych w przypadku, gdy dane pamietane na dyskach ulegna zniszczeniu lub zostana utracone, jest tworzenie kopii bezpieczenstwa (backup). W malych systemach komputerowych czesto spotykane jest reczne tworzenie kopii bezpieczenstwa na po-jedynczych tasmach. Jednakze kazda profesjonalna i dbajaca o bezpieczenstwo swoich danych instytucja powinna posiadac mozliwosc trwalego gromadzenia i zabezpieczenia danych. Mozliwosc taka oferuja nowoczesne, zautomatyzowane systemy pamieci masowych pracujace z wykorzystaniem napedów tasmowych, dysków magneto-optycznych (wielokrotnego zapisu) lub dysków typu WORM. Biblioteki takie nie tylko gwarantuja pewnosc i bezpieczenstwo danych w Panstwa systemie komputero-wym, ale jednoczesnie stwarzaja mozliwosc praktycznie nieograniczonej przestrzeni dyskowej za posred-nictwem hierarchicznego systemu zarzadzania zasobami (Hierarchical Storage Management – HSM).

Ilosc danych uzywanana w ciagu ostatnich 90-u dni

30%

Ilosc danych uzywana w ciagu ostatniego roku

10%

Ilosc danych uzywana w ciagu ostatnich 30-u dni

20%

Ilosc danych nie uzywana w ciagu ostatniego roku

40%

Najistotniejszymi problemami sa: • brak pamieci,

• utrata danych przez uzytkownika. Wydaje sie, ze problemy te sa trudne do unikniecia przy ograniczonych srodkach. Koszty obslugi danych ksztaltuja sie w nastepujacy sposób:

Koszt odtworzenia 1,000 – 5,000 $ / MB Koszt zarzadzania 15 – 35 $ / MB

Koszt przechowywania ponizej 1 $ / MB

Ponizsza tabela przedstawia dostepne media, ich orientacyjne ceny oraz typowe czasy dostepu do danych.

Medium Pojemnosc Czas dostepu

Koszt 1MB (USD)

Koszt czytnika (USD)

Pamiec statyczna RAM — 10–20 ns 120–200 — Pamiec dynamiczna — 50–100 ns 30–50 — Dysk sztywny 0.5–20 GB 8–15 ms 0.2–1 — Macierze dyskowe RA- 0.01–1 TB 8–15 ms 1–5 — Dysk magneto- 0.6–2.6 GB 25–100 ms 0.02–0.05 1,000–2,000 Dysk optyczny WORM 0.6–2.6 GB 150 ms 0.05 1,000–2,000 Dysk optyczny CD- 0.65 GB 100–150 ms 0.005 100–1,000 Tasmy magnetyczne 1–20 GB 25–200 s 0.01–0.1 500–2,000 Tasmy magnetyczne 1–35 GB 45–100 s 0.004 3,000–6,000 Biblioteki optyczne 0.01–1 TB 20–40 s 0.005 > 20,000 Biblioteki tasmowe DLT 1–40 TB 1–2 min 0.004 > 50,000 Biblioteki magneto- 0.1–1 TB 10–30 s 0.2–0.5 > 50,000 Biblioteki tasmowe VHS Peta Bytes minuty 0.003 > 1mln

Tradycyjne srodki zapisu i przechowywania informacji

Pamieci pólprzewodnikowe (tzw. solid state disks) to media uzywane jako pamiec podreczna dla syste-mów RAID. Cechuje je równie duza predkosc, jak i cena. Systemy RAID (macierze dyskowe), na pewno konieczne w kazdym profesjonalnym srodowisku, sa jed-nak bardzo drogie przy wiekszych pojemnosciach. Dyski sztywne – mniej pewne, lecz tansze od systemów RAID. Sa ciagle za drogie, by sprostac rosnacym zapotrzebowaniom. Tasmy magnetyczne oraz napedy z ruchoma glowica (helical scan, np. 4 i 8 mm – powszechnie stoso-wane dzisiaj do kopii bezpieczenstwa) cechuja sie niewielka cena, stosunkowo duza pojemnoscia oraz umiarkowanie wolnym dostepem. Tasmy magnetyczne oraz napedy z nieruchoma glowica sa nieco drozsze, lecz bardziej pojemne od czytników z ruchoma glowica. Jednak ich najwazniejsza. cecha jest to, ze sa duzo wytrzymalsze w eksploatacji. Dyski magneto-optyczne cechuje niezwykla trwalosc i niezawodnosc nosnika a takze stosunkowo krótki czas dostepu, co rekompensuje w znacznym stopniu fakt, ze posiadaja mniejsza pojemnosc i w zwiazku z tym wyzszy koszt przechowywania 1 MB informacji niz w przypadku tasm, Czytniki w standardzie VHS – na pewno najpewniejsze i najbardziej profesjonalne z mediów – napedy osiagaja ceny rzedu 200 tys. USD. Tak wiec (na razie) nie wydaja sie byc ekonomicznym rozwiazaniem.

Ponizsza tabela przedstawia jeszcze jedno porównanie parametrów mediów:

1/2" 0.02–0.45 0.2–1 minuty 0.1

QIC(1.4") 0.06–1.35 0.60 35 s 0.1

8mm (Exabyte)

7 0.50–1.00 minuty 2,000 1,500 0.1

8mm Mamooth

20 3.0 20 s 35,000 20,000

DAT 4mm

1–4 0.54 25 s 2,000 5,000 0.1

WORM 2 0.5 0.15 s 0.5

MO 2 0.5 0.05 s 0.5–4

DLT Quantum

35 5.00 45 s 30,000 1,000,000 0.1

IBM 3490 0.4–0.8 3.00–4.00 15 s 0.5

IBM 3590 10 9

NCTP (Philips)

20–40 5 20 s 12,000

VHS (SONY)

14.5–29 2.0–40 20 s 10,000

Warto zwrócic uwage na fakt, ze podane w tabeli pojemnosci nie uwzgledniaja kompresji, która moze zwiekszyc pojemnosc dwu lub nawet czterokrotnie

Technologia helican scan zapisuje dane w ukosnych sciezkach uzywajac obrotowej glowicy bebnowej i powolnego mechanizmu napedzajacego, co sprawia, iz charakteryzuje sie duza pojemnoscia ale sto-sunkowo niskimi osiagami.

Idea zapisu tasmy w technologii helical scan

Idea zapisu tasmy w technologii DLT

Liniowe napedy tasmowe uzywajac stacjonarnej glowicy osiagaja predkosc 100–150 cali na sekunde podczas operacji od-czytu i zapisu oraz uzyskuja wieksza predkosc przy operacjach wyszukiwania. Technologia równoleglego zapisu pozwala na dodawanie nowych elementów do glowicy, co pozwala na zwiekszenie poziomu transferu – do 5 MB/s. Obecne produk-ty DLT zapisujac dwa kanaly równolegle przy uzyciu dwóch elementów w glowicy uzyskuja efektywne podwojenie trans-feru przy ustalonej szybkosci napedu i gestosci zapisu.

Near-Line Storage czyli media o dostepie posrednim. Co oznacza to nowe sformulowanie? Wiemy na pewno co to sa media o dostepie bezposrednim (on-line storage). To takie media jak dyski sztywne, gdzie nosnik nie jest wymienny, a dostep to niego jest bardzo szybki. Media bez dostepu bezposredniego (off-line storage) to takie, gdzie trzeba wlozyc nosnik (np. tasme czy dysk/dyskietke ) do napedu. Natomiast media o dostepie posrednim (near-line storage), to taka grupa mediów, gdzie do-step do nosnika nie jest natychmiastowy. Nastepuje on po wlozeniu tasmy lub dysku do czytnika w zautomatyzowany sposób. Najistotniejszymi przykladami takich mediów sa zautomatyzowane biblioteki tasmowe (automated tape libraries) oraz biblioteki dysków magneto-optycznych (optical jukebox).

Zautomatyzowane biblioteki posiadaja 3 istotne elementy: • magazyn nosników (tasm lub dysków), • naped(y) nosników, • robot umozliwiajacy pobranie nosnika z magazynu oraz zaladowanie go do napedu

i odwrotnie. Obecnie wiekszosc centrów komputerowych w Polsce posiada kilkadziesiat a nawet kilkaset GB pamieci dyskowych. Zautomatyzowane biblioteki tasmowe dostarczaja pojemnosci mie-rzonych w tysiacach gigabajtów – terabajtach.

Osrodki komputerowe nieustannie napotykaja na nastepujace problemy: • przechowywanie coraz wiekszych ilosci danych,

• archiwizacja danych celem zabezpieczenia ich przed utrata.

Rozwiazaniem obu problemów jest zastosowanie bibliotek z systemem automatycznej zmiany mediów pracujacych pod kontrola oprogramowania hierarchicznego systemu za-rzadzania zasobami (Hierarchical Storage Management – HSM) pozwalajacego na udo-stepnianie zarchiwizowanych danych w taki sposób, jakby znajdowaly sie w pamieci ma-sowej o dostepie bezposrednim (na dysku). Taki transparentny system archiwizacji danych sklada sie z kombinacji nastepujacych elementów:

• zautomatyzowanej biblioteki tasmowej oraz/lub biblioteki dysków magneto-optycznych, • oprogramowania hierarchicznego systemu zarzadzania zasobami, • serwera (lub stacji roboczej) dla w/w oprogramowania.

Ogólna koncepcja systemu archiwizacji danych

Przy dokonywaniu wyboru rozwiazan sprzetowo programowych dla systemu archiwizacji nalezy brac pod uwage nastepujace aspekty: • trwalosc nosnika danych; • poziom technologiczny i trwalosc urzadzen obslugujacych nosnik (napedów oraz robotyki); • pojemnosc i przepustowosc urzadzen archiwizujacych; Rozwiazaniem optymalnym pod wzgledem kosztu przechowywania w przeliczeniu na jednostke informacji jest zastosowanie zautomatyzowanych bibliotek tasmowych DLT jako zasadniczego elementu systemu archiwizacji. Uzyskuje sie w ten sposób bardzo duza pojemnosc oraz prze-pustowosc. Ewentualne zastosowanie w systemie archiwizacji dodatkowo biblioteki dysków magneto-optycznych (pelniacej role elementu posredniczacego w hierarchii migracji danych), jakkolwiek nie wplynelo by znaczaco na pojemnosc systemu, to jednak pozwolilo by zasadniczo skrócic czas dostepu do zarchiwizowanych danych. Zaleta takiego rozwiazania jest równiez duza trwa-losc informacji zapisanej na dyskach magneto-optycznych.

Nosnik danych

Wymagania duzej trwalosci nosnika danych przy umiarkowanym koszcie jego zakupu i eksploatacji jednoznacznie wska-zuja na technologie DLT. Specyfikacje zywotnosci tasm rzedu 30-tu lat lub 1 miliona pelnych przewiniec oraz brak wyste-powania zjawiska stopniowej degradacji nosnika w miare jego eksploatacji – to glówne daja duzy margines bezpieczenstwa dla zapisywanych na nim informacji.

Urzadzenia obslugujace nosnik danych

W rozwiazaniach bibliotek tasmowych bazujacych na DLT zdecydowanie przoduje firma ATL Products, która opraco-wala zaawansowana technologie dedykowana dla operowania tym nosnikiem w sposób nie degradujacy jego trwalosci. Bi-blioteki ATL uzyskuja ponadto dobre wyniki pod wzgledem niezawodnosci robotyki – 2 000 000 MSBF (Mean Swaps Be-tween Failures). Napedy DLT stosowane w bibliotekach ATL poddawane sa selekcji pod wzgledem parametrów wplywa-jacych na ich trwalosc eksploatacyjna. Trwalosc glowic napedów DLT stosowanych w bibliotekach ATL wynosi 30 000 godzin odczytu/zapisu lub 500 000 pelnych przebiegów tasmy.

Pojemnosc i przepustowosc

Biblioteki tasmowe ATL moga wspólpracowac z trzema generacjami napedów: DLT2000XT, DLT4000 i DLT7000. Z punktu widzenia relacji ceny do pojemnosci oraz ceny do efektywnosci, najbardziej oplacalny jest zakup bibliotek tasmo-wych wyposazonych w najbardziej zaawansowane technologicznie napedy DLT7000 (pojemnosc tasmy 35 GB + sprzeto-wa kompresja danych, przepustowosc napedu 5 MB/s). Liczba napedów w jakie powinny byc wyposazone zautomatyzo-wane biblioteki uwarunkowana jest nie tylko docelowa przepustowoscia systemu archiwizacji pod wzgledem zapisu lub odczytu, lecz równiez koniecznoscia zapewnienia jednoczesnej obslugi kilku zadan dostepu do zarchiwizowanych informa-cji w przypadku gdy odwoluja sie one do róznych tasm.

Zautomatyzowane biblioteki tasmowe

Charakterystyka sprzetu Proponowany system archiwizacji zbiorów danych o wielkiej objetosci zawiera jako zasadniczy element robot firmy ATL Products dzialajacy w oparciu o napedy i tasmy w technologii DLT – Digital Linear Tape. Tasmy DLT zostaly zaprojektowane przez firme DEC, aby sprostac wspól-czesnym wymaganiom tworzenia kopii bezpieczenstwa i archiwizacji. Obecnie zyskaly one re-putacje wysokiej wydajnosci, pojemnosci i niezawodnosci. Wnikliwe testy przeprowadzone przez firme ATL wykazaly istnienie czterech kluczowych elementów, które w znaczacy sposób wplywaja na niezawodnosc bibliotek: • precision cartridge handling – inteligentne pozycjonowanie tasm w stosunku do napedów

zwane systemem IntelliGrip™ • redukcja wplywów wibracji i zaklócen zewnetrznych na prace robota • automatyczna kalibracja robota • zastosowanie najnowszych technologii w procesie produkcji robotów, co daje ATL znaczna przewage w stosunku do innych producentów m.in. pod wzgle-

dem niezawodnosci seryjnie produkowanych bibliotek

Automatyczna kalibracja Jako elementy odniesienia uzywane sa naped docelowy oraz port zaladunkowy; kalibracja wykonywana jest po do doinsta-lowaniu nowych elementów, nie wymaga precyzyjnego ustawiania recznego.

Mechanizm chwytania przedluzajacy czas uzytkowania Wiekszosc systemów chwyta tasmy z boków, co redukuje powierzchnie trzymania, zwiekszajac nacisk i redukujac ich zy-wotnosc. Intelli Grip natomiast wykorzystuje trzymanie z góry i z dolu, co jest znacznie korzystniejsze dla tasm.

Kontrola czasu i sily Zbyt szybkie wyciaganie tasmy moze spowodowac poszarpanie rozbiegówki. Z kolei, zbyt gwaltowne umieszczenie tasmy w napedzie moze powodowac wewnetrzne uszkodzenia. Precyzja doboru czasu oraz dokladnie kontrolowana sila, z która tasma jest wkladana badz wyciagana redukuja obciazenia napedu i zwiekszaja niezawodnosc systemu.

Bezposlizgowe wkladanie tasmy Czesto spotykanym rozwiazaniem jest przemieszczanie i umiejscawianie pojemnika z tasma poprzez przesuwanie go po powierzchni napedu. Powoduje to nadmierne scieranie sie powierzchni styku, poprzez które powstaje pyl mogacy powo-dowac bledy odczytu lub zapisu, utrudniajace uzyskanie odpowiedniej wydajnosci. Intelli Grip rozwiazuje ten problem po-przez wysoka precyzje wkladania oraz usuwania tasm, nie stosujac slizgania po prowadnicach lub powierzchni.

Automatyczny inwentarz tasm System zapewnia, ze oprogramowanie zawsze moze sprawdzic biezaca zawartosc biblioteki. Kazdorazowo po wlaczeniu zasilania lub po ingerencji uzytkownika nastepuje optyczne skanowanie zawartosci calej biblioteki (portów tasm, napedów, oraz portów wymiany). Kody paskowe etykiet oraz rodzaje pojemników (cartridge) sa zapamietywane w nieulotnej pamieci RAM w celu umozliwienia korzystania z nich przez oprogramowanie.

Biblioteki tasmowe ATL serii P1000

Biblioteki tasmowe ATL serii P1000 sa aktualnie najbardziej technologicznie zaawansowanym rozwiazaniem w zakresie robotów archiwizuja-cych malej i sredniej pojemnosci. Charakteryzuje je modularna budowa nazwana przez firme ATL Products „Prism Architecture”, dajaca szero-kie mozliwosci wyboru poczatkowej konfiguracji biblioteki oraz duza elastycznosc w zakresie rozszerzania jej funkcjonalnosci w przyszlosci.

Charakterystyka Cecha zasadnicza Prism Architecture jest zastosowanie standardowej magistrali PCI jako bazy oraz konstrukcja poszczególnych bloków funk-cjonalnych elektroniki robota na podobienstwo kart rozszerzen w komputerze PC. Podstawowym modulem jest glówny kontroler biblioteki. Modulami uzupelniajacymi moga byc róznego rodzaju interfejsy zewnetrzne (SCSI, Ethernet, ATM, etc.), dodatkowe kontrolery (np. monito-rujace prace biblioteki, routery danych), a nawet zintegrowane serwery archiwizacji. Dzieki takim rozwiazaniom mozliwe jest latwe dostoso-wywanie konfiguracji biblioteki do potrzeb i wymagan uzytkownika: od prostego robota sterowanego z komputera poprzez interfejs SCSI do samodzielnego i kompletnego systemu archiwizacji danych. W oferowanej w chwili obecnej pierwszej generacji bibliotek tasmowych serii P1000 wystepuja nastepujace elementy konfiguracji:

• pojemnosc 16 lub 30 tasm, • 2 do 4 napedów Quantum DLT 7000 • tasmy CompacTape IV o pojemnosci 35 GB • interfejs Fast & Wide Differential SCSI-2, • szeregowy interfejs diagnostyczny RS-232C, • panel kontrolny typu touch screen, • jednomiejscowy loader do tasm, • precyzyjny system robotyki IntelliGrip • zintegrowany czytnik kodów paskowych, • niewielki rozmiar (53cm × 45cm × 71cm), • niewielki pobór mocy (max 280 W).

Mozliwosci rozbudowy Rozbudowy bibliotek tasmowych P1000 mozna dokonywac przez uzupelnienie liczby tasm do 30 i liczby napedów do 4. Mozliwe jest równiez umieszczenie dwóch jednostek P1000 w specjalnej obudowie typu rackmount i zainstalowanie me-chanizmu przenoszenia tasm pomiedzy tymi jednostkami (passthrough). Zestawiona w ten sposób maksymalna konfigura-cja biblioteki moze miec pojemnosc do 2.1 TB i przepustowosc do 144 GB/h Rozbudowy funkcjonalnej biblioteki dokonuje sie przez instalacje lub wymiane specjalizowanych modulów w gniazdach rozszerzen PCI.

Parametry uzytkowe bibliotek i ich ceny Ponizej zestawiono najwazniejsze parametry uzytkowe i ceny oferowanych bibliotek tasmowych. Biorac pod uwage specy-fike planowanego zastosowania biblioteki jako podstawowego elementu systemu archiwizacji UniTree sugerujemy wybór wersji wyposazonych w 3 lub 4 napedy tasm.

ATL 2/30 DLT7000

2 30 1.05 TB 36 GB/h 43 925 USD

ATL 3/30 DLT7000

3 30 1.05 TB 54 GB/h 55 208 USD

ATL 4/30 DLT7000

4 30 1.05 TB 72 GB/h 66 308 USD

Przytoczone wartosci pojemnosci i przepustowosci nie uwzgledniaja sprzetowej kompresji, w jaka sa wyposazone napedy tasmowe DLT.

Parametry uzytkowe bibliotek i ich ceny

ATL 2/68

DLT7000

2 68 2.38 TB 36 GB/h 72 199 USD

ATL 4/68

DLT7000

4 68 2.38 TB 72 GB/h 94 582 USD

ATL 4/100

DLT7000

4 100 3.5 TB 72 GB/h 106 477 USD

ATL 7/100

DLT7000

7 100 3.5 TB 126 GB/h 139 777 USD

Przytoczone wartosci pojemnosci i przepustowosci nie uwzgledniaja sprzetowej kompresji, w jaka sa wyposazone nape-dy tasmowe DLT. Podane ceny nie zawieraja cla i podatku VAT.

Biblioteki dysków magneto-optycznych

Charakterystyka sprzetu

Jako rozwiazanie alternatywne lub uzupelniajace (komplementarne) w stosunku do bibliotek ta-smowych proponujemy zastosowanie zautomatyzowanych bibliotek dysków magneto-optycznych firmy Hewlett-Packard (HP) wspólpracujacych z dyskami wielokrotnego zapisu lub jednokrotnego zapisu (WORM). System archiwizacji zbiorów danych o wielkiej objetosci moze zawierac biblioteke dysków ma-gneto-optycznych (Optical Jukebox) jako element posredni w hierarchii migracji danych.

Mozliwosci wspólpracy

Biblioteka dysków magneto-optycznych jest urzadzeniem uniwersalnym, pozwalajacym na wspólprace praktycznie ze wszystkimi systemami komputerowymi wyposazonymi w odpowiedni interfejs SCSI, poczawszy od superkomputerów, a konczac na komputerach oso-bistych.

Biblioteki dysków magneto-optycznych HP SureStore Optical 40fx

Przedstawiane urzadzenia charakteryzuja sie nastepujacymi cechami: • do 2 napedów dysków magneto-optycznych, • pojemnosc 16 dysków (41.6 GB dla dysków po 2.6 GB) • sredni czas wymiany dysku 12 s • sredni czas dostepu (average seek time) 25 ms • interfejs single-ended lub differential SCSI-2, • rozmiar 50cm × 22cm × 75cm, • waga ok. 25 kg.

Parametry uzytkowe bibliotek i ich ceny

40fx 1Dr 1 16 41.6 GB 3.4 MB/s odczyt

1.7 MB/s. zapis 11 232 USD

40fx 2Dr 2 16 41.6 GB 6.8 MB/s. odczyt 3.4 MB/s zapis

15 291 USD

Rodzaje oprogramowania

I tak jak konieczny jest program do obslugi dysków na jakimkolwiek systemie opera-cyjnym, tak konieczne jest oprogramowanie do obslugi zautomatyzowanych bibliotek.

Oprogramowanie to moze byc trojakiego rodzaju:

• backup, czyli kopia bezpieczenstwa, • archive, czyli archiwizacja, • HSM – czyli hierarchiczny system zarzadzania zasobami.

Backup

Stosunkowo proste oprogramowanie, pozwalajace na automatyczne tworzenie kopii bezpie-czenstwa zasobów dyskowych komputera. Automatyzacja kopii zabezpieczajacych pozwala na tworzenie kopii:

• odpowiednich zbiorów / katalogów, • w odpowiednim czasie (np. w nocy), • w odpowiednich ilosciach (np. kilka kopii na raz). Oprogramowanie tego rodzaju dostepne jest na wiele róznorodnych platform sprzetowych. In-stalacje mozna przeprowadzic zarówno na duzych systemach zarzadzanych przez system opera-cyjny Unix, jak i na komputerach typu PC w srodowiskach Windows, Novell Netware. Warto tutaj zauwazyc, iz istnieja pakiety oprogramowania obslugujace profesjonalne urzadzenia ar-chiwizujace takie jak biblioteki tasmowe oraz biblioteki dysków magneto-optycznych dla kom-puterów PC. Umozliwia to budowanie malych systemów tworzenia kopii bezpieczenstwa po ni-skich kosztach. Wiele systemów typu backup dedykowanych dla srodowiska Unix wspólpracuje z komputerami typu PC jako klientami. Dzieki takiemu podejsciu uzyskujemy latwosc integracji procesów two-rzenia kopii bezpieczenstwa róznorodnych systemów.

Archive Oprogramowanie pozwalajace na archiwizacje zbiorów. Posiada ono cechy oprogramowania backup oraz dodatkowo pozwala na kontrole czasu przechowywania zbiorów. Tak jak backup jest jedynie srodkiem do zabezpieczenia zasobów znajdujacych sie na dyskach, tak archiwizacja to przechowanie zbioru na wolniejszym (niz twardy dysk) nosniku przez pewien okreslony (przez uzytkownika lub operatora) czas. Sa one dedykowane do konkretnych zastosowan i w zwiazku z tym wykazuja duze zróznicowa-nie spotykanych rozwiazan w zaleznosci od dziedziny wykorzystania. Wazniejsze zastosowania zwiazane sa z tematyka rzadowa, medyczna, inzynieryjna, finansowa, bankowa oraz zarzadzania przedsiebiorstwem.

Hierarchical Storage Management Hierarchiczny system zarzadzania zasobami (HSM) jest najbardziej zaawansowana forma prze-chowywania danych na nosnikach o dostepie posrednim. HSM sam decyduje o tym, które dane powinny rezydowac na poszczególnych rodzajach nosni-ków (poziomach hierarchii), w zaleznosci od ich objetosci i czestotliwosci wykorzystywania oraz pojemnosci dostepnych zasobów. System ten pozwala na udostepnienie uzytkownikom i aplikacjom zasobów pamieciowych zautomatyzowanych bibliotek za posrednictwem wirtualne-go systemu plików zapewniajacego calkowita transparentnosc i jednolitosc odwolan do zbiorów znajdujacych sie na róznych poziomach hierarchii. Dzieki temu HSM cechuje sie duza uniwer-salnoscia zastosowan. Ponadto nie posiada on typowych ograniczen narzucanych przez popularne systemy operacyjne na obslugiwane systemy plików (calkowita pojemnosc, maksymalna wielkosc pliku, maksymal-na liczba plików). HSM jest systemem dynamicznej migracji danych z dysków bezposredniego dostepu na media o dostepie posrednim (near-line) i odwrotnie.

System HSM jest przewaznie uruchamiany na serwerze, do którego jest bezposrednio podlaczo-na zautomatyzowana biblioteka. Serwer taki, bedac dolaczony do sieci komputerowej udostep-nia zasoby biblioteki innym komputerom w sieci. Klientami takiego systemu podobnie jak w przypadku oprogramowania backup moga byc za-równo systemy typu Unix jak i PC. Dostep do zasobów HSM odbywa sie poprzez standardowe protokoly sieciowe FTP lub NFS. Mozliwe jest stworzenie dedykowanych aplikacji wykorzystu-jacych szybkosc polaczenia FTP i dostosowanych zarazem do konkretnych potrzeb. Polaczenie poprzez sieciowy system plików jest wprawdzie mniej efektywne od polaczenia FTP, ale daje wieksza wygode obslugi. NFS jest dostepny zarówno w srodowiskach Unix’owych, jak równiez w systemach Windows. W tym ostatnim przypadku konieczny jest zakup niedrogiego oprogra-mowania typu NFS-Client (np. InterDrive95, Samba-NFS, SunSoft PC-NFS).

Hierarchiczny system zarzadzania zasobami UniTree

System UniTree jest wynikiem 10-letnich badan i prac rozwojowych prowadzonych w Lawrence Livermore National Laboratory dla potrzeb rzadu USA oraz srodowisk akademickich. Jest on najbardziej kompletna implementacja standardu IEEE Mass Storage Reference Model Version 4. Pelne prawa do kodu zródlowe-go UniTree sa aktualnie w posiadaniu firmy UniTree Software Inc. UniTree jest zcentralizowanym systemem skladowania danych dla róznego rodzaju komputerów. Oprogra-mowanie to dostarcza kompatybilny z UNIX standard z hierarchicznym skladowaniem danych, automa-tycznym ich zarzadzaniem i wirtualna nielimitowana objetoscia. Jakkolwiek istnieja na rynku inne produk-ty wspomagajace systemy HSM, UniTree zyskalo sobie miano unikalnego oraz niezastapionego pod wie-loma wzgledami. Oferuje ono stosunkowo wysoka wydajnosc przy jednoczesnej duzej niezawodnosci, umozliwia skladowanie duzych zbiorów danych oraz praktycznie nie limitowanej ich liczby. Ponadto wy-korzystuje ono w pelni mozliwosci robotów archiwizujacych na których bazuje oraz dostepne jest na wiek-szosci liczacych sie platform sprzetowych. System UniTree jest widoczny dla uzytkownika jako standar-dowy UNIX-owy system plików z mozliwoscia dostepu poprzez FTP oraz NFS. Dzialajacy system UniTree sklada sie z wielu procesów (ang. daemons) wspólpracujacych interaktywnie poprzez gniazda BSD. Ich dzialanie nie wprowadza potrzeby modyfikacji w jadrze systemu operacyjnego, dzieki czemu uzyskuje sie duza niezaleznosc systemu archiwizacji od plaszczyzny systemowej.

UniTree zarzadza zasobami tworzac wielopoziomowa hierarchie na szczycie której znajduja sie dyski ma-gnetyczne. Glówna czesc tej przestrzeni dyskowej zarezerwowanej dla UniTree stanowi pamiec podreczna (disk cache) dla wiekszych objetosci danych znajdujacych sie na nizszych szczeblach hierarchii: dysków optycznych lub bibliotek tasmowych. Wszystkie pliki UniTree tworzone rezyduja poczatkowo w pamieci podrecznej. Po uplywie pewnego czasu pliki te sa kopiowane na media drugiego poziomu hierarchii w ilosci kopii okreslonej przez uzytkownika. Proces ten zwany jest migracja. Pliki pozostaja w pamieci dyskowej cache do momentu kiedy zajetosc dysków przekroczy pewien próg. Wówczas dane z rzadziej uzywanych plików zostaja usuniete z pamieci cache celem zrobienia miejsca dla nowych plików. Proces ten nazywa sie wypróznianiem (ang. purging). W procesie tym biora udzial algorytmy rozwazajace wiel-kosc plików oraz czas jaki minal od ostatniego ich uzycia. Pliki, które zostaly usuniete z pamieci cache sa nadal widoczne w przestrzeni katalogów uzytkownika. Za-wartosc tych plików znajduje sie jednak wylacznie na nosnikach zewnetrznych do momentu, kiedy uzyt-kownik wykona próbe odczytu tej zawartosci. Proces domagajacy sie pliku ulega zawieszeniu na czas kiedy urzadzenie archiwizujace dokona zamontowania odpowiedniego nosnika w jednym z napedów i cala za-wartosc pliku zostanie wkopiowana z powrotem do pamieci cache. Wówczas zawartosc ta staje sie na no-wo dostepna. Opisany proces nazywa sie odtwarzaniem (ang. staging). Z punktu widzenia uzytkownika UniTree jest systemem plikowym o nieograniczonej wielkosci. Jego we-wnetrzne mechanizmy sa calkowicie transparentne. Przyklad: pakiet oprogramowania HSM UniTree Central File Manager (UCFM) przeznaczony na kom-putery pracujace pod nadzorem systemu operacyjnego typu UNIX.

Charakterystyka pakietu UCFM

Pakiet UCFM jest dostepny w wersji na stacje robocze i serwery firm HP, SUN, SGI pracujace pod nadzo-rem systemu operacyjnego typu UNIX. Charakteryzuje sie nastepujacymi cechami: • automatyczna migracja i odtwarzanie zbiorów, • mozliwosc jednoczesnego zarzadzania nosnikami róznych typów • porzadkowanie zbiorów w bibliotekach pozwalajace odzyskac wolne miejsce na tasmach, • nielimitowana wielkosc i liczba plików, • mozliwosc tworzenia do 15 kopii pojedynczego zbioru w celu zwiekszenia bezpieczenstwa danych, • segregacja zbiorów pozwalajaca na wyizolowanie do 65536 grup zbiorów (ang. families), • mechanizm TrashCan pozwalajacy na odzyskiwanie usunietych zbiorów przez pewien czas od ich usu-

niecia, • praca ze standardowymi interfejsami sieciowymi HiPPI, Ethernet, FDDI, • praca z protokolami sieciowymi FTP i NFS

Licencja

System UniTree jest licencjonowany w zaleznosci od objetosci danych, które ma pomiescic. Przez te obje-tosc rozumie sie sume wielkosci zapisanych zbiorów pomnozonych przez liczbe ich kopii. Pierwsza zaku-piona licencja moze byc w kazdej chwili rozszerzona w miare rosnacych potrzeb.

Pojemnosc Cena licencji (USD)

1000 GB 18 000

2500 GB 30 000

5000 GB 54 000

7500 GB 66 000

10000 GB 72 000

25000 GB 102 000

ARCHITEKTURY KOMPUTERÓW -...

Documents

Transcript of ARCHITEKTURY KOMPUTERÓW -...