Car-tech

Supercomputerele cele mai proaste sunt cele mai grele, cercetătorul sugerează

Lec-7 | Chapter-5 | છપ્પા/ ઉખાણાં | Gujarati | Class 11 Guj Med

Lec-7 | Chapter-5 | છપ્પા/ ઉખાણાં | Gujarati | Class 11 Guj Med

Cuprins:

Anonim

Pe măsură ce supercomputerele devin mai puternice, ele vor deveni și mai vulnerabile la eșec, datorită creșterii volumului de componente încorporate. Câțiva cercetători de la ultima conferință SC12 care a avut loc săptămâna trecută în Salt Lake City, Utah, au oferit soluții posibile pentru această problemă în creștere.

Sistemele de calcul de înaltă performanță (HPC) de astăzi pot avea 100.000 noduri sau mai mult - componente de memorie, procesoare, autobuze și alte circuite. Din punct de vedere statistic, toate aceste componente vor eșua la un moment dat și vor opri operațiunile când vor face acest lucru, a declarat David Fiala, student în cadrul Universității de Stat din Carolina de Nord, în timpul unei discuții la SC12. unul nou, bineînțeles. Atunci când Laboratorul Național Lawrence Livermore, cu 600 de noduri ASCI (Accelerated Strategic Computing Initiative), a fost conectat online în 2001, a avut un timp mediu între eșecuri (MTBF) de doar cinci ore, datorită parțial eșecurilor componentelor. Mai tarziu, eforturile de tuning au imbunatatit MTBF-ul ASCI White la 55 de ore, a spus Fiala.

Dar pe masura ce numarul nodurilor supercomputerelor creste, tot asa se va intampla problema. "Trebuie să facem ceva în acest sens, se va înrăutăți pe măsură ce vom trece la exascale", a spus Fiala, referindu-se la modul în care supercomputerele din următorul deceniu sunt de așteptat să dețină de zece ori puterea computațională pe care o fac modelele actuale. pentru a face față eșecului sistemului nu poate să scadă foarte bine, a spus Fiala. El a citat punctul de control, în care un program rulat este temporar oprit și starea sa este salvată pe disc. În cazul în care programul se prăbușește, sistemul poate relua lucrarea de la ultimul punct de control.

NCSUDavid Fiala

Problema cu punctul de control, conform lui Fiala, este că, pe măsură ce crește numărul de noduri, necesar pentru a face checkpoint-ul crește și - și crește într-o rată exponențială. Pe un supercomputer de 100.000 de noduri, de exemplu, doar aproximativ 35% din activitate va fi implicată în efectuarea lucrărilor. Restul va fi preluat de verificarea punctelor de control și, în cazul unei operațiuni de recuperare a sistemului, Fiala estimată.

Datorită întregului hardware suplimentar necesar sistemelor exascale, care ar putea fi construite dintr-un milion sau mai multe componente, pentru a fi imbunatatita de 100 de ori pentru a pastra acelasi MTBF pe care supercalculatoarele de astazi se bucura, a spus Fiala.

Fiica a prezentat o tehnologie pe care si-a dezvoltat-o ​​impreuna cu colegii sai care ar putea ajuta la imbunatatirea fiabilitatii. Tehnologia abordează problema corupției datelor silențioase, când sistemele fac erori nedetectate, scriind date pe disc.

Practic, abordarea cercetătorilor constă în a rula simultan mai multe copii sau "clone" ale unui program și apoi a compara răspunsurile. Software-ul, numit RedMPI, se execută împreună cu Interfața de transmitere a mesajelor (MPI), o bibliotecă pentru divizarea aplicațiilor care rulează pe mai multe servere, astfel încât diferitele părți ale programului să poată fi executate în paralel.

RedMPI interceptează și copiază fiecare MPI mesajul pe care o trimite o aplicație și trimite copii ale mesajului către clona (sau clonele) programului. Dacă clonele diferite calculează răspunsuri diferite, atunci numerele pot fi recalculate în zbor, ceea ce va economisi timp și resurse de la rularea întregului program din nou

"Implementarea redundanței nu este costisitoare, poate fi mare în numărul de contoare de bază care sunt necesare, dar evită nevoia de rescrieri cu restarturi de control ", a spus Fiala. "Alternativa este, desigur, să reînsuflețim pur și simplu posturile până când credeți că aveți răspunsul corect".

Fiala a recomandat să fie difuzate două copii de rezervă ale fiecărui program, pentru redundanță triplă. Deși difuzarea mai multor copii ale unui program ar avea inițial mai multe resurse, cu timpul ar putea fi efectiv mai eficient, din cauza faptului că programele nu ar trebui să fie reluate pentru a verifica răspunsurile. De asemenea, este posibil ca punctul de control să nu fie necesar când se execută mai multe copii, ceea ce ar economisi și pe resursele sistemului.

"Cred că ideea de a face redundanță este de fapt o idee grozavă. Pentru calcule foarte mari, care implică sute de mii de noduri, este cu siguranță o șansă ca erorile să se strecoare", a spus Ethan Miller, profesor de informatică la Universitatea din California Santa Cruz, care a participat la prezentare. Dar el a spus că abordarea ar putea să nu fie potrivită având în vedere cantitatea de trafic din rețea pe care o astfel de redundanță ar putea să o creeze. El a sugerat sa ruleze toate aplicatiile pe acelasi set de noduri, ceea ce ar putea reduce traficul intern.

Intr-o alta prezentare, Ana Gainaru, un doctorat de la Universitatea Illinois din Urbana-Champaign, a prezentat o tehnica de analiza a log fișiere pentru a prezice când vor apărea defecțiuni ale sistemului.

Lucrarea combină analiza semnalului cu data mining. Analiza semnalului este utilizată pentru a caracteriza comportamentul normal, astfel că, atunci când apare un eșec, acesta poate fi văzut cu ușurință. Mineritul de date caută corelații între eșecurile raportate separate. Alți cercetători au arătat că eșecurile multiple sunt uneori corelate unul cu celălalt, deoarece un eșec cu o singură tehnologie poate afecta performanța în altele, potrivit lui Gainaru. De exemplu, atunci când o cartelă de rețea nu reușește, va derula în curând alte procese de sistem care se bazează pe comunicațiile de rețea.

Cercetătorii au descoperit că 70% dintre eșecurile corelate oferă o fereastră de oportunități de peste 10 secunde. Cu alte cuvinte, atunci când a fost detectat primul semn al unui defect, sistemul poate avea până la 10 secunde pentru a-și salva munca sau pentru a muta lucrarea într-un alt nod, înainte de apariția unui defect mai critic. "Predicția de defecțiuni poate fi îmbinată cu alte tehnici de toleranță la erori", a spus Gainaru.

Joab Jackson acoperă știrile de ultimă oră pentru

IDG News Service

. Urmăriți-l pe Joab pe Twitter la @ Joab_Jackson. Adresa de e-mail a lui Joab este [email protected]