Supercomputerele cele mai proaste sunt cele mai grele, cercetătorul sugerează

Lec-7 | Chapter-5 | છપ્પા/ ઉખાણાં | Gujarati | Class 11 Guj Med

Cuprins:

RedMPI interceptează și copiază fiecare MPI mesajul pe care o trimite o aplicație și trimite copii ale mesajului către clona (sau clonele) programului. Dacă clonele diferite calculează răspunsuri diferite, atunci numerele pot fi recalculate în zbor, ceea ce va economisi timp și resurse de la rularea întregului program din nou

Pe măsură ce supercomputerele devin mai puternice, ele vor deveni și mai vulnerabile la eșec, datorită creșterii volumului de componente încorporate. Câțiva cercetători de la ultima conferință SC12 care a avut loc săptămâna trecută în Salt Lake City, Utah, au oferit soluții posibile pentru această problemă în creștere.

Sistemele de calcul de înaltă performanță (HPC) de astăzi pot avea 100.000 noduri sau mai mult - componente de memorie, procesoare, autobuze și alte circuite. Din punct de vedere statistic, toate aceste componente vor eșua la un moment dat și vor opri operațiunile când vor face acest lucru, a declarat David Fiala, student în cadrul Universității de Stat din Carolina de Nord, în timpul unei discuții la SC12. unul nou, bineînțeles. Atunci când Laboratorul Național Lawrence Livermore, cu 600 de noduri ASCI (Accelerated Strategic Computing Initiative), a fost conectat online în 2001, a avut un timp mediu între eșecuri (MTBF) de doar cinci ore, datorită parțial eșecurilor componentelor. Mai tarziu, eforturile de tuning au imbunatatit MTBF-ul ASCI White la 55 de ore, a spus Fiala.

Dar pe masura ce numarul nodurilor supercomputerelor creste, tot asa se va intampla problema. "Trebuie să facem ceva în acest sens, se va înrăutăți pe măsură ce vom trece la exascale", a spus Fiala, referindu-se la modul în care supercomputerele din următorul deceniu sunt de așteptat să dețină de zece ori puterea computațională pe care o fac modelele actuale. pentru a face față eșecului sistemului nu poate să scadă foarte bine, a spus Fiala. El a citat punctul de control, în care un program rulat este temporar oprit și starea sa este salvată pe disc. În cazul în care programul se prăbușește, sistemul poate relua lucrarea de la ultimul punct de control.

NCSUDavid Fiala

Problema cu punctul de control, conform lui Fiala, este că, pe măsură ce crește numărul de noduri, necesar pentru a face checkpoint-ul crește și - și crește într-o rată exponențială. Pe un supercomputer de 100.000 de noduri, de exemplu, doar aproximativ 35% din activitate va fi implicată în efectuarea lucrărilor. Restul va fi preluat de verificarea punctelor de control și, în cazul unei operațiuni de recuperare a sistemului, Fiala estimată.

Datorită întregului hardware suplimentar necesar sistemelor exascale, care ar putea fi construite dintr-un milion sau mai multe componente, pentru a fi imbunatatita de 100 de ori pentru a pastra acelasi MTBF pe care supercalculatoarele de astazi se bucura, a spus Fiala.

Fiica a prezentat o tehnologie pe care si-a dezvoltat-o impreuna cu colegii sai care ar putea ajuta la imbunatatirea fiabilitatii. Tehnologia abordează problema corupției datelor silențioase, când sistemele fac erori nedetectate, scriind date pe disc.

Practic, abordarea cercetătorilor constă în a rula simultan mai multe copii sau "clone" ale unui program și apoi a compara răspunsurile. Software-ul, numit RedMPI, se execută împreună cu Interfața de transmitere a mesajelor (MPI), o bibliotecă pentru divizarea aplicațiilor care rulează pe mai multe servere, astfel încât diferitele părți ale programului să poată fi executate în paralel.

RedMPI interceptează și copiază fiecare MPI mesajul pe care o trimite o aplicație și trimite copii ale mesajului către clona (sau clonele) programului. Dacă clonele diferite calculează răspunsuri diferite, atunci numerele pot fi recalculate în zbor, ceea ce va economisi timp și resurse de la rularea întregului program din nou

"Implementarea redundanței nu este costisitoare, poate fi mare în numărul de contoare de bază care sunt necesare, dar evită nevoia de rescrieri cu restarturi de control ", a spus Fiala. "Alternativa este, desigur, să reînsuflețim pur și simplu posturile până când credeți că aveți răspunsul corect".

Fiala a recomandat să fie difuzate două copii de rezervă ale fiecărui program, pentru redundanță triplă. Deși difuzarea mai multor copii ale unui program ar avea inițial mai multe resurse, cu timpul ar putea fi efectiv mai eficient, din cauza faptului că programele nu ar trebui să fie reluate pentru a verifica răspunsurile. De asemenea, este posibil ca punctul de control să nu fie necesar când se execută mai multe copii, ceea ce ar economisi și pe resursele sistemului.

"Cred că ideea de a face redundanță este de fapt o idee grozavă. Pentru calcule foarte mari, care implică sute de mii de noduri, este cu siguranță o șansă ca erorile să se strecoare", a spus Ethan Miller, profesor de informatică la Universitatea din California Santa Cruz, care a participat la prezentare. Dar el a spus că abordarea ar putea să nu fie potrivită având în vedere cantitatea de trafic din rețea pe care o astfel de redundanță ar putea să o creeze. El a sugerat sa ruleze toate aplicatiile pe acelasi set de noduri, ceea ce ar putea reduce traficul intern.

Intr-o alta prezentare, Ana Gainaru, un doctorat de la Universitatea Illinois din Urbana-Champaign, a prezentat o tehnica de analiza a log fișiere pentru a prezice când vor apărea defecțiuni ale sistemului.

Lucrarea combină analiza semnalului cu data mining. Analiza semnalului este utilizată pentru a caracteriza comportamentul normal, astfel că, atunci când apare un eșec, acesta poate fi văzut cu ușurință. Mineritul de date caută corelații între eșecurile raportate separate. Alți cercetători au arătat că eșecurile multiple sunt uneori corelate unul cu celălalt, deoarece un eșec cu o singură tehnologie poate afecta performanța în altele, potrivit lui Gainaru. De exemplu, atunci când o cartelă de rețea nu reușește, va derula în curând alte procese de sistem care se bazează pe comunicațiile de rețea.

Cercetătorii au descoperit că 70% dintre eșecurile corelate oferă o fereastră de oportunități de peste 10 secunde. Cu alte cuvinte, atunci când a fost detectat primul semn al unui defect, sistemul poate avea până la 10 secunde pentru a-și salva munca sau pentru a muta lucrarea într-un alt nod, înainte de apariția unui defect mai critic. "Predicția de defecțiuni poate fi îmbinată cu alte tehnici de toleranță la erori", a spus Gainaru.

Joab Jackson acoperă știrile de ultimă oră pentru

IDG News Service

. Urmăriți-l pe Joab pe Twitter la @ Joab_Jackson. Adresa de e-mail a lui Joab este [email protected]

Cumpărătorii de web savvy sunt mereu în căutarea cupoanelor care le pot economisi bani pe tehnologie. Dar toate codurile de cupon nu sunt create egale, iar cele mai bune dintre ele nu sunt distribuite masei. Iată cum este culesul ofertelor insiderilor - oferte care sunt destinate familiei, prietenilor, angajaților sau afiliaților dvs. și care pot reduce în mod semnificativ costul PC-urilor și al altor produse electronice.

Majoritatea vânzătorilor importanți au oferte cu oferte privilegiate sau exclusive, adesea rambursabile pe zone speciale ale site-urilor lor Web. Unele dintre aceste site-uri sunt mai accesibile decât altele: Magazinul de angajați și afiliați din Programul de achiziție al membrilor Dell nu pare să necesite nici o dovadă că sunteți un angajat sau afiliat, în timp ce Programul de achiziții al contractorului Lenovo va fi vândut oricui cu cuponul potrivit cod, ușor de găsit pe site-urile web deal. Î

48% Dintre suedezii sunt împotriva legii viitoare, în comparație cu 32% în favoarea acesteia, scrie suedezul Svenska Dagbladet, care a comandat raportul. o corelare clară între vârstă, sex și opoziție; 74% dintre bărbații cu vârste cuprinse între 15 și 29 ani sunt împotriva legii. Cele mai puțin negative sunt persoanele de peste 65 de ani; în acest grup, 27% sunt împotriva legii.

Există o mișcare de rădăcini împotriva legii, în special pe Web. De exemplu, grupul Facebook Stoppa IPRED (Stop IPRED) a avut peste 81 000 de membri în momentul votării, potrivit fondatorilor săi.

Deci sunt vesti proaste, iar apoi mai sunt vesti proaste. În primul rând, vestea proastă: vânzările de jocuri video din aprilie s-au îndreptat spre ceas în jurul a 550 de milioane de dolari, în scădere cu 17% față de anul trecut, spune analistul Wedbush Morgan, Michael Pachter. , în funcție de avantajul dvs. Păcatul rău este că ne uităm încă o dată la o lună de vânzări de mere în portocale. Guitar Hero: Metallica? Nașul II? Compania Eroilor: Tales of Valor? Evadați muzeul? Acesta este concursul

Cine e cel mai rău? Vânzările de software PS2 pe piața internă continuă să scadă ca un pian scăzut de pe un avion de marfă, în scădere cu 60% față de anul trecut - atât de mult încât WM spune că vânzările software-ului PS2 scad din rapoartele lunare ulterioare. numere:

Supercomputerele cele mai proaste sunt cele mai grele, cercetătorul sugerează

Lec-7 | Chapter-5 | છપ્પા/ ઉખાણાં | Gujarati | Class 11 Guj Med

Cuprins:

Articole interesante

Cele mai bune instrumente de programare pentru îndrumarea copiilor

3 cele mai bune instrumente de scriere de imagini USB activate cu GUI pe Linux

10 cele mai bune pluginuri utile Gutenberg Blocks pentru WordPress

3 mai multe alternative VoIP la Skype

Academix GNU/Linux

Instrumente pentru a accesa sistemul de fișiere Linux din Windows

Cele mai bune instrumente de programare pentru îndrumarea copiilor

3 cele mai bune instrumente de scriere de imagini USB activate cu GUI pe Linux

10 cele mai bune pluginuri utile Gutenberg Blocks pentru WordPress

Nokia, Nuance Aim Caracteristici voce la dezvoltatori

Acuzat Palin Hacker are o istorie a intruziunii

Tokyo Game Show Kicks-off cu numar record de jocuri

Supercomputerele cele mai proaste sunt cele mai grele, cercetătorul sugerează

Lec-7 | Chapter-5 | છપ્પા/ ઉખાણાં | Gujarati | Class 11 Guj Med

Cuprins:

Recomandat

Articole interesante