Windows

Planurile de date mari ale Facebook includ depozite, analize mai rapide

Vindeți până la sfârșitul anului

Vindeți până la sfârșitul anului
Anonim

Facebook poate să prețuiască datele pe care le are pentru cei un miliard de utilizatori pentru returnarea publicității, analiza efectuată de site pe aceste date este de așteptat să continue să provoace numeroase provocări în cursul anului următor, a spus un inginer.

Problemele pe care Facebook a fost nevoite să le lupte cu "mult mai devreme decât industria mai largă" modalități mai eficiente de a procesa comportamentul utilizatorilor pe site, cum să acceseze mai bine și să consolideze diferite tipuri de date în centrele multiple de date Facebook și să conceapă noi sisteme software open source pentru a procesa acele date, Ra "Facebook este o companie de date, iar cel mai evident lucru pe care oamenii il gandesc in acest sens sunt reclamele vizate", a declarat el la o conferinta de la San Francisco, vorbește despre infrastructura back-end a Facebook-ului, despre analizele de date și despre proiectele cu sursă deschisă.

[Citește mai departe: cele mai bune servicii de streaming TV]

"Dar merge mai profund decât acesta", a spus el. munca în spatele scenei se referă la infrastructura de analiză Facebook, care are rolul de a accelera dezvoltarea produsului și de a îmbunătăți experiența utilizatorului prin analiza profundă a tuturor datelor disponibile, fie că este vorba de acțiunile pe care le iau utilizatorii de pe site ca postarea actualizărilor de stare sau aplicațiile pe care le utilizează pe Facebook pe diferite dispozitive.

Facebook utilizează în prezent mai multe sisteme software open source, cunoscute sub numele de Hadoop, Corona și Prism, pentru a procesa și analiza datele pe care compania se va concentra asupra realizării mai rapid și mai eficient în următorii șase până la douăsprezece luni, a spus Murthy.

Multe dintre provocările companiei sunt legate de ceea ce Facebook se referă la depozitul său de date, care combină datele din mai multe surse într-o bază de date unde activitatea utilizatorilor poate fi analizată în ansamblu, cum ar fi oferind un raport zilnic cu privire la numărul de fotografii care au fost etichetate într-o anumită țară sau analizând câte utilizatori dintr-o anumită zonă s-au angajat cu paginile care le-au fost recomandate.

Analiza este proiectat pentru a optimiza experiențele utilizatorilor și pentru a afla ce preferă și nu le plac utilizatorii, dar devine tot mai impozabil, deoarece Facebook poate accesa tot mai multe date despre utilizatorii săi, a spus Murthy. În prezent, depozitul Facebook are nevoie de 500 de terabyte de date noi în fiecare zi sau 500.000 de gigabytes. Depozitul a crescut de aproape 4000 de ori în ultimii patru ani, "înaintea creșterii utilizării Facebook", a declarat Murthy.

Pentru a face față acestor probleme, Facebook a dezvoltat sistemul său software Prism, funcțiile de analiză cheie din cadrul centrelor de date ale companiei din întreaga lume și au împărțit analizele în "bucăți", a spus Murthy. În acest fel, efectuarea unei analize, de exemplu, a unei metrici referitoare la fluxurile de știri ale utilizatorilor nu va îngreuna depozitul în general.

"Ne gândim din ce în ce mai mult la cum să capturam aceste date", a spus el. > Compania lucreaza, de asemenea, la un sistem care are o abordare complet diferita de a interoga depozitul pentru a da un timp de raspuns intr-o chestiune de secunde, a spus Murthy.

O alta zona Facebook se uita continuu la imbunatatirea infrastructurii sale tranzactionale, "Care se ocupă de prelucrarea de zi cu zi, de zi cu zi, a comentariilor și a actualizărilor de stare, cum ar fi, de exemplu, de a plăti, pentru a menține buna funcționare a rețelei sociale. Unele dintre întrebările pe care inginerii și analiștii companiei o analizează sunt: ​​cum să prognozezi creșterea reală a acestui tip de date și cât de mult ar trebui calculat Facebook pentru el, spunea Murthy

"Putem anticipa ce va fi de șase luni de acum?", A spus el.

Între timp, Facebook este, de asemenea, implicat într-un efort pe termen lung de a face serverele fizice mai eficiente. Compania a început proiectul Open Compute în 2011, cu scopul de a proiecta servere modulare care oferă clienților un mai mare control asupra rețelelor, memoriei, surselor de alimentare și a altor componente care intră pe serverele lor. A fost extins pentru a include procesoare ARM în ianuarie.