Big Data&Analytics — February 2, 2016 at 8:06 pm

Google deschide Cloud Dataflow pentru toţi dezvoltatorii

by

google-cloud-dataflowGoogle lansează mai multe actualizări pentru produsele sale big data bazate în cloud, cu ocazia Hadoop Summit din Bruxelles. Printre aceste actualizări se numără lansarea versiunii beta a Cloud Dataflow, noul serviciu Google de procesare a volumelor foarte mari de date, precum şi actualizarea BigQuery, fapt care va face serviciul de bază de date al companiei disponibil pentru centrele de date europene ale Google şi va introduce pe piaţă accesul la nivel secvenţial.

Debutul Cloud Dataflow s-a produs în iunie anul trecut, dar până acum, serviciul a rămas în versiunea alfa privată. Din acest moment, orice dezvoltator interesat să încerce serviciul poate începe să-l folosească, însă din pricină că produsul este încă în fază beta, nu există deocamdată un Service Level Agreement.

Cloud Dataflow, care poate procesa datele atât în şiruri continue cât şi în formă de pachete distincte, scalează în mod automat, conform nevoilor dezvoltatorului, deşi este demn de remarcat aici că Google intenţionează să implementeze unele controale, astfel încât costurile să nu o ia razna atunci când un dezvoltator încarcă mai multe date în sistem decât este nevoie. Dezvoltatorii îşi scriu codul Cloud Dataflow o singură dată, după care Google le furnizează întreaga infrastructură de care au nevoie.

Dacă în cazul Cloud Dataflow se poate vorbi de o noutate, BigQuery este disponibil din 2010. Începând de acum, însă, utilizatorii îşi pot găzdui datele şi în centrele de date Google din Europa. Dată fiind îngrijorarea legată de suveranitatea datelor în Europa, este, de fapt, surprinzător că Google nu a lansat această facilitate mai devreme.
Cealaltă actualizare BigQuery se referă la faptul că baza de date suportă acum accesul la nivel secvenţial. Poate părea o actualizare minoră, dar este vorba, de fapt, de o caracteristică nouă foarte importantă.

În multe companii, diverse departamente trebuie în acest moment să acceseze aceleaşi date, însă în vreme ce departamentul de marketing ar putea avea nevoie să lucreze cu unele tabele şi grafice din baza de date, este posibil ca dumneavoastră să nu doriţi să le oferiţi angajaţilor de acolo acces la date sensibile de afaceri. În acest moment, o asemenea situaţie înseamnă, tipic, că IT-ul companiei va realiza o copie a datelor şi va împărţi această copie cu alt departament. Numai că, odată realizată această copie, seturile diferite de date nu mai sunt sincronizate.

Prin această actualizare, BigQuery poate ingera acum şi până la 100.000 de rânduri şi tabele pe secundă. Asta înseamnă multe informaţii, dar nu este vorba de un volum neobişnuit de mare atunci când se analizează fişiere uriaşe – o situaţie care a devenit una de uz obişnuit pentru BigQuery.

Setul curent de elemente Google legate de big data constă din BigQuery, Cloud Dataflow şi serviciul de mesagerie Cloud Pub/Sub. Dat fiind interesul Google şi expertiza acumulată intern în această zonă, şansele sunt să vedem şi alte actualizări şi instrumente noi pentru lucrul cu volume mari de date, cu ocazia Google I/O de luna viitoare.