SERVICII GOOGLE CLOUD PENTRU PROIECTE DE DATE MARI

dis.agency
Publicat :2021-09-07 | Blog
SERVICII GOOGLE CLOUD PENTRU PROIECTE DE DATE MARI

Google Cloud Platform oferă diverse servicii pentru analiza datelor și aplicații Big Data. Toate aceste servicii sunt integrabile cu alte produse Google Cloud și toate au avantajele și dezavantajele lor. 

Acest articol va trece în revistă serviciile pe care Google Cloud Platform le poate oferi pentru aplicații de date și Big Data și ce fac aceste servicii. Vom verifica, de asemenea, ce beneficii și limitări au, strategia de preț a fiecărui serviciu și alternativele acestora.

Nor PubSub

Cloud PubSub este un broker de coadă de mesaje care permite aplicațiilor să facă schimb de mesaje în mod fiabil, rapid și asincron. Bazat pe modelul de publicare-subscriere

[Vizualizarea fluxului de lucru PubSub]

Diagrama de mai sus descrie fluxul de bază al PubSub. În primul rând, aplicațiile editorilor publică mesaje într-un subiect PubSub. Apoi, subiectul trimite mesaje către subscripțiile PubSub; subscripțiile stochează mesajele; aplicațiile de abonat citesc mesajele din subscripții.

Beneficii

  • Un strat de comunicare foarte fiabil
  • Capacitate ridicată

Limitări

  • 10 MB este dimensiunea maximă pentru un mesaj
  • 10 MB este dimensiunea maximă pentru o solicitare, ceea ce înseamnă că, dacă trebuie să trimitem zece mesaje pe solicitare, lungimea totală medie pentru fiecare notificare va fi de 1 MB.
  • Dimensiunea maximă a valorii atributelor este de 1 MB

Strategie de stabilire a prețurilor

Plătiți pentru datele transferate per GB.

Analogii și alternative

  • Apache Kafka
  • RabbitMQ
  • Amazon SQS
  • Azure Service Bus
  • Alți intermediari de mesaje deschide sursa

Nucleul cloud Google IoT

 

 

[Arhitectura Cloud IoT Core]

Cloud IoT Core este un registru de dispozitive IoT. Acest serviciu permite dispozitivelor să se conecteze la Google Cloud Platform, să primească mesaje de la alte dispozitive și să trimită mesaje către aceste dispozitive. Pentru a primi mesaje de la dispozitive, IoT Core utilizează Google PubSub.

Beneficii

  • Protocoale de transfer MQTT și HTTPS
  • Conectare și gestionare securizată a dispozitivelor

Strategie de stabilire a prețurilor

Plătiți pentru volumul de date pe care îl transferați prin acest serviciu.

Analogii și alternative

  • AWS IoT Core
  • Azure IoT

Norul Dataproc

 

Cloud Dataproc este o modalitate mai rapidă, mai ușoară și mai rentabilă de a rula Apache Spark și Apache Hadoop în Google Cloud. Cloud Dataproc este o soluție nativă pentru cloud care acoperă toate operațiunile legate de implementarea și gestionarea clusterelor Spark sau Hadoop. 

În termeni simpli, cu Dataproc, puteți crea un cluster de instanțe pe Google Cloud Platform, puteți modifica în mod dinamic dimensiunea clusterului, îl puteți configura și puteți rula sarcini MapReduce.

Beneficii

  • Implementare rapidă
  • Serviciul complet gestionat înseamnă că aveți nevoie doar de codul potrivit, fără muncă de operare
  • Redimensionați dinamic clusterul
  • Funcție de scalare automată

Limitări

  • Nu există posibilitatea de a alege o versiune specifică a cadrului utilizat
  • Nu puteți pune pe pauză/opri Data Proc Cluster pentru a economisi bani. Doar ștergeți clusterul. Este posibil să o faceți prin intermediul Cloud Composer
  • Nu puteți alege un manager de cluster, doar YARN

Strategia de stabilire a prețurilor

Plătiți pentru fiecare instanță utilizată, cu unele plăți suplimentare-Google Cloud Platform vă taxează pentru fiecare minut în care clusterul funcționează.

Analogii și alternative

  • Configurarea clusterului pe mașini virtuale
  • Amazon EMR
  • Azure HDInsight

Fluxul de date în nor

 

[Locul Cloud Dataflow într-o aplicație Big Data pe Google Cloud Platform]

Cloud Dataflow este un serviciu gestionat pentru dezvoltarea și executarea unei game largi de modele de procesare a datelor, inclusiv ETL, batch, procesare în flux etc. În plus, Dataflow este utilizat pentru construirea de conducte de date. Acest serviciu se bazează pe Apache Beam și suportă sarcini Python și Java.

Benefici

  • Combină batch-ul și streaming-ul cu un singur API
  • Implementare rapidă
  • Un serviciu complet gestionat, fără lucrări de operare
  • Reechilibrare dinamică a lucrărilor
  • Autoscalare

Limitări

  • Bazat pe o singură soluție, prin urmare, moștenește toate limitările Apache Beam
  • Dimensiunea maximă pentru o singură valoare de element în Streaming Engine este de 100 Mb

Strategia de stabilire a prețurilor

Lucrările Cloud Dataflow sunt facturate pe secundă, pe baza utilizării efective a Cloud Dataflow.

Analogii și alternative

  • Configurați un cluster pe mașini virtuale și rulați Apache Beam prin intermediul runner-ului încorporat
  • Din câte știu, alți furnizori de cloud nu au analogii.

Google Cloud Dataprep

 

[Interfața de Dataprep]

Dataprep este un instrument pentru vizualizarea, explorarea și pregătirea datelor cu care lucrați. Puteți construi conducte pentru a vă prelucra prin ETL datele pentru diferite tipuri de stocare. Și să o faceți pe o interfață web simplă și inteligibilă.

De exemplu, puteți utiliza Dataprep pentru a construi conducta ETL pentru a extrage datele brute din GCS, pentru a curăța aceste date, pentru a le transforma în vizualizarea necesară și pentru a le încărca în BigQuery. De asemenea, puteți programa un job zilnic/săptămânal/etc. care va rula această conductă pentru noi date brute.

Beneficii

  • Simplificați crearea de conducte ETL
  • Oferiți o interfață web clară și utilă
  • Automatizați o mulțime de sarcini manuale pentru inginerii de date
  • Programator încorporat
  • Pentru a efectua sarcini ETL, Dataprep utilizează Google Dataflow

Limitări

  • Funcționează numai cu BigQuery și GCS

Strategie de stabilire a prețurilor

Pentru stocarea datelor, se plătește pentru stocarea datelor. Pentru executarea lucrărilor ETL, plătiți pentru Google Dataflow.

Norul Compozitie

 

Cloud Composer este un serviciu de orchestrare a fluxurilor de lucru pentru a gestiona procesarea datelor. Cloud Composer este o interfață cloud pentru Apache Airflow. Composer automatizează sarcinile ETL. Un exemplu este crearea unui cluster Dataproc, efectuarea de transformări asupra datelor extrase (prin intermediul unui job Dataproc PySpark), încărcarea rezultatelor în BigQuery și apoi închiderea colecției Dataproc.

Beneficii

  • Umple lacunele altor soluții Google Cloud Platform, precum Dataproc
  • Moștenește toate avantajele oferite de Apache Airflow

Limitări

  • Oferă interfața web Airflow pe o adresă IP publică
  • Moștenește toate regulile de la Apache Airflow

Strategia de stabilire a prețurilor

Plătiți doar pentru resursele pe care este implementat Composer. Dar Composer va fi implementat pe 3 instanțe.

Analogii și alternative

  • Apache Airflow implementat personalizat
  • Alte soluții open source de orchestrare

BigQuery

 

[Exemplu de integrare BigQuery într-o soluție de procesare a datelor cu diferite integrări front-end] 

BigQuery este un depozit de date. BigQuery ne permite să stocăm și să interogăm seturi de date masive de până la sute de Petabytes. BigQuery este foarte familiar cu bazele de date relaționale prin structura lor. Are o structură de tabele, utilizează SQL, suportă scrierea pe loturi și în flux în baza de date și este integrat cu toate serviciile Google Cloud Platform, inclusiv Dataflow, Apache Spark, Apache Hadoop etc. Este cel mai bun pentru utilizarea în cozile interactive și în analizele offline.

Beneficii

  • Capacitate uriașă, de până la sute de Petabytes
  • SQL
  • Scriere pe loturi și în flux continuu
  • Suportă interogări complexe
  • ML încorporat
  • Fără server
  • Seturi de date partajate - puteți partaja seturi de date între diferite proiecte
  • Locații globale
  • Toate instrumentele populare de procesare a datelor au interfețe cu BigQuery

Limitări

  • Nu suportă tranzacții, dar cei care au nevoie de tranziții în soluția OLAP
  • Dimensiunea maximă a rândului este de 10Mb

Strategia de stabilire a prețurilor

Se plătește separat pentru informațiile stocate(pentru fiecare Gb) și pentru interogările executate.

Puteți alege unul dintre cele două modele de plată în ceea ce privește interogările executate, fie plătind pentru fiecare Terabyte procesat, fie un cost lunar stabil, în funcție de preferințele dumneavoastră.

Analogii și alternative

  • Amazon Redshift
  • Azure Cosmos DB

Cloud BigTable

 

Google Cloud BigTable este serviciul de baze de date Big Data NoSQL de la Google. Aceeași bază de date alimentează multe dintre serviciile principale ale Google, inclusiv Search, Analytics, Maps și Gmail. BigTable este concepută pentru a gestiona sarcini de lucru masive la o latență scăzută constantă și un debit ridicat, astfel încât este o alegere excelentă pentru aplicațiile operaționale și analitice, inclusiv IoT, analiza utilizatorilor și analiza datelor financiare.

Cloud Bigtable se bazează pe Apache HBase. Această bază de date are o capacitate enormă și este sugerată pentru utilizarea mai mult de Terabyte de date. Un exemplu, BigTable este cel mai bun pentru datele din seriile de timp și datele IoT.

Beneficii

  • Are performanțe bune pe date de 1Tb sau mai mult
  • Redimensionarea clusterelor fără timp de nefuncționare
  • Scalabilitate incredibilă
  • Suportă API-ul Apache HBase

Limitări

  • Are performanțe proaste pe date mai mici de 300 Gb
  • Nu se potrivește în timp real
  • Nu suportă operații ACID
  • Dimensiunea maximă a unei singure valori este de 100 Mb
  • Dimensiunea maximă a tuturor valorilor de pe un rând este de 256 Mb
  • Dimensiunea maximă a hard disk-ului este de 8 Tb pe nod.
  • Minimum trei noduri în cluster

Strategia de stabilire a prețurilor

BigTable este foarte scump. Se plătește pentru noduri (minim 0,65 dolari pe oră pe nod) și capacitatea de stocare (minim 26 de dolari pe Terabyte pe lună)

Analogii și alternative

  • Apache HBase implementat la comandă

Stocare în nor

 

GCS este un sistem de stocare de tip blob pentru fișiere. Puteți stoca acolo orice cantitate de fișiere de orice dimensiune.

Beneficii

  • API bun pentru toate limbajele de programare și sistemele de operare populare
  • Fișiere imuabile
  • Versiuni ale fișierelor
  • Potrivit pentru fișiere de orice dimensiune
  • Potrivit pentru orice cantitate de fișiere
  • Etc

Strategia de stabilire a prețurilor

GCS are câteva planuri de tarifare. Într-un plan standard, plătiți pentru 1Gb de date salvate.

Analogii și alternative

  • Amazon S3
  • Azure Blob Storage

Alte servicii Google Cloud

Mai sunt câteva servicii pe care ar trebui să le menționez.

Google Cloud Compute Engine oferă mașini virtuale cu orice capacitate de performanță.

Google CloudSQL este o soluție nativă în cloud pentru găzduirea bazelor de date MySQL și PostgreSQL. Are încorporat scalare verticală și orizontală, firewall, criptare, backup-uri și alte beneficii ale utilizării soluțiilor Cloud. Are o capacitate de terabyte. Suportă interogări și tranzacții complexe.

Google Cloud Spanner este un serviciu de baze de date relaționale, complet gestionat, scalabil. Suportă interogări SQL, replicare automată, tranzacții. Are o capacitate de un tetraoctet și se potrivește cel mai bine pentru aplicațiile de baze de date la scară largă care stochează mai mult de câțiva terabyte de date.

Google StackDriver monitorizează serviciile și infrastructura Google, iar aplicația dvs. este găzduită într-o platformă Google Cloud.

Cloud Datalab este o modalitate de vizualizare și explorare a datelor dumneavoastră. Acest serviciu oferă o modalitate nativă în cloud de a găzdui caiete Python Jupyter.

Google Cloud AutoML și Google AI Platform permit instruirea și găzduirea unor modele personalizate de învățare automată de înaltă calitate cu un efort minim.

Concluzie

Acum sunteți familiarizați cu serviciile de date principale pe care le oferă Google Cloud Platform. Aceste cunoștințe vă pot ajuta să construiți o soluție de date bună. Dar, bineînțeles, Cloud-urile nu sunt un glonț de argint, iar în cazul în care utilizați Cloud-urile într-un mod greșit, acest lucru vă poate afecta semnificativ facturarea lunară a infrastructurii.

Astfel, construiți cu atenție arhitectura propunerii dumneavoastră și alegeți serviciile necesare pentru nevoile dumneavoastră pentru a vă atinge obiectivele de afaceri necesare. Explorați toate beneficiile și limitările pentru fiecare caz în parte. Aveți grijă de costuri. Și, bineînțeles, nu uitați de scalabilitatea, fiabilitatea și mentenabilitatea soluției dumneavoastră.

Link-uri utile:

 

Scrieți-ne