GCP Baseline:Data, ML, AI 筆記

Pei Lee
2 min readMar 11, 2019

--

簡單筆記一下 Google QwikLabs 裡面 GCP Baseline:Data, ML, AI 的內容,每個粗體小標題都是 GCP 上的其中一個服務。

Storage

  • GCP 上最便宜的儲存方案
  • 能從這邊倒資料至 Cloud SQL 以及 BigQuery

Cloud SQL

  • Row Based 關聯式資料庫
  • GCP 上的 MySQL

BigQuery

  • Column Based 關聯式資料庫
  • 適合用作 Data Warehouse,查詢時能快速運算
  • 不適合用來做 Transaction 等頻繁 Update / Insert 的工作

Bigtable

  • GCP 上的 NoSQL

Cloud Natural Language API

  • 自然語言處理的服務:斷字標詞性 / 辨識命名實體 / 情感分析 / 內容分類

Google Cloud Speech API

  • 語音轉文字的服務

Dataproc

  • GCP 上的分散式運算服務 ( Hadoop )
  • 可直接上傳 py 檔或 jar 檔跑 Spark

Dataprep

  • 圖形化介面搭配簡單的指令進行 ETL
  • 目前可吃的資料源:Upload 上傳本機檔案 / GCS / BigQuery

Datalab

  • GCP 上的 Jupyter Notebook
  • 可團體協作及版控 ( ungit )
  • 可從 Shell 進入 Container 裡面進行 git 指令的操作

Cloud ML Engine

  • Tensorflow 深度學習
  • 可在本機或雲端訓練模型並進行預測
  • 雲端是將資料放入 GCS,並把模型 output 在 GCS 裡面

Dataflow

  • A distribution of Apache Beam
  • 可以用 templates 串連 GCP 上的服務建立 Data Pipeline,Streaming 跟 Batch 皆可
  • templates Cloud Pub/Sub to BigQuery:將暫存區設在 GCS,從 Pub/Sub 主題取得 streaming data 後存入 BigQuery
  • 也可以在 Python 環境中 run Dataflow,但暫存區一樣必須是 GCS

Filestore

  • GCP 上的 NFS

--

--

Pei Lee
Pei Lee

Written by Pei Lee

Data Team Lead @ Retail & E-commerce Industry

No responses yet