簡單筆記一下 Google QwikLabs 裡面 GCP Baseline:Data, ML, AI 的內容,每個粗體小標題都是 GCP 上的其中一個服務。
Storage
- GCP 上最便宜的儲存方案
- 能從這邊倒資料至 Cloud SQL 以及 BigQuery
Cloud SQL
- Row Based 關聯式資料庫
- GCP 上的 MySQL
BigQuery
- Column Based 關聯式資料庫
- 適合用作 Data Warehouse,查詢時能快速運算
- 不適合用來做 Transaction 等頻繁 Update / Insert 的工作
Bigtable
- GCP 上的 NoSQL
Cloud Natural Language API
- 自然語言處理的服務:斷字標詞性 / 辨識命名實體 / 情感分析 / 內容分類
Google Cloud Speech API
- 語音轉文字的服務
Dataproc
- GCP 上的分散式運算服務 ( Hadoop )
- 可直接上傳 py 檔或 jar 檔跑 Spark
Dataprep
- 圖形化介面搭配簡單的指令進行 ETL
- 目前可吃的資料源:Upload 上傳本機檔案 / GCS / BigQuery
Datalab
- GCP 上的 Jupyter Notebook
- 可團體協作及版控 ( ungit )
- 可從 Shell 進入 Container 裡面進行 git 指令的操作
Cloud ML Engine
- Tensorflow 深度學習
- 可在本機或雲端訓練模型並進行預測
- 雲端是將資料放入 GCS,並把模型 output 在 GCS 裡面
Dataflow
- A distribution of Apache Beam
- 可以用 templates 串連 GCP 上的服務建立 Data Pipeline,Streaming 跟 Batch 皆可
- templates Cloud Pub/Sub to BigQuery:將暫存區設在 GCS,從 Pub/Sub 主題取得 streaming data 後存入 BigQuery
- 也可以在 Python 環境中 run Dataflow,但暫存區一樣必須是 GCS
Filestore
- GCP 上的 NFS