BigQuery DataFrames 簡介
BigQuery DataFrames 是一組開放原始碼 Python 程式庫,可讓您透過熟悉的 Python API 充分利用 BigQuery 資料處理功能。BigQuery DataFrames 提供由 BigQuery 引擎驅動的 Pythonic DataFrame,並透過 SQL 轉換將處理作業推送至 BigQuery,藉此實作 pandas 和 scikit-learn API。這樣一來,您就能使用 BigQuery 探索及處理數 TB 的資料,並透過 Python API 訓練機器學習 (ML) 模型。
下圖說明 BigQuery DataFrames 的工作流程:
BigQuery DataFrames 的優點
BigQuery DataFrames 會執行以下操作:
- 提供超過 750 個 pandas 和 scikit-learn API,透過透明的 SQL 轉換功能實作 BigQuery 和 BigQuery ML API。
- 延後執行查詢,以提升效能。
- 使用者定義的 Python 函式可擴充資料轉換功能,讓您在 Google Cloud中處理資料。這些函式會自動部署為 BigQuery 遠端函式。
- 與 Vertex AI 整合,讓您使用 Gemini 模型產生文字。
授權
BigQuery DataFrames 會以 Apache-2.0 授權發布。
BigQuery DataFrames 也包含來自下列第三方套件的程式碼:
詳情請參閱 BigQuery DataFrames GitHub 存放區中的 third_party/bigframes_vendored
目錄。
配額與限制
- BigQuery 配額適用於 BigQuery DataFrames,包括硬體、軟體和網路元件。
- 支援部分 pandas 和 scikit-learn API。詳情請參閱「支援的 pandas API」。
- 您必須明確清理任何自動建立的 Cloud Run 函式,才能完成工作階段清理作業。詳情請參閱「支援的 pandas API」。
定價
- BigQuery DataFrames 是一組開放原始碼 Python 程式庫,可免費下載。
- BigQuery DataFrames 會使用 BigQuery、Cloud Run 函式、Vertex AI 和其他Google Cloud 服務,因此會產生相關費用。
- 在一般使用期間,BigQuery DataFrames 會將臨時資料 (例如中間結果) 儲存在 BigQuery 表格中。這些資料表預設會保留七天,系統會根據儲存在這些資料表中的資料向您收費。系統會在您在
bf.options.bigquery.project
選項中指定的 Google Cloud 專案中,於_anonymous_
資料集中建立資料表。
後續步驟
- 使用 BigQuery DataFrames
- 試用 BigQuery DataFrames
- BigQuery DataFrames API 參考資料
- BigQuery DataFrames 範例 Notebook
- BigQuery DataFrames 原始碼 (GitHub)