Gen AI Evaluation Service 簡介

Vertex AI 的 Gen AI Evaluation Service 可用來評估任何生成式模型或應用程式,並依據您的評估標準,判斷評估結果的品質。

雖然排行榜和報表可提供整體模型成效的洞察資料,但無法揭露模型如何處理您的特定需求。Gen AI 評估服務可協助您自行定義評估標準,確保您清楚瞭解生成式 AI 模型和應用程式與您獨特的用途相符的程度。

在生成式 AI 開發程序的每個步驟中,評估都是重要的一環,包括選用模型、提示工程和模型自訂。Vertex AI 已整合生成式 AI 評估功能,方便您視需要啟動及重複使用評估作業。

Gen AI Evaluation Service 功能

Gen AI Evaluation Service 可協助您完成下列工作:

  • 模型選取:根據基準測試結果,以及模型在特定資料上的效能,選擇最適合任務的預先訓練模型。

  • 生成設定:調整模型參數 (例如溫度),根據需求最佳化輸出內容。

  • 提示工程:設計有效的提示和提示範本,引導模型產生您偏好的行為和回應。

  • 改善及保護微調功能:微調模型,改善用途效能,同時避免偏差或不良行為。

  • RAG 最佳化:選取最有效的檢索增強生成 (RAG) 架構,提升應用程式效能。

  • 遷移:在特定用途中,如果新模型有明顯優勢,請持續評估及改善 AI 解決方案的成效,並遷移至新模型。

  • 翻譯 (預先發布):評估模型的翻譯品質。

  • 評估服務機器人:使用 Gen AI Evaluation Service 評估服務機器人的效能。

評估程序

您可以按照下列步驟,使用 Gen AI Evaluation Service 評估任何 Gen AI 模型或應用程式,並依據評估標準判斷評估結果的品質:

  1. 定義評估指標

    • 瞭解如何根據業務條件調整模型指標。

    • 評估單一模型 (逐點),或比較 2 個模型 (逐對) 時判斷勝出者。

    • 加入以運算為基礎的指標,取得更多洞察資料。

  2. 準備評估用資料集

    • 提供反映您特定用途的資料集。
  3. 執行評估作業

    • 您可以從頭開始,也可以使用範本或調整現有的範例。

    • 定義候選模型並建立 EvalTask,以便透過 Vertex AI 重複使用評估邏輯。

  4. 查看及解讀評估結果

  5. (選用) 評估並改善評判模型的品質:

  6. (選用) 評估生成式 AI 代理程式

用於評估用途的 Notebook

下表列出各種生成式 AI 評估用途的 Vertex AI SDK for Python 筆記本:

用途 說明 筆記本連結
評估模型 快速入門:Gen AI 評估服務 SDK 簡介。 開始使用 Gen AI Evaluation Service SDK
評估並選取任務的第一方 (1P) 基礎模型。 評估並選取任務的第一方 (1P) 基礎模型
評估及選取生成式 AI 模型設定:

在摘要任務中調整 Gemini 模型的溫度、輸出符記限制、安全性設定和其他模型產生設定,並比較不同模型設定在多個指標上的評估結果。
比較 Gemini 的不同模型參數設定
在 Vertex AI Model Garden 中評估第三方 (3P) 模型。

本筆記本提供完整指南,說明如何使用 Gen AI Evaluation Service SDK 評估 Google 的 Gemini 模型和第三方語言模型。瞭解如何使用各種評估指標和技術,評估及比較來自不同來源的模型,包括開放式和封閉式模型、模型端點和第三方用戶端程式庫。在進行受控實驗和分析各項任務的模型成效時,累積實務經驗。
使用 Gen AI Evaluation Service SDK 在 Vertex AI Studio、Model Garden 和 Model Registry 中評估模型
使用 Gen AI Evaluation Service SDK 從 PaLM 遷移至 Gemini 模型。

本筆記本會引導您使用多項評估指標評估 PaLM 和 Gemini 基礎模型,以便做出從一個模型遷移至另一個模型的決策。我們會將這些指標以圖表呈現,讓您瞭解各模型的優缺點,協助您根據用途的特定需求,做出明智的決定。
比較並從 PaLM 遷移至 Gemini 模型
評估翻譯模型。

本筆記本將說明如何使用 Vertex AI SDK 評估 Gen AI 服務,並使用 BLEU、MetricX 和 COMET 評估大型語言模型 (LLM) 回應的翻譯品質。
評估翻譯模型
評估提示範本 運用 Gen AI Evaluation Service SDK 進行提示工程和提示評估。 評估並最佳化提示範本設計,以提升成效
評估生成式 AI 應用程式 評估 Gemini 模型工具的使用方式和函式呼叫功能。 評估 Gemini 模型工具的使用情形
使用 Gen AI Evaluation Service SDK,評估檢索增強生成 (RAG) 技術為問答任務產生的答案。 評估檢索增強生成 (RAG) 技術產生的解答
使用 Vertex AI Gen AI Evaluation Service 評估 LangChain 聊天機器人。

這個筆記本示範如何使用 Vertex AI Gen AI 評估服務 SDK 評估 LangChain 對話式聊天機器人。這份文件涵蓋資料準備、LangChain 鏈結設定、建立自訂評估指標,以及分析結果。本教學課程以食譜建議機器人為例,說明如何透過重複使用提示設計來改善成效。
評估 LangChain
評估生成式 AI 虛擬服務專員 評估使用 LangGraph 和 CrewAI 等代理程式架構建構的代理程式。
使用 Gen AI 評估服務和 Vertex AI Agent Engine,評估使用代理程式架構建構的代理程式。
自訂指標 使用下列功能,按照特定標準自訂以模型為基礎的指標,並評估生成式 AI 模型:

  • 範本自訂:使用預先定義的欄位,協助定義逐點和成對的以模型為基準指標。
  • 完全自訂:完全控管點式和成對模型式指標的設計。
自訂以模型為基礎的指標,評估生成式 AI 模型
使用您在本機定義的自訂指標評估生成式 AI 模型,並使用您自己的判斷模型執行以模型為基礎的指標評估。 使用自訂指標自訂 AutoRater
定義自有的以運算為基礎的自訂指標函式,並透過 Gen AI Evaluation Service SDK 進行評估。 使用自己的計算式自訂指標
其他主題 Gen AI 評估服務 SDK 預先發布版至正式版遷移指南。

本教學課程將引導您完成 Gen AI 評估服務的 Vertex AI SDK for Python 從預先發布版遷移至最新正式版的過程。指南也說明如何使用 GA 版本 SDK 評估檢索增強生成 (RAG),並使用成對評估功能比較兩個模型。
Gen AI Evaluation Service SDK 前往正式發布版的遷移指南

支援的模型和語言

Vertex AI Gen AI 評估服務支援 Google 基礎模型、第三方模型和開放式模型。您可以直接提供預先產生的預測結果,或是透過下列方式自動產生候選模型回應:

  • 自動為 Google 基礎模型 (例如 Gemini 2.0 Flash) 和 Vertex AI Model Registry 中部署的任何模型產生回覆。

  • 整合其他第三方和開放式模型的 SDK 文字產生 API。

  • 使用 Vertex AI SDK 包裝其他供應商的模型端點。

針對 Gemini 模型指標,Gen AI 評估服務支援 Gemini 2.0 Flash 支援的所有輸入語言。不過,非英文輸入內容的評估品質可能不如英文輸入內容。

Gen AI 評估服務支援下列以模型為基礎的翻譯指標語言:

MetricX

MetricX支援的語言:阿非利加、阿爾巴尼亞、阿姆哈拉古、阿拉伯、亞美尼亞、阿塞拜疆、巴斯克、白俄羅斯、孟加拉、保加利亞、緬甸、加泰隆尼亞、塞席爾、塞索托、克羅埃西亞、丹麥、荷蘭、英文、世界語、愛沙尼亞、菲律賓、芬蘭、法文、加利西亞、喬治亞、德文、希臘、古吉拉特、海地克里奧、豪薩、夏威夷、希伯來、印地、苗族、匈牙利、冰島、伊博、印尼、愛爾蘭、義大利、日文、日文、印尼文、義大利文、日文、日文、塔吉克、泰盧固、泰文、土耳其、烏克蘭、烏都別克、越南、威爾斯、西弗里西亞、科薩、意第緒、約魯巴、祖魯。

COMET

COMET支援的語言:阿非利加文、阿爾巴尼亞文、阿姆哈拉文、阿拉伯文、亞美尼亞文、阿薩姆文、阿塞拜疆文、白俄羅斯文、孟加拉文、孟加拉文羅馬拼音、波斯尼亞文、布列塔尼亞文、保加利亞文、緬甸文、緬甸文、加泰隆尼亞文、中文 (簡體)、中文 (繁體)、克羅埃西亞文、捷克文、丹麥文、荷蘭文、英文、世界語、愛沙尼亞文、菲律賓文、芬蘭文、法文、加利西亞文、喬治亞文、德文、希臘文、古吉拉特文、豪薩文、希伯來文、印地文、印地文羅馬拼音、匈牙利文、冰島文、印尼文、愛爾蘭文、義大利文、日文、爪哇文、卡納達文、哈薩克文、高棉文、韓文、庫德文 (庫爾德曼尼亞)、吉爾吉斯文、寮文、拉丁文、拉脫維亞文、立陶宛文、馬其頓文、馬達加斯加文、馬來文、馬拉雅拉姆文、馬拉地文、蒙古文、尼泊爾文、挪威文、奧里亞文、奧羅莫文、波斯文、波斯文羅馬拼音、波斯尼亞文、葡萄牙文、旁遮普文、羅馬尼亞文、俄文、梵文、蘇格蘭蓋爾文、蓋爾文、塞爾維亞文、信德文、僧伽羅文、僧伽羅文羅馬拼音、泰文、土耳其文、烏克蘭文、烏都文、烏都文羅馬拼音、維吾爾文、烏茲別克文、越南文、威爾斯文、西文、西弗里西亞文、祖魯文、意第緒文。

後續步驟