Vertex AI 的 Gen AI Evaluation Service 可用來評估任何生成式模型或應用程式,並依據您的評估標準,判斷評估結果的品質。
雖然排行榜和報表可提供整體模型成效的洞察資料,但無法揭露模型如何處理您的特定需求。Gen AI 評估服務可協助您自行定義評估標準,確保您清楚瞭解生成式 AI 模型和應用程式與您獨特的用途相符的程度。
在生成式 AI 開發程序的每個步驟中,評估都是重要的一環,包括選用模型、提示工程和模型自訂。Vertex AI 已整合生成式 AI 評估功能,方便您視需要啟動及重複使用評估作業。
Gen AI Evaluation Service 功能
Gen AI Evaluation Service 可協助您完成下列工作:
模型選取:根據基準測試結果,以及模型在特定資料上的效能,選擇最適合任務的預先訓練模型。
生成設定:調整模型參數 (例如溫度),根據需求最佳化輸出內容。
提示工程:設計有效的提示和提示範本,引導模型產生您偏好的行為和回應。
改善及保護微調功能:微調模型,改善用途效能,同時避免偏差或不良行為。
RAG 最佳化:選取最有效的檢索增強生成 (RAG) 架構,提升應用程式效能。
遷移:在特定用途中,如果新模型有明顯優勢,請持續評估及改善 AI 解決方案的成效,並遷移至新模型。
翻譯 (預先發布):評估模型的翻譯品質。
評估服務機器人:使用 Gen AI Evaluation Service 評估服務機器人的效能。
評估程序
您可以按照下列步驟,使用 Gen AI Evaluation Service 評估任何 Gen AI 模型或應用程式,並依據評估標準判斷評估結果的品質:
-
瞭解如何根據業務條件調整模型指標。
評估單一模型 (逐點),或比較 2 個模型 (逐對) 時判斷勝出者。
加入以運算為基礎的指標,取得更多洞察資料。
-
- 提供反映您特定用途的資料集。
-
您可以從頭開始,也可以使用範本或調整現有的範例。
定義候選模型並建立
EvalTask
,以便透過 Vertex AI 重複使用評估邏輯。
(選用) 評估並改善評判模型的品質:
使用進階提示設計技術自訂評斷模型。
使用系統指示和評估模型設定,改善評估結果的一致性,並減少評估模型偏差。
(選用) 評估生成式 AI 代理程式。
用於評估用途的 Notebook
下表列出各種生成式 AI 評估用途的 Vertex AI SDK for Python 筆記本:
用途 | 說明 | 筆記本連結 |
---|---|---|
評估模型 | 快速入門:Gen AI 評估服務 SDK 簡介。 | 開始使用 Gen AI Evaluation Service SDK |
評估並選取任務的第一方 (1P) 基礎模型。 | 評估並選取任務的第一方 (1P) 基礎模型 | |
評估及選取生成式 AI 模型設定: 在摘要任務中調整 Gemini 模型的溫度、輸出符記限制、安全性設定和其他模型產生設定,並比較不同模型設定在多個指標上的評估結果。 |
比較 Gemini 的不同模型參數設定 | |
在 Vertex AI Model Garden 中評估第三方 (3P) 模型。 本筆記本提供完整指南,說明如何使用 Gen AI Evaluation Service SDK 評估 Google 的 Gemini 模型和第三方語言模型。瞭解如何使用各種評估指標和技術,評估及比較來自不同來源的模型,包括開放式和封閉式模型、模型端點和第三方用戶端程式庫。在進行受控實驗和分析各項任務的模型成效時,累積實務經驗。 |
使用 Gen AI Evaluation Service SDK 在 Vertex AI Studio、Model Garden 和 Model Registry 中評估模型 | |
使用 Gen AI Evaluation Service SDK 從 PaLM 遷移至 Gemini 模型。 本筆記本會引導您使用多項評估指標評估 PaLM 和 Gemini 基礎模型,以便做出從一個模型遷移至另一個模型的決策。我們會將這些指標以圖表呈現,讓您瞭解各模型的優缺點,協助您根據用途的特定需求,做出明智的決定。 |
比較並從 PaLM 遷移至 Gemini 模型 | |
評估翻譯模型。 本筆記本將說明如何使用 Vertex AI SDK 評估 Gen AI 服務,並使用 BLEU、MetricX 和 COMET 評估大型語言模型 (LLM) 回應的翻譯品質。 |
評估翻譯模型 | |
評估提示範本 | 運用 Gen AI Evaluation Service SDK 進行提示工程和提示評估。 | 評估並最佳化提示範本設計,以提升成效 |
評估生成式 AI 應用程式 | 評估 Gemini 模型工具的使用方式和函式呼叫功能。 | 評估 Gemini 模型工具的使用情形 |
使用 Gen AI Evaluation Service SDK,評估檢索增強生成 (RAG) 技術為問答任務產生的答案。 | 評估檢索增強生成 (RAG) 技術產生的解答 | |
使用 Vertex AI Gen AI Evaluation Service 評估 LangChain 聊天機器人。 這個筆記本示範如何使用 Vertex AI Gen AI 評估服務 SDK 評估 LangChain 對話式聊天機器人。這份文件涵蓋資料準備、LangChain 鏈結設定、建立自訂評估指標,以及分析結果。本教學課程以食譜建議機器人為例,說明如何透過重複使用提示設計來改善成效。 |
評估 LangChain | |
評估生成式 AI 虛擬服務專員 | 評估使用 LangGraph 和 CrewAI 等代理程式架構建構的代理程式。 | |
使用 Gen AI 評估服務和 Vertex AI Agent Engine,評估使用代理程式架構建構的代理程式。 | ||
自訂指標 | 使用下列功能,按照特定標準自訂以模型為基礎的指標,並評估生成式 AI 模型:
|
自訂以模型為基礎的指標,評估生成式 AI 模型 |
使用您在本機定義的自訂指標評估生成式 AI 模型,並使用您自己的判斷模型執行以模型為基礎的指標評估。 | 使用自訂指標自訂 AutoRater | |
定義自有的以運算為基礎的自訂指標函式,並透過 Gen AI Evaluation Service SDK 進行評估。 | 使用自己的計算式自訂指標 | |
其他主題 | Gen AI 評估服務 SDK 預先發布版至正式版遷移指南。 本教學課程將引導您完成 Gen AI 評估服務的 Vertex AI SDK for Python 從預先發布版遷移至最新正式版的過程。指南也說明如何使用 GA 版本 SDK 評估檢索增強生成 (RAG),並使用成對評估功能比較兩個模型。 |
Gen AI Evaluation Service SDK 前往正式發布版的遷移指南 |
支援的模型和語言
Vertex AI Gen AI 評估服務支援 Google 基礎模型、第三方模型和開放式模型。您可以直接提供預先產生的預測結果,或是透過下列方式自動產生候選模型回應:
自動為 Google 基礎模型 (例如 Gemini 2.0 Flash) 和 Vertex AI Model Registry 中部署的任何模型產生回覆。
整合其他第三方和開放式模型的 SDK 文字產生 API。
使用 Vertex AI SDK 包裝其他供應商的模型端點。
針對 Gemini 模型指標,Gen AI 評估服務支援 Gemini 2.0 Flash 支援的所有輸入語言。不過,非英文輸入內容的評估品質可能不如英文輸入內容。
Gen AI 評估服務支援下列以模型為基礎的翻譯指標語言:
MetricX
MetricX支援的語言:阿非利加、阿爾巴尼亞、阿姆哈拉古、阿拉伯、亞美尼亞、阿塞拜疆、巴斯克、白俄羅斯、孟加拉、保加利亞、緬甸、加泰隆尼亞、塞席爾、塞索托、克羅埃西亞、丹麥、荷蘭、英文、世界語、愛沙尼亞、菲律賓、芬蘭、法文、加利西亞、喬治亞、德文、希臘、古吉拉特、海地克里奧、豪薩、夏威夷、希伯來、印地、苗族、匈牙利、冰島、伊博、印尼、愛爾蘭、義大利、日文、日文、印尼文、義大利文、日文、日文、塔吉克、泰盧固、泰文、土耳其、烏克蘭、烏都別克、越南、威爾斯、西弗里西亞、科薩、意第緒、約魯巴、祖魯。
COMET
COMET支援的語言:阿非利加文、阿爾巴尼亞文、阿姆哈拉文、阿拉伯文、亞美尼亞文、阿薩姆文、阿塞拜疆文、白俄羅斯文、孟加拉文、孟加拉文羅馬拼音、波斯尼亞文、布列塔尼亞文、保加利亞文、緬甸文、緬甸文、加泰隆尼亞文、中文 (簡體)、中文 (繁體)、克羅埃西亞文、捷克文、丹麥文、荷蘭文、英文、世界語、愛沙尼亞文、菲律賓文、芬蘭文、法文、加利西亞文、喬治亞文、德文、希臘文、古吉拉特文、豪薩文、希伯來文、印地文、印地文羅馬拼音、匈牙利文、冰島文、印尼文、愛爾蘭文、義大利文、日文、爪哇文、卡納達文、哈薩克文、高棉文、韓文、庫德文 (庫爾德曼尼亞)、吉爾吉斯文、寮文、拉丁文、拉脫維亞文、立陶宛文、馬其頓文、馬達加斯加文、馬來文、馬拉雅拉姆文、馬拉地文、蒙古文、尼泊爾文、挪威文、奧里亞文、奧羅莫文、波斯文、波斯文羅馬拼音、波斯尼亞文、葡萄牙文、旁遮普文、羅馬尼亞文、俄文、梵文、蘇格蘭蓋爾文、蓋爾文、塞爾維亞文、信德文、僧伽羅文、僧伽羅文羅馬拼音、泰文、土耳其文、烏克蘭文、烏都文、烏都文羅馬拼音、維吾爾文、烏茲別克文、越南文、威爾斯文、西文、西弗里西亞文、祖魯文、意第緒文。
後續步驟
請試用評估快速入門導覽課程。
瞭解如何調整基礎模型。