Google Gemini API開發手冊: GenAI SDK×Live API×Agent Skills | 誠品線上

Google Gemini API開發手冊: GenAI SDK×Live API×Agent Skills

作者 施威銘研究室
出版社 旗標科技股份有限公司
商品描述 Google Gemini API開發手冊: GenAI SDK×Live API×Agent Skills:內容介紹:隨著GoogleGemini3模型以及各式工具推出,在生成式AI的世界中Google強勢站穩腳步,再加上Google生

內容簡介

內容簡介 內容介紹: 隨著 Google Gemini 3 模型以及各式工具推出,在生成式 AI 的世界中 Google 強勢站穩腳步,再加上 Google 生態系的支援,採用 Google Gemini API 開發 AI Agent 是一個相當不錯的選擇。本書主要解說 Google Gemini API 中關鍵的成員,並利用 Python 版本的 Google GenAI SDK 實作範例,還會帶大家設計當前 AI Agent 的趨勢 -- Skills 機制,主題包含: |簡易 Skills 機制| 現今 AI Agent 的共用規範標準就是 Skills,我們會帶大家實作一個簡單的 Skills 機制,讓你的 AI Agent 只要透過 markdown 檔,就可以讓非技術人員的一般使用者也可以客製自動化流程,或是搭配 CLI 工具與 MCP 伺服器等擴充模型能力,而不需要倚賴技術人員修改或是撰寫額外的程式碼。 |建構彈性的 MCP 系統| 即使有了 Skills 機制,也需要能夠實際完成任務的工具,MCP 就是其中之一。除此之外,MCP 也是擴充模型能力的好幫手,書中會設計讓使用者透過設定檔就能幫 AI Agent 串接各式功能 MCP 伺服器的機制,不論是要讀寫檔案、執行本機指令、操控瀏覽器,或是使用遠端 API 等等,都可以方便達成。 |Live API| 用講的絕對比用打的更快,書中會用 Live API 實作可隨時中斷插話的即時語音系統,讓你的 AI Agent 彷彿真人用講的就可以操控,而且還會自動記錄交談內容,維持前文脈絡,讓一般使用者透過口說介面就可以使用你的 AI Agent。 |把 Google 生態系當靠山| 網頁搜尋、找地點誰能比得過 Google,利用 Gemini API 內建工具即可直通 Google 搜尋與地圖,即時資訊一點都不漏,為模型補充新知識。 |多模態輸入 輸出| 讓你的 AI Agent 像是 NotebookLM 那樣看圖、看影片、聽語音,即使是 YouTube 影片,也可以直接丟連結自動處理。此外,透過 Gemini API,也可以用最強的 Nano Banana Pro 生圖、Veo 3.1 生影片通通沒問題。 |詳解 Function Calling 機制| 不論是要使用 MCP 伺服器或是 Skill 擴充模型功能、建置自動化流程,最終都需要倚賴 Function Calling 機制,因此在開發 AI Agent 時,最關鍵的就是把 Function Calling 架構好,對於 AI Agent 內建就要支援的功能,就可以利用 Function Calling 以自訂函式提供,效能遠勝需要傳輸成本的 MCP 伺服器與 Skill。有了這樣的基礎,還可以作為讓 MCP 協定妥善運作的基石。 |Interactions API| Gemini API 提供有 Interactions API,可以像是 Live API 那樣幫你自動在雲端記錄交談內容保持前文脈絡不失憶,對於文字交談形式的 AI Agent 非常方便,不需要在程式碼這一端儲存對話記錄。本書特色: □ 實作會打字就能無限擴充 Agent 功能的 Skills 機制 □ 建構修改設定檔就能串接各式功能的彈性 MCP 系統 □ 把 Google 生態系當靠山,網頁、地圖資訊百搜不漏 □ 用 Live API 實現隨時可插話的即時語音交談介面 □ 實現像 NotebookLM 一樣直接看懂 YouTube 影片的超能力 □ 用 Nano Banana Pro 生成高品質圖片、Veo 3.1 生成 4K 影片 □ 內建 URL Context 工具快速上傳文件實現 RAG 檢索系統 □ 讓模型用 Code Execution 工具寫程式搞定各種問題 □ 詳解實現 Agent 的最底層 Function calling 機制

產品目錄

產品目錄 目錄: 第 1 章 Gemini API 入門1-1 為什麼要使用 API學習 Gemini API 的好處1-2 從零開始使用 Gemini API認識 Gemini API 家族牛刀小試1-3 認識 token使用 Vertex AI Studio 觀察 token 切割結果在程式中計算 token 數量實際送入模型的 token 數1-4 認識訊息角色訊息與角色用系統指令幫模型制訂規則1-5 錯誤處理1-6 非同步方式使用 API幫 API 的使用加上等待動畫1-7 在沒有 Gemini API 套件的環境中使用 API透過 requests 套件以 HTTP POST 使用 API透過 HTTPX 套件以非同步方式使用 API連 Python 都沒有的環境下使用 API第 2 章 與模型交談的基礎2-1 認識模型控制參數命名慣例2-2 思考模式用不具思考能力的模型解益智問答使用會思考的模型完美解答查看思考過程控制思考深度2-3 控制生成結果的變化性控制活潑度的 temperature篩除候選 token 的 top_p 與 top_k2-4 生成結構化的資料生成 JSON 格式使用結構化輸出機制2-5 多模態輸入辨識照片內容使用 Files API 上傳檔案物件偵測其他類型的檔案與 YouTube 影片2-6 串流模式利用生成器處理串流模式逐漸顯示 Markdown 內容的技巧2-7 文字生圖、影片、語音修改既有的圖片參考多張圖生成生成高品質圖片--Imagen 模型生成影片生成語音第 3 章 用自訂函式與內建工具幫模型長出感官手腳3-1 讓模型使用自訂函式的 Function Calling 機制Function Calling 基本概念設計查詢即時溫度的函式提供自訂函式資訊給模型自動叫用函式3-2 平行與多輪函式叫用平行函式叫用--單次叫用多個函式多輪函式叫用--進行多輪問答生成最後回覆整合函式叫用的對談函式串流模式下的函式叫用可執行工作的自訂函式工具3-3 內建工具Google 搜尋工具Google 地圖Code Execution 程式碼執行工具用 URL context 當網路爬蟲使用檔案搜尋工具建置 RAG 功能3-4 讓內建工具與自訂函式工具混用的方法自訂函式工具不能與內建工具混用用 Gemini 3 的魔法混用自訂函式與內建工具用自訂函式包裝內建工具在系統指令中加入既有事實第 4 章 用 MCP 串接別人寫好的工具4-1 MCP 簡介MCP 的架構MCP 用戶端與伺服器的傳輸方式4-2 使用既有的 MCP 伺服器建立以 uv 管理的 Python 環境建立本章所要使用的專案以 stdio 傳輸方式使用 MCP 伺服器以 SSE 傳輸方式使用 MCP 伺服器以 Streamable HTTP 傳輸方式使用 MCP4-3 同時使用多個 MCP 伺服器MCP 伺服器設定檔載入 MCP 設定檔建立用戶端設計可多輪交談的簡易程式SSE 傳輸的逾時設定顯示自動叫用歷程4-4 幫聊天程式加上簡單的記憶用串列記錄對話過程儲存對話接續交談讓內建工具與 MCP 伺服器混用搭配使用串流模式停用函式自動叫用機制4-5 使用 Chat AsyncChat 類別自動管理交談記錄簡易的交談程式儲存對話以及自訂函式與 MCP 伺服器混用串流模式與停用函式自動叫用機制4-6 MCP 設定檔的其他設定設定 MCP 伺服器執行時的環境變數設定 HTTP 表頭第 5 章 自動記憶對話的 Interactions API5-1 Interactions API 的基本用法建立單輪對話串接對話取得特定 id 的交談內容不儲存對話顯示思考過程5-2 多模態輸入 輸出處理圖片處理語音輸入影片與 PDF 檔5-3 函式叫用與內建工具使用 FunctionParam 型別的字典描述函式手動叫用函式內建工具可在背景執行的 Agent:Deep Research5-4 MCP自動叫用 MCP 工具手動叫用 MCP 工具5-5 串流模式以事件為基礎的串流生成流程串流模式下的函式叫用5-6 整合成可多輪對話的聊天程式增加 MCP 相關的輔助函式交談迴圈第 6 章 即時語音交談--Live API6-1 Live API 的基本架構使用文字模式認識 Live API建立文字版本的即時交談範例測試文字版即時交談範例6-2 為即時交談程式加上語音功能使用 pyaudio 套件提供語音功能播放模型生成的語音使用麥克風輸入提示內容顯示使用者的語音內容6-3 讓即時語音使用外部工具幫即時語音加入自訂函式與內建工具幫即時語音加入 MCP 工具6-4 讓即時語音交談程式自動重新連線復原交談階段儲存摘要供下次執行程式復原記憶6-5 Live API 的其他設定設定聲音控制思考深度第 7 章 實作 CLI 工具與簡易的 Skills 機制7-1 建立可讓其他人使用的 CLI 工具以模組形式建立 CLI 專案在專案以外的地方執行安裝到t統直接執行把聊天程式變成 CLI 工具7-2 簡易的 Skills 機制Skill 概念Skill 檔的基本結構簡易 Skills 模組為聊天程式加入 Skills 機制測試 Skills 機制精簡 MCP 伺服器提供的工具替換不同的 MCP 伺服器7-3 使用 CLI 工具加上 Skills 替代 MCP 伺服器讓模型執行系統上的程式使用 CLI 工具替代 MCP 伺服器讓模型自己學會特定 CLI 工具的用法7-4 幫聊天程式加上使用者自定義的規則系統幫 MCP 設定加上可在執行時期自訂內容的變數讓 AI Agent 寫程式建立自定義系統補足系統指令讓 AI Agent 照我們的規則寫程式AI Agent 設計建議

商品規格

書名 / Google Gemini API開發手冊: GenAI SDK×Live API×Agent Skills
作者 / 施威銘研究室
簡介 / Google Gemini API開發手冊: GenAI SDK×Live API×Agent Skills:內容介紹:隨著GoogleGemini3模型以及各式工具推出,在生成式AI的世界中Google強勢站穩腳步,再加上Google生
出版社 / 旗標科技股份有限公司
ISBN13 / 9789863128687
ISBN10 /
EAN / 9789863128687
誠品26碼 / 2683127512007
頁數 / 400
注音版 /
裝訂 / P:平裝
語言 / 1:中文 繁體
尺寸 / 23*17*2.4
級別 / N:無
重量(g) / 879
提供維修 /

最佳賣點

最佳賣點 : 用 AI Agent 把白話文變程式

活動