OpenAI 於本月發佈最新的 開放權重模型,Cloudflare成為首批合作夥伴,率先將這些模型引進 Cloudflare Workers AI!
現在,Cloudflare 開發者已經能直接在平台上使用 OpenAI 的首款開放模型,完整發揮這些強大的新功能。模型從今天起就能使用,路徑分別是:
- @cf/openai/gpt-oss-120b
- @cf/openai/gpt-oss-20b
Workers AI 一直致力於推動「開放模型」,這次更把 OpenAI 的最新成果帶到我們的平台。無論是追求 透明度、客製化、部署彈性 的開發者,還是需要 資料安全與隱私保護 的企業,都能透過 Workers AI 安心使用。Cloudflare 也很期待能與 OpenAI 一起實現「讓 AI 的優勢能普及到各種規模的開發者」這個目標。
技術規格介紹
這次 OpenAI 一口氣推出兩種規模的模型:
- 1200 億參數模型
- 200 億參數模型
這兩款模型都是 Mixture-of-Experts(專家混合架構, MoE),能根據查詢需求動態選擇對應的「專家」處理,而不是整個模型全數參與,效能更高。
特別的是,這些模型原生支援 FP4 量化,因此同樣 1200 億參數,所需的 GPU 記憶體比 FP16 版本小得多。結合 MoE 架構與量化技術,這些模型在速度與效能上都比傳統模型更有優勢。
目前模型以 純文字模式 提供,但具備:
- 推理能力
- 工具呼叫 (Tool Calling)
- 兩項即將推出的新功能:Code Interpreter(程式碼解譯器)與 Web Search(網頁搜尋)
Cloudflare 已經把 Code Interpreter 整合進 Cloudflare Containers,能支援「有狀態」的程式碼執行,細節後續會再分享。
在 Workers AI 上的使用方式
我們針對新模型做了一些調整,支援最新的 Responses API,也會很快支援 Chat Completions API。
使用方式包含:
- Workers Binding 會使用並回傳 Responses API ——
env.AI.run(“@cf/openai/gpt-oss-120b”)
- REST API /run 端點
https://api.cloudflare.com/client/v4/accounts/<account_id>/ai/run/@cf/openai/gpt-oss-120b - REST API /responses 新端點
https://api.cloudflare.com/client/v4/accounts/<account_id>/ai/v1/responses - REST API OpenAI 兼容端點(即將推出)
https://api.cloudflare.com/client/v4/accounts/<account_id>/ai/v1/chat/completions
Code Interpreter + Cloudflare Sandboxes = 完美搭配
LLM 在處理邏輯題(例如數學、程式碼)時,常常需要藉由「工具呼叫」來執行 AI 產生的程式碼。這次 OpenAI 的新模型專門針對 Python 程式碼的執行狀態 進行訓練,內建 Code Interpreter 功能,能大幅解決這類問題。
Cloudflare 除了有 Workers AI 推論平台,還有完整的運算與儲存服務生態系,非常適合承載這個功能。Cloudflare將 Code Interpreter 架設在 Cloudflare Sandboxes 上,提供安全隔離的環境來執行 AI 產生的程式碼。
特色包括:
- 每個 Session 都會建立專屬的 Sandbox container,有效期限 20 分鐘
- 支援 有狀態程式執行,後續查詢可延續先前程式碼
- Sandboxes 預先啟動,使得執行速度極快
Cloudflare 也會在開發者文件上釋出範例,展示如何在 Workers AI 與 Sandboxes 上搭配使用 gpt-oss 模型與 Code Interpreter。
立即試用最新模型
想了解更多細節與使用方式,歡迎查看 Developer Docs,立即開始體驗這些全新的模型與功能!或是與極風雲創顧問團隊聯繫。
本文翻譯改寫自:https://blog.cloudflare.com/openai-gpt-oss-on-workers-ai/