微軟 Azure OpenAI 支持數據微調啦!可打造專屬 ChatGPT

華爾街見聞
2023.10.19 02:32
portai
I'm PortAI, I can summarize articles.

讓 ChatGPT 完全按照你的數據來生成內容。

10 月 17 日,微軟在官網宣佈,現在可以在 Azure OpenAI 公共預覽版中對 GPT-3.5-Turbo、Babbage-002 和 Davinci-002 模型進行數據微調。

使得開發人員通過自己的數據集,便能打造獨一無二的 ChatGPT。例如,通過海量醫療數據進行微調,構建專注醫療領域的 ChatGPT 助手,可詢問與醫療相關的病歷、專業術語、治療方案等內容

目前,全球各行業積累了幾年甚至幾十年的巨量優質數據,如何高效利用、查詢這些數據成為一大難題。

通過自有數據微調打造的 AI 助手可有效解決這一痛點,同時提升內容的準確性、安全性,是組織實現降本增效的利器。

什麼是數據微調

大模型數據微調(Fine-tuning)是一種遷移學習方法,用於深度學習和機器學習。通常數據微調是基於一個預訓練好的模型(例如,GPT-3.5-Turbo)作為基石,然後在特定的任務數據集(例如,法律、醫療、營銷)上進行額外的訓練,使模型能生成特定業務領域的內容。

例如,你想訓練一個模型來回答法律相關的問題,首先在大量的通用文本數據上進行預訓練,然後在醫學問答數據集上進行微調。

簡單來説,微調功能就是讓 ChatGPT,完全按照你的數據來生成內容

需要注意的是,即便你有高質量的數據集,但選擇的微調模型性能很差,生成的內容也不會很理想。

而微軟提供基於 OpenAI 的 GPT-3.5-Turbo,是一個經過全球數百萬開發者驗證的高性能成熟模型。

Azure OpenAI 新功能

Babbage-002 和 Davinci-002 是微軟最新推出的 GPT-3 基礎模型,可生成文本、代碼等,沒有接受過遵循指令的訓練。但在微調、託管服務費用方面更便宜。

Babbage-002 取代了已棄用的 Ada 和 Babbage 模型, Davinci-002 則取代了 Curie 和 Davinci。

GPT-3.5-Turbo 是 OpenAI 性能最成熟模型之一,支持多輪深度對話、創建微調數據集、訓練和部署等一站式開發服務。

Azure OpenAI 微調功能演示

上傳數據:微軟在 Azure OpenAI 內置了數據過濾功能,當檢測到用户上傳的數據集包含非法、歧視等有害信息時,會自動刪除這些內容。以下是上傳數據集代碼示例。

預訓練:使用指定模型、訓練和驗證數據,並設置相應的參數。開發者可將 Azure OpenAI Studio 用於簡單的 GUI,或者使用微軟的 REST API 或 OpenAI Python SDK。

開始啓動微調功能。

完成微調後,將返回評估指標,例如,訓練和驗證損失等參數。

目前,微軟提供數據微調託管服務,用户無需擔心任何算力資源問題,只需要選擇時間即可。

收費標準:Babbage-002 為 34 美元/小時;Davinci-002 為 68 美元/小時;GPT-3.5-Turbo 為 102 美元/小時。

Azure OpenAI 服務中的推理託管

當用户完成微調後,就可以使用模型生成專屬內容了。

如果你沒有足夠的算力資源平台來支撐模型的日常輸出,微軟同樣提供了託管服務。

收費標準:Babbage-002 託管每小時 1.7 美元,Davinci-002 每小時 1.7 美元,GPT-35-Turbo,每小時 7 美元。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。