微軟 Azure OpenAI 支持數據微調啦！可打造專屬 ChatGPT

讓 ChatGPT 完全按照你的數據來生成內容。

10 月 17 日，微軟在官網宣佈，現在可以在 Azure OpenAI 公共預覽版中對 GPT-3.5-Turbo、Babbage-002 和 Davinci-002 模型進行數據微調。

使得開發人員通過自己的數據集，便能打造獨一無二的 ChatGPT。例如，通過海量醫療數據進行微調，構建專注醫療領域的 ChatGPT 助手，可詢問與醫療相關的病歷、專業術語、治療方案等內容。

目前，全球各行業積累了幾年甚至幾十年的巨量優質數據，如何高效利用、查詢這些數據成為一大難題。

通過自有數據微調打造的 AI 助手可有效解決這一痛點，同時提升內容的準確性、安全性，是組織實現降本增效的利器。

什麼是數據微調

大模型數據微調（Fine-tuning）是一種遷移學習方法，用於深度學習和機器學習。通常數據微調是基於一個預訓練好的模型（例如，GPT-3.5-Turbo）作為基石，然後在特定的任務數據集（例如，法律、醫療、營銷）上進行額外的訓練，使模型能生成特定業務領域的內容。

例如，你想訓練一個模型來回答法律相關的問題，首先在大量的通用文本數據上進行預訓練，然後在醫學問答數據集上進行微調。

簡單來説，微調功能就是讓 ChatGPT，完全按照你的數據來生成內容。

需要注意的是，即便你有高質量的數據集，但選擇的微調模型性能很差，生成的內容也不會很理想。

而微軟提供基於 OpenAI 的 GPT-3.5-Turbo，是一個經過全球數百萬開發者驗證的高性能成熟模型。

Babbage-002 和 Davinci-002 是微軟最新推出的 GPT-3 基礎模型，可生成文本、代碼等，沒有接受過遵循指令的訓練。但在微調、託管服務費用方面更便宜。

Babbage-002 取代了已棄用的 Ada 和 Babbage 模型， Davinci-002 則取代了 Curie 和 Davinci。

GPT-3.5-Turbo 是 OpenAI 性能最成熟模型之一，支持多輪深度對話、創建微調數據集、訓練和部署等一站式開發服務。

上傳數據：微軟在 Azure OpenAI 內置了數據過濾功能，當檢測到用户上傳的數據集包含非法、歧視等有害信息時，會自動刪除這些內容。以下是上傳數據集代碼示例。

預訓練：使用指定模型、訓練和驗證數據，並設置相應的參數。開發者可將 Azure OpenAI Studio 用於簡單的 GUI，或者使用微軟的 REST API 或 OpenAI Python SDK。

開始啓動微調功能。

完成微調後，將返回評估指標，例如，訓練和驗證損失等參數。

目前，微軟提供數據微調託管服務，用户無需擔心任何算力資源問題，只需要選擇時間即可。

收費標準：Babbage-002 為 34 美元/小時；Davinci-002 為 68 美元/小時；GPT-3.5-Turbo 為 102 美元/小時。

當用户完成微調後，就可以使用模型生成專屬內容了。

如果你沒有足夠的算力資源平台來支撐模型的日常輸出，微軟同樣提供了託管服務。

收費標準：Babbage-002 託管每小時 1.7 美元，Davinci-002 每小時 1.7 美元，GPT-35-Turbo，每小時 7 美元。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。