正文

gpt3微調(diào)（vgg16微調(diào)）

發(fā)布時間：2023-03-13 03:07:10 稿源：創(chuàng)意嶺閱讀： 89 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt3微調(diào)的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內(nèi)免費(fèi)在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、gpt盒子干嘛用的
2、GPT Understands, Too
3、跑gpt3的條件
4、gpt3顯存要求

gpt3微調(diào)（vgg16微調(diào)）

一、gpt盒子干嘛用的

GPT盒子是一種基于GPT模型的應(yīng)用程序，它可以用于生成自然語言文本。具體來說，GPT盒子可以用于文本生成、自動對話、文本分類、語言翻譯、情感分析等多種自然語言處理任務(wù)。

例如，在文本生成任務(wù)中，用戶可以輸入一些關(guān)鍵詞或句子，GPT盒子會自動生成一篇與這些關(guān)鍵詞或句子相關(guān)的文章或段落。在自動對話任務(wù)中，用戶可以和GPT盒子進(jìn)行對話，GPT盒子會根據(jù)用戶的問題和回答生成相應(yīng)的對話內(nèi)容。

二、GPT Understands, Too

傳統(tǒng)fine-tune（使用訓(xùn)練數(shù)據(jù)來微調(diào)模型參數(shù)），GPT在自然語言理解任務(wù)上未能取得很好的效果，關(guān)于NLU任務(wù)的一種新方法P-tuning，采用可訓(xùn)練的連續(xù)的 prompt embeddings。

實驗表明：

與 discrete prompts類似，僅對輸入進(jìn)行修改，不同之處在于用differential output embeddings來代替常規(guī)的input embeddings

prompt可以非常靈活，可以插入到context x或者target y中

pseudo tokens（偽標(biāo)記）

可以從原始詞表V中找到一個better continuous prompts。最后，利用下游損失函數(shù)L，可以對continuous prompts hi 進(jìn)行differentially optimize

training continuous prompts 存在兩個問題

P-tuning中，使用promp編碼器(LSTM+RELU激活的兩層MLP)將hi建模為一個序列

知識探索

所有prompt search方法都需要一些額外的數(shù)據(jù)來訓(xùn)練或查找prompt。我們遵循AutoPrompt中的設(shè)置，作者從原始TRE-x數(shù)據(jù)集構(gòu)建了一個訓(xùn)練集，該訓(xùn)練集與測試集類似，但答案分布略有不同

在傳統(tǒng)的知識探索中，不允許通過fine-tune來改變預(yù)先訓(xùn)練好的模型參數(shù)。試圖評估語言模型在培訓(xùn)前學(xué)習(xí)了多少知識。然而，這項工作的基本方面是比較P-tuning和fine-tune，尤其是在像GPT這樣的單向語言模型上。特別感興趣的是以下問題：單向和雙向語言模型是否從P-tuning中獲得了類似的改進(jìn)？

在知識探索方面，許多事實只能通過硬編碼，而不能通過語言模型進(jìn)行推斷。參數(shù)的微調(diào)可能會導(dǎo)致遺忘。相反，P-tuning不會改變預(yù)先訓(xùn)練的模型的參數(shù)，而是通過尋找更好的continuous prompt來存儲知識。此外，在Bert和GPT采用P-tuning存在明顯的差異，使用MP+FT進(jìn)行微調(diào)非常有效，但是GPT并不像BERTs那樣從MP+FT中受益更多。P-tuning與單向語言模型表現(xiàn)出更好的親和力。在里面就更大的型號而言，例如具有110億個參數(shù)的MegatronLM2，雖然微調(diào)幾乎不起作用，但Ptuning仍然適用，并在LAMA上達(dá)到了最先進(jìn)的水平。

WiC和MultiRC都有相對較大的train sets,標(biāo)準(zhǔn)fine-tune可以從更大的數(shù)據(jù)集中獲得比P-tuning更多的優(yōu)勢。相反，在低資源環(huán)境下，P-tuning更有益

在base模型的規(guī)模下，在7項任務(wù)中，有6項任務(wù)的gpt2-base的P-tuning相比優(yōu)于基于bert的模型的最佳結(jié)果，除了Wic。

與BERT-larger-base相比，帶有P-tuning的GPT2在7項任務(wù)中有4項任務(wù)顯示出優(yōu)勢

唯一的例外是WiC任務(wù)，fine-tune取得最佳結(jié)果，推測這是因為詞義消歧任務(wù)不適用于prompt-based MLM prediction

用原始訓(xùn)練集中32個未使用的樣本構(gòu)建了一個新的開發(fā)集（Ddev32）設(shè)置公平比較之下，P-tuning在所有任務(wù)上都顯著優(yōu)于PET和PET best。更有趣的是，P-tuning甚至在7項任務(wù)中的4項任務(wù)上優(yōu)于GPT-3、PET（Ddev）和iPET（Ddev）。

盡管P-tuning在大多數(shù)任務(wù)中都能取得最佳效果，但在難以表述為完形填空問題的任務(wù)（例如WiC）中，微調(diào)的效果會更好

三、跑gpt3的條件

1、必須禁止定制自己的開放式聊天機(jī)器人功能。

2、需設(shè)置內(nèi)容過濾器以避免用戶與Samantha談?wù)撁舾性掝}。

3、必須部署自動化監(jiān)控工具監(jiān)視用戶的對話，檢測是否濫用GPT3生成的有害或敏感語句。

四、gpt3顯存要求

僅僅是加載模型參數(shù)就需要數(shù)百GB的存儲空間，遠(yuǎn)超單個GPU的容納能力。

因此，多卡并行被視為AI大模型推理的必然選擇。

但現(xiàn)有的推理系統(tǒng)仍舊存在不少弊端。

比如需要用戶對通信、內(nèi)存等各部分協(xié)作進(jìn)行手動管理，需要額外編譯等……導(dǎo)致用戶使用門檻居高不下。

為此，大規(guī)模并行AI訓(xùn)練系統(tǒng)

以上就是關(guān)于gpt3微調(diào)相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。