正文

gpt3在線(xiàn)生成網(wǎng)站（gpt2生成器）

發(fā)布時(shí)間：2023-03-12 14:03:25 稿源：創(chuàng)意嶺閱讀： 82 問(wèn)大家

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于gpt3在線(xiàn)生成網(wǎng)站的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

ChatGPT國(guó)內(nèi)免費(fèi)在線(xiàn)使用，能給你生成想要的原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話(huà)答疑等等

你只需要給出你的關(guān)鍵詞，它就能返回你想要的內(nèi)容，越精準(zhǔn)，寫(xiě)出的就越詳細(xì)，有微信小程序端、在線(xiàn)網(wǎng)頁(yè)版、PC客戶(hù)端，官網(wǎng)：https://ai.de1919.com

本文目錄:

1、跑gpt3的條件
2、chatgpt能寫(xiě)完整web網(wǎng)站嗎?
3、gptplanet怎么注冊(cè)
4、05-ELMo/BERT/GPT-NLP預(yù)訓(xùn)練模型

gpt3在線(xiàn)生成網(wǎng)站（gpt2生成器）

一、跑gpt3的條件

1、必須禁止定制自己的開(kāi)放式聊天機(jī)器人功能。

2、需設(shè)置內(nèi)容過(guò)濾器以避免用戶(hù)與Samantha談?wù)撁舾性?huà)題。

3、必須部署自動(dòng)化監(jiān)控工具監(jiān)視用戶(hù)的對(duì)話(huà)，檢測(cè)是否濫用GPT3生成的有害或敏感語(yǔ)句。

二、chatgpt能寫(xiě)完整web網(wǎng)站嗎?

答：不能。ChatGPT是一種聊天機(jī)器人技術(shù)，它可以讓聊天機(jī)器人模擬人類(lèi)的聊天行為，以提供更加有趣、貼切的回答。它可以幫助用戶(hù)快速解決日常問(wèn)題，提供解決方案，但是它不能完成一個(gè)完整的web網(wǎng)站的開(kāi)發(fā)。要建立一個(gè)完整的Web網(wǎng)站，需要更多的技術(shù)，包括網(wǎng)頁(yè)設(shè)計(jì)、編程、數(shù)據(jù)庫(kù)管理等等。ChatGPT可以協(xié)助開(kāi)發(fā)者完成一些任務(wù)，但是它不能完成完整的Web網(wǎng)站的開(kāi)發(fā)。

三、gptplanet怎么注冊(cè)

點(diǎn)擊“Sign Up”，填寫(xiě)你的用戶(hù)名，電子郵箱，密碼，或者直接使用Facebook登錄。點(diǎn)擊“register”完成。之后，你就可以登錄進(jìn)去并且開(kāi)始聚賺了。gptplanet是一個(gè)可以獲得免費(fèi)收益的網(wǎng)站，首先，你需要在官網(wǎng)上注冊(cè)一個(gè)帳戶(hù)。

四、05-ELMo/BERT/GPT-NLP預(yù)訓(xùn)練模型

這里可以參考CSDN上的文章-BERT原理和實(shí)踐： https://blog.csdn.net/jiaowoshouzi/article/category/9060488

在解釋BERT，ELMO這些預(yù)訓(xùn)練模型之前，我們先看一下很久之前的計(jì)算機(jī)是如何讀懂文字的？

每個(gè)字都有自己的獨(dú)特的編碼。但是這樣是有弊端的，字和字之間的關(guān)聯(lián)關(guān)系是無(wú)法得知的，比如計(jì)算機(jī)無(wú)法知道dog和cat都是動(dòng)物，它反而會(huì)覺(jué)得bag和dog是比較相近的。

所以后來(lái)就有了Word Class，將一系列的詞進(jìn)行分類(lèi)然后讓一類(lèi)詞語(yǔ)和一類(lèi)詞語(yǔ)之間更有關(guān)聯(lián)，但是這樣的方法太過(guò)于粗糙，比如dog，cat，bird是一類(lèi)，看不出哺乳動(dòng)物鳥(niǎo)類(lèi)的區(qū)別。

在這個(gè)基礎(chǔ)之上，我們有了Word Embedding，Word Embedding我們可以想象成是一種soft的word class，每個(gè)詞都用向量來(lái)表示，它的向量維度可能表示這個(gè)詞匯的某種意思，如圖中dog，cat，rabbit的距離相比其他更近。那么word embendding是如何訓(xùn)練出來(lái)的，是根據(jù)每個(gè)詞匯的上下文所訓(xùn)練的。

每個(gè)句子都有bank的詞匯，四個(gè)bank是不同的token，但是同樣的type。（注：token-詞例， type-詞型， class-詞類(lèi) or token是出現(xiàn)的總次數(shù)(還有種理解是token是具有一定的句法語(yǔ)義且獨(dú)立的最小文本成分。 )，type是出現(xiàn)的不同事物的個(gè)數(shù)。）

對(duì)于典型的Word Embedding認(rèn)為，每個(gè)詞type有一個(gè)embedding，所以就算是不同的token只要是一樣的type那么word embedding就是一樣的，語(yǔ)義也就是一樣的。

而事實(shí)上并非如此，1,2句bank指的是銀行，3,4為水庫(kù)。所以我們希望讓機(jī)器給不同意思的token而且type還一致，給予不同的embedding。在這個(gè)問(wèn)題上，之前的做法是從字典中去查找這個(gè)詞包含幾種意思，但是這樣的做法顯然跟不上現(xiàn)實(shí)中詞語(yǔ)的一些隱含的含義。比如bank有銀行的意思，與money一起是銀行的意思，而與blood一起卻是血庫(kù)的意思。

所以我們想讓機(jī)器今天進(jìn)一步做到每一個(gè)word token都可以有自己的embedding(之前是每個(gè)type有一個(gè)embedding或者有固定的一個(gè)或多個(gè)embedding)，那么怎么知道一個(gè)word應(yīng)該有怎樣的embedding呢？我們可以取決于該詞的上下文，上下文越相近的token它們就會(huì)越相近的embedding。比如之前提到的bank，下面兩個(gè)句子它們的word token的embedding可能是相近的，而和上面的word token的embedding是相遠(yuǎn)的。

所以我們想使用一種能夠基于上下文的Contextual word Embedding來(lái)解決一詞多義的問(wèn)題。

這里使用ELMO可以做到這件事情，即每個(gè)word token擁有不同的word embedding。(右上角動(dòng)物是芝麻街(美國(guó)公共廣播協(xié)會(huì)（PBS）制作播出的兒童教育電視節(jié)目)里的角色)。

它是基于RNN的預(yù)訓(xùn)練模型，它只需要搜集大量語(yǔ)料(句子)且不需要做任何標(biāo)注，就可以訓(xùn)練這個(gè)基于RNN的語(yǔ)言模型，預(yù)測(cè)下一個(gè)token是什么，學(xué)習(xí)完了之后就得到了上下文的embedding。因?yàn)槲覀兛梢詫NN的隱藏層中的某一節(jié)點(diǎn)拿出來(lái)(圖中橙藍(lán)色節(jié)點(diǎn))，它就是輸入當(dāng)前結(jié)點(diǎn)的詞匯的word embedding。

從當(dāng)計(jì)算識(shí)別到<BOS>，模型訓(xùn)練開(kāi)始。首先輸入"潮水"，然后當(dāng)作輸入輸出"退了"，退了當(dāng)做輸入輸出"就"。

假設(shè)當(dāng)前要得到”退了”這個(gè)詞的上下文embedding，首先，因?yàn)榍斑叺腞NN只考慮到了前文而沒(méi)有考慮到后文，所以這里就使用了同前文一樣的反向的RNN。然后，它從句尾開(kāi)始進(jìn)行，比如給它喂”知道”，它就要預(yù)測(cè)”就”，給它喂”就”，它就要預(yù)測(cè)”退了”。這時(shí)候就不僅考慮每個(gè)詞匯的前文，還會(huì)考慮每個(gè)詞的后文。最后將正向和逆向得到的兩個(gè)不同的上下文embedding(因?yàn)榉较虿煌?xùn)練結(jié)果也不一樣)拼接起來(lái)。

現(xiàn)在我們訓(xùn)練的程度都會(huì)越來(lái)越深度，當(dāng)層數(shù)增加，這樣就會(huì)產(chǎn)生Deep的RNN，因?yàn)楹芏鄬?，而且每一層都?huì)產(chǎn)生上下文Embedding，那么我們到底應(yīng)該使用哪一層？每一層這種深度LSTM中的每個(gè)層都可以生成潛在表示(方框處)。同一個(gè)詞在不同的層上會(huì)產(chǎn)生不同的Embedding，那么我們應(yīng)該使用哪一層呢？ELMo的策略是每一層得到的上下文embedding都要。

在上下文embedding的訓(xùn)練模型中，每個(gè)詞輸入進(jìn)去都會(huì)有一個(gè)embedding輸出來(lái)。但是在ELMo中，每個(gè)詞匯輸入進(jìn)去，都會(huì)得到不止一個(gè)embedding，因?yàn)槊繉拥腞NN都會(huì)給到一個(gè)embedding，ELMo將它們統(tǒng)統(tǒng)加起來(lái)一起使用。

以圖中為例，這里假設(shè)ELMo有兩層RNN，這里是將α1(黃色，第一層得到的embedding)和α2(綠色，第二層得到embedding)加起來(lái)得到藍(lán)色的embedding，并做為接下來(lái)要進(jìn)行不同任務(wù)的輸入。

但是這里存在一些問(wèn)題，α1和α2是學(xué)習(xí)得到的，而且它是根據(jù)當(dāng)前要進(jìn)行的任務(wù)(如QA，POS of tagging )，然后根據(jù)接下來(lái)要進(jìn)行的這些任務(wù)一起被學(xué)習(xí)出來(lái)。所以就導(dǎo)致不同任務(wù)導(dǎo)向下的α1和α2也不一樣。

ELMo的論文中提到，在不同任務(wù)下(SRL,Coref,SNLI,SQuAD,SST-5)。藍(lán)色的上下文embedding在經(jīng)過(guò)token(這里為沒(méi)有經(jīng)過(guò)上下文的embedding)，LSTM1，LSTM2后，它在不同階段需要的weight也不一樣。

BERT相當(dāng)于是Transformer的Encoder部分，它只需要搜集大量的語(yǔ)料去從中學(xué)習(xí)而不經(jīng)過(guò)標(biāo)注(不需要label)，就可以將Encoder訓(xùn)練完成。如果之前要訓(xùn)練Encoder，我們需要通過(guò)一些任務(wù)來(lái)驅(qū)動(dòng)學(xué)習(xí)(如機(jī)器翻譯)。

BERT就是句子給進(jìn)去，每個(gè)句子給一個(gè)embedding。

這里可以回憶下，Transformer的Enoder中有self-attention layer，就是給進(jìn)去一個(gè)sequence，輸出也得到一個(gè)sequence。

雖然圖中使用是用詞作為單元進(jìn)行輸入，但是在使用BERT進(jìn)行中文的訓(xùn)練時(shí)，字會(huì)是一個(gè)更好的選擇。比如，我們?cè)诮oBERT進(jìn)行輸入時(shí)，用one-hot給詞進(jìn)行編碼，但是詞在中文中數(shù)量龐大，會(huì)導(dǎo)致維度過(guò)高。但是，字的話(huà)相對(duì)會(huì)少很多，特別是中文(大約幾千個(gè)，可以窮舉)。這樣以字為單位進(jìn)行輸入會(huì)占很大優(yōu)勢(shì)。

共有兩種方法，一種是Mask LM遮蓋語(yǔ)言模型，另一種是Next Sentence Prediction下一句預(yù)測(cè)。

下面用上圖的例子來(lái)理解BERT是怎么樣來(lái)進(jìn)行填空的：

1）這里假設(shè)在所有句子中的詞匯的第2個(gè)位置上設(shè)置一個(gè)<MASK>；

2）接下來(lái)把所有的詞匯輸入BERT，然后每個(gè)輸入的token都會(huì)得到一個(gè)embedding；

3）接下來(lái)將設(shè)置為<MASK>的embedding輸入到Linear Multi-class Classifier中中，要求它預(yù)測(cè)被<MASK>的詞匯是哪個(gè)詞匯？

但是這個(gè)Linear Multi-class Classifier它僅僅是一個(gè)線(xiàn)性分類(lèi)器，所以它的能力十分弱，這也就需要在之前的BERT模型中需要將它的層數(shù)等參數(shù)設(shè)計(jì)的相當(dāng)好，然后得到非常出色的representation，便于線(xiàn)性分類(lèi)器去訓(xùn)練。

那么我們?cè)趺粗雷詈蟮玫降膃mbedding是什么樣的呢？如果兩個(gè)<MASK>下的詞匯(輸入時(shí)設(shè)置的<MASK>和最后預(yù)測(cè)的<MASK>)都放回原來(lái)的位置而且沒(méi)有違和感(就是語(yǔ)句還算通順)，那它們就有類(lèi)似的embedding(比如退下和落下)。

如圖中，給定兩個(gè)句子1)醒醒吧和 2)你沒(méi)有妹妹。其中特殊符號(hào)[SEP]是告訴BERT兩個(gè)句子的分隔點(diǎn)在哪里。

特殊符號(hào)[CLS]一般放在句子的開(kāi)頭，它用來(lái)告訴BERT從這開(kāi)始分類(lèi)任務(wù)，[CLS]輸入BERT后得到embedding然后通過(guò)Linear Binary Classifier得出結(jié)果說(shuō)明：經(jīng)過(guò)BERT預(yù)測(cè)后現(xiàn)在我們要預(yù)測(cè)的兩個(gè)句子是接在一起 or 不應(yīng)該被接在一起。

這里可能會(huì)有疑問(wèn)，為什么不將[CLS]放在句尾，等BERT訓(xùn)練完兩個(gè)句子再輸出結(jié)果？

對(duì)于上圖中的任務(wù)，BERT現(xiàn)在要做的事情就是給定兩個(gè)句子，讓BERT輸出結(jié)果這兩個(gè)句子是不是應(yīng)該接在一起？

所以在語(yǔ)料庫(kù)的大量句子中，我們是知道哪些句子是可以接在一起的，所以也需要我們告訴BERT哪些句子是接在一起的。

Linear Binary Classifier和BERT是一起被訓(xùn)練的，通過(guò)預(yù)測(cè)下一句這個(gè)任務(wù)，我們就可以把將BERT部分的最優(yōu)參數(shù)訓(xùn)練出來(lái)。

現(xiàn)在我們知道了任務(wù)一和任務(wù)二，在原論文中兩種任務(wù)是要同時(shí)進(jìn)行的，這樣才能將BERT的性能發(fā)揮到最佳。

現(xiàn)在我們知道了BERT要做什么事情，那么我們要如何去使用它？共有四種方法。論文中是將【BERT模型和接下來(lái)你要進(jìn)行的任務(wù)】結(jié)合在一起做訓(xùn)練。

第一種，假設(shè)當(dāng)前任務(wù)是Input一個(gè)sentence，out一個(gè)class，舉例來(lái)說(shuō)輸入一句話(huà)來(lái)判斷分類(lèi)。

訓(xùn)練流程：1）將做要分類(lèi)的句子丟給BERT；

2）需要在句子開(kāi)始加上分類(lèi)的特殊符號(hào)，這個(gè)特殊符號(hào)經(jīng)過(guò)BERT輸出的embedding經(jīng)過(guò)線(xiàn)性分類(lèi)器，輸出結(jié)果為當(dāng)前的句子屬于的類(lèi)別是真還是假。BERT和Linear Classifier的參數(shù)一起進(jìn)行學(xué)習(xí)；

3）這里的Linear Classifier是Trained from Scratch是白手起家從頭開(kāi)始，即它的參數(shù)隨機(jī)初始化設(shè)置，然后開(kāi)始訓(xùn)練；

4）而B(niǎo)ERT則是加上Fine-tune微調(diào)策略(一種遷移學(xué)習(xí)方式*)，例如Generative Pre-trained Transformer(OpenAI GPT生成型預(yù)訓(xùn)練變換器)(Radford等，2018)，引入了最小的任務(wù)特定參數(shù)，并通過(guò)簡(jiǎn)單地微調(diào)預(yù)訓(xùn)練參數(shù)在下游任務(wù)中進(jìn)行訓(xùn)練。

*這里不得不提一下遷移學(xué)習(xí)中的Fine-tune，這里可以參考csdn的一篇文章： https://blog.csdn.net/u013841196/article/details/80919857

( https://arxiv.org/abs/1805.12471 )

第二種，假設(shè)當(dāng)前任務(wù)是input一個(gè)sentence，輸出這個(gè)句子中的每個(gè)詞匯屬于正例還是負(fù)例。舉例現(xiàn)在的任務(wù)是slot filling填槽任務(wù)(填槽指的是為了讓用戶(hù)意圖轉(zhuǎn)化為用戶(hù)明確的指令而補(bǔ)全信息的過(guò)程)（另一種解釋是從大規(guī)模的語(yǔ)料庫(kù)中抽取給定實(shí)體（query）的被明確定義的屬性（slot types）的值（slot fillers））(槽可以理解為實(shí)體已明確定義的屬性)，輸入的句子是 arrive Taipei on November 2nd輸出的槽是other dest on time time

訓(xùn)練流程：

1）將句子輸入BERT，句子中的每個(gè)詞匯都會(huì)映射出一個(gè)embedding；

2）每個(gè)詞匯的embedding輸入Linear Classifier，輸出結(jié)果；

3）Linear Classifier 白手起家和Bert微調(diào)的方式一起去做學(xué)習(xí)。

第三種，假設(shè)當(dāng)前任務(wù)是input輸入兩個(gè)句子，輸出class。舉例現(xiàn)在要進(jìn)行自然語(yǔ)言預(yù)測(cè)，讓機(jī)器根據(jù)premise前提，預(yù)測(cè)這個(gè)hypothesis假設(shè)是True還是False還是unknown不知道。實(shí)際上，我們可以把這個(gè)任務(wù)當(dāng)成三分類(lèi)問(wèn)題。

訓(xùn)練過(guò)程：

1）在一個(gè)sentence前設(shè)置特殊符號(hào)[CLS]，然后在要輸入的兩個(gè)sentence中間設(shè)置[SEP]分隔符號(hào)；

2）將兩個(gè)sentence連同特殊符號(hào)一起輸入到BERT中；

3）將[CLS]輸入BERT后得到的embedding，再把它輸入linear Classifier中，得到class。

如圖所示，假設(shè)gravity的token序號(hào)是17，即，我們現(xiàn)在有一個(gè)問(wèn)題通過(guò)QA Model后得到的s=17，e=17，那么答案就是為gravity；

同理，假設(shè)within a cloud的序號(hào)順序是77到79，即到 ,我們現(xiàn)在有一個(gè)問(wèn)題通過(guò)QA Model后得到的s=77，e=79，那么答案就是為within a cloud。

https://arxiv.org/abs/1905.05950

https://openreview.net/pdf?id=SJzSgnRcKX

這張圖顯示了BERT從0-24層的層數(shù)在針對(duì)不同的NLP任務(wù)上的表現(xiàn)。

https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

而所謂的GPT,它其實(shí)就是Transformer的Decoder。

我們簡(jiǎn)單的描述下GPT的訓(xùn)練過(guò)程：這里我們input<BOS>這個(gè)token和潮水，想要GPT預(yù)測(cè)輸出“退了”這個(gè)詞匯。

1）首先輸入[BOS]（begin of sentence）和潮水，通過(guò)Word Embedding再乘上matrix W變成a 1到a 4，然后把它們丟進(jìn)self-attention 層中，這時(shí)候每一個(gè)input都分別乘上3個(gè)不同的matrix產(chǎn)生3個(gè)不同的vector，分別把它們命名為q，k，v。

q代表的是query (to match others用來(lái)去匹配其它的向量)

k代表的是key (to be matched用來(lái)去被query匹配的向量)

v代表的是value(information to be extracted用來(lái)被抽取的信息的向量)

2）現(xiàn)在要做的工作就是用每個(gè)query q 去對(duì)每個(gè) key k做attention（吃2個(gè)向量，輸出就是告訴你這2個(gè)向量有多么匹配或者可以說(shuō)輸入兩個(gè)向量輸出一個(gè)分?jǐn)?shù)alpha（而怎么去吃2個(gè)向量output一個(gè)分?jǐn)?shù)，有很多不同的做法））。這里要預(yù)測(cè)潮水的下一個(gè)詞，所以乘，乘上 , 乘上再經(jīng)過(guò)soft-max分別得到到。

3)我們用和每一個(gè)v相乘，和相乘加上和相乘。以此類(lèi)推并相加，最終得到。

4)然后經(jīng)過(guò)很多層的self-attention，預(yù)測(cè)得到”退了”這個(gè)詞匯。

同理，現(xiàn)在要預(yù)測(cè)”退了”的下一個(gè)詞匯，按照前面的流程可以得到，然后經(jīng)過(guò)很多層的self-attention層，得到”就”這個(gè)詞匯。

GPT的神奇之處在于它可以在完全沒(méi)有訓(xùn)練數(shù)據(jù)的情況下，就可以做到閱讀理解，摘要，翻譯。折線(xiàn)圖中顯示了它在參數(shù)量上升的情況下，F(xiàn)1的值的效果。

1.Transformer的問(wèn)題：

word Embedding 無(wú)上下文

監(jiān)督數(shù)據(jù)太少

解決方法：

Contextual Word Embedding

2.ELMo( E mbeddings from L anguages Mo del)

- 多層雙向的LSTM的NNLM

- RNN-based language models(trained from lots of sentences)