正文

怎么讓gpt寫(xiě)論文（gpt2論文）

發(fā)布時(shí)間：2023-03-13 06:05:49 稿源：創(chuàng)意嶺閱讀： 107 問(wèn)大家

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于怎么讓gpt寫(xiě)論文的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

ChatGPT國(guó)內(nèi)免費(fèi)在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫(xiě)出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、GPT 原理解析
2、冠遠(yuǎn)萬(wàn)能主板管溫多大的
3、BERT - 論文解讀
4、chatgpt論文有字?jǐn)?shù)要求嗎

怎么讓gpt寫(xiě)論文（gpt2論文）

一、GPT 原理解析

GPT（Generative Pre-Training）是一個(gè)典型的兩階段式模型：無(wú)監(jiān)督預(yù)訓(xùn)練+監(jiān)督下游任務(wù)微調(diào)。而在 NLP 任務(wù)中，上游的無(wú)監(jiān)督預(yù)訓(xùn)練任務(wù)多半采用語(yǔ)言模型來(lái)實(shí)現(xiàn)，下游的監(jiān)督任務(wù)直接對(duì)上游的模型進(jìn)行簡(jiǎn)單改造即可使用。

GPT 為了能夠有效的抓取文本中的語(yǔ)義信息，使用了單向的 Transformer Decoder 模塊構(gòu)建標(biāo)準(zhǔn)的語(yǔ)言模型，再使用預(yù)訓(xùn)練得到的網(wǎng)絡(luò)架構(gòu)與參數(shù)進(jìn)行下游監(jiān)督任務(wù)的微調(diào)，取得了不錯(cuò)的效果。

論文： Improving Language Understanding by Generative Pre-Training

對(duì)于語(yǔ)料，GPT 構(gòu)建標(biāo)準(zhǔn)的語(yǔ)言模型：

文章中使用 Transformer Decoder 模塊加上前饋神經(jīng)網(wǎng)絡(luò)，最后使用 softmax 輸出目標(biāo)詞的分布：

對(duì)于通過(guò)第一階段的預(yù)訓(xùn)練得到的語(yǔ)言模型，對(duì)于特定的任務(wù)進(jìn)行 fine-tuning。

對(duì)于一個(gè)監(jiān)督數(shù)據(jù)集，其中的數(shù)據(jù)為一個(gè)序列和一個(gè)標(biāo)簽。將序列輸入預(yù)訓(xùn)練模型后得到輸出向量為，接著使用一個(gè)線性層來(lái)預(yù)測(cè)標(biāo)簽：

需極大化的似然函數(shù)為：

另外，作者發(fā)現(xiàn)，使用語(yǔ)言模型來(lái)輔助監(jiān)督學(xué)習(xí)的任務(wù)進(jìn)行微調(diào)，有兩個(gè)好處：

所以，最終下游使用的監(jiān)督模型目標(biāo)函數(shù)為：

GPT 使用兩階段式模型的另外一個(gè)好處是，作者期望通過(guò)第一階段的預(yù)訓(xùn)練語(yǔ)言模型，學(xué)習(xí)到盡可能多的自然語(yǔ)言信息，且對(duì)于大多數(shù)下游任務(wù)，只需要簡(jiǎn)單的修改輸入而不需要修改模型架構(gòu)即可完成微調(diào)。對(duì)于 NLP 中的幾種主流任務(wù)，GPT 分別做了如下的變換策略：

模型還包括一些細(xì)節(jié)：

論文： Language Models are Unsupervised Multitask Learners

GPT-2 是 GPT 的直接升級(jí)版，效果驚人。相比之下，GPT-2 有如下幾點(diǎn)改進(jìn)：

二、冠遠(yuǎn)萬(wàn)能主板管溫多大的

冠遠(yuǎn)萬(wàn)能主板的管溫一般在50-60度之間，但是也可以根據(jù)您的使用環(huán)境和配置來(lái)調(diào)整，最高可以達(dá)到85度，但是建議您盡量將管溫保持在50-60度之間，以免影響主板的使用壽命。此外，您還可以通過(guò)添加散熱器或者更換散熱器來(lái)降低主板的管溫，以保證主板的正常使用。

三、BERT - 論文解讀

BERT:【 Pre-training of Deep Bidirectional Transformers for

Language Understanding】

○ 將預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用在下游任務(wù)中，一般有兩種策略：

作者認(rèn)為影響當(dāng)前預(yù)訓(xùn)練語(yǔ)言模型的 瓶頸是——“模型是單向的” 。如 GPT 選擇從左到右的架構(gòu)，這使得每個(gè) token 只能注意到它前面的 token，這對(duì) sentence 級(jí)的任務(wù)影響還是次要的，但對(duì)于 token 級(jí)的任務(wù)來(lái)說(shuō)影響就很巨大。例如問(wèn)答任務(wù)，從兩個(gè)方向結(jié)合上下文是至關(guān)重要的。

BERT 通過(guò)使用受完形填空任務(wù)啟發(fā)的 Mask Language Model （MLM）緩解了先前模型的單向性約束問(wèn)題。MLM 隨機(jī) mask 掉一些輸入文本中的 token，然后根據(jù)剩下的上下文預(yù)測(cè) masked 的 token。除了 Mask Language Model，作者還提出了 Next Sequence Predict 任務(wù)，來(lái)聯(lián)合訓(xùn)練文本對(duì)表示。

論文中BERT的改進(jìn)如下：

預(yù)訓(xùn)練前的一般語(yǔ)言表征有著悠久歷史，本節(jié)我們簡(jiǎn)要回顧一下最廣泛使用的方法。

2.1 基于特征的無(wú)監(jiān)督方法 ：

幾十年來(lái)，學(xué)習(xí)廣泛適用的詞匯表征一直是一個(gè)活躍的研究領(lǐng)域，包括非神經(jīng)系統(tǒng)、神經(jīng)系統(tǒng)方法。預(yù)訓(xùn)練的詞嵌入是現(xiàn)代NLP系統(tǒng)的一個(gè)組成部分，與從頭學(xué)習(xí)的嵌入相比，它提供了顯著的改進(jìn)（Turian等人，2010）。為了預(yù)先訓(xùn)練單詞嵌入向量，已經(jīng)使用了從左到右的語(yǔ)言建模目標(biāo)（Mnih和Hinton，2009），以及在左右上下文中區(qū)分正確單詞和錯(cuò)誤單詞的目標(biāo)（Mikolov等人，2013）。

這些方法已被推廣到更粗糙的粒度，例如句子嵌入（Kiros等人，2015；Logeswaran和Lee，2018）或段落嵌入（Le和Mikolov，2014）。為了訓(xùn)練句子表征，之前的工作已經(jīng)使用了目標(biāo)對(duì)候選下一個(gè)句子進(jìn)行排序（Jernite等人，2017；Logeswaran和Lee，2018），根據(jù)前一個(gè)句子的表征從左到右生成下一個(gè)句子單詞（Kiros等人，2015），或去噪自動(dòng)編碼器衍生的目標(biāo)（Hill等人，2016）。

ELMo 及其前身（Peters等人，20172018a）從不同的維度概括了傳統(tǒng)的單詞嵌入研究。它們通過(guò)從左到右和從右到左的語(yǔ)言模型中提取上下文敏感的特征。每個(gè)標(biāo)記的上下文表示是從左到右和從右到左表示的 串聯(lián) 。在將上下文單詞嵌入與現(xiàn)有任務(wù)特定架構(gòu)相結(jié)合時(shí)，ELMo推進(jìn)了幾個(gè)主要NLP基準(zhǔn)（Peters等人，2018a）的最新技術(shù)，包括問(wèn)答（Rajpurkar等人，2016年）、情感分析（Socher等人，2013年）和命名實(shí)體識(shí)別（Tjong Kim-Sang和De Meulder，2003年）。Melamud等人（2016年）提出通過(guò)一項(xiàng)任務(wù)來(lái)學(xué)習(xí)語(yǔ)境表征，即使用 LSTM 從左右語(yǔ)境中預(yù)測(cè)單個(gè)單詞。與ELMo類(lèi)似，他們的模型是基于特征的，而不是深度雙向的。Fedus等人（2018）表明，完形填空任務(wù)可以用來(lái)提高文本生成模型的 穩(wěn)健性 。

2.2 無(wú)監(jiān)督微調(diào)方法：

與 基于特征feature-based 的方法一樣，第一種方法只在未標(biāo)記文本中預(yù)先訓(xùn)練單詞嵌入?yún)?shù)的情況下才朝這個(gè)方向工作。最近，產(chǎn)生上下文標(biāo)記表示的句子或文檔編碼器已經(jīng)從未標(biāo)記的文本和文本中預(yù)訓(xùn)練出來(lái)針對(duì)受監(jiān)督的下游任務(wù)進(jìn)行了 微調(diào)fine-tuned 。

這些方法的 優(yōu)點(diǎn)是 ，很少有參數(shù)需要從頭學(xué)習(xí)。至少部分由于這一優(yōu)勢(shì)，OpenAI GPT在GLUE基準(zhǔn)測(cè)試的許多句子級(jí)任務(wù)上取得了之前的最新成果。從左到右的語(yǔ)言建模和自動(dòng)編碼器目標(biāo)已用于此類(lèi)模型的預(yù)訓(xùn)練。

注解：BERT的整體預(yù)訓(xùn)練和微調(diào)程序。除了輸出層之外，在預(yù)訓(xùn)練和微調(diào)中使用相同的體系結(jié)構(gòu)。相同的預(yù)訓(xùn)練模型參數(shù)用于初始化不同下游任務(wù)的模型。在微調(diào)過(guò)程中，所有參數(shù)都會(huì)微調(diào)。

2.3 基于監(jiān)督數(shù)據(jù)的遷移學(xué)習(xí)：

也有研究表明，在大數(shù)據(jù)集的監(jiān)督任務(wù)中，如自然語(yǔ)言推理和機(jī)器翻譯可以有效地進(jìn)行轉(zhuǎn)換。計(jì)算機(jī)視覺(jué)研究也證明了 從大型預(yù)訓(xùn)練模型中進(jìn)行遷移學(xué)習(xí)的重要性 ，其中一個(gè)有效的方法是對(duì)使用ImageNet預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

本節(jié)將介紹BERT及其詳細(xì)實(shí)現(xiàn)。在我們的框架中有兩個(gè)步驟：預(yù)訓(xùn)練和微調(diào)。

BERT的一個(gè)顯著特點(diǎn)是其跨不同任務(wù)的統(tǒng)一體系結(jié)構(gòu) 。預(yù)訓(xùn)練的體系結(jié)構(gòu)和最終的下游體系結(jié)構(gòu)之間的差異最小。

BERT 的模型架構(gòu)是 一種多層的雙向 transformer encoder ，BERT 在實(shí)現(xiàn)上與 transformer encoder 幾乎完全相同。

定義：transformer block 的個(gè)數(shù)為 L ; hidden 大小為 H; self-attentions head 的個(gè)數(shù)為 A. 作者主要展示了兩種規(guī)模的 BERT 模型：

在這項(xiàng)工作中，我們將層數(shù)（即Transformer blocks）表示為L(zhǎng)，隱藏大小表示為H，自我注意頭的數(shù)量表示為A。我們主要報(bào)告兩種型號(hào)的結(jié)果：

為了進(jìn)行比較，選擇BERT-base與OpenAI GPT具有相同的模型大小。然而，關(guān)鍵的是， BERT Transformer使用雙向自注意力機(jī)制self-attention ，而 GPT Transformer使用受限自注意力機(jī)制constrained self-attention ，其中每個(gè)標(biāo)記只能關(guān)注其左側(cè)的上下文。

為了使 BERT 能處理大量不同的下游任務(wù)，作者將模型的輸入設(shè)計(jì)成可以輸入單個(gè)句子或句子對(duì)，這兩種輸入被建模成同一個(gè) token 序列。作者使用了有 30000 個(gè) token 的 vocabulary 詞嵌入。

3.1 Pre-training BERT :

我們不使用傳統(tǒng)的從左到右或從右到左的語(yǔ)言模型來(lái)預(yù)訓(xùn)練BERT。相反，我們使用本節(jié)所述的兩個(gè)無(wú)監(jiān)督任務(wù)對(duì)BERT進(jìn)行預(yù)訓(xùn)練。這一步如圖1的左半部分所示。

Task #1: Masked LM

標(biāo)準(zhǔn)的語(yǔ)言模型只能實(shí)現(xiàn)從左到右或從右到左的訓(xùn)練，不能實(shí)現(xiàn)真正的雙向訓(xùn)練，這是因?yàn)殡p向的條件是每個(gè)單詞能直接“看到自己”，并且模型可以在多層上下文中輕松的預(yù)測(cè)出目標(biāo)詞。

為了能夠?qū)崿F(xiàn)雙向的深度預(yù)訓(xùn)練，作者選擇 隨機(jī) mask 掉一些比例的 token ，然后預(yù)測(cè)這些被 masked 的 token，在這種設(shè)置下，被 masked 的 token 的隱向量表示被輸出到詞匯表的 softmax 上，這就與標(biāo)準(zhǔn)語(yǔ)言模型設(shè)置相同。作者將 這個(gè)過(guò)程稱(chēng)為“Masked LM”，也被稱(chēng)為“完形填空” 。

○ Masked LM 預(yù)訓(xùn)練任務(wù)的缺點(diǎn) ：

在于由于 [MASK] 標(biāo)記不會(huì)出現(xiàn)在微調(diào)階段，這就造成了預(yù)訓(xùn)練和微調(diào)階段的不一致。為了解決該問(wèn)題，作者提出了 一種折中的方案 ：

○ BERT 的 mask策略：

Task #2: Next Sentence Prediction (NSP)

很多下游任務(wù)都是基于對(duì)兩句話之間的關(guān)系的理解，語(yǔ)言模型不能直接捕獲這種信息。為了訓(xùn)練模型理解這種句間關(guān)系，作者 設(shè)計(jì)了 next sentence prediction 的二分類(lèi)任務(wù) 。具體來(lái)說(shuō)，就是選擇兩個(gè)句子作為一個(gè)訓(xùn)練樣本，有 50% 的概率是下一句關(guān)系，有 50% 的概率是隨機(jī)選擇的句子對(duì)， 預(yù)測(cè)將 [CLS] 的最終隱狀態(tài) C 輸入 sigmoid 實(shí)現(xiàn) 。

○ Pre-training data ：

作者選用了BooksCorpus (800M words) 和 English Wikipedia (2,500M words) 作為預(yù)訓(xùn)練的語(yǔ)料庫(kù)，作者只選取了 Wikipedia 中的文本段落，忽略了表格、標(biāo)題等。為了獲取長(zhǎng)的連續(xù)文本序列，作者選用了 BIllion Word Benchmark 這樣的文檔級(jí)語(yǔ)料庫(kù)，而非打亂的句子級(jí)語(yǔ)料庫(kù)。

3.2 Fine-tuning BERT ：

因?yàn)?transformer 中的 self-attention 機(jī)制適用于很多下游任務(wù)，所以可以直接對(duì)模型進(jìn)行微調(diào)。對(duì)于涉及文本對(duì)的任務(wù)，一般的做法是獨(dú)立 encode 文本對(duì)，然后再應(yīng)用雙向的 cross attention 進(jìn)行交互。Bert 使用 self-attention 機(jī)制統(tǒng)一了這兩個(gè)階段，該機(jī)制直接能夠?qū)崿F(xiàn)兩個(gè)串聯(lián)句子的交叉編碼。

對(duì)于不同的任務(wù)，只需要簡(jiǎn)單地將特定于該任務(wù)的輸入輸出插入到 Bert 中，然后進(jìn)行 end2end 的fine-tuning。

與預(yù)訓(xùn)練相比，微調(diào)相對(duì)便宜。從完全相同的預(yù)訓(xùn)練模型開(kāi)始，本文中的所有結(jié)果最多可以在單個(gè)云TPU上復(fù)制1小時(shí)，或在GPU上復(fù)制幾個(gè)小時(shí)。

在本節(jié)中，我們將介紹11個(gè)NLP任務(wù)的BERT微調(diào)結(jié)果。

4.1 GLUE：

GLUE (General Language Understanding Evaluation) 是多個(gè) NLP 任務(wù)的集合。作者設(shè)置 batch size 為 32；訓(xùn)練 3 個(gè) epochs；在驗(yàn)證集上從（5e-5, 4e-5, 3e-5, 2e-5）中選擇最優(yōu)的學(xué)習(xí)率。結(jié)果如下：

結(jié)果見(jiàn)表1。 BERT-base和BERT-large在所有任務(wù)上都比所有系統(tǒng)表現(xiàn)出色，與現(xiàn)有技術(shù)相比，平均準(zhǔn)確率分別提高了4.5%和7.0% 。請(qǐng)注意，除了注意掩蔽，BERT-base和OpenAI GPT在模型架構(gòu)方面幾乎相同。

對(duì)于最大和最廣泛報(bào)道的GLUE任務(wù)MNLI，BERT獲得了4.6%的絕對(duì)準(zhǔn)確率提高。在官方的GLUE排行榜10中，BERT-lagle獲得80.5分，而OpenAI GPT在撰寫(xiě)本文之日獲得72.8分。我們發(fā)現(xiàn)BERT-large在所有任務(wù)中都顯著優(yōu)于BERT-base，尤其是那些訓(xùn)練數(shù)據(jù)很少的任務(wù)。

4.2 SQuAD v1.1 :

斯坦福問(wèn)答數(shù)據(jù)集（SQuAD v1.1）收集了10萬(wàn)對(duì)眾包問(wèn)答對(duì)。給出一個(gè)問(wèn)題和一段維基百科中包含答案的文章，任務(wù)是預(yù)測(cè)文章中的答案文本。

如圖1所示，在問(wèn)答任務(wù)中，我們將輸入的問(wèn)題和段落表示為單個(gè)壓縮序列，問(wèn)題使用A嵌入，段落使用B嵌入。在微調(diào)過(guò)程，我們只引入一個(gè)起始向量S和一個(gè)端向量E。單詞i作為答案范圍開(kāi)始的概率計(jì)算為T(mén)i和S之間的點(diǎn)積，然后是段落中所有單詞的softmax：

答案范圍結(jié)束時(shí)使用類(lèi)似公式。候選人從位置 i 到位置 j 的得分定義為：S·Ti + E·Tj ,最大得分跨度為 j≥ i 被用作預(yù)測(cè)。訓(xùn)練目標(biāo)是正確起始位置和結(jié)束位置的對(duì)數(shù)概率之和。我們微調(diào)了3個(gè)階段，學(xué)習(xí)率為5e-5，批量大小為32。

表2顯示了頂級(jí)排行榜條目以及頂級(jí)發(fā)布系統(tǒng)的結(jié)果。SQuAD排行榜的前幾名沒(méi)有最新的公共系統(tǒng)描述，并且允許在訓(xùn)練系統(tǒng)時(shí)使用任何公共數(shù)據(jù)。因此，在我們的系統(tǒng)中使用適度的數(shù)據(jù)擴(kuò)充，首先在TriviaQA上進(jìn)行微調(diào)，然后再對(duì)團(tuán)隊(duì)進(jìn)行微調(diào)。

我們表現(xiàn)最好的系統(tǒng)在ensembling方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng)，在ensembling方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng)+1.5 F1，在單一系統(tǒng)方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng)+1.3 F1得分。事實(shí)上，我們的單BERT模型在F1成績(jī)方面優(yōu)于頂級(jí)合奏系統(tǒng)。如果沒(méi)有TriviaQA微調(diào)數(shù)據(jù)，我們只會(huì)損失0.1-0.4 F1，仍然遠(yuǎn)遠(yuǎn)超過(guò)所有現(xiàn)有系統(tǒng)。

其他實(shí)驗(yàn)：略

在本節(jié)中，我們對(duì)BERT的許多方面進(jìn)行了消融實(shí)驗(yàn)，以便更好地了解它們的相對(duì)重要性。其他消融研究見(jiàn)附錄C。

5.1 預(yù)訓(xùn)練任務(wù)的效果 ：

○ 進(jìn)行了如下消融測(cè)試：

○ 結(jié)果如下：

5.2 模型大小的影響 ：

○ 結(jié)果如下：

作者證明了 ：如果模型經(jīng)過(guò)充分的預(yù)訓(xùn)練，即使模型尺寸擴(kuò)展到很大，也能極大改進(jìn)訓(xùn)練數(shù)據(jù)規(guī)模較小的下游任務(wù)。

5.3 將 Bert 應(yīng)用于 Feature-based 的方法 ：

○ feature-based 的方法是從預(yù)訓(xùn)練模型中提取固定的特征，不對(duì)具體任務(wù)進(jìn)行微調(diào) 。

○ 這樣的方法也有一定的優(yōu)點(diǎn) ：

作者進(jìn)行了如下實(shí)驗(yàn)：在 CoNLL-2003 數(shù)據(jù)集上完成 NER 任務(wù)，不使用 CRF 輸出，而是從一到多個(gè)層中提取出激活值，輸入到 2 層 768 維的 BiLSTM 中，再直接分類(lèi)。結(jié)果如下：

結(jié)果說(shuō)明：無(wú)論是否進(jìn)行微調(diào)，Bert 模型都是有效的。

個(gè)人認(rèn)為 Bert 的意義在于：

由于語(yǔ)言模型的遷移學(xué)習(xí)，最近的經(jīng)驗(yàn)改進(jìn)表明，豐富的、無(wú)監(jiān)督的預(yù)訓(xùn)練是許多語(yǔ)言理解系統(tǒng)的一個(gè)組成部分。特別是，這些結(jié)果使得即使是低資源任務(wù)也能從深層單向體系結(jié)構(gòu)中受益。我們的主要貢獻(xiàn)是將這些發(fā)現(xiàn)進(jìn)一步推廣到深層雙向體系結(jié)構(gòu)中，使相同的預(yù)訓(xùn)練模型能夠成功地處理廣泛的NLP任務(wù)。

四、chatgpt論文有字?jǐn)?shù)要求嗎

不存在字?jǐn)?shù)要求，但是一般來(lái)說(shuō)，論文的字?jǐn)?shù)越多越好，最好在5000字以上，以便論述足夠的內(nèi)容。

以上就是關(guān)于怎么讓gpt寫(xiě)論文相關(guān)問(wèn)題的回答。希望能幫到你，如有更多相關(guān)問(wèn)題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。