正文

gpt3和transformer的關(guān)系（gpt transformer）

發(fā)布時(shí)間：2023-03-13 01:58:42 稿源：創(chuàng)意嶺閱讀： 93 問(wèn)大家

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于gpt3和transformer的關(guān)系的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

ChatGPT國(guó)內(nèi)免費(fèi)在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、BERT詳解（附帶ELMo、GPT 介紹）
2、為什么說(shuō)Transformer的注意力機(jī)制是相對(duì)廉價(jià)的？注意力機(jī)制相對(duì)更對(duì)于RNN系列及CNN系列算法有何優(yōu)勢(shì)？
3、gpt人工智能縮寫
4、理解Bert

gpt3和transformer的關(guān)系（gpt transformer）

一、BERT詳解（附帶ELMo、GPT 介紹）

首先我會(huì)詳細(xì)闡述 BERT 原理，然后簡(jiǎn)單介紹一下 ELMO 以及 GPT

BERT 全稱為 B idirectional E ncoder R epresentation from T ransformer，是 Google 以 無(wú)監(jiān)督的方式利用大量無(wú)標(biāo)注文本 「煉成」的語(yǔ)言模型，其架構(gòu)為 Transformer 中的 Encoder（BERT=Encoder of Transformer）

我在 Transformer 詳解中已經(jīng)詳細(xì)的解釋了所有 Transformer 的相關(guān)概念，這里就不再贅述

以往為了解決不同的 NLP 任務(wù)，我們會(huì)為該任務(wù)設(shè)計(jì)一個(gè)最合適的神經(jīng)網(wǎng)絡(luò)架構(gòu)并做訓(xùn)練，以下是一些簡(jiǎn)單的例子

不同的 NLP 任務(wù)通常需要不同的模型，而設(shè)計(jì)這些模型并測(cè)試其 performance 是非常耗成本的（人力，時(shí)間，計(jì)算資源）。如果有一個(gè)能 直接處理各式 NLP 任務(wù)的通用架構(gòu) 該有多好？

隨著時(shí)代演進(jìn)，不少人很自然地有了這樣子的想法，而 BERT 就是其中一個(gè)將此概念付諸實(shí)踐的例子

Google 在預(yù)訓(xùn)練 BERT 時(shí)讓它同時(shí)進(jìn)行兩個(gè)任務(wù)：

1. 漏字填空

2. 下個(gè)句子預(yù)測(cè)

對(duì)正常人來(lái)說(shuō)，要完成這兩個(gè)任務(wù)非常簡(jiǎn)單。只要稍微看一下前后文就知道完形填空任務(wù)中 [MASK] 里應(yīng)該填退了；而醒醒吧后面接你沒(méi)有妹妹也十分合理(?)

接下來(lái)我會(huì)分別詳細(xì)介紹論文中這兩個(gè)任務(wù)的設(shè)計(jì)細(xì)節(jié)

在 BERT 中，Masked LM（Masked Language Model）構(gòu)建了語(yǔ)言模型，簡(jiǎn)單來(lái)說(shuō)，就是 隨機(jī)遮蓋或替換 一句話里面的任意字或詞，然后讓模型通過(guò)上下文預(yù)測(cè)那一個(gè)被遮蓋或替換的部分，之后 做 Loss 的時(shí)候也只計(jì)算被遮蓋部分的 Loss ，這其實(shí)是一個(gè)很容易理解的任務(wù)，實(shí)際操作如下：

這樣做的好處是，BERT 并不知道 [MASK] 替換的是哪一個(gè)詞，而且 任何一個(gè)詞都有可能是被替換掉的，比如它看到的 apple 可能是被替換的詞 。這樣強(qiáng)迫模型在編碼當(dāng)前時(shí)刻詞的時(shí)候 不能太依賴當(dāng)前的詞 ，而要考慮它的上下文，甚至根據(jù)上下文進(jìn)行 "糾錯(cuò)"。比如上面的例子中，模型在編碼 apple 時(shí)，根據(jù)上下文 my dog is，應(yīng)該 把 apple 編碼成 hairy 的語(yǔ)義而不是 apple 的語(yǔ)義

我們首先拿到屬于上下文的一對(duì)句子，也就是兩個(gè)句子，之后我們要在這兩個(gè)句子中加一些特殊的 token： [CLS]上一句話[SEP]下一句話[SEP] 。也就是在句子開頭加一個(gè) [CLS] ，在兩句話之間和句末加 [SEP] ，具體地如下圖所示

可以看到，上圖中的兩句話明顯是連續(xù)的。如果現(xiàn)在有這么一句話 [CLS] 我的狗很可愛(ài) [SEP] 企鵝不擅長(zhǎng)飛行 [SEP] ，可見(jiàn)這兩句話就 不是連續(xù)的 。在實(shí)際訓(xùn)練中，我們會(huì)讓這兩種情況出現(xiàn)的數(shù)量為** 1:1**

Token Embedding 就是正常的詞向量，即 PyTorch 中的 nn.Embedding()

Segment Embedding 的作用是用 embedding 的信息讓模型 分開上下句 ，我們給上句的 token 全 0，下句的 token 全 1，讓模型得以判斷上下句的起止位置，例如

Position Embedding 和 Transformer 中的不一樣，不是三角函數(shù)，而是 學(xué)習(xí)出來(lái)的

BERT 預(yù)訓(xùn)練階段實(shí)際上是將上述兩個(gè)任務(wù)結(jié)合起來(lái)，同時(shí)進(jìn)行，然后將所有的 Loss 相加，例如

BERT 的 Fine-Tuning 共分為 4 種類型，以下內(nèi)容、圖片均來(lái)自臺(tái)大李宏毅老師 Machine Learning 課程（以下內(nèi)容圖在上，解釋在下）

為什么要用CLS？

這里李宏毅老師有一點(diǎn)沒(méi)講到，就是為什么要用第一個(gè)位置，即 [CLS] 位置的 output。這里我看了網(wǎng)上的一些博客，結(jié)合自己的理解解釋一下。因?yàn)?BERT 內(nèi)部是 Transformer，而 Transformer 內(nèi)部又是 Self-Attention， 所以 [CLS] 的 output 里面肯定含有整句話的完整信息 ，這是毋庸置疑的。但是 Self-Attention 向量中，自己和自己的值其實(shí)是占大頭的，現(xiàn)在假設(shè)使用的 output 做分類，那么這個(gè) output 中實(shí)際上會(huì)更加看重，而又是一個(gè)有實(shí)際意義的字或詞，這樣難免會(huì)影響到最終的結(jié)果。但是 [CLS] 是沒(méi)有任何實(shí)際意義的，只是一個(gè)占位符而已，所以就算 [CLS] 的 output 中自己的值占大頭也無(wú)所謂。當(dāng)然你 也可以將所有詞的 output 進(jìn)行 concat，作為最終的 output

首先將問(wèn)題和文章通過(guò) [SEP] 分隔，送入 BERT 之后，得到上圖中黃色的輸出。此時(shí)我們還要訓(xùn)練兩個(gè) vector，即上圖中橙色和黃色的向量。首先將橙色和所有的黃色向量進(jìn)行 dot product，然后通過(guò) softmax，看哪一個(gè)輸出的值最大，例如上圖中對(duì)應(yīng)的輸出概率最大，那我們就認(rèn)為 s=2

同樣地，我們用藍(lán)色的向量和所有黃色向量進(jìn)行 dot product，最終預(yù)測(cè)得的概率最大，因此 e=3。最終，答案就是 s=2,e=3

你可能會(huì)覺(jué)得這里面有個(gè)問(wèn)題，假設(shè)最終的輸出 s>e 怎么辦，那不就矛盾了嗎？其實(shí)在某些訓(xùn)練集里，有的問(wèn)題就是沒(méi)有答案的，因此此時(shí)的預(yù)測(cè)搞不好是對(duì)的，就是沒(méi)有答案

以上就是 BERT 的詳細(xì)介紹，參考以下文章

ELMo是Embedding from language Model的縮寫，它通過(guò)無(wú)監(jiān)督的方式對(duì)語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練來(lái)學(xué)習(xí)單詞表示

這篇論文的想法其實(shí)非常簡(jiǎn)單，但是效果卻很好。它的思路是用 深度的雙向 Language Model 在大量未標(biāo)注數(shù)據(jù)上訓(xùn)練語(yǔ)言模型 ，如下圖所示

在實(shí)際任務(wù)中，對(duì)于輸入的句子，我們使用上面的語(yǔ)言模型來(lái)處理它，得到輸出向量，因此這可以看作是一種 特征提取 。但是 ELMo 與普通的 Word2Vec 或 GloVe 不同，ELMo 得到的 Embedding 是 有上下文信息 的

具體來(lái)說(shuō)，給定一個(gè)長(zhǎng)度為 N 的句子，假設(shè)為，語(yǔ)言模型會(huì)計(jì)算給定的條件下出現(xiàn) 的概率：

傳統(tǒng)的 N-gram 模型 不能考慮很長(zhǎng)的歷史 ，因此現(xiàn)在的主流是使用 多層雙向 LSTM 。在時(shí)刻，LSTM 的第層會(huì)輸出一個(gè)隱狀態(tài) ，其中，是 LSTM 的層數(shù)。最上層是，對(duì)它進(jìn)行 softmax 之后得到輸出詞的概率

類似的，我們可以用 一個(gè)反向 來(lái)計(jì)算概率：

通過(guò)這個(gè) LSTM，我們可以得到。我們的損失函數(shù)是這兩個(gè) LSTM 的加和 :

這兩個(gè) LSTM 有各自的參數(shù) 和，而 Word Embedding 參數(shù) 和 Softmax 參數(shù) 是共享的

為了用于下游（DownStream）的特定任務(wù)，我們會(huì)把不同層的隱狀態(tài)組合起來(lái)，具體組合的參數(shù)是根據(jù)不同的特定任務(wù)學(xué)習(xí)出來(lái)的，公式如下：

GPT 得到的語(yǔ)言模型參數(shù)不是固定的，它會(huì)根據(jù)特定的任務(wù)進(jìn)行調(diào)整（通常是微調(diào)），這樣的到的句子表示能更好的適配特定任務(wù)。它的思想也很簡(jiǎn)單，使用 單向 Transformer 學(xué)習(xí)一個(gè)語(yǔ)言模型 ，對(duì)句子進(jìn)行無(wú)監(jiān)督的 Embedding，然后 根據(jù)具體任務(wù)對(duì) Transformer 的參數(shù)進(jìn)行微調(diào) 。GPT 與 ELMo 有兩個(gè)主要的區(qū)別：

這里解釋一下上面提到的 單向 Transformer 。在 Transformer 的文章中，提到了 Encoder 與 Decoder 使用的 Transformer Block 是不同的。在 Decoder Block 中，使用了 Masked Self-Attention ，即句子中的每個(gè)詞都只能對(duì) 包括自己在內(nèi)的前面所有詞進(jìn)行 Attention ，這就是單向 Transformer。GPT 使用的 Transformer 結(jié)構(gòu)就是將 Encoder 中的 Self-Attention 替換成了 Masked Self-Attention ，具體結(jié)構(gòu)如下圖所示

訓(xùn)練的過(guò)程也非常簡(jiǎn)單，就是將 n 個(gè)詞的詞嵌入 ( ) 加上位置嵌入 ( )，然后輸入到 Transformer 中，n 個(gè)輸出分別預(yù)測(cè)該位置的下一個(gè)詞

這里的位置編碼沒(méi)有使用傳統(tǒng) Transformer 固定編碼的方式，而是動(dòng)態(tài)學(xué)習(xí)的

Pretraining 之后，我們還需要針對(duì)特定任務(wù)進(jìn)行 Fine-Tuning。假設(shè)監(jiān)督數(shù)據(jù)集合的輸入是一個(gè)詞序列，輸出是一個(gè)分類的標(biāo)簽，比如情感分類任務(wù)

我們把輸入 Transformer 模型，得到最上層最后一個(gè)時(shí)刻的輸出，將其通過(guò)我們新增的一個(gè) Softmax 層（參數(shù)為）進(jìn)行分類，最后用 CrossEntropyLoss 計(jì)算損失，從而根據(jù)標(biāo)準(zhǔn)數(shù)據(jù)調(diào)整 Transformer 的參數(shù)以及 Softmax 的參數(shù) 。這等價(jià)于最大似然估計(jì)：

正常來(lái)說(shuō)，我們應(yīng)該調(diào)整參數(shù)使得最大，但是 為了提高訓(xùn)練速度和模型的泛化能力 ，我們使用 Multi-Task Learning，同時(shí)讓它最大似然和

這里使用的還是之前語(yǔ)言模型的損失（似然），但是使用的數(shù)據(jù)不是前面無(wú)監(jiān)督的數(shù)據(jù) ，而是使用當(dāng)前任務(wù)的數(shù)據(jù) ，而且只使用其中的，而不需要標(biāo)簽

針對(duì)不同任務(wù)，需要簡(jiǎn)單修改下輸入數(shù)據(jù)的格式，例如對(duì)于相似度計(jì)算或問(wèn)答，輸入是兩個(gè)序列，為了能夠使用 GPT，我們需要一些特殊的技巧把兩個(gè)輸入序列變成一個(gè)輸入序列

ELMo 和 GPT 最大的問(wèn)題就是 傳統(tǒng)的語(yǔ)言模型是單向的 —— 我們根據(jù)之前的歷史來(lái)預(yù)測(cè)當(dāng)前詞。但是我們不能利用后面的信息。比如句子 The animal didn’t cross the street because it was too tired 。我們?cè)诰幋a it 的語(yǔ)義的時(shí)候需要同時(shí)利用前后的信息，因?yàn)樵谶@個(gè)句子中， it 可能指代 animal 也可能指代 street 。根據(jù) tired ，我們推斷它指代的是 animal 。但是如果把 tired 改成 wide ，那么 it 就是指代 street 了。傳統(tǒng)的語(yǔ)言模型，都 只能利用單方向的信息 。比如前向的 RNN，在編碼 it 的時(shí)候它看到了 animal 和 street ，但是它還沒(méi)有看到 tired ，因此它不能確定 it 到底指代什么。如果是后向的 RNN，在編碼的時(shí)候它看到了 tired ，但是它還根本沒(méi)看到 animal ，因此它也不能知道指代的是 animal 。 Transformer 的 Self-Attention 理論上是可以同時(shí)關(guān)注到這兩個(gè)詞的，但是根據(jù)前面的介紹，為了使用 Transformer 學(xué)習(xí)語(yǔ)言模型，必須 用 Mask 來(lái)讓它看不到未來(lái)的信息 ，所以它也不能解決這個(gè)問(wèn)題的

根據(jù)上文內(nèi)容預(yù)測(cè)下一個(gè)可能跟隨的單詞，就是常說(shuō)的自左向右的語(yǔ)言模型任務(wù)，或者反過(guò)來(lái)也行，就是根據(jù)下文預(yù)測(cè)前面的單詞，這種類型的LM被稱為自回歸語(yǔ)言模型。（GPT,ELMO）GPT 就是典型的自回歸語(yǔ)言模型。ELMO盡管看上去利用了上文，也利用了下文，但是本質(zhì)上仍然是自回歸LM，這個(gè)跟模型具體怎么實(shí)現(xiàn)有關(guān)系。ELMO是做了兩個(gè)方向（從左到右以及從右到左兩個(gè)方向的語(yǔ)言模型），但是是分別有兩個(gè)方向的自回歸LM，然后把LSTM的兩個(gè)方向的隱節(jié)點(diǎn)狀態(tài)拼接到一起，來(lái)體現(xiàn)雙向語(yǔ)言模型這個(gè)事情的。所以其實(shí)是兩個(gè)自回歸語(yǔ)言模型的拼接，本質(zhì)上仍然是自回歸語(yǔ)言模型。

自回歸語(yǔ)言模型有優(yōu)點(diǎn)有缺點(diǎn)，缺點(diǎn)是只能利用上文或者下文的信息，不能同時(shí)利用上文和下文的信息，當(dāng)然，貌似ELMO這種雙向都做，然后拼接看上去能夠解決這個(gè)問(wèn)題，因?yàn)槿诤夏Ｊ竭^(guò)于簡(jiǎn)單，所以效果其實(shí)并不是太好。它的優(yōu)點(diǎn)，其實(shí)跟下游NLP任務(wù)有關(guān)，比如生成類NLP任務(wù)，比如文本摘要，機(jī)器翻譯等，在實(shí)際生成內(nèi)容的時(shí)候，就是從左向右的， 自回歸語(yǔ)言模型天然匹配這個(gè)過(guò)程 。而Bert這種DAE模式，在生成類NLP任務(wù)中，就面臨訓(xùn)練過(guò)程和應(yīng)用過(guò)程不一致的問(wèn)題，導(dǎo)致 生成類的NLP任務(wù)到目前為止都做不太好 。

自回歸語(yǔ)言模型只能根據(jù)上文預(yù)測(cè)下一個(gè)單詞，或者反過(guò)來(lái)，只能根據(jù)下文預(yù)測(cè)前面一個(gè)單詞。相比而言，Bert通過(guò) 在輸入X中隨機(jī)Mask掉一部分單詞 ，然后預(yù)訓(xùn)練過(guò)程的主要任務(wù)之一是根據(jù)上下文單詞來(lái)預(yù)測(cè)這些被Mask掉的單詞，如果你對(duì)Denoising Autoencoder比較熟悉的話，會(huì)看出，這確實(shí)是典型的DAE的思路。那些被Mask掉的單詞就是在輸入側(cè)加入的所謂噪音。類似Bert這種預(yù)訓(xùn)練模式，被稱為DAE LM。

這種DAE LM的優(yōu)缺點(diǎn)正好和自回歸LM反過(guò)來(lái)，它能比較自然地融入雙向語(yǔ)言模型，同時(shí)看到被預(yù)測(cè)單詞的上文和下文，這是好處。缺點(diǎn)是啥呢？ 主要在輸入側(cè)引入[Mask]標(biāo)記，導(dǎo)致預(yù)訓(xùn)練階段和Fine-tuning階段不一致的問(wèn)題 ，因?yàn)镕ine-tuning階段是看不到[Mask]標(biāo)記的。DAE嗎，就要引入噪音，[Mask] 標(biāo)記就是引入噪音的手段，這個(gè)正常。

XLNet的出發(fā)點(diǎn)就是：能否 融合自回歸LM和DAE LM兩者的優(yōu)點(diǎn) 。就是說(shuō)如果站在自回歸LM的角度，如何引入和雙向語(yǔ)言模型等價(jià)的效果；如果站在DAE LM的角度看，它本身是融入雙向語(yǔ)言模型的，如何拋掉表面的那個(gè)[Mask]標(biāo)記，讓預(yù)訓(xùn)練和Fine-tuning保持一致。當(dāng)然，XLNet還講到了一個(gè)Bert被Mask單詞之間相互獨(dú)立的問(wèn)題。

二、為什么說(shuō)Transformer的注意力機(jī)制是相對(duì)廉價(jià)的？注意力機(jī)制相對(duì)更對(duì)于RNN系列及CNN系列算法有何優(yōu)勢(shì)？

QA形式對(duì)自然語(yǔ)言處理中注意力機(jī)制（Attention）進(jìn)行總結(jié)，并對(duì)Transformer進(jìn)行深入解析。

二、Transformer（Attention Is All You Need）詳解

1、Transformer的整體架構(gòu)是怎樣的？由哪些部分組成？

2、Transformer Encoder 與 Transformer Decoder 有哪些不同？

3、Encoder-Decoder attention 與self-attention mechanism有哪些不同？

4、multi-head self-attention mechanism具體的計(jì)算過(guò)程是怎樣的？

5、Transformer在GPT和Bert等詞向量預(yù)訓(xùn)練模型中具體是怎么應(yīng)用的？有什么變化？

一、Attention機(jī)制剖析

1、為什么要引入Attention機(jī)制？

根據(jù)通用近似定理，前饋網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)都有很強(qiáng)的能力。但為什么還要引入注意力機(jī)制呢？

計(jì)算能力的限制：當(dāng)要記住很多“信息“，模型就要變得更復(fù)雜，然而目前計(jì)算能力依然是限制神經(jīng)網(wǎng)絡(luò)發(fā)展的瓶頸。
優(yōu)化算法的限制：雖然局部連接、權(quán)重共享以及pooling等優(yōu)化操作可以讓神經(jīng)網(wǎng)絡(luò)變得簡(jiǎn)單一些，有效緩解模型復(fù)雜度和表達(dá)能力之間的矛盾；但是，如循環(huán)神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)距離以來(lái)問(wèn)題，信息“記憶”能力并不高。

可以借助人腦處理信息過(guò)載的方式，例如Attention機(jī)制可以提高神經(jīng)網(wǎng)絡(luò)處理信息的能力。

2、Attention機(jī)制有哪些？（怎么分類？）

當(dāng)用神經(jīng)網(wǎng)絡(luò)來(lái)處理大量的輸入信息時(shí)，也可以借鑒人腦的注意力機(jī)制，只選擇一些關(guān)鍵的信息輸入進(jìn)行處理，來(lái)提高神經(jīng)網(wǎng)絡(luò)的效率。按照認(rèn)知神經(jīng)學(xué)中的注意力，可以總體上分為兩類：

聚焦式（focus）注意力：自上而下的有意識(shí)的注意力，主動(dòng)注意——是指有預(yù)定目的、依賴任務(wù)的、主動(dòng)有意識(shí)地聚焦于某一對(duì)象的注意力；
顯著性（saliency-based）注意力：自下而上的有意識(shí)的注意力，被動(dòng)注意——基于顯著性的注意力是由外界刺激驅(qū)動(dòng)的注意，不需要主動(dòng)干預(yù)，也和任務(wù)無(wú)關(guān)；可以將max-pooling和門控（gating）機(jī)制來(lái)近似地看作是自下而上的基于顯著性的注意力機(jī)制。

在人工神經(jīng)網(wǎng)絡(luò)中，注意力機(jī)制一般就特指聚焦式注意力。

3、Attention機(jī)制的計(jì)算流程是怎樣的？

Attention機(jī)制的實(shí)質(zhì)：尋址（addressing）

Attention機(jī)制的實(shí)質(zhì)其實(shí)就是一個(gè)尋址（addressing）的過(guò)程，如上圖所示：給定一個(gè)和任務(wù)相關(guān)的查詢Query向量 q，通過(guò)計(jì)算與Key的注意力分布并附加在Value上，從而計(jì)算Attention Value，這個(gè)過(guò)程實(shí)際上是Attention機(jī)制緩解神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度的體現(xiàn)：不需要將所有的N個(gè)輸入信息都輸入到神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算，只需要從X中選擇一些和任務(wù)相關(guān)的信息輸入給神經(jīng)網(wǎng)絡(luò)。

注意力機(jī)制可以分為三步：一是信息輸入；二是計(jì)算注意力分布α；三是根據(jù)注意力分布α 來(lái)計(jì)算輸入信息的加權(quán)平均。

step1-信息輸入：用X = [x1, · · · , xN ]表示N 個(gè)輸入信息；

step2-注意力分布計(jì)算：令Key=Value=X，則可以給出注意力分布

我們將稱之為注意力分布（概率分布），為注意力打分機(jī)制，有幾種打分機(jī)制：

step3-信息加權(quán)平均：注意力分布可以解釋為在上下文查詢q時(shí)，第i個(gè)信息受關(guān)注的程度，采用一種“軟性”的信息選擇機(jī)制對(duì)輸入信息X進(jìn)行編碼為：

這種編碼方式為軟性注意力機(jī)制（soft Attention），軟性注意力機(jī)制有兩種：普通模式（Key=Value=X）和鍵值對(duì)模式（Key！=Value）。

軟性注意力機(jī)制（soft Attention）

4、Attention機(jī)制的變種有哪些？

與普通的Attention機(jī)制（上圖左）相比，Attention機(jī)制有哪些變種呢？

變種1-硬性注意力：之前提到的注意力是軟性注意力，其選擇的信息是所有輸入信息在注意力分布下的期望。還有一種注意力是只關(guān)注到某一個(gè)位置上的信息，叫做硬性注意力（hard attention）。硬性注意力有兩種實(shí)現(xiàn)方式：（1）一種是選取最高概率的輸入信息；（2）另一種硬性注意力可以通過(guò)在注意力分布式上隨機(jī)采樣的方式實(shí)現(xiàn)。硬性注意力模型的缺點(diǎn)：
硬性注意力的一個(gè)缺點(diǎn)是基于最大采樣或隨機(jī)采樣的方式來(lái)選擇信息。因此最終的損失函數(shù)與注意力分布之間的函數(shù)關(guān)系不可導(dǎo)，因此無(wú)法使用在反向傳播算法進(jìn)行訓(xùn)練。為了使用反向傳播算法，一般使用軟性注意力來(lái)代替硬性注意力。硬性注意力需要通過(guò)強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行訓(xùn)練。——《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》
變種2-鍵值對(duì)注意力：即上圖右邊的鍵值對(duì)模式，此時(shí)Key！=Value，注意力函數(shù)變?yōu)椋?/p>

變種3-多頭注意力：多頭注意力（multi-head attention）是利用多個(gè)查詢Q = [q1, · · · , qM]，來(lái)平行地計(jì)算從輸入信息中選取多個(gè)信息。每個(gè)注意力關(guān)注輸入信息的不同部分，然后再進(jìn)行拼接：

5、一種強(qiáng)大的Attention機(jī)制：為什么自注意力模型（self-Attention model）在長(zhǎng)距離序列中如此強(qiáng)大？

（1）卷積或循環(huán)神經(jīng)網(wǎng)絡(luò)難道不能處理長(zhǎng)距離序列嗎？

當(dāng)使用神經(jīng)網(wǎng)絡(luò)來(lái)處理一個(gè)變長(zhǎng)的向量序列時(shí)，我們通?？梢允褂镁矸e網(wǎng)絡(luò)或循環(huán)網(wǎng)絡(luò)進(jìn)行編碼來(lái)得到一個(gè)相同長(zhǎng)度的輸出向量序列，如圖所示：

基于卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)的變長(zhǎng)序列編碼

從上圖可以看出，無(wú)論卷積還是循環(huán)神經(jīng)網(wǎng)絡(luò)其實(shí)都是對(duì)變長(zhǎng)序列的一種“局部編碼”：卷積神經(jīng)網(wǎng)絡(luò)顯然是基于N-gram的局部編碼；而對(duì)于循環(huán)神經(jīng)網(wǎng)絡(luò)，由于梯度消失等問(wèn)題也只能建立短距離依賴。

（2）要解決這種短距離依賴的“局部編碼”問(wèn)題，從而對(duì)輸入序列建立長(zhǎng)距離依賴關(guān)系，有哪些辦法呢？

如果要建立輸入序列之間的長(zhǎng)距離依賴關(guān)系，可以使用以下兩種方法：一種方法是增加網(wǎng)絡(luò)的層數(shù)，通過(guò)一個(gè)深層網(wǎng)絡(luò)來(lái)獲取遠(yuǎn)距離的信息交互，另一種方法是使用全連接網(wǎng)絡(luò)。 ——《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》
全連接模型和自注意力模型：實(shí)線表示為可學(xué)習(xí)的權(quán)重，虛線表示動(dòng)態(tài)生成的權(quán)重。

由上圖可以看出，全連接網(wǎng)絡(luò)雖然是一種非常直接的建模遠(yuǎn)距離依賴的模型，但是無(wú)法處理變長(zhǎng)的輸入序列。不同的輸入長(zhǎng)度，其連接權(quán)重的大小也是不同的。

這時(shí)我們就可以利用注意力機(jī)制來(lái)“動(dòng)態(tài)”地生成不同連接的權(quán)重，這就是自注意力模型（self-attention model）。由于自注意力模型的權(quán)重是動(dòng)態(tài)生成的，因此可以處理變長(zhǎng)的信息序列。

總體來(lái)說(shuō)，為什么自注意力模型（self-Attention model）如此強(qiáng)大：利用注意力機(jī)制來(lái)“動(dòng)態(tài)”地生成不同連接的權(quán)重，從而處理變長(zhǎng)的信息序列。

（3）自注意力模型（self-Attention model）具體的計(jì)算流程是怎樣的呢?

同樣，給出信息輸入：用X = [x1, · · · , xN ]表示N 個(gè)輸入信息；通過(guò)線性變換得到為查詢向量序列，鍵向量序列和值向量序列：

上面的公式可以看出，self-Attention中的Q是對(duì)自身（self）輸入的變換，而在傳統(tǒng)的Attention中，Q來(lái)自于外部。

self-Attention計(jì)算過(guò)程剖解（來(lái)自《細(xì)講 | Attention Is All You Need 》）

注意力計(jì)算公式為：

自注意力模型（self-Attention model）中，通常使用縮放點(diǎn)積來(lái)作為注意力打分函數(shù)，輸出向量序列可以寫為：

二、Transformer（Attention Is All You Need）詳解

從Transformer這篇論文的題目可以看出，Transformer的核心就是Attention，這也就是為什么本文會(huì)在剖析玩Attention機(jī)制之后會(huì)引出Transformer，如果對(duì)上面的Attention機(jī)制特別是自注意力模型（self-Attention model）理解后，Transformer就很容易理解了。

1、Transformer的整體架構(gòu)是怎樣的？由哪些部分組成？

Transformer模型架構(gòu)

Transformer其實(shí)這就是一個(gè)Seq2Seq模型，左邊一個(gè)encoder把輸入讀進(jìn)去，右邊一個(gè)decoder得到輸出：

Seq2Seq模型

Transformer=Transformer Encoder+Transformer Decoder

（1）Transformer Encoder（N=6層，每層包括2個(gè)sub-layers）：

Transformer Encoder
sub-layer-1：multi-head self-attention mechanism，用來(lái)進(jìn)行self-attention。
sub-layer-2：Position-wise Feed-forward Networks，簡(jiǎn)單的全連接網(wǎng)絡(luò)，對(duì)每個(gè)position的向量分別進(jìn)行相同的操作，包括兩個(gè)線性變換和一個(gè)ReLU激活輸出（輸入輸出層的維度都為512，中間層為2048）：

gpt3和transformer的關(guān)系（gpt transformer）

每個(gè)sub-layer都使用了殘差網(wǎng)絡(luò)：

（2）Transformer Decoder（N=6層，每層包括3個(gè)sub-layers）：

Transformer Decoder
sub-layer-1：Masked multi-head self-attention mechanism，用來(lái)進(jìn)行self-attention，與Encoder不同：由于是序列生成過(guò)程，所以在時(shí)刻 i 的時(shí)候，大于 i 的時(shí)刻都沒(méi)有結(jié)果，只有小于 i 的時(shí)刻有結(jié)果，因此需要做Mask。
sub-layer-2：Position-wise Feed-forward Networks，同Encoder。
sub-layer-3：Encoder-Decoder attention計(jì)算。

2、Transformer Encoder 與 Transformer Decoder 有哪些不同？

（1）multi-head self-attention mechanism不同，Encoder中不需要使用Masked，而Decoder中需要使用Masked；

（2）Decoder中多了一層Encoder-Decoder attention，這與 self-attention mechanism不同。

3、Encoder-Decoder attention 與self-attention mechanism有哪些不同？

它們都是用了 multi-head計(jì)算，不過(guò)Encoder-Decoder attention采用傳統(tǒng)的attention機(jī)制，其中的Query是self-attention mechanism已經(jīng)計(jì)算出的上一時(shí)間i處的編碼值，Key和Value都是Encoder的輸出，這與self-attention mechanism不同。代碼中具體體現(xiàn)：

## Multihead Attention ( self-attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.dec,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=True,

scope="self_attention")

## Multihead Attention ( Encoder-Decoder attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.enc,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=False,

scope="vanilla_attention")

4、multi-head self-attention mechanism具體的計(jì)算過(guò)程是怎樣的？

multi-head self-attention mechanism計(jì)算過(guò)程

Transformer中的Attention機(jī)制由Scaled Dot-Product Attention和Multi-Head Attention組成，上圖給出了整體流程。下面具體介紹各個(gè)環(huán)節(jié)：

Expand：實(shí)際上是經(jīng)過(guò)線性變換，生成Q、K、V三個(gè)向量；
Split heads: 進(jìn)行分頭操作，在原文中將原來(lái)每個(gè)位置512維度分成8個(gè)head，每個(gè)head維度變?yōu)?4；
Self Attention：對(duì)每個(gè)head進(jìn)行Self Attention，具體過(guò)程和第一部分介紹的一致；
Concat heads：對(duì)進(jìn)行完Self Attention每個(gè)head進(jìn)行拼接；

上述過(guò)程公式為：

5、Transformer在GPT和Bert等詞向量預(yù)訓(xùn)練模型中具體是怎么應(yīng)用的？有什么變化？

GPT中訓(xùn)練的是單向語(yǔ)言模型，其實(shí)就是直接應(yīng)用Transformer Decoder；
Bert中訓(xùn)練的是雙向語(yǔ)言模型，應(yīng)用了Transformer Encoder部分，不過(guò)在Encoder基礎(chǔ)上還做了Masked操作；

BERT Transformer 使用雙向self-attention，而GPT Transformer 使用受限制的self-attention，其中每個(gè)token只能處理其左側(cè)的上下文。雙向 Transformer 通常被稱為“Transformer encoder”，而左側(cè)上下文被稱為“Transformer decoder”，decoder是不能獲要預(yù)測(cè)的信息的。

三、gpt人工智能縮寫

GPT是GenerativePretrainedTransformer（生成預(yù)訓(xùn)練變換器）的縮寫。

數(shù)字技術(shù)的發(fā)展，推動(dòng)社會(huì)經(jīng)濟(jì)形態(tài)從農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)向數(shù)字經(jīng)濟(jì)（智慧經(jīng)濟(jì)）發(fā)展，數(shù)字經(jīng)濟(jì)直接或間接地利用數(shù)據(jù)方式推動(dòng)經(jīng)濟(jì)發(fā)展。得益于人工智能，數(shù)字經(jīng)濟(jì)得到了極大的發(fā)展，人工智能作為一種日新月異的數(shù)字技術(shù)在經(jīng)濟(jì)領(lǐng)域廣泛滲透，其顛覆了傳統(tǒng)經(jīng)濟(jì)模式，為新經(jīng)濟(jì)形式注入活力，加速了生產(chǎn)力的提升。

四、理解Bert

離開深度學(xué)習(xí)瞎折騰了一段時(shí)間后，我終于又回來(lái)了。

于是趕緊回顧了下18年之后NLP的發(fā)展，基本就是將遷移學(xué)習(xí)更廣泛的用于NLP領(lǐng)域，以及把17年年底的《Attention is all you need》里的思想給發(fā)揚(yáng)光大了，ELMO彌補(bǔ)了傳統(tǒng)word2vec多義詞表示的不足，GPT使用更強(qiáng)大的特征提取器Transformer取代LSTM，Bert使用雙向Transformer進(jìn)一步改進(jìn)了GPT成為這兩年發(fā)展的集大成者。

從Bert模型所帶來(lái)的NLP界里程碑式的影響和所取得的成就來(lái)看，無(wú)疑Bert將會(huì)是未來(lái)兩三年NLP應(yīng)用發(fā)展的基石，于是有必要仔細(xì)的看看其模型的結(jié)構(gòu)，數(shù)據(jù)是如何流動(dòng)的，訓(xùn)練的和測(cè)試的。

不得不說(shuō)現(xiàn)在的學(xué)習(xí)環(huán)境相對(duì)幾年前好太多了，本文主要參考了以下幾篇文章,然后加了點(diǎn)自己的理解：

Dissecting BERT Part 1: The Encoder

The Illustrated Transformer

Dissecting BERT Appendix: The Decoder

它的總體框架同lstm時(shí)代的MNT或者是attention is all you need中的 transformer 一樣的 encoder-decoder 結(jié)構(gòu)：

我們先來(lái)介紹一下Encoder部分。

為了理解這個(gè)架構(gòu)，我們使用一個(gè)簡(jiǎn)單的具體的例子，來(lái)看一下輸入的數(shù)據(jù)是怎么通過(guò) encoder 一步一步變化讓后到輸出的。

bert的詞嵌入由三個(gè)嵌入token embedding、segment embedding,和position embedding疊加而成。

這個(gè)過(guò)程跟以往的RNNs沒(méi)什么區(qū)別，比如給定一個(gè)句子:

第一步是先將其標(biāo)記化：

然后是數(shù)字化，將每個(gè)標(biāo)記映射到語(yǔ)料詞匯表中的唯一整數(shù)編號(hào)：

接下來(lái)就是得到序列中每個(gè)詞的詞嵌入，也就是將整數(shù)映射到一個(gè) 維的向量，這個(gè)向量是模型在訓(xùn)練時(shí)學(xué)習(xí)的，你可以將其視為一個(gè)查表的過(guò)程，這些向量的元素作為模型的參數(shù)，像其他權(quán)重一樣通過(guò)反向傳播進(jìn)行了優(yōu)化。

在論文中是使用WordPiece tokenization 來(lái)將英文單詞轉(zhuǎn)換成768（）維的向量,轉(zhuǎn)化的過(guò)程類似這樣：

把每個(gè)詞的向量放到一起，就得到了一個(gè) 句子長(zhǎng)度x向量維度 ( ) 尺寸的矩陣 Z :

說(shuō)明一點(diǎn)，我們通常使用填充的方式來(lái)讓輸入序列具有相同的長(zhǎng)度，比如通過(guò)添加"<pad>" 標(biāo)記來(lái)增加某些序列的長(zhǎng)度，還是前面的例子，填充后可能變?yōu)椋?/p>

如果設(shè)定設(shè)定為9，那我們就把句子從5填充到了9。

但是，上面的embedding并沒(méi)有包含詞的位置信息。于是，我們的目標(biāo)是能夠根據(jù)詞在句子中的位置適當(dāng)調(diào)整這個(gè)向量，使它帶上位置信息。

作者選擇的方法是使用預(yù)定的（非學(xué)習(xí)的）正余弦函數(shù)將之間的數(shù)字加到前面的embedding中，即通過(guò)正余弦函數(shù)將位置表示為彼此的線性組合，從而實(shí)現(xiàn)網(wǎng)絡(luò)學(xué)習(xí)中標(biāo)記位置之間的相對(duì)關(guān)系。在Token embedding 獲得的矩陣的基礎(chǔ)上加上位置矩陣。

數(shù)學(xué)上，用表示序列中標(biāo)記的位置，用表示token embedding特征向量中的位置：

具體來(lái)說(shuō)，對(duì)于給定的句子 ,其位置嵌入矩陣為：

作者解釋說(shuō)，使用這種確定性方法的結(jié)果和學(xué)習(xí)位置表示（就像我們對(duì)詞嵌入那樣）的結(jié)果差不多，因此這樣反而會(huì)有一些優(yōu)勢(shì)：

因此，添加了位置信息之后的矩陣是:

它是第一個(gè)encoder塊的輸入，尺寸是

共有N個(gè)編碼器塊連接在一起直到生成編碼器的輸出，特定的塊負(fù)責(zé)查找輸入表示之間的關(guān)系并將編碼在其輸出中。

直觀地，通過(guò)這些塊的迭代過(guò)程將幫助神經(jīng)網(wǎng)絡(luò)捕獲輸入序列中的詞之間的更加復(fù)雜的關(guān)系，你可以把它理解成一個(gè)整體用來(lái)捕捉輸入序列的語(yǔ)義。

encoder中使用Transformer的多頭注意力機(jī)制，這意味著它將計(jì)算份不同權(quán)重矩陣的自注意力，然后將結(jié)果連接在一起。

這些并行注意力計(jì)算的結(jié)果稱之為Head,我們用下標(biāo) 來(lái)表示一個(gè)特定的head和相關(guān)的權(quán)重矩陣。

如上圖所示，一旦計(jì)算了所有head，它們將被連接起來(lái)，得到一個(gè)尺寸為的矩陣，然后將它乘以一個(gè)尺寸為的權(quán)重矩陣進(jìn)行線性變換，就得到了一個(gè)尺寸為的最終結(jié)果，用數(shù)學(xué)公式表示就是：

其中的通過(guò) 乘以相應(yīng)權(quán)重矩陣獲得，我們通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)可視化的看一下這個(gè)過(guò)程。

這圖描繪了輸入標(biāo)記通過(guò) token embedding 和 positional encoding ，再輸入到Encoder：

接下來(lái)，我們?cè)賮?lái)看下Encoder中的操作過(guò)程，先看一下單頭的self-attention：

上圖描繪了一個(gè)Head的是怎么來(lái)的,其中的的尺寸是 , 因?yàn)镼和K需要計(jì)算相似性，所以維度應(yīng)當(dāng)是相同的，的尺寸是 , 的維度可以相同也可以不同,在論文中 .

所謂的自注意力，就是與的點(diǎn)積進(jìn)行的縮放之后通過(guò)softmax獲得一個(gè)概率權(quán)重，然后用這些權(quán)重分別乘以各自的即可：

為了加深理解，我們選擇其中一個(gè)頭，通過(guò)圖形繼續(xù)可視化的看一下這個(gè)變化過(guò)程：

然后計(jì)算self-attention，

多頭的話就是同時(shí)有多個(gè)上述計(jì)算過(guò)程在進(jìn)行：

假設(shè)我們有8個(gè)Head,那么我們就獲得8個(gè) :

但是，顯然前饋層只需要一個(gè)矩陣 ,怎么處理呢？類似多卷積核的處理，把這8個(gè)矩陣連起來(lái)，乘以一個(gè)權(quán)重矩陣壓縮到一個(gè)矩陣。

為了有一個(gè)更加全面直觀的認(rèn)識(shí)，我們把上面整個(gè)過(guò)程放到一個(gè)圖里，

顯然，第二個(gè)encoder塊是不需要embedding過(guò)程的，只要把第一個(gè)encoder塊的輸出作為輸入即可。

經(jīng)過(guò)上面的介紹，你應(yīng)該對(duì)這個(gè)過(guò)程已經(jīng)有了足夠的了解，但是，為什么可以利用向量點(diǎn)積來(lái)計(jì)算注意力概率呢？

于是讓我們進(jìn)一步深入來(lái)了解其中的原理。

這個(gè)結(jié)構(gòu)體系的關(guān)鍵在于：

也就是每個(gè)詞的q向量與每個(gè)詞的k向量的點(diǎn)積，套用點(diǎn)積公式：

這意味著和的方向越相似，長(zhǎng)度越大，點(diǎn)積就越大。詞與此之間關(guān)聯(lián)越大，對(duì)于理解這個(gè)詞時(shí)得到的關(guān)注越大，跟我們的本意是相同的。

我們?cè)倏匆幌伦铋_頭的結(jié)構(gòu)示意圖，每個(gè)encoder塊在Multi-Head Attention之后經(jīng)過(guò)一個(gè) Add & Norm層才進(jìn)入下一個(gè)塊。于是我們來(lái)看一下這一層做了些什么。

Add 實(shí)際就是一個(gè)殘差連接，將輸出加上輸入，這個(gè)在每一塊的self-attenton以及FFN之后都會(huì)有，然后跟隨一個(gè)Layer Norm 。

Norm 是一個(gè)Layer Normlization，將正則化，就是把它縮放到一個(gè)均值為0方差為1的域里。因?yàn)?/p>

不過(guò)一般在這一層之前，就會(huì)有一個(gè)dropout層。

每個(gè)encoder塊都由 mulit-head atteion add & Norm feed forword network add & Norm 這樣一個(gè)過(guò)程，下面來(lái)介紹一下這個(gè)Feed-Forward Network。

這是一個(gè)全連接層，包含兩個(gè)線性變化和一個(gè)非線性函數(shù)（實(shí)際一般就是ReLu），

對(duì)于輸入的 (尺寸為 ) ,通過(guò)權(quán)重矩陣 (尺寸為 )和偏置線性變換到隱藏層 (尺寸為 ) ,然后**ReLu **激活，記下來(lái)再用權(quán)重矩陣 (尺寸為 ) 和偏置的線性變換到輸出層(尺寸為 ) ,表示成數(shù)學(xué)公式就是:

在最后一個(gè)encoder塊輸出之后連接到decoder。

Decoder和Encoder的結(jié)構(gòu)是類似的，但是因?yàn)榭梢曅畔⒌牟煌?，又有所差別。

Transformer解決的是翻譯的問(wèn)題，將一個(gè)句子翻譯成另一種語(yǔ)言，我們希望模型能夠捕捉到輸入句子中詞之間的關(guān)系，并且將輸入句子中包含的信息與每一步已翻譯的內(nèi)容結(jié)合起來(lái)。繼續(xù)上面的例子，我們的目標(biāo)是把一個(gè)句子從英文翻譯為西班牙文，這是我們獲得的序列標(biāo)記:

我們同之前一樣來(lái)看看輸入到輸出數(shù)據(jù)是如何流動(dòng)的。

這是我們的解碼器的輸入標(biāo)記：

然后這是解碼器的期望輸出：

但是，這里存在一個(gè)問(wèn)題，比如輸入這邊我們已經(jīng)看到了'como' 的后面是'estas'，然后再用它來(lái)預(yù)測(cè)'estas' ，這顯然是不合理的，因?yàn)槟Ｐ驮跍y(cè)試的時(shí)候是看不到后面的詞的。

因此，我們需要修改注意力層，防止模型可以看到預(yù)測(cè)詞右邊的信息，與此同時(shí)，它能利用已經(jīng)預(yù)測(cè)的詞，即左邊的信息。

繼續(xù)上面的例子，我們將輸入標(biāo)記轉(zhuǎn)換成矩陣的形式，并添加位置信息：

和encoder一樣，decoder塊的輸出也將是大小為的矩陣，在逐行線性變換+softmax激活后，將生成一個(gè)舉證，其中每行的最大元素表示下一個(gè)單詞。也就是說(shuō)，分配"<SS>" 的行負(fù)責(zé)預(yù)測(cè)“Hola”，分配"Hola"的行負(fù)責(zé)預(yù)測(cè)"," ...以此類推。比如，為了預(yù)測(cè)"estas"，我們將允許該行直接和下圖中綠色區(qū)域互動(dòng)，而不能和紅色區(qū)域互動(dòng)：

但是，在我們使用多頭注意力機(jī)制的時(shí)候，所有的行都會(huì)產(chǎn)生交互，因此需要在輸入的時(shí)候添加遮罩，這個(gè)遮罩會(huì)在注意力計(jì)算之后進(jìn)行：

這是 self-attention 的計(jì)算結(jié)果：

然后我們?cè)诖嘶A(chǔ)上添加遮掩，就是把矩陣上三角的位置全部設(shè)置為：

于是，在進(jìn)行softmax激活之后，矩陣就變成了：

恰好達(dá)到了我們的要求，那些需要在訓(xùn)練時(shí)忽略的右側(cè)的詞的注意力全部變成了0。

當(dāng)將這個(gè)注意力矩陣與相乘時(shí)，預(yù)測(cè)的詞就是模型可以訪問(wèn)元素右邊的元素。注意，這里的多頭注意力輸出將是維的，因?yàn)樗男蛄虚L(zhǎng)度是。

這個(gè)就是 Decoder 從 target序列 的輸入，并經(jīng)過(guò) Masked Multi-Head Attention 的一個(gè)變化得到了，decoder的還有一部分輸入來(lái)自于源語(yǔ)句經(jīng)過(guò) Encoder 的最終輸出 (尺寸是 )。

接下來(lái)，就是與encoder一樣的 Multi-Head Attention Add and Layer Norm -> FFN 的過(guò)程。

只不過(guò)，現(xiàn)在的來(lái)自于 ,而來(lái)自于 :

計(jì)算每個(gè)query相對(duì)于key的注意力之后，得到的是一個(gè) 的矩陣，繼續(xù)咱們的例子，比如注意力矩陣為：

如上圖所見(jiàn)，這個(gè)注意力是當(dāng)前Decoder輸入與Encoder輸出的每個(gè)詞之間的注意力，咱們用這個(gè)矩陣再乘以 ,就得到了一個(gè) 的矩陣，每一行代表了源語(yǔ)句相對(duì)于當(dāng)前輸入詞匯的特征：

h個(gè)Head連接起來(lái)，尺寸變?yōu)? ,它通過(guò) 的權(quán)重矩陣線性變換到一個(gè) 的輸出。

這在多個(gè)Decoder之后，最后輸出的矩陣通過(guò)乘以權(quán)重矩陣 ( ) 進(jìn)行線性變換，變換之后再對(duì)每一行的向量softmax, 其中選擇值最大位置對(duì)應(yīng)詞表索引的詞就是預(yù)測(cè)的詞。

損失的話只需要用預(yù)測(cè)的每個(gè)詞向量與真實(shí)的詞的one-hot詞表示計(jì)算交叉熵即可。

以上就是關(guān)于gpt3和transformer的關(guān)系相關(guān)問(wèn)題的回答。希望能幫到你，如有更多相關(guān)問(wèn)題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。