-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
新聞提取關(guān)鍵信息方法(新聞提取關(guān)鍵信息方法是什么)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于新聞提取關(guān)鍵信息方法的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀企業(yè),服務(wù)客戶遍布全國,網(wǎng)絡(luò)營銷相關(guān)業(yè)務(wù)請撥打175-8598-2043,或微信:1454722008
本文目錄:
一、網(wǎng)站負面輿情新聞信息分析處理怎么做?
網(wǎng)站負面輿情處理正確的五種有效策略如下:
首先,負面輿情新聞信息分析處理需根據(jù)明星負面信息中的關(guān)鍵信息點,找到真正的來源,看能否聯(lián)系當(dāng)事人處理此事,弄清事件的原因,并盡量減少重大問題。許多沒有意識到這種明星輿情新聞負面處理的方法,導(dǎo)致負面影響加大。
第二,負面輿情處理需要找到相關(guān)網(wǎng)站和論壇,聯(lián)系負責(zé)人溝通,處理相關(guān)信息,負面信息處理一般是付費的。
第三,找一家明星網(wǎng)站負面信息處理公司或網(wǎng)絡(luò)營銷工作室,這些媒體負面輿情處理的價格更加優(yōu)惠,給他們做相對節(jié)省的時間和精力。
第四,如果處理問題的負面新聞信息分析方法無法解決,可以提取對方的負面關(guān)鍵詞,然后合并撰寫新文章,批量發(fā)布到主要媒體(百度新聞源可以優(yōu)先考慮)。當(dāng)搜索負面關(guān)鍵詞時,確保你的文章可以排在第一位,從而抑制負面新聞信息。
第五,輿情信息處理可以建立明星負面新聞傳播機制,定期發(fā)布正面企業(yè)報道,加強輿論引導(dǎo),爭取話語權(quán),實現(xiàn)網(wǎng)站明星負面輿情信息處理。
二、初三語文“信息的提取”講評課教案
初三語文“信息的提取”講評課教案
引導(dǎo)語:學(xué)生熟悉中考題型、明確中考閱題標準,下面是我為你帶來的初三語文“信息的提取”講評課教案,希望對你有所幫助。
一、 教學(xué)目的
1、讓學(xué)生熟悉中考題型、明確中考閱題標準;
2、培養(yǎng)學(xué)生準確審題、精確答題的習(xí)慣,提高應(yīng)試水平;
3、教給方法,培養(yǎng)學(xué)生回答類似題目的遷移能力; 二、 教學(xué)重難點
1、重點:讓學(xué)生學(xué)會把握標準答題;
2、難點:遷移訓(xùn)練;
三、 教學(xué)過程
【導(dǎo)入】
師:今天,我們改革一下,我們喊上下課和答問的時候,就不要站起來了,都坐著!好,上課!(可能有少部分同學(xué)仍然起立) 師:剛才站起來的同學(xué)沒能獲取我剛才講話中的信息。老師說的“不需要站起來”這個信息,就沒有輸入到這些同學(xué)的大腦里面。——我們今天講評的內(nèi)容就是:《中考信息提取與轉(zhuǎn)換》(出示)。什么是信息提取與轉(zhuǎn)換?一般的來講,信息提取就是概括,就是把一段文字的中心內(nèi)容提取出來;把它說得廣泛一點呢,還有很多其它形式,諸如要我們用語言、用圖形等,把文章的內(nèi)容或文段的內(nèi)容簡要地表達出來,或是把圖形等信息轉(zhuǎn)換成文字信息,形成結(jié)論。中考信息題應(yīng)該說是這兩年的一個熱點,因為“課標”給我們提出了這樣的要求:
(出示課標要求):初步具備搜集和處理信息的能力。
【基本情況分析】
同學(xué)們對于下列這兩道題做得不夠好,錯誤率較高。其實這幾題,有很強的方法性,因此我們將詳細講評。
【講評】
1、第一題 題型:信息提取題
(1)題干:1、請用一句簡潔的話概括新聞的內(nèi)容。
學(xué)生答案比較:
答案1: 周波,是北京衛(wèi)區(qū)某警衛(wèi)師直屬防化連的一名普通士兵,重
慶涪陵人。(中心內(nèi)容提取錯誤)
答案2: 周波救落入冰水的兒童。(提取不全面)
答案3: 一名入伍才11個月的士兵向黨組織遞交了入黨申請書;120
多天后,他為救落入冰水的兒童,獻出自己年輕的生命。(信息整合不到位)
出示參考答案:周波救落入冰水的兒童獻出自己年輕的生命。 (比較上面三個答案和標準答案的優(yōu)劣)
做題思路:通讀 結(jié)構(gòu) 提取 整合
提取信息:1、導(dǎo)語是對新聞主體事件的高度概括,可從導(dǎo)語入手,
提取關(guān)鍵詞
2、提取的信息應(yīng)該是最新鮮、最重要、最本質(zhì)的
總結(jié)方法:
方法提煉:誰 + 干什么 + 怎么樣
答題模式:人(物)+ 事件 + 結(jié)果
(2)題干:請你就英雄周波的事跡作簡要評論。
典型錯誤:
A、我們長大后也要當(dāng)一名光榮的人民解放軍。
B、周波的事跡震撼著我們,我們要舍己為人。
C、周波救落水兒童的舉動,體現(xiàn)了一個人的素質(zhì)。
錯誤歸因:①不扣內(nèi)容②方向錯誤③觀點不全
展示優(yōu)秀答案:
周波的舍己為人的事跡使我們深受感動,我們的解放軍戰(zhàn)
士無論在什么時代,都是最可愛的人。
方法歸納:扣新聞內(nèi)容 + 觀點明確 + 表達通順
2、第三題 題型:表格信息轉(zhuǎn)換題
題干:你從表格中得出了什么結(jié)論?
典型錯誤:
錯誤歸因:①不看表頭②直接轉(zhuǎn)述③結(jié)論不全
方法歸納:①橫向、縱向比較把握出題意圖②準確概括、精確表達
學(xué)生答案評價(隨機展示學(xué)生答案,學(xué)生評價)
四、遷移練習(xí) (可讓兩個學(xué)生上黑板完成)
1、閱讀下面材料,回答問題。
昨天,為體驗生活,西南政法大學(xué)的30多 位學(xué)生在渝中區(qū)朝天門體驗“棒棒”(力夫)。
上午9點,朝天門交易廳附近,手拿扁擔(dān)的潘勻滿頭大汗,和同學(xué)張杰轉(zhuǎn)悠著攬生意。“大學(xué)生當(dāng)‘棒棒’,挑不挑得動喲?”看著文質(zhì)彬彬的兩人,雇主們連忙擺手拒絕。半小時下來,兩人“顆粒無收”。
“叔叔,我們只收一元。”無奈下,兩人只好狂壓價格,終于搶到第一筆生意,忙把50多公斤重的塑料薄膜分成兩堆,再用扁擔(dān)橫穿其間,晃晃悠悠地朝前走。每走一小段路,就得停下來休息。20分鐘后,汗流浹背的兩人終于拿到一元錢。
“這一元錢太不易了。”平時每月生活費都在3000元以上。從未吃過苦的潘勻為此感動得淚流滿面。
用一句話概括新聞內(nèi)容
請針對這則新聞內(nèi)容進行簡要評論。
2.閱讀下面材料,回答問題。
長沙市某中學(xué)對該校300名高一學(xué)生采用無記名投票的方式,就“2004年感動中國人物評選”和“超級女聲”兩大電視節(jié)目進行調(diào)查,統(tǒng)計結(jié)果如下:
①請概括說明統(tǒng)計表反映的情況
____________________________________________________
②以上調(diào)查結(jié)果說明了什么問題?
____________________________________________________
分析:解答本題,先看調(diào)查內(nèi)容,學(xué)會統(tǒng)計,篩選重要信息,并能總結(jié)出規(guī)律,在語言上要簡潔。
答案:①兩大電視節(jié)目比較,學(xué)生更喜歡“超級女聲”。
②對不同電視節(jié)目的關(guān)注,反映了青少年不同的價值取向。
五、總結(jié):
其實,信息提取的`關(guān)鍵是要有語境意識,同時掌握解題技巧和方法。對于文字類材料,如果是單一性的,你要積極走進材料,捕捉重要信息,依據(jù)要求作答;如果是復(fù)合性的,你要挖掘材料的共性,即交叉點,審視題干要求,提取、篩選符合要求的信息;對于表格類材料,你要縱橫觀察,比較數(shù)據(jù),只有這樣,才能準確作答。對于畫面類材料,你要讀出畫面的內(nèi)涵,借題發(fā)揮進行表述。 今天我們主要對于單一性的文字類材料和表格類材料的信息提取方法進行了一次概括,希望同學(xué)們多動腦,勤思考,善總結(jié)。
六、課后練習(xí)
1、《中考作業(yè)本》P41第一題。
2、《中考總復(fù)習(xí)》P45第二題中的第二小題。
【練習(xí)】
1、閱讀下面的材料完成后面的習(xí)題。
新華網(wǎng)北京 2月19日電(陳輝、可儆)“只要黨和人民需要,我會奉獻一切!請黨組織考驗我!” 2007年10月12日,一名入伍才11個月的士兵向黨組織遞交了入黨申請書;120
多天后,他為救落入冰水的兒童,獻出自己年輕的生命,把青春永遠定格在20歲。他叫周波,是北京衛(wèi)區(qū)某警衛(wèi)師直屬防化連的一名普通士兵,重慶涪陵人。
2008年2月14日,師直屬隊在北京通州區(qū)宋莊鎮(zhèn)徐辛莊村部隊靶場進行實彈射擊,防化連戰(zhàn)士周波和劉冰恒兩人擔(dān)任流動哨,負責(zé)在靶場周圍巡邏,避免射擊時有人誤入射擊區(qū)。突然他們聽到小孩的呼救聲,扭頭一看,發(fā)現(xiàn)有小孩從冰水中央掉了下去。周波與劉冰恒急忙沖向出事地點,來不及脫棉衣救跳進冰窟,奮力將一個小孩推上冰面。此時周波因嗆了水,體力漸漸不支,當(dāng)他用全力托起另一名兒童,又使勁推了戰(zhàn)友一把后救沉了下去。聞訊趕來的人們先后將4人拉到岸邊,兩名兒童和劉冰恒安然無恙,年僅21歲的周波搶救無效壯烈犧牲。日前周波被授予革命烈士稱號并追為中國共產(chǎn)黨黨員。
(1)、請用一句話概括這則新聞的內(nèi)容。
(2)、請你就英雄周波的事跡作簡要評論。
2.將下面的文字材料改寫為“一句話新聞”。
央行的統(tǒng)計數(shù)字表明,到2月份我國的糧價已連續(xù)4個月小幅回升。分析師估計,今年國內(nèi)主要糧食品種的價格水平可能持續(xù)走高。據(jù)國內(nèi)媒體對全國832個縣7萬多農(nóng)戶3月初種植意向的調(diào)查,今年全國稻谷、小麥和玉米等谷物品種播種面積繼續(xù)減少,只有豆類品種播種面積增加,這將對今年的糧價水平有一定影響。
3. 下面是一份對400名小學(xué)生、初中生和高中生課堂回答問題的情況調(diào)查表。請根據(jù)這個情況調(diào)查表,回答后面的問題。
_______________________________________________________________________
(2)針對這一問題請你提出一條建議。
4.下面是一份對200名初中生課外閱讀的調(diào)查情況表,請根據(jù)這個調(diào)查情況,回答后面的問題。 _______________________________________ ②看了這一統(tǒng)計結(jié)果,你對同學(xué)的建議是:
_______________________________________
;三、怎樣提取關(guān)鍵詞
提取時,要注意以下三點:
一是篩選陳述的對象(主要概念或主要事件)或議論的中心觀點。
三是要注意與歸納概括信息題的不同。提取的關(guān)鍵性詞語的答案一般就在所給語段中,不需要我們自己去概括,或者用我們的理解來替代本來就存在的關(guān)鍵信息;而概括信息大多數(shù)情況則是對所給信息進行分析、歸納、整合,在語言表述上,可以是所給語段中現(xiàn)成的關(guān)鍵性詞語,也可以是高度概括了的能夠替代原語言信息的詞語。
【考題再現(xiàn)】
(2010年高考江蘇卷第3題)閱讀下面一段文字,找出“碳鏈式反應(yīng)”過程的三個關(guān)鍵性詞語。
科學(xué)家在喀斯特地貌的研究中,發(fā)現(xiàn)了一個復(fù)雜的碳鏈式反應(yīng)。當(dāng)水流從空氣中“大口吮吸”二氧化碳并侵蝕石灰?guī)r時,持續(xù)不斷的吸碳過程就開始了。接著,在巖石表面自由流淌的酸性水流攜帶著大量碳酸氫根,隨著自然界的水循環(huán)輾轉(zhuǎn)奔向江河湖海。此時,浮游植物體內(nèi)的“食物加工廠”在急切地“找米下鍋”,它們驚喜地發(fā)現(xiàn),只要分泌一種叫做“碳酸酐酶”的催化劑,對水中的碳酸氫根“略施魔法”,等待加工的“米”——二氧化碳,就唾手可得。最終,光合作用將大量隨波逐流的碳轉(zhuǎn)化成有機碳,封存于水生生物體內(nèi)。
【解析】
1.讀題,明確題干要求以及文段的主要表述對象或主要事件或議論的中心觀點。本題題干要求就是找出“碳鏈式反應(yīng)”過程的三個關(guān)鍵性詞語,文段的主要表述對象就是碳鏈式反應(yīng)。
2.整體把握段落,區(qū)分句間關(guān)系,劃分層次。本段落共有5句話,其中第1句話指出了說明的中心——科學(xué)家發(fā)現(xiàn)了碳鏈式反應(yīng)。再根據(jù)表示過程的“開始”“接著”“最終”三個序數(shù)詞,把其余的4句話分為三層,其中3、4句為一層,第2句、第5句各為一層。
3.篩選與主概念相對應(yīng)的謂語動詞或總結(jié)性的詞語。根據(jù)上述分析,提取的關(guān)鍵詞是表示過程的,因此可以確定第1個層次與“開始”相對應(yīng)的核心動詞是“吸碳”,第2個層次與“接著”相對應(yīng)的核心動詞是“略施魔法”,第3層次與“最終”相對應(yīng)的核心詞是“光合作用”,由此可得出三個關(guān)鍵性詞語。
【參考答案】
(1)吸碳;(2)“略施魔法”;(3)光合作用。
【牛刀小試】
請篩選整合下面文字中的主要意思,提煉出關(guān)于“碳中和”定義的4個關(guān)鍵詞語,并要注意四個詞語的順序。
“碳中和”的目的是為了環(huán)保。人們計算自己日?;顒又圃斓亩趸寂欧帕?,包括直接的和間接的,并計算抵消這些二氧化碳所需的經(jīng)濟成本。人們可以通過植樹或其他環(huán)保項目吸收大氣中相應(yīng)的二氧化碳;個人也可以付款給專門企業(yè)或機構(gòu),由這些企業(yè)或機構(gòu)通過植樹或其他環(huán)保項目吸收大氣中相應(yīng)的二氧化碳。2006年,《新牛津美國字典》將“碳中和”評為當(dāng)年年度詞匯。它已經(jīng)從最初由環(huán)保人士倡導(dǎo)的一項概念,逐漸獲得越來越多民眾支持,并且成為受到許多國家政府當(dāng)局所重視的實際綠化行動。
四、必讀!信息抽取(Information Extraction)【關(guān)系抽取】
信息抽?。╥nformation extraction),簡稱IE,即從自然語言文本中,抽取出特定的事件或事實信息,幫助我們將海量內(nèi)容自動分類、提取和重構(gòu)。這些信息通常包括實體(entity)、關(guān)系(relation)、事件(event)。 例如從新聞中抽取時間、地點、關(guān)鍵人物,或者從技術(shù)文檔中抽取產(chǎn)品名稱、開發(fā)時間、性能指標等。能從自然語言中抽取用戶感興趣的事實信息,無論是在知識圖譜、信息檢索、問答系統(tǒng)還是在情感分析、文本挖掘中,信息抽取都有廣泛應(yīng)用。
信息抽取主要包括三個子任務(wù) :
關(guān)系抽取 :通常我們說的三元組(triple)抽取,主要用于抽取實體間的關(guān)系。
實體抽取與鏈指 :也就是命名實體識別。
事件抽取 :相當(dāng)于一種多元關(guān)系的抽取。
關(guān)系抽?。≧E)是為了抽取文本中包含的關(guān)系,是信息抽?。↖E)的重要組成部分 。主要負責(zé)從無結(jié)構(gòu)文本中識別出實體,并抽取實體之間的語義關(guān)系,被廣泛用在信息檢索、問答系統(tǒng)中。本文從關(guān)系抽取的 基本概念 出發(fā),依據(jù)不同的視角對 關(guān)系抽取方法進行了類別劃分 ;最后分享了基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集,并總結(jié)出基于深度學(xué)習(xí)的關(guān)系抽取框架。
完整的關(guān)系抽取包括實體抽取和關(guān)系分類兩個子過程。實體抽取子過程也就是命名實體識別,對句子中的實體進行檢測和分類; 關(guān)系分類子過程對給定句子中兩個實體之間的語義關(guān)系進行判斷,屬于多類別分類問題 。
例如,對于句子“青島坐落于山東省的東部”,實體抽取子過程檢測出這句話具有“青島”和“山東”兩個實體。關(guān)系分類子過程檢測出這句話中“青島”和“山東”兩個實體具有“坐落于”關(guān)系而不是“出生于”關(guān)系。在關(guān)系抽取過程中,多數(shù)方法默認實體信息是給定的,那么關(guān)系抽取就可以看作是分類問題。
目前, 常用的關(guān)系抽取方法有5類,分別是基于模式匹配、基于詞典驅(qū)動、基于機器學(xué)習(xí)、基于本體和混合的方法 ?;谀J狡ヅ浜驮~典驅(qū)動的方法依靠人工制定規(guī)則,耗時耗力,而且可移植性較差,基于本體的方法構(gòu)造比較復(fù)雜,理論尚不成熟。 基于機器學(xué)習(xí)的方法以自然語言處理技術(shù)為基礎(chǔ),結(jié)合統(tǒng)計語言模型進行關(guān)系抽取,方法相對簡單,并具有不錯的性能,成為當(dāng)下關(guān)系抽取的主流方法,下文提到的關(guān)系抽取方法均為機器學(xué)習(xí)的方法 。
關(guān)于信息關(guān)系抽取,可以 從訓(xùn)練數(shù)據(jù)的標記程度 、 使用的機器學(xué)習(xí)方法 、 是否同時進行實體抽取 和 關(guān)系分類子過程以及是否限定關(guān)系抽取領(lǐng)域和關(guān)系專制 四個角度對機器學(xué)習(xí)的關(guān)系抽取方法進行分類。
根據(jù)訓(xùn)練數(shù)據(jù)的標記程度可以將關(guān)系抽取方法分為 有監(jiān)督、半監(jiān)督和無監(jiān)督三類 。
有監(jiān)督學(xué)習(xí) ,處理的基本單位是包含特定實體對的句子,每一個句子都有類別標注。 優(yōu)點 :取能夠有效利用樣本的標記信息,準確率和召回率都比較高。 缺點 :需要大量的人工標記訓(xùn)練語料,代價較高。
半監(jiān)督學(xué)習(xí) ,句子作為訓(xùn)練數(shù)據(jù)的基本單位,只有部分是有類別標注的。此類方法讓學(xué)習(xí)器不依賴外界交互,自動地利用未標記樣本來提升學(xué)習(xí)性能。
無監(jiān)督學(xué)習(xí) ,完全不需要對訓(xùn)練數(shù)據(jù)進行標注,此類方法包含實體對標記、關(guān)系聚類和關(guān)系詞選擇三個過程。
根據(jù)使用機器學(xué)習(xí)方法不同,可以將關(guān)系抽取劃分為三類: 基于特征向量的方法 、 基于核函數(shù)的方法 以及 基于神經(jīng)網(wǎng)絡(luò)的方法 。
基于特征向量的方法 ,通過從包含特定實體對的句子中提取出語義特征,構(gòu)造特征向量,然后通過使用支持向量機、最大熵、條件隨機場等模型進行關(guān)系抽取。
基于核函數(shù)的方法 ,其重點是巧妙地設(shè)計核函數(shù)來計算不同關(guān)系實例特定表示之間的相似度。 缺點 :而如何設(shè)計核函數(shù)需要大量的人類工作,不適用于大規(guī)模語料上的關(guān)系抽取任務(wù)。
基于神經(jīng)網(wǎng)絡(luò)的方法 ,通過構(gòu)造不同的神經(jīng)網(wǎng)絡(luò)模型來自動學(xué)習(xí)句子的特征,減少了復(fù)雜的特征工程以及領(lǐng)域?qū)<抑R,具有很強的泛化能力。
根據(jù)是否在同一個模型里開展實體抽取和關(guān)系分類,可以將關(guān)系抽取方法分為 流水線(pipeline)學(xué)習(xí) 和 聯(lián)合(joint)學(xué)習(xí)兩種 。
流水線學(xué)習(xí) 是指先對輸入的句子進行實體抽取,將識別出的實體分別組合,然后再進行關(guān)系分類,這兩個子過程是前后串聯(lián)的,完全分離。
聯(lián)合學(xué)習(xí) 是指在一個模型中實現(xiàn)實體抽取和關(guān)系分類子過程。該方法通過使兩個子過程共享網(wǎng)絡(luò)底層參數(shù)以及設(shè)計特定的標記策略來解決上述問題,其中使用特定的標記策略可以看作是一種序列標注問題。
根據(jù)是否限定抽取領(lǐng)域和關(guān)系類別,關(guān)系抽取方法可以劃分為 預(yù)定義抽取 和 開放域抽取 兩類。
預(yù)定義關(guān)系抽取 是指在一個或者多個固定領(lǐng)域內(nèi)對實體間關(guān)系進行抽取,語料結(jié)構(gòu)單一,這些領(lǐng)域內(nèi)的目標關(guān)系類型也是預(yù)先定義的。
開放域關(guān)系抽取 不限定領(lǐng)域的范圍和關(guān)系的類別?,F(xiàn)階段,基于深度學(xué)習(xí)的關(guān)系抽取研究集中于預(yù)定義關(guān)系抽取。
基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集有 ACE關(guān)系抽取任務(wù)數(shù)據(jù)集 、 SemEval2010 Task 8數(shù)據(jù)集 、 NYT2010數(shù)據(jù)集 等.
ACE關(guān)系抽取任務(wù)數(shù)據(jù)集 :ACE2005關(guān)系抽取數(shù)據(jù)集包含599篇與新聞和郵件相關(guān)的文檔,其數(shù)據(jù)集內(nèi)包含7大類25小類關(guān)系。
SemEval2010 Task 8數(shù)據(jù)集 :該數(shù)據(jù)集包含9種關(guān)系類型,分別是Compoent-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin。 考慮到實體之間關(guān)系的方向以及不屬于前面9種關(guān)系的“Other”關(guān)系,共生成19類實體關(guān)系。其中訓(xùn)練數(shù)據(jù) 8000個,測試數(shù)據(jù)2717個。
NYT2010數(shù)據(jù)集 是Riedel等人在2010年將Freebase知識庫中的知識“三元組”對齊到“紐約時報”新聞中得到的訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集中,數(shù)據(jù)的單位是句包,一個句包由包含該實體對的若干句子構(gòu)成。其中,訓(xùn)練數(shù)據(jù)集從《紐約時報》2005—2006年語料庫中獲取,測試集從2007年語料庫中獲取。
基于深度學(xué)習(xí)的關(guān)系抽取方法模型構(gòu)建的重點在于利用不同神經(jīng)網(wǎng)絡(luò)的特點來抽取樣本的特征,以學(xué)習(xí)樣本的向量表示。在學(xué)習(xí)過程中,根據(jù)所用的神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的不同,可將基于深度學(xué)習(xí)的關(guān)系抽取方法分為 基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,Rec-NN)的方法 、 基于卷積神經(jīng)網(wǎng)絡(luò)的方法 、 基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent net neural net-work,RNN)的方法 和 基于混合網(wǎng)絡(luò)模型的方法 四類。
基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法 首先利用自然語言處理工具對句子進行處理,構(gòu)建特定的二叉樹,然后解析樹上所有的相鄰子節(jié)點,以特定的語義順序?qū)⑵浣M合成一個父節(jié)點,如下圖3所示。這個過程遞歸進行,最終計算出整個句子的向量表示。向量計算過程可以看作是將句子進行一個特征抽取過程,該方法對所有的鄰接點采用相同的操作。
由于句子含義跟單詞出現(xiàn)的順序是相關(guān)的,因此關(guān)系抽取可以看作是一個時序?qū)W習(xí)任務(wù),可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)來建模。
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法 在模型設(shè)計上使用不同的循環(huán)神經(jīng)網(wǎng)絡(luò)來獲取句子信息,然后對每個時刻的隱狀態(tài)輸出進行組合,在句子層級學(xué)習(xí)有效特征。在關(guān)系抽取問題中,對每一個輸入,關(guān)系的標記一般只在序列的最后得到。Zhang等首次使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來進行關(guān)系抽取,提出了BRNN模型。如下圖7 所示,在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中某一時刻的輸出不僅依賴序列中之前的輸入,也依賴于后續(xù)的輸入。
為了更好地抽取句子中的特征,研究人員 使用遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)3種網(wǎng)絡(luò)及其他機器學(xué)習(xí)方法進行組合建模來進行關(guān)系抽取 。
Vu等提 出 了 基 于 文 本 擴 展 表 示 的ECNN和基于鏈接的UniBRNN模型 ,將每個神經(jīng)網(wǎng)絡(luò)得到的多個結(jié)果根據(jù)投票機制得到關(guān)系的最終抽取結(jié)果。
Xiao等將 注意力機制引入一個多級的循環(huán)神經(jīng)網(wǎng)絡(luò) ,該方法使用文本序列作為輸入,根據(jù)標記實體的位置將句子分為5部分,使用同一個雙 向LSTM網(wǎng)絡(luò)在3個子序列上獨立學(xué)習(xí),然后引入詞層級的注意力機制關(guān)注重要的單詞表示,分別得到子序列的向量表示;隨后,使用雙向RNN網(wǎng)絡(luò)進一步抽取子序列和實體的特征,并再次使用注意力機制將其轉(zhuǎn)換成句子的最終向量表示,并送入到分類器中。
Nguyen等將 傳統(tǒng)基于特征的方法(log-linear模型)、卷積神經(jīng)網(wǎng)絡(luò)方法和循環(huán)神經(jīng)網(wǎng)絡(luò)方法使用集成、投票等機制進行組合 。
zhang等提出 在雙向LSTM 的基礎(chǔ)上疊加注意力機制 ,以及使用卷積神經(jīng)網(wǎng)絡(luò)層獲取句子的表示,再送入到一個全連接層和softmax層進行分類。
在聯(lián)合學(xué)習(xí)問題上,Zheng等 使用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)組合來進行聯(lián)合學(xué)習(xí) ,也是一種共享底層網(wǎng)絡(luò)參數(shù)的方法。
[1]莊傳志,靳小龍,基于深度學(xué)習(xí)的關(guān)系抽取研究綜述[J].中文信息學(xué)報,2019,33(12):1-18.
更多自然語言處理相關(guān)知識,還請關(guān)注 AINLPer公眾號 ,極品干貨即刻送達。
以上就是關(guān)于新聞提取關(guān)鍵信息方法相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
廣告?zhèn)鞑サ奶卣鳎◤V告?zhèn)鞑サ奶卣髋c新聞傳播的特征有何不同)
如何看懂新聞聯(lián)播的言外之意(如何看懂新聞聯(lián)播的言外之意視頻)