-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
人工智能與機(jī)器翻譯(人工智能與機(jī)器翻譯PDF)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于人工智能與機(jī)器翻譯的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、1, 什么是人工智能
人工智能(計(jì)算機(jī)科學(xué)的一個(gè)分支)
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。 人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能從誕生以來,理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也不斷擴(kuò)大,但沒有一個(gè)統(tǒng)一的定義。
人工智能是對(duì)人的意識(shí)、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。但是這種會(huì)自我思考的高級(jí)人工智能還需要科學(xué)理論和工程上的突破。
人工智能是一門極富挑戰(zhàn)性的科學(xué),從事這項(xiàng)工作的人必須懂得計(jì)算機(jī)知識(shí),心理學(xué)和哲學(xué)。人工智能是包括十分廣泛的科學(xué),它由不同的領(lǐng)域組成,如機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺等等,總的說來,人工智能研究的一個(gè)主要目標(biāo)是使機(jī)器能夠勝任一些通常需要人類智能才能完成的復(fù)雜工作。但不同的時(shí)代、不同的人對(duì)這種“復(fù)雜工作”的理解是不同的。
工智能的定義可以分為兩部分,即“人工”和“智能”?!叭斯ぁ北容^好理解,爭議性也不大。有時(shí)我們會(huì)要考慮什么是人力所能及制造的,或者人自身的智能程度有沒有高到可以創(chuàng)造人工智能的地步,等等。但總的來說,“人工系統(tǒng)”就是通常意義下的人工系統(tǒng)。
關(guān)于什么是“智能”,就問題多多了。這涉及到其它諸如意識(shí)(CONSCIOUSNESS)、自我(SELF)、思維(MIND)(包括無意識(shí)的思維(UNCONSCIOUS_MIND)等等問題。人唯一了解的智能是人本身的智能,這是普遍認(rèn)同的觀點(diǎn)。但是我們對(duì)我們自身智能的理解都非常有限,對(duì)構(gòu)成人的智能的必要元素也了解有限,所以就很難定義什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及對(duì)人的智能本身的研究。其它關(guān)于動(dòng)物或其它人造系統(tǒng)的智能也普遍被認(rèn)為是人工智能相關(guān)的研究課題。
人工智能在計(jì)算機(jī)領(lǐng)域內(nèi),得到了愈加廣泛的重視。并在機(jī)器人,經(jīng)濟(jì)政治決策,控制系統(tǒng),仿真系統(tǒng)中得到應(yīng)用。
人工智能機(jī)器人
著名的美國斯坦福大學(xué)人工智能研究中心尼爾遜教授對(duì)人工智能下了這樣一個(gè)定義:“人工智能是關(guān)于知識(shí)的學(xué)科――怎樣表示知識(shí)以及怎樣獲得知識(shí)并使用知識(shí)的科學(xué)。”而另一個(gè)美國麻省理工學(xué)院的溫斯頓教授認(rèn)為:“人工智能就是研究如何使計(jì)算機(jī)去做過去只有人才能做的智能工作。”這些說法反映了人工智能學(xué)科的基本思想和基本內(nèi)容。即人工智能是研究人類智能活動(dòng)的規(guī)律,構(gòu)造具有一定智能的人工系統(tǒng),研究如何讓計(jì)算機(jī)去完成以往需要人的智力才能勝任的工作,也就是研究如何應(yīng)用計(jì)算機(jī)的軟硬件來模擬人類某些智能行為的基本理論、方法和技術(shù)。
人工智能是計(jì)算機(jī)學(xué)科的一個(gè)分支,二十世紀(jì)七十年代以來被稱為世界三大尖端技術(shù)之一(空間技術(shù)、能源技術(shù)、人工智能)。也被認(rèn)為是二十一世紀(jì)(基因工程、納米科學(xué)、人工智能)三大尖端技術(shù)之一。這是因?yàn)榻陙硭@得了迅速的發(fā)展,在很多學(xué)科領(lǐng)域都獲得了廣泛應(yīng)用,并取得了豐碩的成果,人工智能已逐步成為一個(gè)獨(dú)立的分支,無論在理論和實(shí)踐上都已自成一個(gè)系統(tǒng)。
人工智能是研究使計(jì)算機(jī)來模擬人的某些思維過程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)的學(xué)科,主要包括計(jì)算機(jī)實(shí)現(xiàn)智能的原理、制造類似于人腦智能的計(jì)算機(jī),使計(jì)算機(jī)能實(shí)現(xiàn)更高層次的應(yīng)用。人工智能將涉及到計(jì)算機(jī)科學(xué)、心理學(xué)、哲學(xué)和語言學(xué)等學(xué)科??梢哉f幾乎是自然科學(xué)和社會(huì)科學(xué)的所有學(xué)科,其范圍已遠(yuǎn)遠(yuǎn)超出了計(jì)算機(jī)科學(xué)的范疇,人工智能與思維科學(xué)的關(guān)系是實(shí)踐和理論的關(guān)系,人工智能是處于思維科學(xué)的技術(shù)應(yīng)用層次,是它的一個(gè)應(yīng)用分支。從思維觀點(diǎn)看,人工智能不僅限于邏輯思維,要考慮形象思維、靈感思維才能促進(jìn)人工智能的突破性的發(fā)展,數(shù)學(xué)常被認(rèn)為是多種學(xué)科的基礎(chǔ)科學(xué),數(shù)學(xué)也進(jìn)入語言、思維領(lǐng)域,人工智能學(xué)科也必須借用數(shù)學(xué)工具,數(shù)學(xué)不僅在標(biāo)準(zhǔn)邏輯、模糊數(shù)學(xué)等范圍發(fā)揮作用,數(shù)學(xué)進(jìn)入人工智能學(xué)科,它們將互相促進(jìn)而更快地發(fā)展。
2研究價(jià)值編輯
具有人工智能的機(jī)器人
例如繁重的科學(xué)和工程計(jì)算本來是要人腦來承擔(dān)的,如今計(jì)算機(jī)不但能完成這種計(jì)算,而且能夠比人腦做得更快、更準(zhǔn)確,因此當(dāng)代人已不再把這種計(jì)算看作是“需要人類智能才能完成的復(fù)雜任務(wù)”,可見復(fù)雜工作的定義是隨著時(shí)代的發(fā)展和技術(shù)的進(jìn)步而變化的,人工智能這門科學(xué)的具體目標(biāo)也自然隨著時(shí)代的變化而發(fā)展。它一方面不斷獲得新的進(jìn)展,另一方面又轉(zhuǎn)向更有意義、更加困難的目標(biāo)。
通常,“機(jī)器學(xué)習(xí)”的數(shù)學(xué)基礎(chǔ)是“統(tǒng)計(jì)學(xué)”、“信息論”和“控制論”。還包括其他非數(shù)學(xué)學(xué)科。這類“機(jī)器學(xué)習(xí)”對(duì)“經(jīng)驗(yàn)”的依賴性很強(qiáng)。計(jì)算機(jī)需要不斷從解決一類問題的經(jīng)驗(yàn)中獲取知識(shí),學(xué)習(xí)策略,在遇到類似的問題時(shí),運(yùn)用經(jīng)驗(yàn)知識(shí)解決問題并積累新的經(jīng)驗(yàn),就像普通人一樣。我們可以將這樣的學(xué)習(xí)方式稱之為“連續(xù)型學(xué)習(xí)”。但人類除了會(huì)從經(jīng)驗(yàn)中學(xué)習(xí)之外,還會(huì)創(chuàng)造,即“跳躍型學(xué)習(xí)”。這在某些情形下被稱為“靈感”或“頓悟”。一直以來,計(jì)算機(jī)最難學(xué)會(huì)的就是“頓悟”?;蛘咴賴?yán)格一些來說,計(jì)算機(jī)在學(xué)習(xí)和“實(shí)踐”方面難以學(xué)會(huì)“不依賴于量變的質(zhì)變”,很難從一種“質(zhì)”直接到另一種“質(zhì)”,或者從一個(gè)“概念”直接到另一個(gè)“概念”。正因?yàn)槿绱?,這里的“實(shí)踐”并非同人類一樣的實(shí)踐。人類的實(shí)踐過程同時(shí)包括經(jīng)驗(yàn)和創(chuàng)造。[1]
這是智能化研究者夢寐以求的東西。
2013年,帝金數(shù)據(jù)普數(shù)中心數(shù)據(jù)研究員S.C WANG開發(fā)了一種新的數(shù)據(jù)分析方法,該方法導(dǎo)出了研究函數(shù)性質(zhì)的新方法。作者發(fā)現(xiàn),新數(shù)據(jù)分析方法給計(jì)算機(jī)學(xué)會(huì)“創(chuàng)造”提供了一種方法。本質(zhì)上,這種方法為人的“創(chuàng)造力”的模式化提供了一種相當(dāng)有效的途徑。這種途徑是數(shù)學(xué)賦予的,是普通人無法擁有但計(jì)算機(jī)可以擁有的“能力”。從此,計(jì)算機(jī)不僅精于算,還會(huì)因精于算而精于創(chuàng)造。計(jì)算機(jī)學(xué)家們應(yīng)該斬釘截鐵地剝奪“精于創(chuàng)造”的計(jì)算機(jī)過于全面的操作能力,否則計(jì)算機(jī)真的有一天會(huì)“反捕”人類。[1]
當(dāng)回頭審視新方法的推演過程和數(shù)學(xué)的時(shí)候,作者拓展了對(duì)思維和數(shù)學(xué)的認(rèn)識(shí)。數(shù)學(xué)簡潔,清晰,可靠性、模式化強(qiáng)。在數(shù)學(xué)的發(fā)展史上,處處閃耀著數(shù)學(xué)大師們創(chuàng)造力的光輝。這些創(chuàng)造力以各種數(shù)學(xué)定理或結(jié)論的方式呈現(xiàn)出來,而數(shù)學(xué)定理最大的特點(diǎn)就是:建立在一些基本的概念和公理上,以模式化的語言方式表達(dá)出來的包含豐富信息的邏輯結(jié)構(gòu)。應(yīng)該說,數(shù)學(xué)是最單純、最直白地反映著(至少一類)創(chuàng)造力模式的學(xué)科。[1]
3科學(xué)介紹編輯
實(shí)際應(yīng)用
機(jī)器視覺:機(jī)器視覺,指紋識(shí)別,人臉識(shí)別,視網(wǎng)膜識(shí)別,虹膜識(shí)別,掌紋識(shí)別,專家系統(tǒng),自動(dòng)規(guī)劃,智能搜索,定理證明,博弈,自動(dòng)程序設(shè)計(jì),智能控制,機(jī)器人學(xué),語言和圖像理解,遺傳編程等。
學(xué)科范疇
人工智能是一門邊沿學(xué)科,屬于自然科學(xué)和社會(huì)科學(xué)的交叉。
涉及學(xué)科
哲學(xué)和認(rèn)知科學(xué),數(shù)學(xué),神經(jīng)生理學(xué),心理學(xué),計(jì)算機(jī)科學(xué),信息論,控制論,不定性論
研究范疇
自然語言處理,知識(shí)表現(xiàn),智能搜索,推理,規(guī)劃,機(jī)器學(xué)習(xí),知識(shí)獲取,組合調(diào)度問題,感知問題,模式識(shí)別,邏輯程序設(shè)計(jì)軟計(jì)算,不精確和不確定的管理,人工生命,神經(jīng)網(wǎng)絡(luò),復(fù)雜系統(tǒng),遺傳算法
意識(shí)和人工智能
人工智能就其本質(zhì)而言,是對(duì)人的思維的信息過程的模擬。
對(duì)于人的思維模擬可以從兩條道路進(jìn)行,一是結(jié)構(gòu)模擬,仿照人腦的結(jié)構(gòu)機(jī)制,制造出“類人腦”的機(jī)器;二是功能模擬,暫時(shí)撇開人腦的內(nèi)部結(jié)構(gòu),而從其功能過程進(jìn)行模擬?,F(xiàn)代電子計(jì)算機(jī)的產(chǎn)生便是對(duì)人腦思維功能的模擬,是對(duì)人腦思維的信息過程的模擬。
弱人工智能如今不斷地迅猛發(fā)展,尤其是2008年經(jīng)濟(jì)危機(jī)后,美日歐希望借機(jī)器人等實(shí)現(xiàn)再工業(yè)化,工業(yè)機(jī)器人以比以往任何時(shí)候更快的速度發(fā)展,更加帶動(dòng)了弱人工智能和相關(guān)領(lǐng)域產(chǎn)業(yè)的不斷突破,很多必須用人來做的工作如今已經(jīng)能用機(jī)器人實(shí)現(xiàn)。
而強(qiáng)人工智能則暫時(shí)處于瓶頸,還需要科學(xué)家們和人類的努力。
4發(fā)展階段編輯
1956年夏季,以麥卡賽、明斯基、羅切斯特和申農(nóng)等為首的一批有遠(yuǎn)見卓識(shí)的年輕科學(xué)家在一起聚會(huì),共同研究和探討用機(jī)器模擬智能的一系列有關(guān)問題,并首次提出了“人工智能”這一術(shù)語,它標(biāo)志著“人工智能”這門新興學(xué)科的正式誕生。IBM公司“深藍(lán)”電腦擊敗了人類的世界國際象棋冠軍更是人工智能技術(shù)的一個(gè)完美表現(xiàn)。
從1956年正式提出人工智能學(xué)科算起,50多年來,取得長足的發(fā)展,成為一門廣泛的交叉和前沿科學(xué)??偟恼f來,人工智能的目的就是讓計(jì)算機(jī)這臺(tái)機(jī)器能夠像人一樣思考。如果希望做出一臺(tái)能夠思考的機(jī)器,那就必須知道什么是思考,更進(jìn)一步講就是什么是智慧。什么樣的機(jī)器才是智慧的呢?科學(xué)家已經(jīng)作出了汽車,火車,飛機(jī),收音機(jī)等等,它們模仿我們身體器官的功能,但是能不能模仿人類大腦的功能呢?到目前為止,我們也僅僅知道這個(gè)裝在我們天靈蓋里面的東西是由數(shù)十億個(gè)神經(jīng)細(xì)胞組成的器官,我們對(duì)這個(gè)東西知之甚少,模仿它或許是天下最困難的事情了。
當(dāng)計(jì)算機(jī)出現(xiàn)后,人類開始真正有了一個(gè)可以模擬人類思維的工具,在以后的歲月中,無數(shù)科學(xué)家為這個(gè)目標(biāo)努力著。如今人工智能已經(jīng)不再是幾個(gè)科學(xué)家的專利了,全世界幾乎所有大學(xué)的計(jì)算機(jī)系都有人在研究這門學(xué)科,學(xué)習(xí)計(jì)算機(jī)的大學(xué)生也必須學(xué)習(xí)這樣一門課程,在大家不懈的努力下,如今計(jì)算機(jī)似乎已經(jīng)變得十分聰明了。例如,1997年5月,IBM公司研制的深藍(lán)(DEEP BLUE)計(jì)算機(jī)戰(zhàn)勝了國際象棋大師卡斯帕洛夫(KASPAROV)。大家或許不會(huì)注意到,在一些地方計(jì)算機(jī)幫助人進(jìn)行其它原來只屬于人類的工作,計(jì)算機(jī)以它的高速和準(zhǔn)確為人類發(fā)揮著它的作用。人工智能始終是計(jì)算機(jī)科學(xué)的前沿學(xué)科,計(jì)算機(jī)編程語言和其它計(jì)算機(jī)軟件都因?yàn)橛辛巳斯ぶ悄艿倪M(jìn)展而得以存在。
5技術(shù)研究編輯
用來研究人工智能的主要物質(zhì)基礎(chǔ)以及能夠?qū)崿F(xiàn)人工智能技術(shù)平臺(tái)的機(jī)器就是計(jì)算機(jī),人工智能的發(fā)展歷史是和計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展史聯(lián)系在一起的。除了計(jì)算機(jī)科學(xué)以外,人工智能還涉及信息論、控制論、自動(dòng)化、仿生學(xué)、生物學(xué)、心理學(xué)、數(shù)理邏輯、語言學(xué)、醫(yī)學(xué)和哲學(xué)等多門學(xué)科。人工智能學(xué)科研究的主要內(nèi)容包括:知識(shí)表示、自動(dòng)推理和搜索方法、機(jī)器學(xué)習(xí)和知識(shí)獲取、知識(shí)處理系統(tǒng)、自然語言理解、計(jì)算機(jī)視覺、智能機(jī)器人、自動(dòng)程序設(shè)計(jì)等方面。
人工智能技術(shù)研究 ARTIFICIAL INTELLIGENCE AND ROBOTICS RESEARCH 是一本關(guān)注人工智能與機(jī)器人研究領(lǐng)域最新進(jìn)展的國際中文期刊,由漢斯出版社發(fā)行,本刊支持思想創(chuàng)新、學(xué)術(shù)創(chuàng)新,倡導(dǎo)科學(xué),繁榮學(xué)術(shù),集學(xué)術(shù)性、思想性為一體,旨在為了給世界范圍內(nèi)的科學(xué)家、學(xué)者、科研人員提供一個(gè)傳播、分享和討論人工智能與機(jī)器人研究領(lǐng)域內(nèi)不同方向問題與發(fā)展的交流平臺(tái)。
研究領(lǐng)域
人工智能技術(shù)研究
智能機(jī)器人
模式識(shí)別與智能系統(tǒng)
虛擬現(xiàn)實(shí)技術(shù)與應(yīng)用
系統(tǒng)仿真技術(shù)與應(yīng)用
工業(yè)過程建模與智能控制
智能計(jì)算與機(jī)器博弈
人工智能理論
語音識(shí)別與合成
機(jī)器翻譯
圖像處理與計(jì)算機(jī)視覺
計(jì)算機(jī)感知
計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)
知識(shí)發(fā)現(xiàn)與機(jī)器學(xué)習(xí)
建筑智能化技術(shù)與應(yīng)用
人工智能其他學(xué)科
研究方法
如今沒有統(tǒng)一的原理或范式指導(dǎo)人工智能研究。許多問題上研究者都存在爭論。其中幾個(gè)長久以來仍沒有結(jié)論的問題是:是否應(yīng)從心理或神經(jīng)方面模擬人工智能?或者像鳥類生物學(xué)對(duì)于航空工程一樣,人類生物學(xué)對(duì)于人工智能研究是沒有關(guān)系的?智能行為能否用簡單的原則(如邏輯或優(yōu)化)來描述?還是必須解決大量完全無關(guān)的問題?
智能是否可以使用高級(jí)符號(hào)表達(dá),如詞和想法?還是需要“子符號(hào)”的處理?JOHN HAUGELAND提出了GOFAI(出色的老式人工智能)的概念,也提議人工智能應(yīng)歸類為SYNTHETIC INTELLIGENCE,[29]這個(gè)概念后來被某些非GOFAI研究者采納。
大腦模擬
主條目:控制論和計(jì)算神經(jīng)科學(xué)
20世紀(jì)40年代到50年代,許多研究者探索神經(jīng)病學(xué),信息理論及控制論之間的聯(lián)系。其中還造出一些使用電子網(wǎng)絡(luò)構(gòu)造的初步智能,如W. GREY WALTER的TURTLES和JOHNS HOPKINS BEAST。 這些研究者還經(jīng)常在普林斯頓大學(xué)和英國的RATIO CLUB舉行技術(shù)協(xié)會(huì)會(huì)議.直到1960, 大部分人已經(jīng)放棄這個(gè)方法,盡管在80年代再次提出這些原理。
符號(hào)處理
主條目:GOFAI
當(dāng)20世紀(jì)50年代,數(shù)字計(jì)算機(jī)研制成功,研究者開始探索人類智能是否能簡化成符號(hào)處理。研究主要集中在卡內(nèi)基梅隆大學(xué), 斯坦福大學(xué)和麻省理工學(xué)院,而各自有獨(dú)立的研究風(fēng)格。JOHN HAUGELAND稱這些方法為GOFAI(出色的老式人工智能)。[33] 60年代,符號(hào)方法在小型證明程序上模擬高級(jí)思考有很大的成就?;诳刂普摶蛏窠?jīng)網(wǎng)絡(luò)的方法則置于次要。[34] 60~70年代的研究者確信符號(hào)方法最終可以成功創(chuàng)造強(qiáng)人工智能的機(jī)器,同時(shí)這也是他們的目標(biāo)。
認(rèn)知模擬經(jīng)濟(jì)學(xué)家赫伯特·西蒙和艾倫·紐厄爾研究人類問題解決能力和嘗試將其形式化,同時(shí)他們?yōu)槿斯ぶ悄艿幕驹泶蛳禄A(chǔ),如認(rèn)知科學(xué), 運(yùn)籌學(xué)和經(jīng)營科學(xué)。他們的研究團(tuán)隊(duì)使用心理學(xué)實(shí)驗(yàn)的結(jié)果開發(fā)模擬人類解決問題方法的程序。這方法一直在卡內(nèi)基梅隆大學(xué)沿襲下來,并在80年代于SOAR發(fā)展到高峰?;谶壿嫴幌癜瑐悺ぜ~厄爾和赫伯特·西蒙,JOHN MCCARTHY認(rèn)為機(jī)器不需要模擬人類的思想,而應(yīng)嘗試找到抽象推理和解決問題的本質(zhì),不管人們是否使用同樣的算法。他在斯坦福大學(xué)的實(shí)驗(yàn)室致力于使用形式化邏輯解決多種問題,包括知識(shí)表示, 智能規(guī)劃和機(jī)器學(xué)習(xí). 致力于邏輯方法的還有愛丁堡大學(xué),而促成歐洲的其他地方開發(fā)編程語言PROLOG和邏輯編程科學(xué).“反邏輯”斯坦福大學(xué)的研究者 (如馬文·閔斯基和西摩爾·派普特)發(fā)現(xiàn)要解決計(jì)算機(jī)視覺和自然語言處理的困難問題,需要專門的方案-他們主張不存在簡單和通用原理(如邏輯)能夠達(dá)到所有的智能行為。ROGER SCHANK 描述他們的“反邏輯”方法為 "SCRUFFY" .常識(shí)知識(shí)庫 (如DOUG LENAT的CYC)就是"SCRUFFY"AI的例子,因?yàn)樗麄儽仨毴斯ひ淮尉帉懸粋€(gè)復(fù)雜的概念?;谥R(shí)大約在1970年出現(xiàn)大容量內(nèi)存計(jì)算機(jī),研究者分別以三個(gè)方法開始把知識(shí)構(gòu)造成應(yīng)用軟件。這場“知識(shí)革命”促成專家系統(tǒng)的開發(fā)與計(jì)劃,這是第一個(gè)成功的人工智能軟件形式?!爸R(shí)革命”同時(shí)讓人們意識(shí)到許多簡單的人工智能軟件可能需要大量的知識(shí)。
子符號(hào)法
80年代符號(hào)人工智能停滯不前,很多人認(rèn)為符號(hào)系統(tǒng)永遠(yuǎn)不可能模仿人類所有的認(rèn)知過程,特別是感知,機(jī)器人,機(jī)器學(xué)習(xí)和模式識(shí)別。很多研究者開始關(guān)注子符號(hào)方法解決特定的人工智能問題。
自下而上, 接口AGENT,嵌入環(huán)境(機(jī)器人),行為主義,新式AI機(jī)器人領(lǐng)域相關(guān)的研究者,如RODNEY BROOKS,否定符號(hào)人工智能而專注于機(jī)器人移動(dòng)和求生等基本的工程問題。他們的工作再次關(guān)注早期控制論研究者的觀點(diǎn),同時(shí)提出了在人工智能中使用控制理論。這與認(rèn)知科學(xué)領(lǐng)域中的表征感知論點(diǎn)是一致的:更高的智能需要個(gè)體的表征(如移動(dòng),感知和形象)。計(jì)算智能80年代中DAVID RUMELHART 等再次提出神經(jīng)網(wǎng)絡(luò)和聯(lián)結(jié)主義. 這和其他的子符號(hào)方法,如模糊控制和進(jìn)化計(jì)算,都屬于計(jì)算智能學(xué)科研究范疇。
統(tǒng)計(jì)學(xué)法
90年代,人工智能研究發(fā)展出復(fù)雜的數(shù)學(xué)工具來解決特定的分支問題。這些工具是真正的科學(xué)方法,即這些方法的結(jié)果是可測量的和可驗(yàn)證的,同時(shí)也是人工智能成功的原因。共用的數(shù)學(xué)語言也允許已有學(xué)科的合作(如數(shù)學(xué),經(jīng)濟(jì)或運(yùn)籌學(xué))。STUART J. RUSSELL和PETER NORVIG指出這些進(jìn)步不亞于“革命”和“NEATS的成功”。有人批評(píng)這些技術(shù)太專注于特定的問題,而沒有考慮長遠(yuǎn)的強(qiáng)人工智能目標(biāo)。
集成方法
智能AGENT范式智能AGENT是一個(gè)會(huì)感知環(huán)境并作出行動(dòng)以達(dá)致目標(biāo)的系統(tǒng)。最簡單的智能AGENT是那些可以解決特定問題的程序。更復(fù)雜的AGENT包括人類和人類組織(如公司)。這些范式可以讓研究者研究單獨(dú)的問題和找出有用且可驗(yàn)證的方案,而不需考慮單一的方法。一個(gè)解決特定問題的AGENT可以使用任何可行的方法-一些AGENT用符號(hào)方法和邏輯方法,一些則是子符號(hào)神經(jīng)網(wǎng)絡(luò)或其他新的方法。范式同時(shí)也給研究者提供一個(gè)與其他領(lǐng)域溝通的共同語言--如決策論和經(jīng)濟(jì)學(xué)(也使用ABSTRACT AGENTS的概念)。90年代智能AGENT范式被廣泛接受。AGENT體系結(jié)構(gòu)和認(rèn)知體系結(jié)構(gòu)研究者設(shè)計(jì)出一些系統(tǒng)來處理多ANGENT系統(tǒng)中智能AGENT之間的相互作用。一個(gè)系統(tǒng)中包含符號(hào)和子符號(hào)部分的系統(tǒng)稱為混合智能系統(tǒng) ,而對(duì)這種系統(tǒng)的研究則是人工智能系統(tǒng)集成。分級(jí)控制系統(tǒng)則給反應(yīng)級(jí)別的子符號(hào)AI 和最高級(jí)別的傳統(tǒng)符號(hào)AI提供橋梁,同時(shí)放寬了規(guī)劃和世界建模的時(shí)間。RODNEY BROOKS的SUBSUMPTION ARCHITECTURE就是一個(gè)早期的分級(jí)系統(tǒng)計(jì)劃。
智能模擬
機(jī)器視、聽、觸、感覺及思維方式的模擬:指紋識(shí)別,人臉識(shí)別,視網(wǎng)膜識(shí)別,虹膜識(shí)別,掌紋識(shí)別,專家系統(tǒng),智能搜索,定理證明,邏輯推理,博弈,信息感應(yīng)與辨證處理。
學(xué)科范疇
人工智能是一門邊沿學(xué)科,屬于自然科學(xué)、社會(huì)科學(xué)、技術(shù)科學(xué)三向交叉學(xué)科。
涉及學(xué)科
哲學(xué)和認(rèn)知科學(xué),數(shù)學(xué),神經(jīng)生理學(xué),心理學(xué),計(jì)算機(jī)科學(xué),信息論,控制論,不定性論,仿生學(xué),社會(huì)結(jié)構(gòu)學(xué)與科學(xué)發(fā)展觀。
研究范疇
語言的學(xué)習(xí)與處理,知識(shí)表現(xiàn),智能搜索,推理,規(guī)劃,機(jī)器學(xué)習(xí),知識(shí)獲取,組合調(diào)度問題,感知問題,模式識(shí)別,邏輯程序設(shè)計(jì),軟計(jì)算,不精確和不確定的管理,人工生命,神經(jīng)網(wǎng)絡(luò),復(fù)雜系統(tǒng),遺傳算法人類思維方式,最關(guān)鍵的難題還是機(jī)器的自主創(chuàng)造性思維能力的塑造與提升。
應(yīng)用領(lǐng)域
機(jī)器翻譯,智能控制,專家系統(tǒng),機(jī)器人學(xué),語言和圖像理解,遺傳編程機(jī)器人工廠,自動(dòng)程序設(shè)計(jì),航天應(yīng)用,龐大的信息處理,儲(chǔ)存與管理,執(zhí)行化合生命體無法執(zhí)行的或復(fù)雜或規(guī)模龐大的任務(wù)等等。
值得一提的是,機(jī)器翻譯是人工智能的重要分支和最先應(yīng)用領(lǐng)域。不過就已有的機(jī)譯成就來看,機(jī)譯系統(tǒng)的譯文質(zhì)量離終極目標(biāo)仍相差甚遠(yuǎn);而機(jī)譯質(zhì)量是機(jī)譯系統(tǒng)成敗的關(guān)鍵。中國數(shù)學(xué)家、語言學(xué)家周海中教授曾在論文《機(jī)器翻譯五十年》中指出:要提高機(jī)譯的質(zhì)量,首先要解決的是語言本身問題而不是程序設(shè)計(jì)問題;單靠若干程序來做機(jī)譯系統(tǒng),肯定是無法提高機(jī)譯質(zhì)量的;另外在人類尚未明了大腦是如何進(jìn)行語言的模糊識(shí)別和邏輯判斷的情況下,機(jī)譯要想達(dá)到“信、達(dá)、雅”的程度是不可能的。
安全問題
人工智能還在研究中,但有學(xué)者認(rèn)為讓計(jì)算機(jī)擁有智商是很危險(xiǎn)的,它可能會(huì)反抗人類。這種隱患也在多部電影中發(fā)生過,其主要的關(guān)鍵是允不允許機(jī)器擁有自主意識(shí)的產(chǎn)生與延續(xù),如果使機(jī)器擁有自主意識(shí),則意味著機(jī)器具有與人同等或類似的創(chuàng)造性,自我保護(hù)意識(shí),情感和自發(fā)行為。
實(shí)現(xiàn)方法
人工智能在計(jì)算機(jī)上實(shí)現(xiàn)時(shí)有2種不同的方式。一種是采用傳統(tǒng)的編程技術(shù),使系統(tǒng)呈現(xiàn)智能的效果,而不考慮所用方法是否與人或動(dòng)物機(jī)體所用的方法相同。這種方法叫工程學(xué)方法(ENGINEERING APPROACH),它已在一些領(lǐng)域內(nèi)作出了成果,如文字識(shí)別、電腦下棋等。另一種是模擬法(MODELING APPROACH),它不僅要看效果,還要求實(shí)現(xiàn)方法也和人類或生物機(jī)體所用的方法相同或相類似。遺傳算法(GENERIC ALGORITHM,簡稱GA)和人工神經(jīng)網(wǎng)絡(luò)(ARTIFICIAL NEURAL NETWORK,簡稱ANN)均屬后一類型。遺傳算法模擬人類或生物的遺傳-進(jìn)化機(jī)制,人工神經(jīng)網(wǎng)絡(luò)則是模擬人類或動(dòng)物大腦中神經(jīng)細(xì)胞的活動(dòng)方式。為了得到相同智能效果,兩種方式通常都可使用。采用前一種方法,需要人工詳細(xì)規(guī)定程序邏輯,如果游戲簡單,還是方便的。如果游戲復(fù)雜,角色數(shù)量和活動(dòng)空間增加,相應(yīng)的邏輯就會(huì)很復(fù)雜(按指數(shù)式增長),人工編程就非常繁瑣,容易出錯(cuò)。而一旦出錯(cuò),就必須修改原程序,重新編譯、調(diào)試,最后為用戶提供一個(gè)新的版本或提供一個(gè)新補(bǔ)丁,非常麻煩。采用后一種方法時(shí),編程者要為每一角色設(shè)計(jì)一個(gè)智能系統(tǒng)(一個(gè)模塊)來進(jìn)行控制,這個(gè)智能系統(tǒng)(模塊)開始什么也不懂,就像初生嬰兒那樣,但它能夠?qū)W習(xí),能漸漸地適應(yīng)環(huán)境,應(yīng)付各種復(fù)雜情況。這種系統(tǒng)開始也常犯錯(cuò)誤,但它能吸取教訓(xùn),下一次運(yùn)行時(shí)就可能改正,至少不會(huì)永遠(yuǎn)錯(cuò)下去,用不到發(fā)布新版本或打補(bǔ)丁。利用這種方法來實(shí)現(xiàn)人工智能,要求編程者具有生物學(xué)的思考方法,入門難度大一點(diǎn)。但一旦入了門,就可得到廣泛應(yīng)用。由于這種方法編程時(shí)無須對(duì)角色的活動(dòng)規(guī)律做詳細(xì)規(guī)定,應(yīng)用于復(fù)雜問題,通常會(huì)比前一種方法更省力。
二、為什么我們?nèi)匀恍枰斯しg
1995年,馬云應(yīng)好友相邀去了一趟美國,回來之后他決定做互聯(lián)網(wǎng)。彼時(shí)的國人,對(duì)于互聯(lián)網(wǎng)尚無概念,他邀請(qǐng)了24個(gè)朋友在家里給大家講了兩個(gè)小時(shí),結(jié)果沒人能聽懂他在說什么,同一時(shí)間在地球的另一端,一個(gè)叫比爾·蓋茨的人因?yàn)閭€(gè)人PC業(yè)務(wù)的持續(xù)增加,正被越來越多的人所熟知。于是馬云做出了大膽的預(yù)測:互聯(lián)網(wǎng)將改變?nèi)祟惿畹姆椒矫婷妗?2年后,在2007年4月的微軟亞洲政府領(lǐng)導(dǎo)人論壇上,蓋茨告訴全世界,互聯(lián)網(wǎng)正在改變?nèi)藗兊纳?。蓋茨或許并不知道,關(guān)于互聯(lián)網(wǎng)的影響力,一個(gè)自信滿滿的中國人多年前已作出判言。
在互聯(lián)網(wǎng)的世界里,不再有山脈、海洋、國界的物理阻隔,人跟人之間的交流的唯一障礙只剩下文化和語言。通過互聯(lián)網(wǎng)你可以在一小時(shí)、30分鐘、10分鐘之內(nèi)知道全國乃至全世界發(fā)生的事情,通過互聯(lián)網(wǎng)你可以足不出戶點(diǎn)餐、購物、娛樂甚至工作,互聯(lián)網(wǎng)改變的不僅僅是生活習(xí)慣,消費(fèi)習(xí)慣、娛樂方式,真真切切的改變了人類生活的方方面面。
很多人可能會(huì)問,人工翻譯跟互聯(lián)網(wǎng)有啥關(guān)系,凈說寫沒用的,這里就要引出我們下一個(gè)主角“人工智能”,得益于互聯(lián)網(wǎng)的普及,全球數(shù)十億人在互聯(lián)網(wǎng)上購物、娛樂,產(chǎn)生了海量的用戶數(shù)據(jù),這些數(shù)據(jù)讓過去發(fā)展陷入瓶頸的機(jī)器學(xué)習(xí)重新煥發(fā)出新的生命力,通過不斷優(yōu)化機(jī)器學(xué)習(xí)的算法,海量數(shù)據(jù)交由計(jì)算機(jī)處理學(xué)習(xí),如果打個(gè)比方的話,數(shù)據(jù)和算法之于計(jì)算機(jī)好比閱歷和智商之于人類,豐富的閱歷所獲得的智慧不是小聰明所能比擬的,AlphaGo與自己對(duì)弈了數(shù)千萬局才達(dá)到如今的棋力,而和它對(duì)陣的李世石和柯潔,終其一生不吃不喝的去對(duì)弈,所能達(dá)到的數(shù)目也不及電腦的百分之一。
機(jī)器翻譯的概念提出甚至早于人工智能,語言作為人與人之間溝通的唯一障礙,無數(shù)仁人志士傾其一生都在研究如何打破這道枷鎖,互聯(lián)網(wǎng)、人工智能的出現(xiàn)為翻譯提供了新的契機(jī),谷歌利用了業(yè)內(nèi)最強(qiáng)的硬件配置和集群計(jì)算環(huán)境,整合了近幾年神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的成果,做出了自己的神經(jīng)機(jī)器翻譯系統(tǒng)—Google翻譯,目前谷歌翻譯可提供103中語言之間的即時(shí)翻譯。中國的互聯(lián)網(wǎng)巨頭們,得益于中國海量的人口基數(shù),誕生出海量的可供機(jī)器學(xué)習(xí)的語言數(shù)據(jù),包括華為、百度、科大訊飛、搜狗等都推出了自己的人工智能翻譯軟件。
雖然近幾年機(jī)器翻譯取得了長足的進(jìn)步,但是作為人類智慧結(jié)晶的“語言”,其復(fù)雜程度不僅僅是是詞、字的直接轉(zhuǎn)化,更涉及語句背后人類復(fù)雜的語境語義問題,這樣復(fù)雜的轉(zhuǎn)化不是短時(shí)間可以實(shí)現(xiàn)的。比如在簡單的技術(shù)文檔上,一些機(jī)器翻譯軟件可以快速而準(zhǔn)確的翻譯,但是如果涉及到具有一定文學(xué)性、或需要專業(yè)背景的材料,機(jī)器翻譯就顯得捉襟見肘,翻譯出的文件不僅詞不達(dá)意甚至可以說漏洞百出。
隨著互聯(lián)網(wǎng)的普及、接踵而至的大數(shù)據(jù)、人工智能、5G,人類社會(huì)正迎來一次新的技術(shù)革命,我們每個(gè)人都在經(jīng)歷著“百年未有之大變局”,人工翻譯公司在可以預(yù)見的未來還會(huì)存在較長的時(shí)間,機(jī)器翻譯不會(huì)完全取代人工,未來的世界是人與機(jī)器共存的時(shí)代,機(jī)器翻譯軟件將會(huì)以工具的方式,幫助我們譯員來實(shí)現(xiàn)更高效率的翻譯工作。
三、人工智能與機(jī)器翻譯 和 自然語言處理 哪個(gè)方向更火
一、課程介紹
斯坦福大學(xué)于2012年3月在Coursera啟動(dòng)了在線自然語言處理課程,由NLP領(lǐng)域大牛Dan Jurafsky 和 Chirs Manning教授授課:
https://class.coursera.org/nlp/
以下是本課程的學(xué)習(xí)筆記,以課程PPT/PDF為主,其他參考資料為輔,融入個(gè)人拓展、注解,拋磚引玉,歡迎大家在“我愛公開課”上一起探討學(xué)習(xí)。
課件匯總下載地址:斯坦福大學(xué)自然語言處理公開課課件匯總
二、語言模型(Language Model)
1)N-gram介紹
在實(shí)際應(yīng)用中,我們經(jīng)常需要解決這樣一類問題:如何計(jì)算一個(gè)句子的概率?如:
機(jī)器翻譯:P(high winds tonite) > P(large winds tonite)
拼寫糾錯(cuò):P(about fifteen minutes from) > P(about fifteenminuets from)
語音識(shí)別:P(I saw a van) >> P(eyes awe of an)
音字轉(zhuǎn)換:P(你現(xiàn)在干什么|nixianzaiganshenme) > P(你西安在干什么|nixianzaiganshenme)
自動(dòng)文摘、問答系統(tǒng)、... ...
以上問題的形式化表示如下:
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)//鏈規(guī)則
p(S)被稱為語言模型,即用來計(jì)算一個(gè)句子概率的模型。
那么,如何計(jì)算p(wi|w1,w2,...,wi-1)呢?最簡單、直接的方法是直接計(jì)數(shù)做除法,如下:
p(wi|w1,w2,...,wi-1) = p(w1,w2,...,wi-1,wi) / p(w1,w2,...,wi-1)
但是,這里面臨兩個(gè)重要的問題:數(shù)據(jù)稀疏嚴(yán)重;參數(shù)空間過大,無法實(shí)用。
基于馬爾科夫假設(shè)(Markov Assumption):下一個(gè)詞的出現(xiàn)僅依賴于它前面的一個(gè)或幾個(gè)詞。
假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的一個(gè)詞,則有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1) // bigram
假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的兩個(gè)詞,則有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2) // trigram
那么,我們?cè)诿媾R實(shí)際問題時(shí),如何選擇依賴詞的個(gè)數(shù),即n。
更大的n:對(duì)下一個(gè)詞出現(xiàn)的約束信息更多,具有更大的辨別力;
更小的n:在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更多,具有更可靠的統(tǒng)計(jì)信息,具有更高的可靠性。
理論上,n越大越好,經(jīng)驗(yàn)上,trigram用的最多,盡管如此,原則上,能用bigram解決,絕不使用trigram。
2)構(gòu)造語言模型
通常,通過計(jì)算最大似然估計(jì)(Maximum Likelihood Estimate)構(gòu)造語言模型,這是對(duì)訓(xùn)練數(shù)據(jù)的最佳估計(jì),公式如下:
p(w1|wi-1) = count(wi1-, wi) / count(wi-1)
如給定句子集“<s> I am Sam </s>
<s> Sam I am </s>
<s> I do not like green eggs and ham </s>”
部分bigram語言模型如下所示:
c(wi)如下:
c(wi-1,wi)如下:
則bigram為:
那么,句子“<s> I want english food </s>”的概率為:
p(<s> I want english food </s>)=p(I|<s>)
× P(want|I)
× P(english|want)
× P(food|english)
× P(</s>|food)
= .000031
為了避免數(shù)據(jù)溢出、提高性能,通常會(huì)使用取log后使用加法運(yùn)算替代乘法運(yùn)算。
log(p1*p2*p3*p4) = log(p1) + log(p2) + log(p3) + log(p4)
推薦開源語言模型工具:
SRILM(http://www.speech.sri.com/projects/srilm/)
IRSTLM(http://hlt.fbk.eu/en/irstlm)
MITLM(http://code.google.com/p/mitlm/)
BerkeleyLM(http://code.google.com/p/berkeleylm/)
推薦開源n-gram數(shù)據(jù)集:
Google Web1T5-gram(http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html)
Total number of tokens: 1,306,807,412,486
Total number of sentences: 150,727,365,731
Total number of unigrams: 95,998,281
Total number of bigrams: 646,439,858
Total number of trigrams: 1,312,972,925
Total number of fourgrams: 1,396,154,236
Total number of fivegrams: 1,149,361,413
Total number of n-grams: 4,600,926,713
Google Book N-grams(http://books.google.com/ngrams/)
Chinese Web 5-gram(http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2010T06)
3)語言模型評(píng)價(jià)
語言模型構(gòu)造完成后,如何確定好壞呢? 目前主要有兩種評(píng)價(jià)方法:
實(shí)用方法:通過查看該模型在實(shí)際應(yīng)用(如拼寫檢查、機(jī)器翻譯)中的表現(xiàn)來評(píng)價(jià),優(yōu)點(diǎn)是直觀、實(shí)用,缺點(diǎn)是缺乏針對(duì)性、不夠客觀;
理論方法:迷惑度/困惑度/混亂度(preplexity),其基本思想是給測試集賦予較高概率值的語言模型較好,公式如下:
由公式可知,迷惑度越小,句子概率越大,語言模型越好。使用《華爾街日?qǐng)?bào)》訓(xùn)練數(shù)據(jù)規(guī)模為38million words構(gòu)造n-gram語言模型,測試集規(guī)模為1.5million words,迷惑度如下表所示:
4)數(shù)據(jù)稀疏與平滑技術(shù)
大規(guī)模數(shù)據(jù)統(tǒng)計(jì)方法與有限的訓(xùn)練語料之間必然產(chǎn)生數(shù)據(jù)稀疏問題,導(dǎo)致零概率問題,符合經(jīng)典的zip'f定律。如IBM, Brown:366M英語語料訓(xùn)練trigram,在測試語料中,有14.7%的trigram和2.2%的bigram在訓(xùn)練語料中未出現(xiàn)。
數(shù)據(jù)稀疏問題定義:“The problem of data sparseness, also known as the zero-frequency problem arises when analyses contain configurations that never occurred in the training corpus. Then it is not possible to estimate probabilities from observed frequencies, and some other estimation scheme that can generalize (that configurations) from the training data has to be used. —— Dagan”。
人們?yōu)槔碚撃P蛯?shí)用化而進(jìn)行了眾多嘗試與努力,誕生了一系列經(jīng)典的平滑技術(shù),它們的基本思想是“降低已出現(xiàn)n-gram條件概率分布,以使未出現(xiàn)的n-gram條件概率分布非零”,且經(jīng)數(shù)據(jù)平滑后一定保證概率和為1,詳細(xì)如下:
Add-one(Laplace) Smoothing
加一平滑法,又稱拉普拉斯定律,其保證每個(gè)n-gram在訓(xùn)練語料中至少出現(xiàn)1次,以bigram為例,公式如下:
其中,V是所有bigram的個(gè)數(shù)。
承接上一節(jié)給的例子,經(jīng)Add-one Smoothing后,c(wi-1, wi)如下所示:
則bigram為:
在V >> c(wi-1)時(shí),即訓(xùn)練語料庫中絕大部分n-gram未出現(xiàn)的情況(一般都是如此),Add-one Smoothing后有些“喧賓奪主”的現(xiàn)象,效果不佳。那么,可以對(duì)該方法擴(kuò)展以緩解此問題,如Lidstone's Law,Jeffreys-Perks Law。
Good-Turing Smoothing
其基本思想是利用頻率的類別信息對(duì)頻率進(jìn)行平滑。調(diào)整出現(xiàn)頻率為c的n-gram頻率為c*:
但是,當(dāng)nr+1或者nr > nr+1時(shí),使得模型質(zhì)量變差,如下圖所示:
直接的改進(jìn)策略就是“對(duì)出現(xiàn)次數(shù)超過某個(gè)閾值的gram,不進(jìn)行平滑,閾值一般取8~10”,其他方法請(qǐng)參見“Simple Good-Turing”。
Interpolation Smoothing
不管是Add-one,還是Good Turing平滑技術(shù),對(duì)于未出現(xiàn)的n-gram都一視同仁,難免存在不合理(事件發(fā)生概率存在差別),所以這里再介紹一種線性插值平滑技術(shù),其基本思想是將高階模型和低階模型作線性組合,利用低元n-gram模型對(duì)高元n-gram模型進(jìn)行線性插值。因?yàn)樵跊]有足夠的數(shù)據(jù)對(duì)高元n-gram模型進(jìn)行概率估計(jì)時(shí),低元n-gram模型通常可以提供有用的信息。公式如下:
擴(kuò)展方式(上下文相關(guān))為:
λs可以通過EM算法來估計(jì),具體步驟如下:
首先,確定三種數(shù)據(jù):Training data、Held-out data和Test data;
然后,根據(jù)Training data構(gòu)造初始的語言模型,并確定初始的λs(如均為1);
最后,基于EM算法迭代地優(yōu)化λs,使得Held-out data概率(如下式)最大化。
Kneser-Ney Smoothing
Web-scale LMs
如Google N-gram語料庫,壓縮文件大小為27.9G,解壓后1T左右,面對(duì)如此龐大的語料資源,使用前一般需要先剪枝(Pruning)處理,縮小規(guī)模,如僅使用出現(xiàn)頻率大于threshold的n-gram,過濾高階的n-gram(如僅使用n<=3的資源),基于熵值剪枝,等等。
另外,在存儲(chǔ)優(yōu)化方面也需要做一些優(yōu)化,如使用trie數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),借助bloom filter輔助查詢,把string映射為int類型處理(基于huffman編碼、Varint等方法),float/double轉(zhuǎn)成int類型(如概率值精確到小數(shù)點(diǎn)后6位,然后乘10E6,即可將浮點(diǎn)數(shù)轉(zhuǎn)為整數(shù))。
2007年Google Inc.的Brants et al.提出了針對(duì)大規(guī)模n-gram的平滑技術(shù)——“Stupid Backoff”,公式如下:
數(shù)據(jù)平滑技術(shù)是構(gòu)造高魯棒性語言模型的重要手段,且數(shù)據(jù)平滑的效果與訓(xùn)練語料庫的規(guī)模有關(guān)。訓(xùn)練語料庫規(guī)模越小,數(shù)據(jù)平滑的效果越顯著;訓(xùn)練語料庫規(guī)模越大,數(shù)據(jù)平滑的效果越不顯著,甚至可以忽略不計(jì)——錦上添花。
5)語言模型變種
Class-based N-gram Model
該方法基于詞類建立語言模型,以緩解數(shù)據(jù)稀疏問題,且可以方便融合部分語法信息。
Topic-based N-gram Model
該方法將訓(xùn)練集按主題劃分成多個(gè)子集,并對(duì)每個(gè)子集分別建立N-gram語言模型,以解決語言模型的主題自適應(yīng)問題。架構(gòu)如下:
Cache-based N-gram Model
該方法利用cache緩存前一時(shí)刻的信息,以用于計(jì)算當(dāng)前時(shí)刻概率,以解決語言模型動(dòng)態(tài)自適應(yīng)問題。
-People tends to use words as few as possible in the article.
-If a word has been used, it would possibly be used again in the future.
架構(gòu)如下:
猜測這是目前QQ、搜狗、谷歌等智能拼音輸入法所采用策略,即針對(duì)用戶個(gè)性化輸入日志建立基于cache的語言模型,用于對(duì)通用語言模型輸出結(jié)果的調(diào)權(quán),實(shí)現(xiàn)輸入法的個(gè)性化、智能化。由于動(dòng)態(tài)自適應(yīng)模塊的引入,產(chǎn)品越用越智能,越用越好用,越用越上癮。
Skipping N-gram Model&Trigger-based N-gram Model
二者核心思想都是刻畫遠(yuǎn)距離約束關(guān)系。
指數(shù)語言模型:最大熵模型MaxEnt、最大熵馬爾科夫模型MEMM、條件隨機(jī)域模型CRF
傳統(tǒng)的n-gram語言模型,只是考慮了詞形方面的特征,而沒有詞性以及語義層面上的知識(shí),并且數(shù)據(jù)稀疏問題嚴(yán)重,經(jīng)典的平滑技術(shù)也都是從統(tǒng)計(jì)學(xué)角度解決,未考慮語法、語義等語言學(xué)作用。
MaxEnt、MEMM、CRF可以更好的融入多種知識(shí)源,刻畫語言序列特點(diǎn),較好的用于解決序列標(biāo)注問題。
四、如何搜索人工智能或者機(jī)器翻譯的內(nèi)容
1、首先打開瀏覽器進(jìn)入搜索欄。
2、其次在搜索欄中搜索人工智能或者機(jī)器翻譯的內(nèi)容。
3、最后點(diǎn)擊搜索進(jìn)入找到人工智能的選項(xiàng)即可。
以上就是關(guān)于人工智能與機(jī)器翻譯相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
人工智能會(huì)取代程序員嗎(人工智能會(huì)取代程序員嗎)
南昌大專單招學(xué)校(南昌大專單招學(xué)校有幼師專業(yè)的)