-
當前位置:首頁 > 創(chuàng)意學院 > 技術(shù) > 專題列表 > 正文
人工智能與機器翻譯(人工智能與機器翻譯PDF)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于人工智能與機器翻譯的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、1, 什么是人工智能
人工智能(計算機科學的一個分支)
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統(tǒng)的一門新的技術(shù)科學。 人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器,該領(lǐng)域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統(tǒng)的一門新的技術(shù)科學。人工智能從誕生以來,理論和技術(shù)日益成熟,應用領(lǐng)域也不斷擴大,但沒有一個統(tǒng)一的定義。
人工智能是對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。但是這種會自我思考的高級人工智能還需要科學理論和工程上的突破。
人工智能是一門極富挑戰(zhàn)性的科學,從事這項工作的人必須懂得計算機知識,心理學和哲學。人工智能是包括十分廣泛的科學,它由不同的領(lǐng)域組成,如機器學習,計算機視覺等等,總的說來,人工智能研究的一個主要目標是使機器能夠勝任一些通常需要人類智能才能完成的復雜工作。但不同的時代、不同的人對這種“復雜工作”的理解是不同的。
工智能的定義可以分為兩部分,即“人工”和“智能”?!叭斯ぁ北容^好理解,爭議性也不大。有時我們會要考慮什么是人力所能及制造的,或者人自身的智能程度有沒有高到可以創(chuàng)造人工智能的地步,等等。但總的來說,“人工系統(tǒng)”就是通常意義下的人工系統(tǒng)。
關(guān)于什么是“智能”,就問題多多了。這涉及到其它諸如意識(CONSCIOUSNESS)、自我(SELF)、思維(MIND)(包括無意識的思維(UNCONSCIOUS_MIND)等等問題。人唯一了解的智能是人本身的智能,這是普遍認同的觀點。但是我們對我們自身智能的理解都非常有限,對構(gòu)成人的智能的必要元素也了解有限,所以就很難定義什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及對人的智能本身的研究。其它關(guān)于動物或其它人造系統(tǒng)的智能也普遍被認為是人工智能相關(guān)的研究課題。
人工智能在計算機領(lǐng)域內(nèi),得到了愈加廣泛的重視。并在機器人,經(jīng)濟政治決策,控制系統(tǒng),仿真系統(tǒng)中得到應用。
人工智能機器人
著名的美國斯坦福大學人工智能研究中心尼爾遜教授對人工智能下了這樣一個定義:“人工智能是關(guān)于知識的學科――怎樣表示知識以及怎樣獲得知識并使用知識的科學?!倍硪粋€美國麻省理工學院的溫斯頓教授認為:“人工智能就是研究如何使計算機去做過去只有人才能做的智能工作。”這些說法反映了人工智能學科的基本思想和基本內(nèi)容。即人工智能是研究人類智能活動的規(guī)律,構(gòu)造具有一定智能的人工系統(tǒng),研究如何讓計算機去完成以往需要人的智力才能勝任的工作,也就是研究如何應用計算機的軟硬件來模擬人類某些智能行為的基本理論、方法和技術(shù)。
人工智能是計算機學科的一個分支,二十世紀七十年代以來被稱為世界三大尖端技術(shù)之一(空間技術(shù)、能源技術(shù)、人工智能)。也被認為是二十一世紀(基因工程、納米科學、人工智能)三大尖端技術(shù)之一。這是因為近三十年來它獲得了迅速的發(fā)展,在很多學科領(lǐng)域都獲得了廣泛應用,并取得了豐碩的成果,人工智能已逐步成為一個獨立的分支,無論在理論和實踐上都已自成一個系統(tǒng)。
人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規(guī)劃等)的學科,主要包括計算機實現(xiàn)智能的原理、制造類似于人腦智能的計算機,使計算機能實現(xiàn)更高層次的應用。人工智能將涉及到計算機科學、心理學、哲學和語言學等學科。可以說幾乎是自然科學和社會科學的所有學科,其范圍已遠遠超出了計算機科學的范疇,人工智能與思維科學的關(guān)系是實踐和理論的關(guān)系,人工智能是處于思維科學的技術(shù)應用層次,是它的一個應用分支。從思維觀點看,人工智能不僅限于邏輯思維,要考慮形象思維、靈感思維才能促進人工智能的突破性的發(fā)展,數(shù)學常被認為是多種學科的基礎(chǔ)科學,數(shù)學也進入語言、思維領(lǐng)域,人工智能學科也必須借用數(shù)學工具,數(shù)學不僅在標準邏輯、模糊數(shù)學等范圍發(fā)揮作用,數(shù)學進入人工智能學科,它們將互相促進而更快地發(fā)展。
2研究價值編輯
具有人工智能的機器人
例如繁重的科學和工程計算本來是要人腦來承擔的,如今計算機不但能完成這種計算,而且能夠比人腦做得更快、更準確,因此當代人已不再把這種計算看作是“需要人類智能才能完成的復雜任務(wù)”,可見復雜工作的定義是隨著時代的發(fā)展和技術(shù)的進步而變化的,人工智能這門科學的具體目標也自然隨著時代的變化而發(fā)展。它一方面不斷獲得新的進展,另一方面又轉(zhuǎn)向更有意義、更加困難的目標。
通常,“機器學習”的數(shù)學基礎(chǔ)是“統(tǒng)計學”、“信息論”和“控制論”。還包括其他非數(shù)學學科。這類“機器學習”對“經(jīng)驗”的依賴性很強。計算機需要不斷從解決一類問題的經(jīng)驗中獲取知識,學習策略,在遇到類似的問題時,運用經(jīng)驗知識解決問題并積累新的經(jīng)驗,就像普通人一樣。我們可以將這樣的學習方式稱之為“連續(xù)型學習”。但人類除了會從經(jīng)驗中學習之外,還會創(chuàng)造,即“跳躍型學習”。這在某些情形下被稱為“靈感”或“頓悟”。一直以來,計算機最難學會的就是“頓悟”?;蛘咴賴栏褚恍﹣碚f,計算機在學習和“實踐”方面難以學會“不依賴于量變的質(zhì)變”,很難從一種“質(zhì)”直接到另一種“質(zhì)”,或者從一個“概念”直接到另一個“概念”。正因為如此,這里的“實踐”并非同人類一樣的實踐。人類的實踐過程同時包括經(jīng)驗和創(chuàng)造。[1]
這是智能化研究者夢寐以求的東西。
2013年,帝金數(shù)據(jù)普數(shù)中心數(shù)據(jù)研究員S.C WANG開發(fā)了一種新的數(shù)據(jù)分析方法,該方法導出了研究函數(shù)性質(zhì)的新方法。作者發(fā)現(xiàn),新數(shù)據(jù)分析方法給計算機學會“創(chuàng)造”提供了一種方法。本質(zhì)上,這種方法為人的“創(chuàng)造力”的模式化提供了一種相當有效的途徑。這種途徑是數(shù)學賦予的,是普通人無法擁有但計算機可以擁有的“能力”。從此,計算機不僅精于算,還會因精于算而精于創(chuàng)造。計算機學家們應該斬釘截鐵地剝奪“精于創(chuàng)造”的計算機過于全面的操作能力,否則計算機真的有一天會“反捕”人類。[1]
當回頭審視新方法的推演過程和數(shù)學的時候,作者拓展了對思維和數(shù)學的認識。數(shù)學簡潔,清晰,可靠性、模式化強。在數(shù)學的發(fā)展史上,處處閃耀著數(shù)學大師們創(chuàng)造力的光輝。這些創(chuàng)造力以各種數(shù)學定理或結(jié)論的方式呈現(xiàn)出來,而數(shù)學定理最大的特點就是:建立在一些基本的概念和公理上,以模式化的語言方式表達出來的包含豐富信息的邏輯結(jié)構(gòu)。應該說,數(shù)學是最單純、最直白地反映著(至少一類)創(chuàng)造力模式的學科。[1]
3科學介紹編輯
實際應用
機器視覺:機器視覺,指紋識別,人臉識別,視網(wǎng)膜識別,虹膜識別,掌紋識別,專家系統(tǒng),自動規(guī)劃,智能搜索,定理證明,博弈,自動程序設(shè)計,智能控制,機器人學,語言和圖像理解,遺傳編程等。
學科范疇
人工智能是一門邊沿學科,屬于自然科學和社會科學的交叉。
涉及學科
哲學和認知科學,數(shù)學,神經(jīng)生理學,心理學,計算機科學,信息論,控制論,不定性論
研究范疇
自然語言處理,知識表現(xiàn),智能搜索,推理,規(guī)劃,機器學習,知識獲取,組合調(diào)度問題,感知問題,模式識別,邏輯程序設(shè)計軟計算,不精確和不確定的管理,人工生命,神經(jīng)網(wǎng)絡(luò),復雜系統(tǒng),遺傳算法
意識和人工智能
人工智能就其本質(zhì)而言,是對人的思維的信息過程的模擬。
對于人的思維模擬可以從兩條道路進行,一是結(jié)構(gòu)模擬,仿照人腦的結(jié)構(gòu)機制,制造出“類人腦”的機器;二是功能模擬,暫時撇開人腦的內(nèi)部結(jié)構(gòu),而從其功能過程進行模擬。現(xiàn)代電子計算機的產(chǎn)生便是對人腦思維功能的模擬,是對人腦思維的信息過程的模擬。
弱人工智能如今不斷地迅猛發(fā)展,尤其是2008年經(jīng)濟危機后,美日歐希望借機器人等實現(xiàn)再工業(yè)化,工業(yè)機器人以比以往任何時候更快的速度發(fā)展,更加帶動了弱人工智能和相關(guān)領(lǐng)域產(chǎn)業(yè)的不斷突破,很多必須用人來做的工作如今已經(jīng)能用機器人實現(xiàn)。
而強人工智能則暫時處于瓶頸,還需要科學家們和人類的努力。
4發(fā)展階段編輯
1956年夏季,以麥卡賽、明斯基、羅切斯特和申農(nóng)等為首的一批有遠見卓識的年輕科學家在一起聚會,共同研究和探討用機器模擬智能的一系列有關(guān)問題,并首次提出了“人工智能”這一術(shù)語,它標志著“人工智能”這門新興學科的正式誕生。IBM公司“深藍”電腦擊敗了人類的世界國際象棋冠軍更是人工智能技術(shù)的一個完美表現(xiàn)。
從1956年正式提出人工智能學科算起,50多年來,取得長足的發(fā)展,成為一門廣泛的交叉和前沿科學。總的說來,人工智能的目的就是讓計算機這臺機器能夠像人一樣思考。如果希望做出一臺能夠思考的機器,那就必須知道什么是思考,更進一步講就是什么是智慧。什么樣的機器才是智慧的呢?科學家已經(jīng)作出了汽車,火車,飛機,收音機等等,它們模仿我們身體器官的功能,但是能不能模仿人類大腦的功能呢?到目前為止,我們也僅僅知道這個裝在我們天靈蓋里面的東西是由數(shù)十億個神經(jīng)細胞組成的器官,我們對這個東西知之甚少,模仿它或許是天下最困難的事情了。
當計算機出現(xiàn)后,人類開始真正有了一個可以模擬人類思維的工具,在以后的歲月中,無數(shù)科學家為這個目標努力著。如今人工智能已經(jīng)不再是幾個科學家的專利了,全世界幾乎所有大學的計算機系都有人在研究這門學科,學習計算機的大學生也必須學習這樣一門課程,在大家不懈的努力下,如今計算機似乎已經(jīng)變得十分聰明了。例如,1997年5月,IBM公司研制的深藍(DEEP BLUE)計算機戰(zhàn)勝了國際象棋大師卡斯帕洛夫(KASPAROV)。大家或許不會注意到,在一些地方計算機幫助人進行其它原來只屬于人類的工作,計算機以它的高速和準確為人類發(fā)揮著它的作用。人工智能始終是計算機科學的前沿學科,計算機編程語言和其它計算機軟件都因為有了人工智能的進展而得以存在。
5技術(shù)研究編輯
用來研究人工智能的主要物質(zhì)基礎(chǔ)以及能夠?qū)崿F(xiàn)人工智能技術(shù)平臺的機器就是計算機,人工智能的發(fā)展歷史是和計算機科學技術(shù)的發(fā)展史聯(lián)系在一起的。除了計算機科學以外,人工智能還涉及信息論、控制論、自動化、仿生學、生物學、心理學、數(shù)理邏輯、語言學、醫(yī)學和哲學等多門學科。人工智能學科研究的主要內(nèi)容包括:知識表示、自動推理和搜索方法、機器學習和知識獲取、知識處理系統(tǒng)、自然語言理解、計算機視覺、智能機器人、自動程序設(shè)計等方面。
人工智能技術(shù)研究 ARTIFICIAL INTELLIGENCE AND ROBOTICS RESEARCH 是一本關(guān)注人工智能與機器人研究領(lǐng)域最新進展的國際中文期刊,由漢斯出版社發(fā)行,本刊支持思想創(chuàng)新、學術(shù)創(chuàng)新,倡導科學,繁榮學術(shù),集學術(shù)性、思想性為一體,旨在為了給世界范圍內(nèi)的科學家、學者、科研人員提供一個傳播、分享和討論人工智能與機器人研究領(lǐng)域內(nèi)不同方向問題與發(fā)展的交流平臺。
研究領(lǐng)域
人工智能技術(shù)研究
智能機器人
模式識別與智能系統(tǒng)
虛擬現(xiàn)實技術(shù)與應用
系統(tǒng)仿真技術(shù)與應用
工業(yè)過程建模與智能控制
智能計算與機器博弈
人工智能理論
語音識別與合成
機器翻譯
圖像處理與計算機視覺
計算機感知
計算機神經(jīng)網(wǎng)絡(luò)
知識發(fā)現(xiàn)與機器學習
建筑智能化技術(shù)與應用
人工智能其他學科
研究方法
如今沒有統(tǒng)一的原理或范式指導人工智能研究。許多問題上研究者都存在爭論。其中幾個長久以來仍沒有結(jié)論的問題是:是否應從心理或神經(jīng)方面模擬人工智能?或者像鳥類生物學對于航空工程一樣,人類生物學對于人工智能研究是沒有關(guān)系的?智能行為能否用簡單的原則(如邏輯或優(yōu)化)來描述?還是必須解決大量完全無關(guān)的問題?
智能是否可以使用高級符號表達,如詞和想法?還是需要“子符號”的處理?JOHN HAUGELAND提出了GOFAI(出色的老式人工智能)的概念,也提議人工智能應歸類為SYNTHETIC INTELLIGENCE,[29]這個概念后來被某些非GOFAI研究者采納。
大腦模擬
主條目:控制論和計算神經(jīng)科學
20世紀40年代到50年代,許多研究者探索神經(jīng)病學,信息理論及控制論之間的聯(lián)系。其中還造出一些使用電子網(wǎng)絡(luò)構(gòu)造的初步智能,如W. GREY WALTER的TURTLES和JOHNS HOPKINS BEAST。 這些研究者還經(jīng)常在普林斯頓大學和英國的RATIO CLUB舉行技術(shù)協(xié)會會議.直到1960, 大部分人已經(jīng)放棄這個方法,盡管在80年代再次提出這些原理。
符號處理
主條目:GOFAI
當20世紀50年代,數(shù)字計算機研制成功,研究者開始探索人類智能是否能簡化成符號處理。研究主要集中在卡內(nèi)基梅隆大學, 斯坦福大學和麻省理工學院,而各自有獨立的研究風格。JOHN HAUGELAND稱這些方法為GOFAI(出色的老式人工智能)。[33] 60年代,符號方法在小型證明程序上模擬高級思考有很大的成就。基于控制論或神經(jīng)網(wǎng)絡(luò)的方法則置于次要。[34] 60~70年代的研究者確信符號方法最終可以成功創(chuàng)造強人工智能的機器,同時這也是他們的目標。
認知模擬經(jīng)濟學家赫伯特·西蒙和艾倫·紐厄爾研究人類問題解決能力和嘗試將其形式化,同時他們?yōu)槿斯ぶ悄艿幕驹泶蛳禄A(chǔ),如認知科學, 運籌學和經(jīng)營科學。他們的研究團隊使用心理學實驗的結(jié)果開發(fā)模擬人類解決問題方法的程序。這方法一直在卡內(nèi)基梅隆大學沿襲下來,并在80年代于SOAR發(fā)展到高峰。基于邏輯不像艾倫·紐厄爾和赫伯特·西蒙,JOHN MCCARTHY認為機器不需要模擬人類的思想,而應嘗試找到抽象推理和解決問題的本質(zhì),不管人們是否使用同樣的算法。他在斯坦福大學的實驗室致力于使用形式化邏輯解決多種問題,包括知識表示, 智能規(guī)劃和機器學習. 致力于邏輯方法的還有愛丁堡大學,而促成歐洲的其他地方開發(fā)編程語言PROLOG和邏輯編程科學.“反邏輯”斯坦福大學的研究者 (如馬文·閔斯基和西摩爾·派普特)發(fā)現(xiàn)要解決計算機視覺和自然語言處理的困難問題,需要專門的方案-他們主張不存在簡單和通用原理(如邏輯)能夠達到所有的智能行為。ROGER SCHANK 描述他們的“反邏輯”方法為 "SCRUFFY" .常識知識庫 (如DOUG LENAT的CYC)就是"SCRUFFY"AI的例子,因為他們必須人工一次編寫一個復雜的概念?;谥R大約在1970年出現(xiàn)大容量內(nèi)存計算機,研究者分別以三個方法開始把知識構(gòu)造成應用軟件。這場“知識革命”促成專家系統(tǒng)的開發(fā)與計劃,這是第一個成功的人工智能軟件形式?!爸R革命”同時讓人們意識到許多簡單的人工智能軟件可能需要大量的知識。
子符號法
80年代符號人工智能停滯不前,很多人認為符號系統(tǒng)永遠不可能模仿人類所有的認知過程,特別是感知,機器人,機器學習和模式識別。很多研究者開始關(guān)注子符號方法解決特定的人工智能問題。
自下而上, 接口AGENT,嵌入環(huán)境(機器人),行為主義,新式AI機器人領(lǐng)域相關(guān)的研究者,如RODNEY BROOKS,否定符號人工智能而專注于機器人移動和求生等基本的工程問題。他們的工作再次關(guān)注早期控制論研究者的觀點,同時提出了在人工智能中使用控制理論。這與認知科學領(lǐng)域中的表征感知論點是一致的:更高的智能需要個體的表征(如移動,感知和形象)。計算智能80年代中DAVID RUMELHART 等再次提出神經(jīng)網(wǎng)絡(luò)和聯(lián)結(jié)主義. 這和其他的子符號方法,如模糊控制和進化計算,都屬于計算智能學科研究范疇。
統(tǒng)計學法
90年代,人工智能研究發(fā)展出復雜的數(shù)學工具來解決特定的分支問題。這些工具是真正的科學方法,即這些方法的結(jié)果是可測量的和可驗證的,同時也是人工智能成功的原因。共用的數(shù)學語言也允許已有學科的合作(如數(shù)學,經(jīng)濟或運籌學)。STUART J. RUSSELL和PETER NORVIG指出這些進步不亞于“革命”和“NEATS的成功”。有人批評這些技術(shù)太專注于特定的問題,而沒有考慮長遠的強人工智能目標。
集成方法
智能AGENT范式智能AGENT是一個會感知環(huán)境并作出行動以達致目標的系統(tǒng)。最簡單的智能AGENT是那些可以解決特定問題的程序。更復雜的AGENT包括人類和人類組織(如公司)。這些范式可以讓研究者研究單獨的問題和找出有用且可驗證的方案,而不需考慮單一的方法。一個解決特定問題的AGENT可以使用任何可行的方法-一些AGENT用符號方法和邏輯方法,一些則是子符號神經(jīng)網(wǎng)絡(luò)或其他新的方法。范式同時也給研究者提供一個與其他領(lǐng)域溝通的共同語言--如決策論和經(jīng)濟學(也使用ABSTRACT AGENTS的概念)。90年代智能AGENT范式被廣泛接受。AGENT體系結(jié)構(gòu)和認知體系結(jié)構(gòu)研究者設(shè)計出一些系統(tǒng)來處理多ANGENT系統(tǒng)中智能AGENT之間的相互作用。一個系統(tǒng)中包含符號和子符號部分的系統(tǒng)稱為混合智能系統(tǒng) ,而對這種系統(tǒng)的研究則是人工智能系統(tǒng)集成。分級控制系統(tǒng)則給反應級別的子符號AI 和最高級別的傳統(tǒng)符號AI提供橋梁,同時放寬了規(guī)劃和世界建模的時間。RODNEY BROOKS的SUBSUMPTION ARCHITECTURE就是一個早期的分級系統(tǒng)計劃。
智能模擬
機器視、聽、觸、感覺及思維方式的模擬:指紋識別,人臉識別,視網(wǎng)膜識別,虹膜識別,掌紋識別,專家系統(tǒng),智能搜索,定理證明,邏輯推理,博弈,信息感應與辨證處理。
學科范疇
人工智能是一門邊沿學科,屬于自然科學、社會科學、技術(shù)科學三向交叉學科。
涉及學科
哲學和認知科學,數(shù)學,神經(jīng)生理學,心理學,計算機科學,信息論,控制論,不定性論,仿生學,社會結(jié)構(gòu)學與科學發(fā)展觀。
研究范疇
語言的學習與處理,知識表現(xiàn),智能搜索,推理,規(guī)劃,機器學習,知識獲取,組合調(diào)度問題,感知問題,模式識別,邏輯程序設(shè)計,軟計算,不精確和不確定的管理,人工生命,神經(jīng)網(wǎng)絡(luò),復雜系統(tǒng),遺傳算法人類思維方式,最關(guān)鍵的難題還是機器的自主創(chuàng)造性思維能力的塑造與提升。
應用領(lǐng)域
機器翻譯,智能控制,專家系統(tǒng),機器人學,語言和圖像理解,遺傳編程機器人工廠,自動程序設(shè)計,航天應用,龐大的信息處理,儲存與管理,執(zhí)行化合生命體無法執(zhí)行的或復雜或規(guī)模龐大的任務(wù)等等。
值得一提的是,機器翻譯是人工智能的重要分支和最先應用領(lǐng)域。不過就已有的機譯成就來看,機譯系統(tǒng)的譯文質(zhì)量離終極目標仍相差甚遠;而機譯質(zhì)量是機譯系統(tǒng)成敗的關(guān)鍵。中國數(shù)學家、語言學家周海中教授曾在論文《機器翻譯五十年》中指出:要提高機譯的質(zhì)量,首先要解決的是語言本身問題而不是程序設(shè)計問題;單靠若干程序來做機譯系統(tǒng),肯定是無法提高機譯質(zhì)量的;另外在人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能的。
安全問題
人工智能還在研究中,但有學者認為讓計算機擁有智商是很危險的,它可能會反抗人類。這種隱患也在多部電影中發(fā)生過,其主要的關(guān)鍵是允不允許機器擁有自主意識的產(chǎn)生與延續(xù),如果使機器擁有自主意識,則意味著機器具有與人同等或類似的創(chuàng)造性,自我保護意識,情感和自發(fā)行為。
實現(xiàn)方法
人工智能在計算機上實現(xiàn)時有2種不同的方式。一種是采用傳統(tǒng)的編程技術(shù),使系統(tǒng)呈現(xiàn)智能的效果,而不考慮所用方法是否與人或動物機體所用的方法相同。這種方法叫工程學方法(ENGINEERING APPROACH),它已在一些領(lǐng)域內(nèi)作出了成果,如文字識別、電腦下棋等。另一種是模擬法(MODELING APPROACH),它不僅要看效果,還要求實現(xiàn)方法也和人類或生物機體所用的方法相同或相類似。遺傳算法(GENERIC ALGORITHM,簡稱GA)和人工神經(jīng)網(wǎng)絡(luò)(ARTIFICIAL NEURAL NETWORK,簡稱ANN)均屬后一類型。遺傳算法模擬人類或生物的遺傳-進化機制,人工神經(jīng)網(wǎng)絡(luò)則是模擬人類或動物大腦中神經(jīng)細胞的活動方式。為了得到相同智能效果,兩種方式通常都可使用。采用前一種方法,需要人工詳細規(guī)定程序邏輯,如果游戲簡單,還是方便的。如果游戲復雜,角色數(shù)量和活動空間增加,相應的邏輯就會很復雜(按指數(shù)式增長),人工編程就非常繁瑣,容易出錯。而一旦出錯,就必須修改原程序,重新編譯、調(diào)試,最后為用戶提供一個新的版本或提供一個新補丁,非常麻煩。采用后一種方法時,編程者要為每一角色設(shè)計一個智能系統(tǒng)(一個模塊)來進行控制,這個智能系統(tǒng)(模塊)開始什么也不懂,就像初生嬰兒那樣,但它能夠?qū)W習,能漸漸地適應環(huán)境,應付各種復雜情況。這種系統(tǒng)開始也常犯錯誤,但它能吸取教訓,下一次運行時就可能改正,至少不會永遠錯下去,用不到發(fā)布新版本或打補丁。利用這種方法來實現(xiàn)人工智能,要求編程者具有生物學的思考方法,入門難度大一點。但一旦入了門,就可得到廣泛應用。由于這種方法編程時無須對角色的活動規(guī)律做詳細規(guī)定,應用于復雜問題,通常會比前一種方法更省力。
二、為什么我們?nèi)匀恍枰斯しg
1995年,馬云應好友相邀去了一趟美國,回來之后他決定做互聯(lián)網(wǎng)。彼時的國人,對于互聯(lián)網(wǎng)尚無概念,他邀請了24個朋友在家里給大家講了兩個小時,結(jié)果沒人能聽懂他在說什么,同一時間在地球的另一端,一個叫比爾·蓋茨的人因為個人PC業(yè)務(wù)的持續(xù)增加,正被越來越多的人所熟知。于是馬云做出了大膽的預測:互聯(lián)網(wǎng)將改變?nèi)祟惿畹姆椒矫婷妗?2年后,在2007年4月的微軟亞洲政府領(lǐng)導人論壇上,蓋茨告訴全世界,互聯(lián)網(wǎng)正在改變?nèi)藗兊纳?。蓋茨或許并不知道,關(guān)于互聯(lián)網(wǎng)的影響力,一個自信滿滿的中國人多年前已作出判言。
在互聯(lián)網(wǎng)的世界里,不再有山脈、海洋、國界的物理阻隔,人跟人之間的交流的唯一障礙只剩下文化和語言。通過互聯(lián)網(wǎng)你可以在一小時、30分鐘、10分鐘之內(nèi)知道全國乃至全世界發(fā)生的事情,通過互聯(lián)網(wǎng)你可以足不出戶點餐、購物、娛樂甚至工作,互聯(lián)網(wǎng)改變的不僅僅是生活習慣,消費習慣、娛樂方式,真真切切的改變了人類生活的方方面面。
很多人可能會問,人工翻譯跟互聯(lián)網(wǎng)有啥關(guān)系,凈說寫沒用的,這里就要引出我們下一個主角“人工智能”,得益于互聯(lián)網(wǎng)的普及,全球數(shù)十億人在互聯(lián)網(wǎng)上購物、娛樂,產(chǎn)生了海量的用戶數(shù)據(jù),這些數(shù)據(jù)讓過去發(fā)展陷入瓶頸的機器學習重新煥發(fā)出新的生命力,通過不斷優(yōu)化機器學習的算法,海量數(shù)據(jù)交由計算機處理學習,如果打個比方的話,數(shù)據(jù)和算法之于計算機好比閱歷和智商之于人類,豐富的閱歷所獲得的智慧不是小聰明所能比擬的,AlphaGo與自己對弈了數(shù)千萬局才達到如今的棋力,而和它對陣的李世石和柯潔,終其一生不吃不喝的去對弈,所能達到的數(shù)目也不及電腦的百分之一。
機器翻譯的概念提出甚至早于人工智能,語言作為人與人之間溝通的唯一障礙,無數(shù)仁人志士傾其一生都在研究如何打破這道枷鎖,互聯(lián)網(wǎng)、人工智能的出現(xiàn)為翻譯提供了新的契機,谷歌利用了業(yè)內(nèi)最強的硬件配置和集群計算環(huán)境,整合了近幾年神經(jīng)網(wǎng)絡(luò)機器翻譯的成果,做出了自己的神經(jīng)機器翻譯系統(tǒng)—Google翻譯,目前谷歌翻譯可提供103中語言之間的即時翻譯。中國的互聯(lián)網(wǎng)巨頭們,得益于中國海量的人口基數(shù),誕生出海量的可供機器學習的語言數(shù)據(jù),包括華為、百度、科大訊飛、搜狗等都推出了自己的人工智能翻譯軟件。
雖然近幾年機器翻譯取得了長足的進步,但是作為人類智慧結(jié)晶的“語言”,其復雜程度不僅僅是是詞、字的直接轉(zhuǎn)化,更涉及語句背后人類復雜的語境語義問題,這樣復雜的轉(zhuǎn)化不是短時間可以實現(xiàn)的。比如在簡單的技術(shù)文檔上,一些機器翻譯軟件可以快速而準確的翻譯,但是如果涉及到具有一定文學性、或需要專業(yè)背景的材料,機器翻譯就顯得捉襟見肘,翻譯出的文件不僅詞不達意甚至可以說漏洞百出。
隨著互聯(lián)網(wǎng)的普及、接踵而至的大數(shù)據(jù)、人工智能、5G,人類社會正迎來一次新的技術(shù)革命,我們每個人都在經(jīng)歷著“百年未有之大變局”,人工翻譯公司在可以預見的未來還會存在較長的時間,機器翻譯不會完全取代人工,未來的世界是人與機器共存的時代,機器翻譯軟件將會以工具的方式,幫助我們譯員來實現(xiàn)更高效率的翻譯工作。
三、人工智能與機器翻譯 和 自然語言處理 哪個方向更火
一、課程介紹
斯坦福大學于2012年3月在Coursera啟動了在線自然語言處理課程,由NLP領(lǐng)域大牛Dan Jurafsky 和 Chirs Manning教授授課:
https://class.coursera.org/nlp/
以下是本課程的學習筆記,以課程PPT/PDF為主,其他參考資料為輔,融入個人拓展、注解,拋磚引玉,歡迎大家在“我愛公開課”上一起探討學習。
課件匯總下載地址:斯坦福大學自然語言處理公開課課件匯總
二、語言模型(Language Model)
1)N-gram介紹
在實際應用中,我們經(jīng)常需要解決這樣一類問題:如何計算一個句子的概率?如:
機器翻譯:P(high winds tonite) > P(large winds tonite)
拼寫糾錯:P(about fifteen minutes from) > P(about fifteenminuets from)
語音識別:P(I saw a van) >> P(eyes awe of an)
音字轉(zhuǎn)換:P(你現(xiàn)在干什么|nixianzaiganshenme) > P(你西安在干什么|nixianzaiganshenme)
自動文摘、問答系統(tǒng)、... ...
以上問題的形式化表示如下:
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)//鏈規(guī)則
p(S)被稱為語言模型,即用來計算一個句子概率的模型。
那么,如何計算p(wi|w1,w2,...,wi-1)呢?最簡單、直接的方法是直接計數(shù)做除法,如下:
p(wi|w1,w2,...,wi-1) = p(w1,w2,...,wi-1,wi) / p(w1,w2,...,wi-1)
但是,這里面臨兩個重要的問題:數(shù)據(jù)稀疏嚴重;參數(shù)空間過大,無法實用。
基于馬爾科夫假設(shè)(Markov Assumption):下一個詞的出現(xiàn)僅依賴于它前面的一個或幾個詞。
假設(shè)下一個詞的出現(xiàn)依賴它前面的一個詞,則有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1) // bigram
假設(shè)下一個詞的出現(xiàn)依賴它前面的兩個詞,則有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2) // trigram
那么,我們在面臨實際問題時,如何選擇依賴詞的個數(shù),即n。
更大的n:對下一個詞出現(xiàn)的約束信息更多,具有更大的辨別力;
更小的n:在訓練語料庫中出現(xiàn)的次數(shù)更多,具有更可靠的統(tǒng)計信息,具有更高的可靠性。
理論上,n越大越好,經(jīng)驗上,trigram用的最多,盡管如此,原則上,能用bigram解決,絕不使用trigram。
2)構(gòu)造語言模型
通常,通過計算最大似然估計(Maximum Likelihood Estimate)構(gòu)造語言模型,這是對訓練數(shù)據(jù)的最佳估計,公式如下:
p(w1|wi-1) = count(wi1-, wi) / count(wi-1)
如給定句子集“<s> I am Sam </s>
<s> Sam I am </s>
<s> I do not like green eggs and ham </s>”
部分bigram語言模型如下所示:
c(wi)如下:
c(wi-1,wi)如下:
則bigram為:
那么,句子“<s> I want english food </s>”的概率為:
p(<s> I want english food </s>)=p(I|<s>)
× P(want|I)
× P(english|want)
× P(food|english)
× P(</s>|food)
= .000031
為了避免數(shù)據(jù)溢出、提高性能,通常會使用取log后使用加法運算替代乘法運算。
log(p1*p2*p3*p4) = log(p1) + log(p2) + log(p3) + log(p4)
推薦開源語言模型工具:
SRILM(http://www.speech.sri.com/projects/srilm/)
IRSTLM(http://hlt.fbk.eu/en/irstlm)
MITLM(http://code.google.com/p/mitlm/)
BerkeleyLM(http://code.google.com/p/berkeleylm/)
推薦開源n-gram數(shù)據(jù)集:
Google Web1T5-gram(http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html)
Total number of tokens: 1,306,807,412,486
Total number of sentences: 150,727,365,731
Total number of unigrams: 95,998,281
Total number of bigrams: 646,439,858
Total number of trigrams: 1,312,972,925
Total number of fourgrams: 1,396,154,236
Total number of fivegrams: 1,149,361,413
Total number of n-grams: 4,600,926,713
Google Book N-grams(http://books.google.com/ngrams/)
Chinese Web 5-gram(http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2010T06)
3)語言模型評價
語言模型構(gòu)造完成后,如何確定好壞呢? 目前主要有兩種評價方法:
實用方法:通過查看該模型在實際應用(如拼寫檢查、機器翻譯)中的表現(xiàn)來評價,優(yōu)點是直觀、實用,缺點是缺乏針對性、不夠客觀;
理論方法:迷惑度/困惑度/混亂度(preplexity),其基本思想是給測試集賦予較高概率值的語言模型較好,公式如下:
由公式可知,迷惑度越小,句子概率越大,語言模型越好。使用《華爾街日報》訓練數(shù)據(jù)規(guī)模為38million words構(gòu)造n-gram語言模型,測試集規(guī)模為1.5million words,迷惑度如下表所示:
4)數(shù)據(jù)稀疏與平滑技術(shù)
大規(guī)模數(shù)據(jù)統(tǒng)計方法與有限的訓練語料之間必然產(chǎn)生數(shù)據(jù)稀疏問題,導致零概率問題,符合經(jīng)典的zip'f定律。如IBM, Brown:366M英語語料訓練trigram,在測試語料中,有14.7%的trigram和2.2%的bigram在訓練語料中未出現(xiàn)。
數(shù)據(jù)稀疏問題定義:“The problem of data sparseness, also known as the zero-frequency problem arises when analyses contain configurations that never occurred in the training corpus. Then it is not possible to estimate probabilities from observed frequencies, and some other estimation scheme that can generalize (that configurations) from the training data has to be used. —— Dagan”。
人們?yōu)槔碚撃P蛯嵱没M行了眾多嘗試與努力,誕生了一系列經(jīng)典的平滑技術(shù),它們的基本思想是“降低已出現(xiàn)n-gram條件概率分布,以使未出現(xiàn)的n-gram條件概率分布非零”,且經(jīng)數(shù)據(jù)平滑后一定保證概率和為1,詳細如下:
Add-one(Laplace) Smoothing
加一平滑法,又稱拉普拉斯定律,其保證每個n-gram在訓練語料中至少出現(xiàn)1次,以bigram為例,公式如下:
其中,V是所有bigram的個數(shù)。
承接上一節(jié)給的例子,經(jīng)Add-one Smoothing后,c(wi-1, wi)如下所示:
則bigram為:
在V >> c(wi-1)時,即訓練語料庫中絕大部分n-gram未出現(xiàn)的情況(一般都是如此),Add-one Smoothing后有些“喧賓奪主”的現(xiàn)象,效果不佳。那么,可以對該方法擴展以緩解此問題,如Lidstone's Law,Jeffreys-Perks Law。
Good-Turing Smoothing
其基本思想是利用頻率的類別信息對頻率進行平滑。調(diào)整出現(xiàn)頻率為c的n-gram頻率為c*:
但是,當nr+1或者nr > nr+1時,使得模型質(zhì)量變差,如下圖所示:
直接的改進策略就是“對出現(xiàn)次數(shù)超過某個閾值的gram,不進行平滑,閾值一般取8~10”,其他方法請參見“Simple Good-Turing”。
Interpolation Smoothing
不管是Add-one,還是Good Turing平滑技術(shù),對于未出現(xiàn)的n-gram都一視同仁,難免存在不合理(事件發(fā)生概率存在差別),所以這里再介紹一種線性插值平滑技術(shù),其基本思想是將高階模型和低階模型作線性組合,利用低元n-gram模型對高元n-gram模型進行線性插值。因為在沒有足夠的數(shù)據(jù)對高元n-gram模型進行概率估計時,低元n-gram模型通常可以提供有用的信息。公式如下:
擴展方式(上下文相關(guān))為:
λs可以通過EM算法來估計,具體步驟如下:
首先,確定三種數(shù)據(jù):Training data、Held-out data和Test data;
然后,根據(jù)Training data構(gòu)造初始的語言模型,并確定初始的λs(如均為1);
最后,基于EM算法迭代地優(yōu)化λs,使得Held-out data概率(如下式)最大化。
Kneser-Ney Smoothing
Web-scale LMs
如Google N-gram語料庫,壓縮文件大小為27.9G,解壓后1T左右,面對如此龐大的語料資源,使用前一般需要先剪枝(Pruning)處理,縮小規(guī)模,如僅使用出現(xiàn)頻率大于threshold的n-gram,過濾高階的n-gram(如僅使用n<=3的資源),基于熵值剪枝,等等。
另外,在存儲優(yōu)化方面也需要做一些優(yōu)化,如使用trie數(shù)據(jù)結(jié)構(gòu)存儲,借助bloom filter輔助查詢,把string映射為int類型處理(基于huffman編碼、Varint等方法),float/double轉(zhuǎn)成int類型(如概率值精確到小數(shù)點后6位,然后乘10E6,即可將浮點數(shù)轉(zhuǎn)為整數(shù))。
2007年Google Inc.的Brants et al.提出了針對大規(guī)模n-gram的平滑技術(shù)——“Stupid Backoff”,公式如下:
數(shù)據(jù)平滑技術(shù)是構(gòu)造高魯棒性語言模型的重要手段,且數(shù)據(jù)平滑的效果與訓練語料庫的規(guī)模有關(guān)。訓練語料庫規(guī)模越小,數(shù)據(jù)平滑的效果越顯著;訓練語料庫規(guī)模越大,數(shù)據(jù)平滑的效果越不顯著,甚至可以忽略不計——錦上添花。
5)語言模型變種
Class-based N-gram Model
該方法基于詞類建立語言模型,以緩解數(shù)據(jù)稀疏問題,且可以方便融合部分語法信息。
Topic-based N-gram Model
該方法將訓練集按主題劃分成多個子集,并對每個子集分別建立N-gram語言模型,以解決語言模型的主題自適應問題。架構(gòu)如下:
Cache-based N-gram Model
該方法利用cache緩存前一時刻的信息,以用于計算當前時刻概率,以解決語言模型動態(tài)自適應問題。
-People tends to use words as few as possible in the article.
-If a word has been used, it would possibly be used again in the future.
架構(gòu)如下:
猜測這是目前QQ、搜狗、谷歌等智能拼音輸入法所采用策略,即針對用戶個性化輸入日志建立基于cache的語言模型,用于對通用語言模型輸出結(jié)果的調(diào)權(quán),實現(xiàn)輸入法的個性化、智能化。由于動態(tài)自適應模塊的引入,產(chǎn)品越用越智能,越用越好用,越用越上癮。
Skipping N-gram Model&Trigger-based N-gram Model
二者核心思想都是刻畫遠距離約束關(guān)系。
指數(shù)語言模型:最大熵模型MaxEnt、最大熵馬爾科夫模型MEMM、條件隨機域模型CRF
傳統(tǒng)的n-gram語言模型,只是考慮了詞形方面的特征,而沒有詞性以及語義層面上的知識,并且數(shù)據(jù)稀疏問題嚴重,經(jīng)典的平滑技術(shù)也都是從統(tǒng)計學角度解決,未考慮語法、語義等語言學作用。
MaxEnt、MEMM、CRF可以更好的融入多種知識源,刻畫語言序列特點,較好的用于解決序列標注問題。
四、如何搜索人工智能或者機器翻譯的內(nèi)容
1、首先打開瀏覽器進入搜索欄。
2、其次在搜索欄中搜索人工智能或者機器翻譯的內(nèi)容。
3、最后點擊搜索進入找到人工智能的選項即可。
以上就是關(guān)于人工智能與機器翻譯相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀: