-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
模型算法有哪些
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于模型算法有哪些的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
ChatGPT國內(nèi)免費在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、常見的分類算法有哪些
常見的分類算法:
1、決策樹:決策樹是一種用于對實例進(jìn)行分類的樹形結(jié)構(gòu)。一種依托于策略抉擇而建立起來的樹。決策樹由節(jié)點(node)和有向邊(directed edge)組成。節(jié)點的類型有兩種:內(nèi)部節(jié)點和葉子節(jié)點。其中,內(nèi)部節(jié)點表示一個特征或?qū)傩缘臏y試條件(用于分開具有不同特性的記錄),葉子節(jié)點表示一個分類。
2、貝葉斯:貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計知識進(jìn)行分類的算法,如樸素貝葉斯(Naive Bayes)算法。這些算法主要利用Bayes定理來預(yù)測一個未知類別的樣本屬于各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。由于貝葉斯定理的成立本身需要一個很強(qiáng)的條件獨立性假設(shè)前提,而此假設(shè)在實際情況中經(jīng)常是不成立的,因而其分類準(zhǔn)確性就會下降。
3、人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(或稱”神經(jīng)元”,或”單元”)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即”神經(jīng)網(wǎng)絡(luò)”,以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行訓(xùn)練,訓(xùn)練的過程就是網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的過程。
二、聚類算法有哪些
基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。
6、模型算法
基于模型的方法(model-based methods),基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案。
擴(kuò)展資料:
聚類分析起源于分類學(xué),在古老的分類學(xué)中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學(xué)工具進(jìn)行定量的分類。隨著人類科學(xué)技術(shù)的發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進(jìn)行分類,于是人們逐漸地把數(shù)學(xué)工具引用到了分類學(xué)中,形成了數(shù)值分類學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類分析。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報法等。
在商業(yè)上,聚類可以幫助市場分析人員從消費者數(shù)據(jù)庫中區(qū)分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習(xí)慣。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進(jìn)一步的分析;并且,聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個預(yù)處理步驟。
參考資料:百度百科-聚類算法
三、聚類算法有哪些分類
聚類算法的分類有:
1、劃分法
劃分法(partitioning methods),給定一個有N個
5、網(wǎng)格算法
基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的。這么處理的一個突出的優(yōu)點就是處理速度很快,通常這是與目標(biāo)數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的,它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。
代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;
6、模型算法
基于模型的方法(model-based methods),基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在的假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。
通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案。
擴(kuò)展資料:
聚類算法的要求:
1、可伸縮性
許多聚類算法在小于 200 個數(shù)據(jù)對象的小數(shù)據(jù)集合上工作得很好;但是,一個大規(guī)模數(shù)據(jù)庫可能包含幾百萬個對象,在這樣的大數(shù)據(jù)集合樣本上進(jìn)行聚類可能會導(dǎo)致有偏的結(jié)果。
我們需要具有高度可伸縮性的聚類算法。
2、不同屬性
許多算法被設(shè)計用來聚類數(shù)值類型的數(shù)據(jù)。但是,應(yīng)用可能要求聚類其他類型的數(shù)據(jù),如二元類型(binary),分類/標(biāo)稱類型(categorical/nominal),序數(shù)型(ordinal)數(shù)據(jù),或者這些數(shù)據(jù)類型的混合。
3、任意形狀
許多聚類算法基于歐幾里得或者曼哈頓距離度量來決定聚類?;谶@樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇。但是,一個簇可能是任意形狀的。提出能發(fā)現(xiàn)任意形狀簇的算法是很重要的。
4、領(lǐng)域最小化
許多聚類算法在聚類分析中要求用戶輸入一定的參數(shù),例如希望產(chǎn)生的簇的數(shù)目。聚類結(jié)果對于輸入?yún)?shù)十分敏感。參數(shù)通常很難確定,特別是對于包含高維對象的數(shù)據(jù)集來說。這樣不僅加重了用戶的負(fù)擔(dān),也使得聚類的質(zhì)量難以控制。
5、處理“噪聲”
絕大多數(shù)現(xiàn)實中的數(shù)據(jù)庫都包含了孤立點,缺失,或者錯誤的數(shù)據(jù)。一些聚類算法對于這樣的數(shù)據(jù)敏感,可能導(dǎo)致低質(zhì)量的聚類結(jié)果。
6、記錄順序
一些聚類算法對于輸入數(shù)據(jù)的順序是敏感的。例如,同一個數(shù)據(jù)集合,當(dāng)以不同的順序交給同一個算法時,可能生成差別很大的聚類結(jié)果。開發(fā)對數(shù)據(jù)輸入順序不敏感的算法具有重要的意義。
參考資料:百度百科-聚類算法
四、金融風(fēng)控AI—評分卡模型算法(1)
辦理過信用卡的朋友知道,開卡需要先申請(篩選好壞用戶),可能還會根據(jù)你的信用情況會有不同的額度。這就是銀行的信用風(fēng)險計量體系。對于信用卡有4類評分卡:
1)申請評分卡(A卡)
2)行為評分卡(B卡)
3)催收評分卡(C卡)
4)欺詐評分卡(F卡)
這些評分卡算法一樣,只是訓(xùn)練的數(shù)據(jù)不同,所用的參數(shù)也就不同。
螞蟻金服的芝麻信用也是這樣的。
模型的開發(fā)主要包含以下幾大部分工作:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、探索分析、特征選擇、模型訓(xùn)練、模型評估、建立評分系統(tǒng)。
本項目數(shù)據(jù)來源于kaggle競賽 Give Me Some Credit 。有訓(xùn)練數(shù)據(jù)共計15萬條。
打開數(shù)據(jù)文件大概這個樣子:
字段描述如下
這部分主要做2個事情:缺失值處理和異常值處理。
pd的describe()函數(shù),可以了解數(shù)據(jù)集的缺失值情況。
打開DataDescribe.csv
我們可以看大部分?jǐn)?shù)據(jù)有15萬條,其中月收入只有12萬條,缺了近3萬條,家屬數(shù)量14.6萬條。
對于缺失值,根據(jù)不同的情況我們分類處理:
(1) 如果缺失的不多,比如家屬數(shù)量缺失不多,可以直接刪除含有缺失值的樣本。用dropna()
(2) 如果缺失較多,不宜直接全部刪除,根據(jù)樣本之間的相似性填補缺失值。比如用平均值
(3)如果缺失較多,不宜直接全部刪除, 根據(jù)變量之間的相關(guān)關(guān)系填補缺失值。比如用隨機(jī)森林法填補。
(4)如果缺失巨大,就失去分析意義,可以將整個字段刪除
平均值填補只要一句話:
隨機(jī)森林法填補:
調(diào)用隨機(jī)森林:
異常值是指明顯偏離大多數(shù)抽樣數(shù)據(jù)的數(shù)值,或者直接違背常識的數(shù)據(jù),比如年齡是負(fù)數(shù)。對于違背常識的記錄直接刪除,而對于其他異常數(shù)據(jù)需要具體分析:
具體采用哪種方式其實最好都試一下,看看最后得到的模型怎么樣。因為所有這些操作都是有假設(shè)條件的,而你的數(shù)據(jù)是否滿足這些條件,試過才知道。
從圖看有異常值不少,不過一般只把異常的0值去掉。
對于RevolvingUtilizationOfUnsecuredLines及DebtRatio都是百分?jǐn)?shù)類型。其中第一項肯定不能大于100%而且統(tǒng)計一下這部分異常數(shù)據(jù)不多,果斷刪掉。第二項債務(wù)百分比不敢確定是否可債務(wù)大于100%,統(tǒng)計了一下有3w多條,而且取出來看了一下不是很特別,同樣可以試一下刪除或者放入不管或者填充看看最后不同的效果。
這3個逾期不還次數(shù)指標(biāo)意義相似放一起看,發(fā)現(xiàn)有2個數(shù)據(jù)特別顯眼,是96,98。雖然按箱型圖的含義所有圓圈都是異常值,但仔細(xì)分析這三個指標(biāo)發(fā)現(xiàn)正常值絕大部分是0,這就導(dǎo)致了箱型圖的1/4線和3/4線都是0,所以我們通常把頭頂2個值作為異常值。我把這部分異常值取出來發(fā)現(xiàn)數(shù)量不多,只有200多條,理論上可以直接刪除或者放在里面置之不理。但是我看了這部分?jǐn)?shù)據(jù)發(fā)現(xiàn)非常異常。這208條數(shù)據(jù)有125條是違約用戶,違約占比62%,而全量數(shù)據(jù)里面違約占比7%不到,所以我覺得應(yīng)該把這部分?jǐn)?shù)據(jù)作為一條規(guī)則來處理,遇到這三個指標(biāo)有超過90的數(shù)值,直接報告警。那么是否可以把這部分?jǐn)?shù)據(jù)留著置之不理呢,后面我試了,發(fā)現(xiàn)會對變量之間的相關(guān)性有很大影響(后面會詳細(xì)講)。
同樣這個指標(biāo)我們把50以上作為異常值。
這個指標(biāo)pass
月收入可以去掉特別高的數(shù)據(jù)
家庭成員可以剔除特別高的
第一篇完
以上就是關(guān)于模型算法有哪些相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
景觀設(shè)計專業(yè)介紹(景觀設(shè)計專業(yè)介紹怎么寫)