HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    模型算法有哪些

    發(fā)布時間:2023-03-13 03:17:00     稿源: 創(chuàng)意嶺    閱讀: 118        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于模型算法有哪些的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    ChatGPT國內(nèi)免費在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    本文目錄:

    模型算法有哪些

    一、常見的分類算法有哪些

    常見的分類算法:

    1、決策樹:決策樹是一種用于對實例進(jìn)行分類的樹形結(jié)構(gòu)。一種依托于策略抉擇而建立起來的樹。決策樹由節(jié)點(node)和有向邊(directed edge)組成。節(jié)點的類型有兩種:內(nèi)部節(jié)點和葉子節(jié)點。其中,內(nèi)部節(jié)點表示一個特征或?qū)傩缘臏y試條件(用于分開具有不同特性的記錄),葉子節(jié)點表示一個分類。

    2、貝葉斯:貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計知識進(jìn)行分類的算法,如樸素貝葉斯(Naive Bayes)算法。這些算法主要利用Bayes定理來預(yù)測一個未知類別的樣本屬于各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。由于貝葉斯定理的成立本身需要一個很強(qiáng)的條件獨立性假設(shè)前提,而此假設(shè)在實際情況中經(jīng)常是不成立的,因而其分類準(zhǔn)確性就會下降。

    3、人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(或稱”神經(jīng)元”,或”單元”)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即”神經(jīng)網(wǎng)絡(luò)”,以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行訓(xùn)練,訓(xùn)練的過程就是網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的過程。

    二、聚類算法有哪些

    基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。

    6、模型算法

    基于模型的方法(model-based methods),基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案。

    擴(kuò)展資料:

    聚類分析起源于分類學(xué),在古老的分類學(xué)中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學(xué)工具進(jìn)行定量的分類。隨著人類科學(xué)技術(shù)的發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進(jìn)行分類,于是人們逐漸地把數(shù)學(xué)工具引用到了分類學(xué)中,形成了數(shù)值分類學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類分析。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報法等。

    在商業(yè)上,聚類可以幫助市場分析人員從消費者數(shù)據(jù)庫中區(qū)分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習(xí)慣。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進(jìn)一步的分析;并且,聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個預(yù)處理步驟。

    參考資料:百度百科-聚類算法

    三、聚類算法有哪些分類

    聚類算法的分類有:

    1、劃分法

    劃分法(partitioning methods),給定一個有N個

    5、網(wǎng)格算法

    基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的。這么處理的一個突出的優(yōu)點就是處理速度很快,通常這是與目標(biāo)數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的,它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。

    代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;

    6、模型算法

    基于模型的方法(model-based methods),基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在的假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。

    通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案。

    擴(kuò)展資料:

    聚類算法的要求:

    1、可伸縮性

    許多聚類算法在小于 200 個數(shù)據(jù)對象的小數(shù)據(jù)集合上工作得很好;但是,一個大規(guī)模數(shù)據(jù)庫可能包含幾百萬個對象,在這樣的大數(shù)據(jù)集合樣本上進(jìn)行聚類可能會導(dǎo)致有偏的結(jié)果。

    我們需要具有高度可伸縮性的聚類算法。

    2、不同屬性

    許多算法被設(shè)計用來聚類數(shù)值類型的數(shù)據(jù)。但是,應(yīng)用可能要求聚類其他類型的數(shù)據(jù),如二元類型(binary),分類/標(biāo)稱類型(categorical/nominal),序數(shù)型(ordinal)數(shù)據(jù),或者這些數(shù)據(jù)類型的混合。

    3、任意形狀

    許多聚類算法基于歐幾里得或者曼哈頓距離度量來決定聚類?;谶@樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇。但是,一個簇可能是任意形狀的。提出能發(fā)現(xiàn)任意形狀簇的算法是很重要的。

    4、領(lǐng)域最小化

    許多聚類算法在聚類分析中要求用戶輸入一定的參數(shù),例如希望產(chǎn)生的簇的數(shù)目。聚類結(jié)果對于輸入?yún)?shù)十分敏感。參數(shù)通常很難確定,特別是對于包含高維對象的數(shù)據(jù)集來說。這樣不僅加重了用戶的負(fù)擔(dān),也使得聚類的質(zhì)量難以控制。

    5、處理“噪聲”

    絕大多數(shù)現(xiàn)實中的數(shù)據(jù)庫都包含了孤立點,缺失,或者錯誤的數(shù)據(jù)。一些聚類算法對于這樣的數(shù)據(jù)敏感,可能導(dǎo)致低質(zhì)量的聚類結(jié)果。

    6、記錄順序

    一些聚類算法對于輸入數(shù)據(jù)的順序是敏感的。例如,同一個數(shù)據(jù)集合,當(dāng)以不同的順序交給同一個算法時,可能生成差別很大的聚類結(jié)果。開發(fā)對數(shù)據(jù)輸入順序不敏感的算法具有重要的意義。

    參考資料:百度百科-聚類算法

    四、金融風(fēng)控AI—評分卡模型算法(1)

    辦理過信用卡的朋友知道,開卡需要先申請(篩選好壞用戶),可能還會根據(jù)你的信用情況會有不同的額度。這就是銀行的信用風(fēng)險計量體系。對于信用卡有4類評分卡:

    1)申請評分卡(A卡)

    2)行為評分卡(B卡)

    3)催收評分卡(C卡)

    4)欺詐評分卡(F卡)

    這些評分卡算法一樣,只是訓(xùn)練的數(shù)據(jù)不同,所用的參數(shù)也就不同。

    螞蟻金服的芝麻信用也是這樣的。

    模型的開發(fā)主要包含以下幾大部分工作:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、探索分析、特征選擇、模型訓(xùn)練、模型評估、建立評分系統(tǒng)。

     本項目數(shù)據(jù)來源于kaggle競賽 Give Me Some Credit 。有訓(xùn)練數(shù)據(jù)共計15萬條。

    打開數(shù)據(jù)文件大概這個樣子:

    字段描述如下

    這部分主要做2個事情:缺失值處理和異常值處理。

    pd的describe()函數(shù),可以了解數(shù)據(jù)集的缺失值情況。

    打開DataDescribe.csv

    我們可以看大部分?jǐn)?shù)據(jù)有15萬條,其中月收入只有12萬條,缺了近3萬條,家屬數(shù)量14.6萬條。

    對于缺失值,根據(jù)不同的情況我們分類處理:

    (1) 如果缺失的不多,比如家屬數(shù)量缺失不多,可以直接刪除含有缺失值的樣本。用dropna()

    (2) 如果缺失較多,不宜直接全部刪除,根據(jù)樣本之間的相似性填補缺失值。比如用平均值

    (3)如果缺失較多,不宜直接全部刪除, 根據(jù)變量之間的相關(guān)關(guān)系填補缺失值。比如用隨機(jī)森林法填補。

      (4)如果缺失巨大,就失去分析意義,可以將整個字段刪除

    平均值填補只要一句話:

    隨機(jī)森林法填補:

    調(diào)用隨機(jī)森林:

    異常值是指明顯偏離大多數(shù)抽樣數(shù)據(jù)的數(shù)值,或者直接違背常識的數(shù)據(jù),比如年齡是負(fù)數(shù)。對于違背常識的記錄直接刪除,而對于其他異常數(shù)據(jù)需要具體分析:

    具體采用哪種方式其實最好都試一下,看看最后得到的模型怎么樣。因為所有這些操作都是有假設(shè)條件的,而你的數(shù)據(jù)是否滿足這些條件,試過才知道。

    從圖看有異常值不少,不過一般只把異常的0值去掉。

    對于RevolvingUtilizationOfUnsecuredLines及DebtRatio都是百分?jǐn)?shù)類型。其中第一項肯定不能大于100%而且統(tǒng)計一下這部分異常數(shù)據(jù)不多,果斷刪掉。第二項債務(wù)百分比不敢確定是否可債務(wù)大于100%,統(tǒng)計了一下有3w多條,而且取出來看了一下不是很特別,同樣可以試一下刪除或者放入不管或者填充看看最后不同的效果。

    這3個逾期不還次數(shù)指標(biāo)意義相似放一起看,發(fā)現(xiàn)有2個數(shù)據(jù)特別顯眼,是96,98。雖然按箱型圖的含義所有圓圈都是異常值,但仔細(xì)分析這三個指標(biāo)發(fā)現(xiàn)正常值絕大部分是0,這就導(dǎo)致了箱型圖的1/4線和3/4線都是0,所以我們通常把頭頂2個值作為異常值。我把這部分異常值取出來發(fā)現(xiàn)數(shù)量不多,只有200多條,理論上可以直接刪除或者放在里面置之不理。但是我看了這部分?jǐn)?shù)據(jù)發(fā)現(xiàn)非常異常。這208條數(shù)據(jù)有125條是違約用戶,違約占比62%,而全量數(shù)據(jù)里面違約占比7%不到,所以我覺得應(yīng)該把這部分?jǐn)?shù)據(jù)作為一條規(guī)則來處理,遇到這三個指標(biāo)有超過90的數(shù)值,直接報告警。那么是否可以把這部分?jǐn)?shù)據(jù)留著置之不理呢,后面我試了,發(fā)現(xiàn)會對變量之間的相關(guān)性有很大影響(后面會詳細(xì)講)。

    同樣這個指標(biāo)我們把50以上作為異常值。

    這個指標(biāo)pass

    月收入可以去掉特別高的數(shù)據(jù)

    家庭成員可以剔除特別高的

    第一篇完

    以上就是關(guān)于模型算法有哪些相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    國產(chǎn)良心模型(國產(chǎn)良心模型品牌)

    GPT模型全稱

    紅星模型新品(紅星模型新品上市)

    景觀設(shè)計專業(yè)介紹(景觀設(shè)計專業(yè)介紹怎么寫)

    自考景觀設(shè)計(自考景觀設(shè)計真題)