青青草中文字幕Av|黄色A片免费视屏观看|成人黄色aaaa级免费视频|亚洲国产性爱自拍在线观看|中文字幕久久久久久网|亚洲精品AV在线|亚洲在线观看视频9|黄片手机版免费视频|亚洲人人人人人视频|AV三级片在线观看

400-608-2558 029-86698003

新聞資訊

從行業(yè)動態(tài)到技術實踐,洞察趨勢所向
美林數(shù)據技術專家團隊|機器學習中樣本不平衡問題的實用解決方法
發(fā)布時間:2021-12-23 瀏覽數(shù):451次
        近些年,隨著智能化應用概念在各個行業(yè)的普及、智能應用項目的落地實踐,作為智能應用的基礎技術-機器學習,也得到了廣泛的應用并取得了不錯的效果。與此同時,在實際的項目應用中也經歷了各種各樣的難題,如數(shù)據分散難統(tǒng)一、輸出結果滯后、數(shù)據不準確等,其中樣本不平衡就是一個典型的數(shù)據問題。

        樣本不平衡問題是指在進行模式分類時,樣本中某一類數(shù)據遠多于其他類數(shù)據而造成對少數(shù)類判別不準確的問題,而實際應用中數(shù)量較少的樣本往往包含著關鍵的信息。例如在設備故障預測中的故障樣本,產品質量分析中的不合格樣本,用戶流失預警中的流失用戶,竊電識別中的竊電用戶,醫(yī)療診斷中的病例樣本等等,都是在智能化應用分析過程中需要重點關注的對象。
        對于樣本不平衡分類問題的解決,我們目前嘗試過5個方向:
        1、改變數(shù)據分布,降低不平衡度,包括采樣的方法(過采樣算法、欠采樣算法)和數(shù)據合成的方法;
        2、優(yōu)化算法,分析已有算法在面對不平衡數(shù)據的缺陷,改進算法或者提出新算法來提升少數(shù)類的分類準確率,主要包括代價敏感和集成學習;
        3、引入先驗知識,在建模的過程中的樣本生成、模型設計、模型訓練階段引入先驗知識,提升模型準確性;
        4、遷移學習,利用其它領域相似的數(shù)據和知識對本領域內模型進行優(yōu)化;
        5、調整業(yè)務目標,嘗試改變看問題的角度,調整業(yè)務的目標或將業(yè)務問題進行轉換。
        01、改變數(shù)據分布

        ?通過采樣的方式  
        采樣方法是通過對訓練集進行處理使其從不平衡的數(shù)據集變成平衡的數(shù)據集,在大部分情況下會對最終的結果帶來提升。采樣分為過采樣和欠采樣,其中過采樣是把小眾類復制多份,而欠采樣則是從大眾類中剔除一些樣本,或者說只從大眾類中選取部分樣本。
        ?數(shù)據合成方式
        數(shù)據合成是通過少量可用的樣本生成更多的樣本,即從原始數(shù)據分布的角度來進行的,生成和真實數(shù)據分布相似的數(shù)據,達到樣本增強的目的。        主要的樣本增強方法包含:SMOTE平滑、GAN生成對抗網絡模型等。
SMOTE平滑主要應用在小型數(shù)據集上來獲得新的樣本,實現(xiàn)方式是隨機選擇一個樣本,計算它與其它樣本的距離,得到K近鄰,從K近鄰中隨機選擇多個樣本構建出新樣本。
        GAN生成對抗網絡模型:主要包括了兩個部分,即生成器 generator 與判別器 discriminator。生成器主要用來學習真實數(shù)據分布從而讓自身生成的數(shù)據更加真實,以騙過判別器。判別器則需要對接收的數(shù)據進行真假判別。在整個過程中,生成器努力地讓生成的數(shù)據更加真實,而判別器則努力地去識別出數(shù)據的真假,這個過程相當于一個二人博弈,隨著時間的推移,生成器和判別器在不斷地進行對抗,最終兩個網絡達到了一個動態(tài)均衡:生成器生成的數(shù)據像接近于真實數(shù)據分布,而判別器識別不出真假數(shù)據,從而達到構建更多新樣本的目的。
        例如,在用戶竊電識別模型中,數(shù)據庫中查實的竊電用戶量整體較少,如果直接構建模型會導致模型泛化性能低,易過擬合,無法使模型更精準的學習到竊電用戶的特性。那么為了保障模型的準確率,我們可以基于查實的竊電用戶數(shù)據,針對不同竊電手段數(shù)據通過采用SMOTE平滑方法對數(shù)據進行樣本增強,獲取到更多符合原始數(shù)據分布的樣本,讓智能模型充分學習到竊電用戶的特性,有效地提高模型的泛化性能和抗干擾能力。該模型采用數(shù)據樣本增強后,竊電用戶識別模型準確率從70%提升至86%,為項目帶來實質性的提升。
        需要注意的是,通過采樣的方式增加樣本適用于樣本量有一定基礎的情況,對于樣本數(shù)據本身較小,或樣本極度不均衡的情況如異常樣本只有個位數(shù),使用起來意義并不大。數(shù)據合成的方法在一些領域使用較多,如在電信行業(yè)的流失行為預測、電網領域的用戶畫像,圖像識別等,但是在工業(yè)領域,如產品的加工過工程,設備的故障產生,數(shù)據之間都就有很強的關聯(lián)性,數(shù)據之間存在內在的物理關系,而數(shù)據合成的方法只關注了數(shù)據的分布特征,而忽略了數(shù)據之間的強關聯(lián)關系,因此往往導致生成數(shù)據脫離現(xiàn)實情況。
        02、優(yōu)化算法
從算法層面,在模型設計與訓練中采用傾向性策略以緩解樣本的不平衡程度,主要包括代價敏感和集成學習。代價敏感通過修改損失函數(shù)使得模型更加重視少數(shù)類,集成學習通過將多個分類器的結果集成提高整體分類準確度。
        ?從評價指標的角度   
對于數(shù)據極端不平衡時,這時候就不能觀察模型準確率這個指標了。我們可以通過觀察訓練結果的精準率和召回率,這樣做有兩個好處:一是可以了解算法對于數(shù)據的敏感程度;二是可以明確采取哪種評價指標更合適。針對機器學習中的樣本不平衡問題,建議更多采用PR(Precision-Recall曲線),而非ROC曲線,如果采用ROC曲線來作為評價指標,很容易因為AUC值高而忽略實際對少量樣本的效果其實并不理想的情況。
        當然在實際的應用中,也應結合業(yè)務需要來確定評價指標的選擇。例如,在流失預警場景中,應根據現(xiàn)場維護人員的數(shù)據量,決定是采用召回率作為主要評價指標還是以精準率作為主要指標。另外,在工業(yè)應用中,如果將模型作為輔助手段用于質量預警時,主要考慮的模型的準確性,要確保每次給出的結果是準確的,在設備故障判斷時,要確保召回率,不能漏掉任何一個故障。
        ?代價敏感法    
        代價敏感法核心思想是在算法實現(xiàn)過程中,對于分類中不同樣本數(shù)量的類別分別賦予不同的權重(一般思路分類中的小樣本量類別權重高,大樣本量類別權重低),通過這種方式使模型更加重視小樣本類,然后進行計算和建模。
        ?集成學習   
        集成方法指的是在每次生成訓練集時使用所有分類中的小樣本量,同時從分類中的大樣本量中隨機抽取數(shù)據來與小樣本量合并構成訓練集,這樣反復多次會得到很多訓練集和訓練模型。最后在應用時,使用組合方法(例如投票、加權投票等)產生分類預測結果。如果計算資源充足,并且對于模型的時效性要求不高的話,這種方法比較合適。
        03、引入先驗知識
        利用先驗知識,將業(yè)務知識、機理規(guī)則等引入機器學習的樣本生成、模型設計、模型訓練等階段也是解決樣本不平衡問題的一個思路。先驗知識可以快速推廣到只包含少量監(jiān)督信息樣本的新任務。在數(shù)據挖掘模型構建的過程中,充分利用先驗知識的相關規(guī)則可以提升模型效果,先驗知識主要從兩個方面發(fā)揮價值:
        數(shù)據:利用先驗知識來增強監(jiān)督經驗,例如可以使用先驗知識判斷傳感器采集數(shù)據的范圍,對于超過范圍的異常數(shù)據剔除處理,避免因為數(shù)據采集錯誤干擾到模型訓練。
        模型:利用先驗知識減少假設空間的大小,如齒輪點蝕、剝落斷齒等局部故障,故障部位進入嚙合時系統(tǒng)受到沖擊激勵,故障齒輪每轉一圈,系統(tǒng)受一次沖擊,這種現(xiàn)象是周期性的,可基于此特性來設計模型。
        如在配變重過載預測模型構建過程中,模型階段通過先驗知識縮小了預測空間,充分考慮配變負載率近2年Pearson相關系數(shù)判定近2年的變化趨勢,篩選相關系數(shù)高的配變,利用先驗知識預測未來周期內負載率,將負載率明顯過低的設備進行剔除,減少樣本的不平衡度,提升模型的泛化能力。
值得注意得是:在利用先驗知識的同時,一定要保障先驗知識的準確性,如果先驗知識存在誤差,必然導致模型的誤差增大,影響模型準確率。
        04、遷移學習
        既然當前領域的樣例數(shù)據獲取難度比較大,那么可不可以使用相似領域的數(shù)據和知識來代替呢?實際生活中有很多這樣的例子,比如學會吹笛子,就比較容易學吹簫、葫蘆絲等管弦樂器,學會了C語言,在學一些其它編程語言會簡單很多,這其實就是遷移學習的思想。從相關領域中遷移標注數(shù)據或者知識結構、完成或改進目標領域的學習效果。

        一般地,有三種常見的遷移方式:
        一是基于實例的遷移,對已有的其它領域大樣本進行有效的權重分配,讓其它領域的樣本與目標域的樣本分布特征接近;
        二是基于特征的遷移,分為基于特征選擇的遷移和基于特征映射的遷移?;谔卣鬟x擇的遷移學習算法,關注的是如何找出源領域與目標領域之間共同的特征表示,然后利用這些特征進行知識遷移;基于特征映射的遷移學習算法,將源領域和目標領域的數(shù)據從原始特征空間映射到新的特征空間中去,在該空間中,源領域數(shù)據與的目標領域的數(shù)據分布相同;
        三是基于共享參數(shù)的遷移,其主要研究的是如何找到源數(shù)據和目標數(shù)據的空間模型之間的共同參數(shù)或者先驗分布。
        在齒輪、軸承類機械設備故障預測過程中,實際工況下,由于設備長期處于正常服役狀態(tài),正常樣本豐富,故障樣本非常少,經常面臨數(shù)據嚴重不平衡的問題。對于齒輪、軸承這類簡單的機械,相同類型的部件其在發(fā)生故障時表現(xiàn)的特征往往具有很強的相似性。這時可以用遷移學習的方法,具體的實現(xiàn)方法一方面通過數(shù)據分布變換將要遷移的數(shù)據的分布狀況轉換為目標數(shù)據的分布狀況。

        另一方面將兩個領域的數(shù)據特征進行空間變換,使其具備相同的特征分布。假如采集的是震動信號,根據目標數(shù)據時域下的幅值分布將公共的震動信號轉換成與目標分布相似的信號,再利用時頻變換,將時域空間下的特征映射到頻域下(注意盡可能使用相對指標,而不是絕對指標),然后再進行零件故障預測模型的構建。
        此外,遷移學習在落地應用中往往受幾個方面的影響,一是不同的應用場景,數(shù)據之間的影響關系差異非常大,數(shù)據之間的相互關系往往會發(fā)生變化,導致不能完全遷移。二是目標的表征變量較多的情況下,做特征的映射本身就是一個大工程,實現(xiàn)起來并不容易,適合特征比較少的場景。
        05、調整業(yè)務目標
        以上的方式都不適用的情況下該怎么辦呢?這時就需要放大招了——調整業(yè)務目標。一般對于樣本極不均衡現(xiàn)象分類預測問題我們可以將其轉換為回歸問題或異常檢測問題。
        ?分類變回歸  
        在實際的項目中,還有一種方法來實現(xiàn)預測的目標,那就是將分類預測問題轉換為回歸預測問題。采用回歸預測+業(yè)務規(guī)則相結合的方法實現(xiàn)預測的目的。例如在一個產品質量預測項目中,原來的目標是構建產品是否合格的預測模型,但是在模型的構建過程中發(fā)現(xiàn)不合格產品占比非常少,只有極個別的樣本,用來構建產品不合格模型基礎條件不夠。
        這時就可以轉變?yōu)轭A測產品檢測指標的方法,這種方法是在不合格產品數(shù)量占比較少的情況下轉而預測產品檢測過程中的評判指標。相對來說,產品檢測過程中的檢測指標樣本的積累會比不合格產品的樣本積累要更容易。很顯然,對于產品檢測指標的預測是屬于回歸預測的范疇,可采用機器學習中回歸類預測方法來實現(xiàn)。對于回歸模型預測的結果,可以結合現(xiàn)有的業(yè)務規(guī)則進行判斷,從而達到預測產品是否合格的目的。
        ?分類變異常檢測   
        第二種做法是使用非監(jiān)督式的學習方法,將此類問題看做是單分類或異常檢測問題。這類方法的重點不在于找出類間的差別,而是為其中一類進行建模。例如在設備故障診斷項目中,沒有異常數(shù)據,那我們就為正常情況圈定一個范圍,在新數(shù)據判斷時在這個范圍內的就認為是正常數(shù)據,不在這個范圍內的我們就認為就是異常數(shù)據,需要重點關注的。當然在實際應用中模型也會不斷的迭代更新,判斷的效果會越來越準。
        本文介紹了實際項目中我們嘗試的幾種樣本不平衡問題的解決方法,希望上述的某種方法能夠幫助你解決目前遇到的問題或者能為你帶來一些解題思路。
        而上述這些方法也只是眾多樣本不平衡問題解決方法中的冰山一角,這里建議大家多閱讀一些這方面的文章,你可能從中獲取一些更有趣更有效的方法。當然樣本不平衡問題的解決更多的還要結合現(xiàn)場的環(huán)境和遇到的問題,靈活的選擇應對方法,沒有一種方案可以解決一切問題。
站點地圖
在線咨詢 在線咨詢
在線咨詢
電話聯(lián)系 電話聯(lián)系
電話聯(lián)系
服務熱線
400-608-2558
029-86698003
需求速聯(lián) 需求速聯(lián)
需求速聯(lián)
返回頂部 返回頂部
返回頂部