在线看成人片日韩精品人妻,一级黄色大片WWW

閑聊層級(jí)模型

發(fā)布于云南 2024-12-10 · 5399瀏覽 2贊

層級(jí)模型可能是面向普通人直觀理解數(shù)據(jù)分析模型的天花板，往后的模型都需要至少簡(jiǎn)化到層級(jí)模型才具備一定的可解釋性。那么什么是層級(jí)模型？最簡(jiǎn)單的理解就是數(shù)據(jù)內(nèi)部不是均質(zhì)的，例如你是一個(gè)剛到地球的外星人，隨機(jī)大街上抓一百個(gè)人測(cè)量身高，想看看地球人能長(zhǎng)多高。那最起碼要區(qū)分下年齡層，未成年人身高跟成年人身高去搞平均，得到的數(shù)據(jù)相信自己看了也不信。也就是說(shuō)人群身高這個(gè)變量天生要考慮年齡來(lái)進(jìn)行分層，成年人幾乎不變而未成年人每年都長(zhǎng)高，在定義人群身高概念時(shí)就得考慮數(shù)據(jù)本身內(nèi)部的分類，這種內(nèi)生性分層在很多具體的學(xué)科概念里很常見。

之所以引入層級(jí)模型，很大程度是因?yàn)槎鄶?shù)學(xué)科知識(shí)構(gòu)架都是從基本概念堆起來(lái)的，學(xué)科或某個(gè)議題本身就是個(gè)層級(jí)概念模型。例如討論環(huán)境影響健康，首先環(huán)境因子得暴露給人群，人群被暴露后會(huì)有應(yīng)激反應(yīng)，生理上可阻擋大多數(shù)進(jìn)化上已知的危害，但仍然有些污染物不被阻擋，進(jìn)入人體后會(huì)干擾具體的代謝過(guò)程，當(dāng)代謝紊亂后生理上出現(xiàn)病癥。這一系列的步驟都要有觀察或?qū)嶒?yàn)證據(jù)來(lái)證明才能形成一條完整的環(huán)境影響健康的層級(jí)機(jī)制模型，有些污染物也許能在環(huán)境中檢出，但根本就不出現(xiàn)在人群生物樣品里，那么就不具備進(jìn)行討論的價(jià)值?，F(xiàn)在環(huán)境科學(xué)里流行的效應(yīng)引導(dǎo)分析就是要先看到最終影響再去找具體污染物，前提就是層級(jí)模型要可驗(yàn)證，否則單純因?yàn)榄h(huán)境有就說(shuō)有危害是很容易被質(zhì)疑的。

除了機(jī)理上的層級(jí)模型，另一個(gè)很常見的預(yù)測(cè)性層級(jí)模型就是決策樹。當(dāng)你決定今天是否出門時(shí)，腦子里可能同時(shí)出現(xiàn)天氣、心情、交通方式、家務(wù)勞動(dòng)等變量，這些變量的優(yōu)先級(jí)是不一樣的，例如天氣不好就不出門了，此時(shí)心情或交通方式根本就不需要考慮了，如果還有家務(wù)勞動(dòng)，那可能也不用考慮天氣了。當(dāng)存在變量?jī)?yōu)先級(jí)時(shí)，數(shù)據(jù)也是要用層級(jí)模型來(lái)建模的。在很多具體場(chǎng)景下，有些變量在不同層級(jí)上可以反復(fù)出現(xiàn)，例如醫(yī)療資源緊張時(shí)，急診室會(huì)首先按緊急與否預(yù)篩患者，哪些一時(shí)半會(huì)死不了的就得等等，然后按年齡，老人小孩有高優(yōu)先級(jí)，然后可能又要細(xì)化評(píng)估緊急的嚴(yán)重程度，一個(gè)胳膊折斷的哭鬧熊孩子跟一個(gè)摔倒后昏厥的老年人哪個(gè)優(yōu)先就要看具體醫(yī)療資源狀態(tài)了。

決策樹模型在很多機(jī)器學(xué)習(xí)算法里都有體現(xiàn)，很多時(shí)候我們不知道變量的層級(jí)關(guān)系，就預(yù)設(shè)其存在層級(jí)關(guān)系然后用數(shù)據(jù)進(jìn)行訓(xùn)練。每一層的節(jié)點(diǎn)代表一個(gè)分類標(biāo)準(zhǔn)或特征值的判斷標(biāo)準(zhǔn)，樹的枝葉代表最終給出的響應(yīng)。在機(jī)器學(xué)習(xí)的預(yù)測(cè)模型y=f(x)中，y代表最終響應(yīng)，x代表跟響應(yīng)相關(guān)的特征或?qū)傩?，f則代表一種模型算法。f的構(gòu)建過(guò)程可以看作尋找一種讓響應(yīng)相對(duì)一致的特征分類或回歸方法。決策樹里每個(gè)枝葉的形成過(guò)程所經(jīng)歷的特征判斷就是“尋找一種讓響應(yīng)相對(duì)一致”的過(guò)程。

這個(gè)過(guò)程實(shí)現(xiàn)的具體過(guò)程大概要用到自上而下的貪心算法。具體而言就是首先找遍歷所有不同的x，在每個(gè)特征x下找出最小化響應(yīng)y的均值與實(shí)際y差的平方的一個(gè)特征x0，這樣就實(shí)現(xiàn)了響應(yīng)的第一層二分，也就構(gòu)建了樹的第一個(gè)主分支，這個(gè)過(guò)程在不同分支上遞歸進(jìn)行就可以訓(xùn)練得到一棵回歸樹。分類樹的構(gòu)建與此類似，不同的是要引入分類錯(cuò)誤率的概念或者說(shuō)y分類的內(nèi)在均一度作為訓(xùn)練目標(biāo)。訓(xùn)練過(guò)程可以引入類似lasso或嶺回歸或彈性網(wǎng)絡(luò)的懲罰項(xiàng)，最后當(dāng)我們得到一顆訓(xùn)練好的決策樹后就可以進(jìn)行預(yù)測(cè)了。

預(yù)測(cè)過(guò)程更加直觀，我們用手頭的x去對(duì)應(yīng)節(jié)點(diǎn)上的判斷標(biāo)準(zhǔn)進(jìn)入不同的分支，遞歸進(jìn)行，最后到枝葉上就是預(yù)測(cè)結(jié)果。值得說(shuō)明的是這種層級(jí)結(jié)構(gòu)有些變量基本用不到，因此決策樹生成過(guò)程也可用來(lái)進(jìn)行變量的篩選并對(duì)其重要性進(jìn)行評(píng)價(jià)。

除了機(jī)理跟預(yù)測(cè)，分層這個(gè)思路在具體研究中也很常用，例如組學(xué)數(shù)據(jù)里的小樣品大維度場(chǎng)景。假定我有兩組樣品，一組樣品6個(gè)樣本，每個(gè)樣品測(cè)代謝組測(cè)到上萬(wàn)個(gè)代謝物，此時(shí)你每組樣品去做類似t檢驗(yàn)的差異分析會(huì)面臨兩個(gè)問(wèn)題。第一個(gè)問(wèn)題就是錯(cuò)誤發(fā)現(xiàn)率（FDR）得控制，因?yàn)殡S機(jī)做上萬(wàn)次t檢驗(yàn)會(huì)有大量假陽(yáng)性。第二個(gè)問(wèn)題就是樣本量帶來(lái)的，雖然t檢驗(yàn)用的分布屬于厚尾分布，但在樣品量少的情況下對(duì)單一代謝物的方差估計(jì)很可能非常不靠譜，這樣也會(huì)引入大量假陽(yáng)性。層級(jí)模型可以用到第二個(gè)問(wèn)題上，基本假設(shè)就是代謝物之間雖然有差異但畢竟都來(lái)自于同一個(gè)樣品，存在一個(gè)基于樣品本身的代謝物間總方差，我們可以先估計(jì)出這個(gè)總方差。當(dāng)計(jì)算具體代謝物的方差時(shí)，我們用總方差對(duì)代謝物原方差進(jìn)行加權(quán)收斂，得到一個(gè)介于所有代謝物方差與單一代謝物之間的新方差進(jìn)行差異分析。此處的層級(jí)模型在于除了對(duì)代謝物本身表達(dá)建模外還要考慮更高一層所有代謝組表達(dá)建模，這樣在進(jìn)行差異分析或統(tǒng)計(jì)推斷時(shí)實(shí)際上考慮了代謝物跟代謝組兩個(gè)層級(jí)的方差來(lái)源。這個(gè)思路經(jīng)常被稱為經(jīng)驗(yàn)貝葉斯，本質(zhì)上是借用了更高層級(jí)下其他數(shù)據(jù)的信息與本層級(jí)數(shù)據(jù)信息進(jìn)行混合，進(jìn)而得到一個(gè)和稀泥的推斷，這對(duì)于小樣品量的實(shí)驗(yàn)其實(shí)很有用，當(dāng)然就算用了層級(jí)模型，一樣還得進(jìn)行錯(cuò)誤發(fā)現(xiàn)率控制。這里類似進(jìn)行了正則化，對(duì)方差進(jìn)行了懲罰。經(jīng)驗(yàn)貝葉斯收斂可以用mcmc方法做的更好。

與這個(gè)思路類似的就是線性混合模型。在估計(jì)斜率固定效應(yīng)時(shí)，可以假定每個(gè)樣品的截距來(lái)自于一個(gè)隨機(jī)分布，或者反過(guò)來(lái)固定截距，認(rèn)為斜率來(lái)自于一個(gè)分布。甚至同時(shí)認(rèn)為斜率與截距來(lái)自于一個(gè)分布，然后給出對(duì)其方差的估計(jì)。舉個(gè)例子，人群中某污染物濃度隨暴露時(shí)間而線性增加，此時(shí)斜率固定，但每個(gè)人本底不一樣，也就是截距不一樣，此時(shí)如果不預(yù)先對(duì)所有截距建模，那么對(duì)斜率的估計(jì)很可能也是錯(cuò)的或不顯著的。實(shí)踐中如果涉及對(duì)同一個(gè)體的反復(fù)測(cè)量，那么幾乎一定要把不同個(gè)體間的隨機(jī)效應(yīng)參與建模。這里層級(jí)模型就體現(xiàn)在對(duì)于個(gè)體參數(shù)估計(jì)是構(gòu)建在更高群體層次上，把群體存在的隨機(jī)效應(yīng)也放到模型構(gòu)建里去，此時(shí)得到的模型的固定效應(yīng)可能會(huì)更靠譜些。本質(zhì)上很像先聚類再分析，但會(huì)考慮不同聚類間的信息共享。

不同部門間工資建模就是個(gè)層級(jí)模型。

層級(jí)模型到了深度學(xué)習(xí)時(shí)代也有其地位。例如，多層感知機(jī)構(gòu)架里如果各層之間的激活函數(shù)不是非線性的，那么這個(gè)構(gòu)架可以看出一個(gè)多層線性模型。很多多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)本質(zhì)上也是在對(duì)數(shù)據(jù)進(jìn)行降維簡(jiǎn)化與抽象，例如一個(gè)編碼器構(gòu)架可以把很高維度的數(shù)據(jù)進(jìn)行降維然后再通過(guò)解碼器重構(gòu)，這一降一升實(shí)質(zhì)上對(duì)于噪音消除效果不錯(cuò)。另外就是如果對(duì)圖片分類的神經(jīng)網(wǎng)絡(luò)不同層可視化，可以看到前面的層感知到的更多是基本線條，越往后越接近人對(duì)圖像模式的感知。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

我是個(gè)錘子

贊 2

相關(guān)推薦

最新評(píng)論

贊過(guò)的人 2

評(píng)論加載中...

暫無(wú)評(píng)論，快來(lái)評(píng)論吧!

国內一级黄色视频|少妇91导航日韩第一页久久|黄色三A视频色爽网站|亚洲精品 无码一区二区在直播间|成人高清国产无码|aaa成人免费视频|国产一级一片免费播放放a|我要看免费的毛片|动漫a片免费观看|日韩欧美国产视频

国內一级黄色视频|少妇91导航日韩第一页久久|黄色三A视频色爽网站|亚洲精品无码一区二区在直播间|成人高清国产无码|aaa成人免费视频|国产一级一片免费播放放a|我要看免费的毛片|动漫a片免费观看|日韩欧美国产视频