知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > TCGA >

Lasso回歸生信應用可變剪切Lasso回歸模型

時間:2020-02-23 09:50來源:生信自學網 作者:樂偉 點擊:
Lasso回歸生信應用可變剪切Lasso回歸模型
Lasso回歸
Lasso(Least absolute shrinkage and selection operator)方法是以縮小變量集(降階)為思想的壓縮估計方法。它通過構造一個懲罰函數,可以將變量的系數進行壓縮并使某些回歸系數變為0,進而達到變量選擇的目的。

《TCGA可變剪切生信挖掘》視頻課程中,生信自學網給大家介紹了如何從官網下載和整理轉錄組數據、臨床數據、可變剪切的數據,然后可變剪切數據和臨床數據合并,合并之后就做單因素COX分析,單因素COX分析幫我們找到了跟生存相關的可變剪切,接下來我們需要構建模型來預測病人的風險值,在構建模型之前,可以做Lasso回歸,目的是為了篩選相關性高的可變剪切,防止過度擬合(過擬合是指為了得到一致假設而使假設變得過度嚴格。避免過擬合是分類器設計中的一個核心任務。通常采用增大數據量和測試樣本集的方法對分類器性能進行評價。)比如兩個基因A和B,如果兩個基因有共表達關系,那么在構建模型的時候,就可以選擇保留A基因刪除B基因,Lasso回歸就可以解決這個問題。
Lasso回歸生信應用,常見的有兩個圖形,一個是相關系數,基因系數的圖形,橫坐標是Log Lambda值(懲罰系數,控制Lasso回歸的復雜度,Lambda值越大,懲罰力度越大),縱坐標是可變剪切的系數,隨著Lambda值的增大,可變剪切系數變為0,最后系數都變為0,當某個可變剪切的系數變為0,那么該可變剪切的PSI值(穩定度指標)不會影響樣品的風險值,這樣就達到了減少可變剪切的目的。

當然這個減少可變剪切不是一個隨意的過程,就要參考另外一個圖,橫坐標是log(Lambda),縱坐標代表交叉驗證的誤差,在實際分析中,我們希望交叉驗證的誤差最小的位置,在圖形中,虛線位置就是交叉驗證誤差最小的位置,找到這個點,對應的橫坐標有log(Lambda),上邊顯示了可變剪切的數目,找到最優的log(Lambda)值,就可以在第一張圖里面找到對應的可變剪切用于后續分析。

接下來看下如何實現Lasso回歸:
軟件:R3.6.2
R包:
install.packages("glmnet")
install.packages("survival")
輸入文件:就是前面單因素cox回歸的結果文件,包括樣品名,生存時間,生存狀態,可變剪切的PSI值,這里的可變剪切都是跟生存相關的,按照單因素COX的pvalue小于0.05進行過濾了的

函數:
glmnet()
cv.glmnet()
參數:family=”cox”
maxit=1000,代表循環1000次
在分析中,有學員反應說運行多次的結果不同,這個很容易理解,在Lasso回歸運行是,在前面我們講過如果A、B兩個可變剪切相關性高,就只會選擇其中一個,那么可能這次選A,下次選B,既然是隨機循環,當然會有不同的結果。

接下來就是根據最小的Lambda值lambda.min保存相關可變剪切
購買課程:《TCGA可變剪切挖掘視頻課程》
精品課程推薦:


《TCGA數據庫甲基化分型文章套路》
《GEO數據庫miRNA芯片挖掘》
《中藥復方網絡藥理學聯合GEO芯片》



責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
加生信自學課堂
BioWolf二維碼生成器
頂一下
(3)
100%
踩一下
(0)
0%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
GEO芯片數據庫挖掘生信視頻教程
推薦內容
TCGA數據庫挖掘文章套路生信視頻教程
中藥復方網絡藥理學文章套路生信視頻教程