@565c25972d57 理論上是的,分步只是為了跑自己想跑的命令
生信log6細菌全基因組建樹|基于GTDB-KT抽單拷貝蛋白序列-iqtree2 && fasttree建樹前言 最近在跑一個很大的數據集,大概有3500條以上的基因序列,因為數量太大,跑樹有點搞不定,特此來記錄一下這個過程 超過3000個基因組iqtree直接跑斷直接跑了iqtr...
@565c25972d57 理論上是的,分步只是為了跑自己想跑的命令
生信log6細菌全基因組建樹|基于GTDB-KT抽單拷貝蛋白序列-iqtree2 && fasttree建樹前言 最近在跑一個很大的數據集,大概有3500條以上的基因序列,因為數量太大,跑樹有點搞不定,特此來記錄一下這個過程 超過3000個基因組iqtree直接跑斷直接跑了iqtr...
啊,因為網絡問題無法在服務器中直接用Singularity拉取鏡像了,因此在本地電腦中拉取。由于系統是MacOS, Singularity官方并沒有提供Mac系統的安裝包而是...
最近重新深入生信分析的學習,重新看一下轉錄組還有其他分析方法看新工具和新思路。這篇日志記錄Trim Galore的Singularity鏡像用法(目前沒有singularit...
經常有人問怎么找項目練手,只能說把眼睛打開,學會搜索處處都是修煉場。 在校學生可聯系有生信分析需求的老師和實驗室人員了; 自己復現領域經典文獻里面的內容(數據處理和圖表,選擇...
生信log|基因組數據注釋到底是怎么回事? 在一開始做生信分析的時候,我對下游的分析其實不太了解,當時頻繁接觸到的概念叫“注釋”,注釋后就可獲得關鍵基因相關的一些數據。后來深...
在求學階段,經常聽到老師或者沒有做生信的同學說生信就是跑流程的,一些大佬也有發文自嘲和解釋過生信不是跑流程。我自己在剛上手生信分析時,對這個說法強烈反對,參加工作或者說上手多...
生信log-不學就虧了,聊聊生信就業前置技能-便利工具和延伸教程總結 強烈大家去《MIT計算機教育中缺失的一課》, 雖說這個是計算機的課程,但是生物信息不就是一門需要寫代碼的...
基因組數據的數據量一般來說都不小,一個細菌基因組測序clean data的壓縮文件都能去到1個G,更別說其他非原核的物種了。實驗室的數據是不能隨便刪除的,更別說公司甚至是公共...
因為業務需求,做了一個按頁數拆分pdf的小工具,本質還是服務于數據分析的模塊 0. 思路 按指定頁數進行拆分 處理的包:PyPDF2, click 環境:python >= ...
目前網絡上有非常完備的訓練框架,如抱臉蟲的transformers、達摩的modelscope,swift框架,使得模型的調用和訓練過程都非常的直觀。上述的框架都沒有離開主流...
此前在疫情期間學習了AI的經典算法理論,但一直沒有機會實戰敲敲代碼,總感覺有遺憾,現在抓緊時間實戰一下!下面的筆記其實就是的pytorch官方學習代碼加上個人的理解,代碼已經...
此處選擇趨動云啟動擴散模型,學習手冊參考Datawhale的設置,我不是藝術從業者所以對畫圖這一塊一直沒太關注,但是身邊有學這個的朋友決定來學習一下。 0、部署 采取的是網頁...
接著modelscope的學習,今天依靠Swift跑通了訓練的部分,modelscope平臺出了一個Swift框架可以讓小白,愛好者非AI專業人士無痛訓練大模型,僅需少量代碼...
最近終于有時間看大模型相關的教程,由于huggingface國內訪問受阻,因此探索了一下阿里的modelscope,并記錄常用的組件和模塊供以后學習工作復查。 0、準備篇 看...
最近在查看一些數據集,發現有些非常老的數據庫里面只有GRCh37的數據,一些經常更新的數據庫里面只有GRCh38的數據,如果恰好手頭上有兩個版本的基因組數據可就非常頭疼了。為...
最近的任務需要做一個工具,這個工具會定期查詢文件或者數據庫,原本打算從日志中提取,但日志中太多其他標準輸出的內容了,提取信息可能很困難,也很容易導致錯誤,因此考慮了sqlit...
1 了解 conda,anaconda,miniconda,bioconda 1.1 conda conda是一個軟件模塊管理工具,也是一個可執行命令,其核心功能是包管理與環...
最近需要下載和傳輸的數據,還有傳輸數據,過程中涉及到好多驗證的問題,因此小記這一篇,關于驗證的原理有機會再探討,本log不作贅述。 為什么需要校驗數據及導致數據不一致的原因是...
有使用超算或者服務器的同學應該會接觸過超算投遞系統,在提交生信任務時,我們需要設置好資源,比如說cpu用多少,內存給多少。學生時代的我是有多大內存提供就設多大內存,有多少CP...
以前自學機器學習的時候經常遇到一些,10幾個G甚至更大的數據集,自己的電腦的存儲不太夠,就沒有做那些數據集了。直到最近因分析需求需要清洗100G+的數據,才真正接觸到真正意義...