最近需要下載和傳輸的數據,還有傳輸數據,過程中涉及到好多驗證的問題,因此小記這一篇,關于驗證的原理有機會再探討,本log不作贅述。
為什么需要校驗數據及導致數據不一致的原因是什么
- 傳輸過程中發生了數據丟失事件(信號/硬件引起的)
- 網站上放錯了文件(無意的就是放錯,故意的就是病毒了)
什么場景下數據要進行校驗
- 盤到桶的遷移,跨盤數據遷移后(數據的拷貝)
- 網上下載數據后(有可能下到99.9%就斷了,從文件大小看不出區別)
- 自己需要上傳文件(自身即官方或者服務提供方,需要給其他用戶一個參考)
怎么校驗-策略與常用的方法
目前使用最多的是md5校驗,NCBI的FTP存儲地址提供的序列文件一般都帶有XXX.md5
MD5
- 用于檢驗文件內容的一致性和完整性
md5sum 文件名
SHA1
sha1sum 文件名
SHA256
sha256sum 文件名
Cosmic數據庫的例子
這個官方是見過比較嚴謹的了,NCBI一般只提供md5的校驗,但這個官網是少有能提供由三種不同校驗方式生成校驗文件的
Cosmic數據庫提供的文件
題外總結
這只是信息分析小細節也是我的一個小小記錄,數據分析的過程就是一個實驗和生產過程,實驗過程中謹慎謹慎再謹慎,嚴謹嚴謹再嚴謹,至少交出來的數據是保證可信度的。