tar -zcvf /home/xahot.tar.gz /xahot tar -zcvf 打包后生成的文件名全路徑 要打包的目錄 例子:把/xahot文件夾打包后生成一個/...

tar -zcvf /home/xahot.tar.gz /xahot tar -zcvf 打包后生成的文件名全路徑 要打包的目錄 例子:把/xahot文件夾打包后生成一個/...
spark 算法原理 協同過濾是用來對用戶的興趣偏好做預測的一種方法。在Spark中實現的是基于潛在因子模型的協同過濾。用戶對特定物品的偏好往往可以用評分的形式給出,評分矩陣...
一、什么是歸因分析? 在復雜的數據時代,我們每天都會面臨產生產生的大量的數據以及用戶復雜的消費行為路徑,特別是在互聯網廣告行業,在廣告投放的效果評估上,往往會產生一系列的問題...
從不浪費時間的人,沒有工夫抱怨時間不夠。 —— 杰弗遜 第一句話:時間戳 時間不分東西南北、在地球的每一個角落都是相同的。他們都有一個相同的名字,叫時間戳。時間戳 指的就是U...
假設說我們現在有這樣一張表 問題分析 連續登陸,也就是在連續登陸的期間內,后一天和前一天的差值為1,不能為大于1的值,直到間斷。那么在這里其實我們可以設置一列序號,如果是連續...
1、用conda創建Python虛擬環境(在conda prompt環境下完成) conda create -n environment_name python=X.X(注:...
搭建 Python 虛擬環境,可以方便地Python2,Python3 共存。避免包的混亂和版本的沖突。為每個程序單獨創建虛擬環境可以保證程序中能訪問虛擬環境中的包,保持解釋...
前 言 作為自然語言處理愛好者,大家都應該聽說過或使用過大名鼎鼎的Gensim吧,這是一款具備多種功能的神器。Gensim是一款開源的第三方Python工具包,用于從原始的...
谷歌推出的Bert,最近有多火,估計做自然語言處理的都知道。據稱在SQuAD等11項任務當中達到了state of the art。bert的原理可參考論文,或者網上其他人翻...
在假設檢驗中,顯著性水平和P值意味著什么? 究竟什么是統計顯著性? 在這篇文章中,我主要用概念和圖形來幫助讀者更直觀地理解假設檢驗在統計學中的工作原理。為了實現它,我將顯著性...
[TOC] 簡介 kafka是一個分布式消息隊列。具有高性能、持久化、多副本備份、橫向擴展能力。生產者往隊列里寫消息,消費者從隊列里取消息進行業務邏輯。一般在架構設計中起到解...
什么是協同過濾 協同過濾推薦(Collaborative Filtering recommendation)是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基于...
這篇文章會討論: 在什么情況下需要做 AB 實驗 從產品/交互角度,如何設計一個實驗 前端工程師如何打點 如何統計數據,并保證數據準確可信 如何分析實驗數據,有哪些數據需要重...
在大規模數據處理中,這個錯誤比較常見。一般發生在有大量shuffle操作的時候,task不斷的failed,然后又重執行,一直循環下去,直到application失敗。 報錯...
Spark-Job-Stage-Task之間的關系 基本概念 在開始之前需要先了解Spark中Application,Job,Stage等基本概念,官方給出的解釋如下表: J...
Hive調優集錦[https://blog.csdn.net/zhanglong_4444/article/details/117264381]Hive/HiveSQL常用優...