性能優(yōu)化,在 DAX 中是很重要的問題,對 DAX 的性能優(yōu)化大致可以歸結(jié)為針對 SE(存儲引擎) 或 FE(公式引擎) 的性能優(yōu)化。
如果可以確保 SE 和 FE 都在最好的狀態(tài)下工作,那么 DAX 將得到充分的發(fā)揮。而往往分析師會更加關(guān)注業(yè)務(wù)邏輯的表達(dá),但我們開始研究寫出更快的 DAX 時(shí),我們將成為會修車的分析師了。我們會通過一系列文章來幫助大家在各個(gè)角度來體會 DAX 的性能優(yōu)化技術(shù)。
今天我們來看一個(gè)案例。
看一個(gè)案例,我們想知道大訂單的個(gè)數(shù),如下:
OrderPurchaseNumber =
CALCULATE(
DISTINCTCOUNT( 'Order'[OrderID] ) ,
FILTER(
'Order' ,
'Order'[LinePrice] > 1000 && 'Order'[LineProfit] > 0
)
)
大訂單的定義為包含單價(jià)大于1000且利潤大于0的訂單。
這個(gè)定義沒有問題,放在 PowerBI 中的計(jì)算也是正確的,但不久就會發(fā)現(xiàn)它的性能問題,于是,通過 DAX Studio 來檢查可以看到:
我暈,居然驚現(xiàn)了 779 個(gè)查詢。
該查詢的意義是計(jì)算每天的大訂單個(gè)數(shù)。但這種方法顯然是不行的。雖然在度量值的定義上非常自然。
我們再來看看從 PowerBI 中拖拽的情況,如下:
如果研究該圖表背后的 DAX 查詢,其結(jié)果和上述內(nèi)容是一致的。
那么問題來了,我們建立了一個(gè)基礎(chǔ)度量值叫:OrderPurchaseNumber,其邏輯也很清楚,但卻有如此之差的性能,怎么辦呢?
原因分析
這里的問題在于發(fā)起了對 SE 的多次查詢,不難察覺:
FILTER(
'Order' ,
'Order'[LinePrice] > 1000 && 'Order'[LineProfit] > 0
)
這里使用了 Order 表作為 FILTER 的參數(shù),而且位于基礎(chǔ)度量值的位置,導(dǎo)致在迭代日期時(shí),每次都會做單獨(dú)計(jì)算,導(dǎo)致對 SE 的過度重復(fù)訪問。
改進(jìn)措施
有一種做法是,可以將度量值改為:
OrderPurchaseNumber =
CALCULATE(
DISTINCTCOUNT( 'Order'[OrderID] ) ,
FILTER(
ALL( 'Order' ) ,
'Order'[LinePrice] > 1000 && 'Order'[LineProfit] > 0
)
)
注意,這里用了 ALL( 'Order' ) 而非 'Order' ,這顯然是不對的,因?yàn)樗淖兞苏Z義。
那么進(jìn)而想到另一種方式為:
OrderPurchaseNumber =
CALCULATE(
DISTINCTCOUNT( 'Order'[OrderID] ) ,
FILTER(
ALL( 'Order'[LinePrice] , 'Order'[LineProfit] ) ,
'Order'[LinePrice] > 1000 && 'Order'[LineProfit] > 0
)
)
這樣的方式僅僅使用需要用到的兩列,而非整個(gè)表,來看下效果:
性能得到了非常恐怖的提升。
但細(xì)心的伙伴會發(fā)現(xiàn),這種寫法的努力方向是對的,但這種寫法還是錯(cuò)誤的,因?yàn)椋?/p>
FILTER(
ALL( 'Order'[LinePrice] , 'Order'[LineProfit] ) ,
'Order'[LinePrice] > 1000 && 'Order'[LineProfit] > 0
)
作為篩選器參數(shù),會覆蓋外部的篩選,這也是不正確的邏輯,所以,需要進(jìn)一步優(yōu)化為:
OrderPurchaseNumber =
CALCULATE( DISTINCTCOUNT( 'Order'[OrderID] ) ,
KEEPFILTERS(
FILTER(
ALL( 'Order'[linePrice] , 'Order'[LineProfit] ) ,
'Order'[LinePrice] > 1000 && 'Order'[LineProfit] > 0
)
)
)
性能結(jié)果為:
完美。
總結(jié)
當(dāng)需要在基礎(chǔ)度量值中使用篩選條件時(shí),必須注意:
- 僅僅使用所必須的列,提升性能
- 使用 KEEPFILTERS 包裹,確保邏輯正確
這樣,基礎(chǔ)度量值就可以攜帶復(fù)雜的篩選器參數(shù)而不影響性能了。