国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

掌握這些數(shù)據(jù)過濾的技巧,讓數(shù)據(jù)分析更高效!

美林數(shù)據(jù)技術股份有限公司
+ 關注
2023-04-06 17:15
1027次閱讀

隨著互聯(lián)網(wǎng)的飛速發(fā)展,呈爆炸式增長的數(shù)據(jù)使用戶逐漸迷失在了信息的海洋之中,在進行數(shù)據(jù)分析時,海量的業(yè)務數(shù)據(jù)往往會帶來一些問題:
準確性差:無效數(shù)據(jù)以及無需進行分析的數(shù)據(jù)混雜在其中,導致分析結(jié)果與實際偏差較大;
效率低:分析無用數(shù)據(jù)會帶來時間浪費、降低分析效率;
成本高:大量數(shù)據(jù)往往需要投入巨大的人力和時間成本。
想要解決這些問題,其中一個很重要的方式就是「數(shù)據(jù)過濾」,數(shù)據(jù)過濾可以對數(shù)據(jù)進行指定條件的識別和篩選,從而提升數(shù)據(jù)質(zhì)量,為后續(xù)的數(shù)據(jù)分析提供有效數(shù)據(jù)。
明白了數(shù)據(jù)過濾的重要性之后,那有什么可以高效進行數(shù)據(jù)過濾的方法嗎?數(shù)據(jù)過濾主要分為行過濾和列過濾,今天就以Tempo 人工智能平臺為例,來大家一起來看一下具體的操作。

行過濾
01、比較運算符
可通過數(shù)據(jù)過濾節(jié)點根據(jù)用戶設置條件完成行數(shù)據(jù)的過濾和篩選。

TempoAI高效數(shù)據(jù)過濾


02、邏輯運算符

TempoAI高效數(shù)據(jù)過濾


?可通過過程查詢分析器節(jié)點根據(jù)指定的條件從接入的數(shù)據(jù)表中提取數(shù)據(jù),通過配置過濾條件,完成數(shù)據(jù)過濾操作;
?首先使用關系數(shù)據(jù)庫輸入節(jié)點和過程查詢分析器節(jié)點構(gòu)建流程;
?通過關系數(shù)據(jù)庫輸入節(jié)點上傳全國銷售訂單數(shù)據(jù)集;
?通過過程查詢分析器節(jié)點數(shù)據(jù)選擇頁簽選擇全國銷售訂單數(shù)據(jù)集選擇所需要的數(shù)據(jù);
?通過過程查詢分析器節(jié)點數(shù)據(jù)過濾頁簽配置過濾條件以及且/或關系,比如要實現(xiàn)利潤大于50的同時訂單數(shù)量大于30的情況。流程執(zhí)行成功后,在洞察查看運行結(jié)果。
Tempo人工智能平臺,如何進行邏輯運算符過濾

TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾
 

03、通配符
剛才講解的條件過濾都是對已知值進行的過濾,還有一種情況是我們要檢索文本中包含某個詞的所有數(shù)據(jù),這里就需要使用通配符。通配符就是我們用來匹配值一部分的特殊字符。

?首先使用關系數(shù)據(jù)庫輸入節(jié)點和數(shù)據(jù)過濾節(jié)點構(gòu)建流程;
?通過關系數(shù)據(jù)庫輸入節(jié)點上傳全國銷售訂單數(shù)據(jù)集;
?通過數(shù)據(jù)過濾節(jié)點配置過濾條件對包含值進行識別,選擇保留滿足以下全部條件的數(shù)據(jù),比如過濾出數(shù)據(jù)中顧客姓名包含張的數(shù)據(jù);
?流程執(zhí)行成功后,在洞察查看運行結(jié)果。
Tempo人工智能平臺,如何進行通配符過濾

TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾


04、高級數(shù)據(jù)過濾
1)字段與字段
高級數(shù)據(jù)過濾可分為字段與字段、去重、單類別個數(shù)/占比、參數(shù)過濾以及擴展方式。
可通過數(shù)據(jù)過濾節(jié)點實現(xiàn)多個字段間進行查詢過濾條件

?首先使用關系數(shù)據(jù)庫輸入節(jié)點和數(shù)據(jù)過濾節(jié)點構(gòu)建流程;
?通過關系數(shù)據(jù)庫輸入節(jié)點上傳全國銷售訂單數(shù)據(jù)集;
?通過數(shù)據(jù)過濾節(jié)點進行條件配置,完成字段與字段間過濾,比如過濾出利潤大于運輸成本的數(shù)據(jù);
?流程執(zhí)行成功后,在洞察查看運行結(jié)果。
Tempo人工智能平臺,如何進行多個字段間的過濾

TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾
TempoAI高效數(shù)據(jù)過濾

2)數(shù)據(jù)去重
可通過數(shù)據(jù)去重節(jié)點實現(xiàn)支持用戶根據(jù)指定的方式對數(shù)據(jù)集的重復行進行處理。支持兩種去重方式:

?去掉所有列的完全重復數(shù)據(jù);
?隨機保留一行和去掉指定列的完全重復數(shù)據(jù)。
3)單類別個數(shù)/占比
可通過數(shù)據(jù)過濾節(jié)點實現(xiàn)用戶對數(shù)據(jù)中的某個字段的取值個數(shù)或占比進行計算,并根據(jù)實際業(yè)務過濾掉所對應行。
4)參數(shù)過濾
參數(shù)過濾可通過過程查詢分析器節(jié)點從接入的數(shù)據(jù)表中提取數(shù)據(jù),根據(jù)配置參數(shù),從數(shù)據(jù)表中進行數(shù)據(jù)過濾操作。

?首先使用關系數(shù)據(jù)庫輸入節(jié)點和過程查詢分析器節(jié)點構(gòu)建流程;
?點擊設置,在流程參數(shù)配置頁簽根據(jù)所需篩選條件進行參數(shù)配置;
?通過關系數(shù)據(jù)庫輸入節(jié)點上傳全國銷售訂單數(shù)據(jù)集;
?通過過程查詢分析器節(jié)點數(shù)據(jù)選擇頁簽選擇全國銷售訂單數(shù)據(jù)集選擇所需要的數(shù)據(jù);
?通過過程查詢分析器節(jié)點數(shù)據(jù)過濾頁簽配置過濾條件選擇根據(jù)參數(shù)進行過濾;
?流程執(zhí)行成功后,在洞察查看運行結(jié)果。
Tempo人工智能平臺,如何進行參數(shù)過濾

TempoAI參數(shù)過濾
TempoAI參數(shù)過濾
TempoAI參數(shù)過濾
TempoAI參數(shù)過濾
TempoAI參數(shù)過濾
TempoAI參數(shù)過濾
TempoAI參數(shù)過濾


5)擴展方式
我們還可通過SQL編輯節(jié)點、計算列、python編程節(jié)點等方式進行數(shù)據(jù)過濾操作。
平臺中的計算列內(nèi)置了多種函數(shù)及邏輯處理語句可幫助我們進行數(shù)據(jù)選擇、匯總組、過濾原始數(shù)據(jù)、過濾匯總數(shù)據(jù)、數(shù)據(jù)排序操作。

?首先使用關系數(shù)據(jù)庫輸入節(jié)點和過程查詢分析器節(jié)點構(gòu)建流程;
?通過關系數(shù)據(jù)庫輸入節(jié)點上傳全國銷售訂單數(shù)據(jù)集;
?點擊計算列,輸入列名及對應表達式進行操作。
Tempo人工智能平臺,如何通過擴展方式進行過濾

TempoAI高效數(shù)據(jù)處理
TempoAI高效數(shù)據(jù)處理
TempoAI高效數(shù)據(jù)處理

 

列過濾
01、基于業(yè)務過濾
在實際應用中,根據(jù)業(yè)務情況我們可能還需要查詢大于某個值或不等于某個值的條件,通過勾選滿足條件的記錄數(shù)的方式篩選數(shù)據(jù),可通過數(shù)據(jù)過濾節(jié)點進行過濾操作。還可以 基于業(yè)務的列過濾需要根據(jù)業(yè)務情況,過濾掉與后續(xù)建模或分析無關的列。
02、基于模型過濾
使用統(tǒng)計方法識別數(shù)據(jù)特征,基于識別特征情況進行數(shù)據(jù)列過濾。比如說預測設備是否發(fā)生故障與維修人員的姓名無關,在建模初期就將維修人員字段過濾。
AI支持通過屬性過濾節(jié)點讀取描述數(shù)據(jù)特征、woe編碼、變量選擇和相關系數(shù)輸出的模型,并通過不同的過濾條件添加字段,從而實現(xiàn)列過濾操作。
這里我們以描述數(shù)據(jù)特征模型進行說明。使用bankloan數(shù)據(jù)集進行描述數(shù)據(jù),并將模型進行保存。

TempoAI高效數(shù)據(jù)處理

?首先使用樣例數(shù)據(jù)節(jié)點和屬性過濾節(jié)點構(gòu)建流程;
?通過樣例數(shù)據(jù)節(jié)點上傳bankloan_Classification;
?雙擊屬性過濾節(jié)點,選擇基于模型選變量;
?選擇模型并進行篩選配置,篩選出缺失值占比等于0的字段;
?流程執(zhí)行成功后,在洞察查看運行結(jié)果。
Tempo人工智能平臺,如何基于模型過濾

TempoAI高效數(shù)據(jù)處理
TempoAI高效數(shù)據(jù)處理
TempoAI高效數(shù)據(jù)處理
TempoAI高效數(shù)據(jù)處理
TempoAI高效數(shù)據(jù)處理
TempoAI高效數(shù)據(jù)處理
TempoAI高效數(shù)據(jù)處理

 

03、高級過濾
除了支持基于業(yè)務和基于模型的列過濾方法之外,我們還支持缺失值處理、自動數(shù)據(jù)處理、SQL編輯節(jié)點等其他方式進行數(shù)據(jù)列的過濾操作。

總結(jié):
Tempo人工智能平臺作為一款通用的、企業(yè)級、智能化的數(shù)據(jù)分析模型構(gòu)建與數(shù)據(jù)應用場景設計工具,內(nèi)置了豐富的數(shù)據(jù)處理節(jié)點,支持行、列和高級等近30余種數(shù)據(jù)預處理方法,讓用戶能夠靈活地運用多種處理手段對數(shù)據(jù)進行過濾處理,為挖掘分析做好準備。

[免責聲明]

原文標題: 掌握這些數(shù)據(jù)過濾的技巧,讓數(shù)據(jù)分析更高效!

本文由作者原創(chuàng)發(fā)布于36氪企服點評;未經(jīng)許可,禁止轉(zhuǎn)載。

資深作者美林數(shù)據(jù)技術股份有限公司
美林數(shù)據(jù)技術股份有限公司
0
美林數(shù)據(jù)技術股份有限公司
實力廠商
實力廠商
優(yōu)質(zhì)服務
優(yōu)質(zhì)服務
及時響應
及時響應
立即詢價
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內(nèi)容
消息通知
咨詢?nèi)腭v
商務合作