掌握這些數據過濾的技巧,讓數據分析更高效!

隨著互聯網的飛速發展,呈爆炸式增長的數據使用戶逐漸迷失在了信息的海洋之中,在進行數據分析時,海量的業務數據往往會帶來一些問題:
準確性差:無效數據以及無需進行分析的數據混雜在其中,導致分析結果與實際偏差較大;
效率低:分析無用數據會帶來時間浪費、降低分析效率;
成本高:大量數據往往需要投入巨大的人力和時間成本。
想要解決這些問題,其中一個很重要的方式就是「數據過濾」,數據過濾可以對數據進行指定條件的識別和篩選,從而提升數據質量,為后續的數據分析提供有效數據。
明白了數據過濾的重要性之后,那有什么可以高效進行數據過濾的方法嗎?數據過濾主要分為行過濾和列過濾,今天就以Tempo 人工智能平臺為例,來大家一起來看一下具體的操作。
行過濾
01、比較運算符
可通過數據過濾節點根據用戶設置條件完成行數據的過濾和篩選。

02、邏輯運算符

?可通過過程查詢分析器節點根據指定的條件從接入的數據表中提取數據,通過配置過濾條件,完成數據過濾操作;
?首先使用關系數據庫輸入節點和過程查詢分析器節點構建流程;
?通過關系數據庫輸入節點上傳全國銷售訂單數據集;
?通過過程查詢分析器節點數據選擇頁簽選擇全國銷售訂單數據集選擇所需要的數據;
?通過過程查詢分析器節點數據過濾頁簽配置過濾條件以及且/或關系,比如要實現利潤大于50的同時訂單數量大于30的情況。流程執行成功后,在洞察查看運行結果。
Tempo人工智能平臺,如何進行邏輯運算符過濾





03、通配符
剛才講解的條件過濾都是對已知值進行的過濾,還有一種情況是我們要檢索文本中包含某個詞的所有數據,這里就需要使用通配符。通配符就是我們用來匹配值一部分的特殊字符。
?首先使用關系數據庫輸入節點和數據過濾節點構建流程;
?通過關系數據庫輸入節點上傳全國銷售訂單數據集;
?通過數據過濾節點配置過濾條件對包含值進行識別,選擇保留滿足以下全部條件的數據,比如過濾出數據中顧客姓名包含張的數據;
?流程執行成功后,在洞察查看運行結果。
Tempo人工智能平臺,如何進行通配符過濾




04、高級數據過濾
1)字段與字段
高級數據過濾可分為字段與字段、去重、單類別個數/占比、參數過濾以及擴展方式。
可通過數據過濾節點實現多個字段間進行查詢過濾條件
?首先使用關系數據庫輸入節點和數據過濾節點構建流程;
?通過關系數據庫輸入節點上傳全國銷售訂單數據集;
?通過數據過濾節點進行條件配置,完成字段與字段間過濾,比如過濾出利潤大于運輸成本的數據;
?流程執行成功后,在洞察查看運行結果。
Tempo人工智能平臺,如何進行多個字段間的過濾




2)數據去重
可通過數據去重節點實現支持用戶根據指定的方式對數據集的重復行進行處理。支持兩種去重方式:
?去掉所有列的完全重復數據;
?隨機保留一行和去掉指定列的完全重復數據。
3)單類別個數/占比
可通過數據過濾節點實現用戶對數據中的某個字段的取值個數或占比進行計算,并根據實際業務過濾掉所對應行。
4)參數過濾
參數過濾可通過過程查詢分析器節點從接入的數據表中提取數據,根據配置參數,從數據表中進行數據過濾操作。
?首先使用關系數據庫輸入節點和過程查詢分析器節點構建流程;
?點擊設置,在流程參數配置頁簽根據所需篩選條件進行參數配置;
?通過關系數據庫輸入節點上傳全國銷售訂單數據集;
?通過過程查詢分析器節點數據選擇頁簽選擇全國銷售訂單數據集選擇所需要的數據;
?通過過程查詢分析器節點數據過濾頁簽配置過濾條件選擇根據參數進行過濾;
?流程執行成功后,在洞察查看運行結果。
Tempo人工智能平臺,如何進行參數過濾







5)擴展方式
我們還可通過SQL編輯節點、計算列、python編程節點等方式進行數據過濾操作。
平臺中的計算列內置了多種函數及邏輯處理語句可幫助我們進行數據選擇、匯總組、過濾原始數據、過濾匯總數據、數據排序操作。
?首先使用關系數據庫輸入節點和過程查詢分析器節點構建流程;
?通過關系數據庫輸入節點上傳全國銷售訂單數據集;
?點擊計算列,輸入列名及對應表達式進行操作。
Tempo人工智能平臺,如何通過擴展方式進行過濾



列過濾
01、基于業務過濾
在實際應用中,根據業務情況我們可能還需要查詢大于某個值或不等于某個值的條件,通過勾選滿足條件的記錄數的方式篩選數據,可通過數據過濾節點進行過濾操作。還可以 基于業務的列過濾需要根據業務情況,過濾掉與后續建模或分析無關的列。
02、基于模型過濾
使用統計方法識別數據特征,基于識別特征情況進行數據列過濾。比如說預測設備是否發生故障與維修人員的姓名無關,在建模初期就將維修人員字段過濾。
AI支持通過屬性過濾節點讀取描述數據特征、woe編碼、變量選擇和相關系數輸出的模型,并通過不同的過濾條件添加字段,從而實現列過濾操作。
這里我們以描述數據特征模型進行說明。使用bankloan數據集進行描述數據,并將模型進行保存。

?首先使用樣例數據節點和屬性過濾節點構建流程;
?通過樣例數據節點上傳bankloan_Classification;
?雙擊屬性過濾節點,選擇基于模型選變量;
?選擇模型并進行篩選配置,篩選出缺失值占比等于0的字段;
?流程執行成功后,在洞察查看運行結果。
Tempo人工智能平臺,如何基于模型過濾







03、高級過濾
除了支持基于業務和基于模型的列過濾方法之外,我們還支持缺失值處理、自動數據處理、SQL編輯節點等其他方式進行數據列的過濾操作。
總結:
Tempo人工智能平臺作為一款通用的、企業級、智能化的數據分析模型構建與數據應用場景設計工具,內置了豐富的數據處理節點,支持行、列和高級等近30余種數據預處理方法,讓用戶能夠靈活地運用多種處理手段對數據進行過濾處理,為挖掘分析做好準備。
