實習紀錄 - 資料智慧技術中心/資料經緯組

Arthor Icon

吳冠頡

2023/11/17

我們建立這套ELT系統的目標在於實現data-fabric的去中心化原則,透過結合Dagster、ODD、以及dbt等工具,我們構建了一個有效且高度可視化的數據流程管理系統。以下是我在這個專案中的主要工作內容:


1.去中心化原則實現

透過ELT系統的建立,我們實現了data-fabric的去中心化原則,將數據流程管理轉移到更分散的模式中,減輕了中心化管理的風險。

2. API健康度檢測(Dagster紅綠燈)

利用Dagster紅綠燈檢測API的健康度,特別關注交通相關API,以提前辨識可能的數據回覆問題,節省資料工程師的時間並確保資料的及時性。

3.資料脈絡追蹤(ODD)

使用ODD(數據血統檢查)建立數據的脈絡,清晰追蹤數據的來源、轉換和流動過程。這使得需要了解資料脈絡的團隊成員能夠迅速準確地理解數據的來龍去脈。同時,ODD也為領域專家提供了介入的機會,他們可以透過專業的know-how參與數據血統的檢查,確保數據的品質和完整性。這種直接的參與方式讓領域專家更加深入地了解數據流動的細節,進而提供更有價值的專業見解。

4.資料族譜功能(dbt)

利用dbt進行數據轉換,將原始數據轉換成更有助於模型訓練的格式。同時,dbt記錄轉換過程,提供未來分析工作的參考,並提供豐富的轉換函數應對不同的數據需求。


透過這套ELT系統,我們不僅實現了data-fabric的去中心化原則,還提高了數據的可用性和分析的效率。同時,我們為未來chatbot的訓練提供了豐富、高品質的數據資源。


VS