數據科學家 vs 工程師

了解數據科學中的每個專業人士

數據科學角色

在上個章節我們討論了數據金字塔中每個領域的工作,現在我們要一一介紹相對應領域中的專業人士。請注意,我們的介紹僅用於一般情況,在不同的領域或商業需求中,有可能會有不同的解讀方式。

數據工程師

從下至上,第一個角色是 數據工程師 (Data engineer)。 數據工程師負責整個數據分析生態鏈中重複性最高的工作,目的是將收集的數據整理、儲存為往後的分析工作做好準備,所以對程式語言有較高的門檻。

數據工程師不一定需要了解分析方法,但要熟稔幾種基本的程式語言(C++, Java, SQL, Python 等)能有效的進行數據擷取、搜尋、轉換和儲存,而且最好是能擁有對各個平台之間有全面性的了解,因為數據工程師必須要在不同的平台中擷取數據,例如社群網站和 IoT 傳感器。

數據工程師的職位其實極度缺乏,因為一般都過於注重「分析」與「應用」但缺乏了對數據本身的品質管控:數據的搜集、儲存與整理。事實上,就算是再好的分析師如果沒有有好品質的數據,其分析很難有正確的結果。

商業分析師

業務分析師 (Business analyst, BA) 是目前在商業中非常需要的領域人才。無論是從零售、廣告、政府、地產以致中小型企業等,都需要商業分析師能將目前快速且大量出現的數據加以分機進而創造商業利益、改善效能和擴大市場等目的。

在上章我們看到無需編程經驗的數據分析,商業分析師使用商業智能軟體將數據可視化,有效地將枯燥的數字轉換成好理解的圖形與互動式報表,因為商業分析師的任務就是運用數據來提升其商業目的,包含:提升運營、效能、開發客源與降低成本等。

一個好的商業分析師必須有效的運用數據,來證明對該公司的營運或企業目標有顯著的影響力。商業分析首先著重的不是編程或分析能力,而是對商業領域的充分理解 (domain knowledge) 是商業分析師的第一要務。每個商業分析師都必須先是該領域的專家,其次再來提升分析數據的能力。換句話說,一個資深廣告業商的業分析師也許無法適任於石油公司。

數據科學家

數據科學家 (Data scientist) 是一個涵蓋許多任務的角色。一般而言在規模較小的公司裡,數據科學家必須處理前端數據工程師的工作(搜集與儲存數據),而大部分的數據科學家都必須具備機器學習的知識和簡單演算法的理解。

因為建立模型、預測與優化模型是數據科學家的核心技能,所以,基本上一個好的數據科學家不僅要有紮實的數據分析能力(統計、整理數據、演算法理解與優化),還要有敏銳的企業觀察力與有效的溝通能力。

這就是為何一個數據科學家的養成如此困難,因為必須要有跨領域的知識(統計、資訊工程、程式語言、機器學習與演算法等)還要有實際在商業環境中操作的經驗。

機器學習工程師

機器學習工程師 (Machine learning engineer, ML engineer) 是更專注於特定商業問題和產品的角色。 ML工程師在一些地方也可以被稱為 深度學習工程師 或 研究科學家。

與數據科學家相似,一些公司可能會要求 ML 工程師也負責數據工程師的工作,但是 ML 工程師的核心技能是了解並創造各種 AI 軟硬體,研究、優化演算法以及部署 AI 產品的能力。例如提高 Apple Siri 的語音辨識能力或如何有效地在每個活動的查票口部署體溫及人臉辨識。 

在某些情況下,ML 工程師可能被稱為全棧數據科學家 (full-stack ML engineer),期望該職位能夠勝任 AI 和數據科學領域所有面向的技能。

請告訴我們

請告訴我們您的問題或勘誤建議。
您的意見是我們前進的動力,非常感激!