數據科學家

疫情之下,不論是企業還是個人,都在逐漸加深對互聯網及電子產品的依賴,為全球的數據量迎來爆發性的增長。作為其中一個新興行業,數據科學的發展前景和待遇都吸引了許多不同背景的人士入行。如果你也有興趣踏足大數據的領域,這篇數據科學家入門指南將會解答你所有疑問,並助你邁出轉變的第一步。

數據科學是什麼?

身處一個數據大爆炸的年代,我們日常生活中的每一個細節幾乎都離不開數字。為了善用這些源源不絕的資訊,並從中發掘出有用的資訊和見解,與之相關的學科應運而生,亦就是我們今天的主題 —— 「數據科學」(Data Science)。

事實上,數據科學並非一門獨立的學科,而是融合了電腦科學、統計學、數學、軟件開發、機器學習等多個現有學科的跨領域專業。

透過應用一系列邏輯及分析技巧,數據科學讓我們可以深入洞悉數據背後的模式及意涵,從而做出有根據的商業決定。

舉例來說,通過數據科學,零售業可以總結出店舖人流最旺的時段,從而安排相應的人手工作,減省不必要的成本。

參考資料:TIBCO

數據科學家(Data Scientist)做什麼?

顧名思義,數據科學家 (Data Scientist) 就是將數據科學付諸實行的專家。

早在60年代,企業便會聘請專人負責理解和分析數據。話雖如此,由於當時資訊科技尚未普及,市場上可供探索的數據非常有限,與現代相比,工作量可以說是不足掛齒。而隨著學術和科技的不斷進步,數據科學家可以處理的事務也越來越多,漸漸從單純的收集和分析數據,拓展到有能力就未來方向提供精準的預測,為企業創造更大的價值。

數據科學家的工作範疇非常廣闊,包括:

  1. 根據企業要求,提出一個切實可行的研究角度
  2. 從不同渠道收集數據,並確保數據的質素
  3. 將數據整合並分門別類儲存妥當
  4. 規劃數據的分析程序和研究框架
  5. 揀選合適的統計模型和演算法
  6. 應用不同的數據分析技巧,如人工智能及機器學習
  7. 核實數據分析結果,進一步完善闊度和深度
  8. 根據蒐集得到的數據分析報告,預測未來走勢
  9. 將數據資料視覺化,確保行外人也能準確理解
  10. 回應各持分者提出的問題和意見,改進數據分析策略

參考資料:TIBCOXccelerate

數據科學家 VS 數據分析家

一般而言,數據科學家的職業生涯都是從數據分析家開始,所以數據科學家又被視為這個領域中,較高級的職位。

以下為大家整合兩者最主要的分別:


數據分析家

數據科學家

工作重點

  • 搜集並整合數據

  • 進行數據分析

  • 將繁雜的數據簡化為圖像 

  • 研發邏輯和分析模型

  • 優化現有的統計演算法

  • 預測未來趨勢

  • 向持份者匯報數據分析及發現

學術要求

  • 基本編程及數據相關知識

  • 修畢相關學士課程

  • 持有碩士或博士課程

  • 資深的編程及數據處理技巧

常用工具

  • SQL

  • Python

  • SAS

  • Tableau

  • BI

  • Excel

  • SQL

  • Python

  • Tableau

  • RScala

  • Spark

  • Hadoop

  • AWS

  • Databricks

  • Jupyter Notebook

適合人士

  • 剛出社會的畢業生

  • 未有豐富行內經驗

  • 具備深厚的行業相關知識

  • 有豐富的數據分析經驗


參考資料:XccelerateTechOrange

數據科學的應用

數據科學的應用範疇非常廣泛,幾乎各行各業都在迫切招攬相關人才,帶領公司在數據主導的年代中拔得頭籌。

以下列舉了7個和數據科學最密不可分的行業:


數據科學應用

能源業

分析未來的能源挑戰,助公司重新調配資源以實現所需的平衡

金融保險

分析投保人的特性和需求,強化保險管理並以專業角度提供保障額度建議

衞生保健

結合一系列醫療數據,從而提高治療效果並降低醫療服務成本

製藥

取代不必要的臨床試驗,既節省新藥驗證成本,又能加快新藥研發速度

製造業

分析整個生產流程的數據,得出各種參數的最佳設定值,大幅提高生產效率

欺詐識別

分析掌握欺詐個案的模式,從而精準快速地識別異常數據或危險信號

初創公司

分析有助初創企業進行商業分析,在最大程度上提高決策質量


參考資料:TIBCO

數據科學家需要的技能

業務技能

數據科學的初衷在於協助企業解決問題,因此,數據科學家必須具備敏銳的商業觸覺,懂得如何「問對的問題」。

舉例來說,假如企業的挑戰在於銷售額停滯不前,相比起「我該如何提高銷售額?」這類模棱兩可、空泛抽象的問題,一個及格的數據科學家應該深入現象背後的根源,調查「甚麼貨品的銷售額最高?」、「顧客通常來自哪一個年齡層?」、「過去哪些促銷活動能帶來最高轉換率?」等更具體、可研究等題目。

和進行科學實驗一樣,數據科學家同樣需要先就研究提出假設 (Hypothesis),再開始制定研究方法、收集資料並正式開始進行數據分析。

分析技能

作為一名數據科學家,當然要具備清晰的邏輯思維,從而分析複雜數據的規例,並挖掘背後的商業價值。

數據分析是一個繁複但重要的過程,當中包括收集和整合原始數據、測試數據可用性、篩除錯誤數據等一系列工作。在確保數據正確無誤之後,數據科學家需要利用批判性思維,合併或修改現成工具,從以創建出最理想的分析模型和演算法,

計算機科學

科技發展一日千里,現代的數據科學家無須再事事親力親為,而是可以借助機器學習和人工智能的能力,實現高效的數據分析方案。

但是,由於各行各業的要求都不一樣,數據科學家有可能需要調整相關的模型架構及演算法,以確保其性能及準確度不會受到影響。一旦運算期間出現故障,數據科學家亦需要懂得如何除錯 (Debug),讓機器和人工智能能夠朝著正確的方向學習、成長並發展,為數據分析的流程帶來最大效益。

參考資料:TIBCO

如何成為數據科學家?

具備相關學歷

修讀和數據科學相關的學位,可以說是成為數據科學家的關鍵第一步。

由於數據科學尚算是一個新興學科,所以你並不一定要挑選專門的學位,事實上,現時不少知名的數據科學家都是統計學、數學、資訊科技、電腦科學等專業出身。假如你無法長時間投入全職學生的生活,也可以考慮參與更具針對性的短期課程,重點鍛煉自己的編程、資料庫建構、數據分析工具運用等技巧,為將來的事業發展打下強心針。

熟悉數據科學技能

如果你希望成為數據科學中的佼佼者,自然需要對各種常用的技能了如指掌,當中包括統計學和計算學、模型建構、機器學習、深度學習、數據管理及分析、數據可視化等等,涵蓋多個不同範疇。

所謂「讀萬卷書,不如行千里路」,除了要吸收書本上的知識,你亦應該把握課餘的實習機會,將學習到的技能一一應用到現實項目當中。如果你有興趣實踐,網絡上有許多開源的數據庫可供你練習,例如是KaggleNASAWikipediaUCL Machine Learning Repository,全都是一些很受初學者歡迎的網站。

參考資料:TIBCOXccelerate

數據科學出路和人工

鑒於疫情加速了數碼轉型的步伐,市場對數據科學家的需求正在不斷上升。直至2022年4月, JobsDB上有關數據科學的空缺已多達5,280個,其熱度可見一斑。

根據Glassdoor,香港的數據科學家月均收入為HK$35,500,實際數字或會因應個人經驗及公司政策而有所調整。

為了方便你掌握市場實況,以下歸納了10個知名企業的薪酬水平:

香港公司

平均月入 (HKD)

月入水平 (HKD)

香港匯豐銀行

$42,750

$32,000 至 $60,000

中國銀行 (香港)

$27,500

$24,000 至 $31,000

IBM

$43,500

$40,000 至 $47,000

香港大學

$22,000

$21,000 至 $23,000

香港中文大學

$24,000

$23,000 至 $25,000

香港城市大學

$60,000

$57,000 至 $63,000

香港科技大學

$55,500

$57,000 至 $62,000

Lalamove

$47,000

$45,000 至 $49,000

微軟

$38,500

$38,000 至 $41,000

友邦保險

$30,000

$29,000 至 $31,000


參考資料:TIBCOXccelerateJobsDB

數據科學課程

數據科學的知識和技能,並不是一朝一夕就能夠精通的。同理,由於數據科學牽涉的範疇十分廣闊,涵蓋數學、編程、商業分析甚至是消費者心理等等,所以你必須確保自己是以正確的順序學習知識,否則有可能浪費不少繞遠路的時間成本。

比方說,僅是編程語言就有數十種不同選擇,並非每一種都適用於數據科學,假如你耗費大量心力後,才發現學習的編程技術並無實際用途,無疑會磨滅你對數據科學的熱誠。

因此,對於初涉足數據科學的人士而言,一般都建議在經驗豐富的導師帶領下,探索行內必備知識和技能,打穩基礎才考慮自學。

Preface的Data Science & A.I. with Python是一個短期實戰課程,濃縮了多個數據科學的主題:

  • 如何利用Python快速提取並解讀數據
  • 使用APIs爬取網絡
  • 數據數據收集及整合
  • 核實數據及建模
  • 機器學習
  • 深度學習
  • 自然語言處理及圖像分類技術
  • 數據可視化

為了助學生有系統地掌握有關知識及技巧,每個主題的鋪排環環緊扣、相輔相成,旨在將學習效益最大化。在課程尾聲,學生還可以從零開始建立、訓練並部署自己專屬的機器學習模型,不但可以測試自己在課堂中的得著,還可以作為日後申請工作的作品集。

立即按此登記一小時免費課堂!

參考資料:TIBCO

FAQ

1. 成為多久才能成為數據科學家?

每個人的經驗、能力、機遇都不一樣,所以答案在很大程度上取決於個人的發展進程。

話雖如此,KDnuggets的一項調查發現,成為一名數據科學家平均需要5年時間,而在亞洲地區的數據科學家則需時約4.9年。

2. 成為數據科學家要花多少錢?

數據科學家必須具備跨領域的視野和知識,而這一切都需要透過各式高等教育和訓練才能逐漸積累。

舉例來說,在香港修讀數據分析學碩士學位平均需要HK$210,000至HK$300,000。假如你希望透過Boot camp和其他課程來提升個人能力,更需要額外繳付$10,000至HK$50,000不等的學費,當中尚未計算時間、軟硬件、資源購置等成本,絕對是一筆價值不菲的投資。

資料來源:WorldScholarshipForum

Total
0
Shares
Related Posts
VR-Developer

VR工程師人工幾多?一文了解VR行業發展、如何為入行做準備

VR工程師人工幾多?一文了解VR行業發展、如何為入行做準備 虛擬實境可謂2022年最具增長潛力的技術之一。虛擬實境不再只出現於科幻小說之中,它正在一步一步融入我們的生活、塑造未來。科技巨頭Meta、Google、Microsoft 等都不曾在VR/AR的應用程式、設備上停止開發,雖然在香港較少人討論VR工程師,但在未來求職市場上湧現大批相關空缺絕非空談,我們應該如何Gear Up自己,為未來做好準備?Preface一文介紹VR行業發展、如何為入行做準備。 VR 工程師可以搵食? AR/VR 技術用途廣泛,很多領先公司已經慢慢開始將 AR 或 VR 應用到他們的業務之中。 虛擬助理公司SightCall使用 AR 和人工智能引導客戶解決問題 Avegant開發萬字夾的重量的AR眼鏡 TOMS與VR技術公司合作創建了一個「虛擬捐贈之旅」 在「元宇宙」概念大熱的情況下,甚至有傳微軟Microsoft…
Read More