Python 必學資料庫

數據科學家每天都用的資料庫

對於新手而言(其實對老手也是),經常瀏覽官方的 Python 文件是最好的學習方式。你可以看到最新的修正,也可以直接查詢編碼的用法,以下為您列出三大中文 Python 官方與資料庫網站:

Python

Python 官方是所有學習數據科學的第一站。對於中文的學習者,Python 教學 是不錯的開始(部分章節僅有簡體翻譯)。

你不但可以一步不按照官方的設計學習 Python,有時如果你好奇對應的英文翻譯,隨時切換上方英文就可以同步翻譯成英文內容,對工作需要用英文溝通的人非常有用:

對於學習的方式,我們建議先大致瀏覽你覺得需要的章節再來詳細閱讀。因為是官方的內容,許多解釋對於初學者過於攏長,如果你是完全沒接觸過 Python 但想要一步步透過官方網站學習,我們建議學習下列章節即可:

  1. 非正式 Python 簡介
  2. 流程控制
  3. 資料結構

NumPy

學會 Python 的基本知識後,NumPy 是接著也是必學的單元。NumPy 是 Python 裡負責數字運算的主要模組,不論是學習數據科學或其他領域,基本上都需要對它有一定的認知。

你可以透過 官方學習中文學習(簡體)快速了解 NumPy 的應用。

pandas

接下來是使用 pandas 來整理數據。初學者可以利用 快速上手十分鐘 pandas 來快速學習。

pandas 的主要功能是將搜集數據加以整理,所以是學數據科學基礎的重中之重。

Matplotlib

Python 第一個繪圖資料庫就是 Matplotlib。Matplotlib 擁有十分強大的繪圖功能,不過就因為功能太多導致初學者在剛開始學習會遇到許多困難。如果對 Python 與 NumPy 有一點基礎的人可以利用官方教學來快速入門。

Seaborn

Seaborn 與 Matplotlib 一樣都是 Python 最常用繪圖資料庫。Seaborn 與 Matplotlib 最大的不同在於 Seaborn 較容易上手,只需要瞭解一些基本的功能就可以輕易地繪出相當專業的圖形。

另外,因為 Seaborn 設計的初衷就是視覺化統計數據,使用函數與輸出的圖形都非常的注重統計數據的表達與呈現。對於注重視覺化的數據商業分析師而言,Seaborn 是非常重要的元素。

scikit-learn

最後我們來看機器學習中的基礎資料庫:scikit-learn。當然在現在流行的資料庫中有許多其他好用的模組,但 scikit-learn 對於初學者而言仍是必學的基礎。

機器學習中重要的課題:特徵工程、參數調整、模型優化與部署等都可以在 scikit-learn 中實踐。

請告訴我們

請告訴我們您的問題或勘誤建議。
您的意見是我們前進的動力,非常感激!