目錄
Toggle什麼是Pandas?
Pandas是一個用於數據操作和分析的強大Python庫。特別適合處理結構化數據(例如CSV、Excel文件等)。使用Pandas可以輕鬆地載入、操作和分析數據。
安裝Pandas及依賴庫
在開始使用Pandas讀取Excel文件之前,你需要安裝Pandas和openpyxl(用於處理Excel文件的依賴庫)。你可以使用以下的pip命令來安裝這些庫:
pip install pandas openpyxl
讀取Excel文件
Pandas提供read_excel函數來讀取Excel文件。這個函數非常靈活,提供了多種參數來滿足不同需求。以下是一些常用的參數及其說明:
- io:Excel文件的路徑,或者包含Excel內容的文件對象。
- sheet_name:選擇讀取的工作表,可以是工作表的名稱或索引。如果想讀取多個工作表,可以傳入列表。
- header:指定用作標題(列名)的行號,默認為0。
- names:自定義的列名列表。
- index_col:將某列設為索引列。
基本例子
以下是一個基本的例子,展示如何使用Pandas讀取Excel文件:
import pandas as pd
# 讀取單個工作表
df = pd.read_excel('example.xlsx', sheet_name='Sheet1')
# 顯示數據框架的前5行
print(df.head())
讀取多個工作表
如果要讀取多個工作表,可以將工作表名稱或索引作為列表傳入sheet_name參數。這將返回一個字典,其中鍵是工作表名稱,值是對應的DataFrame:
data = pd.read_excel('example.xlsx', sheet_name=['Sheet1', 'Sheet2'])
# 打印Sheet1的數據框架
print(data['Sheet1'].head())
# 打印Sheet2的數據框架
print(data['Sheet2'].head())
自定義列名及指定索引列
你可以使用names參數來指定自定義的列名,使用index_col參數來設置索引列:
df = pd.read_excel('example.xlsx', sheet_name='Sheet1', names=['Column1', 'Column2', 'Column3'], index_col=0)
# 顯示數據框架的前5行
print(df.head())
處理缺失值
在導入Excel數據時,有時會遇到缺失值(NA值)。Pandas自動將NA值識別為NaN。你可以使用參數na_values來指定缺失值的表示方式:
df = pd.read_excel('example.xlsx', sheet_name='Sheet1', na_values=['NA', 'Missing'])
# 顯示數據框架的前5行
print(df.head())
總結
這篇教學介紹了如何使用Pandas的read_excel函數來讀取Excel文件。從基礎的單工作表讀取到多工作表讀取,以及自定義列名和索引列的設置。希望這些內容能幫助你更好地理解和使用Pandas進行數據處理。