Đây là các thư viện Python để xử lý file Excel, không yêu cầu phải chạy trên môi trường Windows, có thể sử dụng cả với Python 2 & 3:
Thư viện Python để xử lý file Excel
openpyxl
Thư viện được đề xuất cho việc đọc ghi file Excel 2010 (xlsx)
- Download: http://pypi.python.org/pypi/openpyxl
- Tài liệu: https://openpyxl.readthedocs.org/
- Bitbucket: https://bitbucket.org/openpyxl/openpyxl
xlsxwriter
Thư viện để ghi dữ liệu, format, tạo bảng biểu cho Excel 2010 (xlsx)
- Download: https://pypi.python.org/pypi/XlsxWriter
- Tài liệu: https://xlsxwriter.readthedocs.org/
- GitHub: https://github.com/jmcnamara/XlsxWriter
xlrd
Thư viện đọc, ghi file excel với dịnh dạng cũ (xls)
- Download: http://pypi.python.org/pypi/xlrd
- Tài liệu: http://xlrd.readthedocs.io/en/latest/
- GitHub: https://github.com/python-excel/xlrd
xlwt
Thư viện đọc, ghi file excel với dịnh dạng cũ (xls)
- Download: http://pypi.python.org/pypi/xlwt
- Tài liệu: http://xlwt.readthedocs.io/en/latest/
- Examples: https://github.com/python-excel/xlwt/tree/master/examples
- GitHub: https://github.com/python-excel/xlwt
xlutils
Thư viện tổng hợp cả xlrd, openpyxl và xlwt, để xử lý copy và chỉnh sửa các file excel
- Download: http://pypi.python.org/pypi/xlutils
- Tài liệu: http://xlutils.readthedocs.io/en/latest/
- GitHub: https://github.com/python-excel/xlutils
Pandas là gì?
Pandas là một thư viện mã nguồn mở, được cấp phép BSD cung cấp các cấu trúc dữ liệu và các công cụ phân tích dữ liệu hiệu suất cao, dễ sử dụng cho ngôn ngữ lập trình Python. Nó hỗ trợ đọc các định dạng file: CSV, MS Excel, HTML, SQL,…
- Trang chủ: https://pandas.pydata.org/
- Github: https://github.com/pandas-dev/pandas
- Tài liệu: http://pandas.pydata.org/pandas-docs/stable/
Đối với Excel, Pandas sử dụng tích hợp các thư viện xlrd, openpyxl, xlsxwriter và xlwt (Mặc định là xlrd). Nếu sử dụng thư viện nào thì bạn cần phải cài đặt thư viện đó, tất nhiên là cài đặt thông qua công cụ quản lý pip3 của Python 3
Cài đặt thư viện Pandas
Sử dụng công cụ quản lý pip3 để cài Pandas:
pip3 install pandas
Vì mặc đinh Pandas sử dụng thư viện đọc Excel là xlrd nên chúng ta cần cài thêm xlrd:
pip3 install xlrd
Hiện tại thì phiên bản mới nhất của xlrd đã không còn hỗ trợ định dang file xlsx, nếu nếu bạn muốn sử dụng thì hãy cài version thấp hơn là 1.2.0
pip3 install xlrd==1.2.0
Hoặc cài bản openpyxl
pip3 install openpyxl
Đọc file Excel với Pandas
VD: sử dụng Pandas đọc file example.xls có format như sau:
Source Code:
#! /usr/bin/python3 import pandas as pd xl = pd.ExcelFile('example.xls') # get the first sheet as an object df = pd.read_excel(xl, 0, header=None) print(df.head())
Kết quả:
Trường hợp là file xlsx chúng ta cần cài openpyxl và chuyển sang sử dụng khi đó:
pd.read_excel(path, engine = 'openpyxl')
Một số xử lý file Excel với Pandas
– Lấy giá trị của 1 cell cố định
df.at[1, 1]
Kết quả như trong file Excel ví dụ sẽ là: STT
– Lấy dữ liệu của 1 cột
df.iloc[:, 0]
– Lấy số số tổng số dòng dữ liệu của file Excel
max_rows = len(df.iloc[:, 0])
– Kiểm tra dữ liệu kiểu nan
pd.isnull(df.at[1, 1])
Nguồn: vinasupport.com