Beautiful Soup是一個Python包,功能包括解析HTML、XML文件、修復含有未閉合標籤等錯誤的文件。
https://www.youtube.com/watch?v=87Gx3U0BDlo (沒看)
官網:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
安裝:
1. install python (最新版的會自動安裝pip,它就是一種npm)
https://www.python.org/downloads/ 下載,安裝時記得勾選Add Python to PATH
2. pip install beautifulsoup4 (必須在linux環境運行)
3. pip install lxml
python包管理工具:
pdm全新的python包管理工具(因為pip中沒有node_modules的功能,所以需要再裝一個管理工具):PDM - 一款新的 Python 包管理器
pipenv和poetry 似乎是選擇開新的venv(virtual env 虛擬環境),但pdm和Pyflow都不多開虛擬環境,更像npm,尤其pdm但他們似乎都是剛出的包,還要再看看作者維不維護
指令大全:
https://www.maxlist.xyz/2019/07/13/pip-install-python/
pip show <package_name> 會顯示該package的各種資訊包含安裝的位置
學習目標:
1.
爬蟲 https://blog.gtwang.org/programming/python-beautiful-soup-module-scrape-web-pages-tutorial/3/ (靜態網頁)
selenium動態網頁爬蟲工具
2.
修復未閉合的標籤,不如找網站工具例如: https://www.aliciaramirez.com/closing-tags-checker/
沒有留言:
張貼留言