文章加密

;

2021年3月15日 星期一

beautiful soap

Beautiful Soup是一個Python包,功能包括解析HTML、XML文件、修復含有未閉合標籤等錯誤的文件。

https://www.youtube.com/watch?v=87Gx3U0BDlo  (沒看)


官網:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

安裝:

1. install python (最新版的會自動安裝pip,它就是一種npm)
    https://www.python.org/downloads/ 下載,安裝時記得勾選Add Python to PATH

2. pip install beautifulsoup4 (必須在linux環境運行)

3. pip install lxml


python包管理工具:

pdm全新的python包管理工具(因為pip中沒有node_modules的功能,所以需要再裝一個管理工具):PDM - 一款新的 Python 包管理器

pipenvpoetry 似乎是選擇開新的venv(virtual env 虛擬環境),但pdm和Pyflow都不多開虛擬環境,更像npm,尤其pdm但他們似乎都是剛出的包,還要再看看作者不維護



指令大全:

https://www.maxlist.xyz/2019/07/13/pip-install-python/

pip show <package_name> 會顯示該package的各種資訊包含安裝的位置



學習目標:

1.

爬蟲 https://blog.gtwang.org/programming/python-beautiful-soup-module-scrape-web-pages-tutorial/3/ (靜態網頁)


selenium動態網頁爬蟲工具



2.

修復未閉合的標籤,不如找網站工具例如: https://www.aliciaramirez.com/closing-tags-checker/

沒有留言:

張貼留言