老师有一批网页文件,需要转换成纯文本。思路是这样的:
- 将所有html文件放置“html”文件夹里;
- 遍历所有html文件,并读取内容;
- 将内容写入“txt”文件夹里与html文件同名的纯文本文件;
- 显示转换进度。
用Python实现还是不难的,代码如下:
import os from bs4 import BeautifulSoup # 源文件夹和目标文件夹。把所有文件放进源文件夹里 INPUT = "./html" OUTPUT = "./txt" # 遍历文件夹下的所有html文件 for file in os.listdir(INPUT): file_name = INPUT + "/" + file # 读取html内容 html_content = open(file_name, "rb") text = BeautifulSoup(html_content).get_text() # 纯文本文件名,是去除html后缀名的部分 text_name = file[: -5] # 将纯文本内容写入目标文件夹的纯文本文件 with open(f"{OUTPUT}/{text_name}.txt".format(file), "a", encoding="utf-8") as file_handle: file_handle.write(text) file_handle.write('\n') # 显示进度 print(f"Converting {text_name}.txt") print("Done!")
对本文有帮助的文章: