用Python批量转换html为txt文件 - That Interpreter

老师有一批网页文件，需要转换成纯文本。思路是这样的：

将所有html文件放置“html”文件夹里；
遍历所有html文件，并读取内容；
将内容写入“txt”文件夹里与html文件同名的纯文本文件；
显示转换进度。

用Python实现还是不难的，代码如下：

import os
from bs4 import BeautifulSoup

# 源文件夹和目标文件夹。把所有文件放进源文件夹里
INPUT = "./html"
OUTPUT = "./txt"

# 遍历文件夹下的所有html文件
for file in os.listdir(INPUT):
    file_name = INPUT + "/" + file
    
    # 读取html内容
    html_content = open(file_name, "rb")
    text = BeautifulSoup(html_content).get_text()

    # 纯文本文件名，是去除html后缀名的部分
    text_name = file[: -5]

    # 将纯文本内容写入目标文件夹的纯文本文件
    with open(f"{OUTPUT}/{text_name}.txt".format(file), "a", encoding="utf-8") as file_handle:
        file_handle.write(text)
        file_handle.write('\n')
        # 显示进度
        print(f"Converting {text_name}.txt")

print("Done!")

对本文有帮助的文章：

《python 将html文件转化为txt文件》

发表回复取消回复

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据。