老师有一批网页文件,需要转换成纯文本。思路是这样的:

  1. 将所有html文件放置“html”文件夹里;
  2. 遍历所有html文件,并读取内容;
  3. 将内容写入“txt”文件夹里与html文件同名的纯文本文件;
  4. 显示转换进度。

用Python实现还是不难的,代码如下:

import os
from bs4 import BeautifulSoup

# 源文件夹和目标文件夹。把所有文件放进源文件夹里
INPUT = "./html"
OUTPUT = "./txt"

# 遍历文件夹下的所有html文件
for file in os.listdir(INPUT):
    file_name = INPUT + "/" + file
    
    # 读取html内容
    html_content = open(file_name, "rb")
    text = BeautifulSoup(html_content).get_text()

    # 纯文本文件名,是去除html后缀名的部分
    text_name = file[: -5]

    # 将纯文本内容写入目标文件夹的纯文本文件
    with open(f"{OUTPUT}/{text_name}.txt".format(file), "a", encoding="utf-8") as file_handle:
        file_handle.write(text)
        file_handle.write('\n')
        # 显示进度
        print(f"Converting {text_name}.txt")

print("Done!")

对本文有帮助的文章:

《python 将html文件转化为txt文件》

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据