DIY AI 第 6 部分:使用 Python 映射目录以实现高效的数据组织

如果您一直在关注我们的 DIY AI 项目,那么您应该准备好调度脚本,现在我们将使用它来开始收集数据,我们将能够使用这些数据来训练我们正在创建的 AI。对于此任务,我们将解决扫描目录中的文件元数据的问题,这是许多人工智能应用程序的基本功能。

有关文件的元数据(例如大小、修改日期和文件类型)通常是数据分析、机器学习预处理或系统监控等高级功能的起点。这些信息可以帮助 AI 查找文件、对文件进行排序等。

一开始,该脚本只会扫描您的桌面以查找文件,因为这是许多人的计算机上发生大部分操作的地方,并且它通常可以帮助组织。然而,它很容易更改为扫描任何你想要的文件,它甚至会扫描整个硬盘驱动器,这将是资源密集型的。脚本扫描驱动器后,它将创建一个日志,一旦您有足够的日志,您就可以继续下一步,我们稍后将讨论这一点。

让我们首先分解脚本并看看它是如何工作的。然后,我将粘贴整个代码,以便您可以复制并粘贴它。如果您还没有阅读过早期的指南,那么最好确保您能跟上进度并拥有继续操作所需的一切。

导入必要的库

您应该安装此脚本所需的所有库,但仍然需要导入它们。

创建 scan_directory 函数。

该函数执行扫描目录和收集元数据的核心任务。它查看目录和所有子目录并检索文件的大小以及上次修改的时间。然后它将时间戳转换为可读日期。

“名字”:名字,

“扩展”:扩展,

代码的下一部分告诉脚本它应该扫描哪个目录并打印它找到的内容的前几行,以便您知道它正在工作,因为如果您的桌面有很多文件和文件夹,则可能需要一些时间才能完成。您可以更改此设置以扫描任何目录。

如果 __name__ == "__main__":

project_root = Path(__file__).resolve().parent.parent

data_dir = 项目根目录/“数据”

Directory_Mapper_dir = data_dir /“Directory_Mapper_Data”

Directory_mapper_dir.mkdir(父母= True,exist_ok = True)

发表评论

您的电子邮件地址不会被公开, 必填字段已标记 *