如果您一直在關注我們的 DIY AI 項目,那麼您應該準備好調度腳本,現在我們將使用它來開始收集數據,我們將能夠使用這些數據來訓練我們正在創建的 AI。對於此任務,我們將解決掃描目錄中的檔案元資料的問題,這是許多人工智慧應用程式的基本功能。
有關文件的元資料(例如大小、修改日期和文件類型)通常是資料分析、機器學習預處理或系統監控等高級功能的起點。這些資訊可以幫助 AI 尋找文件、對文件進行排序等。
一開始,該腳本只會掃描您的桌面以查找文件,因為這是許多人的電腦上發生大部分操作的地方,而且它通常可以幫助組織。然而,它很容易更改為掃描任何你想要的文件,它甚至會掃描整個硬碟,這將是資源密集的。腳本掃描磁碟機後,它將建立一個日誌,一旦您有足夠的日誌,您就可以繼續下一步,我們稍後將討論這一點。
讓我們首先分解腳本並看看它是如何工作的。然後,我將貼上整個程式碼,以便您可以複製並貼上它。如果您還沒有閱讀過早期的指南,那麼最好確保您能跟上進度並擁有繼續操作所需的一切。
導入必要的庫
您應該安裝此腳本所需的所有庫,但仍然需要匯入它們。
建立 scan_directory 函數。
此函數執行掃描目錄和收集元資料的核心任務。它會查看目錄和所有子目錄並檢索檔案的大小以及上次修改的時間。然後它將時間戳轉換為可讀日期。
「名字」:名字,
「擴展」:擴展,
程式碼的下一部分告訴腳本它應該掃描哪個目錄並列印它找到的內容的前幾行,以便您知道它正在工作,因為如果您的桌面有很多文件和資料夾,則可能需要一些時間才能完成。您可以變更此設定以掃描任何目錄。
如果 __name__ == "__main__":
project_root = Path(__file__).resolve().parent.parent
data_dir = 項目根目錄/“資料”
Directory_Mapper_dir = data_dir /“Directory_Mapper_Data”
Directory_mapper_dir.mkdir(父母= True,exist_ok = True)