如果我给sa-learn Maildir邮件作为垃圾邮件进行培训,它会毫无问题地使用它,但是当试图从我的个人Gmail帐户使用包含垃圾电子邮件的mbox文件时(使用https://takeout.google.com/settings/外卖/自定义/ Gmail ),它不喜欢它:
$ grep -c '^From ' spam.mbox 390 $ sa-learn --progress --no-sync --spam --mbox spam.mbox Learned tokens from 0 message(s) (0 message(s) examined)
所以,显然spam.mbox包含电子邮件(实际上是390个),但由于某种原因, sa-learn决定忽略它们。
这里可能发生了什么?
也许这并不理想,但是通过使用Thunderbird而不是Google Takeout实用程序导出我的Gmail垃圾邮件文件夹,我能够学会如何工作。 GTakeout的mbox格式似乎有一些奇怪的事情给SA带来麻烦。
要使用Thunderbird导出您的Gmail垃圾邮件文件夹,请使用以下步骤:
导出的mbox文件应该和sa-learn一起工作。