我想培训我的SpamAssasinfilter,并且从2015年1月到2015年11月,我已经从该站点下载了所有SPAM焦点: untroubled.org/spam/
另外,我从我的个人Gmail帐户下载了我的火腿和垃圾邮件。 但是,我的整个Gmail邮件邮件大约有2500封邮件,而来自untroubled.org的这11个邮件包含大约410000封邮件。 所以,火腿/垃圾邮件的关系约为1:160,因此SpamAssassinfilter将会受到太多垃圾邮件的影响。
另一方面,这种垃圾邮件数据集站点主要是针对垃圾邮件研究者而不是系统pipe理员。
所以,我的问题是,什么是系统pipe理通常做什么,或者什么是推荐的做法? 他们使用这些types的数据集吗? 这有危险吗?
考虑到untroubled.org垃圾邮件收集方法投了一个广泛的networking,我没有看到与该数据训练Spamassassin的任何问题。
您应该考虑您的电子邮件服务器的范围,并决定是否需要手动扫描大量已知的垃圾邮件。 SA在根据内部规则过滤垃圾邮件方面做得相当不错,但是如果您有时间和倾向来手动扫描这些邮件,则不会对您的服务器造成任何问题。