比方说,我有一个大型网站,可能有一些电子邮件地址在垃圾邮件发送者身上。 我打算混淆或删除所有。
抓取我的网站来find我可能会暴露的任何电子邮件地址的最简单方法是什么?
无论是通过页面文本(谷歌可以拿起,但不是很好)或mailto:链接(谷歌不能)。
就像是:
wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/
然后
grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email
应返回包含您的域名电子邮件地址的所有页面(包含行号)的列表。
可能需要调整。
wget和grep的手册