有没有任何标准或广泛使用的方法来从URL中提取“顶级主机名”?
例如,对于http://images.google.com我喜欢google.com (即使images.连接不同的服务器,也可以使用http://google.com ),而http://www.amazon.co.uk应该给amazon.co.uk 。
所以我喜欢去除任何子域的主机名。
Mozilla维护一个二级域名限制的编译列表。
说明: http : //publicsuffix.org/learn/
清单: http : //mxr.mozilla.org/mozilla-central/source/netwerk/test/unit/data/test_psl.txt?raw=1
该列表可以被parsing,派生的规则可以被用来检测第二级域是否是受限制的,因此主机名包括第三级域。