HTTP代理处理不同的编码

我正在使用networking爬虫,所以我parsingHTML页面。 我的问题是有时页编码不是UTF8(ISO,异国情调的Windows [0-9]等),我的分析器失败。

我尝试了许多PHP / Java / NodeJS的解决scheme来转换内容,但总是有问题。

是否存在一个代理模块(nginx,squid,varnish ….)将内容字符集自动转换为UTF8?

charset 应该在头文件中声明 – 如果不是utf-8然后转换它 – iconv在大多数Linux和Unix版本上都可用。 如果你正在build立一个networking爬虫,那么在你的代码中集成比在代理中更容易。