我有成千上万的网页(需要使用用户名和密码login),如https://XXX.incometax.XXX/Preview/ViewDetail?TIN_INFO_NO=11935# ,其中只有最后四位数字(本例为11935)每个url都会发生变化。 每个url都会为不同types的表格中的纳税人收取税务信息。 根据每个纳税人在系统中input的信息提供表格。例如,一些纳税人的信息表显示了使用NID创build电子纳税人识别号码(eTIN)的人的国民身份证(NID)号码,以及某些纳税人的信息表显示了护照号码对于那些使用护照号码创buildeTIN的人)。所以底线是不同的纳税人信息表。 现在,我需要一种自动化方式来提取这些表格,以便创build所有新find的列,并将相应的列数据放在各自的列下。
例如,假设一个纳税人可以使用NID或护照号码创buildeTIN,但不是两者。首先,自动系统发现NID信息,在第二个通行证中find护照信息,现在它将创build一个新的护照列,并将相应的信息放在并且如果在第三遍中find了NID信息,那么它将把该信息放置在之前(第一遍)创build的NID列下面。最后,自动化系统将生成一个单一的csv文件。
注意我从该网站提取信息没有任何法律限制。我想要一个非程序化的解决scheme。