如何从网页捕捉不同结构的表格

我有成千上万的网页（需要使用用户名和密码login），如https://XXX.incometax.XXX/Preview/ViewDetail?TIN_INFO_NO=11935# ，其中只有最后四位数字（本例为11935）每个url都会发生变化。每个url都会为不同types的表格中的纳税人收取税务信息。根据每个纳税人在系统中input的信息提供表格。例如，一些纳税人的信息表显示了使用NID创build电子纳税人识别号码（eTIN）的人的国民身份证（NID）号码，以及某些纳税人的信息表显示了护照号码对于那些使用护照号码创buildeTIN的人）。所以底线是不同的纳税人信息表。现在，我需要一种自动化方式来提取这些表格，以便创build所有新find的列，并将相应的列数据放在各自的列下。

例如，假设一个纳税人可以使用NID或护照号码创buildeTIN，但不是两者。首先，自动系统发现NID信息，在第二个通行证中find护照信息，现在它将创build一个新的护照列，并将相应的信息放在并且如果在第三遍中find了NID信息，那么它将把该信息放置在之前（第一遍）创build的NID列下面。最后，自动化系统将生成一个单一的csv文件。

注意我从该网站提取信息没有任何法律限制。我想要一个非程序化的解决scheme。