我有一个大约100GB的数据库。 每天数据库必须更新大约8GB的数据。 使用第三方(Apple)编写的脚本(python)将数据导入到数据库中。 数据是与数据库中的不同表有关的文件的集合。
目前每天更新数据库大约需要15个小时。 我正在我的本地机器上运行更新(四核2.6GHz,6GB RAM,32位Ubuntu 11和MySQL 5.1)。
最终,这个过程将被卸载到Amazon EC2服务。 为了显着缩短每天摄取所有数据所需的时间,优化此过程的最佳方法是什么?
您的build议将不胜感激。 谢谢。
使用CSV文件和LOAD DATA INFILE ,这比运行SQL要快得多。
另一个select是通过启动多个客户端或使用Maatkit的mk-parallel-restore来并行导入SQL文件