Articles of pdf

我将如何创build一个PDF打印服务器?

我有一些WindowsXP的旧工作站,我可以安装几乎所有的东西,一个有80人左右的办公室,一个wintel环境,一个现有的Server 2003文件/打印机服务器,每个人都希望能够打印PDF文件,最好还可以select为这些PDF添encryption码encryption。 哦,Adobe的PDF打印服务器的许可证费用是很高的。 我宁愿不用写代码,我更像是一个编程人员,而不是程序员。 所以基于PHP或Perl的解决scheme可能是一个偏好,虽然我愿意尝试几次。 最好,我想要一个系统,其中PDF处理由一个(或多个)这些旧工作站处理。 任何人都可以安装的打印服务器上的共享PDF打印机将作业发送到这个旧的工作站,这个工作站将处理这些文件,创buildPDF并在请求的情况下增加安全性,然后将结果文件放到个人networking目录中谁打印的文件。 文件名不重要,为了防止处理重复,我宁愿他们只是基于date和时间的string。 我应该看什么样的图书馆或脚本? 如果你做了这样的事情,你怎么做的? 我应该远离什么,为什么?

我怎样才能呈现在高分辨率的HTML?

我想创build一个网站的高品质的打印,出版物。 屏幕截图在打印出来的时候会变得非常坚韧,没有任何理由。 embedded的位图图像当然不能被改进,但是没有理由为什么字体不能以更高的分辨率被渲染以至less使得文本更具可读性。 到目前为止,我所做的是将屏幕分辨率设置得非常高,使浏览器全屏,然后打印字体大小 – 但这不是理想的解决scheme,因为它会使页面的比例变得怪异。 而且分辨率不是杂志的质量。 有没有一个程序,可以让我导出的HTML页面以高分辨率的光栅格式,或向量graphics格式,如PDF或SVG?

从命令行导出SharePoint Wiki到PDF

我们在办公室使用SharePoint维基*作为我们IT运营的知识库。 最近我们经历了一次灾难恢复工作,我们意识到我们的计划中存在一个关键问题:如果由于某些服务处于脱机状态,您的说明手册已closures,如何恢复服务? 无论如何,我们确实意识到,维基的angular度绝对是我们想要保留的东西,而是我们应该探索一种方法来创build维基的离线备份,这可以很容易地阅读使用通用软件,我们应该能够在没有任何知识的情况下设置维基。 那么,有没有人知道一个好的实用工具,可以采取一个SharePoint维基并转储到PDF / Word / RTF的/ [插入人类友好格式]容易从命令行? – 是的,那里有更好的解决scheme。 但是这很容易,并且使用现有的基础架构,并且通常做我们需要做的事情。

主存储的容量优化/重复数据删除选项

我正在探索更有效地使用我们的主存储的选项。 我们目前的NAS是带有HP Storageworks MSA20的HP ProLiant DL380 G5和另一个磁盘架,我不确定它是什么。 我们的绝大多数文件都是PDF文件(数以百万计),具有高度的相似性。 在来自George Crump (来自Data Domain的Dedupe Central )的专家意见 中 ,在关于粒度的部分中,他说:“要有效地进行重复数据删除,需要使用可变长度段在子文件级进行。 这很难find,但我正是需要的。 大多数重复数据删除选项似乎是基于块的,这对于最大限度地减less备份占用的空间非常有效,因为只有更改的块被存储,但是基于块的技术在我们的块内不会find位于不同偏移处的相同片段PDF文件。 有一天我偶然遇到了Ocarina Networks ,这看起来正是我们所需要的。 存储瑞士的实验室报告概述 – 主存储的重复数据删除比较Ocarina Networks和NetApp是“主存储重复数据删除领域的两个领导者”。 理想情况下,我们希望继续使用我们现有的NAS,但要高效得多。 我遇到的另一个解决scheme是Storwize ,它似乎执行单个文件的内联压缩,并与重复数据删除解决scheme集成在一起。 还有什么其他解决scheme和信息资源?

基于文本文件的文件准备系统

我正在寻找一个系统来准备内部技术文件,其具有以下基本特征: 源文件应该是人类可读的文本文件,所以它们在版本控制方面performance良好 支持基本格式(如图像,表格,粗体等) 同时使用英文和中文字符 输出为PDF 例如,我可以让用户编写HTML页面并将页面打印为PDF,但这看起来很复杂且容易出错,而HTML仅仅是“人类可读的”。 LaTeX也非常复杂,它有很多的依赖关系,可能会使处理几年前的文档变得困难。 有没有人有更好的build议?

为什么我们看到PDF下载的Apache 206部分响应?

在查看我们的Apache访问日志时,当用户从我们的服务器下载PDF文件时,经常发生以下情况(但不总是)。 该URL首先被请求并以状态200(ok)和全部回复大小递送,然后紧随其后的是来自同一客户机的相同URL的多个请求,具有较小的回复大小和206(部分回复)状态码。 换句话说,有些客户端首先下载整个PDF成功,然后出现下载文件的许多“块”。 为什么我们看到这个?

如何在Windows中将一个非常大的HTML文件转换为PDF

我们有几个非常大的HTML文件(60-100 MB),我们不能以任何可靠性转换为PDF。 Adobe Acrobat 9崩溃 – 达到应用程序的2GB限制。 打开Office转换,但删除了一些锚()。 ActivePDF webgrabber崩溃。 是使用64位的情况下这种types的select吗? 我看到了一堆选项,但它们可以比Adobe Acrobat 9本身更好吗?

nginx适合用于PDF吗?

这是一个虚拟的问题。 我必须公开使用​​PDF,比方说8 MB /文件。 在我看来,只要是静态的,nginx将会提供任何types的文件。 但有人告诉我,nginx不适合这个。 你能提供一些文件来certificate我/他错了吗?

任何工具,以类似于Acrobat的OCRfunction的方式自动化扫描PDF文件的OCR?

开源首选,但不是必需的。 我已经安装了Adobe Acrobat 8​​,并且非常喜欢OCRfunction,它可以在扫描文档的顶部放置一层OCR文字。 因此,您在屏幕上看到的是原始扫描的文档,但结果是可search的。 我正在寻找的是一种使这个过程自动化的方法。 目前,我有一些脚本用于处理和归档扫描的文件,并且正在寻找一些我可以直接插入到这个批处理过程中的东西,以类似于我能用Acrobat做的方式进行OCR。 所有的build议欢迎,谢谢!

在Linux上快速PDF到JPG转换想要

我目前使用Imagemagick将PDF转换为JPEG光栅图像。 这是痛苦的缓慢,耗尽了大量的内存。 我使用的命令是: convert -geometry 1024×768 -density 200 -colorspace RGB foo.pdf bar%02d.jpg 我猜这是慢的,因为它使用ghostscript。 但是在Linux上必须有一个更快的方法来做到这一点。 有没有人find更好的解决scheme? 欢呼垫子