使用iTextPDF检测pdf是否含有xss注入脚本的方法

问题背景

在现代Web应用开发中，PDF文件的安全性往往被忽视。然而，PDF文件实际上可能成为XSS（跨站脚本）攻击的载体，给Web应用带来严重的安全风险。

安全风险分析

PDF文件格式本身支持JavaScript脚本，这意味着恶意攻击者可以在PDF文件中嵌入恶意JavaScript代码。当用户在浏览器中打开这样的PDF文件时，特别是在Chrome等现代浏览器中，这些恶意脚本可能会被执行，导致：

跨站脚本攻击（XSS）：窃取用户的敏感信息如Cookie、Session Token等
会话劫持：劫用用户的登录会话
钓鱼攻击：重定向用户到恶意网站
恶意代码执行：在用户浏览器环境中执行任意JavaScript代码

具体威胁场景

Chrome浏览器默认允许打开包含JavaScript脚本的PDF文件，这就为攻击者提供了可乘之机。例如，一个包含简单alert()弹窗的PDF文件看似无害，但实际上证明了PDF中的JavaScript代码可以被执行，攻击者完全可以用更复杂的恶意代码替换这些简单的示例。

可以下载如下pdf，用户检测和测试。

pdf_contains_javascript_alert

解决方案

为了防范这类安全威胁，我们需要在Web应用中实现PDF文件的安全检测机制。使用iTextPDF库，我们可以静态分析PDF文件的结构，识别其中是否包含JavaScript代码。

技术选型

iTextPDF库的优势：

成熟稳定的PDF处理库
提供底层PDF结构访问能力
支持全面的PDF对象检查
良好的异常处理机制

核心实现代码

以下是完整的PDF JavaScript检测实现：

PdfJsDetector.java

public class PdfJsDetector {
    /**
     * 检查PDF文件是否包含JavaScript脚本
     *
     * @param pdfBytes PDF文件的字节数组
     * @return 如果包含JavaScript脚本返回true，否则返回false
     */
    public static boolean containsJavaScript(byte[] pdfBytes) {
        try {
            com.itextpdf.text.pdf.PdfReader reader = new com.itextpdf.text.pdf.PdfReader(pdfBytes);
            com.itextpdf.text.pdf.PdfDictionary catalog = reader.getCatalog();

            // 检查PDF文件中的JavaScript
            boolean hasJavaScript = false;

            // 检查名为JavaScript的动作
            com.itextpdf.text.pdf.PdfDictionary names = catalog.getAsDict(com.itextpdf.text.pdf.PdfName.NAMES);
            if (names != null) {
                com.itextpdf.text.pdf.PdfDictionary js = names.getAsDict(com.itextpdf.text.pdf.PdfName.JAVASCRIPT);
                if (js != null) {
                    hasJavaScript = true;
                }
            }

            // 检查OpenAction是否包含JavaScript
            com.itextpdf.text.pdf.PdfObject openAction = catalog.get(com.itextpdf.text.pdf.PdfName.OPENACTION);
            if (openAction != null && openAction.isDictionary()) {
                com.itextpdf.text.pdf.PdfDictionary action = (com.itextpdf.text.pdf.PdfDictionary) openAction;
                com.itextpdf.text.pdf.PdfName subtype = action.getAsName(com.itextpdf.text.pdf.PdfName.S);
                if (subtype != null && subtype.equals(com.itextpdf.text.pdf.PdfName.JAVASCRIPT)) {
                    hasJavaScript = true;
                }
            }

            // 检查文档级附加动作(AA)字典
            com.itextpdf.text.pdf.PdfDictionary aa = catalog.getAsDict(new com.itextpdf.text.pdf.PdfName("AA"));
            if (aa != null) {
                // 检查各种文档事件
                hasJavaScript = checkActionDictionaryForJS(aa) || hasJavaScript;
            }

            // 检查每一页的注释（Annotations）是否包含JavaScript
            int pages = reader.getNumberOfPages();
            for (int i = 1; i <= pages; i++) {
                com.itextpdf.text.pdf.PdfDictionary page = reader.getPageN(i);

                // 检查页面级附加动作(AA)字典
                com.itextpdf.text.pdf.PdfDictionary pageAA = page.getAsDict(new com.itextpdf.text.pdf.PdfName("AA"));
                if (pageAA != null) {
                    hasJavaScript = checkActionDictionaryForJS(pageAA) || hasJavaScript;
                }

                com.itextpdf.text.pdf.PdfArray annotations = page.getAsArray(com.itextpdf.text.pdf.PdfName.ANNOTS);
                if (annotations != null) {
                    for (int j = 0; j < annotations.size(); j++) {
                        com.itextpdf.text.pdf.PdfDictionary annotation = annotations.getAsDict(j);
                        if (annotation != null) {
                            com.itextpdf.text.pdf.PdfDictionary action = annotation.getAsDict(com.itextpdf.text.pdf.PdfName.A);
                            if (action != null) {
                                com.itextpdf.text.pdf.PdfName subtype = action.getAsName(com.itextpdf.text.pdf.PdfName.S);
                                if (subtype != null && subtype.equals(com.itextpdf.text.pdf.PdfName.JAVASCRIPT)) {
                                    hasJavaScript = true;
                                    break;
                                }
                            }

                            // 检查注释的附加动作(AA)字典
                            com.itextpdf.text.pdf.PdfDictionary annotAA = annotation.getAsDict(new com.itextpdf.text.pdf.PdfName("AA"));
                            if (annotAA != null) {
                                hasJavaScript = checkActionDictionaryForJS(annotAA) || hasJavaScript;
                                if (hasJavaScript) break;
                            }
                        }
                    }
                    if (hasJavaScript) break;
                }
            }

            reader.close();
            return hasJavaScript;
        } catch (Exception e) {
            // 如果解析PDF时出现异常，出于安全考虑，我们认为它可能包含JavaScript
            return true;
        }
    }

    /**
     * 检查动作字典中是否包含JavaScript
     *
     * @param actionDict 动作字典
     * @return 如果包含JavaScript返回true，否则返回false
     */
    private static boolean checkActionDictionaryForJS(com.itextpdf.text.pdf.PdfDictionary actionDict) {
        if (actionDict == null) return false;

        // 检查所有可能的事件键
        String[] eventKeys = {"O", "C", "WC", "WS", "DS", "WP", "DP"};
        for (String key : eventKeys) {
            com.itextpdf.text.pdf.PdfDictionary action = actionDict.getAsDict(new com.itextpdf.text.pdf.PdfName(key));
            if (action != null) {
                com.itextpdf.text.pdf.PdfName subtype = action.getAsName(com.itextpdf.text.pdf.PdfName.S);
                if (subtype != null && subtype.equals(com.itextpdf.text.pdf.PdfName.JAVASCRIPT)) {
                    return true;
                }
            }
        }

        return false;
    }
}

检测原理详解

PDF JavaScript嵌入方式

PDF文件中JavaScript可能出现在多个位置：

文档级JavaScript名称树：通过Names字典中的JavaScript条目定义
打开动作（OpenAction）：文档打开时自动执行的动作
附加动作字典（AA）：各种文档事件触发的动作
页面级动作：特定页面的事件动作
注释动作：与PDF注释关联的交互动作

检测策略

我们的检测方法采用多层次、全覆盖的策略：

结构化检查：遍历PDF的完整对象结构
事件驱动检测：检查所有可能触发JavaScript的事件
递归搜索：深入检查嵌套的动作字典
异常安全：解析失败时采用保守的安全策略

集成与部署

Web应用集成示例

@RestController
public class FileUploadController {
    
    @PostMapping("/upload/pdf")
    public ResponseEntity<?> uploadPdf(@RequestParam("file") MultipartFile file) {
        try {
            byte[] pdfBytes = file.getBytes();
            
            // 安全检查
            if (PdfJsDetector.containsJavaScript(pdfBytes)) {
                return ResponseEntity.badRequest()
                    .body("文件被拒绝：检测到潜在的恶意JavaScript代码");
            }
            
            // 继续正常的文件处理逻辑
            return processSecurePdf(pdfBytes);
            
        } catch (Exception e) {
            return ResponseEntity.status(500)
                .body("文件处理失败：" + e.getMessage());
        }
    }
}

Maven依赖配置

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itextpdf</artifactId>
    <version>5.5.13</version>
</dependency>

安全建议

防御策略

输入验证：对所有上传的PDF文件进行安全检查
沙箱执行：在隔离环境中处理PDF文件
内容安全策略（CSP）：配置严格的CSP头部
用户教育：告知用户PDF文件的潜在风险

最佳实践

定期更新：保持iTextPDF库的最新版本
日志记录：记录所有可疑文件的检测日志
错误处理：采用"安全优先"的异常处理策略
性能优化：对大文件实施合理的处理超时机制

局限性与改进

当前局限性

混淆代码：无法检测经过复杂混淆的JavaScript
动态生成：无法识别运行时动态生成的脚本
新型攻击：可能无法覆盖未来出现的新攻击向量

改进方向

深度内容分析：增加对JavaScript代码内容的语义分析
机器学习：利用ML技术识别可疑的代码模式
沙箱执行：在安全环境中实际执行PDF以观察行为

总结

PDF文件中的JavaScript注入是一个真实存在的安全威胁，特别是在现代浏览器环境中。通过使用iTextPDF库实现的检测机制，我们可以在文件上传阶段就识别并阻止潜在的恶意PDF文件，从而保护Web应用和用户的安全。

虽然这种检测方法无法做到100%的完美，但它提供了一个重要的安全防护层。结合其他安全措施，可以显著降低PDF相关的安全风险。

示例恶意PDF文件和完整源代码可在博客附件中下载: pdf_contains_javascript_alert。