跳转至

可视化

可视化 Doctra 处理结果的指南。

概述

Doctra 提供可视化工具,帮助您理解和验证文档处理结果。

布局可视化

显示带边界框的检测文档元素:

from doctra import StructuredPDFParser

parser = StructuredPDFParser()

parser.display_pages_with_boxes(
    pdf_path="document.pdf",
    num_pages=3
)

功能

  • 颜色编码的元素:每种类型都有不同的颜色
  • 置信度分数:显示检测置信度
  • 网格布局:多个页面在有序网格中
  • 元素计数:每页的摘要统计

颜色方案

  • 🔵 蓝色:文本区域
  • 🔴 红色:表格
  • 🟢 绿色:图表
  • 🟠 橙色:图形

配置

parser.display_pages_with_boxes(
    pdf_path="document.pdf",
    num_pages=5,        # 要可视化的页数
    cols=3,             # 网格列数
    page_width=700,     # 页面宽度(像素)
    spacing=40,         # 页面之间的间距
    save_path="viz.png" # 保存而不是显示
)

用例

  1. 质量保证:验证检测准确性
  2. 调试:识别布局问题
  3. 文档:创建可视化报告
  4. 分析:了解文档结构

CLI 可视化

doctra visualize document.pdf --num-pages 5 --output layout.png

另请参阅