可视化¶
可视化 Doctra 处理结果的指南。
概述¶
Doctra 提供可视化工具,帮助您理解和验证文档处理结果。
布局可视化¶
显示带边界框的检测文档元素:
from doctra import StructuredPDFParser
parser = StructuredPDFParser()
parser.display_pages_with_boxes(
pdf_path="document.pdf",
num_pages=3
)
功能¶
- 颜色编码的元素:每种类型都有不同的颜色
- 置信度分数:显示检测置信度
- 网格布局:多个页面在有序网格中
- 元素计数:每页的摘要统计
颜色方案¶
- 🔵 蓝色:文本区域
- 🔴 红色:表格
- 🟢 绿色:图表
- 🟠 橙色:图形
配置¶
parser.display_pages_with_boxes(
pdf_path="document.pdf",
num_pages=5, # 要可视化的页数
cols=3, # 网格列数
page_width=700, # 页面宽度(像素)
spacing=40, # 页面之间的间距
save_path="viz.png" # 保存而不是显示
)
用例¶
- 质量保证:验证检测准确性
- 调试:识别布局问题
- 文档:创建可视化报告
- 分析:了解文档结构