1.图片常见处理图片 OCR 图片里写了什么字图片 caption 这张图大概画了什么图片附近正文 PDF 里紧挨着图片的解释文字图片所在页全文 图片所在那一整页的文字ocr工具Releases · UB-Mannheim/tesseract · GitHubunstructured的切割原理文档地址Document elements and metadata - Unstructured元素说明元素类型 描述 Formula 文档中包含公式的元素。 FigureCaption 用于捕获与图注相关的文本的元素。 NarrativeText 叙述文本是由多个结构完整的句子组成的元素。这不包括标题、页眉、页脚和图注等元素。 ListItem ListItem 是 NarrativeText 元素它是列表的一部分。 Title 用于显示标题的文本元素。 Address 用于记录实际地址的文本元素。 EmailAddress 用于收集电子邮件地址的文本元素。 Image 用于捕获图像元数据的文本元素。 PageBreak 用于捕获分页符的元素。 Table 用于捕获表格的元素。 Header 用于捕获文档标题的元素。 Footer 用于捕获文档页脚的元素。 CodeSnippet 用于捕获代码片段的元素。 PageNumber 用于获取页码的元素。 UncategorizedText 用于捕获文档内自由文本的基本元素。参数说明filename: Optional[str] None PDF 文件路径。比如 docs/a.pdf。 file: Optional[IO[bytes]] None 已经打开的二进制文件对象。通常和 filename 二选一。 include_page_breaks: bool False 是否在结果里包含分页符/分页元素用来标记页与页之间的断点。 strategy: str PartitionStrategy.AUTO 解析策略。AUTO 表示自动选择。常见策略可能包括普通文本提取、OCR、高精度布局识别等。 infer_table_structure: bool False 是否推断表格结构。开启后会尝试把表格解析成更结构化的形式而不是普通文本。 ocr_languages: Optional[str] None OCR 识别语言旧参数注释里说正在废弃。比如 eng、chi_sim 等具体取决于底层 OCR 支持。 languages: Optional[list[str]] None OCR/语言识别使用的语言列表。新参数可能用来替代 ocr_languages。比如 [eng, chi_sim]。 detect_language_per_element: bool False 是否对每个元素单独检测语言。比如标题是中文、正文是英文时可以分别判断。 metadata_last_modified: Optional[str] None 手动指定文档的最后修改时间元数据。比如 2024-01-01。 chunking_strategy: Optional[str] None 分块策略。通常由装饰器使用用来控制解析出的元素如何进一步合并成 chunk。 hi_res_model_name: Optional[str] None 高精度解析时使用的模型名称。通常用于布局检测、表格检测、图片区域识别等。 extract_images_in_pdf: bool False 是否从 PDF 中提取图片。这个参数可能是旧接口后面更推荐用 extract_image_block_types 之类的参数。 extract_image_block_types: Optional[list[str]] None 指定要提取哪些类型的图像块。比如可能包括 Image、Table 等具体看库支持。 extract_image_block_output_dir: Optional[str] None 图片/图像块提取后保存到哪个目录。 extract_image_block_to_payload: bool False 是否把提取出来的图像块直接放进返回结果的 payload 里而不是保存成文件路径。 starting_page_number: int 1 起始页码编号。默认第一页编号为 1。如果你的 PDF 是从某本书第 10 页开始的可以设成 10。 extract_forms: bool False 是否提取 PDF 表单内容比如可填写表单里的字段。 form_extraction_skip_tables: bool True 提取表单时是否跳过表格区域。默认跳过避免把表格误判成表单。 password: Optional[str] None PDF 密码。如果 PDF 加密了可以传密码。 pdfminer_line_margin: Optional[float] None pdfminer 的行间距合并参数。影响哪些文字行会被认为属于同一个文本块。 pdfminer_char_margin: Optional[float] None pdfminer 的字符间距参数。影响字符/单词如何被合并。 pdfminer_line_overlap: Optional[float] None pdfminer 的行重叠判断参数。影响文本行识别。 pdfminer_word_margin: Optional[float] 0.185 pdfminer 的词间距参数。影响什么时候在字符之间插入空格。默认是 0.185。PDF 页面一个el只对应图中一个框一段字 / 一张表 / 一张图┌─────────────────────────────┐│ Title → el #1 ││ 正文段落 → el #2 ││ ┌─────────┐ ││ │ 表格 │ → el #3 ││ └─────────┘ ││ ┌─────────┐ ││ │ 图片 │ → el #4 ││ └─────────┘ │└─────────────────────────────┘标题分父子索引