Skip to content

[Bug]: 【紧急Bug,待修复】在使用label_studio转换模型时,doc_parser.parse()返回为空数组 #6724

@Viserion-nlper

Description

@Viserion-nlper

软件环境

- paddlepaddle:x
- paddlepaddle-gpu:2.5.1 
- paddlenlp: 2.5.2
- paddleocr: 2.6.1.3

重复问题

  • I have searched the existing issues

错误描述

#6598同样的问题

在使用uie-x进行数据预处理label_studio.py的时候,使用paddleocr解析完后 没有返回值,没有train.txt 、test.txt内容,

稳定复现步骤 & 代码

稳定复现,
在paddlenlp.utils.tools.DataConverter 378行
https://github.com/PaddlePaddle/PaddleNLP/blob/bc8df6ef875dab07862282c9d0ad22996c71a9e9/paddlenlp/utils/tools.py#L378C9-L378C93
DocParser.parse()返回值中的layout为空
parsed_doc["layout"] 没有值为空数组。
所以导致后续没有任何值输出 请问是哪里问题?
paddleocr解析失败?

Metadata

Metadata

Assignees

Labels

bugSomething isn't workingtriage

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions