Fix: missing parameters in by_plaintext method for PDF naive mode

2025-11-20 15:58:48 +08:00 · 2025-11-20 15:58:48 +08:00 · 998d15bca1
commit 998d15bca1
parent dc2d3b579c
6 changed files with 6 additions and 7 deletions
--- a/rag/app/book.py
+++ b/rag/app/book.py
@ -113,6 +113,7 @@ def chunk(filename, binary=None, from_page=0, to_page=100000,
            lang = lang,
            callback = callback,
            pdf_cls = Pdf,
+            layout_recognizer = layout_recognizer,
            **kwargs
        )

--- a/rag/app/laws.py
+++ b/rag/app/laws.py
@ -172,6 +172,7 @@ def chunk(filename, binary=None, from_page=0, to_page=100000,
            lang = lang,
            callback = callback,
            pdf_cls = Pdf,
+            layout_recognizer = layout_recognizer,
            **kwargs
        )

--- a/rag/app/manual.py
+++ b/rag/app/manual.py
@ -213,6 +213,7 @@ def chunk(filename, binary=None, from_page=0, to_page=100000,
            lang = lang,
            callback = callback,
            pdf_cls = Pdf,
+            layout_recognizer = layout_recognizer,
            **kwargs
        )

--- a/rag/app/naive.py
+++ b/rag/app/naive.py
@ -111,13 +111,7 @@ def by_tcadp(filename, binary=None, from_page=0, to_page=100000, lang="Chinese",


 def by_plaintext(filename, binary=None, from_page=0, to_page=100000, callback=None, **kwargs):
-    parser_config = kwargs.get("parser_config", {})
-    layout_recognizer = parser_config.get("layout_recognize", "DeepDOC")
-
-    if isinstance(layout_recognizer, bool):
-        layout_recognizer = "DeepDOC" if layout_recognizer else "Plain Text"
-
-    if layout_recognizer == "Plain Text":
+    if kwargs.get("layout_recognizer", "") == "Plain Text":
        pdf_parser = PlainParser()
    else:
        vision_model = LLMBundle(kwargs["tenant_id"], LLMType.IMAGE2TEXT, llm_name=kwargs.get("layout_recognizer", ""), lang=kwargs.get("lang", "Chinese"))
--- a/rag/app/one.py
+++ b/rag/app/one.py
@ -99,6 +99,7 @@ def chunk(filename, binary=None, from_page=0, to_page=100000,
            lang = lang,
            callback = callback,
            pdf_cls = Pdf,
+            layout_recognizer = layout_recognizer,
            **kwargs
        )

--- a/rag/app/presentation.py
+++ b/rag/app/presentation.py
@ -142,6 +142,7 @@ def chunk(filename, binary=None, from_page=0, to_page=100000,
            lang = lang,
            callback = callback,
            pdf_cls = Pdf,
+            layout_recognizer = layout_recognizer,
            **kwargs
        )