test: Add reproduction script for LiteLLMEmbeddingEngine tokenizer model name parsing.

2025-12-19 18:20:17 +05:30 · 2025-12-19 18:20:17 +05:30 · 1cf0a202ce
commit 1cf0a202ce
parent d8d3844805
1 changed files with 50 additions and 0 deletions
--- a/reproduce_issue_1915.py
+++ b/reproduce_issue_1915.py
@ -0,0 +1,50 @@
+import sys
+import os
+import asyncio
+import logging
+
+# Add project root to path
+sys.path.append(os.getcwd())
+
+# Configure logging to see warnings/errors
+logging.basicConfig(level=logging.INFO)
+
+from cognee.infrastructure.databases.vector.embeddings.LiteLLMEmbeddingEngine import LiteLLMEmbeddingEngine
+from cognee.infrastructure.llm.tokenizer.HuggingFace import HuggingFaceTokenizer
+from cognee.infrastructure.llm.tokenizer.TikToken import TikTokenTokenizer
+
+def test_tokenizer_model_name():
+    print("--- Starting Reproduction Test ---")
+    
+    # Scenario: provider="custom", model="openai/BAAI/bge-m3"
+    # This simulates what the user reports using.
+    engine = LiteLLMEmbeddingEngine(
+        model="openai/BAAI/bge-m3",
+        provider="custom",
+        api_key="fake",
+        endpoint="fake"
+    )
+    
+    tokenizer = engine.get_tokenizer()
+    
+    print(f"Provider: {engine.provider}")
+    print(f"Model Input: {engine.model}")
+    print(f"Resulting Tokenizer: {type(tokenizer).__name__}")
+    
+    if hasattr(tokenizer, 'model'):
+        print(f"Tokenizer Model: {tokenizer.model}")
+        
+    # We expect or want HuggingFaceTokenizer with model="BAAI/bge-m3"
+    
+    if isinstance(tokenizer, HuggingFaceTokenizer):
+        if tokenizer.model == "BAAI/bge-m3":
+            print("SUCCESS: Tokenizer model is 'BAAI/bge-m3'")
+        else:
+            print(f"FAILURE: Tokenizer model is '{tokenizer.model}' (Expected 'BAAI/bge-m3')")
+    
+    elif isinstance(tokenizer, TikTokenTokenizer):
+         # If it fell back to TikToken, that means HF failed (likely because 'openai/BAAI/bge-m3' was passed)
+         print("FAILURE: Fell back to TikToken (likely due to HF loading error with 'openai/BAAI/bge-m3')")
+
+if __name__ == "__main__":
+    test_tokenizer_model_name()