From 830c6710e074d06504fc02231b5d1a34fec61f21 Mon Sep 17 00:00:00 2001
From: Leon Luithlen <leon@topoteretes.com>
Date: Wed, 13 Nov 2024 11:45:56 +0100
Subject: [PATCH] Fix chunk_by_word_test

---
 cognee/tests/unit/processing/chunks/chunk_by_word_test.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/cognee/tests/unit/processing/chunks/chunk_by_word_test.py b/cognee/tests/unit/processing/chunks/chunk_by_word_test.py
index 54e19b162..38e5d9b5a 100644
--- a/cognee/tests/unit/processing/chunks/chunk_by_word_test.py
+++ b/cognee/tests/unit/processing/chunks/chunk_by_word_test.py
@@ -9,12 +9,17 @@ from cognee.tests.unit.processing.chunks.test_input import INPUT_TEXTS
     INPUT_TEXTS["python_code"],
     INPUT_TEXTS["chinese_text"]
 ])
-
 def test_chunk_by_word_isomorphism(input_text):
     chunks = chunk_by_word(input_text)
     reconstructed_text = "".join([chunk[0] for chunk in chunks])
     assert reconstructed_text == input_text, f"texts are not identical: {len(input_text) = }, {len(reconstructed_text) = }"
 
+@pytest.mark.parametrize("input_text", [
+    INPUT_TEXTS["english_text"],
+    INPUT_TEXTS["english_lists"],
+    INPUT_TEXTS["python_code"],
+    INPUT_TEXTS["chinese_text"]
+])
 def test_chunk_by_word_splits(input_text):
     chunks = np.array(list(chunk_by_word(input_text)))
     space_test = np.array([" " not in chunk[0].strip() for chunk in chunks])