feat: Group DataPoints into NodeSets (#680)

## Description  ## DCO Affirmation I affirm that all code in every commit of this pull request conforms to the terms of the Topoteretes Developer Certificate of Origin. --------- Co-authored-by: lxobr <122801072+lxobr@users.noreply.github.com> Co-authored-by: Boris <boris@topoteretes.com> Co-authored-by: Boris Arzentar <borisarzentar@gmail.com>
2025-04-19 20:21:04 +02:00 · 2025-04-19 20:21:04 +02:00 · bb7eaa017b
commit bb7eaa017b
parent 8374e402a8
14 changed files with 164 additions and 30 deletions
--- a/cognee/api/v1/add/add.py
+++ b/cognee/api/v1/add/add.py
@ -1,4 +1,4 @@
-from typing import Union, BinaryIO
+from typing import Union, BinaryIO, List, Optional
 from cognee.modules.users.models import User
 from cognee.modules.pipelines import Task
 from cognee.tasks.ingestion import ingest_data, resolve_data_directories
@ -9,8 +9,9 @@ async def add(
    data: Union[BinaryIO, list[BinaryIO], str, list[str]],
    dataset_name: str = "main_dataset",
    user: User = None,
    node_set: Optional[List[str]] = None,
 ):
-    tasks = [Task(resolve_data_directories), Task(ingest_data, dataset_name, user)]
+    tasks = [Task(resolve_data_directories), Task(ingest_data, dataset_name, user, node_set)]
    await cognee_pipeline(
        tasks=tasks, datasets=dataset_name, data=data, user=user, pipeline_name="add_pipeline"
--- a/cognee/infrastructure/databases/vector/chromadb/ChromaDBAdapter.py
+++ b/cognee/infrastructure/databases/vector/chromadb/ChromaDBAdapter.py
@ -1,12 +1,11 @@
 from cognee.shared.logging_utils import get_logger
 from typing import Dict, List, Optional, Any
 import os
 import json
 from uuid import UUID
-
+from typing import List, Optional
 from chromadb import AsyncHttpClient, Settings
 from cognee.exceptions import InvalidValueError
 from cognee.shared.logging_utils import get_logger
 from cognee.modules.storage.utils import get_own_properties
 from cognee.infrastructure.engine.utils import parse_id
 from cognee.infrastructure.engine import DataPoint
 from cognee.infrastructure.databases.vector.models.ScoredResult import ScoredResult
@ -134,7 +133,7 @@ class ChromaDBAdapter(VectorDBInterface):
        metadatas = []
        for data_point in data_points:
-            metadata = data_point.model_dump()
+            metadata = get_own_properties(data_point)
            metadatas.append(process_data_for_chroma(metadata))
        await collection.upsert(
--- a/cognee/infrastructure/databases/vector/lancedb/LanceDBAdapter.py
+++ b/cognee/infrastructure/databases/vector/lancedb/LanceDBAdapter.py
@ -312,6 +312,12 @@ class LanceDBAdapter(VectorDBInterface):
                models_list = get_args(field_config.annotation)
                if any(hasattr(model, "model_fields") for model in models_list):
                    related_models_fields.append(field_name)
                elif models_list and any(get_args(model) is DataPoint for model in models_list):
                    related_models_fields.append(field_name)
                elif models_list and any(
                    submodel is DataPoint for submodel in get_args(models_list[0])
                ):
                    related_models_fields.append(field_name)
            elif get_origin(field_config.annotation) == Optional:
                model = get_args(field_config.annotation)
--- a/cognee/infrastructure/engine/models/DataPoint.py
+++ b/cognee/infrastructure/engine/models/DataPoint.py
@ -1,10 +1,9 @@
 from datetime import datetime, timezone
 from typing import Optional, Any, Dict
 from uuid import UUID, uuid4
 from pydantic import BaseModel, Field
 from typing_extensions import TypedDict
 import pickle
 from uuid import UUID, uuid4
 from pydantic import BaseModel, Field
 from datetime import datetime, timezone
 from typing_extensions import TypedDict
 from typing import Optional, Any, Dict, List
 # Define metadata type
@ -27,6 +26,7 @@ class DataPoint(BaseModel):
    topological_rank: Optional[int] = 0
    metadata: Optional[MetaData] = {"index_fields": []}
    type: str = Field(default_factory=lambda: DataPoint.__name__)
    belongs_to_set: Optional[List["DataPoint"]] = None
    def __init__(self, **data):
        super().__init__(**data)
--- a/cognee/modules/data/models/Data.py
+++ b/cognee/modules/data/models/Data.py
@ -20,6 +20,7 @@ class Data(Base):
    owner_id = Column(UUID, index=True)
    content_hash = Column(String)
    external_metadata = Column(JSON)
    node_set = Column(JSON, nullable=True)  # Store NodeSet as JSON list of strings
    token_count = Column(Integer)
    created_at = Column(DateTime(timezone=True), default=lambda: datetime.now(timezone.utc))
    updated_at = Column(DateTime(timezone=True), onupdate=lambda: datetime.now(timezone.utc))
@ -44,5 +45,6 @@ class Data(Base):
            "rawDataLocation": self.raw_data_location,
            "createdAt": self.created_at.isoformat(),
            "updatedAt": self.updated_at.isoformat() if self.updated_at else None,
            "nodeSet": self.node_set,
            # "datasets": [dataset.to_json() for dataset in self.datasets]
        }
--- a/cognee/modules/data/processing/document_types/Document.py
+++ b/cognee/modules/data/processing/document_types/Document.py
@ -1,4 +1,4 @@
-from typing import Optional
+from typing import Optional, List
 from cognee.infrastructure.engine import DataPoint
 from cognee.modules.chunking.Chunker import Chunker
--- a/cognee/modules/engine/models/init.py
+++ b/cognee/modules/engine/models/init.py
@ -2,3 +2,4 @@ from .Entity import Entity
 from .EntityType import EntityType
 from .TableRow import TableRow
 from .TableType import TableType
 from .node_set import NodeSet
--- a/cognee/modules/engine/models/node_set.py
+++ b/cognee/modules/engine/models/node_set.py
@ -0,0 +1,8 @@
 from cognee.infrastructure.engine import DataPoint
 class NodeSet(DataPoint):
    """NodeSet data point."""
    name: str
    metadata: dict = {"index_fields": ["name"]}
--- a/cognee/modules/visualization/cognee_network_visualization.py
+++ b/cognee/modules/visualization/cognee_network_visualization.py
@ -1,18 +1,17 @@
 from cognee.shared.logging_utils import get_logger
 import networkx as nx
 import json
 import os
 import json
 import networkx
 from cognee.shared.logging_utils import get_logger
 from cognee.infrastructure.files.storage import LocalStorage
 logger = get_logger()
 async def cognee_network_visualization(graph_data, destination_file_path: str = None):
    nodes_data, edges_data = graph_data
-    G = nx.DiGraph()
+    G = networkx.DiGraph()
    nodes_list = []
    color_map = {
@ -184,8 +183,8 @@ async def cognee_network_visualization(graph_data, destination_file_path: str =
    </html>
    """
-    html_content = html_template.replace("{nodes}", json.dumps(nodes_list, default=str))
+    html_content = html_template.replace("{nodes}", json.dumps(nodes_list))
-    html_content = html_content.replace("{links}", json.dumps(links_list, default=str))
+    html_content = html_content.replace("{links}", json.dumps(links_list))
    if not destination_file_path:
        home_dir = os.path.expanduser("~")
--- a/cognee/notebooks/github_analysis_step_by_step.ipynb
+++ b/cognee/notebooks/github_analysis_step_by_step.ipynb
@ -0,0 +1,37 @@
 {
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "initial_id",
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    ""
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 2
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython2",
   "version": "2.7.6"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
 }
--- a/cognee/tasks/documents/classify_documents.py
+++ b/cognee/tasks/documents/classify_documents.py
@ -8,6 +8,8 @@ from cognee.modules.data.processing.document_types import (
    TextDocument,
    UnstructuredDocument,
 )
 from cognee.modules.engine.models.node_set import NodeSet
 from cognee.modules.engine.utils.generate_node_id import generate_node_id
 EXTENSION_TO_DOCUMENT_CLASS = {
    "pdf": PdfDocument,  # Text documents
@ -49,6 +51,29 @@ EXTENSION_TO_DOCUMENT_CLASS = {
 }
 def update_node_set(document):
    """Extracts node_set from document's external_metadata."""
    try:
        external_metadata = json.loads(document.external_metadata)
    except json.JSONDecodeError:
        return
    if not isinstance(external_metadata, dict):
        return
    if "node_set" not in external_metadata:
        return
    node_set = external_metadata["node_set"]
    if not isinstance(node_set, list):
        return
    document.belongs_to_set = [
        NodeSet(id=generate_node_id(f"NodeSet:{node_set_name}"), name=node_set_name)
        for node_set_name in node_set
    ]
 async def classify_documents(data_documents: list[Data]) -> list[Document]:
    """
    Classifies a list of data items into specific document types based on file extensions.
@ -67,6 +92,7 @@ async def classify_documents(data_documents: list[Data]) -> list[Document]:
            mime_type=data_item.mime_type,
            external_metadata=json.dumps(data_item.external_metadata, indent=4),
        )
        update_node_set(document)
        documents.append(document)
    return documents
--- a/cognee/tasks/documents/extract_chunks_from_documents.py
+++ b/cognee/tasks/documents/extract_chunks_from_documents.py
@ -40,6 +40,7 @@ async def extract_chunks_from_documents(
        document_token_count = 0
        for document_chunk in document.read(max_chunk_size=max_chunk_size, chunker_cls=chunker):
            document_token_count += document_chunk.chunk_size
            document_chunk.belongs_to_set = document.belongs_to_set
            yield document_chunk
        await update_document_token_count(document.id, document_token_count)
--- a/cognee/tasks/ingestion/ingest_data.py
+++ b/cognee/tasks/ingestion/ingest_data.py
@ -1,7 +1,8 @@
 from typing import Any, List
 import dlt
 import s3fs
 import json
 import inspect
 from typing import Union, BinaryIO, Any, List, Optional
 import cognee.modules.ingestion as ingestion
 from cognee.infrastructure.databases.relational import get_relational_engine
 from cognee.modules.data.methods import create_dataset, get_dataset_data, get_datasets_by_name
@ -12,13 +13,13 @@ from cognee.modules.users.permissions.methods import give_permission_on_document
 from .get_dlt_destination import get_dlt_destination
 from .save_data_item_to_storage import save_data_item_to_storage
 from typing import Union, BinaryIO
 import inspect
 from cognee.api.v1.add.config import get_s3_config
-async def ingest_data(data: Any, dataset_name: str, user: User):
+async def ingest_data(
    data: Any, dataset_name: str, user: User, node_set: Optional[List[str]] = None
 ):
    destination = get_dlt_destination()
    if not user:
@ -68,9 +69,12 @@ async def ingest_data(data: Any, dataset_name: str, user: User):
                    "mime_type": file_metadata["mime_type"],
                    "content_hash": file_metadata["content_hash"],
                    "owner_id": str(user.id),
                    "node_set": json.dumps(node_set) if node_set else None,
                }
-    async def store_data_to_dataset(data: Any, dataset_name: str, user: User):
+    async def store_data_to_dataset(
        data: Any, dataset_name: str, user: User, node_set: Optional[List[str]] = None
    ):
        if not isinstance(data, list):
            # Convert data to a list as we work with lists further down.
            data = [data]
@ -107,6 +111,10 @@ async def ingest_data(data: Any, dataset_name: str, user: User):
                        await session.execute(select(Data).filter(Data.id == data_id))
                    ).scalar_one_or_none()
                    ext_metadata = get_external_metadata_dict(data_item)
                    if node_set:
                        ext_metadata["node_set"] = node_set
                    if data_point is not None:
                        data_point.name = file_metadata["name"]
                        data_point.raw_data_location = file_metadata["file_path"]
@ -114,7 +122,8 @@ async def ingest_data(data: Any, dataset_name: str, user: User):
                        data_point.mime_type = file_metadata["mime_type"]
                        data_point.owner_id = user.id
                        data_point.content_hash = file_metadata["content_hash"]
-                        data_point.external_metadata = (get_external_metadata_dict(data_item),)
+                        data_point.external_metadata = ext_metadata
                        data_point.node_set = json.dumps(node_set) if node_set else None
                        await session.merge(data_point)
                    else:
                        data_point = Data(
@ -125,7 +134,8 @@ async def ingest_data(data: Any, dataset_name: str, user: User):
                            mime_type=file_metadata["mime_type"],
                            owner_id=user.id,
                            content_hash=file_metadata["content_hash"],
-                            external_metadata=get_external_metadata_dict(data_item),
+                            external_metadata=ext_metadata,
                            node_set=json.dumps(node_set) if node_set else None,
                            token_count=-1,
                        )
@ -150,7 +160,7 @@ async def ingest_data(data: Any, dataset_name: str, user: User):
    db_engine = get_relational_engine()
-    file_paths = await store_data_to_dataset(data, dataset_name, user)
+    file_paths = await store_data_to_dataset(data, dataset_name, user, node_set)
    # Note: DLT pipeline has its own event loop, therefore objects created in another event loop
    # can't be used inside the pipeline
--- a/examples/python/simple_node_set_example.py
+++ b/examples/python/simple_node_set_example.py
@ -0,0 +1,44 @@
 import os
 import asyncio
 import cognee
 from cognee.api.v1.visualize.visualize import visualize_graph
 from cognee.shared.logging_utils import get_logger, ERROR
 text_a = """
    AI is revolutionizing financial services through intelligent fraud detection
    and automated customer service platforms.
    """
 text_b = """
    Advances in AI are enabling smarter systems that learn and adapt over time.
    """
 text_c = """
    MedTech startups have seen significant growth in recent years, driven by innovation
    in digital health and medical devices.
    """
 node_set_a = ["AI", "FinTech"]
 node_set_b = ["AI"]
 node_set_c = ["MedTech"]
 async def main():
    await cognee.prune.prune_data()
    await cognee.prune.prune_system(metadata=True)
    await cognee.add(text_a, node_set=node_set_a)
    await cognee.add(text_b, node_set=node_set_b)
    await cognee.add(text_c, node_set=node_set_c)
    await cognee.cognify()
    visualization_path = os.path.join(
        os.path.dirname(__file__), "./.artifacts/graph_visualization.html"
    )
    await visualize_graph(visualization_path)
 if __name__ == "__main__":
    logger = get_logger(level=ERROR)
    loop = asyncio.new_event_loop()
    asyncio.run(main())