Merge remote-tracking branch 'origin/dev' into feature/cog-2516-refactor-cognify-pipeline

chore: split add pipeline high-level logic from cognify pipeline hign-level logic
2025-07-30 15:11:56 +02:00 · 2025-07-30 15:07:07 +02:00
22 changed files with 278 additions and 102 deletions
--- a/cognee/api/v1/add/add.py
+++ b/cognee/api/v1/add/add.py
@ -1,19 +1,26 @@
 from uuid import UUID
 from fastapi import UploadFile
 from typing import Union, BinaryIO, List, Optional
 from cognee.modules.pipelines import Task
 from cognee.modules.users.models import User
-from cognee.modules.pipelines import cognee_pipeline
+from cognee.modules.users.methods import get_default_user
 from cognee.modules.engine.operations.setup import setup
 from cognee.modules.data.exceptions.exceptions import DatasetNotFoundError
 from cognee.modules.data.methods import (
    get_authorized_dataset,
    get_authorized_dataset_by_name,
    create_authorized_dataset,
 )
 from cognee.modules.pipelines.operations.run_add_pipeline import run_add_pipeline
 from cognee.tasks.ingestion import ingest_data, resolve_data_directories
 async def add(
-    data: Union[BinaryIO, list[BinaryIO], str, list[str]],
+    data: Union[BinaryIO, List[BinaryIO], str, List[str], UploadFile, List[UploadFile]],
-    dataset_name: str = "main_dataset",
+    dataset_name: Optional[str] = "main_dataset",
-    user: User = None,
+    user: Optional[User] = None,
    node_set: Optional[List[str]] = None,
    vector_db_config: dict = None,
    graph_db_config: dict = None,
    dataset_id: Optional[UUID] = None,
    incremental_loading: bool = True,
 ):
@ -68,8 +75,6 @@ async def add(
              Users can only access datasets they have permissions for.
        node_set: Optional list of node identifiers for graph organization and access control.
                 Used for grouping related data points in the knowledge graph.
        vector_db_config: Optional configuration for vector database (for custom setups).
        graph_db_config: Optional configuration for graph database (for custom setups).
        dataset_id: Optional specific dataset UUID to use instead of dataset_name.
    Returns:
@ -139,21 +144,41 @@ async def add(
        UnsupportedFileTypeError: If file format cannot be processed
        InvalidValueError: If LLM_API_KEY is not set or invalid
    """
    # Create databases if not already created
    await setup()
    tasks = [
        Task(resolve_data_directories, include_subdirectories=True),
        Task(ingest_data, dataset_name, user, node_set, dataset_id),
    ]
    if not user:
        user = await get_default_user()
    if dataset_id:
        authorized_dataset = await get_authorized_dataset(dataset_id, user, "write")
    elif dataset_name:
        authorized_dataset = await get_authorized_dataset_by_name(dataset_name, user, "write")
        if not authorized_dataset:
            authorized_dataset = await create_authorized_dataset(
                dataset_name=dataset_name, user=user
            )
    else:
        raise ValueError("Either dataset_id or dataset_name must be provided.")
    if not authorized_dataset:
        raise DatasetNotFoundError(
            message=f"Dataset ({str(dataset_id) or dataset_name}) not found."
        )
    pipeline_run_info = None
-    async for run_info in cognee_pipeline(
+    async for run_info in run_add_pipeline(
        tasks=tasks,
        datasets=dataset_id if dataset_id else dataset_name,
        data=data,
        dataset=authorized_dataset,
        user=user,
        pipeline_name="add_pipeline",
        vector_db_config=vector_db_config,
        graph_db_config=graph_db_config,
        incremental_loading=incremental_loading,
    ):
        pipeline_run_info = run_info
--- a/cognee/api/v1/add/routers/get_add_router.py
+++ b/cognee/api/v1/add/routers/get_add_router.py
@ -2,11 +2,12 @@ import os
 import requests
 import subprocess
 from uuid import UUID
 from io import BytesIO
 from fastapi import APIRouter
 from fastapi.responses import JSONResponse
 from fastapi import Form, File, UploadFile, Depends
-from typing import List, Optional, Union, Literal
+from typing import BinaryIO, List, Literal, Optional, Union
 from cognee.modules.users.models import User
 from cognee.modules.users.methods import get_authenticated_user
@ -70,10 +71,11 @@ def get_add_router() -> APIRouter:
            },
        )
-        from cognee.api.v1.add import add as cognee_add
+        # Swagger send empty string so we convert it to None for type consistency
        if datasetId == "":
            datasetId = None
-        if not datasetId and not datasetName:
+        from cognee.api.v1.add import add as cognee_add
            raise ValueError("Either datasetId or datasetName must be provided.")
        try:
            if (
@ -89,21 +91,27 @@ def get_add_router() -> APIRouter:
                    await cognee_add(
                        "data://.data/",
                        f"{repo_name}",
                        user=user,
                    )
                else:
                    # Fetch and store the data from other types of URL using curl
                    response = requests.get(data)
                    response.raise_for_status()
-                    file_data = await response.content()
+                    file_data = response.content
-                    # TODO: Update add call with dataset info
+                    binary_io_data: BinaryIO = BytesIO(file_data)
-                    return await cognee_add(file_data)
+                    return await cognee_add(
                        binary_io_data, dataset_name=datasetName, user=user, dataset_id=datasetId
                    )
            else:
-                add_run = await cognee_add(data, datasetName, user=user, dataset_id=datasetId)
+                add_run = await cognee_add(
                    data, dataset_name=datasetName, user=user, dataset_id=datasetId
                )
                if isinstance(add_run, PipelineRunErrored):
                    return JSONResponse(status_code=420, content=add_run.model_dump(mode="json"))
-                return add_run.model_dump()
+
                return add_run.model_dump() if add_run else None
        except Exception as error:
            return JSONResponse(status_code=409, content={"error": str(error)})
--- a/cognee/api/v1/cognify/cognify.py
+++ b/cognee/api/v1/cognify/cognify.py
@ -14,6 +14,8 @@ from cognee.modules.ontology.rdf_xml.OntologyResolver import OntologyResolver
 from cognee.modules.pipelines.models.PipelineRunInfo import PipelineRunCompleted, PipelineRunErrored
 from cognee.modules.pipelines.queues.pipeline_run_info_queues import push_to_queue
 from cognee.modules.users.models import User
 from cognee.modules.users.methods.get_default_user import get_default_user
 from cognee.modules.data.methods import get_authorized_existing_datasets
 from cognee.tasks.documents import (
    check_permissions_on_dataset,
@ -186,13 +188,21 @@ async def cognify(
        ValueError: If chunks exceed max token limits (reduce chunk_size)
        DatabaseNotCreatedError: If databases are not properly initialized
    """
    if not user:
        user = await get_default_user()
    if isinstance(datasets, str):
        datasets = [datasets]
    user_datasets = await get_authorized_existing_datasets(datasets, "write", user)
    tasks = await get_default_tasks(user, graph_model, chunker, chunk_size, ontology_file_path)
    if run_in_background:
        return await run_cognify_as_background_process(
            tasks=tasks,
            user=user,
-            datasets=datasets,
+            datasets=user_datasets,
            vector_db_config=vector_db_config,
            graph_db_config=graph_db_config,
            incremental_loading=incremental_loading,
@ -201,7 +211,7 @@ async def cognify(
        return await run_cognify_blocking(
            tasks=tasks,
            user=user,
-            datasets=datasets,
+            datasets=user_datasets,
            vector_db_config=vector_db_config,
            graph_db_config=graph_db_config,
            incremental_loading=incremental_loading,
--- a/cognee/base_config.py
+++ b/cognee/base_config.py
@ -13,8 +13,8 @@ class BaseConfig(BaseSettings):
    langfuse_public_key: Optional[str] = os.getenv("LANGFUSE_PUBLIC_KEY")
    langfuse_secret_key: Optional[str] = os.getenv("LANGFUSE_SECRET_KEY")
    langfuse_host: Optional[str] = os.getenv("LANGFUSE_HOST")
-    default_user_email: Optional[str] = os.getenv("DEFAULT_USER_EMAIL")
+    default_user_email: str = os.getenv("DEFAULT_USER_EMAIL", "default_user@example.com")
-    default_user_password: Optional[str] = os.getenv("DEFAULT_USER_PASSWORD")
+    default_user_password: str = os.getenv("DEFAULT_USER_PASSWORD", "default_password")
    model_config = SettingsConfigDict(env_file=".env", extra="allow")
    def to_dict(self) -> dict:
--- a/cognee/modules/data/methods/init.py
+++ b/cognee/modules/data/methods/init.py
@ -1,5 +1,6 @@
 # Create
 from .create_dataset import create_dataset
 from .create_authorized_dataset import create_authorized_dataset
 # Get
 from .get_dataset import get_dataset
@ -11,6 +12,10 @@ from .get_unique_dataset_id import get_unique_dataset_id
 from .get_authorized_existing_datasets import get_authorized_existing_datasets
 from .get_dataset_ids import get_dataset_ids
 # Get with Permissions
 from .get_authorized_dataset import get_authorized_dataset
 from .get_authorized_dataset_by_name import get_authorized_dataset_by_name
 # Delete
 from .delete_dataset import delete_dataset
 from .delete_data import delete_data
--- a/cognee/modules/data/methods/check_dataset_name.py
+++ b/cognee/modules/data/methods/check_dataset_name.py
@ -1,3 +1,3 @@
 def check_dataset_name(dataset_name: str):
    if "." in dataset_name or " " in dataset_name:
-        raise ValueError("Dataset name cannot contain spaces or underscores")
+        raise ValueError(f"Dataset name cannot contain spaces or underscores, got {dataset_name}")
--- a/cognee/modules/data/methods/create_authorized_dataset.py
+++ b/cognee/modules/data/methods/create_authorized_dataset.py
@ -0,0 +1,26 @@
 from cognee.infrastructure.databases.relational import get_relational_engine
 from cognee.modules.users.models import User
 from cognee.modules.data.models import Dataset
 from cognee.modules.users.permissions.methods import give_permission_on_dataset
 from cognee.modules.data.methods.get_unique_dataset_id import get_unique_dataset_id
 async def create_authorized_dataset(dataset_name: str, user: User) -> Dataset:
    # Dataset id should be generated based on dataset_name and owner_id/user so multiple users can use the same dataset_name
    dataset_id = await get_unique_dataset_id(dataset_name=dataset_name, user=user)
    new_dataset = Dataset(id=dataset_id, name=dataset_name, data=[])
    new_dataset.owner_id = user.id
    db_engine = get_relational_engine()
    async with db_engine.get_async_session() as session:
        session.add(new_dataset)
        await session.commit()
    await give_permission_on_dataset(user, new_dataset.id, "read")
    await give_permission_on_dataset(user, new_dataset.id, "write")
    await give_permission_on_dataset(user, new_dataset.id, "delete")
    await give_permission_on_dataset(user, new_dataset.id, "share")
    return new_dataset
--- a/cognee/modules/data/methods/get_authorized_dataset.py
+++ b/cognee/modules/data/methods/get_authorized_dataset.py
@ -0,0 +1,15 @@
 from uuid import UUID
 from typing import Optional
 from cognee.modules.users.models import User
 from cognee.modules.users.permissions.methods import get_principal_datasets
 from ..models import Dataset
 async def get_authorized_dataset(
    dataset_id: UUID, user: User, permission_type: str
 ) -> Optional[Dataset]:
    user_datasets = await get_principal_datasets(user, permission_type)
    return next((dataset for dataset in user_datasets if dataset.id == dataset_id), None)
--- a/cognee/modules/data/methods/get_authorized_dataset_by_name.py
+++ b/cognee/modules/data/methods/get_authorized_dataset_by_name.py
@ -0,0 +1,14 @@
 from typing import Optional
 from cognee.modules.users.models import User
 from cognee.modules.users.permissions.methods import get_principal_datasets
 from ..models import Dataset
 async def get_authorized_dataset_by_name(
    dataset_name: str, user: User, permission_type: str
 ) -> Optional[Dataset]:
    user_datasets = await get_principal_datasets(user, permission_type)
    return next((dataset for dataset in user_datasets if dataset.name == dataset_name), None)
--- a/cognee/modules/data/models/Dataset.py
+++ b/cognee/modules/data/models/Dataset.py
@ -1,7 +1,7 @@
-from uuid import uuid4
+from uuid import uuid4, UUID as UUID_t
 from typing import List
 from datetime import datetime, timezone
-from sqlalchemy.orm import relationship, Mapped
+from sqlalchemy.orm import relationship, Mapped, mapped_column
 from sqlalchemy import Column, Text, DateTime, UUID
 from cognee.infrastructure.databases.relational import Base
 from .DatasetData import DatasetData
@ -10,14 +10,14 @@ from .DatasetData import DatasetData
 class Dataset(Base):
    __tablename__ = "datasets"
-    id = Column(UUID, primary_key=True, default=uuid4)
+    id: Mapped[UUID_t] = mapped_column(UUID(as_uuid=True), primary_key=True, default=uuid4)
-    name = Column(Text)
+    name: Mapped[str] = mapped_column(Text)
    created_at = Column(DateTime(timezone=True), default=lambda: datetime.now(timezone.utc))
    updated_at = Column(DateTime(timezone=True), onupdate=lambda: datetime.now(timezone.utc))
-    owner_id = Column(UUID, index=True)
+    owner_id: Mapped[UUID_t] = mapped_column(UUID(as_uuid=True), index=True)
    acls = relationship("ACL", back_populates="dataset", cascade="all, delete-orphan")
--- a/cognee/modules/pipelines/models/PipelineRun.py
+++ b/cognee/modules/pipelines/models/PipelineRun.py
@ -1,6 +1,7 @@
 import enum
-from uuid import uuid4
+from uuid import uuid4, UUID as UUID_t
 from datetime import datetime, timezone
 from sqlalchemy.orm import Mapped, mapped_column
 from sqlalchemy import Column, DateTime, JSON, Enum, UUID, String
 from cognee.infrastructure.databases.relational import Base
@ -19,9 +20,9 @@ class PipelineRun(Base):
    created_at = Column(DateTime(timezone=True), default=lambda: datetime.now(timezone.utc))
-    status = Column(Enum(PipelineRunStatus))
+    status: Mapped[PipelineRunStatus] = mapped_column(Enum(PipelineRunStatus))
-    pipeline_run_id = Column(UUID, index=True)
+    pipeline_run_id: Mapped[UUID_t] = mapped_column(UUID, index=True)
    pipeline_name = Column(String)
-    pipeline_id = Column(UUID, index=True)
+    pipeline_id: Mapped[UUID_t] = mapped_column(UUID(as_uuid=True), index=True)
-    dataset_id = Column(UUID, index=True)
+    dataset_id: Mapped[UUID_t] = mapped_column(UUID(as_uuid=True), index=True)
    run_info = Column(JSON)
--- a/cognee/modules/pipelines/operations/init.py
+++ b/cognee/modules/pipelines/operations/init.py
@ -2,4 +2,5 @@ from .log_pipeline_run_initiated import log_pipeline_run_initiated
 from .log_pipeline_run_start import log_pipeline_run_start
 from .log_pipeline_run_complete import log_pipeline_run_complete
 from .log_pipeline_run_error import log_pipeline_run_error
 from .get_pipeline_status import get_pipeline_status
 from .pipeline import cognee_pipeline
--- a/cognee/modules/pipelines/operations/get_pipeline_status.py
+++ b/cognee/modules/pipelines/operations/get_pipeline_status.py
@ -1,11 +1,13 @@
 from uuid import UUID
 from sqlalchemy import select, func
 from cognee.infrastructure.databases.relational import get_relational_engine
-from ..models import PipelineRun
+from ..models import PipelineRun, PipelineRunStatus
 from sqlalchemy.orm import aliased
-async def get_pipeline_status(dataset_ids: list[UUID], pipeline_name: str):
+async def get_pipeline_status(
    dataset_ids: list[UUID], pipeline_name: str
 ) -> dict[str, PipelineRunStatus]:
    db_engine = get_relational_engine()
    async with db_engine.get_async_session() as session:
--- a/cognee/modules/pipelines/operations/log_pipeline_run_initiated.py
+++ b/cognee/modules/pipelines/operations/log_pipeline_run_initiated.py
@ -4,7 +4,7 @@ from cognee.modules.pipelines.models import PipelineRun, PipelineRunStatus
 from cognee.modules.pipelines.utils import generate_pipeline_run_id
-async def log_pipeline_run_initiated(pipeline_id: str, pipeline_name: str, dataset_id: UUID):
+async def log_pipeline_run_initiated(pipeline_id: UUID, pipeline_name: str, dataset_id: UUID):
    pipeline_run = PipelineRun(
        pipeline_run_id=generate_pipeline_run_id(pipeline_id, dataset_id),
        pipeline_name=pipeline_name,
--- a/cognee/modules/pipelines/operations/pipeline.py
+++ b/cognee/modules/pipelines/operations/pipeline.py
@ -3,24 +3,23 @@ from uuid import UUID
 from typing import Union
 from cognee.shared.logging_utils import get_logger
 from cognee.modules.engine.operations.setup import setup
 from cognee.modules.data.methods.get_dataset_data import get_dataset_data
 from cognee.modules.data.models import Data, Dataset
 from cognee.modules.pipelines.operations.run_tasks import run_tasks
 from cognee.modules.pipelines.models import PipelineRunStatus
-from cognee.modules.pipelines.utils import generate_pipeline_id
+from cognee.modules.pipelines.utils import validate_pipeline_inputs
 from cognee.modules.pipelines.operations.get_pipeline_status import get_pipeline_status
 from cognee.modules.pipelines.methods import get_pipeline_run_by_dataset
 from cognee.modules.pipelines.tasks.task import Task
 from cognee.modules.users.methods import get_default_user
 from cognee.modules.users.models import User
 from cognee.modules.pipelines.operations import log_pipeline_run_initiated
 from cognee.context_global_variables import set_database_global_context_variables
 from cognee.modules.data.exceptions import DatasetNotFoundError
 from cognee.modules.data.methods import (
    get_authorized_existing_datasets,
    load_or_create_datasets,
    check_dataset_name,
 )
 from cognee.modules.pipelines.models.PipelineRunInfo import (
@ -28,12 +27,6 @@ from cognee.modules.pipelines.models.PipelineRunInfo import (
    PipelineRunStarted,
 )
 from cognee.infrastructure.databases.relational import (
    create_db_and_tables as create_relational_db_and_tables,
 )
 from cognee.infrastructure.databases.vector.pgvector import (
    create_db_and_tables as create_pgvector_db_and_tables,
 )
 from cognee.context_global_variables import (
    graph_db_config as context_graph_db_config,
    vector_db_config as context_vector_db_config,
@ -44,6 +37,7 @@ logger = get_logger("cognee.pipeline")
 update_status_lock = asyncio.Lock()
@validate_pipeline_inputs
 async def cognee_pipeline(
    tasks: list[Task],
    data=None,
@ -61,9 +55,8 @@ async def cognee_pipeline(
    if graph_db_config:
        context_graph_db_config.set(graph_db_config)
-    # Create tables for databases
+    # Create databases if they don't exist
-    await create_relational_db_and_tables()
+    await setup()
    await create_pgvector_db_and_tables()
    # Initialize first_run attribute if it doesn't exist
    if not hasattr(cognee_pipeline, "first_run"):
@ -85,16 +78,17 @@ async def cognee_pipeline(
    if isinstance(datasets, str) or isinstance(datasets, UUID):
        datasets = [datasets]
-    # Get datasets user wants write permissions for (verify user has permissions if datasets are provided as well)
+    if not all([isinstance(dataset, Dataset) for dataset in datasets]):
-    # NOTE: If a user wants to write to a dataset he does not own it must be provided through UUID
+        # Get datasets user wants write permissions for (verify user has permissions if datasets are provided as well)
-    existing_datasets = await get_authorized_existing_datasets(datasets, "write", user)
+        # NOTE: If a user wants to write to a dataset he does not own it must be provided through UUID
        existing_datasets = await get_authorized_existing_datasets(datasets, "write", user)
-    if not datasets:
+        if not datasets:
-        # Get datasets from database if none sent.
+            # Get datasets from database if none sent.
-        datasets = existing_datasets
+            datasets = existing_datasets
-    else:
+        else:
-        # If dataset matches an existing Dataset (by name or id), reuse it. Otherwise, create a new Dataset.
+            # If dataset matches an existing Dataset (by name or id), reuse it. Otherwise, create a new Dataset.
-        datasets = await load_or_create_datasets(datasets, existing_datasets, user)
+            datasets = await load_or_create_datasets(datasets, existing_datasets, user)
    if not datasets:
        raise DatasetNotFoundError("There are no datasets to work with.")
@ -121,31 +115,9 @@ async def run_pipeline(
    context: dict = None,
    incremental_loading=True,
 ):
    check_dataset_name(dataset.name)
    # Will only be used if ENABLE_BACKEND_ACCESS_CONTROL is set to True
    await set_database_global_context_variables(dataset.id, dataset.owner_id)
    # Ugly hack, but no easier way to do this.
    if pipeline_name == "add_pipeline":
        pipeline_id = generate_pipeline_id(user.id, dataset.id, pipeline_name)
        # Refresh the add pipeline status so data is added to a dataset.
        # Without this the app_pipeline status will be DATASET_PROCESSING_COMPLETED and will skip the execution.
        await log_pipeline_run_initiated(
            pipeline_id=pipeline_id,
            pipeline_name="add_pipeline",
            dataset_id=dataset.id,
        )
        # Refresh the cognify pipeline status after we add new files.
        # Without this the cognify_pipeline status will be DATASET_PROCESSING_COMPLETED and will skip the execution.
        await log_pipeline_run_initiated(
            pipeline_id=pipeline_id,
            pipeline_name="cognify_pipeline",
            dataset_id=dataset.id,
        )
    dataset_id = dataset.id
    if not data:
@ -180,13 +152,6 @@ async def run_pipeline(
            )
            return
    if not isinstance(tasks, list):
        raise ValueError("Tasks must be a list")
    for task in tasks:
        if not isinstance(task, Task):
            raise ValueError(f"Task {task} is not an instance of Task")
    pipeline_run = run_tasks(
        tasks, dataset_id, data, user, pipeline_name, context, incremental_loading
    )
--- a/cognee/modules/pipelines/operations/run_add_pipeline.py
+++ b/cognee/modules/pipelines/operations/run_add_pipeline.py
@ -0,0 +1,49 @@
 from typing import Optional
 from cognee.shared.logging_utils import get_logger
 from cognee.modules.users.models import User
 from cognee.modules.data.models import Dataset
 from cognee.modules.pipelines.tasks.task import Task
 from cognee.modules.pipelines.operations.run_tasks import run_tasks
 from cognee.modules.pipelines.operations import log_pipeline_run_initiated
 from cognee.modules.pipelines.utils import generate_pipeline_id, validate_pipeline_inputs
 from cognee.context_global_variables import set_database_global_context_variables
 logger = get_logger("add.pipeline")
@validate_pipeline_inputs
 async def run_add_pipeline(
    tasks: list[Task],
    data,
    dataset: Dataset,
    user: User,
    pipeline_name: str = "add_pipeline",
    incremental_loading: Optional[bool] = True,
 ):
    await set_database_global_context_variables(dataset.id, dataset.owner_id)
    pipeline_run = run_tasks(
        tasks,
        dataset.id,
        data,
        user,
        pipeline_name,
        {
            "user": user,
            "dataset": dataset,
        },
        incremental_loading,
    )
    async for pipeline_run_info in pipeline_run:
        yield pipeline_run_info
    pipeline_id = generate_pipeline_id(user.id, dataset.id, pipeline_name)
    # Refresh the cognify pipeline status after we add new files.
    # Without this the cognify_pipeline status will be DATASET_PROCESSING_COMPLETED and will skip the execution.
    await log_pipeline_run_initiated(
        pipeline_id=pipeline_id,
        pipeline_name="cognify_pipeline",
        dataset_id=dataset.id,
    )
--- a/cognee/modules/pipelines/operations/run_tasks.py
+++ b/cognee/modules/pipelines/operations/run_tasks.py
@ -2,7 +2,7 @@ import os
 import asyncio
 from uuid import UUID
-from typing import Any
+from typing import Any, Optional
 from functools import wraps
 from sqlalchemy import select
@ -66,7 +66,7 @@ async def run_tasks(
    user: User = None,
    pipeline_name: str = "unknown_pipeline",
    context: dict = None,
-    incremental_loading: bool = True,
+    incremental_loading: Optional[bool] = True,
 ):
    async def _run_tasks_data_item_incremental(
        data_item,
--- a/cognee/modules/pipelines/utils/init.py
+++ b/cognee/modules/pipelines/utils/init.py
@ -1,2 +1,3 @@
 from .generate_pipeline_id import generate_pipeline_id
 from .generate_pipeline_run_id import generate_pipeline_run_id
 from .validate_pipeline_inputs import validate_pipeline_inputs
--- a/cognee/modules/pipelines/utils/validate_pipeline_inputs.py
+++ b/cognee/modules/pipelines/utils/validate_pipeline_inputs.py
@ -0,0 +1,56 @@
 import inspect
 from functools import wraps
 from cognee.modules.users.models.User import User
 from cognee.modules.pipelines.tasks.task import Task
 from cognee.modules.data.models.Dataset import Dataset
 from cognee.modules.data.methods.check_dataset_name import check_dataset_name
 def validate_pipeline_inputs(pipeline_generator):
    @wraps(pipeline_generator)
    async def wrapper(*args, **kwargs):
        sig = inspect.signature(pipeline_generator)
        bound_args = sig.bind(*args, **kwargs)
        bound_args.apply_defaults()
        if "tasks" in bound_args.arguments:
            tasks = bound_args.arguments["tasks"]
            if not isinstance(tasks, list):
                raise ValueError(f"tasks must be a list, got {type(tasks).__name__}")
            for task in tasks:
                if not isinstance(task, Task):
                    raise ValueError(
                        f"tasks must be a list of Task instances, got {type(task).__name__} in the list"
                    )
        if "user" in bound_args.arguments:
            user = bound_args.arguments["user"]
            if not isinstance(user, User):
                raise ValueError(f"user must be an instance of User, got {type(user).__name__}")
        if "dataset" in bound_args.arguments:
            dataset = bound_args.arguments["dataset"]
            if not isinstance(dataset, Dataset):
                raise ValueError(
                    f"dataset must be an instance of Dataset, got {type(dataset).__name__}"
                )
            check_dataset_name(dataset.name)
        if "datasets" in bound_args.arguments:
            datasets = bound_args.arguments["datasets"]
            if not isinstance(datasets, list):
                raise ValueError(f"datasets must be a list, got {type(datasets).__name__}")
            for dataset in datasets:
                if not isinstance(dataset, Dataset):
                    raise ValueError(
                        f"datasets must be a list of Dataset instances, got {type(dataset).__name__} in the list"
                    )
                check_dataset_name(dataset.name)
        async for run_info in pipeline_generator(*args, **kwargs):
            yield run_info
    return wrapper
--- a/cognee/modules/users/methods/create_default_user.py
+++ b/cognee/modules/users/methods/create_default_user.py
@ -4,8 +4,8 @@ from cognee.base_config import get_base_config
 async def create_default_user():
    base_config = get_base_config()
-    default_user_email = base_config.default_user_email or "default_user@example.com"
+    default_user_email = base_config.default_user_email
-    default_user_password = base_config.default_user_password or "default_password"
+    default_user_password = base_config.default_user_password
    user = await create_user(
        email=default_user_email,
--- a/cognee/modules/users/methods/get_default_user.py
+++ b/cognee/modules/users/methods/get_default_user.py
@ -1,7 +1,7 @@
-from types import SimpleNamespace
+from sqlalchemy import select
 from sqlalchemy.orm import selectinload
 from sqlalchemy.exc import NoResultFound
-from sqlalchemy.future import select
+
 from cognee.modules.users.models import User
 from cognee.base_config import get_base_config
 from cognee.modules.users.exceptions.exceptions import UserNotFoundError
@ -10,15 +10,15 @@ from cognee.infrastructure.databases.relational import get_relational_engine
 from cognee.modules.users.methods.create_default_user import create_default_user
-async def get_default_user() -> SimpleNamespace:
+async def get_default_user() -> User:
    db_engine = get_relational_engine()
    base_config = get_base_config()
-    default_email = base_config.default_user_email or "default_user@example.com"
+    default_email: str = str(base_config.default_user_email)
    try:
        async with db_engine.get_async_session() as session:
            query = (
-                select(User).options(selectinload(User.roles)).where(User.email == default_email)
+                select(User).options(selectinload(User.roles)).where(User.email == default_email)  # type: ignore
            )
            result = await session.execute(query)
@ -27,10 +27,7 @@ async def get_default_user() -> SimpleNamespace:
            if user is None:
                return await create_default_user()
-            # We return a SimpleNamespace to have the same user type as our SaaS
+            return user
            # SimpleNamespace is just a dictionary which can be accessed through attributes
            auth_data = SimpleNamespace(id=user.id, tenant_id=user.tenant_id, roles=[])
            return auth_data
    except Exception as error:
        if "principals" in str(error.args):
            raise DatabaseNotCreatedError() from error
--- a/cognee/modules/users/models/init.py
+++ b/cognee/modules/users/models/init.py
@ -8,3 +8,4 @@ from .TenantDefaultPermissions import TenantDefaultPermissions
 from .Permission import Permission
 from .Tenant import Tenant
 from .ACL import ACL
 from .Principal import Principal
Author	SHA1	Message	Date
Boris Arzentar	088ca317fd	Merge remote-tracking branch 'origin/dev' into feature/cog-2516-refactor-cognify-pipeline	2025-07-30 15:11:56 +02:00
Boris Arzentar	6a36e41103	chore: split add pipeline high-level logic from cognify pipeline hign-level logic	2025-07-30 15:07:07 +02:00