feat: add registration and use of custom retrievers

2025-11-27 14:55:22 +01:00 · 2025-11-27 14:55:22 +01:00 · f776f04ee0
commit f776f04ee0
parent 0fe16939c1
6 changed files with 21 additions and 240 deletions
--- a/cognee/modules/retrieval/init.py
+++ b/cognee/modules/retrieval/init.py
@ -1 +1 @@
-from cognee.modules.retrieval.code_retriever import CodeRetriever
+
--- a/cognee/modules/retrieval/code_retriever.py
+++ b/cognee/modules/retrieval/code_retriever.py
@ -1,232 +0,0 @@
 from typing import Any, Optional, List
 import asyncio
 import aiofiles
 from pydantic import BaseModel
 from cognee.shared.logging_utils import get_logger
 from cognee.modules.retrieval.base_retriever import BaseRetriever
 from cognee.infrastructure.databases.graph import get_graph_engine
 from cognee.infrastructure.databases.vector import get_vector_engine
 from cognee.infrastructure.llm.prompts import read_query_prompt
 from cognee.infrastructure.llm.LLMGateway import LLMGateway
 logger = get_logger("CodeRetriever")
 class CodeRetriever(BaseRetriever):
    """Retriever for handling code-based searches."""
    class CodeQueryInfo(BaseModel):
        """
        Model for representing the result of a query related to code files.
        This class holds a list of filenames and the corresponding source code extracted from a
        query. It is used to encapsulate response data in a structured format.
        """
        filenames: List[str] = []
        sourcecode: str
    def __init__(self, top_k: int = 3):
        """Initialize retriever with search parameters."""
        self.top_k = top_k
        self.file_name_collections = ["CodeFile_name"]
        self.classes_and_functions_collections = [
            "ClassDefinition_source_code",
            "FunctionDefinition_source_code",
        ]
    async def _process_query(self, query: str) -> "CodeRetriever.CodeQueryInfo":
        """Process the query using LLM to extract file names and source code parts."""
        logger.debug(
            f"Processing query with LLM: '{query[:100]}{'...' if len(query) > 100 else ''}'"
        )
        system_prompt = read_query_prompt("codegraph_retriever_system.txt")
        try:
            result = await LLMGateway.acreate_structured_output(
                text_input=query,
                system_prompt=system_prompt,
                response_model=self.CodeQueryInfo,
            )
            logger.info(
                f"LLM extracted {len(result.filenames)} filenames and {len(result.sourcecode)} chars of source code"
            )
            return result
        except Exception as e:
            logger.error(f"Failed to retrieve structured output from LLM: {str(e)}")
            raise RuntimeError("Failed to retrieve structured output from LLM") from e
    async def get_context(self, query: str) -> Any:
        """Find relevant code files based on the query."""
        logger.info(
            f"Starting code retrieval for query: '{query[:100]}{'...' if len(query) > 100 else ''}'"
        )
        if not query or not isinstance(query, str):
            logger.error("Invalid query: must be a non-empty string")
            raise ValueError("The query must be a non-empty string.")
        try:
            vector_engine = get_vector_engine()
            graph_engine = await get_graph_engine()
            logger.debug("Successfully initialized vector and graph engines")
        except Exception as e:
            logger.error(f"Database initialization error: {str(e)}")
            raise RuntimeError("Database initialization error in code_graph_retriever, ") from e
        files_and_codeparts = await self._process_query(query)
        similar_filenames = []
        similar_codepieces = []
        if not files_and_codeparts.filenames or not files_and_codeparts.sourcecode:
            logger.info("No specific files/code extracted from query, performing general search")
            for collection in self.file_name_collections:
                logger.debug(f"Searching {collection} collection with general query")
                search_results_file = await vector_engine.search(
                    collection, query, limit=self.top_k
                )
                logger.debug(f"Found {len(search_results_file)} results in {collection}")
                for res in search_results_file:
                    similar_filenames.append(
                        {"id": res.id, "score": res.score, "payload": res.payload}
                    )
            existing_collection = []
            for collection in self.classes_and_functions_collections:
                if await vector_engine.has_collection(collection):
                    existing_collection.append(collection)
            if not existing_collection:
                raise RuntimeError("No collection found for code retriever")
            for collection in existing_collection:
                logger.debug(f"Searching {collection} collection with general query")
                search_results_code = await vector_engine.search(
                    collection, query, limit=self.top_k
                )
                logger.debug(f"Found {len(search_results_code)} results in {collection}")
                for res in search_results_code:
                    similar_codepieces.append(
                        {"id": res.id, "score": res.score, "payload": res.payload}
                    )
        else:
            logger.info(
                f"Using extracted filenames ({len(files_and_codeparts.filenames)}) and source code for targeted search"
            )
            for collection in self.file_name_collections:
                for file_from_query in files_and_codeparts.filenames:
                    logger.debug(f"Searching {collection} for specific file: {file_from_query}")
                    search_results_file = await vector_engine.search(
                        collection, file_from_query, limit=self.top_k
                    )
                    logger.debug(
                        f"Found {len(search_results_file)} results for file {file_from_query}"
                    )
                    for res in search_results_file:
                        similar_filenames.append(
                            {"id": res.id, "score": res.score, "payload": res.payload}
                        )
            for collection in self.classes_and_functions_collections:
                logger.debug(f"Searching {collection} with extracted source code")
                search_results_code = await vector_engine.search(
                    collection, files_and_codeparts.sourcecode, limit=self.top_k
                )
                logger.debug(f"Found {len(search_results_code)} results for source code search")
                for res in search_results_code:
                    similar_codepieces.append(
                        {"id": res.id, "score": res.score, "payload": res.payload}
                    )
        total_items = len(similar_filenames) + len(similar_codepieces)
        logger.info(
            f"Total search results: {total_items} items ({len(similar_filenames)} filenames, {len(similar_codepieces)} code pieces)"
        )
        if total_items == 0:
            logger.warning("No search results found, returning empty list")
            return []
        logger.debug("Getting graph connections for all search results")
        relevant_triplets = await asyncio.gather(
            *[
                graph_engine.get_connections(similar_piece["id"])
                for similar_piece in similar_filenames + similar_codepieces
            ]
        )
        logger.info(f"Retrieved graph connections for {len(relevant_triplets)} items")
        paths = set()
        for i, sublist in enumerate(relevant_triplets):
            logger.debug(f"Processing connections for item {i}: {len(sublist)} connections")
            for tpl in sublist:
                if isinstance(tpl, tuple) and len(tpl) >= 3:
                    if "file_path" in tpl[0]:
                        paths.add(tpl[0]["file_path"])
                    if "file_path" in tpl[2]:
                        paths.add(tpl[2]["file_path"])
        logger.info(f"Found {len(paths)} unique file paths to read")
        retrieved_files = {}
        read_tasks = []
        for file_path in paths:
            async def read_file(fp):
                try:
                    logger.debug(f"Reading file: {fp}")
                    async with aiofiles.open(fp, "r", encoding="utf-8") as f:
                        content = await f.read()
                        retrieved_files[fp] = content
                        logger.debug(f"Successfully read {len(content)} characters from {fp}")
                except Exception as e:
                    logger.error(f"Error reading {fp}: {e}")
                    retrieved_files[fp] = ""
            read_tasks.append(read_file(file_path))
        await asyncio.gather(*read_tasks)
        logger.info(
            f"Successfully read {len([f for f in retrieved_files.values() if f])} files (out of {len(paths)} total)"
        )
        result = [
            {
                "name": file_path,
                "description": file_path,
                "content": retrieved_files[file_path],
            }
            for file_path in paths
        ]
        logger.info(f"Returning {len(result)} code file contexts")
        return result
    async def get_completion(
        self, query: str, context: Optional[Any] = None, session_id: Optional[str] = None
    ) -> Any:
        """
        Returns the code files context.
        Parameters:
        -----------
            - query (str): The query string to retrieve code context for.
            - context (Optional[Any]): Optional pre-fetched context; if None, it retrieves
              the context for the query. (default None)
            - session_id (Optional[str]): Optional session identifier for caching. If None,
              defaults to 'default_session'. (default None)
        Returns:
        --------
            - Any: The code files context, either provided or retrieved.
        """
        if context is None:
            context = await self.get_context(query)
        return context
--- a/cognee/modules/retrieval/register_retriever.py
+++ b/cognee/modules/retrieval/register_retriever.py
@ -0,0 +1,7 @@
 from .base_retriever import BaseRetriever
 from .registered_community_retrievers import registered_community_retrievers
 from ..search.types import SearchType
 def register_retriever(search_type: SearchType, retriever: BaseRetriever):
    registered_community_retrievers[search_type] = retriever
--- a/cognee/modules/retrieval/registered_community_retrievers.py
+++ b/cognee/modules/retrieval/registered_community_retrievers.py
@ -0,0 +1 @@
 registered_community_retrievers = {}
--- a/cognee/modules/search/methods/get_search_type_tools.py
+++ b/cognee/modules/search/methods/get_search_type_tools.py
@ -22,7 +22,6 @@ from cognee.modules.retrieval.graph_completion_cot_retriever import GraphComplet
 from cognee.modules.retrieval.graph_completion_context_extension_retriever import (
    GraphCompletionContextExtensionRetriever,
 )
 from cognee.modules.retrieval.code_retriever import CodeRetriever
 from cognee.modules.retrieval.cypher_search_retriever import CypherSearchRetriever
 from cognee.modules.retrieval.natural_language_retriever import NaturalLanguageRetriever
@ -131,10 +130,6 @@ async def get_search_type_tools(
                system_prompt=system_prompt,
            ).get_context,
        ],
        SearchType.CODE: [
            CodeRetriever(top_k=top_k).get_completion,
            CodeRetriever(top_k=top_k).get_context,
        ],
        SearchType.CYPHER: [
            CypherSearchRetriever().get_completion,
            CypherSearchRetriever().get_context,
@ -169,7 +164,18 @@ async def get_search_type_tools(
    ):
        raise UnsupportedSearchTypeError("Cypher query search types are disabled.")
-    search_type_tools = search_tasks.get(query_type)
+    from cognee.modules.retrieval.registered_community_retrievers import (
        registered_community_retrievers,
    )
    if query_type in registered_community_retrievers:
        retriever = registered_community_retrievers[query_type]
        search_type_tools = [
            retriever(top_k=top_k).get_completion,
            retriever(top_k=top_k).get_context,
        ]
    else:
        search_type_tools = search_tasks.get(query_type)
    if not search_type_tools:
        raise UnsupportedSearchTypeError(str(query_type))
--- a/cognee/modules/search/types/SearchType.py
+++ b/cognee/modules/search/types/SearchType.py
@ -7,7 +7,6 @@ class SearchType(Enum):
    RAG_COMPLETION = "RAG_COMPLETION"
    GRAPH_COMPLETION = "GRAPH_COMPLETION"
    GRAPH_SUMMARY_COMPLETION = "GRAPH_SUMMARY_COMPLETION"
    CODE = "CODE"
    CYPHER = "CYPHER"
    NATURAL_LANGUAGE = "NATURAL_LANGUAGE"
    GRAPH_COMPLETION_COT = "GRAPH_COMPLETION_COT"
		`@ -1 +1 @@`
			`from cognee.modules.retrieval.code_retriever import CodeRetriever`