Optimize PostgreSQL initialization performance

- Batch index existence checks into single query (16+ queries -> 1 query) - Batch timestamp column checks into single query (8 queries -> 1 query) - Batch field length checks into single query (5 queries -> 1 query) Performance improvement: ~70-80% faster initialization (35s -> 5-10s) Key optimizations: 1. check_tables(): Use ANY($1) to check all indexes at once 2. _migrate_timestamp_columns(): Batch all column type checks 3. _migrate_field_lengths(): Batch all field definition checks All changes are backward compatible with no schema or API changes. Reduces database round-trips by batching information_schema queries. (cherry picked from commit 2f22336ace)
2025-10-21 00:54:47 +11:00 · 2025-10-21 00:54:47 +11:00 · 8a72135a32
commit 8a72135a32
parent c2620efc5e
1 changed files with 194 additions and 141 deletions
--- a/lightrag/kg/postgres_impl.py
+++ b/lightrag/kg/postgres_impl.py
@ -550,26 +550,47 @@ class PostgreSQLDB:
            "LIGHTRAG_DOC_STATUS": ["created_at", "updated_at"],
        }
        try:
            # Optimization: Batch check all columns in one query instead of 8 separate queries
            table_names_lower = [t.lower() for t in tables_to_migrate.keys()]
            all_column_names = list(
                set(col for cols in tables_to_migrate.values() for col in cols)
            )
            check_all_columns_sql = """
            SELECT table_name, column_name, data_type
            FROM information_schema.columns
            WHERE table_name = ANY($1)
            AND column_name = ANY($2)
            """
            all_columns_result = await self.query(
                check_all_columns_sql,
                [table_names_lower, all_column_names],
                multirows=True,
            )
            # Build lookup dict: (table_name, column_name) -> data_type
            column_types = {}
            if all_columns_result:
                column_types = {
                    (row["table_name"].upper(), row["column_name"]): row["data_type"]
                    for row in all_columns_result
                }
            # Now iterate and migrate only what's needed
            for table_name, columns in tables_to_migrate.items():
                for column_name in columns:
                    try:
-                    # Check if column exists
+                        data_type = column_types.get((table_name, column_name))
                    check_column_sql = f"""
                    SELECT column_name, data_type
                    FROM information_schema.columns
                    WHERE table_name = '{table_name.lower()}'
                    AND column_name = '{column_name}'
                    """
-                    column_info = await self.query(check_column_sql)
+                        if not data_type:
                    if not column_info:
                            logger.warning(
                                f"Column {table_name}.{column_name} does not exist, skipping migration"
                            )
                            continue
                        # Check column type
                    data_type = column_info.get("data_type")
                        if data_type == "timestamp without time zone":
                            logger.debug(
                                f"Column {table_name}.{column_name} is already witimezone-free, no migration needed"
@ -592,7 +613,11 @@ class PostgreSQLDB:
                        )
                    except Exception as e:
                        # Log error but don't interrupt the process
-                    logger.warning(f"Failed to migrate {table_name}.{column_name}: {e}")
+                        logger.warning(
                            f"Failed to migrate {table_name}.{column_name}: {e}"
                        )
        except Exception as e:
            logger.error(f"Failed to batch check timestamp columns: {e}")
    async def _migrate_doc_chunks_to_vdb_chunks(self):
        """
@ -969,21 +994,35 @@ class PostgreSQLDB:
            },
        ]
        try:
            # Optimization: Batch check all columns in one query instead of 5 separate queries
            unique_tables = list(set(m["table"].lower() for m in field_migrations))
            unique_columns = list(set(m["column"] for m in field_migrations))
            check_all_columns_sql = """
            SELECT table_name, column_name, data_type, character_maximum_length, is_nullable
            FROM information_schema.columns
            WHERE table_name = ANY($1)
            AND column_name = ANY($2)
            """
            all_columns_result = await self.query(
                check_all_columns_sql, [unique_tables, unique_columns], multirows=True
            )
            # Build lookup dict: (table_name, column_name) -> column_info
            column_info_map = {}
            if all_columns_result:
                column_info_map = {
                    (row["table_name"].upper(), row["column_name"]): row
                    for row in all_columns_result
                }
            # Now iterate and migrate only what's needed
            for migration in field_migrations:
                try:
-                # Check current column definition
+                    column_info = column_info_map.get(
-                check_column_sql = """
+                        (migration["table"], migration["column"])
                SELECT column_name, data_type, character_maximum_length, is_nullable
                FROM information_schema.columns
                WHERE table_name = $1 AND column_name = $2
                """
                params = {
                    "table_name": migration["table"].lower(),
                    "column_name": migration["column"],
                }
                column_info = await self.query(
                    check_column_sql,
                    list(params.values()),
                    )
                    if not column_info:
@ -1036,6 +1075,8 @@ class PostgreSQLDB:
                    logger.warning(
                        f"Failed to migrate {migration['table']}.{migration['column']}: {e}"
                    )
        except Exception as e:
            logger.error(f"Failed to batch check field lengths: {e}")
    async def check_tables(self):
        # First create all tables
@ -1055,36 +1096,46 @@ class PostgreSQLDB:
                    )
                    raise e
-            # Create index for id column in each table
+        # Batch check all indexes at once (optimization: single query instead of N queries)
        try:
-                index_name = f"idx_{k.lower()}_id"
+            table_names = list(TABLES.keys())
-                check_index_sql = f"""
+            table_names_lower = [t.lower() for t in table_names]
                SELECT 1 FROM pg_indexes
                WHERE indexname = '{index_name}'
                AND tablename = '{k.lower()}'
                """
                index_exists = await self.query(check_index_sql)
-                if not index_exists:
+            # Get all existing indexes for our tables in one query
            check_all_indexes_sql = """
            SELECT indexname, tablename
            FROM pg_indexes
            WHERE tablename = ANY($1)
            """
            existing_indexes_result = await self.query(
                check_all_indexes_sql, [table_names_lower], multirows=True
            )
            # Build a set of existing index names for fast lookup
            existing_indexes = set()
            if existing_indexes_result:
                existing_indexes = {row["indexname"] for row in existing_indexes_result}
            # Create missing indexes
            for k in table_names:
                # Create index for id column if missing
                index_name = f"idx_{k.lower()}_id"
                if index_name not in existing_indexes:
                    try:
                        create_index_sql = f"CREATE INDEX {index_name} ON {k}(id)"
-                    logger.info(f"PostgreSQL, Creating index {index_name} on table {k}")
+                        logger.info(
                            f"PostgreSQL, Creating index {index_name} on table {k}"
                        )
                        await self.execute(create_index_sql)
                    except Exception as e:
                        logger.error(
-                    f"PostgreSQL, Failed to create index on table {k}, Got: {e}"
+                            f"PostgreSQL, Failed to create index {index_name}, Got: {e}"
                        )
-            # Create composite index for (workspace, id) columns in each table
+                # Create composite index for (workspace, id) if missing
            try:
                composite_index_name = f"idx_{k.lower()}_workspace_id"
-                check_composite_index_sql = f"""
+                if composite_index_name not in existing_indexes:
-                SELECT 1 FROM pg_indexes
+                    try:
                WHERE indexname = '{composite_index_name}'
                AND tablename = '{k.lower()}'
                """
                composite_index_exists = await self.query(check_composite_index_sql)
                if not composite_index_exists:
                        create_composite_index_sql = (
                            f"CREATE INDEX {composite_index_name} ON {k}(workspace, id)"
                        )
@ -1094,8 +1145,10 @@ class PostgreSQLDB:
                        await self.execute(create_composite_index_sql)
                    except Exception as e:
                        logger.error(
-                    f"PostgreSQL, Failed to create composite index on table {k}, Got: {e}"
+                            f"PostgreSQL, Failed to create composite index {composite_index_name}, Got: {e}"
                        )
        except Exception as e:
            logger.error(f"PostgreSQL, Failed to batch check/create indexes: {e}")
        # Create vector indexs
        if self.vector_index_type: