Done adding cron job web scraping

2025-10-06 03:45:09 +05:30 · 2025-10-06 03:45:09 +05:30 · 0f64f6804d
commit 0f64f6804d
parent e5633bc368
3 changed files with 66 additions and 4 deletions
--- a/cognee/tasks/web_scraper/init.py
+++ b/cognee/tasks/web_scraper/init.py
@ -1,7 +1,11 @@
 from .bs4_crawler import BeautifulSoupCrawler
 from .utils import fetch_page_content
 from .web_scraper_task import cron_web_scraper_task, web_scraper_task
 __all__ = [
    "BeautifulSoupCrawler",
    "fetch_page_content",
    "cron_web_scraper_task",
    "web_scraper_task",
 ]
--- a/cognee/tasks/web_scraper/models.py
+++ b/cognee/tasks/web_scraper/models.py
@ -31,7 +31,7 @@ class WebSite(DataPoint):
    page_count: int
    scraping_config: Dict[str, Any]
    description: str
-    metadata: dict = {"index_fields": ["domain", "base_url","description"]}
+    metadata: dict = {"index_fields": ["domain", "base_url", "description"]}
 class ScrapingJob(DataPoint):
@ -44,4 +44,4 @@ class ScrapingJob(DataPoint):
    last_run: Optional[datetime]
    next_run: Optional[datetime]
    description: str
-    metadata: dict = {"index_fields": ["job_name", "status","description"]}
+    metadata: dict = {"index_fields": ["job_name", "status", "description"]}
--- a/cognee/tasks/web_scraper/web_scraper_task.py
+++ b/cognee/tasks/web_scraper/web_scraper_task.py
@ -4,8 +4,7 @@ from datetime import datetime
 from typing import Union, List
 from urllib.parse import urlparse
 from uuid import uuid5, NAMESPACE_OID
-
+import asyncio
 from apscheduler.schedulers.asyncio import AsyncIOScheduler
 from apscheduler.triggers.cron import CronTrigger
 from cognee.infrastructure.databases.graph import get_graph_engine
@ -18,9 +17,68 @@ from .models import WebPage, WebSite, ScrapingJob
 from .config import SoupCrawlerConfig, TavilyConfig
 from .utils import fetch_page_content
 try:
    from apscheduler.schedulers.background import BackgroundScheduler
    scheduler = BackgroundScheduler()
 except ImportError:
    raise ImportError("Please install apscheduler by pip install APScheduler >=3.10")
 logger = get_logger(__name__)
 async def cron_web_scraper_task(
    url: Union[str, List[str]],
    *,
    schedule: str = None,
    extraction_rules: dict = None,
    tavily_api_key: str = os.getenv("TAVILY_API_KEY"),
    soup_crawler_config: SoupCrawlerConfig = None,
    tavily_config: TavilyConfig = None,
    job_name: str = "scraping",
 ):
    now = datetime.now()
    job_name = job_name or f"scrape_{now.strftime('%Y%m%d_%H%M%S')}"
    if schedule:
        try:
            trigger = CronTrigger.from_crontab(schedule)
        except ValueError as e:
            raise ValueError(f"Invalid cron string '{schedule}': {e}")
        scheduler.add_job(
            lambda: asyncio.run(
                web_scraper_task(
                    url=url,
                    schedule=schedule,
                    extraction_rules=extraction_rules,
                    tavily_api_key=tavily_api_key,
                    soup_crawler_config=soup_crawler_config,
                    tavily_config=tavily_config,
                    job_name=job_name,
                )
            ),
            trigger=trigger,
            id=uuid5(NAMESPACE_OID, name=job_name),
            name=f"WebScraper_{uuid5(NAMESPACE_OID, name=job_name)}",
            replace_existing=True,
        )
        scheduler.start()
        return
    # If no schedule, run immediately
    print(f"[{datetime.now()}] Running web scraper task immediately...")
    return await web_scraper_task(
        url=url,
        schedule=schedule,
        extraction_rules=extraction_rules,
        tavily_api_key=tavily_api_key,
        soup_crawler_config=soup_crawler_config,
        tavily_config=tavily_config,
        job_name=job_name,
    )
 async def web_scraper_task(
    url: Union[str, List[str]],
    *,