LightRAG/scripts/install_trilingual_models.sh

#!/bin/bash
# 三语言实体提取器安装脚本
# 自动安装 spaCy + HanLP 及相关模型

set -e  # 遇到错误立即退出

echo "=================================================="
echo "  三语言实体提取器安装"
echo "  支持: 中文 (HanLP) + 英文 (spaCy) + 瑞典语 (spaCy)"
echo "=================================================="
echo ""

# 检查 Python 版本
echo "🔍 检查 Python 版本..."
python_version=$(python3 --version 2>&1 | awk '{print $2}')
echo "   Python 版本: $python_version"

# 安装 Python 依赖
echo ""
echo "📦 安装 Python 依赖包..."
echo "   - spaCy (英文 + 瑞典语)"
echo "   - HanLP (中文)"
pip install -r requirements-trilingual.txt

# 下载 spaCy 英文模型
echo ""
echo "⬇️  下载 spaCy 英文模型 (en_core_web_trf, ~440 MB)..."
python3 -m spacy download en_core_web_trf

# 下载 spaCy 瑞典语模型
echo ""
echo "⬇️  下载 spaCy 瑞典语模型 (sv_core_news_lg, ~545 MB)..."
python3 -m spacy download sv_core_news_lg

# HanLP 提示
echo ""
echo "ℹ️  HanLP 中文模型会在首次使用时自动下载 (~400 MB)"

# 完成
echo ""
echo "=================================================="
echo "  ✅ 安装完成！"
echo "=================================================="
echo ""
echo "磁盘空间使用:"
echo "  - spaCy 英文模型: ~440 MB"
echo "  - spaCy 瑞典语模型: ~545 MB"
echo "  - HanLP 中文模型: ~400 MB (首次使用时下载)"
echo "  - 总计: ~1.4 GB"
echo ""
echo "内存占用:"
echo "  - 按需加载: 同时只加载一个语言模型 (~1.5-1.8 GB)"
echo "  - 不会同时占用 4-5 GB 内存"
echo ""
echo "运行测试:"
echo "  python3 scripts/test_trilingual_extractor.py"
echo ""