Serveur MCP Gemini OCR

Ce projet fournit un service OCR (Reconnaissance Optique de Caractères) simple mais puissant à travers un serveur FastMCP, en exploitant les capacités de l'API Google Gemini. Il vous permet d'extraire du texte à partir d'images, soit en fournissant un chemin d'accès au fichier, soit en fournissant une chaîne encodée en base64.

Objectif

Extraire le texte de l'image suivante :

CAPTCHA

et le convertir en texte clair, par exemple, fbVk

Fonctionnalités

  • ROC basée sur un fichier : extrait le texte directement d'un fichier image sur votre système local.
  • OCR base64 : extrait le texte d'une chaîne d'images codée base64.
  • Facile à utiliser : Les fonctionnalités d'OCR sont présentées sous forme d'outils simples dans un serveur MCP.
  • Powered by Gemini : Utilise les modèles avancés Gemini de Google pour une reconnaissance de texte de haute précision.

Conditions préalables

  • Python 3.8 ou supérieur
  • Une clé API Google Gemini. Vous pouvez l'obtenir auprès de Google AI Studio.

Configuration et installation

  1. Clonez le dépôt :

    git clone https://github.com/WindoC/gemini-ocr-mcp cd gemini-ocr-mcp
  2. Créez et activez un environnement virtuel :

    # Installer uv standalone si nécessaire ## Sur macOS et Linux. curl -LsSf https://astral.sh/uv/install.sh | sh ## Sur Windows. powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
  3. Installez les dépendances requises :

    uv sync

Exemple de configuration MCP

Si vous utilisez cette application en tant que serveur pour une application MCP parente, vous pouvez la configurer dans le fichier config.json de votre MCP principal.

Exemple pour Windows :

{ "mcpServers" : { "gemini-ocr-mcp" : {"command" : "uv", "args" : [
        "--directory",
        "x:\\path\\to\\your\\project\\gemini-ocr-mcp",
        "run",
        "gemini-ocr-mcp.py"
      ],
      "env": { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } } }

Linux/macOS Exemple :

{ "mcpServers" : { "gemini-ocr-mcp" : { "command" : "uv", "args" : [ "--directory", "/path/to/your/project/gemini-ocr-mcp", "run", "gemini-ocr-mcp.py" ], "env" : { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } }

Remarque : N'oubliez pas de remplacer les chemins d'accès par le chemin absolu de votre répertoire de projet.

Outils fournis

ocr_image_file

Effectue l'OCR sur un fichier image local.

  • Paramètre :fichier_image (chaîne) : Le chemin absolu ou relatif vers le fichier image.
  • Résultats : (chaîne) Le texte extrait de l'image.

ocr_image_base64

Effectue l'OCR sur une image encodée en base64.

  • Paramètre :base64_image (chaîne) : La chaîne de caractères de l'image codée en base64.
  • Résultats : (chaîne) le texte extrait de l'image.

Liés dans Service en nuage - MCP Servers sécurisés

ServeurRésuméActions
mcp-k8s-goMCP 💬 prompt 🗂️ resource 🤖 toolVoir
Octodet KeycloakVoir
Google Play StoreUn serveur MCP (Model Context Protocol) qui permet l'intégration des outils de ligne de commande du...Voir
Serveur MCP Ubuntu sécurisé🔒 Serveur Security-First Model Context Protocol pour des opérations sûres du système UbuntuVoir
Démonstration de géolocalisationCe projet montre comment utiliser EdgeOne Pages Functions pour récupérer les informations de géoloca...Voir
Serveur MCP UberallVoir