Serveur MCP Gemini OCR

Ce projet fournit un service OCR (Reconnaissance Optique de Caractères) simple mais puissant à travers un serveur FastMCP, en exploitant les capacités de l'API Google Gemini. Il vous permet d'extraire du texte à partir d'images, soit en fournissant un chemin d'accès au fichier, soit en fournissant une chaîne encodée en base64.

Objectif

Extraire le texte de l'image suivante :

CAPTCHA

et le convertir en texte clair, par exemple, fbVk

Fonctionnalités

ROC basée sur un fichier : extrait le texte directement d'un fichier image sur votre système local.
OCR base64 : extrait le texte d'une chaîne d'images codée base64.
Facile à utiliser : Les fonctionnalités d'OCR sont présentées sous forme d'outils simples dans un serveur MCP.
Powered by Gemini : Utilise les modèles avancés Gemini de Google pour une reconnaissance de texte de haute précision.

Conditions préalables

Python 3.8 ou supérieur
Une clé API Google Gemini. Vous pouvez l'obtenir auprès de Google AI Studio.

Configuration et installation

Clonez le dépôt :

git clone https://github.com/WindoC/gemini-ocr-mcp cd gemini-ocr-mcp

Créez et activez un environnement virtuel :

# Installer uv standalone si nécessaire ## Sur macOS et Linux. curl -LsSf https://astral.sh/uv/install.sh | sh ## Sur Windows. powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

Installez les dépendances requises :
```
uv sync
```

Exemple de configuration MCP

Si vous utilisez cette application en tant que serveur pour une application MCP parente, vous pouvez la configurer dans le fichier config.json de votre MCP principal.

Exemple pour Windows :

{ "mcpServers" : { "gemini-ocr-mcp" : {"command" : "uv", "args" : [
        "--directory",
        "x:\\path\\to\\your\\project\\gemini-ocr-mcp",
        "run",
        "gemini-ocr-mcp.py"
      ],
      "env": { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } } }

Linux/macOS Exemple :

{ "mcpServers" : { "gemini-ocr-mcp" : { "command" : "uv", "args" : [ "--directory", "/path/to/your/project/gemini-ocr-mcp", "run", "gemini-ocr-mcp.py" ], "env" : { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } }

Remarque : N'oubliez pas de remplacer les chemins d'accès par le chemin absolu de votre répertoire de projet.

Outils fournis

`ocr_image_file`

Effectue l'OCR sur un fichier image local.

Paramètre :fichier_image (chaîne) : Le chemin absolu ou relatif vers le fichier image.
Résultats : (chaîne) Le texte extrait de l'image.

`ocr_image_base64`

Effectue l'OCR sur une image encodée en base64.

Paramètre :base64_image (chaîne) : La chaîne de caractères de l'image codée en base64.
Résultats : (chaîne) le texte extrait de l'image.

Serveur	Résumé	Actions
mcp-k8s-go	MCP 💬 prompt 🗂️ resource 🤖 tool	Voir
Octodet Keycloak		Voir
Google Play Store	Un serveur MCP (Model Context Protocol) qui permet l'intégration des outils de ligne de commande du...	Voir
Serveur MCP Ubuntu sécurisé	🔒 Serveur Security-First Model Context Protocol pour des opérations sûres du système Ubuntu	Voir
Démonstration de géolocalisation	Ce projet montre comment utiliser EdgeOne Pages Functions pour récupérer les informations de géoloca...	Voir
Serveur MCP Uberall		Voir

Serveur

Résumé

Actions

mcp-k8s-go

MCP 💬 prompt 🗂️ resource 🤖 tool

Voir

Octodet Keycloak

Voir

Google Play Store

Un serveur MCP (Model Context Protocol) qui permet l'intégration des outils de ligne de commande du...

Voir

Serveur MCP Ubuntu sécurisé