Image to Text

Le node Image to Text utilise des modèles de vision par IA pour lire, décrire ou extraire des données structurées à partir d'images ou d'URLs d'images, selon vos instructions.

À quoi sert le node Image to Text ?

Le node Image to Text envoie une ou plusieurs images (fichiers téléversés ou URLs) à un LLM compatible vision (OpenAI GPT-4o / GPT-4o mini, Anthropic Claude 3, Google Gemini 1.5) accompagnées d’un prompt, et renvoie la réponse textuelle du modèle. Utilisez-le pour de l’OCR, de la description d’image, du visual question answering ou de l’extraction de données structurées depuis des graphiques, captures d’écran, tickets de caisse ou photos produits.

Cas d’usage typiques :

Lire le texte de captures d’écran, tickets ou documents scannés (OCR).
Générer des descriptions accessibles pour des visuels marketing.
Extraire des données structurées (JSON) depuis des graphiques, tableaux ou infographies.
Auditer des photos produits (couleur, matière, mentions on-pack) pour un catalogue e-commerce.

Configuration rapide

Suivez ces étapes pour ajouter et configurer le node Image to Text dans votre workflow :

Ajouter le node au canevas

Ouvrez la bibliothèque de nodes (Node Library), naviguez dans la catégorie AI > Image, puis glissez-déposez le node Image to Text sur votre espace de travail.

Fournir l’image en entrée

Reliez un node qui produit un fichier image ou une URL d’image (node File, node URL, Web Scraper, sortie d’un Loop, Text Input, etc.) au port d’entrée Image(s) or URL(s). L’entrée accepte les types file, image, text, string, url ou array — fichiers et URLs partagent le même port unifié depuis la version 3.0.

Choisir le provider et le modèle LLM

Ouvrez les paramètres du node. Sélectionnez un provider (OpenAI, Anthropic ou Google), puis un modèle compatible vision (ex : gpt-4o-mini, claude-3-haiku, gemini-1.5-flash).

Rédiger le prompt

Dans la zone de prompt sur le canevas, indiquez ce que le modèle doit extraire ou répondre. Vous pouvez injecter des variables dynamiques avec la syntaxe {{maVariable}} (caractères autorisés : lettres, chiffres, -, _, .).

Connecter la sortie

Reliez le port de sortie au node suivant et nommez-y la variable de réception pour exploiter la réponse textuelle du modèle.

Paramètres de configuration

Paramètres Image to Text avec provider modèle vision entrées images et prompt

Le node Image to Text a besoin d’une source d’image, d’un modèle de vision et d’un prompt. Le prompt est le seul champ validé comme obligatoire à l’exécution.

Champs requis

Name string required default: Image to Text

Nom du node — Sert à identifier le node dans le canevas et dans les logs d’exécution (ex : “OCR ticket”, “Description photo produit”).

Description string required default: Understand images with AI.

Description du node — Une courte phrase décrivant ce que fait cette instance précise.

modelName llm required

Modèle de vision — Le LLM qui analysera les images. Choisi via les sélecteurs provider + modèle dans le panneau de paramètres. Doit être un modèle compatible vision ; la liste est filtrée côté serveur via la feature key IMAGE_TO_TEXT.

llmProvider string required

Provider LLM — Renseigné automatiquement quand vous choisissez un modèle (OPENAI, ANTHROPIC, GOOGLE). Détermine l’appel API spécifique au provider à l’exécution.

prompt string required

Instructions — Ce que le modèle doit faire avec la ou les images. Édité directement sur le canevas. Supporte les variables dynamiques {{maVariable}} (caractères autorisés : -, _, .). Le node échoue à la validation avec “Image to Text requires instructions to be configured” si le prompt est vide ou contient uniquement des espaces.

Champs optionnels

input_media media

Image(s) or URL(s) — Une ou plusieurs images, fichiers ou URLs à analyser. Optionnel dans le schéma (vous pouvez piloter l’entrée uniquement via des variables du prompt), mais en pratique presque tous les runs branchent un node en amont ici. Types acceptés en amont : file, image, text, string, url, array.

Tip

Depuis la version 3.0, les fichiers images et les URLs d’images partagent un unique port d’entrée unifié Image(s) or URL(s) — plus besoin de ports séparés. Passez un tableau pour analyser plusieurs images en un seul appel (selon la limite du modèle).

Que renvoie le node ?

Le node renvoie la réponse textuelle brute produite par le modèle de vision — exactement ce que le LLM a écrit, sans post-traitement. Si vous demandez du JSON, il renvoie du JSON sous forme de texte ; si vous demandez une description, il renvoie de la prose.

Comment récupérer l’output ?

Dans Draft & Goal, vous n’avez pas besoin de chercher un nom de variable complexe généré par le système. Pour exploiter le résultat :

Tirez un lien depuis la sortie du node Image to Text.
Connectez-le à l’entrée du node suivant.
Dans ce node suivant, créez et nommez votre propre variable (par exemple, description_image). La réponse du modèle y sera automatiquement injectée.

output string

Le texte complet renvoyé par le modèle de vision, formaté selon ce que votre prompt a demandé (description libre, transcription OCR, chaîne JSON, etc.).

Exemples d’utilisation

Cas 1 : OCR depuis une URL de capture d’écran

Extraire le texte d’une capture d’écran hébergée sur une URL.

Entrées :

Image(s) or URL(s) : https://example.com/facture-2024.png
Provider / Modèle : OpenAI / gpt-4o-mini
Prompt : Extract every line of text from this image exactly as it appears, preserving line breaks.

Output généré (string) :

ACME Corp
Facture #FAC-2024-0142
Date : 2024-03-12
Sous-total : 1 250,00
TVA (20%) : 250,00
Total : 1 500,00

Cas 2 : Extraction structurée d’un graphique en JSON

Transformer un graphique en barres en données exploitables par un JSON Path Extractor en aval.

Entrées :

Image(s) or URL(s) : sortie fichier d’un node File précédent
Provider / Modèle : Anthropic / claude-3-haiku
Prompt :

Read the bar chart and return strict JSON with this shape, nothing else:
{ "title": "...", "x_axis": "...", "y_axis": "...", "bars": [{"label": "...", "value": 0}] }

Output généré (string) :

{
  "title": "Utilisateurs actifs mensuels 2024",
  "x_axis": "Mois",
  "y_axis": "MAU (milliers)",
  "bars": [
    {"label": "Jan", "value": 120},
    {"label": "Fév", "value": 135},
    {"label": "Mar", "value": 148}
  ]
}

Problèmes courants

Image to Text requires instructions to be configured

Cause : Le champ prompt est vide ou ne contient que des espaces. Le validateur du node bloque le run avant l’appel au LLM.

Solution : Ouvrez le node, saisissez des instructions claires dans la zone de prompt, puis relancez. Même un prompt d’une ligne comme Describe this image. suffit à passer la validation.

Image to Text node only accepts image files or URLs as input

Cause : Vous avez connecté une sortie amont dont le type n’est pas dans l’ensemble autorisé (file, image, text, string, url, array) — par exemple un nombre ou un booléen.

Solution : Insérez un convertisseur (Text Input, node URL) avant le node Image to Text, ou choisissez une autre sortie amont produisant l’un des types acceptés.

La réponse du modèle est fausse, vague ou hallucinée

Cause : Soit le modèle choisi est trop petit pour la tâche (texte minuscule, graphiques denses), soit le prompt est ambigu.

Solution : Essayez un modèle plus puissant (gpt-4o, claude-3-opus, gemini-1.5-pro), resserrez le prompt (“Return only the total amount as a number”), ou découpez l’image en amont.

L'URL d'image ne peut pas être récupérée

Cause : L’URL nécessite une authentification, renvoie un MIME non-image, ou est restreinte géo/IP côté provider LLM.

Solution : Téléchargez d’abord la ressource via un node File ou Web Scraper et passez la sortie fichier au node Image to Text au lieu de l’URL.

Bonnes pratiques et pièges à éviter

Tip

Adaptez le modèle à la tâche : utilisez gpt-4o-mini ou claude-3-haiku / gemini-1.5-flash pour de l’OCR de masse à coût réduit, et réservez gpt-4o, claude-3-opus ou gemini-1.5-pro aux graphiques denses, à l’écriture manuscrite ou aux audits produits fins.

Warning

Le coût croît avec le nombre d’images et leur résolution. Chaque image est facturée comme une entrée séparée, et les images haute résolution consomment beaucoup plus de tokens que des miniatures. Lors d’un Loop sur un catalogue, redimensionnez en amont et démarrez avec un modèle rapide/économique — mesurez la qualité avant de passer à un modèle premium.

Comment s’intègre-t-il dans un workflow ?

Image to Text se positionne typiquement entre une source d’image (File, URL, Web Scraper, Loop) et un parseur ou un LLM final en aval. Voici un schéma typique pour extraire des données structurées d’un lot de photos produits :

graph LR
    Files[Node File : photos produits] --> Loop[Loop]
    Loop --> ITT[Image to Text
<br/>extrait les attributs en JSON]
    ITT --> FR[Find and Replace
<br/>retire les fences Markdown]
    FR --> JPE[JSON Path Extractor]
    JPE --> LLM[Node LLM final]

Nodes complémentaires

LLM

Lancez un prompt texte de suivi sur la description produite par Image to Text.

Video to Text

Même idée pour la vidéo : transcriptions ou descriptions de scènes.

JSON Path Extractor

Récupérez des champs précis dans le JSON renvoyé par le modèle de vision.

Find and Replace

Retirez les fences Markdown ou caractères parasites avant de parser la réponse du modèle.

Loop

Faites tourner Image to Text sur une liste de fichiers ou d’URLs en un seul run.