Ouvrir le Studio

Video to Text

Le node Video to Text utilise un LLM avec capacités vision pour analyser une vidéo et produire une description, une transcription ou des informations extraites en fonction de votre prompt.

Node Video to Text avec entrée média vidéo et prompt analyse sur le canevas

À quoi sert le node Video to Text ?

Le node Video to Text envoie une vidéo à un LLM compatible vision (comme GPT-4o ou Gemini) accompagnée d’un prompt personnalisé, et renvoie une réponse textuelle. Il peut décrire des scènes, transcrire du contenu parlé, résumer un enregistrement ou extraire des informations structurées à partir des images.

Cas d’usage typiques :

  • Générer des descriptions vidéo détaillées pour le catalogage ou l’accessibilité.
  • Transcrire et résumer des webinaires, des entretiens ou des enregistrements de réunion.
  • Extraire des informations structurées (produits affichés, texte à l’écran, horodatages) d’une vidéo pour les nodes suivants.
  • Tagger ou modérer du contenu vidéo en fonction des scènes visuelles.

Configuration rapide

Suivez ces étapes pour ajouter et configurer le node Video to Text dans votre workflow :

Ajouter le node au canevas

Ouvrez la bibliothèque de nodes (Node Library), naviguez dans la catégorie AI > Video, puis glissez-déposez le node Video to Text sur votre espace de travail.

Connecter la source vidéo

Reliez le port input_media (à gauche du node) à un node qui produit une vidéo — par exemple un Static Video, un lecteur Google Drive, ou tout node renvoyant un fichier ou une URL vidéo. L’entrée accepte aussi des images, du texte, des strings, des URLs, ou des tableaux de ces types.

Choisir un modèle compatible vision

Dans les paramètres, sélectionnez le LLM Provider (ex. OpenAI, Google) puis un Model qui supporte l’entrée vidéo (ex. GPT-4o, Gemini Pro). Seuls les modèles compatibles avec ce node apparaissent dans la liste.

Rédiger le prompt

Dans le champ prompt, décrivez ce que le modèle doit produire. Vous pouvez injecter des valeurs des nodes précédents avec la syntaxe {{variable}}. Ce champ est obligatoire.

Connecter la sortie

Reliez le port de sortie (à droite) au node suivant. Définissez le nom de la variable de réception directement dans ce node suivant pour exploiter le texte généré.

Paramètres de configuration

Paramètres Video to Text avec provider modèle vision et champ prompt configurables

La configuration du node combine un port d’entrée pour la vidéo, la sélection du modèle, et un prompt libre qui pilote l’analyse.

Champs requis

Name string required default: Video to Text

Nom du node — Identifiant court pour ce node sur le canevas (ex. “Décrire vidéo démo”). Utile pour le débogage et la lecture des logs du workflow.

Description string required default: Extract text descriptions from videos using AI.

Description du node — Une courte phrase décrivant le rôle de ce node dans le workflow.

modelName llm required

Modèle — Le LLM utilisé pour l’analyse vidéo. Doit être un modèle compatible vision/vidéo (ex. GPT-4o, Gemini Pro). Seuls les modèles compatibles sont affichés dans la liste déroulante.

prompt string required

Instructions — Instructions libres décrivant ce que l’IA doit extraire, décrire ou résumer à partir de la vidéo. Supporte les placeholders {{variable}} pour injecter des valeurs des nodes en amont. Le node échoue à la validation si ce champ est vide.

Champs optionnels

input_media media

Entrée vidéo — La vidéo à analyser. Accepte des vidéos, URLs, images, textes, strings ou tableaux de ces types. Optionnel : vous pouvez aussi référencer une variable média directement dans le prompt avec {{my_video}}.

llmProvider string

Provider LLM — Provider associé au modèle sélectionné (ex. OpenAI, Google). Défini automatiquement quand vous choisissez un modèle ; vous n’avez généralement pas à l’éditer directement.

Tip

En version 2.0, les anciens inputs “Video Files” et “URLs” ont été fusionnés en un unique port input_media — connectez n’importe quel node de fichier vidéo ou d’URL sur la même entrée.

Que renvoie le node ?

Le node renvoie une chaîne de caractères unique contenant la réponse du LLM générée à partir de la vidéo et du prompt.

Comment récupérer l’output ?

Dans Draft & Goal, vous n’avez pas besoin de chercher un nom de variable complexe généré par le système. Pour exploiter le résultat :

  1. Tirez un lien depuis la sortie du node Video to Text.
  2. Connectez-le à l’entrée du node suivant.
  3. Dans ce node suivant, créez et nommez votre propre variable (par exemple, resume_video). Le texte généré y sera automatiquement injecté.
output string

Le texte généré par le LLM en réponse à votre prompt et à la vidéo en entrée.

{
  "output": "La vidéo montre une démo produit de 30 secondes. Une personne déballe un clavier sans fil, le connecte en Bluetooth et tape quelques phrases pour démontrer le toucher des touches. L'emballage est minimaliste avec un boîtier blanc et le logo de la marque visible à 0:05."
}

Exemples d’utilisation

Cas 1 : Décrire une vidéo marketing pour un catalogue de contenu

Générer une description riche d’une vidéo promotionnelle puis la réécrire pour un canal spécifique.

Workflow :

  1. Static Video — fournit le fichier vidéo.
  2. Video to Text — Prompt : Décris cette vidéo en détail, y compris le décor, les actions à l'écran, les dialogues parlés et tout texte ou branding visible.
  3. LLM — réécrit la description pour une audience cible (ex. caption pour réseaux sociaux, paragraphe de fiche produit).

Cas 2 : Résumer l’enregistrement d’une présentation

Extraire les points clés d’une réunion ou d’un webinaire enregistré long.

Workflow :

  1. Google Drive — sélectionne le fichier vidéo depuis Drive.
  2. Video to Text — Prompt : Résume les principaux sujets abordés dans cette vidéo. Pour chaque sujet, donne une description en 1 à 2 phrases et un horodatage approximatif.
  3. Notion Database Writer — sauvegarde le résumé dans une base Notion pour l’équipe.

Problèmes courants

Le node renvoie une réponse vide ou générique

Cause : Le modèle sélectionné ne supporte pas réellement l’entrée vidéo, ou le format du fichier n’est pas reconnu par le provider.

Solution : Choisissez un modèle explicitement listé comme compatible vision/vidéo (ex. GPT-4o, Gemini Pro). Assurez-vous que le fichier d’entrée est dans un format courant (MP4, MOV, WebM). Si vous passez une URL, vérifiez qu’elle est publiquement accessible.

La sortie omet des détails importants ou semble trop superficielle

Cause : Le prompt est trop vague, ou la vidéo est trop longue pour que le modèle la traite en détail de bout en bout.

Solution : Rendez le prompt plus précis (horodatages, entités nommées, sections à cibler). Pour les vidéos longues, extrayez d’abord quelques images clés avec Extract Video Frame et analysez-les avec Image to Text, puis agrégez les résultats.

Erreur de validation : 'requires instructions to be configured'

Cause : Le champ prompt est vide.

Solution : Remplissez toujours le prompt — il est obligatoire même quand la vidéo suggère clairement quoi faire. Précisez explicitement le type de sortie attendu (description, transcription, liste, JSON, etc.).

Bonnes pratiques et pièges à éviter

Tip

Soyez explicite sur la forme de la sortie. Si un node en aval attend du JSON, demandez du JSON dans le prompt (ex. “Renvoie un objet JSON avec les clés summary, topics, timestamps) et chaînez ce node avec JSON Path Extractor pour le consommer proprement.

Warning

L’analyse vidéo est nettement plus lente et plus coûteuse que le texte. Testez sur un clip court avant d’exécuter sur un grand dataset, et préférez Extract Video Frame + Image to Text si vous n’avez besoin d’informations que sur un moment précis.

Comment s’intègre-t-il dans un workflow ?

Video to Text fait typiquement le pont entre une source vidéo et tout traitement texte en aval.

graph LR
    Source[Static Video / Google Drive] --> V2T[Video to Text
<br/>analyse la vidéo]
    V2T --> Extractor[JSON Path Extractor]
    Extractor --> LLM[LLM
<br/>formatage final]
    LLM --> Writer[Notion / Sheets Writer]

Nodes complémentaires