Video to Text
Le node Video to Text utilise un LLM avec capacités vision pour analyser une vidéo et produire une description, une transcription ou des informations extraites en fonction de votre prompt.
À quoi sert le node Video to Text ?
Le node Video to Text envoie une vidéo à un LLM compatible vision (comme GPT-4o ou Gemini) accompagnée d’un prompt personnalisé, et renvoie une réponse textuelle. Il peut décrire des scènes, transcrire du contenu parlé, résumer un enregistrement ou extraire des informations structurées à partir des images.
Cas d’usage typiques :
- Générer des descriptions vidéo détaillées pour le catalogage ou l’accessibilité.
- Transcrire et résumer des webinaires, des entretiens ou des enregistrements de réunion.
- Extraire des informations structurées (produits affichés, texte à l’écran, horodatages) d’une vidéo pour les nodes suivants.
- Tagger ou modérer du contenu vidéo en fonction des scènes visuelles.
Configuration rapide
Suivez ces étapes pour ajouter et configurer le node Video to Text dans votre workflow :
Ajouter le node au canevas
Ouvrez la bibliothèque de nodes (Node Library), naviguez dans la catégorie AI > Video, puis glissez-déposez le node Video to Text sur votre espace de travail.
Connecter la source vidéo
Reliez le port input_media (à gauche du node) à un node qui produit une vidéo — par exemple un Static Video, un lecteur Google Drive, ou tout node renvoyant un fichier ou une URL vidéo. L’entrée accepte aussi des images, du texte, des strings, des URLs, ou des tableaux de ces types.
Choisir un modèle compatible vision
Dans les paramètres, sélectionnez le LLM Provider (ex. OpenAI, Google) puis un Model qui supporte l’entrée vidéo (ex. GPT-4o, Gemini Pro). Seuls les modèles compatibles avec ce node apparaissent dans la liste.
Rédiger le prompt
Dans le champ prompt, décrivez ce que le modèle doit produire. Vous pouvez injecter des valeurs des nodes précédents avec la syntaxe {{variable}}. Ce champ est obligatoire.
Connecter la sortie
Reliez le port de sortie (à droite) au node suivant. Définissez le nom de la variable de réception directement dans ce node suivant pour exploiter le texte généré.
Paramètres de configuration
La configuration du node combine un port d’entrée pour la vidéo, la sélection du modèle, et un prompt libre qui pilote l’analyse.
Champs requis
Name string required default: Video to Text Nom du node — Identifiant court pour ce node sur le canevas (ex. “Décrire vidéo démo”). Utile pour le débogage et la lecture des logs du workflow.
Description string required default: Extract text descriptions from videos using AI. Description du node — Une courte phrase décrivant le rôle de ce node dans le workflow.
modelName llm required Modèle — Le LLM utilisé pour l’analyse vidéo. Doit être un modèle compatible vision/vidéo (ex. GPT-4o, Gemini Pro). Seuls les modèles compatibles sont affichés dans la liste déroulante.
prompt string required Instructions — Instructions libres décrivant ce que l’IA doit extraire, décrire ou résumer à partir de la vidéo. Supporte les placeholders {{variable}} pour injecter des valeurs des nodes en amont. Le node échoue à la validation si ce champ est vide.
Champs optionnels
input_media media Entrée vidéo — La vidéo à analyser. Accepte des vidéos, URLs, images, textes, strings ou tableaux de ces types. Optionnel : vous pouvez aussi référencer une variable média directement dans le prompt avec {{my_video}}.
llmProvider string Provider LLM — Provider associé au modèle sélectionné (ex. OpenAI, Google). Défini automatiquement quand vous choisissez un modèle ; vous n’avez généralement pas à l’éditer directement.
En version 2.0, les anciens inputs “Video Files” et “URLs” ont été fusionnés en un unique port input_media — connectez n’importe quel node de fichier vidéo ou d’URL sur la même entrée.
Que renvoie le node ?
Le node renvoie une chaîne de caractères unique contenant la réponse du LLM générée à partir de la vidéo et du prompt.
Comment récupérer l’output ?
Dans Draft & Goal, vous n’avez pas besoin de chercher un nom de variable complexe généré par le système. Pour exploiter le résultat :
- Tirez un lien depuis la sortie du node Video to Text.
- Connectez-le à l’entrée du node suivant.
- Dans ce node suivant, créez et nommez votre propre variable (par exemple,
resume_video). Le texte généré y sera automatiquement injecté.
output string Le texte généré par le LLM en réponse à votre prompt et à la vidéo en entrée.
{
"output": "La vidéo montre une démo produit de 30 secondes. Une personne déballe un clavier sans fil, le connecte en Bluetooth et tape quelques phrases pour démontrer le toucher des touches. L'emballage est minimaliste avec un boîtier blanc et le logo de la marque visible à 0:05."
}
Exemples d’utilisation
Cas 1 : Décrire une vidéo marketing pour un catalogue de contenu
Générer une description riche d’une vidéo promotionnelle puis la réécrire pour un canal spécifique.
Workflow :
- Static Video — fournit le fichier vidéo.
- Video to Text — Prompt :
Décris cette vidéo en détail, y compris le décor, les actions à l'écran, les dialogues parlés et tout texte ou branding visible. - LLM — réécrit la description pour une audience cible (ex. caption pour réseaux sociaux, paragraphe de fiche produit).
Cas 2 : Résumer l’enregistrement d’une présentation
Extraire les points clés d’une réunion ou d’un webinaire enregistré long.
Workflow :
- Google Drive — sélectionne le fichier vidéo depuis Drive.
- Video to Text — Prompt :
Résume les principaux sujets abordés dans cette vidéo. Pour chaque sujet, donne une description en 1 à 2 phrases et un horodatage approximatif. - Notion Database Writer — sauvegarde le résumé dans une base Notion pour l’équipe.
Problèmes courants
Le node renvoie une réponse vide ou générique
Cause : Le modèle sélectionné ne supporte pas réellement l’entrée vidéo, ou le format du fichier n’est pas reconnu par le provider.
Solution : Choisissez un modèle explicitement listé comme compatible vision/vidéo (ex. GPT-4o, Gemini Pro). Assurez-vous que le fichier d’entrée est dans un format courant (MP4, MOV, WebM). Si vous passez une URL, vérifiez qu’elle est publiquement accessible.
La sortie omet des détails importants ou semble trop superficielle
Cause : Le prompt est trop vague, ou la vidéo est trop longue pour que le modèle la traite en détail de bout en bout.
Solution : Rendez le prompt plus précis (horodatages, entités nommées, sections à cibler). Pour les vidéos longues, extrayez d’abord quelques images clés avec Extract Video Frame et analysez-les avec Image to Text, puis agrégez les résultats.
Erreur de validation : 'requires instructions to be configured'
Cause : Le champ prompt est vide.
Solution : Remplissez toujours le prompt — il est obligatoire même quand la vidéo suggère clairement quoi faire. Précisez explicitement le type de sortie attendu (description, transcription, liste, JSON, etc.).
Bonnes pratiques et pièges à éviter
Soyez explicite sur la forme de la sortie. Si un node en aval attend du JSON, demandez du JSON dans le prompt (ex. “Renvoie un objet JSON avec les clés summary, topics, timestamps”) et chaînez ce node avec JSON Path Extractor pour le consommer proprement.
L’analyse vidéo est nettement plus lente et plus coûteuse que le texte. Testez sur un clip court avant d’exécuter sur un grand dataset, et préférez Extract Video Frame + Image to Text si vous n’avez besoin d’informations que sur un moment précis.
Comment s’intègre-t-il dans un workflow ?
Video to Text fait typiquement le pont entre une source vidéo et tout traitement texte en aval.
graph LR
Source[Static Video / Google Drive] --> V2T[Video to Text
<br/>analyse la vidéo]
V2T --> Extractor[JSON Path Extractor]
Extractor --> LLM[LLM
<br/>formatage final]
LLM --> Writer[Notion / Sheets Writer]
Nodes complémentaires
Effectuez le même type d’analyse sur une image unique — utile pour des frames statiques extraites d’une vidéo.
Extrayez des frames spécifiques d’une vidéo pour les analyser individuellement avec Image to Text.
Générez une vidéo à partir d’une ou plusieurs images — le cas d’usage inverse de Video to Text.
Post-traitez le texte renvoyé par Video to Text (réécriture, traduction, classification).
Parsez le JSON structuré renvoyé par Video to Text en champs typés.