Video to Text
Extraire des descriptions textuelles de vidéos grâce à l'IA
À quoi sert ce node ?
Le node Video to Text utilise des modèles d’IA pour analyser le contenu vidéo et produire des descriptions textuelles, des résumés ou des données structurées. Il peut décrire ce qui se passe dans une vidéo, transcrire le contenu parlé ou extraire des informations spécifiques en fonction de votre prompt.
Usages courants :
- Générer des descriptions vidéo détaillées pour le catalogage ou l’accessibilité
- Transcrire et résumer le contenu vidéo
- Extraire des informations spécifiques de vidéos pour un traitement en aval
- Analyser des scènes vidéo pour la modération de contenu ou le tagging
Configuration rapide
Ajouter le node Video to Text
Trouvez-le dans AI Nodes → Video to Text
Fournir la vidéo
Connectez une source vidéo via le port input_media — accepte les vidéos, URLs, images, textes ou tableaux
Choisir votre modèle
Sélectionnez le modèle LLM et le provider à utiliser pour l’analyse
Rédiger votre prompt
Indiquez à l’IA quoi extraire, décrire ou résumer de la vidéo
Configuration
Entrée
input_media media Le média à analyser. Accepte les vidéos, URLs, images, textes ou tableaux de ces types. Cette entrée est optionnelle — vous pouvez aussi référencer un média via des variables dans le prompt.
Champs obligatoires
modelName string required Le modèle LLM à utiliser pour l’analyse vidéo. Choisissez un modèle qui supporte les entrées vision/vidéo (ex. GPT-4o, Gemini Pro).
Champs optionnels
llmProvider string Le provider LLM à utiliser (ex. OpenAI, Google). Défini automatiquement selon le modèle sélectionné.
prompt string Instructions personnalisées pour l’IA décrivant ce qu’il faut extraire ou générer à partir de la vidéo. Supporte les {{variables}} pour injecter des valeurs dynamiques d’autres nodes.
Exemples :
- “Décris tout ce qui se passe dans cette vidéo”
- “Transcris les dialogues parlés dans cette vidéo”
- “Liste tous les produits montrés dans cette vidéo avec les horodatages”
- “Résume les points clés abordés dans cette présentation”
Sortie
Le node produit une chaîne de caractères unique contenant le texte généré par l’IA.
{
"output": "La vidéo montre une démo produit de 30 secondes. Une personne déballe un clavier sans fil, le connecte en Bluetooth et tape quelques phrases pour démontrer le toucher des touches. L'emballage est minimaliste avec un boîtier blanc et le logo de la marque visible à 0:05."
}
Version : 2.0
Exemples
Générer une description vidéo
Décrire une vidéo marketing pour le catalogage de contenu :
Workflow :
- Static Video — Fournir le fichier vidéo
- Video to Text — Prompt : “Décris cette vidéo en détail, y compris le décor, les actions et tout texte ou branding visible”
- LLM — Réécrire la description pour une audience ou un format spécifique
Résumer un enregistrement de présentation
Extraire les points clés d’une réunion ou présentation enregistrée :
Workflow :
- Google Drive Reader — Sélectionner la vidéo depuis Drive
- Video to Text — Prompt : “Résume les principaux sujets abordés dans cette vidéo. Liste chaque sujet avec une brève description”
- Notion Database Writer — Sauvegarder le résumé dans Notion pour référence de l’équipe
Bonnes pratiques
- Choisissez le bon modèle. L’analyse vidéo nécessite des modèles avec des capacités de vision. Tous les LLM ne supportent pas l’entrée vidéo — vérifiez la documentation du modèle.
- Soyez précis dans votre prompt. Plus vos instructions sont précises, meilleur sera le résultat. Au lieu de “décris la vidéo”, demandez exactement ce dont vous avez besoin (horodatages, personnes, actions, texte).
- Tenez compte de la durée de la vidéo. Les vidéos longues prennent plus de temps et de tokens à traiter. Si vous n’avez besoin que d’une section spécifique, utilisez d’abord Extract Video Frame.
Problèmes courants
Le node renvoie une réponse vide ou générique
Cause : Le modèle sélectionné ne supporte peut-être pas l’entrée vidéo, ou le format vidéo n’est pas reconnu.
Solution : Vérifiez que le modèle supporte l’analyse vision/vidéo. Essayez un autre modèle (ex. GPT-4o ou Gemini Pro). Assurez-vous que le fichier vidéo est dans un format supporté (MP4, MOV, WebM).
La sortie est imprécise ou omet des détails importants
Cause : Le prompt est trop vague, ou la vidéo est trop longue pour que le modèle la traite entièrement.
Solution : Affinez votre prompt pour être plus précis sur ce qu’il faut extraire. Pour les vidéos longues, envisagez d’extraire d’abord les images clés avec Extract Video Frame et de les traiter individuellement avec Image to Text.