Video to Text

Extraire des descriptions textuelles de vidéos grâce à l'IA

À quoi sert ce node ?

Le node Video to Text utilise des modèles d’IA pour analyser le contenu vidéo et produire des descriptions textuelles, des résumés ou des données structurées. Il peut décrire ce qui se passe dans une vidéo, transcrire le contenu parlé ou extraire des informations spécifiques en fonction de votre prompt.

Usages courants :

Générer des descriptions vidéo détaillées pour le catalogage ou l’accessibilité
Transcrire et résumer le contenu vidéo
Extraire des informations spécifiques de vidéos pour un traitement en aval
Analyser des scènes vidéo pour la modération de contenu ou le tagging

Configuration rapide

Ajouter le node Video to Text

Trouvez-le dans AI Nodes → Video to Text

Fournir la vidéo

Connectez une source vidéo via le port input_media — accepte les vidéos, URLs, images, textes ou tableaux

Choisir votre modèle

Sélectionnez le modèle LLM et le provider à utiliser pour l’analyse

Rédiger votre prompt

Indiquez à l’IA quoi extraire, décrire ou résumer de la vidéo

Configuration

Entrée

input_media media

Le média à analyser. Accepte les vidéos, URLs, images, textes ou tableaux de ces types. Cette entrée est optionnelle — vous pouvez aussi référencer un média via des variables dans le prompt.

Champs obligatoires

modelName string required

Le modèle LLM à utiliser pour l’analyse vidéo. Choisissez un modèle qui supporte les entrées vision/vidéo (ex. GPT-4o, Gemini Pro).

Champs optionnels

llmProvider string

Le provider LLM à utiliser (ex. OpenAI, Google). Défini automatiquement selon le modèle sélectionné.

prompt string

Instructions personnalisées pour l’IA décrivant ce qu’il faut extraire ou générer à partir de la vidéo. Supporte les {{variables}} pour injecter des valeurs dynamiques d’autres nodes.

Exemples :

“Décris tout ce qui se passe dans cette vidéo”
“Transcris les dialogues parlés dans cette vidéo”
“Liste tous les produits montrés dans cette vidéo avec les horodatages”
“Résume les points clés abordés dans cette présentation”

Sortie

Le node produit une chaîne de caractères unique contenant le texte généré par l’IA.

{
  "output": "La vidéo montre une démo produit de 30 secondes. Une personne déballe un clavier sans fil, le connecte en Bluetooth et tape quelques phrases pour démontrer le toucher des touches. L'emballage est minimaliste avec un boîtier blanc et le logo de la marque visible à 0:05."
}

Version : 2.0

Exemples

Générer une description vidéo

Décrire une vidéo marketing pour le catalogage de contenu :

Workflow :

Static Video — Fournir le fichier vidéo
Video to Text — Prompt : “Décris cette vidéo en détail, y compris le décor, les actions et tout texte ou branding visible”
LLM — Réécrire la description pour une audience ou un format spécifique

Résumer un enregistrement de présentation

Extraire les points clés d’une réunion ou présentation enregistrée :

Workflow :

Google Drive Reader — Sélectionner la vidéo depuis Drive
Video to Text — Prompt : “Résume les principaux sujets abordés dans cette vidéo. Liste chaque sujet avec une brève description”
Notion Database Writer — Sauvegarder le résumé dans Notion pour référence de l’équipe

Bonnes pratiques

Choisissez le bon modèle. L’analyse vidéo nécessite des modèles avec des capacités de vision. Tous les LLM ne supportent pas l’entrée vidéo — vérifiez la documentation du modèle.
Soyez précis dans votre prompt. Plus vos instructions sont précises, meilleur sera le résultat. Au lieu de “décris la vidéo”, demandez exactement ce dont vous avez besoin (horodatages, personnes, actions, texte).
Tenez compte de la durée de la vidéo. Les vidéos longues prennent plus de temps et de tokens à traiter. Si vous n’avez besoin que d’une section spécifique, utilisez d’abord Extract Video Frame.

Problèmes courants

Le node renvoie une réponse vide ou générique

Cause : Le modèle sélectionné ne supporte peut-être pas l’entrée vidéo, ou le format vidéo n’est pas reconnu.

Solution : Vérifiez que le modèle supporte l’analyse vision/vidéo. Essayez un autre modèle (ex. GPT-4o ou Gemini Pro). Assurez-vous que le fichier vidéo est dans un format supporté (MP4, MOV, WebM).

La sortie est imprécise ou omet des détails importants

Cause : Le prompt est trop vague, ou la vidéo est trop longue pour que le modèle la traite entièrement.

Solution : Affinez votre prompt pour être plus précis sur ce qu’il faut extraire. Pour les vidéos longues, envisagez d’extraire d’abord les images clés avec Extract Video Frame et de les traiter individuellement avec Image to Text.

Nodes associés

Image to Video

Générer des vidéos à partir d’images

Image to Text

Extraire du texte d’images individuelles

LLM

Traiter davantage le texte extrait

Extract Video Frame

Extraire des images spécifiques d’une vidéo