Tag Extractor
Extrayez facilement le contenu spécifique de balises HTML ou XML issues de vos textes et résultats d'IA.
À quoi sert le node ?
Le node Tag Extractor permet d’analyser un texte en entrée et d’extraire de manière ciblée le contenu situé à l’intérieur de balises HTML ou XML spécifiques (entourées des chevrons < et >).
Cas d’usage typiques :
- Récupérer des sections spécifiques générées par un LLM (ex:
<score_seo>85/100</score_seo>). - Extraire des éléments standards d’une page web préalablement scrapée (ex:
h1,h2,p). - Structurer des sorties complexes en isolant des variables précises pour les transmettre à d’autres outils de votre workflow.
Comment le mettre en place rapidement ?
Vous trouverez le node Tag Extractor dans le panneau de gauche, sous la catégorie Utilities > Text Processing.
Ajouter le node au workflow
Glissez-déposez le node Tag Extractor sur votre espace de travail.
Connecter les données d’entrée
Reliez la sortie d’un node précédent (comme un LLM, un AI Agent ou un Web Scraper) à l’entrée du Tag Extractor.
Ouvrir les paramètres
Cliquez sur l’icône engrenage (Tool Settings) du node pour ouvrir le panneau de configuration.
Configurer la balise cible
Dans le champ Tag, inscrivez le nom exact de la balise à extraire sans les chevrons (ex: tapez h2, et non <h2>).
Définir le format de sortie
Choisissez entre un format texte brut (Text) ou structuré (Array) selon vos besoins pour la suite du workflow.
Configuration
La configuration du node nécessite de spécifier la balise cible et le comportement souhaité lors de l’extraction.
Paramètres requis
Tag string required Tag — Le nom exact de la balise HTML ou XML à cibler, sans les chevrons. Par exemple, pour extraire <content_html>, vous devez entrer content_html.
Response Format string required default: Text Response Format — Le format dans lequel les données extraites seront retournées :
- Text : Retourne du texte brut. Si plusieurs balises identiques sont trouvées, leurs contenus seront séparés par des sauts de ligne.
- Array : Structure les réponses en format de liste JSON (0, 1, 2…). Idéal si vous devez iterer sur les résultats avec un node Loop.
Error Handling string required default: None Error Handling — Définit le comportement du workflow si la balise n’est pas trouvée :
- None : Le workflow s’arrête en générant une erreur (comportement par défaut).
- Skip and continue : Le node ignore l’erreur, renvoie une valeur vide et permet au workflow de se poursuivre.
Que renvoie le node ?
Le Tag Extractor renvoie le contenu trouvé à l’intérieur de la balise spécifiée. Le format exact dépend de votre choix dans le paramètre Response Format.
Accéder aux variables de sortie
Pour utiliser le résultat de ce node dans un autre node (comme un merge ou un LLM), vous devez utiliser la syntaxe des variables avec doubles accolades, avec par exemple :
{{tag_extractor_h2}} .
Exemples concrets d’usage
Rédaction d’article SEO automatisée
Le cas d’usage le plus puissant du Tag Extractor s’illustre lorsqu’il est couplé à un LLM pour structurer ses réponses de manière déterministe.
- Le Prompt (Node LLM) : Vous demandez à l’IA de rédiger un article et de structurer sa réponse absolue avec des balises XML.
Rédige un article SEO. Tu dois OBLIGATOIREMENT encadrer tes réponses avec ces balises exactes : <keyword>Le mot-clé principal ici</keyword> <html-content>Le code HTML de l'article ici</html-content> <score-copywriting>Ton auto-évaluation sur 100 ici</score-copywriting> - L’Extraction (Tag Extractors) : Vous placez 3 nodes Tag Extractor à la suite du LLM :
- Le 1er extrait le tag
keywordpour l’envoyer à SEMrush. - Le 2ème extrait le tag
html-contentpour l’envoyer au node WordPress. - Le 3ème extrait le tag
score-copywritingpour l’enregistrer dans un Google Sheets.
- Le 1er extrait le tag
Comment s’intègre-t-il dans un workflow ?
Voici les deux schémas de workflows les plus fréquents utilisant le Tag Extractor.
Pattern 1 : Parsing d’IA (Recommandé)
flowchart LR
A[LLM génère texte + tags] --> B[Tag Extractor: keyword]
A --> C[Tag Extractor: content_html]
B --> D[Outils SEO / Analytics]
C --> E[WordPress / CMS]
Pattern 2 : Extraction de page Web
flowchart LR
A[Web Scraper] --> B[HTML to Markdown]
B --> C[Tag Extractor: h2]
C --> D[Loop: Analyse chaque H2]
Bonnes pratiques et pièges à éviter
- Prompt strict : Insistez fortement dans vos prompts IA pour que le modèle utilise la balise exacte sans jamais la modifier.
- Format Array pour les listes : Si vous extrayez des balises fréquentes comme des
h2ou desli, privilégiez le format Array pour traiter proprement chaque élément ensuite.
- Ne mettez pas les chevrons : Dans la configuration du node, écrivez
syntheseet non<synthese>. - Ne ciblez pas de balises avec attributs : Le node ne gère pas les classes CSS ou les IDs. Une balise comme
<h2 class="title">ne sera pas correctement interprétée par le Tag Extractor.
Pour sécuriser vos workflows automatisés, il est recommandé de régler le paramètre Error Handling sur Skip and continue si la présence de la balise est optionnelle, pour éviter un blocage complet du processus.
Balises avec attributs non supportées : Les balises HTML complexes contenant des styles ou des classes (<div style="color:red;">) ne sont pas prises en compte. Limitez-vous aux balises pures (standards ou personnalisées).
Problèmes courants et solutions
Le node ne trouve aucune balise et s'arrête
Cause : L’IA (LLM) n’a pas généré la balise exactement comme demandé, ou elle y a ajouté des majuscules ou des espaces.
Solution : Dans votre node LLM précédent, renforcez vos instructions (ex: “Tu dois impérativement utiliser le format exact <score> sans aucun ajout ni majuscule”).
Je n'arrive pas à extraire une balise HTML d'une page web scrapée
Cause : La page web utilise des balises HTML enrichies avec des attributs (ex: <h1 id="titre-principal" class="header">). Le Tag Extractor ne lit que les balises simples.
Solution : Utilisez préalablement un node HTML Cleaner ou HTML to Markdown pour purger les attributs de la page avant de l’envoyer au Tag Extractor.
Les résultats s'affichent sur une seule ligne collée
Cause : Vous avez plusieurs balises identiques dans le texte, et le format de réponse est réglé sur Text sans délimiteur clair.
Solution : Basculez le paramètre Response Format sur Array. Vous obtiendrez une liste propre que vous pourrez facilement manipuler.
Nodes complémentaires
Découvrez avec quels autres nodes le Tag Extractor révèle tout son potentiel :
Générez du texte enrichi de balises XML spécifiques à extraire par la suite.
Récupérez le code brut d’une page pour en extraire des éléments HTML ciblés.
Envoyez directement le contenu de la balise <html-content> vers votre site.
Itérez sur chaque résultat si vous avez choisi le format de sortie “Array”.