Tag Extractor

Le node Tag Extractor récupère le contenu situé à l'intérieur de balises HTML ou XML spécifiques dans un texte ou une sortie d'IA.

À quoi sert le node Tag Extractor ?

Le node Tag Extractor analyse un texte en entrée et extrait le contenu trouvé à l’intérieur d’une balise HTML ou XML spécifique (la portion encadrée par < et >). C’est la contrepartie déterministe du parsing de sortie LLM : plutôt que de faire confiance au modèle pour produire un JSON propre, vous lui demandez d’encadrer chaque valeur d’une balise nommée et ce node se charge d’en extraire chaque valeur.

Cas d’usage typiques :

Récupérer une valeur étiquetée dans une réponse de LLM (ex: <score_seo>85/100</score_seo>).
Extraire des éléments répétés depuis une page scrapée ou nettoyée (chaque h2, li ou p).
Découper une seule génération d’IA en plusieurs variables typées (keyword, html-content, score) pour alimenter les nodes suivants.

Configuration rapide

Suivez ces étapes pour ajouter et configurer le node Tag Extractor dans votre workflow :

Ajouter le node au canevas

Ouvrez la bibliothèque de nodes (Node Library), naviguez dans la catégorie Tools > Text Processing, puis glissez-déposez le node Tag Extractor sur votre espace de travail.

Connecter l’entrée

Reliez le port de sortie du node précédent qui produit le texte à analyser (un LLM, un AI Agent, un Web Scraper, un HTML to Markdown, etc.) à l’entrée Text du Tag Extractor.

Définir la balise cible

Ouvrez les paramètres du node et, dans le champ Tag, inscrivez le nom exact de la balise à extraire sans les chevrons (tapez h2, et non <h2>).

Choisir le format de réponse

Dans Response Format, choisissez Text pour obtenir une chaîne unique (plusieurs occurrences séparées par des sauts de ligne) ou Array pour obtenir une liste sur laquelle vous pourrez itérer.

Choisir la gestion d’erreur

Dans Error Handling, choisissez None pour faire échouer le workflow si la balise est absente, ou Skip & Continue pour renvoyer une valeur vide et laisser le workflow se poursuivre.

Paramètres de configuration

Panneau de configuration du Tag Extractor affichant les champs Tag, Response Format et Error Handling

La configuration du node consiste à définir la balise à cibler et la manière dont le node doit réagir aux données qu’il trouve.

Champs requis

Name string required default: Tag Extractor

Nom du node — Important pour identifier rapidement le rôle de ce node (ex: “Extraction des h2” ou “Récup. keyword LLM”) lors de l’exécution et du débogage du workflow.

Description string required default: Extract content between specified tags in text

Description du node — Une courte phrase décrivant la balise ciblée et la raison de l’extraction.

Tag string required

Nom de la balise — Le nom exact de la balise HTML ou XML à cibler, sans les chevrons. Pour extraire <content_html>...</content_html>, tapez content_html. Les variables dynamiques sont prises en charge : vous pouvez donc passer le nom de balise depuis un node précédent.

Response Format string required default: Text

Response Format — Le format dans lequel les contenus extraits sont retournés :

Text : Une seule chaîne. Si plusieurs balises identiques sont trouvées, leurs contenus sont concaténés avec des sauts de ligne.
Array : Une liste JSON (["a", "b", "c"]). À utiliser dès que vous comptez itérer sur les résultats avec un node Loop.

Error Handling string required default: None

Error Handling — Le comportement du node lorsque la balise n’est pas trouvée dans l’entrée :

None : Le node lève une erreur et l’exécution du workflow échoue (comportement par défaut).
Skip & Continue : Le node renvoie une chaîne vide ou un tableau vide et le workflow continue.

Champs optionnels

Ce node ne possède pas de champ optionnel ; les quatre paramètres ci-dessus sont tous requis pour son exécution.

Tip

Activez Skip & Continue dès que la balise n’est pas garantie (ex: un LLM qui omet parfois une section). Cela évite qu’une balise manquante n’interrompe l’ensemble du run.

Que renvoie le node ?

Le Tag Extractor renvoie le contenu trouvé entre la balise ouvrante et la balise fermante. La forme exacte dépend du paramètre Response Format.

Comment récupérer l’output ?

Dans Draft & Goal, vous n’avez pas besoin de chercher un nom de variable complexe généré par le système. Pour exploiter le résultat :

Tirez un lien depuis la sortie du Tag Extractor.
Connectez-le à l’entrée du node suivant.
Dans ce node suivant, créez et nommez votre propre variable (par exemple, h2_extraits). Le contenu extrait y sera automatiquement injecté.

Extracted content string | array

Le contenu trouvé à l’intérieur de la balise cible. Une simple chaîne lorsque Response Format vaut Text (les occurrences multiples sont séparées par des sauts de ligne), ou un tableau JSON de chaînes lorsque Response Format vaut Array. Renvoie une valeur vide lorsque aucune correspondance n’est trouvée et que Error Handling est réglé sur Skip & Continue.

Exemples d’utilisation

Cas 1 : Découper une sortie LLM en plusieurs variables typées

Vous demandez à un LLM de rédiger un article SEO et de renvoyer plusieurs valeurs en une seule génération, chacune encadrée par une balise :

Rédige un article SEO. Tu dois OBLIGATOIREMENT encadrer tes réponses avec ces balises exactes :
<keyword>Le mot-clé principal ici</keyword>
<html-content>Le code HTML de l'article ici</html-content>
<score-copywriting>Ton auto-évaluation sur 100 ici</score-copywriting>

Placez trois nodes Tag Extractor à la suite du LLM :

Tag Extractor n°1 : Tag = keyword, Response Format = Text → alimente un node SEMrush.
Tag Extractor n°2 : Tag = html-content, Response Format = Text → alimente le node WordPress Post Create.
Tag Extractor n°3 : Tag = score-copywriting, Response Format = Text → alimente un Google Sheets.

Cas 2 : Itérer sur chaque `h2` d’une page scrapée

Web Scraper renvoie le HTML de la page, HTML to Markdown supprime les attributs, puis Tag Extractor récupère chaque h2 :

Configuration :

Tag = h2
Response Format = Array
Error Handling = Skip & Continue

Output (Array) :

[
  "Comment optimiser son SEO en 2026",
  "Pourquoi le SEO technique compte toujours",
  "Top 5 des facteurs de classement cette année"
]

Vous branchez ensuite ce tableau sur un node Loop pour traiter chaque titre individuellement.

Problèmes courants

Le node ne trouve aucune balise et le workflow s'arrête

Cause : Le LLM en amont n’a pas généré la balise exactement comme demandé — espaces en trop, casse différente, ou balise tout simplement absente.

Solution : Renforcez les instructions du prompt LLM (ex: « Tu dois impérativement utiliser le format exact <score>...</score> sans aucun ajout ni majuscule. »). Pour les balises non critiques, réglez Error Handling sur Skip & Continue afin de préserver l’exécution.

Je n'arrive pas à extraire une balise depuis une page HTML scrapée

Cause : La page utilise des balises avec attributs (ex: <h1 id="titre-principal" class="header">). Le Tag Extractor ne reconnaît que les balises simples comme <h1> et ignore celles enrichies d’attributs.

Solution : Insérez un node HTML Cleaner ou HTML to Markdown avant le Tag Extractor pour purger les attributs, puis extrayez.

Tous mes résultats apparaissent sur une seule ligne

Cause : Plusieurs balises identiques ont matché, mais Response Format est réglé sur Text, qui les concatène simplement avec des sauts de ligne.

Solution : Basculez Response Format sur Array. Vous obtiendrez une liste propre exploitable par un node Loop ou tout node aval acceptant un tableau.

L'output est vide alors que mon entrée contient bien la balise

Cause : Le champ Tag contient encore les chevrons (ex: <h2> au lieu de h2), si bien que le node cherche un <<h2>> littéral dans le texte.

Solution : Dans le champ Tag, n’inscrivez que le nom de la balise — n’incluez jamais < ni >.

Bonnes pratiques et pièges à éviter

Tip

Couplez le Tag Extractor à des prompts LLM stricts. Plus le contrat de balises imposé au modèle est rigide (« utilise ces balises exactes, aucune autre »), plus l’étape d’extraction qui suit est fiable.

Warning

Les balises avec attributs ne sont pas supportées. Du HTML complexe comme <div class="card"> ou <h2 id="title"> ne sera pas reconnu. Pré-nettoyez l’entrée avec un HTML Cleaner ou un HTML to Markdown, ou utilisez des balises personnalisées simples (ex: <keyword>, <summary>) lorsque vous prompetez un LLM.

Comment s’intègre-t-il dans un workflow ?

Le Tag Extractor s’intercale entre la génération de contenu (LLM, scraping) et les outils structurés en aval (CMS, SEO, listes, loops). Deux schémas typiques :

graph LR
    A[LLM génère texte + tags] --> B[Tag Extractor: keyword]
    A --> C[Tag Extractor: html-content]
    B --> D[Outil SEO / Analytics]
    C --> E[WordPress Post Create]

graph LR
    A[Web Scraper] --> B[HTML to Markdown]
    B --> C[Tag Extractor: h2
<br/>format Array]
    C --> D[Loop: traite chaque h2]

Nodes complémentaires

LLM

Générez du texte encadré par des balises nommées pour que le Tag Extractor en récupère chaque valeur de façon fiable.

Web Scraper

Récupérez le HTML brut d’une page, puis extrayez les éléments souhaités avec un Tag Extractor en aval.

HTML to Markdown

Supprimez les attributs HTML avant l’extraction afin que les balises simples deviennent reconnaissables.

Loop

Itérez sur chaque élément lorsque le Tag Extractor est réglé sur le format de réponse Array.

JSON Path Extractor

À utiliser à la place quand la donnée en amont est du JSON réel et non du texte balisé.

WordPress Post Create

Envoyez directement le contenu d’une balise <html-content> dans un article WordPress.

Tag Extractor

À quoi sert le node Tag Extractor ?

Configuration rapide

Ajouter le node au canevas

Connecter l’entrée

Définir la balise cible

Choisir le format de réponse

Choisir la gestion d’erreur

Paramètres de configuration

Champs requis

Champs optionnels

Que renvoie le node ?

Comment récupérer l’output ?

Exemples d’utilisation

Cas 1 : Découper une sortie LLM en plusieurs variables typées

Cas 2 : Itérer sur chaque h2 d’une page scrapée

Problèmes courants

Bonnes pratiques et pièges à éviter

Comment s’intègre-t-il dans un workflow ?

Nodes complémentaires

Cas 2 : Itérer sur chaque `h2` d’une page scrapée