Ouvrir le Studio

HTML Cleaner

Nettoyer et assainir le contenu HTML

Que fait ce node ?

Supprime les éléments HTML indésirables (scripts, styles, publicités) du contenu.

Configuration

html string required

Contenu HTML à nettoyer.

remove_scripts boolean default: true

Supprimer les balises script.

remove_styles boolean default: true

Supprimer les balises et attributs style.

remove_comments boolean default: true

Supprimer les commentaires HTML.

selectors_to_remove array

Sélecteurs CSS à supprimer (ex. .ads, #sidebar).

Sortie

{
  "cleaned_html": "<div>Contenu nettoyé...</div>",
  "removed_elements": 15
}

Cas d’usage

Nettoyer le contenu scrapé avant un traitement par IA :

graph LR
    A[Web Scraper] --> B[HTML Cleaner]
    B --> C[HTML to Markdown]
    C --> D[LLM]