HTML Cleaner
Nettoyer et assainir le contenu HTML
Que fait ce node ?
Supprime les éléments HTML indésirables (scripts, styles, publicités) du contenu.
Configuration
html string required Contenu HTML à nettoyer.
remove_scripts boolean default: true Supprimer les balises script.
remove_styles boolean default: true Supprimer les balises et attributs style.
remove_comments boolean default: true Supprimer les commentaires HTML.
selectors_to_remove array Sélecteurs CSS à supprimer (ex. .ads, #sidebar).
Sortie
{
"cleaned_html": "<div>Contenu nettoyé...</div>",
"removed_elements": 15
}
Cas d’usage
Nettoyer le contenu scrapé avant un traitement par IA :
graph LR
A[Web Scraper] --> B[HTML Cleaner]
B --> C[HTML to Markdown]
C --> D[LLM]