Rensa bort HTML-kod från webbinnehåll med reguljära uttryck

Ibland så är lösningen mitt framför näsan på en, det upptäckte jag återigen idag när jag för första gången hade behovet att ta bort all HTML-kod från en textsträng lagrad i en databas för ett publiceringsverktyg jag jobbar med.

Hade jag inte varit en så casualprogrammerare hade jag säkert skrivit detta själv och inte latmaskat mig via Google för att finna koden.

Nedan kod kan du använda för att rensa bort alla grejer som ligger mellan < och > för indatat in_HTML, C#:

public static string RemoveHTML(string in_HTML) {
        return Regex.Replace(in_HTML, "<(.|)*?>", "");
}

Tänk dock på att du kanske måste köra Server.HtmlDecode() först om du inte lagrar koden ojusterad i databasen och att du eventuellt får ta hand om omkodade specialtecken.

Leave a Reply

Your email address will not be published. Required fields are marked *