在ASP中清理HTML内容,把所有带有链接、图像、段落标记、表格等HTML标签的元素全部清理掉,只剩下文字,可以用于采集时标签之间HTML内容清理。
Public Function Replacehtml(tstr) Dim Str,re Str=Tstr Set re=new RegExp re.IgnoreCase =True re.Global=True re.Pattern="<(p|\/p|br)>" Str=re.Replace(Str,vbNewLine) re.Pattern="<img.[^>]*src(=| )(.[^>]*)>" str=re.replace(str,"") re.Pattern="<(.[^>]*)>" Str=re.Replace(Str,"") Set Re=Nothing Replacehtml=Str End Function
使用方法:content=Replacehtml(content)