上个星期开会说现在中国的垃圾邮件很赚钱啊。我也很想多赚点钱。不过做技术的都很死板。脑壳不灵活。只能多研究研究一些方法来实现这样子那样的程序代码,搜集整理的两天。终于找到自己想要的代码。不很完善多多改进就好了。
using System.IO;
using System.Text.RegularExpressions;
public string GetPageContent(string url)
{
//抓取网页源代码
string ContentHtml=String.Empty;
HttpWebRequest rt=null;
HttpWebResponse rs=null;
Stream stream=null;
StreamReader sr=null;
rt=(HttpWebRequest)WebRequest.Create(url);
rs=(HttpWebResponse)rt.GetResponse();
stream=rs.GetResponseStream();
sr=new StreamReader(stream,System.Text.Encoding.Default);
ContentHtml=sr.ReadToEnd();
sr.Close();
stream.Close();
rs.Close();
return ContentHtml;
}
public string SetHttpUrl(string StrText)
{
//用正则表达式识别URL超链接
Regex UrlRegex = new Regex(@"(http:////([/w.]+//?)/S*)", RegexOptions.IgnoreCase | RegexOptions.Compiled);
//进规则查询Url
MatchCollection matches = UrlRegex.Matches(StrText);
foreach (Match match in matches)
{
StrText = StrText.Replace(match.Value, string.Format("<a href=/"{0}/" target=/"_blank/">{1}</a>", match.Value, match.Value));
}
return StrText;
}
public string SetEmailUrl(string StrText)
{
//用正则表达式识别Email地址
Regex EmailRegex = new Regex(@"([a-zA-Z_0-9.-]+/@[a-zA-Z_0-9.-]+/./w+)", RegexOptions.IgnoreCase | RegexOptions.Compiled);
MatchCollection matches = EmailRegex.Matches(StrText);
foreach (Match match in matches)
{
StrText = StrText.Replace(match.Value, string.Format("<a href=mailto:{0}>{1}</a>", match.Value, match.Value));
}
return StrText;
}
public string GetHttpUrl(string StrText)
{
//将读取出来的全部URL写如文本文件
string strPageUrlFileName=Application.StartupPath+"//HttpPageUrl.txt";
StreamWriter strwriterobj=File.CreateText(strPageUrlFileName);
//用正则表达式识别URL超链接进规则查询Url
Regex UrlRegex = new Regex(@"(http:////([/w.]+//?)/S*)", RegexOptions.IgnoreCase | RegexOptions.Compiled);
MatchCollection matches = UrlRegex.Matches(StrText);
foreach (Match match in matches)
{
lstHttp.Items.Add(match.Value.ToString());
strwriterobj.WriteLine(match.Value.ToString());
}
strwriterobj.Close();
return StrText;
}
public string GetEmailUrl(string StrText)
{
//将读取出来的全部URL写如文本文件
string strPageEmailFileName=Application.StartupPath+"//HttpPageEmail.txt";
StreamWriter strwriterobj=File.CreateText(strPageEmailFileName);
//用正则表达式识别Email地址
Regex EmailRegex = new Regex(@"([a-zA-Z_0-9.-]+/@[a-zA-Z_0-9.-]+/./w+)", RegexOptions.IgnoreCase | RegexOptions.Compiled);
MatchCollection matches = EmailRegex.Matches(StrText);
foreach (Match match in matches)
{
lstEmail.Items.Add(match.Value.ToString());
strwriterobj.WriteLine(match.Value.ToString());
}
strwriterobj.Close();
return StrText;
}
批量抓取网页代码中的HTTP和邮件地址,IO,正则表达式,抓网页源码
分享到:
相关推荐
通过指定的抓取源和标题正则表达式设置抓取新闻入库
使用正则表达式和requests,抓取猫眼 TOP100 的电影信息
使用正则表达式匹配抓取的百度百家文章列表
这是从我们公司的项目中抽取出来的一部分功能,也是我负责的前台部分。
用C#,正则表达式实现对百度新闻的抓取,开发工具是VS2005和SQL server2000,有数据库的备份,可以直接还原数据库
下载网页源码并用正则表达式提取图片,提取网页图片
利用正则表达式抓取网页内容 学习正则表达式的小例子...
本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...
正则表达式抓取赶集网租房信息源码示例,以赶集网郑州租房信息为例,抓取了第一页的内容,抓取多页和保存只需要稍加修改即可.代码注释中有正则表达式使用过程中需要注意的一些问题,希望能给大家些许帮助
电话号码及日期时间提取(采用正则表达式方式的C语言代码) 支持中国大陆区域通用手机号及固定电话号码提取,简体中文文本网页时间提取。
正则表达式抓取网页数据制作小词典,抓取网页数据,制作小词典
NULL 博文链接:https://lgd-java2eye.iteye.com/blog/756027
Web数据抓取中的正则表达式解析2022优秀文档.pptx
c# 正则表达式对网页进行内容抓取_.docx
以SDUT教务系统为例,抓取学生成绩并解析,计算GPA
介绍了如何将网页中自己想要的信息抓取过来,更进一步的得到内容,类似于网络蜘蛛
主要介绍了C#基于正则表达式实现获取网页中所有信息的网页抓取类,结合完整实例形式分析了C#正则网页抓取类与使用技巧,需要的朋友可以参考下
用boost库实现的网页页面url提取,采用正则表达式实现快速url抓取