ASP.NET获取网页中的图片
类别:编程学习 浏览量:1136
时间:2015-1-25 ASP.NET获取网页中的图片
ASP.NET获取网页中的图片下面介绍一个输入网址,获取该网址图片的ASP.NET方法
/// <summary>
/// 下载指定URL下的所有图片
/// </summary>
public class WebPageImage
{
/// <summary>
/// 获取网页中全部图片
/// </summary>
/// <param name="url">网页地址</param>
/// <param name="charSet">网页编码,为空自动判断</param>
/// <returns>全部图片显示代码</returns>
public string getImages(string url, string charSet)
{
string s = getHtml(url, charSet);
return getPictures(s, url);
}
/// <summary>
/// 获取网页中全部图片
/// </summary>
/// <param name="url">网址</param>
/// <returns>全部图片代码</returns>
public string getImages(string url)
{
return getImages(url, "");
}
string doman(string url)
{
Uri u = new Uri(url);
return u.Host;
}
/// <summary>
/// 获取网页内容
/// </summary>
/// <param name="url">网站地址</param>
/// <param name="charSet">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param>
/// <returns></returns>
string getHtml(string url, string charSet)
{
WebClient myWebClient = new WebClient();
//创建WebClient实例myWebClient
// 需要注意的:
//有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
//这是就要具体问题具体分析比如在头部加入cookie
// webclient.Headers.Add("Cookie", cookie);
//这样可能需要一些重载方法。根据需要写就可以了
//获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
myWebClient.Credentials = CredentialCache.DefaultCredentials;
//如果服务器要验证用户名,密码
//NetworkCredential mycred = new NetworkCredential(struser, strpassword);
//myWebClient.Credentials = mycred;
//从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
byte[] myDataBuffer = myWebClient.DownloadData(url);
string strWebData = Encoding.Default.GetString(myDataBuffer);
//获取网页字符编码描述信息
Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
string webCharSet = charSetMatch.Groups[2].Value.Replace("\\"", "");
if (charSet == null || charSet == "")
charSet = webCharSet;
if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
return strWebData;
}
string getPictures(string data, string url)
{
MatchCollection ps = Regex.Matches(data, @"<img\\b[^<>]*?\\bsrc[\\s\\t\\r\\n]*=[\\s\\t\\r\\n]*[""']?[\\s\\t\\r\\n]*(?<imgUrl>[^\\s\\t\\r\\n""'<>]*)[^<>]*?/?[\\s\\t\\r\\n]*>");
string s = string.Empty;
for (int i = 0; i < ps.Count; i++)
{
pictures p = new pictures(ps[i].Value, url);
s += p.GetHtml + "<br />" + Environment.NewLine;
}
return s;
}
/// <summary>
/// 图片实体
/// 图片文件属性处理类
/// </summary>
public class pictures
{
public pictures(string strHtml, string baseUrl)
{
_html = strHtml;
Uri u1 = new Uri(baseUrl);
_doman = u1.Host;
_baseUrl = u1.Scheme + "://" + _doman;
setSrc();
}
private string _html = string.Empty;
private string _baseUrl = string.Empty;
private string _doman = string.Empty;
public string GetHtml
{
get { return _html; }
}
public string Alt
{
get
{
return GetAttribute("alt")[0];
}
}
public string Src
{
get
{
string s = GetAttribute("src")[0];
return s;
}
}
/// <summary>
/// 根据基路径把相对路径转换成绝对径
/// </summary>
/// <param name="baseUrl">基础路径</param>
/// <param name="u">待转换的相对路径</param>
/// <returns>绝对路径</returns>
public string absUrl(string baseUrl, string u)
{
Uri ub = new Uri(baseUrl);
Uri ua = new Uri(ub, u);
return ua.AbsoluteUri;
}
private void setSrc()
{
string strPattern = @"src[\\s\\t\\r\\n]*=[\\s\\t\\r\\n]*[""']?\\S+[""']?";
string src = GetAttribute("src")[0].ToLower();
if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10)
{
src = absUrl(_baseUrl, src);
string s = "src=\\"" + src + "\\"";
_html = Regex.Replace(_html, strPattern, s);
}
}
/// <summary>
/// 获取HTML代码中标签属性
/// </summary>
/// <param name="strHtml">HTML代码</param>
/// <param name="strAttributeName">属性名称</param>
/// <returns>属性值集合</returns>
标签:采集网页中的图片
热门推荐
- SQL中AVG、COUNT、SUM、MAX等函数对NULL值处理
- thinkphp5表单系统(thinkphp 5框架实现登陆,登出及session登陆状态检测功能示例)
- linux中nfs中文全称(Linux NFS机制工作原理及实例解析)
- servertemporarilyunavailable(Service Temporarily Unavailable的503错误是怎么回事?)
- php7优化技巧(php7性能提升的原因详解)
- element中表单验证规则(element多个表单校验的实现)
- jquery实现标签输入功能
- 织梦系统的seo教程(织梦后台SEO优化和修改关键字的方法)
- 怎么查看mysql异常链接(MySQL 查看链接及杀掉异常链接的方法)
- python高级面试题及答案(python面试题小结附答案实例代码)