网页爬虫:就是一个程序用于在互联网中获取指定规则的数据。这篇文章主要介绍了使用正则表达式实现网页爬虫的思路详解,需要的朋友可以参考下

网页爬虫:就是一个程序用于在互联网中获取指定规则的数据。

思路:

1.为模拟网页爬虫,我们可以现在我们的tomcat服务器端部署一个1.html网页。(部署的步骤:在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑,编辑内容为:

2.使用URL与网页建立联系
3.获取输入流,用于读取网页中的内容
4.建立正则规则,因为这里我们是爬去网页中的邮箱信息,所以建立匹配 邮箱的正则表达式:String regex="\[email protected]\w+(\.\w+)+";
5.将提取到的数据放到集合中。

代码:

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/*
 * 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据
 * 
 * 
 */
public class RegexDemo {
 public static void main(String[] args) throws Exception {
 
 List<String> list=getMailByWeb();
 for(String str:list){
 System.out.println(str);
 }
 
 }
 private static List<String> getMailByWeb() throws Exception {
 
 //1.与网页建立联系。使用URL
 String path="http://localhost:8080//1.html";//后面写双斜杠是用于转义
 URL url=new URL(path);
 //2.获取输入流
 InputStream is=url.openStream();
 //加缓冲
 BufferedReader br=new BufferedReader(new InputStreamReader(is));
 //3.提取符合邮箱的数据
 String regex="\\[email protected]\\w+(\\.\\w+)+";
 //进行匹配
 //将正则规则封装成对象
 Pattern p=Pattern.compile(regex);
 //将提取到的数据放到一个集合中
 List<String> list=new ArrayList<String>();
 
 String line=null;
 while((line=br.readLine())!=null){
 //匹配器
 Matcher m=p.matcher(line);
 while(m.find()){
 //3.将符合规则的数据存储到集合中
 list.add(m.group());
 }
 }
 
 return list;
 }
}

注意:在执行前需要先开启tomcat服务器

运行结果:

总结

以上所述是小编给大家介绍的使用正则表达式实现网页爬虫的思路详解,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对爱安网网站的支持!

最新资讯
小盒科技CEO刘夜谈AI课:技术背后 人文很重要

小盒科技CEO刘夜谈AI

近日作业盒子举办品牌升级暨战略发布会,宣布了“作业盒
阿里回港二次上市:将和港股“股王”腾讯强势对垒?

阿里回港二次上市:将和

时间倒回至5年前,2014年9月15日,阿里在纽交所递交IPO申
人类登月50周年:致敬那些为登月献出的生命

人类登月50周年:致敬那

整整50年了,距离人类首次登上月球。
又一暴雪联合创始人宣布离职:结束28年暴雪工作生涯

又一暴雪联合创始人宣

今天上午,暴雪娱乐的联合创始人之一Frank Pearce宣布正
快递员不得随意将包裹放快件箱,能否终结懒人送件

快递员不得随意将包裹

未经收件人同意,快递员将不得随意把包裹放进智能快件箱
苹果面临“果粉”忠诚度下降危机

苹果面临“果粉”忠诚

高盛指出,由于App商店的销售业绩增长缓慢,苹果股价恐怕
最新文章
Python中正则表达式的巧妙使用一文包你必掌握正则

Python中正则表达式的

正则表达式就是从字符串中发现规律,并通过“抽象”的符
2019手机号码JS正则表达式验证实例代码

2019手机号码JS正则表

这篇文章主要介绍了2019手机号码JS正则表达式验证实例
sql关键词脚本检查正则表达式的方法

sql关键词脚本检查正

这篇文章主要介绍了sql关键词脚本检查正则表达式的写
详解Java中的scala正则表达式

详解Java中的scala正

Scala 通过 scala.util.matching 包中的 Regex 类来支
Javascript正则表达式验证账号、手机号、电话和邮箱的合法性

Javascript正则表达式

这篇文章主要介绍了Javascript正则表达式验证账号、手
详解正则表达式后面不要包含指定的字符串内容

详解正则表达式后面不

这篇文章主要介绍了正则表达式后面不要包含指定的字符