Java实现利用搜索引擎收集网址的程序

Java实现利用搜索引擎收集网址的程序,第1张

Java实现利用搜索引擎收集网址的程序,第2张

我这里说的不是如何使用搜索引擎,而是如何让程序使用搜索引擎收集网址。这有什么用?非常有用!在网上,经常有人兜售网站数据库,如发布软件网站、邮箱、论坛网站、行业网站等。这些网站是怎么来的?不能靠人手工收集,都是程序利用搜索引擎获取的。如果你需要某种URL信息数据,就跟我学习吧。很简单。

本文用Java语言编写,以google和百度搜索引擎为对象。

我们要用google和百度搜索引擎的两个搜索规则,关键词搜索和inurl搜索。什么是inurl搜索?意思是你要搜索的网站中的关键词,比如http://www.xxx.com/post.asp.这个网站包含了post.asp这样的关键词。搜索引擎的填充规则是inurl:post.asp,这是收集网站的关键,因为很多网站本身就带有特定的信息。比如软件发布的网址信息,大多包含发布、提交、推荐等信息,http://www.xxx.com/publish.asp,等网址多为发布信息的网站。通过组合网站本身可能包含的关键字,我们可以用搜索引擎搜索结果,然后我们可以用程序检索结果,分析HTML页面,去掉无用的信息,把有用的网站信息写入文件或数据库,以便其他应用程序或人使用。

第一步是用程序检索搜索结果。以百度为例。比如我们要搜索软件发布的网页,关键词是“软件发布版本inurl:publish.asp”。先登录百度,写下关键词,然后提交,地址栏就会看到http://www.baidu.com/s?。ie = GB 2312 & bs = % C8 % ED % BC % FE % B7 % A2 % B2 % BC+% C8 % ED % BC % FE % B0 % E6 % B1 % BE+INURL % 3 publish . ASP & Sr = & z = & cl = 3 & f = 8 & WD = % C8 % ED % BC % FE % B7 % A2 % B2 % BC+% B0 % E6 % B1 % BE+INURL % 3 publish。ASP&CT = 0,中文关键词全部编码,没关系,我们可以在程序中直接使用中文,其中很多关键词用+号连接,去掉一些没用的。LM = 0 & SI = & rn = 20 & IE = GB 2312 & CT = 0 & wd= software release+version+INURL % 3 publish % 2 ASP & pn = 0 & CL = 0,其中RN表示一页显示多少个结果,WD =表示要搜索的关键字,pn表示从哪个显示。这个PN我们用Java写的程序来模拟这个搜索过程。使用的关键类是java.net.httpurlconnection、java.net.url。关键代码如下:

以下是引号片段:
class search
{
public URL URL;
public HttpURLConnection http;
public Java . io . inputstream urlstream;
......
for(int I = 0;i++;我{
......
试试{
URL = new URL(" www . Baidu . com/s?LM = 0 & SI = & RN = 20 & IE = GB 2312 & CT = 0 & WD =软件发布+版本+INURL % 3 publish % 2 ASP & PN = "+begin record+" & CL = 0 ");
}catch(异常ef){ };
try {
http =(httpurl connection)URL . open connection();
http . connect();
urlstream = http . getinputstream();
}catch(异常ef){ };
Java . io . buffered reader l _ reader = new Java . io .
buffered reader(new Java . io . inputstreamreader(urlstream));
try {
while((current line = l _ reader . readline())!= null){
total string+= current line;
}
} catch(io exception ex3){ }
...
/这次搜索的结果已经放入totalstring,这是一些HTML代码,需要在下一步进行分析。
}

位律师回复
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » Java实现利用搜索引擎收集网址的程序

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情