simple_html_dom类做爬虫Demo

<?php

include_once("simple_html_dom.php");
$url = 'http://www.0535code.com';
$html=file_get_html($url);//要抓取的站点网址

$tmp=array();//保存一级url数组
foreach($html->find('a') as $e)
{
$f=$e->href;
if($f[0]=='/')$f=$url.$f;//拼接网址
if(stripos($f,"0535code")==FALSE)continue;//判断是否为当前站点
echo $f . '<br>';
$tmp[$cun++]=$f; //保存一级url数组
}

foreach($tmp as $r) //循环一级url数组
{
$html2=file_get_html($r); //获取url内层url
foreach($html2->find('a') as $a)
{
$u=$a->href;
if($u[0]=='/')$u=$url.$u;
if(stripos($u,"0535code")==FALSE)continue;
echo $u.'<br>';
}
$html2=null;
}
?>

发表评论

电子邮件地址不会被公开。 必填项已用*标注