用一个示例简单讲一下网站采集的的过程

2022-07-23 17:05:19

随着时代的发展，社会越来越信息快速化，所以信息更新非常的迅速，这让很多站长在更新自家的网站信息时，显得太浪费时间，该怎么办呢？那就是通过采集将别家的信息录入到自家网站的数据库中，这样做可能对网站的优化会有一定的影响，但这不是我们今天讨论的话题，今天就用一个示例简单讲一下网站采集的的过程
我们先来看下面的一个实例，这是客户的网站要求采集太平洋网站的新闻，代码如下图所示（附说明）：
<?php
header("content-type:text/html;charset=utf-8");//

采集网址

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);//将为一个CURL会话设置选项。CURLOPT_URL参数是你想要的设置，这是你想用PHP取回的URL地址,$url是这个选项给定的值
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);//如果有证书的https的，除去https里面的s,此句非常重要，不可删除，否则带有https的站点将无法打开
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//所获的内容不输出
$data=curl_exec($ch);//将页面的内容赋于$data,即$data就是我们打开网页后的内容代码
$data=iconv('gbk', 'utf-8',$data);//防止中文的乱码，做转码处理
curl_close($ch);//关闭cURL 会话
咱们先打开太平洋新闻网,然后查看网页源代码，找到要采集的信息内容，截图下图：

网页截图

根据上面的代码，我们可以写一个正则表达：
$path = '#<a href="(.*?)" target="_blank"><img width="200" height="150" src="//www1.pconline.com.cn/images/blank.gif" (.*?)="(.*?)" alt=""> </a>

<dl><dt><a href="(.*?)" target="_blank">(.*?)</a></dt><dd>(.*?)<a href="(.*?)" target="_blank">(.*?) </a>| (.*?)</dd></dl>#is'; preg_match_all($path,$data,$arr);//正则匹配，其中$path是匹配的规则，$data是想要匹配的内容，$datapath给定正则表达式的匹配结果并且将它们以flag指定顺序输出到$arr中.
$array = array();//初始化一个数组
foreach($arr as $k=>$v){
if($k==3||$k==4||$k==5||$k==6||$k==9){ //想要的参数有哪些
$array[$k] = $v;}}
if(!empty($array)){
$array = array_values($array);//重置数组key，让数组的key从0开始计算，也可以不重置，但不要弄错
}
/*
其中
$array[0] 是信息的图片绝对地址的数组
$array[1] 是信息链接地址的数组
$array[2] 是信息标题的数组
$array[3] 是信息列表简介的数组
$array[4] 是信息时间的数组
Print_r($array);根据输入的数组信息就知道如何把数据添加到数据库了，然后根据url再采集信息里面的详细内容，以达到采集整条信息的完整性
*/

网站声明：以上文章内容为优加的原创文章，如需转载，请注明出处，谢谢合作！

佛山网站设计佛山做网站的公司哪家好佛山网络公司

上一篇：网站前端制作之图片懒加载的功能介绍下一篇：网站设计中的比例和尺度

0 喜欢

1092 浏览数

优加商学院

254

APP开发微信小程序开发网站开发

TOP榜单

google浏览器打开提示“危险网站”应该怎么解决呢？

刚做一个新站，还没有正式开始使用，就被google浏览器定义为“危险网站”了，其它浏览器没有任何提示或影响

小企书独立站支持独部署——为追求自主掌控的企业而生

小企书独立站不是平台站，是原生代码编写的成品站。不依赖于任何第三方平台，所以是支持客户自行购买服务器，并把网站搭建在自己的服务器上使用！

仅需920元的外贸独立站，究竟能做什么？

很多外贸老板问：几百块钱一年的网站，功能会不会很简陋？小企书专业版本用实力告诉你：920元，足够打造一个专业级的外贸展示站。

你的独立站多语言有用吗？

独立站paypal绑定万里汇提示您需要一些帮助才能关联此账户

paypal绑定万里汇提示“您需要一些帮助才能关联此账户。请联系我们寻求帮助,或者您也可以绑定其它账户”

小企书独立站的询盘工具提供哪些，以及如何设置？

google浏览器打开提示“危险网站”应该怎么解决呢？

刚做一个新站，还没有正式开始使用，就被google浏览器定义为“危险网站”了，其它浏览器没有任何提示或影响

小企书独立站支持独部署——为追求自主掌控的企业而生

仅需920元的外贸独立站，究竟能做什么？

很多外贸老板问：几百块钱一年的网站，功能会不会很简陋？小企书专业版本用实力告诉你：920元，足够打造一个专业级的外贸展示站。

你的独立站多语言有用吗？

独立站paypal绑定万里汇提示您需要一些帮助才能关联此账户

paypal绑定万里汇提示“您需要一些帮助才能关联此账户。请联系我们寻求帮助,或者您也可以绑定其它账户”

微商云仓免囤货一键提货系统

小程序B2C商城

无纸化考试系统

知识付费音视频系统

独立社区团购系统

多功能排行榜系统

多语言外贸独立站