User-Profile-Image
hankin
  • 5
  • 首页
  • 关于
  • 主题
  • 影视解析
  • 音乐
  • 归档
  • 留言
  • 分类
    • 后端
    • 前端
    • Python
    • PHP
    • javascript
    • GO
    • CSS
    • AI
  • 页面
    • 关于
    • 归档
    • 留言
    • 视频
      • 视频详情
    • 音乐
  • 友链
    • mango
    • 创造狮
    • 腾讯设计导航
    • coder gzh
    • 风信子博客
    • DIYgod
    • 若志奕鑫
    • 吾柯
    • 元气秋刀鱼
    • wordpress 大学
    • 守望轩-宁静雅致的小轩馆
    • 主题猫
    • 主题喵
    • kam
    • 大海看看
    • wp2
    • CrazyCodes
    • 枫瑞博客
Help?

Please contact us on our email for need any support

Support
Hankin
刷新页面会随机【个人信息流样式】
28文章    103获赞    41评论    6.1万+浏览
世界那么大,我想去看看。但钱包那么小,哪也去不了。所以,珍惜当下,享受生活。
28岁 IP: 杭州 家里蹲大学
  • 首页
  • 关于
  • 主题
  • 影视解析
  • 音乐
  • 归档
  • 留言
    首页   ›   后端   ›   PHP   ›   正文
PHP

PHP使用无头浏览器如何帮助数据提取和抓取

2024-07-24 10:00:10
909  0 0

php使用webdriver做采集的好处
自动化:WebDriver 可以模拟用户与浏览器的交互操作,如点击、输入文本、提交表单等。这使得您可以自动化执行各种网页操作,而无需手动进行。
多浏览器支持:WebDriver 支持多种浏览器,包括 Chrome、Firefox、Safari 等。这意味着您可以在不同的浏览器上运行和测试您的采集脚本,以确保在不同环境下的兼容性。
动态内容处理:许多网站使用 JavaScript 和 AJAX 技术来加载和更新内容。通过 WebDriver,您可以等待页面加载完成并获取完整的渲染后的页面内容,包括动态生成的内容。
数据抽取:WebDriver 提供了丰富的方法和选择器来定位和提取页面中的元素。您可以使用这些功能来获取所需数据,并将其保存到文件或数据库中进行进一步处理。
高度可定制化:WebDriver 允许您编写灵活且高度可定制化的采集脚本。您可以根据需要设置各种选项和参数,以适应不同网站和场景。
跨平台支持:WebDriver 是一个跨平台的工具,可以在 Windows、Mac 和 Linux 等操作系统上运行。这使得它成为一个广泛适用的采集解决方案。
使用方法
使用 WebDriver,您可以等待页面加载完成并获取完整的渲染后的页面内容,包括动态生成的内容。这意味着您可以采集到前后端分离网站上通过 JavaScript 或 AJAX 加载的数据。接下来让我自己动手写一个试试看。
安装浏览器chrome
1. 下载 Chrome 浏览器的安装包:
wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm
2. 安装 Chrome 浏览器:
sudo yum localinstall google-chrome-stable_current_x86_64.rpm
3. 验证 Chrome 是否成功安装:
google-chrome –version
4. 下载对应版本的 ChromeDriver,并解压到指定目录(例如 /usr/local/bin):
https://googlechromelabs.github.io/chrome-for-testing/ (各个版本的下载地址)
wget https://chromedriver.storage.googleapis.com/114.0.5735.90/chromedriver_linux64.zip
unzip chromedriver_linux64.zip -d /usr/local/bin/
5. 启动 ChromeDriver 服务:
LANGUAGE=ZH-CN.UTF-8 /usr/local/bin/chromedriver –port=9515
6.成功运行后,您应该会看到类似以下输出:
Starting ChromeDriver {version} on port 9515…
Only local connections are allowed.
Please see https://chromedriver.chromium.org/security-considerations for suggestions on keeping ChromeDriver safe.
ChromeDriver was started successfully.
https://github.com/php-webdriver/php-webdriver
PHP+WebDriver使用教程

https://github.com/php-webdriver/php-webdriver

php代码执行

<?php
require_once('vendor/autoload.php');
use Facebook\WebDriver\Remote\DesiredCapabilities;

use Facebook\WebDriver\Remote\RemoteWebDriver;

use Facebook\WebDriver\Chrome\ChromeOptions;

$options = new ChromeOptions();

$options->addArguments(['--no-sandbox','--headless']);


$capabilities = DesiredCapabilities::chrome();

$capabilities->setCapability(ChromeOptions::CAPABILITY, $options);


$host = 'http://localhost:9555';

$driver = RemoteWebDriver::create($host, $capabilities);


// 访问百度网站

$driver->get('https://www.baidu.com');


// 获取页面源代码

$pageSource = $driver->getPageSource();


echo $pageSource;


// 关闭 WebDriver 会话

$driver->quit();
评论 (0)

点击这里取消回复。

欢迎您 游客  

Hankin
刷新页面会随机【个人信息流样式】
28文章    103获赞    41评论    6.1万+浏览
世界那么大,我想去看看。但钱包那么小,哪也去不了。所以,珍惜当下,享受生活。
28岁 IP: 杭州 家里蹲大学
  • 首页
  • 关于
  • 主题
  • 影视解析
  • 音乐
  • 归档
  • 留言
免费开源smarty_hankin v2.0重构版

wordpress版本:6.0+

PHP版本:7.0~8.0

gitee源码仓库地址:点击打开

github源码仓库地址:点击打开

最新源码地址:待更新

加QQ群入口:1018842166

WP开源主题 smarty_hankin

随机文章
Mac 下 打开微信小程序目录
1年前
PHP To Go 转型手记
10个月前
“免费” 开通腾讯混元-元器 机器人 TOKEN真的有“一亿次”
11个月前
php操作cookie字符串,替换对应值
6个月前
解决移动设备上的所有浏览器顶部都有地址栏,导致高度问题
10个月前
Copyright © 2025 网站备案号: 浙ICP备20002401号-4
smarty_hankin 主题. Designed by hankin
主页
页面
  • 关于
  • 归档
  • 留言
  • 视频
    • 视频详情
  • 音乐
博主
hanhanjun888@163.com
hanhanjun888@163.com 管理员
hankin
28 文章 29 评论 61209 浏览
测试
测试