Apify代理集成
Apify是什么?
Apify 是强大的网页抓取、数据提取和网页RPA平台,可以自动化并批量执行那些需要用户在Web浏览器中手动执行的操作。Apify Store有数百个现成的抓取工具,只需更改设置即可使用。
代理通常是网页抓取的重要组成部分。用户需要在网页抓取时始终保持隐匿并应对目标网站部署的反抓取措施和其他限制。
亮数据能解决这些问题💪
Bright Data的代理可以帮助您成功完成抓取和自动化任务。Bright Data的代理可以与Apify无缝集成,因此您数据抓取任务不会被屏蔽。
如何使用Bright Data代理设置Apify:
前往Bright Data
- 登录亮数据帐户并进入仪表板。
- 点击“代理和基础设施”,并创建一个通道。
- 您可以在机房代理、ISP、动态住宅代理和移动IP间进行选择。
- 根据项目要求配置和创建通道。
- 点击通道名称旁边的设置图标。
- 访问用户名和密码。
前往Apify:
-
- 前往apify.com并登录。
- 进入Apify控制台后,点击左侧菜单中的“Actors”。
-
- 在“商店”选项卡下,找到谷歌地图爬虫Web scraper。我们将以此作为示例。点击它。
-
- 导航到“输入”选项卡。
- 输入lumtest作为开始URL进行抓取:https://lumtest.com/myip.json
- 在页面函数中粘贴此代码:
async function pageFunction(context) {
// jQuery is handy for finding DOM elements and extracting data from them.
// To use it, make sure to enable the "Inject jQuery" option.
const $ = context.jQuery;
// Select the element using the 'body > pre' CSS selector and extract its text content.
const data = $('body > pre').text();
// Return an object with the extracted data. It will be stored in the resulting dataset.
return {
data: data
};
}
-
- 然后向下滚动找到proxy and browser configuration。
-
- 点击own proxy,并按照以下格式输入您的代理凭证。
-
- 您可以从我们刚刚创建的通道设置中获取用户名和密码:http://username:password@hostname:port
- 亮数据代理的主机名是brd.superproxy.io ,端口是 22225。
最终的亮数据代理 URL :
http://lum-customer-c_375eb5c4-zone-zone5:[email protected]:22225
- 然后只需点击Start。
- 您可以预览并以HTML、JSON、CSV、Excel、XML和RSS feed格式下载数据,或在输出标签中查看。
- 要确认Apify使用了代理,请前往您的Bright Data控制面板,导航至代理,然后检查事件日志。
获取Apify的代理
业界最佳的客户体验
您提出要求,我们负责开发
每天发布新功能
24/7 全天候全球支持
随时解答你的任何问题
完全透明
实时的网络性能仪表板
专属客户经理
优化性能
定制解决方案
满足你的数据挖掘目标
代理和数据挖掘领域行业领导者
每天收集650TBTB的公共数据
每天发布新功能
为世界排名前十的大学中的七所提供服务
Trustpilot评分4.6(满分 5)