网络爬虫已成过去

数据集可以在几分钟内提供整站快照或智能子集:贷款人正在接收替代贷款申请者的数据,风险投资者正在获取初创加速器的信息,而其他公司则将社交媒体影响者的参与度得分直接输入算法。
1 min read
网页爬虫已成过去式

在本文中,我们将讨论:

  • 预收集的数据集比网络爬虫更有效,创造了更多的价值
  • 数据集在不同行业中的应用:
    • 商业/金融数据集
    • 社交媒体数据集

预收集的数据集比网络爬虫更有效,创造了更多的价值

自从Bright Data推出现成可用的数据集以来,许多公司已经从内部网络爬虫转向获取整站快照或智能子集,这些子集根据其数据需求量身定制,直接交付给团队。

这种选择帮助企业在以下方面提高了效率:

  • 灵活性数据集提供了高水平的工作流和预算灵活性,因为您无需对数据收集操作进行“持续承诺”。这意味着您可以为特定项目定制订购数据集,然后可以暂停,然后在以后为概念验证(PoC)订购另一个。数据访问起到了支持作用,而不是限制您。
  • 资源数据集不需要维护/保养,也不需要任何内部硬件/软件,也不需要维持IT、工程和DevOps人员团队。
  • 时间数据集可以缩短“构思阶段”和新产品、功能或能力推出之间的时间跨度。这是因为没有收集时间,这意味着算法所需的数据可以在几分钟内交付。此外,数据集会定期刷新,以确保您依赖的信息是最新的。
  • 成本效益数据集是一种更具成本效益的选择,因为扩展、访问和维护的成本分摊在多个公司之间。这种“数据共享模式”降低了每个参与者的成本。

数据集在不同行业中的应用

商业/金融数据集

保险、投资和贷款等行业是非常有规律的行业,可以从整体数据集,尤其是替代数据集中受益。

例如,机构贷款人试图通过创建有关公司或申请信用额度的个人的档案来降低风险。通常他们使用“经典数据”,例如:

  • 信用历史/分数
  • 收入与债务比率

但能够为算法提供额外的信息层以便对申请人做出决策,可以使机构能够接触到以前被忽视的低到中风险客户。

在评估公司财务实力时,数据集如行业排名、职位发布、员工评价或“传统”数据点如收入、公司规模和投资轮次可以提供有关公司实力和信用评级的相关见解,同时扩大对特定公司的理解范围。

对于个人,贷款人可以利用社交媒体档案,以更好地了解这个人是谁,以及这如何影响贷款的风险水平(他们是否参加跳伞?每晚派对?等等)。

此外,他们可以订购现成的数据集,这些数据集与目标受众申请者填写在线贷款申请的平均时间有关。奥马哈第一国家银行的合规团队,例如,收集这些信息,更仔细地审查有异常延迟的申请。这是因为他们的内部统计数据显示,这些申请符合多种欺诈模式的概率较高。

至于投资者,风险投资公司正在利用数据集以便在公司早期阶段进行投资。这是由于投资资本大幅增加,而初创公司的数量保持不变。在这种情况下,相关的现成数据集包括:

  • 扫描整个初创加速器网站,寻找那些统计数据表明“货币化机会”的公司(例如,员工数量在短时间内的增长、职位发布数量的增加、行业论坛的活跃度增加或最近成功推出的产品)
  • 抓取整个应用商店网站,查找高性能、下载量和星级评分的应用程序,这些都可以表明公司的增长/采纳率。

社交媒体数据集

许多公司依赖于社交媒体输入的商业模式和数字服务。一个很好的例子是健身应用程序、可穿戴设备和“健康追踪作为商业模式”公司。在这种情况下,企业订购预收集的数据集,例如:

  • 健康、美容和体育行业的顶级影响者 – 这可能包括整个档案或仅是具有高参与度的热门帖子。这些可以作为目标受众兴趣、情感和锻炼习惯的真实指标。例如,可能有多个帖子讨论了“消除腹部脂肪”的愿望,这可能表明市场需要一种专门针对该问题的新产品,或揭示对现有产品线可能有效的广告信息。
  • 次要的可穿戴设备或应用程序成就数据 – 许多人使用健身应用程序和可穿戴设备(如智能手表)来跟踪他们的锻炼情况。这些信息是私密的,无法收集,但许多人选择在社交媒体上分享他们的成就,这是可以获取这种替代/次要数据集的地方。这些信息对于了解人们进行的锻炼类型(跑步?瑜伽?)以及地点(在健身房?还是在公园?)非常重要。这些数据可以为广告活动、产品线、新健身应用功能以及其他有助于您的公司成为以消费者为中心的市场领导者的见解提供支持。

结论

主动爬取互联网上的数据集以帮助您的公司做出更明智的业务决策已经过时。这是一种资源密集、费时且笨拙的业务运营方式。数据集允许您专注于核心业务,并随时随地(解析JSON、CSV或Excel格式)订购所需的数据。