什么是替代数据?
该术语指的是从非传统来源获取的有关金融工具的任何信息。投资专业人士通常使用的传统来源包括SEC备案、财务记录、新闻稿和媒体报道。
有时,分析师需要补充或支持他们的见解,因此他们会尝试从其他来源获取信息,例如新闻情绪、专家网络和网络抓取数据,这些被称为‘替代数据’。
在这个背景下,投资经理可以利用两种主要的数据来源:
1. 传统数据 —— 财务报告、新闻、交易报告、SEC备案
2. 替代数据 —— 支付、地理位置、社交媒体和卫星数据
替代数据是如何生成的?
正如我们之前解释的,替代数据可以来自许多来源。
那么,谁生成这些数据?
有三大替代数据来源:
1. 个人: 普通人每天通过社交媒体互动、工作以及Google、Bing和Yahoo搜索生成大量数据。每当有人在电商网站上发表评论或评论时,他们就会生成表明行为模式的替代数据。这些数据被认为是‘非结构化替代数据’,可以作为公司决策过程中的许多因素之一。
2. 公司: 企业则往往生成更易于分析的结构化数据,这些数据在做出财务决策时可以提供更深入的见解。这包括交易数据——因购买、信用卡交易等生成的数据。来自政府机构、税务等的数据也包括在此类别中。
3. 物联网(IoT)生成的数据: 这些数据通常是非结构化的,因为它们是由传感器和端点设备生成的。智能电视、销售点(POS)系统、停车和交通传感器等物联网设备提供的有用数据,如果经过适当分析,可以为您提供强有力的见解。例如,人们经过某条街道的频率或顾客访问某个商场的频率。此类别还包括由手机和其他基于地理位置的系统生成的数据。
不同类型的替代数据
网络数据 —— 网络搜索、点击率、网络人口统计。这对营销和电商研究特别有用。
社交情绪数据 —— 消费者行为和对品牌内容及定位的反应。这包括评论、在线互动、推文和帖子。这可以引导您了解当前的市场趋势和消费者行为的变化。
地理位置数据 —— 此类数据可以帮助公司了解哪些位置对特定产品有更高需求。例如,房地产投资者也可以使用此类数据,根据替代数据点(如分区法规或新建基础设施)识别项目开发前景看好的区域。
信用卡交易 —— 交易数据可以跟踪零售收入和支付习惯,以评估贷款,预判零售业务的收益报告,并识别消费者的可自由支配支出模式。
销售点(POS)交易 —— 可以提供有关销售量、消费者行为、热门产品以及不同消费者群体偏好的支付方式的信息。
天气和卫星影像 —— 虽然这些数据主要以图像的形式收集,但可以输入算法和/或分析工具,得出具体结论和预测。例如,测量某个区域或人口的经济活动,包括活动高峰的时间以及开放或活跃的商店数量(这在新冠疫情期间特别有用,帮助人们避免拥挤的商店,从而降低感染率)。
为什么替代数据如此受欢迎?
投资管理公司利用数据识别模式并获得有关投资产品的独特见解。对冲基金是最早利用数据分析技术和大数据的公司之一,随后是私募股权管理者。这些‘前卫’公司在替代数据方面也处于领先地位——早期采用者在替代数据普及之前将受益最多。
替代数据为什么如此有吸引力?
可用的大量数据集为竞争对手提供了潜在优势。据预测,到2025年,每天将生成163ZB的全球数据。这意味着有更多的数据可以供人工智能(AI)工具使用,更多的潜在模式和趋势可以被发现,更多获得竞争优势的可能性。
考虑到这一点,投资公司正在以不断增长的速度雇佣数据科学家和分析师,以帮助进行数据挖掘。据《金融时报》报道,投资公司中数据分析师的数量正在呈指数增长。
替代数据在模型驱动投资中的作用是什么?
模型驱动投资指的是使用分析数据模型来寻找金融领域,特别是投资方面的见解。尽管大多数公司尚未完全脱离传统数据来源,替代数据对于试图识别创新、新想法以增加阿尔法的投资公司来说变得越来越重要。
快速定义: 根据Investopedia,“阿尔法(α)是一个投资术语,用来描述一种投资策略的市场超越能力或优势。”
此外,由于COVID-19,向在线活动和数字市场的转变促使银行和投资者将替代数据作为决策的来源。这种数据可以提供接近实时的图景,使金融机构能够及时做出有关风险管理、贷款等的决策。
实现量化或模型驱动的投资方法包括两个部分:收集和分析数据。数据收集可以通过使用数据收集和网络爬虫工具、数据平台以及专门从事收集替代数据的数据提供商来完成。
然而,找到数据只是第一步。只有在数据被分析和解释后,数据才能为您所用。由于替代数据来自不同的来源且非结构化,它比传统数据更难分析。机器学习(ML)和自然语言处理(NLP)工具的兴起对于分析替代数据生成的庞大数据集至关重要。AI工具可以比任何人类更快地处理数据。基于AI的模型和数据提供商可以帮助投资行业找到做出准确决策所需的模式和见解。
替代数据的使用案例
替代数据将在未来几年改变投资公司和对冲基金选择投资的方式。当与数据分析工具结合时,替代数据用于生成想法、评估投资和管理投资组合的应用可能非常强大。以下是一些常见的替代数据使用案例:
跟踪价格变化和通货膨胀 —— 公司可以跟踪包含数百万价格的数据集,以了解价格变化和通货膨胀的影响。
使用社交媒体预测收益 —— 资产经理可以挖掘社交媒体和搜索引擎数据,以预测公司的收益在特定时间段内的表现。
使用支付数据跟踪表现 —— 对冲基金可以使用结合信用卡交易、位置数据和应用程序使用的数据,跟踪零售公司的在线和应用销售表现。
使用网络数据和社交媒体评论预测市场动向 —— 您可以使用抓取网站和社交媒体的数据,以检测可能影响市场的事件。
如何获取替代数据
您可以通过自己直接从互联网收集数据或从第三方供应商处购买数据来获取替代数据。让我们来探讨一下。
选项1:网络爬虫
这指的是通过网络抓取工具或内部抓取软件从网站收集数据。软件会抓取网页,根据特定关键词下载相关数据。然后可以将数据保存为多种格式,例如CSV文件。数据抓取工具的应用范围很广,从品牌保护到价格验证。
在工具方面,您有不少选择——从DIY解决方案,到与代理网络集成并利用真实消费者IP的选项。其他选项包括完全自动化的解决方案,无需编码或基础设施——您只需:
- 定义您的目标数据集
- 期望格式
- 时间安排
- 首选的交付方式
然后享受直接流向您的团队和/或系统的数据流。
选项2:购买数据集
有替代数据提供商可以在数据处理的不同阶段为您提供数据。您可以购买原始数据、‘清洁’或半结构化的数据集。例如,对于需要‘静态’数据集的公司来说,这是一个不错的选择,这意味着他们不需要实时数据集被发送到他们的团队和系统。例如,一家时装公司可能每季想要抓取一次社交媒体以识别新趋势,但不需要每天这样做。另一方面,一家电商公司可能每小时扫描一次竞争对手的价格,并实时进行价格调整,以便压低或‘超越’竞争对手。在后一种情况下,购买数据集可能不是一个可行的选择。
下一步是什么?
随着公司认识到替代数据对整个经济,特别是金融部门的价值,我们将开始看到替代数据预测模型和替代数据驱动的收入流的广泛采用。当公司学会收集:
- 准确
- 清洁
- 用户生成的
替代数据,并通过将这些原始数据集输入预测算法和人工智能来增加一定程度的复杂性,我们将真正开始看到影响。
想象一下 零售连锁店根据社交媒体上的消费者情绪做出生产和收藏决策。
想象一下 投资公司根据交易数据中的消费者活动实时投资或对证券进行做空。
想象一下 保险公司可以根据自然现象地理空间数据(如飓风、海啸和洪水)进行风险评估。
您不再需要使用您的想象力。以上是由有远见的公司利用替代数据的实际用例,这些公司决定引领他们的行业,而不是被其他公司引领。