9 U* b9 O! z$ j- Y* ?! R) C言归正传,我们很高兴地介绍2022年的数据50强。 1 f0 n' b( Z, T1 K J! Z: W5 Q: l0 L: o
/ s' ~ b2 T' \5 n6 B4 c: X" j: h) |( e. G7 L
8 S. B" P$ ~, Y6 {$ V ' y% K1 E9 U5 _0 K7 x Q. L1 p9 V. v) c
' O0 ^( ^4 v. g- o4 U7 |$ P( W这些公司是在2008年之后成立的,在过去两年中已经筹集了新的资金,并且他们的员工人数每年至少增长30%。他们的产品是为各行业的数据或数据应用团队服务的水平技术。9 P0 O, S1 R/ T. n+ |
6 F, o* e0 G6 M" p排名综合考虑了最近的估值、公司规模、过去两年的员工增长、过去几年的运营情况以及当前的收入规模。员工数据基于LinkedIn公开提供的数据。融资数据基于Pitchbook和Crunchbase的公开数据,截至2022年3月22日。 ! [# i( g1 G/ ^6 W g7 e; U7 Q/ |! f6 r: r6 t请注意,这份名单不包括交易型数据库公司,如CockroachDB、PlanetScale和Yugabyte,因为这些技术的数据本身就是交易性的,而不是分析性的。/ B& j+ U4 ?8 d) |- B
' R+ F1 K. y$ e, F
我们将Data50分解为7个子类别。" K# ~1 x4 S' A1 X+ U3 _& a
" ?" {9 i0 q& I" z4 l3 r' `+ U
查询和处理技术是访问、聚合和计算数据的核心引擎。它涉及两大类:批处理(如Databricks和Starburst)和实时处理(如ClickHouse和Imply)。在过去的几年里,由于对实时应用的需求不断增加,后者得到了越来越多的关注。( H! H w5 Y/ ]# i0 P8 k, @
% ] M5 d! K: a2 b2 t
AI/ML(人工智能和机器学习)包括应用算法建模和机器学**规模数据的软件。从上榜公司的数量来看,这一领域正在成熟和繁荣。一些公司专注于特定类型的数据(如Rasa和Hugging Face的自然语言),而其他公司则专注于不同的领域,如人工智能的产品化(如Scale、Tecton和Weights and Biases)或充当运行人工智能工作负载的 "计算层"(如Anyscale)。: Z; X O/ p& D$ V2 F
; u& e4 T9 P% c! K. u; S1 V8 q
ELT & orchestration支持数据的移动。它是保证数据准确、准时到达目的地的传输层。此类别是从基于本地拖放界面的传统ETL供应商演变而来的。另一方面,新类别的厂商大多是云原生的(如Fivetran和dbt),对开发者友好的(如Astronomer和Prefect),并处理不同数据环境中更复杂的依赖关系。 4 \8 f4 J' B2 \) A3 Q+ y. x- ]% V' L
随着数据堆栈变得越来越复杂,越来越多的利益相关者参与进来,数据治理和安全正成为关键问题。治理工具是必需的,尤其是在高度规范的行业中来确保数据的安全并在整个数据生命周期中保持合规性(例如OneTrust和Collibra)。这一类别相对较新,通常服务于受监管的大型企业公司。1 ~) I( j( U# M( o( P
, K# M% H2 a% x7 C! Y; o+ h
传统上,客户数据分析由营销团队负责。然而,由于其重要性的增加,数据团队现在更多地参与到将客户数据与中央数据平台的整合中。这个类别主要是捕捉客户数据(如Rudderstack和ActionIQ)或将数据操作化以服务于一线业务用例(如Census和Hightouch)。 / P2 z: U: R& J0 D; H- P $ E/ E' I$ {) {( U( _' KBI & notebooks覆盖了数据的消费层。尽管它是一个成熟的类别,但像Preset或Metabase这样的新玩家正在采取开源优先的方法吸引技术数据工程师和商业智能团队。数据需求的快速变化也创造了对迭代和交互式笔记本(如Hex)和自动洞察力生成(如Sisu)的更多需求。$ u5 C. Y, |. S2 I* j: R( Z
/ R, z( m$ _2 x# g, t* P1 ?, I0 u& ?
数据可观察性从软件工程堆栈中的最佳实践中获得灵感。随着数据堆栈越来越依赖于上游和下游的工具,数据的准确性也有了更广泛的影响,可观察性作为最新的类别出现,为整个数据流提供监控和诊断能力。' M1 N+ b. o+ h$ J K. ~5 c9 G
& n9 U- U# Z; T, V尽管市场采用的主要推动力是数据量和使用量的增加,但每个类别的潜在驱动力各不相同。例如,查询和处理领域的进步主要是由计算和存储的分离、向云计算的迁移和以及更廉价的计算能力驱动的。与此同时,在数据治理和数据可观察性中采用操作性工具在很大程度上是由不断增长的操作性用例和数据工作流的复杂性驱动的。+ z8 |9 l' U \( T" ~4 L
1 k! Z* E; }8 F l$ [4 K* |! x查询和处理类别只占Data50公司的五分之一,但投资在这一类别的资金数额(几乎占所有资金的50%)是惊人的。尽管这一数据受到了Databricks最近16亿美元融资的影响,但如果没有它,这一类别仍将占所有融资的37%,是下一个类别的两倍多。: T0 L% [& g( }- Y$ i* H
/ V5 ]) n; w& W& L. X) `" T
3 R7 E9 D& s* b/ ?# v; d' E
, p5 `; h' B4 {. x1 J
; w2 p2 `# a5 ]# u7 E q! E9 K& h% M3 \: |6 L4 i! z
% L y4 x. Q# n" |% t
8 O5 L0 g& O. n B按公司数量查看类别时,分布更为均衡。就公司数量而言,AI/ML是最大的类别,这主要是因为该领域仍在发展,需要一套新的独立工具来训练、测量和生产模型。 O1 p5 \1 O. c( N. W" _' x9 K# O& a- O
$ }2 |( A# i/ x6 } 4 ]" Y _/ g% s' Z) b9 @8 t8 J- r0 |2 s$ f+ z3 h
" R0 I; z$ a/ u; Z+ ^5 S % R5 K1 t% t6 d3 Z0 U8 o: j! k5 m; T1 a5 B5 [9 A' f3 E
Data50群集在湾区$ s3 b* N* R; D) M. D5 Y, _2 z
- p5 @- E* M6 W8 J9 D: V9 ]0 Q' }
在这50家公司中,46家(92%)位于美国,4家是国际公司。这些公司大多位于旧金山湾区,有9家位于华盛顿特区、费城、纽约和波士顿。其中两家位于西雅图,一家位于辛辛那提,还有一家位于亚特兰大。 4 ~5 x7 A! Y3 P3 ^2 J2 E' G" t9 b3 H* A/ L8 r
这种分布受到大规模数据生态系统历史位置的严重影响(例如,Oracle和Teradata都是在旧金山湾区成立的)。然而,随着数据工程人才和对数据工具的需求几乎遍及每个大陆,我们看到越来越多的数据公司在全球涌现(例如ClickHouse 和 Firebolt)。2 h& N, f) r3 ^! D# ?- p$ ]# I9 b
, _' x" A2 K% k% r; b% n
5 r4 v# ]. p6 t' a1 |
9 x% c( i% T& j | S2 g
' _6 M i4 V" u+ C# k& T. O
; E' {, h$ z) \! L
) D i' L8 P; X" n# `/ N8 I/ v% Z/ ]; `/ m+ S1 P4 p
AI/ML类别推动了2019年新数据公司激增 ! @: S% T+ V' D6 z ' u: A, a. e, R0 |: `- A; j- y大多数Data50公司成立于2014年之后,在AI/ML工具爆炸式增长的推动下,在2019年左右达到顶峰。事实上,2019年之后有更多的数据公司成立,但因为我们关注的是已经达到一定规模的公司,大多数较新的公司还没有出现在这个榜单上。 $ r j. D" T% K: |/ l: T# v# Z ]2 F& `/ U' @+ [1 Y
! ?; Z5 R# r' }6 p: C
' R& c% \( L a4 K
6 m b+ K' i, d" W0 l! P
% C: B# ^1 P. o% D" d" i4 `
6 s. |4 j$ m/ f) n
3 {5 k% F' d) B* A, E+ A: v1 r; ]* P每个类别的投资都在增长 + A) D7 S& k/ H! Y( _. z9 G 0 Z8 w$ w/ H2 V# R从每个类别的投资来看,最显著的趋势是AI/ML公司比以往任何时候都吸引了更多的投资者兴趣,大部分集中在早期阶段。ELT & orchestration也是如此——这在很大程度上是由Fivetran和dbt的百万级交易驱动的。查询和处理公司继续吸引大笔资金,尽管这些公司往往处于后期阶段。 0 {* \: Y1 e ~% o% @* H1 d' W: V; [- w. W1 n& m% Y$ Q+ R