这次Databricks给Lakeflow Connect套件里弄了个无服务器的流数据摄取服务,名字叫Zerobus Ingest。这东西就是把实时数据给直接存到Databricks的湖仓里,让你再也不用在中间插Apache Kafka之类的消息代理了。公司说这个新服务能省下不少基础设施开销,运营成本也能降低,处理延迟还能做到只有5秒。这个服务能同时伺候好几个客户端,一个表的吞吐量能超过10Gbps,而且每个连接一秒钟就能弄进去高达100MB的数据。你看它还是无服务器的架构,能自动跟着工作量跑,根本不用你去手动配。跟普通的消息总线用多接收器不一样,Zerobus走的是单接收器路子,就是把所有事件都集中到一个地方再分给大家用。这就把很多工程活都省了,调优代理、盯着消费者组这些麻烦事全不用管,运维压力也小了一大截。程序员只要用Google的远程过程调用或者REST API就能把它连上,还有Python、Java、Rust、Go和TypeScript这些语言的SDK都能支持。这样写代码量最少就能往湖仓里面写记录了,而且还能靠Unity Catalog管一管。这东西最适合搞遥测和物联网的活儿、算点击流、看网络安全事件这种对速度要求高的场景。把外部那些流媒体层都砍掉了以后,组织能少花很多买服务器和算资源的钱,还能把原来那一大串乱七八糟的堆栈整合成一个单一的托管服务。这个服务现在已经在各大云平台上上线了,成了Lakeflow Connect组合的一部分。 Q1:Zerobus Ingest是个啥?有啥特色? A:Zerobus Ingest就是Databricks新搞的那个不用中间层的流数据摄取服务,能把数据流直接往Delta表里送。它能支持好几百个客户端一起上,一个表的吞吐量能有10Gbps多,延迟特别短才5秒。最重要的是它还是无服务器的架构,能自己按工作任务变大变小。 Q2:跟以前用Kafka那种办法比起来它有啥不一样? A:Zerobus Ingest走的是单接收器的路子,不是那种大家都用多接收器的那种办法。这样搞省事儿多了,不需要去专门调那些代理或者盯着消费者组,基本不用怎么维护了。省下了不少基础设施的钱和运营的麻烦事,还把好几样组件拼成了一个统一的托管服务。 Q3:这东西能用来干哪些活? A:它特别适合那种需要实时看大量数据来给运营提意见的事儿,像遥测物联网数据、算点击流、看网络安全事件流都很在行。特别是对延迟要求特别高的那些大数据处理场景,用它准没错。