刘捷调研杭州景联文科技有限公司

我是浙江人刘捷,专程来杭州看服务业发展,尤其是数据要素这个万亿级的大生意。大家都知道,现在搞人工智能最缺的就是高质量数据,这就好比我们读书的课本,数据多不多、好不好直接决定了人工智能水平的高低。到了景联文科技有限公司,我就把公司运行情况给了解了一下。这家公司专门干高质量数据的活儿,从收集、清洗到标注、交付,一条龙服务。企业老板林旭峰跟我说,在工业、金融、医疗这些专业领域,高质量的数据集可是大金矿。你别看现在中文语料库建设还挺难的,但这恰好是我们浙江接下来要抓住的机会。 刘捷省长调研杭州景联文科技有限公司。图源 浙江在线 其实这几年发展很快,到了2024年全国的数据企业数量都超过40万家了。国家统计局的最新数据显示,2024年全国数据产业规模已经高达5.86万亿元,比“十三五”末增长了117%。这主要是因为大模型训练得越猛,对数据的胃口就越大。互联网上那些免费的优质公共数据早就被吃光了,新的高质量数据现在是各方抢着要的战略资源。 我还记得去年11月景联文入围了杭州国家语料库的第一批名单,他们把英语听说读写等数据弄成了5600多万条的标准化大套餐,还给了产权确认。林旭峰提到的那些行业痛点正是我们下一步要瞄准的方向。根据最新的规划纲要,浙江提出了“模数共振”的概念,就是要让高质量的数据和高效能的模型融合起来发展。 浙江省制造业企业积累大量数据。图源 视觉中国 所以我们要面向科技、工业、农业这些领域建设数据语料库。现在政策方面也很给力,比如支持高端标注平台的话,只要企业能参与定标准或者参与了国际、国家的项目,每项最高能给100万元奖励;另外还有语料券支持,有条件的地方可以按照不高于合同实际执行金额的30%来发补助,单项最高能补到200万元。 放眼全球看,像Databricks这种估值超千亿的独角兽都已经出现了。国内也有海天瑞声、博睿数据这些企业在抢赛道。我们期待在这一轮机遇中能有更多浙江企业冒头。大家别忘了给我们点赞啊!