刘捷调研杭州景联文科技有限公司

我是浙江人刘捷，专程来杭州看服务业发展，尤其是数据要素这个万亿级的大生意。大家都知道，现在搞人工智能最缺的就是高质量数据，这就好比我们读书的课本，数据多不多、好不好直接决定了人工智能水平的高低。到了景联文科技有限公司，我就把公司运行情况给了解了一下。这家公司专门干高质量数据的活儿，从收集、清洗到标注、交付，一条龙服务。企业老板林旭峰跟我说，在工业、金融、医疗这些专业领域，高质量的数据集可是大金矿。你别看现在中文语料库建设还挺难的，但这恰好是我们浙江接下来要抓住的机会。刘捷省长调研杭州景联文科技有限公司。图源浙江在线其实这几年发展很快，到了2024年全国的数据企业数量都超过40万家了。国家统计局的最新数据显示，2024年全国数据产业规模已经高达5.86万亿元，比“十三五”末增长了117%。这主要是因为大模型训练得越猛，对数据的胃口就越大。互联网上那些免费的优质公共数据早就被吃光了，新的高质量数据现在是各方抢着要的战略资源。我还记得去年11月景联文入围了杭州国家语料库的第一批名单，他们把英语听说读写等数据弄成了5600多万条的标准化大套餐，还给了产权确认。林旭峰提到的那些行业痛点正是我们下一步要瞄准的方向。根据最新的规划纲要，浙江提出了“模数共振”的概念，就是要让高质量的数据和高效能的模型融合起来发展。浙江省制造业企业积累大量数据。图源视觉中国所以我们要面向科技、工业、农业这些领域建设数据语料库。现在政策方面也很给力，比如支持高端标注平台的话，只要企业能参与定标准或者参与了国际、国家的项目，每项最高能给100万元奖励；另外还有语料券支持，有条件的地方可以按照不高于合同实际执行金额的30%来发补助，单项最高能补到200万元。放眼全球看，像Databricks这种估值超千亿的独角兽都已经出现了。国内也有海天瑞声、博睿数据这些企业在抢赛道。我们期待在这一轮机遇中能有更多浙江企业冒头。大家别忘了给我们点赞啊！