AI导读:

上海量子城市建设迎来新进展,全国首个规划资源领域专项语料库亮相,数据归集达40TB。同时,上海启动建设云宇星空大模型,通过专项语料库和人工+自动标注提升语料质量,探索应对AI幻觉的策略,支撑模型持续迭代。

  上海量子城市建设正迎来突破性进展。记者日前获悉,全国首个规划资源领域专项语料库在上海亮相,实现数据归集40TB,未来有望达到200TB。

  为什么需要一座专项“仓库”

  上海为什么要打造一座“不明觉厉”的规划资源专项语料库?2024年,上海首次披露“量子城市”概念,通过数字城市监测现实城市,最终反馈到现实城市进行更新提升。同时启动建设的是全市首个三维空间智能规划与时空治理模型——云宇星空大模型,通过这个规划与自然资源领域的行业大模型,管理者能够提升空间规划与自然资源治理效率。

  在大模型的初创团队中,商汤、阿里等多家AI头部企业也有露面。上海已在人工智能赛道抢占先机,城市空间治理要彻底完成智能化,语料建设是必须夯实的基础。

  和Deepseek、阶跃、豆包等通用大模型不同,云宇星空大模型属于行业大模型,需要专门针对城市治理领域进行训练,才能让它的专业知识深度远超通用大模型。

  不过,普通语料无法让大模型实现这样的“高知人设”。为此,上海市规划资源局牵头“定制”了一个专项语料库,囊括规划设计、测绘地理、自然资源等领域的学科教材、政策法规、技术标准、审批成果等。

  专项语料库的数据资产容量可达200TB,相当于20万部高清电影,在垂类大模型当中属于“高配置”。

  人工+自动标注提升语料质量

  “量子城市时空创新先行实验区”复兴岛上,驻扎着一支由200多专业人士组成的团队,他们专门进行语料的人工标注。

  语料标注指的是,对原始材料进行加工处理,转化为机器能够学习理解的信息。云宇星空大模型采用人工+自动标注,人工标注先打样,再对自动标注的结果进行校核,让自动标注去调整,全面提高语料标注质量。

  高质量标注能让大模型更“聪明”,回答的结果更精确,知识深度也将远超其他同类大模型。

  能不能把AI幻觉关进“笼子”

  大模型讨论如火如荼,对AI幻觉的担忧亦如影随形。业内人士表示,幻觉是大模型技术原理的固有缺陷,大模型基于概率预测生成文本,这决定了它擅长模仿语言模式,而非像人类一样,基于对世界的理解和事实核查进行严谨推理。

  一些推理模型在回答开放性问题时,常常会虚构细节以保持逻辑连贯。如果语料本身就有逻辑、详尽且专业,那么,就可以减少“杜撰”的可能。

  云宇星空大模型采用的“专家精准打样、机器高效放大”的语料标注模式,就是上海规划资源行业在落地应用时探索出的应对策略。

  记者了解到,目前,语料团队已经产出约46万条问答对,后续,还将进一步地通过人工测评全面提升语料的通过率,形成高质量规模化语料库,支撑模型持续迭代。

(文章来源:上观新闻)