世界视讯!北京 “抢滩”大模型:超80个已发布AI大模型中北京占一半 首批大模型高质量数据集发布 算力支持政策即将推出
《科创板日报》7月3日讯(记者 李明明)ChatGPT掀起的大模型浪潮席卷全球,科创企业众多的北京,开启了大模型抢滩领跑。
7月2日,“2023全球数字经济大会人工智能高峰论坛”在京举办。该大会由北京市人民政府联合工业和信息化部、国家网信办、商务部、中国科协共同主办。此次论坛以“智能涌现,重塑未来”为主题,数十位人工智能领域的专家学者,和多家企业、机构代表,围绕当下最具热度的大模型发展话题,分享了各自思考和看法。全国首个政务服务需求应用场景、北京市首批人工智能大模型高质量数据集发布等,集中展现出在推动通用人工智能产业发展和大模型创新应用成果方面的“北京力量”。
北京占大模型“半壁江山” 算力支持政策即将推出
(资料图片仅供参考)
此次人工智能高峰论坛作为“2023全球数字经济大会”同期举办的六大高峰论坛之一,得到了政府及行业相关部门的高度重视。北京市经济和信息化局党组书记、局长姜广智出席活动并致辞。
姜广智介绍,随着ChatGPT掀起大模型发展热潮,人工智能产业风头正劲,迄今已有八十余个大模型公开发布,其中北京约占一半。北京市一贯高度重视人工智能产业发展,是当前国内大模型创新基础最好、人才团队最集中、研发能力最强、产品迭代最活跃的地区。为更好把握这次通用人工智能发展的历史性机遇,近期北京市连续出台了《加快建设具有全球影响力的人工智能创新策源地实施方案》、《北京市促进通用人工智能创新发展的若干措施》、《北京市通用人工智能产业创新伙伴计划》等多项支持政策。
姜广智表示,当前,北京正加快推进国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区建设,北京市经信局将不断加强优质资源要素配置,夯实人工智能产业发展基础。
一是加强政策创新和标准引领。解决数据数量相对匮乏、质量难以保证、采集标注成本高及合规使用等问题。筹划出台算力支持政策,支持基于落地应用场景的中小企业获取多元化、低成本的优质算力。支持北京人工智能企业与各类行业组织,在相关标准制定中发挥引领作用,参与模型性能、数据安全、隐私保护等方面技术标准的制定。
二是加大场景开放力度、率先落地标杆应用。推动本市政府机关、事业单位、国有企业等具有管理公共事务职能的组织,积极采购和使用安全、可靠的大模型相关产品和服务,在政务服务、智慧城市等领域率先落地应用。
三是推动伙伴计划走深走实。目前伙伴计划中,有10余家算力伙伴计划提供不少于4000P低成本优质算力,供北京市人工智能中小企业开展大模型训练和推理。10家数据伙伴开放18个、近500T高质量数据集,供大模型企业训练使用。同时,也将加快推动大模型行业应用落地,深入发挥伙伴计划这一市场化对接合作平台的作用,营造北京市大模型创新合作、应用落地的良好生态。
行业嘉宾纵论大模型发展之道
此次论坛云集众多行业嘉宾,共同围绕人工智能大模型技术发展的机遇和挑战,以及企业的探索和实践等,进行了深入交流。
北京人工智能产业联盟秘书长陈尚义表示,相比于传统的人工智能模型,大语言模型在很多任务上已经达到甚至超出了人类的水平,使人们看到了通用人工智能的曙光。
清华大学计算机系长聘教授、人工智能研究院副院长朱军介绍了大模型在安全方面面临的风险,以及目前团队在安全治理方面的创新探索。
360集团创始人周鸿祎指出,大模型必须具有通用性,才能赋能千行百业。大模型未来是多元化的,发展趋势是做小做专,真正的机会在企业市场。
智谱AI CEO张鹏回顾了智谱在大模型方面的探索创新之路,并着重介绍了日前推出的ChatGLM2系列模型。
衔远科技创始人、清华大学惠妍讲席教授周伯文指出,此次AI浪潮的不同之处在于,AI从“与人竞争”变为“协同交互”,将带来更大的市场价值。
昆仑万维科技股份有限公司CEO方汉介绍了“天工”大模型在文本对话、语义理解等方面的优势,以及AI生成音乐在文旅场景的落地情况。
中国电信集团数字智能科技分公司副总经理张鑫,介绍了公司在算法、算力、应用、大模型方向的进展情况。
阿里巴巴达摩院语音实验室负责人鄢志杰认为,数据+知识双驱动的智能应用新范式下,云和AI协同发展将助力产业升级,并介绍了通义千问的最新进展。
华为昇腾计算技术合作总经理周明耀介绍了昇腾在构建自主可控AI算力平台,助力构建国产开放技术和产业生态方面的实践。
首批大模型高质量数据集发布 总规模超500T
人工智能大模型的突破源于高质量数据的不断发展,提升高质量数据要素供给能力,是推动通用人工智能大模型领域创新的关键。但目前,针对大模型训练的高质量中文语料占比较少,不利于中文语境表达及产业应用。
是否能够提供可开放用于大模型训练及调优的高质量数据资源,也是针对“北京市通用人工智能产业创新伙伴计划”数据伙伴重要的评估要素。
在本次论坛上,发布了首批“北京市人工智能大模型高质量数据集”,10家单位的18个高质量训练数据集入选,包括国家法律法规语料数据集、两会参政议政建言数据集、“科情头条”全球科技动态数据集、中国科学引文数据库数据集、科技文献挖掘语义标注数据集等,涵盖经济、政治、文化、社会、生态等不同领域,总规模超过500T,将为通用大模型和行业大模型训练提供有力保障。
此外,本次论坛第二批“伙伴计划”(“北京市通用人工智能产业创新伙伴计划”)名单公布,包括北京百度网讯科技有限公司、中电数据服务有限公司、北京集智未来人工智能产业创新基地有限公司等63家企业入选,并在此次论坛上进行了公布。其中,算力伙伴10家,数据伙伴10家,模型伙伴10家,应用伙伴24家、投资伙伴9家。