近日,由中国通信标准化协会主办、中国信通院承办的2024 OSCAR开源产业大会在北京召开。中国电信天翼云科技有限公司打造的“TeleDB分布式数据库在开源社区的特性贡献案例”成功入选。这不仅是对天翼云TeleDB数据库技术创新性的权威认可,更提升了该数据库在开源领域的行业影响力。
数据开源为何如此重要?
数据开源是指将数据集的访问权限开放给公众,允许任何人查看、分析和重用数据,通常是通过互联网进行。数据开源的意义在于其对社会经济、科技创新和数字经济发展的深远影响。
从社会经济角度来看,数据开源打破了大型企业或机构对数据的垄断,使得小型企业能够站在一个相对公平的起跑线上。
从科技创新角度看,以人工智能领域为例,许多开源的图像数据集、文本数据集等为研究人员提供了丰富的素材,他们可以在这些开源数据的基础上进行算法开发和模型训练,大大缩短了研究周期,加速了科技创新的速度。
从数字经济发展角度看,开源数据为数字产业生态中的各个环节提供了资源。
中国电信数据开源促应用发展
2024年初,中国电信开源了百亿级星辰语义大模型- 7B,成为第一家开源大模型的央企;前不久,中国电信又正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型TeleChat2-115B;日前,由中国电信自主研发的星辰大模型在2024 OSCAR开源产业大会上荣获信通院泰尔实验室“可信开源大模型成熟度能力”认证,并被评为“2024年度央国企开源项目典型案例”。
在数据开源的具体实施过程中,中国电信特别注重应用层面的创新与发展。
在面向产业应用过程中,为了增强模型的商用性,星辰语义大模型在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强技术、多轮知识记忆和强化技术等手段,幻觉率下降了40%。在价值对齐上,星辰语义大模型将指令分为不同的簇类,并从各个簇类中按照一定比例抽取具有代表性的指令集,再由标注人员构建相似的指令。这不仅可以较为全面地覆盖人类指令,还能保证与微调阶段数据具有相同的数据分布,更有利于模型在对齐阶段的训练。
中国电信还联合头部生态机构,凭借在各行业深耕多年的优势和经验,依托基础大模型,构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景,有效满足了各行各业对人工智能技术的多样化需求。
将持续深化数据开源工作
中国电信的数据开源计划和大模型能力的不断迭代,标志着中国电信在人工智能领域的战略布局和对行业发展趋势的积极响应。通过这些措施,中国电信不仅提升了自身的技术竞争力,也为推动整个行业的创新和数字化转型做出了贡献。
如今,作为最早布局并首先开源大模型的央企机构,中国电信正通过构建高质量数据集、成立专业公司和平台、加速数据要素能力体系建设、跨行业数据结合、数据平台和产品开发等等方式,为数据的开源夯实了发展基础。
中国电信还不断加速AI创新和应用落地,积极通过开源推动技术创新发展,持续加快前沿技术向产业落地的跃迁。