首页数字经济数字能源 为大模型生产核心“燃料”!数据要素模式赋能数据标注基地高效运营

为大模型生产核心“燃料”!数据要素模式赋能数据标注基地高效运营

10月22日,在国家数据局数字科技和基础设施建设司指导下,首届“数据标注产业大会暨供需对接会”在北京顺利召开。大会旨在进一步推动数据标注产业高质量发展,促进数据…

10月22日,在国家数据局数字科技和基础设施建设司指导下,首届“数据标注产业大会暨供需对接会”在北京顺利召开。大会旨在进一步推动数据标注产业高质量发展,促进数据标注基地快速形成规模化服务能力。政府主管部门、产业研究机构、人工智能企业、数据标注服务商、数据资源单位等各领域百余人现场参会,共议高质量数据标注建设路径。

模型进化亟需高质量语料数据供给

高质量的训练数据集决定着模型的精度与表现,AI发展正加速从“以模型为中心”转向“以数据为中心”。大模型对训练数据的需求呈指数级增长,研究机构Epoch AI预测,开放的高质量文本训练数据集将在2026年耗尽。为加快推动国内数据标注产业发展,国家数据局已确定七个承担数据标注基地建设任务的城市,进而推动全国数据产业高质量发展。

▲华为混合云行业总经理刘朋冲发表演讲

作为国内人工智能企业代表,华为既是大模型语料数据需求使用方,同时提供数据工程能力。华为混合云行业总经理刘朋冲发表《高质量数据标注的关键需求和探索实践》主题演讲,从行业大模型训练洞察及华为云盘古大模型开发实践出发,提出大规模高质量数据集的加工和治理需要一套流程完整、功能齐全、效率较高的标注工具链,并分享了华为云语料加工流水线的工作流程与关键能力。

以数据要素模式盘活标注基地运营

作为国家级试点产业,数据标注需要以商业闭环和产业发展的视角进行基地整体设计。华为云结合数据标注基地任务书及与试点城市的交流合作,总结出框架模式、能力构建、产业运营三类,包括商业模式可闭环、满足多模态标注、保障数据流通安全等在内的八种关键需求。

围绕上述需求,刘朋冲表示:“标注基地整体业务框架应以数据要素的生命周期为业务基线。我们认为,数据标注公共服务平台为业务核心,通过纳管华为数据工程在内的各类标注工具,赋能标注企业高效完成标注任务;依托可信数据空间等数据流通利用基础设施,以数据集采购和委托标注两种商业模式盘活基地运营,实现商业闭环,最终实现数据要素场景下的‘供得出、流得动、用得好、保安全’。”

▲数据要素模式的数据标注基地业务架构

 

创新技术为大模型高效率高质量供数

会议期间,由中国信通院和中国人工智能产业发展联盟编制的《人工智能数据标注产业图谱》正式发布。图谱在洞察人工智能数据标注产业发展现状及未来趋势的基础上,梳理了产业上下游相关企业的分布情况。华为云以成熟的平台能力位列“数据标注核心服务方”,通过提供数据标注平台服务,有效提高数据价值,助力数据产业价值释放。

今年9月,在华为全联接大会2024期间,华为主机上云军团CEO、混合云总裁尚海峰发布全新的ModelArts工程工具套件,包括数据、模型和应用三大模块,致力于推动AI工程化落地,让大模型构建、训练和部署更简单。其中,ModelArts数据工程套件:

提供60多种AI4Data算子,支持QA对、视频Caption等智能辅助标注及团队标注,实现数据清洗及标注效率10倍提升;

沉淀3大类15个指标项100多个评估项确保质量评估标准化,并通过自动评估模型的迭代优化实现数据飞轮效应;

以权限管控、隐私数据保护、内容审核、数据胶囊等关键能力,守护全流程数据安全。

套件以全模态数据获取、智能数据加工、安全高效用数的能力,为大模型训练高质量供数。

未来,华为云Stack将结合自身及行业实践,持续优化数据工程能力,与数据标注基地及产业链伙伴紧密携手,共同推动数据产业高质量发展,并坚持AI for industries的理念,以高质量语料数据为基石,将智能推向新高度!

本文来自网络,不代表新质生产力网立场。转载请注明出处: http://www.xzicn.com/szjj/szny/1862.html
上一篇浙数文化多家子公司亮相中国新媒体技术展
下一篇 返回列表
力龙1

作者: 力龙1

加快形成新质生产力!

为您推荐

评论列表()

    联系我们

    联系我们

    1851688011@qq.com

    在线咨询: QQ交谈

    邮箱: 1851688011@qq.com

    工作时间:周一至周日,8:00-22:30,节假日无休息

    关注微信
    微信扫一扫关注我们

    微信扫一扫关注我们

    关注微博
    返回顶部