超10万亿Tokens高质量数据集炼成之路

日期:2025-09-27 21:33:51 / 人气:37



1. 战略背景与驱动因素

   • 国家战略需求:AI上升为国家战略,政府出台系列法规并实施“人工智能+”行动,中国电信加速“云改数转智惠”战略升级,要求自主建设数据基础设施。

   • 市场需求驱动:2025年AI转向数据要素价值为核心的规模化落地,天翼AI需服务内外部复杂场景(如云网运营、工业、教育等),依赖高质量数据集支撑。

   • 运营商优势:中国电信拥有超10亿公众客户、上千万政企客户,日增数据量1.6PB、基础数据集超10万亿tokens,且在客户服务等领域有广泛应用场景。

   • 使命责任:履行网络强国、数字中国建设使命,推动AI普惠发展,需打造安全、可信的高质量数据集赋能千行百业。

2. 技术实现路径:星辰MaaS平台

   • 平台定位:像数据精炼厂,构建“数据—模型—服务”完整闭环,通过四大核心协同运作。

   • 全生命周期能力体系:

     ◦ 数据工具链(采 - 存 - 算 - 管):统一接入多类型数据并高效存储,借助上百种处理工具清洗、转换等,通过自动化治理保障质量与安全,还具备数据合成技术,可生成极端场景数据。

     ◦ 模型工具链(标 - 训 - 推 - 评):支持40多种标注任务,基于自研星辰大模型进行AI预标注,提升标注效率5倍以上,标注后数据经评估成为高质量数据集,再经训练等得到不同用途模型。

     ◦ 应用闭环:训练出的模型嵌入智能体支撑应用,智能体反馈数据回流重新加工,优化模型效果。

   • 高质量数据标准:无放之四海而皆准的绝对标准,从模型训练阶段和应用类型两个维度划分数据集类型,不同类型评判标准不同,如预训练通识数据集关注基础维度和安全维度,行业微调数据集关注内容和应用维度,以纺织行业缺陷数据集为例说明高质量数据集应具备全面性、多样性、精准标注等特点。

3. 应用落地与价值体现

   • 服务大型央企与政府:

     ◦ 挑战与对策:大型央企业务需求聚焦生产、系统复杂、安全和价值观要求高、有国产化要求,天翼AI提供端到端全链路解决方案,坚持价值导向和敏捷迭代,与行业专家合作,采用云边端协同架构,通过数据反馈闭环机制优化系统。

     ◦ 案例:服务物流集团,构建人工智能套件,纳管算力卡,支撑大模型研发,提供多场景服务接口,赋能智慧物流应用。

   • 支撑国家级数据标注基地:

     ◦ 角色:产业生态的规划者(结合地方特色规划生态,引入企业)、产能的运营者(提供订单,输送项目需求)、新职业的培育者(建立培训认证体系培养人才)。

     ◦ 案例:在成都、沈阳等地,联合政府打造生态,引入企业,承接标注订单,培养人才,形成可复制模式,构建完整生态链。

   • 国计民生领域:在14个行业、30多个应用场景构建高质量数据集并规模化落地,如医疗领域助力医院管理升级,文旅领域提升游客体验,农业领域帮助农民增收,智慧城市领域构建视觉数据平台,政务服务领域提升服务质量,电信内部实现评标流程智能化。

   • 其他关键因素:除数据外,算法也很重要,天翼AI打造“全模态、全尺寸、全国产”星辰系列大模型,自主研发安全围栏保障安全,推出多种大模型产品和服务,覆盖B端、C端和家庭场景。

4. 最终愿景

   • 目标:发挥央企主力军作用,成为国家战略科技力量和领先的通用人工智能服务提供商。

   • 举措:

     ◦ 技术领先:打造全栈自研AI能力,探索前沿领域,对标国际一流。

     ◦ 应用普惠:构建“全民工具箱”,让AI走进千家万户。

     ◦ 生态开放:通过开放平台吸引全球开发者等参与生态建设。

     ◦ 人才研用一体:重视青年人才,加速科研成果转化,培养高层次AI队伍。

作者:天顺娱乐




现在致电 5243865 OR 查看更多联系方式 →

天顺娱乐 版权所有