超10万亿Tokens高质量数据集炼成之路
日期:2025-09-27 21:33:51 / 人气:37

1. 战略背景与驱动因素
• 国家战略需求:AI上升为国家战略,政府出台系列法规并实施“人工智能+”行动,中国电信加速“云改数转智惠”战略升级,要求自主建设数据基础设施。
• 市场需求驱动:2025年AI转向数据要素价值为核心的规模化落地,天翼AI需服务内外部复杂场景(如云网运营、工业、教育等),依赖高质量数据集支撑。
• 运营商优势:中国电信拥有超10亿公众客户、上千万政企客户,日增数据量1.6PB、基础数据集超10万亿tokens,且在客户服务等领域有广泛应用场景。
• 使命责任:履行网络强国、数字中国建设使命,推动AI普惠发展,需打造安全、可信的高质量数据集赋能千行百业。
2. 技术实现路径:星辰MaaS平台
• 平台定位:像数据精炼厂,构建“数据—模型—服务”完整闭环,通过四大核心协同运作。
• 全生命周期能力体系:
◦ 数据工具链(采 - 存 - 算 - 管):统一接入多类型数据并高效存储,借助上百种处理工具清洗、转换等,通过自动化治理保障质量与安全,还具备数据合成技术,可生成极端场景数据。
◦ 模型工具链(标 - 训 - 推 - 评):支持40多种标注任务,基于自研星辰大模型进行AI预标注,提升标注效率5倍以上,标注后数据经评估成为高质量数据集,再经训练等得到不同用途模型。
◦ 应用闭环:训练出的模型嵌入智能体支撑应用,智能体反馈数据回流重新加工,优化模型效果。
• 高质量数据标准:无放之四海而皆准的绝对标准,从模型训练阶段和应用类型两个维度划分数据集类型,不同类型评判标准不同,如预训练通识数据集关注基础维度和安全维度,行业微调数据集关注内容和应用维度,以纺织行业缺陷数据集为例说明高质量数据集应具备全面性、多样性、精准标注等特点。
3. 应用落地与价值体现
• 服务大型央企与政府:
◦ 挑战与对策:大型央企业务需求聚焦生产、系统复杂、安全和价值观要求高、有国产化要求,天翼AI提供端到端全链路解决方案,坚持价值导向和敏捷迭代,与行业专家合作,采用云边端协同架构,通过数据反馈闭环机制优化系统。
◦ 案例:服务物流集团,构建人工智能套件,纳管算力卡,支撑大模型研发,提供多场景服务接口,赋能智慧物流应用。
• 支撑国家级数据标注基地:
◦ 角色:产业生态的规划者(结合地方特色规划生态,引入企业)、产能的运营者(提供订单,输送项目需求)、新职业的培育者(建立培训认证体系培养人才)。
◦ 案例:在成都、沈阳等地,联合政府打造生态,引入企业,承接标注订单,培养人才,形成可复制模式,构建完整生态链。
• 国计民生领域:在14个行业、30多个应用场景构建高质量数据集并规模化落地,如医疗领域助力医院管理升级,文旅领域提升游客体验,农业领域帮助农民增收,智慧城市领域构建视觉数据平台,政务服务领域提升服务质量,电信内部实现评标流程智能化。
• 其他关键因素:除数据外,算法也很重要,天翼AI打造“全模态、全尺寸、全国产”星辰系列大模型,自主研发安全围栏保障安全,推出多种大模型产品和服务,覆盖B端、C端和家庭场景。
4. 最终愿景
• 目标:发挥央企主力军作用,成为国家战略科技力量和领先的通用人工智能服务提供商。
• 举措:
◦ 技术领先:打造全栈自研AI能力,探索前沿领域,对标国际一流。
◦ 应用普惠:构建“全民工具箱”,让AI走进千家万户。
◦ 生态开放:通过开放平台吸引全球开发者等参与生态建设。
◦ 人才研用一体:重视青年人才,加速科研成果转化,培养高层次AI队伍。
作者:天顺娱乐
新闻资讯 News
- 香港大埔大火:一场触目惊心的灾...11-29
- “童鞋爱马仕”泰兰尼斯:红到发...11-29
- 从“大空头”到付费群主:AI时代...11-29
- 全球TOP 10的顶级富豪,为什么...11-29

