为实现AI愿景,企业必须拥有AI就绪数据。明确什么是AI就绪数据,并采取以下五个步骤做好准备。
数据与分析领导者需要证明其组织的数据已为日益增多的 AI 项目做好准备。然而,AI 就绪数据的要求与传统数据管理存在显著差异。为弥补这一差距,Gartner 建议采取以下步骤:
该路线图将确保您的数据可用于您计划实施的特定 AI 计划,并使利益相关者了解拥有AI就绪数据的重要性。
数据就绪是释放AI潜力的关键前提。理解其定义并遵循以下五个步骤,可为实现数据就绪奠定基础。
每个AI应用场景均需明确界定所需的数据类型,具体取决于所采用的AI技术。尽管初期需求可能较为模糊,但随着数据使用和AI需求的逐步落地,需求会逐渐清晰。需要深入探讨的具体要求包括:
数据质量验证是确保数据在模型训练、开发或运行过程中持续满足需求的关键环节。以下指标可用于评估数据是否满足AI用例的置信度需求:
定义数据治理的长期要求,以确保数据满足AI用例的需求。可参考以下治理关键参数:
基于与成功实施数据就绪计划客户的深度互动,Gartner建议数据与分析(D&A)领导者遵循以下五个关键步骤,实现AI就绪:
数据就绪是指数据能够充分表征使用场景中的多样化模式、错误、异常值以及特定用途所需的意外情况,用于训练或运行AI模型。这是一种基于元数据的系统性流程与实践,通过数据对齐、验证及治理来实现。
无法使所有数据提前或普遍达到就绪状态。数据就绪水平取决于具体的AI使用场景。例如,开发预测性维护算法所需的数据,与在企业环境中应用GenAI所需的数据集存在显著差异。
按照传统数据质量标准定义的“高质量”数据并不等同于数据就绪。例如,在数据分析中,通常会清理异常值或净化数据,以满足人工分析的需求。然而,在训练AI算法时,需要具有代表性的数据集,这可能包含低质量或异常数据,以确保算法能够适应现实场景中的复杂性。