中文版
热销报告
当前位置:
首页 >热销报告 >人工智能
人工智能
《人工智能需要更好,而不是更多的数据》

       2019年3月20日,数据创新中心有关调查发现,人工智能发展的最大瓶颈在于数据质量问题。数据科学家通常用80%的时间清理和准备数据以保证其正确性,专注于实际数据分析的时间只有20%。这表明人能智能的开发和使用必须投入大量资源确保足够数量的高质量数据,否则将导致人工智能工具无用。为采取国家战略来提供其在人工智能方面的竞争力,政策制定者应该认识到任何想引领人工智能发展的国家也必须在数据质量方面占据领先地位。

 

 

售价:¥19.9
购买
文章译文


      人工智能(AI)存在数据质量问题。 通过对179位数据科学家的调查发现,大部分认为数据质量相关问题是人工智能项目成功的最大瓶颈。大数据通常格式不正确、缺少元数据或很“脏”——不完整、不正确或不一致,数据科学家通常将80%的时间花在清理和准备数据上以保证数据可用性,只剩下20% 的时间专注于实际数据分析。这意味着开发和使用AI的组织必须投入大量资源来确保他们拥有足够数量的高质量数据,这样他们的AI工具才不会无用。政策制定者可通过采取国家层面的战略来提高其人工智能竞争力,他们应该认识到,想要引领人工智能的国家也必须在数据质量方面处于领先地位。


      收集和存储数据可能会变得越来越便宜,但创建高质量数据可能代价高昂 —— 对于小型组织或研究人员团队来说可能过于高昂,所以他们不得不处理不良数据,从而产生不可靠或不准确的AI工具甚至完全妨碍他们使用AI。私营部门当然会投资于数据质量,但政策制定者应该将增加高质量数据的数量视为加速人工智能开发和采用的宝贵机会,同时减少因不良数据而造成人工智能的潜在经济和社会危害。政策制定者可通过三种途径增加可用于人工智能的高质量数据:要求政府提供高质量数据; 促进私营和非营利部门自愿提供高质量数据; 加快努力将所有经济部门数字化,以支持更全面的数据收集。


      近年来,政策制定者强调了为人工智能提供数据的重要性。数量很重要,开发人工智能系统可能需要大量数据,开放的政府数据可能是创新的宝贵平台,而联邦政府的数据往往会受到数据质量问题影响,例如缺乏标准标识符和定义不一致导致数据分析困难。政策制定者应完善政府现有数据而投资,也应在直接政府机构在公共利益的关键领域(如农业、教育、医疗保健、公共利益、公共安全和执法,以及运输)开发高质量、特定应用培训和验证数据的共享中心。例如,美国国家标准与技术研究所应与执法机构、民间社会和其他利益相关者合作,开发共享的、有代表性的人脸数据集,这些数据集可为开发面部识别技术的组织提供资源。已经有政府开始在急需地方提供高质量数量,如美国交通部在认识到部分政府机构以及大部分经济部门在收集地址数据,但缺乏统一、全面的资源来源而导致信息收集重复和碎片化后,于2015年开始研究可公开访问的国家地址数据库。

 
      其次,由于政府数据只是可用于人工智能开发数据的一小部分,决策者还应促进私营和非营利部门提供自愿获取高质量数据。现在有许多高质量的数据还未得到充分利用。例如,医疗行业、政府机构、大学和制药公司都可能拥有自己的丰富数据集,如果广泛分享,可以为人工智能带来实质性好处,但这些利益相关者缺乏这样做的机制,同时也要保护其专有和敏感数据。英国的政策制定者已经认识到这是开发人工智能的一个关键障碍,并试图通过开发数据信任模型来解决这一难题,数据信任模型定义为“不是法律实体或机构,而是由可重复框架支撑的一系列关系,各方将以安全和公平的方式共享数据的义务。”


      如果没有专门政府协调部门致力于开发和支持这些模型,其他组织就不可能凭一己之力进行开发。政策制定者应该尝试使用数据信任和其他模型来制作完善现有的高质量数据集,其中包括由政府机构开发和维护的数据集,这是一种可在更广范围内可用的人工智能资源。


      第三,由于具有代表性和完整性的数据集最有用,因此政策制定者应加快数字化工作以实现更全面的数据收集。许多部门在数字化方面较为落后,因此这些部门使用人工智能方面的能力有限。例如,超过一半的美国电力客户尚未使用智能电表来监控用电情况,使得人工智能无法更好地管理能源使用领域。此外,美国没有全面的智能城市计划 ——即使是在发达城市,也只有少数部署了传感器网络,少数试图将城市运营数字化,这就迫使这些城市在仅存某些数据时只能使用效用有限的AI工具,在完全没有数据存在的地方就根本无法使用。尽管可能实现智能制造有,但采用数字制造技术仍然缓慢,限制了制造商利用人工智能改善运营的能力。政策制定者应指导住房和城市发展部、卫生和人类服务部、交通部和联邦能源监管委员会等联邦机构,以制定和实施可加速相关部门数字化转型的政策。幸运的是,一些政策制定者已经认识到为人工智能开发提供高质量数据的重要性。特朗普总统最近宣布的美国人工智能倡议承诺“增强访问高质量和完全可追溯的联邦数据......以增加此类人工智能研发资源的价值”,并指导相关机构发现和解决数据质量限制。这需要采取更加切实和全面的行动。政策制定者应该为各机构分配资金,系统提高公开数据的质量,开发新的高质量数据资源,促进更高质量数据的更广泛传播,这些数据可以作为所有人工智能开发组织的宝贵资源,并实现完全数字化经济。幸运的是,最近通过的《开放政府数据法案》指示联邦机构任命首席数据官监督这些工作,并制定其他方法来提高政府高质量数据可用性。首席数据官不仅应专注于提高整个政府的数据质量,还应该制定战略来满足数据需求尤其是涉及人工智能、大学、非营利组织及致力于解决其机构任务的企业的数据需求。

购买信息
姓名:
电话:
工作单位:
邮箱: