我也是 Alteryx 的忠实粉丝,。数据整理是任何数据项目中最耗时、效率最低的部分——耗费了超过 80% 的时间和资源。成功的分析依赖于准确、结构良好且根据当前任务的特定需求进行格式化的数据。
数据准备工具与分析 賭博數據 工作台(例如 Cloudera 工作台 / AWS / Azure / Anaconda)相结合,提高了数据科学家的工作效率。
人们迫切需要自助式数据准备工具来提升生产力。目前,数据科学家和分析师平均将 70-80% 的时间用于数据清理、映射和准备。数据整理是指清理数据、连接工具并将数据转换为可用的格式以便进一步分析。原始数据源可能杂乱无章,格式各异,来自多个应用程序(等等),这使得对其进行数据/预测分析变得困难,有时甚至无法进行。
您的数据团队中有哪些不同的角色和技能?
Ambuj Kathuria: 我们拥有功能齐全的创新实验室,涵盖从数据到行动的端到端价值链技能,包括数据架构师、数据平台工程师、 文章的长度取决于你的目的和数据科学家、机器学习专家、大数据架构师和 BI/可视化专家等角色。
帮助描述一下您的团队今年正在解决的一些问题的例子?
Ambuj Kathuria: 今年的重点是利用数据即服务 (Data as Service) 提供有价值的见解,并填补 DevOps 和生产部署方面的空白。以下是我和我的团队今年重点关注的几个领域。我们将更加专注于构建更强大的垂直产品,并尝试探索新技术(Anaconda、H2O、数据机器人、深度学习、强化学习、Tensor Flow、API 调用)的潜力。
- 机器学习模型的部署
- 数据科学的 DevOps
- 自动化机器学习
- 深度学习/强化学习
- 通过微服务提供数据
- 语义层和知识图谱
- 信用风险分析使用机器学习来准确计算违约概率 (PD) 和违约损失率 (LGD),并显著减少获取违约者洞察的时间,同时 首席执行官电子邮件列表确保结果的可解释性
- 使用机器学习增强保险承保,得出的见解可用于增强传统承保流程,以加快处理速度——从目前的 40-50 天周期缩短至近 5-10 天。
- 实时资产性能优化——用于诊断和预测零件故障的描述性分析,并通过预测能力提高效率、收入和流程优化。