- 文本分析——应用于非结构化数据,通过名称实体提取和本体创建机制获得可操作的见解。
您如何衡量团队的表现?
Ambuj Kathuria: 我们采用 决策者电子邮件列表 360度反馈机制,以弥补学习和设立新标准方面的不足。此外,我们也有全面的评估周期,根据各种KRA对个人进行评判。
大数据团队、技能和工具
在庞大的大数据领域,各种技能瞬息万变。您认为哪种技术在 ETL 数据领域和实时领域占据主导地位?
Ambuj Kathuria: 从 ETL 到 ELT 发生了巨大的转变,现在随着语义层的引入,它进一步打破了业务抑制因素。在第二代中,高价 如何创建潜在客户捕获表单来收集热门潜在客户 值数据湖必须用业务语言将信息绑定在一起。从第一代基于 HDFS 的数据湖到第二代数据湖,这是一个巨大的转变,第二代数据湖基于知识图谱,实现了 ETL 和数据提取的自动化。语义层使用数据目录和 GraphMart 将数据与业务含义连接起来,而数据层则将知识图谱导入内存,用于层级准备、商业智能 (BI) 和分析。
在比较 Apache Hive 和 Apache Spark 时,我认为两者都是市场领导者,因为它们都具备处理海量数据集的能力。直接比较 Hive 和 Spark 并不明智,因为许多因素都会影响这两种工具在不同业务场景中的使用,例如速度、高级分析能力、容错能力、数据量等等。例如,Spark 在实时处理方面处于领先地位,能够提供极快的结果,因此,需要极快结果的企业会优先选择 Spark ETL 工具。这是因为 Spark 拥有强大的内存处理能力。
有志于成为数据工程师的人如何展现他们处理工具、技术、数据和领域的能力?Cloudera/Hortonworks 证书是否能带来明显的差异化?
Ambuj Kathuria: 在我看来,认证只是一种学习的印章。重要的是如何将学习到的知识应用于解决现实世界的问题,无论是技术、工具还是数据。这些问题的水平在于领域,而领域对于更好地理解数据、工具和技术在商业场景中的相关性至关重要。
对于数据工程师来说,分析技能、统计学、机器学习是必备技能吗?或者说是好技能吗?
Ambuj Kathuria: 是 首席执行官电子邮件列表的,至少在初学者层面上,数据工程师能够更好地将各个点联系起来,例如理解为什么、什么以及哪些数据与什么业务场景相关,以及它将解决什么问题。