Mphasis的Bigdata和Spark面试问题是什么?

随着Apache Spark如今的发展趋势,这是Spark Professional的巨大需求。 许多公司已准备好以巨额薪酬聘用这些专业人员。

感谢您决定开始在Apache Spark工作的决定。 在准备面试之前,您应该回顾一下Apache Spark的所有基础知识。

以下是一些教程,可以帮助您了解Apache Spark的一些采访问题。

首先介绍Apache Spark。

阿帕奇火花

Apache Spark是一个开放源代码群集计算系统,它以Java,Scala,Python和R提供高级API。它可以访问HDFS,Cassandra,HBase,Hive,Tachyon和任何Hadoop数据源中的数据。 并在Standalone,YARN和Mesos集群管理器中运行。

Apache Spark是用于运行Spark应用程序的工具。 Spark比Bigdata Hadoop快100倍,比从磁盘访问数据快10倍。

有关Apache Spark的详细研究,请通过以下链接: Apache Spark简介

现在正在转向Apache Spark的生态系统组件。

Apache Spark的生态系统组件

以下是Apache Spark生态系统中的6个组件,可为Apache Spark- Spark Core,Spark SQL,Spark Streaming,Spark MLlib,Spark GraphX和SparkR提供支持。

1. Apache Spark核心

Apache Spark提供的所有功能都建立在Spark Core的顶部。 它通过提供内存中的计算功能来提供速度。 因此,Spark Core是大型数据集并行和分布式处理的基础。

2. Apache Spark SQL

Spark SQL组件是用于结构化数据处理的分布式框架。 使用Spark SQL,Spark获得有关数据结构和计算的更多信息。 有了这些信息,Spark可以执行额外的优化。 在计算输出时,它使用相同的执行引擎。 它不依赖API /语言来表达计算。

3. Apache Spark流

它是核心Spark API的附加组件,它允许对实时数据流进行可扩展的,高吞吐量,容错的流处理。 Spark可以从Kafka,Flume,Kinesis或TCP套接字等源访问数据。 它可以使用各种算法进行操作。 最后,如此接收的数据将提供给文件系统,数据库和实时仪表板。 Spark使用Micro-batching进行实时流式传输。

通过此链接可以更详细地研究Apache Spark的生态系统组件及其功能: Apache Spark:Ecosystem Components

Apache Spark如何工作?

它与系统一起在整个群集中分发数据并并行处理数据。 Spark使用主/从体系结构,即一个中央协调员和许多分布式工作人员。 在这里,中央协调员称为驾驶员。

驱动程序在其自己的Java进程中运行。 这些驱动程序与可能称为执行程序的大量分布式工作者进行通信。 每个执行程序都是一个单独的java进程。 Spark应用程序是驱动程序及其自己的执行程序的组合。 在集群管理器的帮助下,Spark Application在一组计算机上启动。 独立群集管理器是Spark的默认内置群集管理器。 除了内置的群集管理器外,Spark还可以与某些开源群集管理器(如Hadoop Yarn,Apache Mesos等)一起使用。

浏览此链接以研究Apache Spark的内部工作:Apache Spar k的 内部工作

以下是一些有关Apache Spark面试问题的链接:

常见问题Apache Spark面试问题-I

常见问题Apache Spark面试问题II

常见Apache Spark面试问题-III

希望能帮助到你!!