Tutorial PySpark

Apache Spark ditulis dalam bahasa pengaturcaraan Scala. Untuk menyokong Python dengan Spark, komuniti Apache Spark mengeluarkan alat, PySpark. Menggunakan PySpark, anda boleh bekerjasama dengan RDD dalam bahasa pengaturcaraan Python juga. Ia adalah kerana sebuah perpustakaan yang dipanggil Py4j bahawa mereka dapat mencapai ini. Ini adalah tutorial pengenalan, yang merangkumi asas-asas Dokumen yang Diketik Data dan menjelaskan cara untuk menangani pelbagai komponen dan sub-komponennya.

Penonton

Tutorial ini disediakan untuk para profesional yang bercita-cita untuk membuat kerjaya dalam bahasa pengaturcaraan dan rangka pemprosesan masa nyata. Tutorial ini bertujuan untuk menjadikan pembaca selesa dalam memulakan PySpark bersama dengan pelbagai modul dan submodules.

Prasyarat

Sebelum meneruskan dengan pelbagai konsep yang diberikan dalam tutorial ini, diandaikan bahawa pembaca sudah mengetahui tentang bahasa pengaturcaraan dan rangka kerja. Di samping itu, ia akan sangat membantu, jika pembaca mempunyai pengetahuan yang kukuh tentang Apache Spark, Apache Hadoop, Bahasa Pemrograman Scala, Sistem Fail Hadoop Distributed (HDFS) dan Python.