Databricks: Arquitectura Delta Lake es un sistema de gestión de datos de código abierto que proporciona la fiabilidad y rendimiento necesarios para trabajar con grandes conjuntos de datos. Esta arquitectura es esencialmente una capa que se asienta sobre los sistemas de almacenamiento distribuido como HDFS y S3.
Delta Lake ofrece varias ventajas, como:
En resumen, la arquitectura Delta Lake de Databricks es una solución poderosa para la gestión de datos a gran escala.
Para inicializar Pyspark en python se debe ejecutar el siguiente comando, aunque en databricks no es obligatorio
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext
Para instalar una nueva libreria debemos ir a la seccion de computo y seleccionar nuestros cluster.
En el área de trabajo de Databricks, ve a Librerías.
Haz clic en Instalar nueva.
Selecciona Maven como la fuente de la biblioteca.
Introduce el grupo de coordenadas y el artefacto de la biblioteca que deseas instalar.
# En las descripcion de la liberia encontraras algo como:
<!-- <https://mvnrepository.com/artifact/com.databricks/spark-xml> -->
<dependency>
<groupId>com.databricks</groupId>
<artifactId>spark-xml_2.12</artifactId>
<version>0.17.0</version>
</dependency>
# En la seccion de Coordinates debemos colocar la siguiente estructura:
<groupId>:<artifactId><version>
# Por ejemplo
com.databricks:spark-xml_2.12:0.17.0
Haz clic en Instalar.