Databricks: Arquitectura Delta Lake

Introducción

Databricks: Arquitectura Delta Lake es un sistema de gestión de datos de código abierto que proporciona la fiabilidad y rendimiento necesarios para trabajar con grandes conjuntos de datos. Esta arquitectura es esencialmente una capa que se asienta sobre los sistemas de almacenamiento distribuido como HDFS y S3.

Delta Lake ofrece varias ventajas, como:

Fiabilidad: Delta Lake proporciona esquemas de datos estrictos y transacciones ACID, lo que asegura la fiabilidad de los datos.
Rendimiento: Delta Lake tiene una optimización de consulta incorporada que mejora el rendimiento de las consultas de datos.
Escalabilidad: Delta Lake puede manejar conjuntos de datos de cualquier tamaño sin degradar el rendimiento.
Ofrece compatibilidad con distintos lenguajes como Python, sql, Scala, Java, etc.

En resumen, la arquitectura Delta Lake de Databricks es una solución poderosa para la gestión de datos a gran escala.

Inicializar Spark

Para inicializar Pyspark en python se debe ejecutar el siguiente comando, aunque en databricks no es obligatorio

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

sc = spark.sparkContext

Instalar librerias en databricks

Para instalar una nueva libreria debemos ir a la seccion de computo y seleccionar nuestros cluster.

En el área de trabajo de Databricks, ve a Librerías.
Haz clic en Instalar nueva.
Selecciona Maven como la fuente de la biblioteca.

Introduce el grupo de coordenadas y el artefacto de la biblioteca que deseas instalar.

# En las descripcion de la liberia encontraras algo como:

<!-- <https://mvnrepository.com/artifact/com.databricks/spark-xml> -->
<dependency>
    <groupId>com.databricks</groupId>
    <artifactId>spark-xml_2.12</artifactId>
    <version>0.17.0</version>
</dependency>

# En la seccion de Coordinates debemos colocar la siguiente estructura:
<groupId>:<artifactId><version>
# Por ejemplo
com.databricks:spark-xml_2.12:0.17.0

Haz clic en Instalar.