Introducción

Databricks: Arquitectura Delta Lake es un sistema de gestión de datos de código abierto que proporciona la fiabilidad y rendimiento necesarios para trabajar con grandes conjuntos de datos. Esta arquitectura es esencialmente una capa que se asienta sobre los sistemas de almacenamiento distribuido como HDFS y S3.

Delta Lake ofrece varias ventajas, como:

En resumen, la arquitectura Delta Lake de Databricks es una solución poderosa para la gestión de datos a gran escala.

Inicializar Spark

Para inicializar Pyspark en python se debe ejecutar el siguiente comando, aunque en databricks no es obligatorio

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

sc = spark.sparkContext

Instalar librerias en databricks

Para instalar una nueva libreria debemos ir a la seccion de computo y seleccionar nuestros cluster.

  1. En el área de trabajo de Databricks, ve a Librerías.

  2. Haz clic en Instalar nueva.

  3. Selecciona Maven como la fuente de la biblioteca.

  4. Introduce el grupo de coordenadas y el artefacto de la biblioteca que deseas instalar.

    # En las descripcion de la liberia encontraras algo como:
    
    <!-- <https://mvnrepository.com/artifact/com.databricks/spark-xml> -->
    <dependency>
        <groupId>com.databricks</groupId>
        <artifactId>spark-xml_2.12</artifactId>
        <version>0.17.0</version>
    </dependency>
    
    # En la seccion de Coordinates debemos colocar la siguiente estructura:
    <groupId>:<artifactId><version>
    # Por ejemplo
    com.databricks:spark-xml_2.12:0.17.0
    
    
  5. Haz clic en Instalar.