Preguntas con la etiqueta [apache-spark]
Mostrar valores de columna distintos en el marco de datos de pyspark
Con pyspark dataframe, ¿cómo se hace el equivalente de Pandas df['col'].unique()? Quiero enumerar todos los valores únicos en una columna de marco de datos de pyspark. No del tipo SQL
¿Qué son los trabajadores, ejecutores y núcleos en el clúster Spark Standalone?
Leí la descripción general del modo de clúster y todavía no puedo comprender los diferentes procesos en el clúster independiente de Spark y el paralelismo. ¿El trabajador es un proceso
¿Es el almacenamiento en caché la única ventaja de Spark sobre Map-Reduce?
Empecé a aprender sobre Apache Spark y estoy muy impresionado con el marco. Aunque una cosa que me sigue molestando es que en todas las presentaciones de Spark hablan de
Spark especifica múltiples condiciones de columna para unirse al marco de datos
Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") == Utm_Master.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign"), "left") Quiero unirme solo cuando
Spark java.lang.OutOfMemoryError: espacio del montón de Java
Mi cluster: 1 maestro, 11 esclavos, cada nodo tiene 6 GB de memoria. Mi configuración: spark.executor.memory=4g, Dspark.akka.frameSize=512 Aquí está el problema: Primero , leí algunos datos (2,19 GB) de HDFS
Llamar a la función Java/Scala desde una tarea
Fondo Mi pregunta original aquí era ¿ Por qué el uso DecisionTreeModel.predictde la función de mapa interno genera una excepción? y está relacionado con ¿Cómo generar tuplas de (etiqueta original,
¿Cómo divido un RDD en dos o más RDD?
Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto es Scala Spark: ¿Dividir la colección en varios RDD? que sigue
¿Cómo definir la partición de DataFrame?
Comencé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos
Spark SQL: aplica funciones agregadas a una lista de columnas
¿Hay alguna manera de aplicar una función agregada a todas (o a una lista de) columnas de un marco de datos al realizar un groupBy? En otras palabras, ¿hay alguna
¿Cómo conectar Spark SQL al metastore remoto de Hive (a través del protocolo de ahorro) sin hive-site.xml?
Estoy usando HiveContext con SparkSQL y estoy intentando conectarme a un metastore remoto de Hive, la única forma de configurar el metastore de Hive es incluyendo el archivo hive-site.xml en
Desvincular en Spark SQL/PySpark
Tengo a mano un planteamiento de problema en el que quiero desvincular la tabla en Spark SQL/PySpark. Revisé la documentación y pude ver que solo hay soporte para pivot, pero
¿Cómo seleccionar la primera fila de cada grupo?
Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13|
¿Cómo cambiar los nombres de las columnas del marco de datos en PySpark?
Vengo de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de las columnas a algo útil usando
Tarea no serializable: java.io.NotSerializableException cuando se llama a una función fuera del cierre solo en clases, no en objetos
Obteniendo un comportamiento extraño al llamar a una función fuera de un cierre: cuando la función está en un objeto, todo funciona cuando la función está en una clase obtiene:
¿Cómo agregar una columna constante en un Spark DataFrame?
Quiero agregar una columna en a DataFramecon algún valor arbitrario (que es el mismo para cada fila). Recibo un error cuando uso withColumnlo siguiente: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most