Preguntas con la etiqueta [pyspark]

Lista pyspark preguntas

Con pyspark dataframe, ¿cómo se hace el equivalente de Pandas df['col'].unique()? Quiero enumerar todos los valores únicos en una columna de marco de datos de pyspark. No del tipo SQL

Llamar a la función Java/Scala desde una tarea

1
respuestas
45
votos
16.9k
vistas

Fondo Mi pregunta original aquí era ¿ Por qué el uso DecisionTreeModel.predictde la función de mapa interno genera una excepción? y está relacionado con ¿Cómo generar tuplas de (etiqueta original,

¿Cómo divido un RDD en dos o más RDD?

4
respuestas
41
votos
62.8k
vistas

Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto es Scala Spark: ¿Dividir la colección en varios RDD? que sigue

Desvincular en Spark SQL/PySpark

2
respuestas
31
votos
56.8k
vistas

Tengo a mano un planteamiento de problema en el que quiero desvincular la tabla en Spark SQL/PySpark. Revisé la documentación y pude ver que solo hay soporte para pivot, pero

Vengo de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de las columnas a algo útil usando

Quiero agregar una columna en a DataFramecon algún valor arbitrario (que es el mismo para cada fila). Recibo un error cuando uso withColumnlo siguiente: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most

¿Funciones Spark versus rendimiento UDF?

4
respuestas
85
votos
68.7k
vistas

Spark ahora ofrece funciones predefinidas que se pueden usar en marcos de datos y parece que están altamente optimizadas. Mi pregunta original iba a ser cuál es más rápido, pero