programing

Apache Spark: Pyspark를 Python 3과 함께 사용하는 방법

powerit 2023. 5. 28. 21:02
반응형

Apache Spark: Pyspark를 Python 3과 함께 사용하는 방법

저는 GH 개발 마스터로부터 스파크 1.4를 구축했고, 구축은 잘 진행되었습니다.하지만 제가 할 때는bin/pysparkPython 2.7.9 버전을 받았습니다.이걸 어떻게 바꿀 수 있나요?

환경 변수를 설정하기만 하면 됩니다.

export PYSPARK_PYTHON=python3

영구적으로 변경하려면 이 줄을 pyspark 스크립트에 추가합니다.

PYSPARK_PYTHON=python3 
./bin/pyspark

IPython 노트북에서 실행하려면 다음과 같이 기록합니다.

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

한다면python3액세스할 수 없습니다. 대신 경로를 전달해야 합니다.

현재 설명서(1.4.1 기준)에는 오래된 지침이 포함되어 있습니다.다행히 패치가 적용되었습니다.

1,프로파일 편집:vim ~/.profile

2,파일에 코드를 추가합니다.export PYSPARK_PYTHON=python3

3, 명령 실행:source ~/.profile

4,./bin/pyspark

파일을 살펴보세요.셰방 라인은 아마도 첫 번째 호환 실행 파일의 경로를 검색하는 'env' 바이너리를 가리킬 것입니다.

python을 python3으로 변경할 수 있습니다.하드코드된 python3 바이너리를 직접 사용하도록 env를 변경합니다.또는 python3로 직접 바이너리를 실행하고 shebang 라인을 생략합니다.

주피터 노트북의 경우, 편집spark-env.sh명령줄에서 아래와 같은 파일

$ vi $SPARK_HOME/conf/spark-env.sh

파일의 맨 아래로 이동하여 이 줄을 복사하여 붙여넣기

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

그런 다음 다음 명령을 실행하여 노트북에서 pyspark를 시작합니다.

$ pyspark

언급URL : https://stackoverflow.com/questions/30279783/apache-spark-how-to-use-pyspark-with-python-3

반응형