Postgresql 설치

  • 기본적으로 업데이트와 업그레이드를 진행해준다
1
2
$ sudo apt-get update
$ sudo apt-get upgrade
  • WSL2에서 PostgreSQL을 설치한다
  • 설치가 끝나면 항상 버전을 확인해준다
1
2
$ sudo apt install postgresql postgresql-contrib
$ psql --version
  • Database를 접근가능하도록 활성화해준다
1
$ sudo service postgresql status
  • Postgresql을 시작한다
1
$ sudo service postgresql start
  • 활성화되었는지를 확인해본다
1
$ sudo service postgresql status
  • 데이터베이스를 종료시킨다
1
$ sudo service postgresql stop
  • 사용자 계정 password를 설정해준다
1
2
3
$ sudo passwd postgres

# 이 때 비밀번호 입력하는 란이 뜨는 데 웬만하면 1234 로 한다
  • 처음이라면 pdAdmin pw를 만들어준다
  • 우선 Service가 활성화를 시켜줘야 한다
1
$ sudo service postgresql start
  • 지정할 패스워드 입력 (postgres로 설정해준다)
1
$ sudo -u postgres psql -c "ALTER USER postgres PASSWORD 'postgres';"
  • 서버 생성 (General Tab에는 test 라고 입력/connection tab에는 host name을 127.0.0.1, pw는 postgres입력)
  • DB 생성 (database 우클릭 → create → 새로운 데이터 베이스 명을 dataengineering으로 입력
  • dataengineering → skema → table → 우클릭 create → general tab의 name: users 입력 →columns은 아래와 같이 생성 후 save 로 저장

Untitled

  • 이번에는 psql에 접속 후 dataengineering 테이블이 조회되는지 확인
1
2
$ sudo -u postgres psql
postgres=# \l
  • dataengineering DB에 연결 후, 테이블을 조회하도록 한다.
1
2
postgres=# \c dataengineering
dataengineering=# \dt
  • 더이상 안 쓸시에 멈추는 명령어 : sudo service postgresql stop으로 종료해줌 !! → 과부화 및 과금 방지
  • 가상환경 활성화 코드
1
$ source venv/bin/activate

Spark 설치

  • 우선 자바를 먼저 설치한다

    설치 링크 : 아래에서 window installer 64bit를 설치한다

    Java SE 8 Archive Downloads (JDK 8u211 and later)

  • 다운로드 후 파일을 관리자 권한으로 실행한다

  • next 버튼 클릭 후, 아래 화면이 나오면 경로를 변경해준다 ( 경로에 공백이 있으면 나중에 문제 됨)

  • change 클릭 → c드라이브 → 파일명 jdk로 바꾼다

Untitled

Untitled

Untitled

  • tgz 파일을 열기 위해 WinRAR 프로그램 다운로드

    https://www.rarlab.com/download.htm - 컴퓨터 사양에 맞는 것 (win-64) 설치

  • spark-3.2.0-bin-hadoop3.2 폴더 내 모든 파일을 복사 → C드라이브 하단에 spark 폴더를 생성 → 붙여넣기

  • spark 파일 안에 conf 파일 클릭 → log4j.properties 파일을 연결 프로그램-메모장으로 연다

  • log4j.rootCategory=INFO, console 에서 INFO를 ERROR로 바꾼다

Untitled

  • winutils 파일 설치

    설치 링크 : https://github.com/cdarlint/winutils → 설치한 버전 (hadoop-3.2.0) 을 클릭 → winutils.exe을 다운로드 받는다

  • C드라이브에서 차례로 winutils 폴더 생성 → bin 폴더 생성 → 다운받은 winutils.exe 파일을 옮겨준다

  • C드라이브에 차례로 tmp 폴더 → hive 폴더를 생성한다

  • 파일 사용 권한을 얻기 위해 CMD(명령어 프롬프트)를 켜서 아래 명령어를 차례로 입력한다

    cd c:\winutils\bin winutils.exe chmod 777 \tmp\hive

  • 시스템 환경변수 설정 → 환경변수 → 새로 만들기

  • SPARK_HOME 환경변수를 설정

    변수이름 : SPARK_HOME / 변수 값 : C:\spark → c드라이브 폴더의 spark로 가서 경로 복사

  • JAVA_HOME 환경변수를 설정

    변수이름 : JAVA_HOME / 변수 값 : C:\jdk → c드라이브 폴더의 jdk로 가서 경로 복사

  • HADOOP_HOME 환경변수를 설정

    변수이름 : HADOOP_HOME / 변수 값 : C:\winutils → c드라이브 폴더의 winutils로 가서 경로 복사

  • PATH → 편집 클릭 → 아래 코드를 추가

    • %SPARK_HOME%\bin

    • %JAVA_HOME%\bin

  • 파이썬 환경설정 추가

    변수 이름 : PYSPARK_PYTHON / 변수 값 : python

    (옵션) - 주피터 노트북 추가

    변수 이름 : PYSPARK_DRIVER_PYTHON / 변수 값 : jupyter

    변수 이름 : PYSPARK_DRIVER_PYTHON_OPTS / 변수 값 : notebook

  • 스파크가 잘 설치되었는지 확인

  • cmd 열어서 c:\spark\pyspark 로 경로 설정

  • 아래 코드가 실행되는지 확인

1
2
3
>>> rd = sc.textFile("README.md")
>>> rd.count()
109

출처: Spark Installation on Windows 10

You need to set client_id and slot_id to show this AD unit. Please set it in _config.yml.