DataFrame과 DataSets을 가지고 어떻게 동작하는지 함 보자.
구조화된 데이터를 가지고 일하기
RDD를 “DataFrame” 오브젝트로 확장시켜 보자.
RDD는 일단 이런저런 정보를 가진 행(Row) 들이다. 그러나 그 정보가 어떤 Type인지는 구체적으로 명시하지 않는다.
- DataFrame은, RDD를 DataFrame 객체로 확장하는 일을 한다.
- DataFrame에는 Row (행) 오브젝트가 들어있고, 그 Row (행)에는 구조화된 데이터가 들어있다.
- 데이터 Type과 이름이 주어진 실제 열 (Column)을 가진 ‘DataFrame’에 구조화된 정보를 갖게 되는 것.
- 그러면, Spark의 DataFrame에 SQL 쿼리를 사용할 수 있게 됨!!!!
\