반응형

DataFrame 8

panda - 데이터 프레임을 다른 데이터 프레임 단위로 행 요소 단위로 필터링합니다.

panda - 데이터 프레임을 다른 데이터 프레임 단위로 행 요소 단위로 필터링합니다. 데이터 프레임이 있습니다.df1다음과 같이 보입니다. c k l 0 A 1 a 1 A 2 b 2 B 2 a 3 C 2 a 4 C 2 d 그리고 또 하나의 부름을 받았습니다.df2예: c l 0 A b 1 C a 필터링하고 싶습니다.df1포함되지 않은 값만df2. 필터링할 값은 다음과 같습니다.(A,b)그리고.(C,a)튜플지금까지 제가 적용을 해봤습니다.isin방법: d = df[~(df['l'].isin(dfc['l']) & df['c'].isin(dfc['c']))] 제가 보기엔 너무 복잡하네요, 다시 돌아오네요. c k l 2 B 2 a 4 C 2 d 하지만 기대하고 있습니다. c k l 0 A 1 a 2 B 2 ..

programing 2023.10.25

PySpark DataFrame Aggregate의 열 이름 변경

PySpark DataFrame Aggregate의 열 이름 변경 저는 PySpark DataFrame으로 몇 가지 데이터를 분석하고 있습니다.데이터 프레임이 있다고 가정합니다.df내가 집계하고 있는 것: (df.groupBy("group") .agg({"money":"sum"}) .show(100) ) 이것은 나에게 다음과 같은 것을 가져다 줄 것입니다. group SUM(money#2L) A 137461285853 B 172185566943 C 271179590646 집계는 잘 되지만 새 컬럼 이름은 마음에 들지 않습니다.SUM(money#2L). 이 칼럼을 사람이 읽을 수 있는 것으로 이름을 바꿀 방법이 있습니까?.agg방법?어쩌면 사람이 하는 것과 더 비슷한 것이dplyr: df %>% group..

programing 2023.10.25

스파크 데이터 프레임에서 전체 열 내용을 표시하는 방법은 무엇입니까?

스파크 데이터 프레임에서 전체 열 내용을 표시하는 방법은 무엇입니까? 저는 데이터 프레임에 데이터를 로드하기 위해 spark-csv를 사용하고 있습니다.간단한 쿼리를 수행하여 내용을 표시하고자 합니다. val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() 콜이 잘린 것 같습니다. scala> results.show(); +--------------------+ | col| +--------------------+..

programing 2023.10.20

PANDS의 SQL-like window 함수: Python Pandas Dataframe의 Row Numbering

PANDS의 SQL-like window 함수: Python Pandas Dataframe의 Row Numbering 저는 sql 배경 출신이고 다음 데이터 처리 단계를 자주 사용합니다. 데이터 테이블을 하나 이상의 필드로 분할 각 파티션에 대해 행을 하나 이상의 다른 필드로 순위를 매기는 각 행에 행 번호를 추가합니다. 여기서 분석가는 오름차순 또는 내림차순을 지정합니다. EX: df = pd.DataFrame({'key1' : ['a','a','a','b','a'], 'data1' : [1,2,2,3,3], 'data2' : [1,10,2,3,30]}) df data1 data2 key1 0 1 1 a 1 2 10 a 2 2 2 a 3 3 3 b 4 3 30 a 이 sql window 기능과 동등한 ..

programing 2023.10.20

열의 조건에 따라 데이터 프레임의 행 부분 집합/필터링

열의 조건에 따라 데이터 프레임의 행 부분 집합/필터링 데이터 프레임 "foo"가 주어졌을 때, 예를 들어 "foo"에서 행만 선택할 수 있는 방법은 무엇입니까?foo$location = "there"? foo = data.frame(location = c("here", "there", "here", "there", "where"), x = 1:5, y = 6:10) foo # location x y # 1 here 1 6 # 2 there 2 7 # 3 here 3 8 # 4 there 4 9 # 5 where 5 10 원하는 결과, "bar": # location x y # 2 there 2 7 # 4 there 4 9 다음은 크게 두 가지 접근 방식입니다.가독성 때문에 이 제품을 선호합니다. bar..

programing 2023.10.15

점을 사용하여 팬더 데이터 프레임의 두 열을 표시하는 방법

점을 사용하여 팬더 데이터 프레임의 두 열을 표시하는 방법 팬더 데이터 프레임이 있으며 한 열의 값 대 다른 열의 값을 플롯하려고 합니다.다행히도, 있습니다.plot필요한 작업을 수행하는 것처럼 보이는 데이터 프레임과 관련된 메소드: df.plot(x='col_name_1', y='col_name_2') 불행히도 플롯 스타일 중에서 다음과 같이 보입니다.kindparameter) 점이 없습니다.나는 선이나 막대, 고른 밀도를 사용할 수 있지만 포인트는 사용할 수 없습니다.이 문제를 해결하는데 도움이 될 수 있는 작업이 있습니까?지정할 수 있습니다.style호출할 때 표시된 줄의: df.plot(x='col_name_1', y='col_name_2', style='o') 그style논쟁은 또한 a가 될 수..

programing 2023.10.10

데이터 프레임을 부분 집합화할 때 선택된 정의되지 않은 열

데이터 프레임을 부분 집합화할 때 선택된 정의되지 않은 열 데이터 프레임이 있는데,str(data)데이터 프레임에 대한 자세한 정보를 표시하기 위해 다음과 같은 결과를 얻을 수 있습니다. > str(data) 'data.frame': 153 obs. of 6 variables: $ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ... $ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ... $ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ... $ Temp : int 67 72 74 62 56 66 65 59 61 69 ... $ Month : int 5 5 5 5 5 5 5 5 5 ..

programing 2023.09.10
반응형