티스토리

Xenrose

python_package/pandas

pandas.cut()

Xenrose 2024. 10. 11. 23:35

아래 내용은 pandas 2.0.3 버전으로 작성됨.

0. 바로 사용하기

pandas.cut(x, 
           bins=n,
           labels=['label_1', 'label_2', ... , 'label_n'])

x: 구간을 나눌 1-d array
bins=: 입력받은 정수의 수만큼 구간을 나눔
labels=: 나눈 구간에 label을 지정함.

1. 기본형

pandas.cut(x, 
           bins, 
           right=True, 
           labels=None, 
           retbins=False, 
           precision=3, 
           include_lowest=False, 
           duplicates='raise', 
           ordered=True)

2. 기능

1차원 array 객체를 입력받고 특정 구간별로 나눈 pandas Category 객체로 반환해줌.

3. 파라미터

x

구간별로 나눌 1-d array 객체 데이터

bins

bins = integer: 입력 받은 정수의 수만큼 구간을 나눔
bins = sequence of scalars: 구간의 경계를 직접 지정하여 나눔
bins = intervalIndex: pandas intervalIndex 객체를 입력 받아 그에 맞게 구간을 나눔

right

각 구간의 오른쪽 끝을
right = True: 포함하여 나눔
right = False: 포함하지 않고 나눔

labels

labels = 1-d array: 나눈 구간에 label을 지정함
ex) pd.cut(x, bins = 3, labels = ['A', 'B', 'C']

retbins

계산된 구간을 numpy.ndarray 타입으로

retbins = True: 반환함
retbins = False: 반환하지 않음

precision

precision = integer: 정수를 입력 받아 반올림 할 소수점 자리를 정함.
ex precision = 3: 소수점 3번째 자리에서 반올림

include_lowest

첫번째 구간의 왼쪽 끝을

include_lowest = True: 포함하여 구간을 나눔
include_lowest = False: 포함하지 않고 구간을 나눔

duplicates

bins= args로 입력 받은 구간에 중복값이 있을시

duplicates = 'raise': 오류 출력
duplicates = 'drop': 오류를 출력하지 않고 중복값을 제거한 상태로 구간을 나눔

ordered

ordered = True: 라벨을 정렬함
ordered = False: 정렬하지 않음 (단, 이 경우에는 labels의 인자값이 전달되어야 함)

ref

https://pandas.pydata.org/docs/reference/api/pandas.cut.html#pandas.cut