판다스에서의 str 문법
판다스에서는 DataFrame과 Series 객체 내의 문자열 데이터를 처리하기 위해 str 메서드를 통해 기존 python 문자열 다루는 문법을 활용할 수 있다.
contains 활용: 특정 문자열을 포함하는 데이터만 필터링
import pandas as pd
data = {'name': ['John Doe', 'Jane Smith', 'Mary Johnson']}
df = pd.DataFrame(data)
# 'John'이 포함된 name만 필터링
filtered_df = df[df['name'].str.contains('John')]
print(filtered_df)
Python
복사
upper, lower 활용: 데이터 프래임 내 대소문자 반환
import pandas as pd
data = {'text': ['Hello, world!', 'Pandas is fun.', 'Python or R?']}
df = pd.DataFrame(data)
# 모든 텍스트를 대문자로 변환
df['text_upper'] = df['text'].str.upper()
# 모든 텍스트를 소문자로 변환
df['text_lower'] = df['text'].str.lower()
print(df)
Python
복사
spilt 활용: 문자열 분할
import pandas as pd
data = {'data': ['2020-01-01', '2021-02-02', '2022-03-03']}
df = pd.DataFrame(data)
# '-'을 기준으로 문자열 분할
df[['year', 'month', 'day']] = df['data'].str.split('-', expand=True)
print(df)
Python
복사
replace 활용: 문자열 치환
import pandas as pd
data = {'description': ['This is a book.', 'Hello, world!', 'Pandas > Excel']}
df = pd.DataFrame(data)
# 'is'를 'was'로 치환
df['description'] = df['description'].str.replace('is', 'was')
print(df)
Python
복사
extract 와 정규식 활용: 데이터 프레임에서 특정 패턴 추출
import pandas as pd
data = {'emails': ['john.doe@example.com', 'jane.smith@company.org']}
df = pd.DataFrame(data)
# 이메일 주소에서 도메인 부분만 추출
df['domain'] = df['emails'].str.extract(r'@([\w\.-]+)')
print(df)
Python
복사