- 정규식 (2) & str 문법 적용

판다스에서의 str 문법

판다스에서는 DataFrame과 Series 객체 내의 문자열 데이터를 처리하기 위해 str 메서드를 통해 기존 python 문자열 다루는 문법을 활용할 수 있다.

contains 활용: 특정 문자열을 포함하는 데이터만 필터링

import pandas as pd

data = {'name': ['John Doe', 'Jane Smith', 'Mary Johnson']}
df = pd.DataFrame(data)

# 'John'이 포함된 name만 필터링
filtered_df = df[df['name'].str.contains('John')]
print(filtered_df)
Python
복사

upper, lower 활용: 데이터 프래임 내 대소문자 반환

import pandas as pd

data = {'text': ['Hello, world!', 'Pandas is fun.', 'Python or R?']}
df = pd.DataFrame(data)

# 모든 텍스트를 대문자로 변환
df['text_upper'] = df['text'].str.upper()

# 모든 텍스트를 소문자로 변환
df['text_lower'] = df['text'].str.lower()

print(df)
Python
복사

spilt 활용: 문자열 분할

import pandas as pd

data = {'data': ['2020-01-01', '2021-02-02', '2022-03-03']}
df = pd.DataFrame(data)

# '-'을 기준으로 문자열 분할
df[['year', 'month', 'day']] = df['data'].str.split('-', expand=True)

print(df)
Python
복사

replace 활용: 문자열 치환

import pandas as pd

data = {'description': ['This is a book.', 'Hello, world!', 'Pandas > Excel']}
df = pd.DataFrame(data)

# 'is'를 'was'로 치환
df['description'] = df['description'].str.replace('is', 'was')

print(df)
Python
복사

extract 와 정규식 활용: 데이터 프레임에서 특정 패턴 추출

import pandas as pd

data = {'emails': ['john.doe@example.com', 'jane.smith@company.org']}
df = pd.DataFrame(data)

# 이메일 주소에서 도메인 부분만 추출
df['domain'] = df['emails'].str.extract(r'@([\w\.-]+)')

print(df)
Python
복사