History
home
BDA 연혁
home

- 정규식 (2) & str 문법 적용

판다스에서의 str 문법

판다스에서는 DataFrameSeries 객체 내의 문자열 데이터를 처리하기 위해 str 메서드를 통해 기존 python 문자열 다루는 문법을 활용할 수 있다.

contains 활용: 특정 문자열을 포함하는 데이터만 필터링

import pandas as pd data = {'name': ['John Doe', 'Jane Smith', 'Mary Johnson']} df = pd.DataFrame(data) # 'John'이 포함된 name만 필터링 filtered_df = df[df['name'].str.contains('John')] print(filtered_df)
Python
복사

upper, lower 활용: 데이터 프래임 내 대소문자 반환

import pandas as pd data = {'text': ['Hello, world!', 'Pandas is fun.', 'Python or R?']} df = pd.DataFrame(data) # 모든 텍스트를 대문자로 변환 df['text_upper'] = df['text'].str.upper() # 모든 텍스트를 소문자로 변환 df['text_lower'] = df['text'].str.lower() print(df)
Python
복사

spilt 활용: 문자열 분할

import pandas as pd data = {'data': ['2020-01-01', '2021-02-02', '2022-03-03']} df = pd.DataFrame(data) # '-'을 기준으로 문자열 분할 df[['year', 'month', 'day']] = df['data'].str.split('-', expand=True) print(df)
Python
복사

replace 활용: 문자열 치환

import pandas as pd data = {'description': ['This is a book.', 'Hello, world!', 'Pandas > Excel']} df = pd.DataFrame(data) # 'is'를 'was'로 치환 df['description'] = df['description'].str.replace('is', 'was') print(df)
Python
복사

extract 와 정규식 활용: 데이터 프레임에서 특정 패턴 추출

import pandas as pd data = {'emails': ['john.doe@example.com', 'jane.smith@company.org']} df = pd.DataFrame(data) # 이메일 주소에서 도메인 부분만 추출 df['domain'] = df['emails'].str.extract(r'@([\w\.-]+)') print(df)
Python
복사