Python Pandas 튜토리얼

Pandas는 BSD 라이선스로 오픈 소스입니다 Python 데이터 분석 지원 라이브러리는 Python 프로그래밍 언어에 고성능, 쉽게 사용할 수 있는 데이터 구조와 데이터 분석 도구를 제공합니다. Python with Pandas는 학술, 상업 분야를 포함한 광범위한 분야에서 사용되며, 금융, 경제학, 통계학, 분석 등에 사용됩니다. Pandas는 강력한 구조화된 데이터 분석 도구 집합입니다; 그 사용 기반은 Numpy(고성능의 행렬 계산을 제공합니다)입니다; 데이터 탐색과 데이터 분석에 사용되며, 데이터 정리 기능도 제공합니다. 이 튜토리얼에서는 Python Pandas의 다양한 기능과 그들의 실제 사용 방법을 배웁니다.

이 튜토리얼은 pandas의 기본 지식과 다양한 기능을 배우고자 하는 사람들을 위해 준비되었습니다. 이는 데이터 정리 및 분석 업무를 수행하는 사람들에게 특히 유용합니다. 이 튜토리얼을 완료하면 중간 수준의 전문 지식 수준을 가지게 되며, 더 높은 전문 지식 수준을 얻을 수 있습니다.

pandas를 배우기 전에 컴퓨터 프로그래밍 용어에 대한 기본적인 이해가 있어야 합니다. 어떤 프로그래밍 언어에도 기본적인 이해가 있는 것이 추가 포인트입니다. pandas 라이브러리는 대부분의 NumPy 기능을 사용합니다. NumPy에 대한 튜토리얼을 먼저 읽고, 이 튜토리얼을 계속하기를 권장합니다.

Pandas는 다음과 같은 데이터 유형을 처리할 수 있습니다：

SQL이나 Excel 테이블과 유사한, 불일치 열을 포함한 테이블 데이터; NumPy 배열 요소는 같은 데이터 타입을 가져야 하며, 따라서 메모리에서의 크기가 같습니다. 정렬된 비정렬(비고정 주파수) 시계열 데이터; 행과 열 태그가 있는 행렬 데이터, 동일형 또는 불일치형 데이터를 포함합니다; 다른 형식의 관찰, 통계 데이터 셋이든, 데이터가 Pandas 데이터 구조로 전환될 때까지는 사전에 표시할 필요가 없습니다.

Pandas를 사용하는 이유는 무엇인가요？

Pandas의 주요 데이터 구조는 Series(일维数据)와 DataFrame(二维数据)로, 이 두 데이터 구조는 금융, 통계, 사회과학, 공학 등 다양한 분야에서 대부분의 표준 사용 사례를 처리할 수 있습니다. R 사용자에게 DataFrame는 R 언어의 data.frame보다 풍부한 기능을 제공합니다. Pandas는 NumPy를 기반으로 개발되었으며, 다른 제3자 과학 계산 라이브러리와 완벽하게 통합할 수 있습니다. Pandas는 다목적 스위스 암거이며, 여기서는 그의 일부 장점을만 나열합니다 ：

浮动与非浮动 데이터에서 누락된 데이터를 처리하고, NaN으로 표현합니다； 크기가 조정 가능: DataFrame 등 다차원 객체의 열을 삽입하거나 제거합니다； 자동적이고 명시적인 데이터 정렬: 명시적으로 객체를 일반 태그 그룹과 정렬하거나, 태그를 무시하고 Series, DataFrame 계산 시 자동으로 데이터와 정렬할 수 있습니다； 강력하고 유연한 그룹(bye) 기능: 분할-적용-데이터 셋을 조합하고, 데이터를 모으고 변환합니다； Python과 NumPy 데이터 구조에서 불규칙적이거나 다른 인덱스를 가진 데이터를 쉽게 DataFrame 객체로 변환합니다； 지능형 태그를 기반으로 대형 데이터 셋을 씬, 패턴 인덱스, 서브 셋 분해 등의 작업을 수행합니다； 직관적으로 결합(merge)、**결합(join)**데이터 셋； 유연하게 재구성(reshape)、**피버(pivot)**데이터 셋； 축이 구조화된 태그를 지원합니다: 하나의 스케일이 여러 태그를 지원합니다; 성숙한 IO 도구: 텍스트 파일(CSV 등 구분자를 지원하는 파일), Excel 파일, 데이터베이스 등의 소스 데이터를 읽어들이고, 매우 빠른 HDF를 사용하여5 형식 저장 / 데이터 로드; 시계열: 날짜 범위 생성, 주기 변환, 이동 평균 통계, 이동 평균 선형 회귀, 날짜 이동 등 시계열 기능을 지원합니다.

이 기능들은 주로 다른 프로그래밍 언어, 연구 환경의 단점을 해결하기 위해 개발되었습니다. 데이터 처리는 일반적으로 데이터 정리 및 청소, 데이터 분석 및 모델링, 데이터 시각화 및 표 작성으로 나뉩니다. Pandas는 데이터 처리의 완벽한 도구입니다.

기타 설명:

Pandas는 빠르게 작동합니다. Pandas의 많은 하위 알고리즘은 Cython으로 최적화되었습니다. 그러나 일반성을 유지하기 위해 성능 일부를 희생해야 합니다. 특정 기능에 집중하면 Pandas보다 더 빠른 전용 도구를 개발할 수 있습니다. Pandas는 statsmodels의 의존성이며, 따라서 Pandas는 Python의 통계 계산 생태계의 중요한 부분입니다. Pandas는 금융 분야에서 널리 사용되고 있습니다.

Pandas의 간단한 예제

예제

　　$　pip　install　pandas
　　$　python　-i
　　>>>　pandaspd
　>>>　df　=　pd.()　
　>>>　print(df)
　　Empty　DataFrame
　Columns:　[]
　Index:　[]

Pandas SQL 작업