Заметка 15. Pandas Series. курса Математический практикум по Питону. Шокуров Антон В. shokurov.anton.v@yandex.ru http://машинноезрение.рф Версия 0.11

Аннотация

Pandas таблицы. Столбцы. Series. Серии.

Это предварительная версия! Любые замечания приветсвуются.

import numpy as np
import matplotlib.pyplot as plt

import scipy.stats as models

Работа с таблицами

Введение

Загрузка через csv

import csv

data = []
with open( 'MTLR_180101_190110.txt' ) as f:
    data_rows = csv.reader( f, delimiter = ';' )
    data = list( data_rows )

Мы должны помнить о том, что второй с конца столбец отвечает за цену закрытия.

close = list( map( lambda x: float(x[-2]), data) ) # Здесь мы должны знать, что -2 это то что нужно.

plt.plot( close )
plt.ylabel( 'Цена рубли')
plt.xlabel( 'День начиная с 2018 г')
plt.legend(['Цена ВТБ']) # Соответсвенно помнить название жмитента.

<matplotlib.legend.Legend at 0x7f8b3ce67cf8>

Можно было создать класс, который все это помнит. Но зачем, если уже за нас это сделали?

Для более аккуратной работы с данными есть модуль pandas.

Подключаем pandas

import pandas as pd # Загружаем модуль pandas под псевдонимом pd.

Начнем с загрузки простого файла, т.е. небольшого развера.

mtlr_df = pd.read_csv('MTLR_190101_190110.txt', sep = ';') # Считываем данные из файла.
mtlr_df

Хм.. Как мы видим у колонок появились названия. Но они какие-то не те.

# headerr = None указывает, что заголовка в файле нет.
mtlr_df = pd.read_csv('MTLR_190101_190110.txt', sep = ';', header = None)
mtlr_df

Теперь колонки получили иемя, правда цифровое, т.е. они пронумированы.

Загрузим данные заново (например с сайта finam), но теперь убедися что стоит флажок у "Добавить заголовок файла"

mtlr_df = pd.read_csv('MTLR_190101_190110_header.txt', sep = ';') # Считываем данные из файла включая заголовок.
mtlr_df

Как мы видми у колонок появились правильные названия.

Изменение именования колонок

В любом случае мы возможно хотим переименовать название колонок. Либо пронумерованных, либо англоязычных.

mtlr_df.columns # Колонки хранятся в данной переменной таблицы пандас.

Index(['<TICKER>', '<PER>', '<DATE>', '<TIME>', '<OPEN>', '<HIGH>', '<LOW>',
       '<CLOSE>', '<VOL>'],
      dtype='object')

len(mtlr_df.columns) # Количество колнок.

9

mtlr_df.columns = ['Эмитент', 'Процент', 'Дата', 'Время', 'Открытие', 'Максимум', 'Минимум', 'Закрытие', 'Обьем']

mtlr_df.columns # Не список уже!

Index(['Эмитент', 'Процент', 'Дата', 'Время', 'Открытие', 'Максимум',
       'Минимум', 'Закрытие', 'Обьем'],
      dtype='object')

mtlr_df # Появились нормальные названия колонок.

# Разумеется нужно следить за количеством колонок.
mtlr_df.columns = ['Открытие', 'Максимум', 'Минимум', 'Закрытие', 'Обьем']

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-15-7b672edf5297> in <module>
      1 # Разумеется нужно следить за количеством колонок.
----> 2 mtlr_df.columns = ['Открытие', 'Максимум', 'Минимум', 'Закрытие', 'Обьем']

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/generic.py in __setattr__(self, name, value)
   5068         try:
   5069             object.__getattribute__(self, name)
-> 5070             return object.__setattr__(self, name, value)
   5071         except AttributeError:
   5072             pass

pandas/_libs/properties.pyx in pandas._libs.properties.AxisProperty.__set__()

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/generic.py in _set_axis(self, axis, labels)
    627 
    628     def _set_axis(self, axis, labels):
--> 629         self._data.set_axis(axis, labels)
    630         self._clear_item_cache()
    631 

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/internals/managers.py in set_axis(self, axis, new_labels)
    153             raise ValueError(
    154                 'Length mismatch: Expected axis has {old} elements, new '
--> 155                 'values have {new} elements'.format(old=old_len, new=new_len))
    156 
    157         self.axes[axis] = new_labels

ValueError: Length mismatch: Expected axis has 9 elements, new values have 5 elements

Таблица

Вообще, что за объект, который мы загрузили?

type(mtlr_df) # Объект типа DataFrame

pandas.core.frame.DataFrame

my_close = mtlr_df['Закрытие'] # Можно из таблицы извлесь колонку.
my_close

0    73.12
1    73.68
2    73.74
3    73.93
4    74.44
Name: Закрытие, dtype: float64

type(my_close) # Тип у колонки Series, т.е. серия.

pandas.core.series.Series

И вот сначала мы обсудим тип Series, т.е. что можно делать с колонкой.

Серия

Перейдем к обсуждению объекта Серия (Series) модуля Pandas.

Объект

Создание, удаление

new_ser = pd.Series([50, 100, 75, 23]) # Создаем Серию по списку.
new_ser

0     50
1    100
2     75
3     23
dtype: int64

type( new_ser )

pandas.core.series.Series

Пандас достаточно мудрен, чтобы выбрать наилучший тип для данных. Так если все данные целые, то и итоговые тип будет целым.

new_ser.dtype # Обращу внимание, что тип целочисленный. В этом смысле Пандас умничает.

dtype('int64')

Если хотя бы одно число действительное, то и тоговая таблица будет такой.

new_serf = pd.Series([50, -100, -75., 23])
new_serf # В данном случае тип float64, т.е. действительные.

0     50.0
1   -100.0
2    -75.0
3     23.0
dtype: float64

new_sers = pd.Series(['Москва', 'Питер', 'Нижний', 'Новосибирск']) # Можно хранить и произвольные объекты.
new_sers # Например, строчки, но тогда тип будет object

0         Москва
1          Питер
2         Нижний
3    Новосибирск
dtype: object

В предыдущих примерах первая колонка добавлялась автоматически. Она называется индексом. Поумолчанию она цифровая, т.е. индекс целочисленный. Но можно идекс задать и в явном виде.

cptls = pd.Series([1,4,7,8], index=['Москва', 'Питер', 'Нижний', 'Новосибирск'])
cptls # Индекс к тому же и не числовой.

Москва         1
Питер          4
Нижний         7
Новосибирск    8
dtype: int64

Просмотр

cptls.values

array([1, 4, 7, 8])

cptls.index

Index(['Москва', 'Питер', 'Нижний', 'Новосибирск'], dtype='object')

list( cptls.iteritems() )

[('Москва', 1), ('Питер', 4), ('Нижний', 7), ('Новосибирск', 8)]

cptls.keys()

Index(['Москва', 'Питер', 'Нижний', 'Новосибирск'], dtype='object')

Операции

Операции как над массивами

my_close # Еще раз его выведем.

0    73.12
1    73.68
2    73.74
3    73.93
4    74.44
Name: Закрытие, dtype: float64

my_close*2 # Можно оперировать как с массивом из Numpy.

0    146.24
1    147.36
2    147.48
3    147.86
4    148.88
Name: Закрытие, dtype: float64

new_serf.abs() # Взяли абсолютную величину от всех значений.

0     50.0
1    100.0
2     75.0
3     23.0
dtype: float64

my_open = mtlr_df['Открытие'] # Извлечем ещё и цену открытия.
my_open

0    73.89
1    73.31
2    74.47
3    74.02
4    73.96
Name: Открытие, dtype: float64

avg = 0.5*(my_close + my_open) # Нашли среднее двух колонок.
avg

0    73.505
1    73.495
2    74.105
3    73.975
4    74.200
dtype: float64

type( avg ) # Мы по прежнему остаемся в рамка Серии.

pandas.core.series.Series

my_open

0    73.89
1    73.31
2    74.47
3    74.02
4    73.96
Name: Открытие, dtype: float64

my_close.corr(my_open) # cov

0.12696695817210182

Интегральные операции

my_close.mean(), my_open.max()

(73.78200000000001, 74.47)

Как над списками

my_app = my_open.append( my_close ) # Напомню что в array нельзя добавлять новые элименты.
my_app # Но что произошло с индексом? Он тоже добавился.

0    73.89
1    73.31
2    74.47
3    74.02
4    73.96
0    73.12
1    73.68
2    73.74
3    73.93
4    74.44
dtype: float64

cptls

Москва         1
Питер          4
Нижний         7
Новосибирск    8
dtype: int64

del cptls['Нижний']

cptls

Москва         1
Питер          4
Новосибирск    8
dtype: int64

Значения можети не быть

nums = [5, 6, None, 10] # Список значений и пустота.
nums

[5, 6, None, 10]

a = np.array( nums )
a # Тип object!

array([5, 6, None, 10], dtype=object)

a*2 # Такое не прокатит.

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-44-7a9d19fccd96> in <module>
----> 1 a*2 # Такое не прокатит.

TypeError: unsupported operand type(s) for *: 'NoneType' and 'int'

nums_ser = pd.Series( nums )
nums_ser # Тип всеравно float64!

0     5.0
1     6.0
2     NaN
3    10.0
dtype: float64

nums_ser * 2 # Nan проигнорирован.

0    10.0
1    12.0
2     NaN
3    20.0
dtype: float64

nums_ser.count() # Количество реальных данных.

3

nums_ser.mean() # Правильно считает среднее. 5+6+10=21 => 21/3 = 7.0

7.0

nums_ser.describe()

count     3.000000
mean      7.000000
std       2.645751
min       5.000000
25%       5.500000
50%       6.000000
75%       8.000000
max      10.000000
dtype: float64

nums_ser.dropna() # Оставляем строки со значением.

0     5.0
1     6.0
3    10.0
dtype: float64

nums_ser.fillna(-1)

0     5.0
1     6.0
2    -1.0
3    10.0
dtype: float64

Принадлежность

cptls

Москва         1
Питер          4
Новосибирск    8
dtype: int64

'Москва' in cptls, 'Британия' in cptls

(True, False)

Обновить значение

cptls['Екатеринбург'] = 55

cptls

Москва           1
Питер            4
Новосибирск      8
Екатеринбург    55
dtype: int64

cptls['Нижний'] = 11
cptls

Москва           1
Питер            4
Новосибирск      8
Екатеринбург    55
Нижний          11
dtype: int64

cptls.get('Владивосток', 'не известно')

'не известно'

#cptls.

Индексирование

Как у массива

new_ser[2] # Для Серии действуют теже правила как и для массива. Важно что это число!

75

new_ser[1:-1] # Извлечь с первого по невключительно последний элемент. Важно что это Серия!

1    100
2     75
dtype: int64

Последние два примеры важны. Если не учитывать, то код может сломаться.

my_app # Помним про данную Серию?

0    73.89
1    73.31
2    74.47
3    74.02
4    73.96
0    73.12
1    73.68
2    73.74
3    73.93
4    74.44
dtype: float64

my_app[2] # Раз индекс продублирован, то два элемента, т.е. опять Серия.

2    74.47
2    73.74
dtype: float64

Не числовой индекс

cptls

Москва           1
Питер            4
Новосибирск      8
Екатеринбург    55
Нижний          11
dtype: int64

cptls['Москва']

1

Педантизм

tt = pd.Series(['a','b','c','d'], index=[2,1,3,0])
tt

2    a
1    b
3    c
0    d
dtype: object

tt[0] # Что будет? Что хотели?

'd'

tt.iloc[0] # Является номером строки.

'a'

tt.iloc[2]

'c'

tt.loc[2] # Всегда соответствует названию элемента индекса.

'a'

#new_cptls = pd.Series(['Москва','Париж','Рим','Берлин'], index=['Россия','Франция','Италия','Германия'])

cptls[1] # Вернет как номер строчки.

4

cptls.iloc[1] # Тоже самое.

4

cptls.loc['Москва']

1

cptls.loc[1] # Так нельзя. Нужно обазательно элемент индекса, т.е. название.

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-74-e28a5381aa1e> in <module>
----> 1 cptls.loc[1] # Так нельзя. Нужно обазательно элемент индекса, т.е. название.

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/indexing.py in __getitem__(self, key)
   1499 
   1500             maybe_callable = com.apply_if_callable(key, self.obj)
-> 1501             return self._getitem_axis(maybe_callable, axis=axis)
   1502 
   1503     def _is_scalar_access(self, key):

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/indexing.py in _getitem_axis(self, key, axis)
   1911 
   1912         # fall thru to straight lookup
-> 1913         self._validate_key(key, axis)
   1914         return self._get_label(key, axis=axis)
   1915 

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/indexing.py in _validate_key(self, key, axis)
   1798 
   1799         if not is_list_like_indexer(key):
-> 1800             self._convert_scalar_indexer(key, axis)
   1801 
   1802     def _is_scalar_access(self, key):

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/indexing.py in _convert_scalar_indexer(self, key, axis)
    260         ax = self.obj._get_axis(min(axis, self.ndim - 1))
    261         # a scalar
--> 262         return ax._convert_scalar_indexer(key, kind=self.name)
    263 
    264     def _convert_slice_indexer(self, key, axis):

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/indexes/base.py in _convert_scalar_indexer(self, key, kind)
   2799             elif kind in ['loc'] and is_integer(key):
   2800                 if not self.holds_integer():
-> 2801                     return self._invalid_indexer('label', key)
   2802 
   2803         return key

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/indexes/base.py in _invalid_indexer(self, form, key)
   2985                         "indexers [{key}] of {kind}".format(
   2986                             form=form, klass=type(self), key=key,
-> 2987                             kind=type(key)))
   2988 
   2989     # --------------------------------------------------------------------

TypeError: cannot do label indexing on <class 'pandas.core.indexes.base.Index'> with these indexers [1] of <class 'int'>

cptls.loc['Питер':]

Питер            4
Новосибирск      8
Екатеринбург    55
Нижний          11
dtype: int64

dd = pd.Series( [1, 2, 1, 4], index=[11, 15, 20, 25])

dd.iat[2]

1

Атрибут

cptls.Москва

1

Булевские

a = pd.Series([55, 33, 88, 11])
b = pd.Series([44, 22, 100, 22])

a<b # По аналогии с другими операциями на сериями.

0    False
1    False
2     True
3     True
dtype: bool

a[a<b] # Используем Серию в качестве фильтра.

2    88
3    11
dtype: int64

Индекс, как с ним быть

Изучим что есть

my_app

0    73.89
1    73.31
2    74.47
3    74.02
4    73.96
0    73.12
1    73.68
2    73.74
3    73.93
4    74.44
dtype: float64

my_app.index

Int64Index([0, 1, 2, 3, 4, 0, 1, 2, 3, 4], dtype='int64')

a.index

RangeIndex(start=0, stop=4, step=1)

Новый

rr = my_app.reset_index() # Для создания нового индекса.
rr # Теперь выглядит как таблица. Старый индекс превращен в колонку.

rr.index.is_unique

True

Нужен новый индекс. По хорошему индекс должен однозначно определять строчку.

type(rr) # И действительно это DataFrame. Иногда это нужно, но не сейчас.

pandas.core.frame.DataFrame

rr = my_app.reset_index( drop = True) # Для затирания старого "индекса"
rr

0    73.89
1    73.31
2    74.47
3    74.02
4    73.96
5    73.12
6    73.68
7    73.74
8    73.93
9    74.44
dtype: float64

type(rr) # Да это Серия.

pandas.core.series.Series

rr[2] # Теперь однозначность опять есть.

74.47

a

0    55
1    33
2    88
3    11
dtype: int64

a.index = ['a', 'b', 'c', 'd'] # Можно и так.

a

a    55
b    33
c    88
d    11
dtype: int64

Сортировка

cptls

Москва           1
Питер            4
Новосибирск      8
Екатеринбург    55
Нижний          11
dtype: int64

cptls.sort_index()

Екатеринбург    55
Москва           1
Нижний          11
Новосибирск      8
Питер            4
dtype: int64

cptls.sort_values()

Москва           1
Питер            4
Новосибирск      8
Нижний          11
Екатеринбург    55
dtype: int64

cptls.rank()

Москва          1.0
Питер           2.0
Новосибирск     3.0
Екатеринбург    5.0
Нижний          4.0
dtype: float64

Произвольные вычисления

a

a    55
b    33
c    88
d    11
dtype: int64

a.map( lambda x: x*x )

a    3025
b    1089
c    7744
d     121
dtype: int64

a.map( {55:'a', 33:'b', 88:'d'} )

a      a
b      b
c      d
d    NaN
dtype: object

a

a    55
b    33
c    88
d    11
dtype: int64

#a.apply( {55:'a', 33:'b', 88:'d'} )

aa = pd.Series([1,5,-2])
bb = pd.Series([-2,7,3, 4])

aa

0    1
1    5
2   -2
dtype: int64

bb

0   -2
1    7
2    3
3    4
dtype: int64

aa.combine(bb, lambda x, y: x*y)

0    -2.0
1    35.0
2    -6.0
3     NaN
dtype: float64

aa = pd.Series([1,5,-2], index=[2,3,4])
aa

2    1
3    5
4   -2
dtype: int64

aa.combine(bb, lambda x, y: x*y)

0     NaN
1     NaN
2     3.0
3    20.0
4     NaN
dtype: float64

Группы

grades = pd.Series([30,20,25, 55, 60, 40, 30, 40, 45],
                   index=['Максим','Максим','Максим',
                         'Аня', 'Аня', 'Аня',
                         'Дима', 'Дима', 'Дима'])
grades

Максим    30
Максим    20
Максим    25
Аня       55
Аня       60
Аня       40
Дима      30
Дима      40
Дима      45
dtype: int64

grades.groupby(by=grades.index).mean()

Аня       51.666667
Дима      38.333333
Максим    25.000000
dtype: float64

Поиск

my_open.where( lambda x: x>74 )

0      NaN
1      NaN
2    74.47
3    74.02
4      NaN
Name: Открытие, dtype: float64

#my_open.asfreq(0.5)

my_open.c

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-50-e07ed182bc4e> in <module>
----> 1 my_open.c

/data/conda/anaconda3/envs/data_analysis/lib/python3.6/site-packages/pandas/core/generic.py in __getattr__(self, name)
   5055             if self._info_axis._can_hold_identifiers_and_holds_name(name):
   5056                 return self[name]
-> 5057             return object.__getattribute__(self, name)
   5058 
   5059     def __setattr__(self, name, value):

AttributeError: 'Series' object has no attribute 'c'

my_open.groupby( lambda x: int(x) )

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7fbdbce97a20>

my_open

0    73.89
1    73.31
2    74.47
3    74.02
4    73.96
Name: Открытие, dtype: float64

my_open.reindex(index=['день один', 'день два', 'день три', 'день четыре','dd','aa','aaqq'])

день один     NaN
день два      NaN
день три      NaN
день четыре   NaN
dd            NaN
aa            NaN
aaqq          NaN
Name: Открытие, dtype: float64

tmp_col = my_open.copy()

	MTLR	D	20190103	73.8900000	74.4700000	73.0600000	73.1200000	391375
0	MTLR	D	20190104	73.31	74.89	73.21	73.68	462658
1	MTLR	D	20190108	74.47	74.89	73.50	73.74	406304
2	MTLR	D	20190109	74.02	74.62	73.82	73.93	651998
3	MTLR	D	20190110	73.96	74.78	73.90	74.40	358269

	0	1	2	4	5	6	7	8
0	MTLR	D	20190103	73.89	74.47	73.06	73.12	391375
1	MTLR	D	20190104	73.31	74.89	73.21	73.68	462658
2	MTLR	D	20190108	74.47	74.89	73.50	73.74	406304
3	MTLR	D	20190109	74.02	74.62	73.82	73.93	651998
4	MTLR	D	20190110	73.96	74.78	73.90	74.40	358269