Заметка 5. Текстовая строчка курса Математический практикум по Питону. Шокуров Антон В. shokurov.anton.v@yandex.ru http://машинноезрение.рф Версия 0.11

Аннотация

Вводится базовы объект из Питона (Python): строчка (str). Показано как создавать, преобразовывать, искать подсроки и тому подобное.

Это предварительная версия! Любые замечания приветсвуются.

Не список, но похож

Текстовая строка, str

С объектом строка мы уже ранее встречались. В данной заметки будут показаны дополнительные с ней взаимодействия.

Введение

Создание

'текстовая строка' # Одинарные кавычки.

'текстовая строка'

"можно и в двойных кавычках" # Теперь кавычки двойные.
# Но результат содержит одинарные.

'можно и в двойных кавычках'

type("строка"), type('ещё одна') # Тип в любом случае будет строка -- str.

(str, str)

s = 'некая строка' # Можно конечно её присвоить переменной.

# Длина строки, 
len(s) # т.е. количество символом в её представлении.

12

# Напомню:
s + ' завершилась.'

'некая строка завершилась.'

list('строка')

['с', 'т', 'р', 'о', 'к', 'а']

Индекс

Индекс работает также как и для списка, list. Не будем подробно останавливаться. Строка текста тоже на самом деле может быть проиндексирована, т.е. можно считать букву по индексу.

"индекс"[1] # Считываем второй символ строки.

'н'

s[4] # Тоже для переменной типа str.

'я'

s[-1]

'а'

# Даже такое.
s[1::2] # Результат тоже строка.

'еа тоа'

# Поэтому можно опять взять индекс.
s[1::2][1] # Индекс от индекса.

'а'

Но есть и существенные отличия. Например, строка неизменяемый объект, константный.

# Но присовить новое значение нельзя.
s[4] = 'a' # Присвоить новое значение нельзя.

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-13-dd7bda6b0e30> in <module>
      1 # Но присовить новое значение нельзя.
----> 2 s[4] = 'a' # Присвоить новое значение нельзя.

TypeError: 'str' object does not support item assignment

Касательно равенства

Проверка на равенство по сути, т.е. как строчки в обычном поимании.

# По сути они равны.
'строка' == "строка"

True

# А эти строки нет.
'строка 1' == "строка 2" # Строки не совпадают.

False

Строки хранятся единожды, т.е. в одном экземпляре. Поэтому их и нельзя изменять.

# Экономия места благодаря константности строк.
id( 'строка' ) == id("строка") # Указатель на них один и тот же.

True

# Например, схожая вещь для целых чисел.
id(6), id(3+3)

(94872206474080, 94872206474080)

# Отдельные цифры тоже являются константными объектами.
6 = 7 # Нельзя присвоить 6 7.

  File "<ipython-input-18-a407e5fc6203>", line 2
    6 = 7 # Нельзя присвоить 6 7.
                                  ^
SyntaxError: can't assign to literal

В сложных выражениях тоже будет работать.

['aa',['bb']] == ['aa', ['bb']]

True

id( ['строка'] ) == id( ["строка"] )

True

Сравнение нужно делать аккуратно.

["строка"], ["строка"][0] # Это понятно.

(['строка'], 'строка')

# Сравним список со строкой и саму строку.
id( ['строка'] ) == id( ["строка"][0] )
# Конечно не равны.

False

Печать строки

Красивая печать

# В фигурные скобки подставляются значения аргументов метода format.
"первое число {}, а теперь второе {}".format(4,2)
# первый аргумент вместо первой пары фигурных скобок, а второй вместо второй.

'первое число 4, а теперь второе 2'

Конечно можно подставить любой объект. Например строчку.

"{} получила {} баллов за котрольную.".format('Маша',15)

'Маша получила 15 баллов за котрольную.'

Можно указать порядковый номер аргумента в фигурных скобоках явно.

"или иначе, для начала второе число {1}, а теперь первое число {0}".format(4,2)
 # Позволяет менять порядок вывода аргументов.

'или иначе, для начала второе число 2, а теперь первое число 4'

# Номер в фигурных скобрах можно повторять.
"или даже повторять {0}, {1}, {0}.".format(4, 2)

'или даже повторять 4, 2, 4.'

Есть и более прдвинутый подход, где вместо номера указываем именной аргумент.

# Она подставляется автоматически в строке,
'sss {a} ff'.format(a=77) # т.е. там, где она заключена в фигурные скобки.

'sss 77 ff'

a = 55 # Происвоем переменной.
'sss {a} ff'.format() # Имя a должно быть в format.

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-28-d2843b6f1e3b> in <module>
      1 a = 55 # Происвоем переменной.
----> 2 'sss {a} ff'.format() # Имя a должно быть в format.

KeyError: 'a'

Можно и саму переменную использовать в скобках (метода format тогда не будет использоваться ). Так, можно оперировать не порядковым номером, а именем переменной.

# Сначала присваиваем некой переменной значение.
a = 77 # Далее будем её использовать.

# Обращаю внимание на f перед строкой.
f'sss {a} ff'

'sss 77 ff'

'sss {a} ff' # А вот что будет без f до строки.

'sss {a} ff'

Выравнивание

# Центрируем текст.
s = 'center'.center(10) # В скобке указывается длина итоговой строки.
s

'  center  '

len( s) # Длина строки.

10

s[2:-2] # Проверим что это так.

'center'

# Если трока больше требуемой величины.
s = 'center'.center(5) # то ничего не делается.
s

'center'

len(s)

6

# Пробелы превичной строки не учитываются,
l = 'q    '.center(8) # т.е. пробелы как обычные символы.
l

' q      '

len(l)

8

'Заявление'.center(80)

'                                   Заявление                                    '

# Выравненная на левый край.
t = ' qq qq'.ljust(10)
t, len( t )

(' qq qq    ', 10)

# Выравненная на правый край.
t = ' qq qq'.rjust(10)
t, len( t )

('     qq qq', 10)

'Сидоров Иван Иванович'.rjust(80)

'                                                           Сидоров Иван Иванович'

Различные проверки

Упорядочивание

'aaa' + 'bbbb' # Ещё наз напомню.

'aaabbbb'

Вместо операции + можно применить и другие. Например, операцию меньше, больше. Строчки можно сравнивать посредством логических операций в алфавитном порядке.

# Возвращает истину если первое слово ижет раньше второго  алфавитном порядке.
'Максим' < 'Дима' # Знак < вместо знака +.

False

'Максим' < 'Федор'

True

# Это можно рассматривать как единое целое,
'Максим' == 'Федор' # т.е. что операция == и < обе логические.

False

# Возьмем, например, список имен.
names = ['Максим', 'Дима', 'Алексей', 'Олег']
names

['Максим', 'Дима', 'Алексей', 'Олег']

Раз есть операция сравнения, то объекты списка можно упорядочить (отсортировать).

names.sort() # сортируем объекты в списке,
names # т.е. имена в списке.

['Алексей', 'Дима', 'Максим', 'Олег']

misc = [4, 'Максим', 'Дима', 11]

Отсортировать объекты без определенной над объектами операции сравнения нельзя.

# В частности, ранородные: содержащие и цифры и строчки.
misc.sort()

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-50-8265c7a41d41> in <module>
      1 # В частности, ранородные: содержащие и цифры и строчки.
----> 2 misc.sort()

TypeError: '<' not supported between instances of 'str' and 'int'

# Действительно. Нельзя сравнить.
3 < "Дима" # Пытаемся сравнить цифру и слово.

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-51-79647bb5cad7> in <module>
      1 # Действительно. Нельзя сравнить.
----> 2 3 < "Дима" # Пытаемся сравнить цифру и слово.

TypeError: '<' not supported between instances of 'int' and 'str'

# Превратим цифры в строчки.
misc = ['4', 'Максим', 'Дима', '11']
misc.sort() # Теперь сработала сортировка.
misc # Она считает, что цифры идут раньше букв.

['11', '4', 'Дима', 'Максим']

Интегральные базовые проверки

Интегральость обозначает, что что-то делается для всех. В данном случае выполняется та или иная проверка.

Если истинно утверждение для всех символов строки, то итоговы ответ истинен. Иначе ложь.

isalnum() Returns True if all characters in the string are alphanumeric
isalpha() Returns True if all characters in the string are in the alphabet
isdecimal() Returns True if all characters in the string are decimals
isdigit() Returns True if all characters in the string are digits
isidentifier() Returns True if the string is an identifier
islower() Returns True if all characters in the string are lower case
isnumeric() Returns True if all characters in the string are numeric
isprintable() Returns True if all characters in the string are printable
isspace() Returns True if all characters in the string are whitespaces
istitle() Returns True if the string follows the rules of a title
isupper() Returns True if all characters in the string are upper case

s = 'some text'

# Все ли символы явлются буковй?
s.isalpha() # Нет, не все. Пробел не буква.

False

'fff'.isalpha(), 'f1ff'.isalpha() # Цифра (1) не буква.

(True, False)

'   \t\n'.isspace(), ' a  \t\n'.isspace() # Буква (a) не пробел.

(True, False)

# Истина тогда и только тогда когда строчка состоит из цифр.
'034'.isdigit()

True

# Наличие одного не того символа достаточно для ложного ответа.
'5x88'.isdigit() # x  -- не число.

False

'23'.isdecimal(), '23.5'.isdecimal()

(True, False)

'23'.isnumeric(), '23.5'.isnumeric() # Сложно объяснить...

(True, False)

# Проверка на строчный, верхний регистр символа.
'as'.islower(), 'AB4'.isupper(), 'bA'.isupper()

(True, True, False)

Поиск

dat = '... Город: Москва'

# Поиск подстроки.
dat.find('Город: ',0,-1) #

4

dat[4:]

'Город: Москва'

dat.rfind('Город: ')

4

'17:23:22'.find(':')

2

'17:23:22'.rfind(':')

5

# В случае, если строчка не найдена,
dat.find('Страна') # то возвращается -1.

-1

dat.index('Страна') # Бросает исключение.

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-69-48644b652a12> in <module>
----> 1 dat.index('Страна') # Бросает исключение.

ValueError: substring not found

'17:23:22'.index(':'), '17:23:22'.rindex(':')

(2, 5)

tt = 'с 12 час 23 мин по 14 час 31 мин'

# Извлекаем время. Пользуемся тем, что сначала идет время начальное, а потом конечное.
fr = tt.find('час') # from с
tl = tt.rfind('час') # till до

# Печатаем найденное время.
tt[fr-3:fr-1], tt[tl-3:tl-1]

('12', '14')

Префикс и суфикс

Истина, если начинается с нужной строки.

'aa'.startswith('a')

True

'abcde'.startswith('bc')

False

'abcde'.startswith('bc', 1) # можно указать номер символа с которого начинать сравнение.

True

'часов'.startswith('час'), 'час'.startswith('час'), 'час'.startswith('часов')

(True, True, False)

Истина, если завершается нужной строкой.

'sdefgh'.endswith('gh')

True

'asdfg'.endswith('df')

False

'asdfg'.endswith('df', 0, -1)

True

'12 часов'.endswith('часов'), '12 минут'.endswith('часов')

(True, False)

Преобразование строки

Чистка пробелов

s = '  q  q     '

# Убираем лишние 'пробелы' в начале и конце строки.
s.strip()

'q  q'

# Убераем пробелы только с одного из концов строки.
s.lstrip(), s.rstrip()

('q  q     ', '  q  q')

Разбиение на подстроки и объединение

Иногда бывает нужным разбить строчку по пробелам.

# Разбиение по пробелу.
'Маша Катя Лена'.split(' ') # rsplit splitlines

['Маша', 'Катя', 'Лена']

# На самом деле можно и по другому символу.
'Маша; Катя; Лена'.split('; ') # '; ' разделитель из двух символов.

['Маша', 'Катя', 'Лена']

# По одному пробелу.
'Маша Катя  Лена '.split(' ') # В списке появилась пустая строка.

['Маша', 'Катя', '', 'Лена', '']

А бывает, что нужно наоборот объеденить список строк. Между объединяемыми строками будем вставлена нужная строка.

names

['Алексей', 'Дима', 'Максим', 'Олег']

# Объединяем список строчек посредством строки.
', '.join(names) # В данном случае ', '

'Алексей, Дима, Максим, Олег'

', '.join(names) + '.' # Добавим и концевую точку.

'Алексей, Дима, Максим, Олег.'

# Совсем педантично.
', '.join(names[:-1]) + ' и ' + names[-1] + '.'

'Алексей, Дима, Максим и Олег.'

Отсечение

'a ggg ggg'.partition(' ') #rpartition

('a', ' ', 'ggg ggg')

tt

'с 12 час 23 мин по 14 час 31 мин'

ss = tt.partition('по')
ss

('с 12 час 23 мин ', 'по', ' 14 час 31 мин')

# Тогда получится, что
ss[0] # это время с

'с 12 час 23 мин '

ss[0].startswith('с ')

True

ss[2] # это время по.

' 14 час 31 мин'

Преобразования

Данные методы выполняют преобразование строчки согласно определенному правилу.

capitalize() -- Заглавная буква в начале предложения.
title() -- Заглавие: первая буква каждого слова преобразуется в заглавную.
lower() -- Все буквы к строчным.
upper() -- Каждая буква делается заглавной.
swapcase() -- Регистр меняется на противоположный.
casefold() -- Нормализация букв.

'цифровая обработка изображений'.capitalize()
# Ц стала заглавной.

'Цифровая обработка изображений'

# Случай, когда начало строки является пробелом.
' курс по выбору'.capitalize() # Пробел нельзя сделать заглавным.

' курс по выбору'

# Делает заглавие согласно правилам английского языка.
'python course'.title()

'Python Course'

# Для русского текста тоже дает корретный результат.
'цифровая обработка изображений'.title()

'Цифровая Обработка Изображений'

Нормализация строк

'ΣίσυφοςQ'.upper().lower()

'σίσυφοσq'

'Σίσυφος'.upper().lower() # Последняя буква не та.

'σίσυφος'

# Приведение к нормальному виду. Важно для машинного обучения.
'ΣίσυφοςQ'.upper().casefold()

'σίσυφοσq'

# Теперь все буквы совпадают с первой строкой (кроме q).
'Σίσυφος'.upper().casefold()

'σίσυφοσ'

"ß".lower(), "ß".upper().lower() # Не совпадают.

('ß', 'ss')

"ß".lower().casefold(), "ß".upper().casefold() # Совпадают.

('ss', 'ss')

Сложные преобразования

ss = '*\tАня\n*\tКатя'
print(ss)

*	Аня
*	Катя

ss

'*\tАня\n*\tКатя'

len(ss)

12

tt = ss.expandtabs(4) # Заменяем каждый символ табуляции на определенное количество пробелов.
tt

'*   Аня\n*   Катя'

len(tt) # Каждая табуляция 4 символа.

16

print(tt)

*   Аня
*   Катя

grades = 'Имя\tБаллы\nАня\t25\nКатя\t27'

print( grades )

Имя	Баллы
Аня	25
Катя	27

print(grades.expandtabs(16))

Имя             Баллы
Аня             25
Катя            27

Замена

'студентка пришла на спецкурс.'.replace('студентка', 'Маша')

'Маша пришла на спецкурс.'

'студентка пришла на спецкурс.'.replace(['студентка'], ['Маша'])

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-118-a33aae781b04> in <module>
----> 1 'студентка пришла на спецкурс.'.replace(['студентка'], ['Маша'])

TypeError: replace() argument 1 must be str, not list

Кодировки

q = 'aa'.encode('utf16') # На выходе тип -- строка байтов.
q, type(q)

(b'\xff\xfea\x00a\x00', bytes)

win1251 = 'винда'.encode('windows-1251')
win1251

b'\xe2\xe8\xed\xe4\xe0'

win1251.decode('windows-1251')

'винда'

win1251.decode('koi8-r') # Старые добрые времена...

'БХМДЮ'