- Разделение строки в Python
- Что собой представляют строки в Python
- Разделение строки на подстроки
- Разделение строки при помощи функции split()
- Результат разбиения строки – список подстрок
- Токенизация строки
- Разделение строки на символы при помощи функции list()
- Заключение
- Python разделить строку на списки
- Простое разделение строки и получение списка ее составляющих
- Разделение строки с использованием разделителя
- Разделение многострочной строки (построчно)
- Разделение строки-словаря и преобразование ее в списки или словарь
- Отделение указанного количества элементов
- Разделение строки при помощи последовательно идущих разделителей
Разделение строки в Python
При работе над программами иногда возникает необходимость разбить строку на более мелкие части для дальнейшей обработки. В этом руководстве мы подробно рассмотрим, как произвести разделение строки в Python. Разумеется, для большей наглядности разбирать все будем на примерах.
Что собой представляют строки в Python
В Python все является объектом, поэтому даже строка рассматривается как объект.
Строкой называется последовательность символов. Символы могут быть любыми: буквами, цифрами, специальными символами. Компьютер все равно понимает только двоичные числа, т.е. 0 и 1. Перевод символов в нули и единицы мы называем кодированием, а обратный процесс – декодированием. Кодирование осуществляется на основе ASCII.
Строки объявляются с помощью двойных или одинарных кавычек.
имя_переменной = "значение строки"
имя_переменной = 'значение строки'
Пример объявления строки при помощи двойных кавычек:
my_string = "Hello World" print("String is: ", my_string) # Вывод: # String is: Hello World
Пример объявления строки при помощи одинарных кавычек:
my_string = 'Hello Python' print('String is: ', my_string) # Вывод: # String is: Hello Python
Разделение строки на подстроки
Под разделением строки мы понимаем ее разбиение строки на более мелкие части.
Если вам приходилось работать со строками в каком-либо языке программирования, то вы, вероятно, знаете о конкатенации (объединении строк), а разделение строк – это как раз ее противоположность. Для того чтобы выполнять операции разделения строк, Python предоставляет нам встроенную функцию split() .
Примечание редакции: о конкатенации строк можно почитать в статье “Метод join() и объединение строк в Python”.
Разделение строки при помощи функции split()
Метод split() используется для разделения строки на фрагменты. Он принимает один аргумент, называемый разделителем.
Разделителем может быть любой символ или знак. Если разделитель не определен, то по умолчанию будет использоваться пробел.
my_string = "Welcome to Python" result = my_string.split() print(result) # Вывод: # ['Welcome', 'to', 'Python']
В приведенном выше примере мы использовали функцию split() для разделения строки по пробелам.
Давайте теперь попробуем разделить строку по заданным символам. Для этого будем передавать нужные символы в качестве аргумента функции split() .
В качестве разделителя используется запятая:
my_string = "Apple,Orange,Mango" print("Before splitting, the String is: ", my_string) value = my_string.split(",") print("After splitting, the String is: ", value) # Вывод: # Before splitting, the String is: Apple, Orange, Mango # After splitting, the String is: ['Apple', 'Orange', 'Mango']
В качестве разделителя используется символ нуля:
my_string = "Welcome0To0Python" print("Before splitting, the String is: ", my_string) value = my_string.split("0") print("After splitting, the String is: ", value) # Вывод: # Before splitting, the String is: Welcome0To0Python # After splitting, the String is: ['Welcome', 'To', 'Python']
Используем в качестве разделителя запятую, а результат сохраняем в три разных переменных:
my_string = "Apple,Orange,Mango" fruit1, fruit2, fruit3 = my_string.split(",") print("First Fruit is: ", fruit1) print("Second Fruit is: ", fruit2) print("Third Fruit is: ", fruit3)
First Fruit is: Apple Second Fruit is: Orange Third Fruit is: Mango
Результат разбиения строки – список подстрок
При разделении строки на выходе мы всегда получаем список.
Примечание редакции: об обратном преобразовании читайте в статье “Как преобразовать список в строку в Python”.
Как вы знаете, в Python мы не определяем типы данных, в отличие от других языков программирования. Поэтому при использовании функции split() лучше присвоить ее результат какой-нибудь переменной, чтобы впоследствии его можно было перебрать в цикле.
my_string = "Apple,Orange,Mango" value = my_string.split(",") for item in value: print(item)
Разбив строку при помощи функции split() и сохранив результат в какой-нибудь переменной, мы можем обращаться к полученным подстрокам по индексу. Пример:
my_string = "Apple,Orange,Mango" value = my_string.split(",") print("First item is: ", value[0]) print("Second item is: ", value[1]) print("Third item is: ", value[2])
First item is: Apple Second item is: Orange Third item is: Mango
Токенизация строки
Когда мы разделяем строку, она разбивается на более мелкие части, которые называются токенами.
my_string = "Audi,BMW,Ferrari" tokens = my_string.split(",") print("String tokens are: ", tokens) # Вывод: # String tokens are: ['Audi', 'BMW', 'Ferrari']
Здесь Audi, BMW и Ferrari – токены строки «Audi,BMW,Ferrari» .
Разделение строки на символы при помощи функции list()
В Python есть встроенный метод list() для разделения строк на последовательности символов. Функция list() принимает один аргумент – имя переменной, в которой хранится строка.
variable_name = "String value" list(variable_name)
my_string = "Python" tokens = list(my_string) print("String tokens are: ", tokens) # Вывод: # String tokens are: ['P', 'y', 't', 'h', 'o', 'n']
Заключение
В Python разделение строки осуществляется при помощи встроенного метода split() . Строка разбивается по разделителю, переданному split() в качестве аргумента. В результате мы получаем список подстрок. Этот список, как и любой другой, можно перебирать в цикле, а к его элементам можно обращаться по индексам. Также Python предоставляет встроенный метод list() , с помощью которого можно разделить строку на последовательность символов.
Python разделить строку на списки
В этой статье мы расскажем, как можно разбивать строки на списки. Вы узнаете, как при этом использовать разделители (в частности — как отделять часть строки только по первому разделителю и как быть с последовательно идущими разделителями) и регулярные выражения. Безусловно, эта информация будет особенно полезна начинающим питонистам, но, возможно, и более опытные найдут для себя кое-что интересное.
Простое разделение строки и получение списка ее составляющих
Если вы хотите разбить любую строку на подстроки и составить из них список, вы можете просто воспользоваться методом split(sep=None, maxsplit=-1) . Этот метод принимает два параметра (опционально). Остановимся пока на первом из них — разделителе ( sep ).
Разделитель можно задать явно в качестве параметра, но можно и не задавать: в этом случае в его роли выступает пробел.
Пример использования метода split() без указания разделителя:
print("Python2 Python3 Python Numpy".split()) print("Python2, Python3, Python, Numpy".split())
['Python2', 'Python3', 'Python', 'Numpy'] ['Python2,', 'Python3,', 'Python,', 'Numpy']
Разделение строки с использованием разделителя
Python может разбивать строки по любому разделителю, указанному в качестве параметра метода split() . Таким разделителем может быть, например, запятая, точка или любой другой символ (или даже несколько символов).
Давайте рассмотрим пример, где в качестве разделителя выступает запятая и точка с запятой (это можно использовать для работы с CSV-файлами).
print("Python2, Python3, Python, Numpy".split(',')) print("Python2; Python3; Python; Numpy".split(';'))
['Python2', ' Python3', ' Python', ' Numpy'] ['Python2', ' Python3', ' Python', ' Numpy']
Как видите, в результирующих списках отсутствуют сами разделители.
Если вам нужно получить список, в который войдут и разделители (в качестве отдельных элементов), можно разбить строку по шаблону, с использованием регулярных выражений (см. документацию re.split). Когда вы берете шаблон в захватывающие круглые скобки, группа в шаблоне также возвращается как часть результирующего списка.
import re sep = re.split(',', 'Python2, Python3, Python, Numpy') print(sep) sep = re.split('(,)', 'Python2, Python3, Python, Numpy') print(sep)
['Python2', ' Python3', ' Python', ' Numpy'] ['Python2', ',', ' Python3', ',', ' Python', ',', ' Numpy']
Если вы хотите, чтобы разделитель был частью каждой подстроки в списке, можно обойтись без регулярных выражений и использовать list comprehensions:
text = 'Python2, Python3, Python, Numpy' sep = ',' result = [x+sep for x in text.split(sep)] print(result)
['Python2,', ' Python3,', ' Python,', ' Numpy,']
Разделение многострочной строки (построчно)
Создать список из отдельных строчек многострочной строки можно при помощи того же метода split() , указав в качестве разделителя символ новой строки \n . Если текст содержит лишние пробелы, их можно удалить при помощи методов strip() или lstrip() :
str = """ Python is cool Python is easy Python is mighty """ list = [] for line in str.split("\n"): if not line.strip(): continue list.append(line.lstrip()) print(list)
['Python is cool', 'Python is easy', 'Python is mighty']
Разделение строки-словаря и преобразование ее в списки или словарь
Допустим, у нас есть строка, по сути являющаяся словарем и содержащая пары ключ-значение в виде key => value . Мы хотим получить эти пары в виде списков или настоящего словаря. Вот простой пример, как получить словарь и два списка:
dictionary = """\ key1 => value1 key2 => value2 key3 => value3 """ mydict = <> listKey = [] listValue = [] for line in dictionary.split("\n"): if not line.strip(): continue k, v = [word.strip() for word in line.split("=>")] mydict[k] = v listKey.append(k) listValue.append(v) print(mydict) print(listKey) print(listValue)
['key1', 'key2', 'key3'] ['value1', 'value2', 'value3']
Отделение указанного количества элементов
Метод split() имеет еще один опциональный параметр — maxsplit . С его помощью можно указать, какое максимальное число «разрезов» нужно сделать. По умолчанию maxsplit=-1 , это означает, что число разбиений не ограничено.
Если вам нужно отделить от строки несколько первых подстрок, это можно сделать, указав нужное значение maxsplit . В этом примере мы «отрежем» от строки первые три элемента, отделенные запятыми:
str = "Python2, Python3, Python, Numpy, Python2, Python3, Python, Numpy" data = str.split(", ",3) for temp in data: print(temp)
Python2 Python3 Python Numpy, Python2, Python3, Python, Numpy
Разделение строки при помощи последовательно идущих разделителей
Если вы для разделения строки используете метод split() и не указываете разделитель, то разделителем считается пробел. При этом последовательно идущие пробелы трактуются как один разделитель.
Но если вы указываете определенный разделитель, ситуация меняется. При работе метода будет считаться, что последовательно идущие разделители разделяют пустые строки. Например, ‘1,,2’.split(‘,’) вернет [‘1’, », ‘2’] .
Если вам нужно, чтобы последовательно идущие разделители все-таки трактовались как один разделитель, нужно воспользоваться регулярными выражениями. Разницу можно видеть в примере:
import re print('Hello1111World'.split('1')) print(re.split('1+', 'Hello1111World' ))
['Hello', '', '', '', 'World'] ['Hello', 'World']