Python find all word in string

Найти все вхождения подстроки в Python

Python имеет string.find() и string.rfind() , чтобы получить индекс подстроки в строке. Интересно, может быть, есть что-то вроде string.find_all() , которое может вернуть все основанные индексы (не только от начала или от конца до конца)? Например:

string = "test test test test" print string.find('test') # 0 print string.rfind('test') # 15 #that the goal print string.find_all('test') # [0,5,10,15] 

он должен вернуть «0». Конечно, в идеальном мире также должен быть ‘ttt’.rfind_all(‘tt’) , который должен возвращать’ 1 ‘

16 ответов

Нет простой встроенной строковой функции, которая делает то, что вы ищете, но вы можете использовать более мощные регулярные выражения:

import re [m.start() for m in re.finditer('test', 'test test test test')] #[0, 5, 10, 15] 

Если вы хотите найти совпадающие совпадения, lookahead сделает это:

[m.start() for m in re.finditer('(?=tt)', 'ttt')] #[0, 1] 

Если вы хотите получить обратное вскрытие без перекрытий, вы можете комбинировать положительные и отрицательные образы в виде следующего вида:

search = 'tt' [m.start() for m in re.finditer('(?=%s)(. %s)' % (search, len(search)-1, search), 'ttt')] #[1] 

re.finditer возвращает генератор, поэтому вы можете изменить [] в приведенном выше re.finditer на () чтобы получить генератор вместо списка, который будет более эффективен, если вы будете только повторять результаты один раз.

Привет, относительно этого [m.start() for m in re.finditer(‘test’, ‘test test test test’)] , как мы можем искать test или text ? Становится ли это намного сложнее?

Читайте также:  True false int python

Вы хотите посмотреть на регулярные выражения в целом: docs.python.org/2/howto/regex.html . Решением вашего вопроса будет: [m.start () для m в re.finditer (‘te [sx] t’, ‘text test text test’)]

>>> help(str.find) Help on method_descriptor: find(. ) S.find(sub [,start [,end]]) -> int 

Таким образом, мы можем сами его построить:

def find_all(a_str, sub): start = 0 while True: start = a_str.find(sub, start) if start == -1: return yield start start += len(sub) # use start += 1 to find overlapping matches list(find_all('spam spam spam spam', 'spam')) # [0, 5, 10, 15] 

Никаких временных строк или регулярных выражений не требуется.

Чтобы соответствовать поведению re.findall , я бы рекомендовал добавить len(sub) or 1 вместо len(sub) , иначе этот генератор никогда не завершится на пустой подстроке.

Здесь (очень неэффективный) способ получить все (т.е. даже совпадение):

>>> string = "test test test test" >>> [i for i in range(len(string)) if string.startswith('test', i)] [0, 5, 10, 15] 

Вы можете использовать re.finditer() для совпадающих совпадений.

>>> import re >>> aString = 'this is a string where the substring "is" is repeated several times' >>> print [(a.start(), a.end()) for a in list(re.finditer('is', aString))] [(2, 4), (5, 7), (38, 40), (42, 44)] 

но не будет работать:

In [1]: aString="ababa" In [2]: print [(a.start(), a.end()) for a in list(re.finditer('aba', aString))] Output: [(0, 3)] 

Опять старый поток, но здесь мое решение использует генератор и обычный str.find .

def findall(p, s): '''Yields all the positions of the pattern p in the string s.''' i = s.find(p) while i != -1: yield i i = s.find(p, i+1) 

Пример

x = 'banananassantana' [(i, x[i:i+2]) for i in findall('na', x)] 

Приходите, давайте возместим вместе.

def locations_of_substring(string, substring): """Return a list of locations of a substring.""" substring_length = len(substring) def recurse(locations_found, start): location = string.find(substring, start) if location != -1: return recurse(locations_found + [location], location+substring_length) else: return locations_found return recurse([], 0) print(locations_of_substring('this is a test for finding this and this', 'this')) # prints [0, 27, 36] 

Нет необходимости в регулярных выражениях таким образом.

Я только начал задаваться вопросом: «Есть ли причудливый способ найти подстроку внутри строки в Python?», А затем через 5 минут поиска в Google я нашел ваш код. Спасибо, что поделился.

Этот код имеет несколько проблем. Поскольку он работает с открытыми данными рано или поздно, вы столкнетесь с RecursionError если будет достаточно много вхождений. Другой — два одноразовых списка, которые он создает на каждой итерации только для добавления одного элемента, что очень неоптимально для функции поиска строк, которую можно вызывать много раз. Хотя иногда рекурсивные функции кажутся изящными и ясными, к ним следует относиться с осторожностью.

Это старый поток, но я заинтересовался и хотел поделиться своим решением.

def find_all(a_string, sub): result = [] k = 0 while k < len(a_string): k = a_string.find(sub, k) if k == -1: return result else: result.append(k) k += 1 #change to k += len(sub) to not search overlapping results return result 

Он должен вернуть список позиций, в которых была найдена подстрока. Прокомментируйте, если вы видите ошибку или комнату для улучшения.

Если вы ищете только один символ, это будет работать:

string = "dooobiedoobiedoobie" match = 'o' reduce(lambda count, char: count + 1 if char == match else count, string, 0) # produces 7 
string = "test test test test" match = "test" len(string.split(match)) - 1 # produces 4 

Моя догадка заключается в том, что ни один из них (особенно # 2) не ужасен.

Этот поток немного стар, но это сработало для меня:

numberString = "onetwothreefourfivesixseveneightninefiveten" testString = "five" marker = 0 while marker < len(numberString): try: print(numberString.index("five",marker)) marker = numberString.index("five", marker) + 1 except ValueError: print("String not found") marker = len(numberString) 

Это делает трюк для меня, используя re.finditer

import re text = 'This is sample text to test if this pythonic '\ 'program can serve as an indexing platform for '\ 'finding words in a paragraph. It can give '\ 'values as to where the word is located with the '\ 'different examples as stated' # find all occurances of the word 'as' in the above text find_the_word = re.finditer('as', text) for match in find_the_word: print('start <>, end <>, search string \'<>\''. format(match.start(), match.end(), match.group())) 
>>> string = "test test test test" >>> for index,value in enumerate(string): if string[index:index+(len("test"))] == "test": print index 0 5 10 15 

Независимо от решений, предоставляемых другими, полностью зависит от доступного метода find() или любых доступных методов.

Каков основной базовый алгоритм для поиска всех вхождений подстрока в строке?

 def find_all (строка, подстрока): "" Функция: Возврат всего индекса подстроки в строку Аргументы: Строка и строка поиска Возврат: возврат списка "" length = len (подстрока) с = 0 indexes = [] в то время как c

Вы также можете наследовать класс str новому классу и можете использовать эту функцию ниже.

 class newstr (str): def find_all (строка, подстрока): "" Функция: Возврат всего индекса подстроки в строку Аргументы: Строка и строка поиска Возврат: возврат списка "" length = len (подстрока) с = 0 indexes = [] в то время как c

newstr.find_all ( "Вы находите этот ответ полезным?" это!", 'this')

Источник

Python Find All Substring Occurrences in String

Python Find All Substring Occurrences in String

  1. Use the string.count() Function to Find All Occurrences of a Substring in a String in Python
  2. Use List Comprehension and startswith() to Find All Occurrences of a Substring in a String in Python
  3. Use the re.finditer() to Find All Occurrences of a Substring in a String in Python

A substring in Python is a cluster of characters that occurs within another string. Dealing with substrings can often be troublesome. One such problem is finding all the occurrences of a substring within a particular string.

This tutorial will discuss different methods to find all occurrences of a substring within a string in Python.

Use the string.count() Function to Find All Occurrences of a Substring in a String in Python

The string.count() is an in-built function in Python that returns the quantity or number of occurrences of a substring in a given particular string. Moreover, it has additional parameters start and end to specify the indices of starting and ending positions.

The count() method traverses the string and returns the number of times a specific substring has occurred in the string.

The following code uses the string.count() function to find all occurrences of a substring in a string.

#defining string and substring str1 = "This dress looks good; you have good taste in clothes." substr = "good"  #occurrence of word 'good' in whole string count1 = str1.count(substr) print(count1)  #occurrence of word 'good' from index 0 to 25 count2 = str1.count(substr,0,25) print(count2) 

It is an easy method and works in every case. The only downfall of this method is that it does not return the different indices at which the substring occurs in the string.

Use List Comprehension and startswith() to Find All Occurrences of a Substring in a String in Python

This method needs two things: list comprehension and the startswith() method.

The startswith() function plays out the task of getting the beginning indices of the substring, and list comprehension is utilized to iterate through the complete target string.

The following code uses list comprehension and startswith() to find all occurrences of a substring in a string.

# defining string str1 = "This dress looks good; you have good taste in clothes."  # defining substring substr = "good"  # printing original string print("The original string is : " + str1)  # printing substring print("The substring to find : " + substr)  # using list comprehension + startswith() # All occurrences of substring in string res = [i for i in range(len(str1)) if str1.startswith(substr, i)]  # printing result print("The start indices of the substrings are : " + str(res)) 
The original string is : This dress looks good; you have good taste in clothes. The substring to find : good The start indices of the substrings are : [17, 34] 

Use the re.finditer() to Find All Occurrences of a Substring in a String in Python

re.finditer() is a function of the regex library that Python provides for programmers to use in their code. It helps in performing the task of finding the occurrence of a particular pattern in a string. To use this function, we need to import the regex library re first.

re.finditer() uses the pattern and string parameter in its syntax. In this case, the pattern refers to the substring.

The following code uses the re.finditer() function to find all occurrences of a substring in a string.

import re  # defining string str1 = "This dress looks good; you have good taste in clothes."  #defining substring substr = "good"  print("The original string is: " + str1)  print("The substring to find: " + substr)  result = [_.start() for _ in re.finditer(substr, str1)]  print("The start indices of the substrings are : " + str(result)) 
The original string is: This dress looks good; you have good taste in clothes. The substring to find: good The start indices of the substrings are : [17, 34] 

Vaibhhav is an IT professional who has a strong-hold in Python programming and various projects under his belt. He has an eagerness to discover new things and is a quick learner.

Related Article - Python String

Источник

Оцените статью