Python 3.4.1 (v3.4.1:c0e311e010fc, May 18 2014, 10:38:22) [MSC v.1600 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()" for more information. >>> import nltk, re, pprint >>> from nltk import word_tokenize >>> Dokument1 = """Das ist eine Banane.""" >>> Dokument2 = """Das ist eine gruene Banane.""" >>> print (Dokument1) Das ist eine Banane. >>> Das ist eine Banane. >>> nltk.word_tokenize(Dokument1) ['Das', 'ist', 'eine', 'Banane', '.'] >>> nltk.word_tokenize(Dokument2) ['Das', 'ist', 'eine', 'gruene', 'Banane', '.'] >>> Dokument1.index('Banane') 13 >>> Dokument2.index('Banane') 20 >>> Dokument2.index('Ba') 20 >>> Dokument2.index('.') 26 >>> Dokument1[13] >>> 'B'