Python 3.4.1 (v3.4.1:c0e311e010fc, May 18 2014, 10:38:22) [MSC v.1600 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.

>>> import nltk, re, pprint
>>> from nltk import word_tokenize

>>> Dokument1 = """Das ist eine Banane."""
>>> Dokument2 = """Das ist eine gruene Banane."""


>>> print (Dokument1)
Das ist eine Banane.
>>> 

Das ist eine Banane.
>>> nltk.word_tokenize(Dokument1)
['Das', 'ist', 'eine', 'Banane', '.']

>>> nltk.word_tokenize(Dokument2)
['Das', 'ist', 'eine', 'gruene', 'Banane', '.']


>>> Dokument1.index('Banane')
13
>>> Dokument2.index('Banane')
20
>>> Dokument2.index('Ba')
20
>>> Dokument2.index('.')
26
>>> Dokument1[13]
>>> 'B'