Einen Leitfaden für die Transkription von Texten der geschriebenen Sprache bietet das Deutsche Textarchiv an. Der von CLARIN-D gewählte Annotationsstandard ist im Allgemeinen XML/TEI-P5. Speziell werden zwei spezifische Untermengen von TEI-P5 empfohlen:

1. das Basisformat des Deutschen Textarchivs (DTABf) an der Berlin-Brandenburgischen Akademie der Wissenschaften 

2. das IDS-XCES-Format des Instituts für Deutsche Sprache.

Beide Formate sind im CLARIN-D-Benutzerhandbuch beschrieben (Abschnitt „Geschriebene Korpora“).

Für historische gedruckte Texte empfiehlt CLARIN-D das DTABf. Texte, die im DTABf vorliegen, können von verschiedenen CLARIN-D Zentren (Uni Leipzig, BBAW, IDS) verarbeitet und in die Repositorien von CLARIN-D aufgenommen werden. Dies beinhaltet die Konvertierung des DTABf-konformen TEI-Headers in das CLARIN-eigene Metadatenformat CMDI sowie die Konvertierung der annotierten Textdaten in das Text Corpus Format TCF, welches das Zugangsformat für die linguistischen Tools in WebLicht ist.