Τον Μάρτιο του 2021, το CLARIN:EL υποδέχεται με ιδιαίτερη χαρά, στην οικογένεια ψηφιακών γλωσσικών πόρων και τεχνολογιών που φιλοξενεί, το Golden Part-of-Speech Tagged Corpus του Εθνικού Θησαυρού της Ελληνικής Γλώσσας (ΕΘΕΓ)!

Πρόκειται για ένα σύνολο δεδομένων γραπτού λόγου από διαδικτυακές πηγές, συνολικού μεγέθους 100.000 λέξεων. Όλες οι λέξεις στο Golden Corpus είναι αυτόματα επισημειωμένες μορφολογικά ως προς το μέρος του λόγου και τη μορφοσυντακτική τους ταυτότητα, ενώ αξίζει να σημειωθεί ότι η επισημείωση και η λημματοποίηση είναι επιπλέον διορθωμένες από έμπειρους γλωσσολόγους, προκειμένου το αποτέλεσμα να είναι απολύτως σωστό.