The Datuk Corpus — ദതുക് മലയാളം പദാവലി

The Datuk corpus is a free and open Malayalam–Malayalam dictionary dataset with over 106,000 definitions for more than 83,000 Malayalam words. It is an extensively refined and semanticized version of Datuk's original digitisation work incorporating tens of thousands of changes. The majority of words and definitions are grammar tagged, and a large number of records also have additional metadata attached to them.


ഈ മലയാളം-മലയാളം പദസമുച്ഛയത്തിന് "ദതുക്" എന്ന് പേര് നല്‍കിയിട്ടുള്ളത് ശ്രീ. "ദതുക്" കെ. ജെ ജോസഫിനോടുള്ള (1930 - 2019) ആദര സൂചകമായിട്ടാണ്. അദ്ദേഹമാണ് 90-കളുടെ ഒടുവില്‍ ഈ സമ്പൂർണ പദസമുച്ചയം ആസ്കിയിൽ ടൈപ്പ് ചെയ്ത് ഡിജിറ്റല്‍ രൂപത്തിലാക്കിയത്. ഈ സമുച്ചയം അദ്ദേഹത്തിന്‍റെ പ്രയത്നത്തിന്‍റെ നവീകരിച്ച രൂപമാണ്.

ദതുകിന്റെ പ്രയത്നഫലം സംഭരിച്ച് വച്ച വരമൊഴി (യാഹൂ ഗ്രൂപ്പ്. ഇന്നില്ല) പ്രൊജെക്ടിനോട് നന്ദി രേഖപ്പെടുത്തുന്നു.


The "Datuk" Malayalam-Malayalam dictionary corpus is named in honour of Sri. "Datuk" K Joseph (1930 - 2019), who in the late 90's single-handedly typed and compiled the entire dictionary dataset as ASCII. This corpus is an evolution of his exemplary work.

Special thanks to the Varamozhi project for retaining and making available Datuk's work for posterity.


Sample

The dataset is provided as a non-normalized CSV dump of tab separated values—Malayalam entry, part of speech, Malayalam definition.

ചക്രാംഗി	നാ.	അരയന്നപ്പിട
ചക്രാംഗി	നാ.	ചക്രവാകപ്പിട
ചക്രാംഗി	നാ.	മഞ്ചട്ടി
ചക്രാംഗി	നാ.	കക്കടകശൃംഗി

Download

datuk.tar.gz (~2.5 MB). Licensed under ODbL.


← Open source

അഭിപ്രായങ്ങളും നിർദ്ദേശങ്ങളും രേഖപ്പെടുത്തുക