Skip to content

indicnlp/solthiruthi-sothanaikal

 
 

Repository files navigation

சொல்திருத்தி சோதனைகள்

எப்படி பயன்கொள்வது (How to use thiruthi.py)

Set the path to your csv dictionary file DEFAULT_DICTIONARY_FILES in resources.py. The csv file should be `word, freq` format. if you don’t have freq counts, just set them to 0 or empty string

$ python3 -i thiruthi.py
loading data/chorkuviyal.22mar22.csv...
loading data/chorkuviyal.22mar22.csv...
loading data/chorkuviyal.22mar22.csv...
> இணையதளம்
இருக்குதா? இருக்கு
இருக்குதா? இருக்கு
'என்ன என்ன வார்த்தைகளோ?'
[(2, 'இசைதளம்'),
 (1, 'இணைதளம்'),
 (2, 'இடைத்தளம்'),
 (0, 'இணையதளம்'),
 (2, 'இணையத்தளக்'),
 (2, 'இணைபதம்'),
 (2, 'இந்தளம்'),
 (2, 'இணைத்தடம்'),
 (2, 'இணைதடம்'),
 (1, 'இணையத்தளம்'),
 (2, 'இணையகம்'),
 (2, 'இணையம்'),
 (1, 'இணையதள'),
 (1, 'இணையதளச்'),
 (2, 'இணையமும்'),
 (2, 'துணைத்தளம்'),
 (2, 'கணையநாளம்'),
 (1, 'இணையதளக்'),
 (1, 'இணையதளத்'),
 (1, 'இணையதளப்'),
 (2, 'இணையளவி')]
>   C-c C-cTraceback (most recent call last):
  File "thiruthi.py", line 53, in <module>
    word = input('> ')
KeyboardInterrupt
>>> trie.get_all_suffixes(get_letters(இணைய))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'இணைய' is not defined
>>> trie.get_all_suffixes(get_letters('இணைய'))
['கம்', 'க்', 'க்கூடம்', 'சை', 'ச்', 'ச்சு', 'ச்சுகள்', 'ச்சுத்தேற்றம்', 'ச்செயல்', 'ச்செய்தி', 'டி', 'டிகால்', 'டிசூட', 'டித்தல்', 'டுக்கு', 'டுக்குக்', 'ணை', 'தள', 'தளக்', 'தளச்', 'தளத்', 'தளத்தைப்', 'தளப்', 'தளம்', 'த்', 'த்தளக்', 'த்தளம்', 'த்தளவழிக்', 'த்தில்', 'ப்', 'ப்பண்பாடு', 'ப்பிழைமம்', 'மிலா', 'மும்', 'முறை', 'மைத்', 'மையிழப்பு', 'மைவு', 'ம்', 'ம்வழி', 'ரங்கம்', 'ரசு', 'ர்', 'ற்கால்வாய்', 'ற்குறியாளங்கள்', 'ற்குழல்', 'ற்ற', 'ல்', 'ளபெடை', 'ளபெடைத்தொடை', 'ளவி', 'வச்சம்', 'வலை', 'வழி', 'வழிப்', 'வுலா', 'வெளி', 'வெளிக்']

Tasks

NEXT Baseline spellchecking

Bloom filter based existence checker

Trie based tree builder that encodes all word from dictionary in a trie

BKTRee with levenshtein metric to generate suggestions

impl naive levenshtein function to enable tamil char level distance calculation instead of unicode level

generate samples from Trie so that the inital letters are preserved

NEXT CLI utility to spellcheck files

valid character check

valid character transition check

flask API?

browser addon

Write tests and build test data

முன்னெடுப்புகள்

Spelling correction & Fuzzy search: 1 million times faster through Symmetric Delete spelling correction algorithm

We adapted python implementation from symspellpy by mammothb

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%