காமலோகம்.காம்

காமலோகம்.காம் (http://www.kamalogam.com/new/index.php)
-   தமிழில் எழுத உதவி (http://www.kamalogam.com/new/forumdisplay.php?f=43)
-   -   யுனிகோட் (Unicode) - ஒரு சிறு அறிமுகம் (http://www.kamalogam.com/new/showthread.php?t=17005)

thiruarul 06-04-05 08:27 PM

யுனிகோட் (Unicode) - ஒரு சிறு அறிமுகம்
 
உன் கோடு, என் கோடு என்று போட்டியிட்டு பல 'கோடு'[கள்] தாண்டி இப்போது "யுனிகோடி"ற்கு வந்திருக்கிறோம். ஏற்கெனவே இருப்பது போதாதென்று இது வேறா என்று நம்மில் பலர் எண்ணக் கூடும். இன்று நாம் சந்தித்து வரும் பெரும் சிக்கல், எந்த குறியீட்டு முறையை இணையத் தளங்கள் அமைப்பதற்கும் மின்னஞ்சல் பரிமாற்றங்களைச் செய்வதற்கும் கையாள்வது என்பதுதான். இணையப் பக்கம் எழுதுவோர் அவரவர் பயன்படுத்தும் விதத்தில் தாம் கண்ட வசதிகளின் அடிப்படையில் குறிப்பிட்ட குறியீட்டைச் சிறந்தது என்று வாதிப்பர். மேலும் முன்பே சில அறியப்பட்ட குறியீட்டுத் தரங்கள் புழக்கத்தில் இருந்தாலும் சில மின்னிதழ்கள் தேவையில்லாமல் ஒழுங்கற்ற குறியீடுகளை பயன்படுத்துகின்றன. எனவே பெயருக்கு ஆக்கங்கள் மின் வடிவில் இருந்தும் அவ்வாக்கங்கள் பயனுள்ளவையாயிருந்தால்கூட பிறருடன் பரிமாறிக்கொள்ளவோ அல்லது தொகுத்து வைக்கவோ இயலுவதில்லை. தமிழில் மின் பதிப்புக்கள் போதிய அளவில் இல்லாத நிலையில் இம்மாதிரியான குழறுபடிகள் வேறு.

Unicode - முதலில் அதன் பெயரே அதன் அடிப்படையை உணர்த்துவதாக அமைந்துள்ளது. UNI[que]CODE - ஓர் அலாதியான தனி குறியீட்டு முறை. [Universal coding என்று எடுத்துக் கொண்டாலும் தப்பில்லைதான்!]. இதைப் பற்றி நம்மிடையே இப்போதுதான் கவனம் திரும்பியிருந்தாலும் மற்ற மொழி எழுத்துருக்கள் முன்பே புழக்கதில் இருக்கின்றன. இந்த யுனிகோடு எழுத்துக் குறியீட்டிற்குச் சொந்தக் காரர்கள் யார்? Unicode Consortium எனப்படும் ஓர் அமைப்புத்தான். இந்த அமைப்பால் உலகில் எழுத்து வழக்கில் உள்ள மொழிகள் எல்லாவற்றிற்கும் எழுத்துரு குறியீடுகள் வரையறுக்கப் பட்டுள்ளன. நம் தமிழ் மொழிக்கும் அவ்வாறான வரையரை செய்யப் பட்டுள்ளது. மேலும் குறியீட்டுப் பகுதியில் போதுமான இடமும் ஒதுக்கப் பட்டுள்ளது. இந்த யுனிகோடு முறையைப் பாவிப்பதால் கிட்டும் மற்றுமோர் அனுகூலம் என்னவென்றால் பன்மொழி உள்ளடக்கிய ஒரே எழுத்துருவை [font] பாவிக்க உதவுவது. இன்று நம்மிடையே இருக்கும் TAB, TSCII குறியீட்டு முறைகள் இரண்டு மொழிகளை [ஆங்கிலம், தமிழ்] மட்டுமே உள்ளடக்கக் கூடியன. ஆனால் யுனிகோடு முறையில் எல்லா மொழி எழுத்துக்களும் ஒரே வகையில் வரையறுக்கப் பட்டிருப்பதால் அத்துனை மொழிகளின் எழுத்துகளையும் ஒரே எழுதுரு கோப்பில் [font file] அடக்கி விடலாம். இது பல மொழிகளை ஒரே நேரத்தில் கையாளுவோருக்கு பெரிதும் உதவும்.

சாதரண பயனரைப் பொறுத்தவரையில் முரசு அஞ்சல் அல்லது எகலப்பை போன்றவற்றைப் பயன்படுத்தி யுனிகோடில் தட்டச்சு செய்யும்போது மேலோட்டமாக எந்த வித்தியாசத்தையும் அறியப் போவதில்லை. ஆனால் யுனிகோட் குறியீடு முறையும் அதன் முழு இயங்கு முறையும் அலாதியானது. ஒவ்வொரு எழுத்தும், குறியும் அதற்குரிய யுனிகோட் எண்ணைப் பெற்றிருக்கும். எடுத்துக்காட்டாக 'ர்' எனப்படுவதில் "ர" வுக்கு ஒரு குறியீட்டு எண்ணும் அதன் மேலுள்ள புள்ளிக்கு ஒரு குறியீட்டு எண்ணுமாக இருக்கும். "க்" என்பது "க" என்ற உயிர்மெய்யும் மேலே குறிப்பிட்ட புள்ளியும் சேர்ந்ததாகும். இதை வேறு வகையில் சொல்லப் போனால் நாம் கையால் எழுதும்போது எவ்விதமாக எழுதுவோமோ அம்முறையில்தான் யுனிகோடு அமைப்பும் இருக்கிறது. "த்" என்ற மெய் எழுத்தை எழுத "த" என்ற உயிர்மெய்யெழுத்தை எழுதி அதன்மேல் ஒரு புள்ளியை வைக்கிறோமல்லவா அதே மாதிரி. அதைப் போலவே எல்லா எழுத்துக்களின் இகர, ஈகார, உகர, ஊகார வடிவங்குக்கு அவைகளுக்குரிய யுனிகோடு குறீடுகளை இட வேண்டும். சரி, "கு"வை நாம் என்று எழுவதிலேயே? ஆனால் யுனிகோடு பக்கங்களில் "கு" என்றே சரியாகக் காண முடிகிறதே? ஆம், எப்படி சரியாக காட்ட வேண்டும் விபரப் பட்டியல் அந்த எழுத்துரு கோப்பிலேயே அடங்கி இருக்கிறது. மேலும் அப்பட்டியலில் உள்ளபடி சரியாக எழுத்துகளைக் காட்ட உதவும் ஒரு சிறப்புக் கோப்பு [unicode script processor - usp10.dll] உங்கள் கணினியிலும் இருக்கிறது. உங்களில் யாரேனும் யுனிகோடு பக்கங்களை சரியாக இல்லாமல் மேலே கண்டதுபோல் குழறுபடியாக ["கு" வை ஆக] காண நேர்தால் ups10.dll பழுதடைந்திருக்கலாம் [அல்லது இல்லாதிருக்கலாம்]. அதுவும் இல்லயென்றால் அந்தப் பக்கங்களில் கையாளப்பட்டிருக்கும் யுனிகோடு எழுத்துருவில் மேற்கண்ட விபரப் பட்டியல் இல்லாதிருக்கலாம்.

Open type font என்ற முறை எழுத்துருவில் கையாளப்பட்டவுடன் இந்த வித்தைகளைச் செய்வது எளிதாகிறது. எழுத்துரு உலகில் முன்னோடியான அடோப் நிறுவனமும் மைக்ரோசாப்ட் நிறுவனமும் கூடி ஒத்துக்கொண்ட முறைதான் இது. நம் தமிழாவது பரவாயில்லை. அரபு, மற்றும் வட இந்தியாவில் பேசப் படும் பல மொழிகளில் எழுதும்போது ஏற்படும் வேறுபாடுகள் மிக அதிகம். ஒரே எழுத்து சொல்லின் தொடக்கதில் ஒரு விதமாகவும் நடுவில் ஒரு விதமாகவும், சொல்லின் இறுதியில் வேறு விதமாகவும் இருக்கும். நாம் ஓர் எழுத்திற்கு ஒரு குறியீடுதான் என்றறிவோம். மூன்று வெவ்வேறான வடிவங்களை இடத்திற்கு தக்கவாறு எப்படி தானாகவே அமைத்துக் கொள்ளச் செய்வது? இந்தச் சிக்கலுக்கு தீர்வளித்து திரையில் சரியான எழுத்துக்களை காண வைப்பதுதான் இந்த முறை.

இறுதியாக யுனிகோடினால் என்ன பயன் என்று தெரிய வேண்டுமல்லவா?

முதலாவதாக, தமிழுக்கென்று தனி இடம். இதுவரை கையாளப்படும் TAM, TAB, TSCII போன்ற குறியீடுகள் மற்ற வேற்று மொழி எழுத்துருக்களில் இருக்கும் வடிவங்களை களைந்து விட்டு தமிழ் வரி வடிவங்களை உட்கொண்டதாக இருக்கின்றன. 256 கட்டங்களில்தான் விளையாட்டை வைத்துக் கொள்ள முடியும். அதில் ஒரு குறியீட்டு முறை "அ" வை 140 வது கட்டத்தில் புகுத்தியிருந்தால் வேறொரு குறியீட்டு முறை "ன" வை புகுத்தி இருக்கும். ஆனால் யுனிகோடில் அப்படி இல்லை. எண் 2946 இலிருந்து எண் 3071 [0B80 - 0BFF Hex] வரை தமிழுக்காக மட்டும்தான். நீங்களோ அல்லது ஓர் ஆப்பிரிக்காக்காரனோ அல்லது ஒரு சீனாக்காரனோ 2949 என்ற எண்ணை யுனிகோடில் எழுதினால் அது தமிழ் "அ" தான். இவ்வாறாக ஒரே குறியீடு மட்டும் உலகெங்கும் பாவிக்கப்பட்டால் செய்தி பரிமாற்றத்தில் குழப்பமேற்பட வழியில்லை. தேடு தளங்களில் தமிழில் தேடும்போது என்ன தேடுகிறீர்களோ அது சரியாகக் கிடைக்கும்.

யுனிகோடு எல்லா இடங்களிலும் இப்போது இல்லாவிட்டாலும் இனி அதுதான் எதிர்காலம். win95 வைத்திருப்போர் யுனிகோடில் காண இயலாது என்றாலும் அது முடிந்துவிட்ட கதை. குறைந்த பட்சம் Win98 இல் யுனிகோடு இணையத் தளங்களைப் பார்க்க இயலும். இப்பொழுது XP ஆட்கொண்டு இருப்பதால் இணையத் தளங்களை மெல்ல யுனிகோடிற்கு மாற்றுவது உத்தமம். சில உலாவிகள், இயக்கு தளங்கள் ஆகியவற்றில் சிக்கல்கள் இருப்பது உண்மைதான் என்றாலும் இது உலகலாவியது என்பதால் விரைவில் சிக்கல் தீர்ந்தே ஆக வேண்டும்.மைக்ரோசாப்ட் "லதா" என்ற யுனிகோடு எழுத்துருவை மட்டுமே தருகிறது. என்றாலும் புழக்கத்திலிருக்கும் எழுத்துருக்களுக்குள்ளும் யுனிகோடு குறியீடுகளை உட்புகுத்த முடியும். அந்தந்த எழுத்துரு தயாரிப்பளர்களை அனுகினால் செய்து கொடுப்பார்கள். அந்தவகையில் முரசு எழுத்துருக்கள் யுனிகோடு குறியீடுகளுடன் வருகின்றன. [TSCu.... என்பதில் u என்பது யுனிகோடு உள்ளடக்கியது என்பதைக் குறிக்கிறது].

கணினியுலகில் 'யாதும் ஊரே யாவரும் கேளிர்' என ஆக வேண்டுமானால் யுனிகோடிற்கு தாவுவதற்கு தயாராக வேண்டும்.
நன்றி: உமர்/எழில்நிலா

யுனிகோட் பற்றி மேலும் தெரிந்துகொள்ள விரும்புபவர்களுக்கான சுட்டிக்கு இங்கே சொடுக்கவும்.

Kanchanadasan 02-05-05 06:34 PM


நண்பர் திருவருள் அவர்களின் உதவியுடன் யுனி கோட் பற்றிய அறிமுகம் கிடைத்ததா? இப்போது இன்னும் கொஞ்சம் பயனுள்ள தகவல்கள் - காதா


யுனிகோட் என்பது தனி சா�ப்ட்வேர் அல்ல. இதை எங்கும் போய் வாங்கத் தேவையில்லை. Tscii திஸ்கி எங்காவது வாங்கினீர்களா என்ன? Tscii போல இதுவும் ஒரு வகை எழுத்துரு (font) தான். எழில் நிலா தளத்தில் உங்கள் கேள்விகளுக்கெல்லாம் பதில் உள்ளது.

தமிழ் யுனி கோட் தளத்தினை பார்க்க என்ன செய்ய வேண்டும்?

தமிழ் யுனி கோடில் தட்டச்சு செய்வது எப்படி?

விண்டோஸ் 98 பயன்படுத்துவோர் எப்படி யுனிகோட் பயன்படுத்துவது?

என ஒவ்வொன்றிற்கும் விளக்கம் உள்ளது. எனவே தயவு செய்து இத்தளத்தினை சென்று பார்க்கவும். நண்பர் திருவருள் அவர்கள் அங்கிருந்து ஒரு எளிய கட்டுரையை நமக்காக இங்கே மேலே பதிந்துள்ளார்.

தட்டச்சு செய்வது குறித்து சில நண்பர்கள் விளக்கம் கேட்டிருந்தீர்கள். இதோ நான் கற்றறிந்தவற்றைப் பகிர்ந்து கொள்கிறேன் இங்கே.

முரசு அஞ்சல் எடிட்டரில் யுனிகோட் தட்டச்சு சரியாகப் பணி புரியவில்லை. எ-கலப்பை வைத்திருப்பது தான் மிக எளிதான வழி. ஏற்கனவே எ-கலப்பை வைத்திருப்பவர்கள் முதலில் அதை நீக்கவும். பின் http://ezilnila.com/software.htm என்ற இணைய தளம் சென்று எ-கலப்பை 2.0 அஞ்சல் செயலியை பெற்று உங்கள் கணினியில் நிறுவுங்கள். நீங்கள் இப்போது தயார். :D

Word Pad அல்லது Notepad ஐ திறந்து கொள்ளுங்கள். இப்போது

ALT + 1 - English
ALT + 2 - Unicode typing
ALT + 3 - TSCII Typing


அவ்வளவே தான்.

யுனி கோட் தரமானது Windows XP/2000 போன்ற இயங்கு தளங்களில் (Operating System) உள்ளடக்கப்பட்டுள்ளது. ஆனால் Windows 98/ NT & IE 5.0 உபயோகிப்பவர்களுக்கு யுனிகோட் சரியாகத் தெரியாவிடில் கீழ்கண்டவாறு செய்யவும்.

முதலில் C:\WINDOWS\SYSTEMக்கு சென்று அங்கிருக்கும் USP10.DLL என்ற கோப்பை வேறு பெயரிட்டு பாதுகாக்கவும்.

பின் USP10.DLL Updated Version ஐ இந்த லிங்கில் இருந்து பெற்று அதே இடத்தில் இடுவதன் மூலம் தமிழ் எழுத்துக்களை சீரான முறையில் காண இயலும்.

நன்றி - http://www.jaffnalibrary.com/tools/tools.htm

Go to C:\WINDOWS\SYSTEM
Rename the USP10.dll
Now go to and get the USP10.dll file and put it in C:\WINDOWS\SYSTEM.

When you find any website or web mail in Unicode, simply change encoding by selecting

View >> Encoding >> Unicode (UTF- or right click and select Encoding >>Unicode (UTF-8).

வேறு ஏதேனும் உதவிகள் தேவை எனில் தெரிவிக்கவும். நன்றி

Kanchanadasan 02-05-05 06:42 PM

யுனிகோடில் ஏன் எழுத வேண்டும் - உமர்

யுனிகோடைப் பற்றி "வேண்டும்" - "வேண்டாம்" என்று சிலர் பேசிக் கொள்ளும் போது சாமானிய பயனர் 'தலைக்கு மேலே ஏதோ பறப்பதைப் போல்' குழம்பி நிற்பதை காண முடிவதுடன் இது என்ன புது வம்பு என்று ஒதுங்கி நிற்பதையும் பார்க்க இயலுகிறது. இந்த கட்டுரையின் நோக்கம். யுனிகோடைப் பற்றி முடிந்த வரை எல்லாவற்றையும் எளிய முறையில் அறியத் தருகிறது.

ஒராண்டிற்கும் மேலாக யுனிகோடில் எழுதவேண்டும் என்ற குரல் எழுந்தாலும் உனடியாக அது செயல்பாட்டிற்கு வர இயலவில்லை. என்றாலும் தொடர்ந்து வலைப்பக்கங்கள் யுனிகோடில் வரத்துவங்கின. குறிப்பாக, வலைப் பதிவுகள் யுனிகோடில் அதிகம் வரவே செய்தன. சிலர் யுனிகோடில் எழுதவேண்டும் என்று எண்ணாவிட்டாலும் கூட, வலைப்பதிவுகளை துவங்கும்போது அவை யுனிகோடிலேயே அமைந்தன. பலர் யுனிகோடை விட்டு ஒதுங்கி இருந்தற்கு பல்வேறு காரணங்களை காண முடிகிறது. தமிழில் எழுதுபவர்கள் பெரும்பலும் தமிழ் குழுக்களுக்கு மின்னஞ்சல் எழுதுபவர்களாக இருப்பதால் நடைமுறையில் இருக்கும் திஸ்கி முறையிலிருந்து யுனிகோடிற்கு மாறும்போது சந்திக்கும் சில சிக்கல்கள் பல்வேறு எண்ணங்களை அவர்களிடையே தூண்டிவிடுகிறது.

1. இது ஏதோ புதிதாக இருக்கிறதே, நாம் "கற்றுக் கொள்ள" கடினமாக இருக்குமோ?

2. இதுவரை தற்போதுள்ள குறியீடுகளில் அஞ்சல்களை வலைப்பக்கங்களை பரிமாறிக் கொண்டிருந்தோமே என்ன குறைந்துவிட்டது?

3. யுனிகோடைப் பற்றி அடிதடி நடந்து கொண்டிருக்கிறதே இதில் ஏன் மாட்டிக்கொள்ள வேண்டும்?

4. யுனிகோடு இடத்தை அடைக்குமாமே - என் "பட்ஜட்டுக்கு" இது ஒத்துவராது.

5. தரவு தளங்களில் சொற்களை வரிசைப் படுத்துவது போன்றவை சிக்கலாமே? சிக்கலில் ஏன் நாம் மாட்டிக்கொள்ள வேண்டும்?

6. எல்லாம் முடிந்து ஒரு வழிக்கு வரட்டும். நாம் மெல்ல அந்த நீரோட்டத்தில் கலந்து கொள்ளுவோம்.

இவையன்றி windows 98 வைத்திருக்கும் பலர் ஏதாவது யுனிகோடு எழுத்துக்களை எழுதிப் பார்த்தாலோ அவை கொக்கிகளாக வந்து பயமுறுத்துவதும் ஒரு காரணம்.

இங்கு யுனிகோடைப் பற்றி எழுதும்போது தோன்றும் சிக்கல்கள் உட்பட எல்லாவற்றையும் பற்றிப் பேசப்போகிறோம். குறிப்பாக மின்னஞ்சல் எழுதுவது பற்றியும் பேசப்போகிறோம்.

"யுனிகோடில் எழுத வேண்டும்" என்று ஓயாது சிலரால் கூறப்படுவததை சற்று ஏலனத்தோடும் எரிச்சலோடும் பார்க்கும் சிலரிடம் நான் கேட்கும் ஒரே கேள்வி இதுதான்: நீங்கள் பிரயத்தனப் பட்டு படைக்கும் ஆக்கங்கள் காற்றோடு கரைந்து போகட்டும் நன்று நினைப்பீர்களா அல்லது சில காலங்களுக்குப் பின்னரும் அவை பயன்பட வேண்டும் என்று நினைப்பீர்களா? நீங்கள் இரண்டாவது

பதிலைத்தான் தருவீர்கள் என்று நம்புகிறேன். அப்படியானால் நீங்கள் உங்களையும் அறியாமல் யுனிகோடிற்கு பச்சைக் கொடி காட்டுபவர் என்றுதான் பொருள்.

யுனிகோடு என்பது புதியதா? நமக்குப் புதியதாகத் தோன்றலாம். ஆனால் அதற்கு கிட்டத்தட்ட வயது 13 க்கும் மேல் ஆகிறது. 1991 ஆண்டுதான் அதன் துவக்கம். சரி, ஒரு இயல்பான ஐயம் நம்மிடையே தோன்றியிருக்க வேண்டுமே? தமிழில் எழுதும்போது மட்டும்தான் இந்த யுனிகோடு வந்து குறுக்கே நிற்கிறது. ஆங்கிலத்தில் எழுதும்போது ஒரு சத்ததையும் காணோமே? அப்படியானால் ஆங்கிலத்திற்கும் யுனிகோடிற்கும் தொடர்பில்லையா? நிச்சயம் உண்டு.

அப்படியானால் எழுதும்போது நாம் கவலைப் படுவதில்லையே? காரணம் இருக்கிறது. யுனிகோடில் ஆங்கில எழுத்துக்கள் முதல் 128 இடங்களுக்குள் அடங்கிவிடுகின்றன. ஆங்கில ASCII எழுத்துக்களின் அதே இடத்தை யுனிகோடிலும் பெற்றுக் கொண்டதால் பிரச்சினை எழுவதில்லை.

ஆனால் கதை அத்தோடு முடிந்துவிடவில்லை. புதிய அறிவியல் குறியீடுகள், கணிதக் குறியீடுகள் போன்றவற்றைக் குறிக்க புழக்கத்திலிருக்கும் எட்டு பிட் போதுமானதாக இல்லை. எனவே இம்மதிரியான குறியீடுகள் மற்றும் எழுத்துக்கள் அகிலத்திற்கு பொதுவானதாக, என்றும் எப்போதும் கையாளக் கூடியனவாக அமைய வேண்டியது தேவையாகி விட்டது. உலகில் பலவகையான கணினிகள், அவற்றில் பலவகையான குறியீடுகள் இருப்பதை நாம் அறிவோம். அவை குறுகிய வட்டத்திற்குள் கையாளப் படும்போது சிக்கல்கள் வருவதில்லை. ஆனால் உலகலாவிய தொடர்பு என்று வரும்போது பொதுவான ஒரு குறியீடு தேவையாகிறது. இப்போது நாம் கையாளும் திஸ்கி, டாம், டாப் போன்றவை எல்லாம் முன்பு குறிப்பிட்ட எட்டு பிட் வட்டத்திற்குள் சுழன்று வருபவைதான். இப்படி தங்கள் எண்ணத்தில் தோன்றிய படியெல்லாம் எழுத்துக்களை மாற்றி ஆளாளுக்கொரு குறியீட்டினை வைத்திருப்பதைக் காண்கிறோம். மளையாளத்தில்

ஒருவர் தன் மொழி எழுத்துக்களைக் கொண்டுவர எண்ணினால் நாம் தமிழில் என்ன வேலையைச் செய்தோமோ அவ்வாறே 256 கட்டங்களுக்குள் இருப்பவைகளைக் களைந்து விட்டு மலையாள எழுத்துக்களைப் புகுத்திக் கொள்வார். தமிழில் எழுத்தப்பட்ட ஆக்கமொன்றை மலையாள நண்பர் அவர் எழுத்துருவைக் கொண்டு பார்த்தால் மலையாளய எழுத்துக்களையே அதில் காண்பார். அவை சொற்றொடர்களாக இருக்காது என்பது வேறு விடயம். இப்படி நிகழ்வதற்குக் காரணம் எல்லோரும் அந்த எட்டு பிட் 256 பகுதிகள் வட்டத்திற்குள் சுழலுவதுதான்.

சரி, இப்படியெல்லாம் நிகழக்கூடாதென்றால் என்ன செய்ய வேண்டும்? ஒவ்வொரு மொழியிலும் உள்ள எழுத்துக்கள் தனித்தன்மை கொண்டதாக அமையவேண்டும். மொழி வாரியாக தனித்தன்மை கொண்டதாக இருந்தால் மட்டும் போதாது. ஒவ்வொரு எழுத்து வாரியாகவும் தனித்தன்மை கொண்டதாக இருக்கவேண்டும்.

அதாவது உலகிலுள்ள எழுதப்படும் ஒவ்வோர் எழுத்திற்கும் தனித்தனியான எண்கள் தரப்பட வேண்டும். உலகின் எந்த மூலையிலும் எந்தக் கணியிலும் அந்த எண் குறியீடு குறிக்கப்பட்டால் அந்த குறிப்பிட்ட எழுத்துத் தோன்ற வேண்டும் - அந்தக் கணினி எந்த மொழியில் பயன்படுத்தப் பட்டாலும் சரியே; எந்த இயக்கு தளத்தில் பயன்படுத்தப் பட்டாலும் சரியே; என்ன மென்பொருள் பயன்படுத்தினாலும் சரியே.

சரி, யுனிகோடு என்பது ஒவ்வொர் எழுத்திற்கும் அலாதியான எண்கள் கொடுக்கப்படும் ஒரு முறை என்று தெரிகிறது. வேறு என்ன சிக்கல்? ஒரு மொழி எழுத்துக்களை அடக்க 256 இடங்கள் சிறு இடம் போதுமானதாக இருந்தது. இப்போது உலகில் எழுதப்படும் எல்லா மொழிகளிலும் உள்ள எழுத்துக்களை ஒரே இடத்தின் கீழ் கொண்டு வருவதென்றால் ஒரு பெரிய இடம் தேவைப் படும் அல்லவா? இது ஒரு சிக்கல்தான். ஒரு சிறிய குடும்பத்திற்கு சிறிய வீடென்றால் அதன் பராமரிப்பு எளிதல்லவா? நிறையக் குடும்பங்கள்

ஒன்று சேர்ந்து ஒரு பெரிய மாளிகையை வாடகைக்குப் பிடித்துக் கொண்டது மாதிரியான ஒரு விடயம் இது. ஆக, எதோ ஒரு கூடுதலான ஒரு விலையைக் கொடுக்க வேண்டியிருக்கும்.

ஒவ்வொரு எழுத்தையும் 16 பிட் வடிவில் குறிக்கவேண்டியிருக்கும். விளைவு? அது அடைத்துக் கொள்ளும் இடம். அதாவது, இந்த யுனிகோடு குடையின் கீழ் வரும் ஒவ்வொரு எழுத்திற்கும் 16 பிட் ஒதுக்கியாகவேண்டும். இது கொள்ளளவைப் பற்றிக் கவலைப் படுவோரிடையே சிந்தனையை தூண்டுகிறது.

இணையப் பக்கங்களில் UTF8 என்ற ஒன்று அடிக்கடி பேசப் படுகிறதே, அது என்ன? அதுதான் இந்த யுனிகோடை இணையத்திற்கு ஏற்றதாக மாற்றித் தரும் ஒரு குறியீடு. Unicode Transformation Format எனப்படும் யுனிகோடு குறியீடுகளின் ஒரு வகைதான் இது. UTF32, UTF16, UTF8 என்ற வகைகள் இருந்தாலும் UTF8 வகைதான் இணையத்தில் பாவிக்கப்படுகிறது. இது யுனிகோடு எழுத்துக்களை எட்டு பிட்டு வரிசையாக உரு மாற்றுகிறது. எட்டு பிட் அதாவது ஒரு பைட் என்பது கணினிகளிடையே உரைவகைகளை பரிமாறிக்கொள்ளும் அமைப்பாக இருப்பதால் UTF8 முறை உகந்ததாக இருக்கிறது. எழுதின் அமைப்பிற்கொப்ப எட்டின் மடங்காக அதாவது 8 அல்லது 8+8 அல்லது 8+8+8 ஆக இணைய வழியில் பரிமாறிக் கொள்ள இது உதவுகிறது. ஆக, அடிப்படை யுனிகோடோடு ஒப்பிடும்போது இந்த முறை "சற்று" சிக்கனம்தான்.

இனி யுனிகோடில் தமிழின் நிலை பற்றி ஆதங்கப் படுவோரின் கருத்தைப் பற்றிப் பார்ப்போம். சிறு வயதில் கேள்வி ஒன்று கேட்பார்கள்: தமிழில் எத்தனை எழுத்து? 247 என்பதுதான் பலருக்கும் சொல்லிக்கொடுக்கப்பட்ட பதில். ஆனால் இல்லை; மெய்யெழுத்து 18, உயிரெழுத்து 12 ஆய்தம் 1 - ஆக 31 என்று சொல்வோரும் உண்டு. யுனிகோடில் "கிட்டத்தட்ட" இரண்டாவது வகைதான் கையாளப் பட்டிருக்கிறது. இதன் அமைப்பு அகர வரசையில் இல்லை என்பதுதான் பெருங்குறை. காரணம் ஒரு தரவை எளிதாக வரிசைப் படுத்த எழுத்துக்களின் அமைப்பு அடிப்படையிலேயே அவ்வாறு ஆங்கிலத்தில் A,B,C,D... என்றிருப்பதுபோல் இருந்தால் எளிதாக கணினி நோக்கில் சொல்லப்போனால் எடுத்துக் கொள்ளும் நேரம் குறைவாக இருக்கும் வரிசைப் படுத்த இயலும். மேலும் அத்துனை எழுத்துக்களுக்கும் இடம் ஒதுக்கப் பட்டிருந்தால் தரவு தளங்களில் கையாள்வதற்கும் தேடு பொறிகளில் தேடுவதற்கும் ஏதுவாக இருக்கும். இம்மாதிரியான சிக்கல்கள் சீன மற்றும் தெற்காசிய மொழிகளுக்கு வந்த போது அவர்கள் போராடிப் பெற்றார்கள். அந்த நிலையில் நாமும்

உறுதியாக இருக்க வேண்டும் என்பதுதான் ஆதங்கப் படும் இவர்களின் வாதம். இது விடயத்தில் தும்பை விட்டுவிட்டாதகவே தோன்றுகிறது. வாலைப் பிடிக்கவும் வெகுதூரம் ஓட வேண்டியிருக்கிறது.

இதற்காக யுனிகோடில் எழுதாமல் இருக்கலாமா? கூடாது என்பதுதான் என் கருத்து.

தற்போதைய யுனிகோடைப் பற்றி தருக்கிப்பவர்கள் யுனிகோடு எதிர்ப்பாளர்கள் என்று எண்ணுவதற்கில்லை. அதைச் செயல்படுத்திய விதத்தில்தான் முரண்படுகிறார்கள். ஆனால் பல பயனரிடையே யுனிகோடு என்பது வேண்டாத ஒன்று என்பது போலவும் சிக்கலைத் தோற்றுவிக்கும் ஒரு முறை என்பது போலவுமான எண்ணம் தோன்றியிருக்கிறது. காரணம் மற்ற குறியீடுகளைப் போலல்லாமல் உள்ளீடுகளை கையாள்வதில் நாமல்ல-கணினினி சற்று வேறுபடுவதுதான்.

1- மேற்கத்திய போர்வையில் இருக்கும் குறியீடுகளில் இப்போதிருக்கும் திஸ்கி, தாம், தாப் போன்றவை உள்ளீடு செய்வதில் சிரமம் இருப்பதில்லை. காரணம் எழுத்துக்களின் உருவத்தை மட்டும்தான் தமிழாக மாற்றுகிறோம் மற்றப்படி உள்ளிடு முறையில் மாற்றமில்லை. யுனிகோடில் புள்ளி உட்பட தனியாகச் சேமிக்கப்படுகிறது

2- உள்ளிடப்பட்டவைகளை வெளிக்கொணரும்போது நடக்கும் நிகழ்வு. சில நேரங்களில் இகர, உகர எழுத்துக்கள், புள்ளிகள் பிரிந்திருப்பது போலவும் கொ, கோ போன்றவை க, க என்பதாகவும் காண்கிறோம். இவை கணினி எழுத்துக்களை வெளிப்படுத்தும்போது நாம் வாசிக்கத் தோதாக மாற்றப் படாமல் அப்படியே வெளிவந்துவிடுவது.

3- யுனிகோடை கையாள இயலாத நிரல்களில் உள்ளிடப்படும்போது வெறும் கொக்கிகளாகத் தெரிவது.

இவை எல்லாம் "குறை" என்பவைபோல் சித்தரிக்கப் படுவதால் பயனரிடையே குழப்பதை உருவாக்குவது மட்டுமல்லாமல் நமக்குத் தேவையில்லை என்பதாகவும் எண்ண வைக்கிறது. இன்று பழைய இயக்கு தளங்களில் வெட்டி ஒட்டுதல் ஒரு கூடுதலான பணியாக இருக்கலாம். ஆனால் புதிய இயக்கு தளங்களில் சிக்கல் இல்லை.

நம்மில் பலர் கணினியில் தமிழ் எழுதிப் பார்ப்பது மின்னஞ்சல் எழுதும்போதுதான். இப்போதிருக்கும் இலவச மின்னஞ்சல் வசதிகளில் யுனிகோடை உள்ளிட வழி இருந்தாலும் அவைகளை அனுப்பிப் பெறும்போது கடைபிடிக்க வேண்டிய சில வழிகள் [encoding:UTF-8] எரிச்சல் ஊட்டுபவையாகத் தோன்றும். எழுத்துக்களைத் தட்டினோமா, அனுப்பினோமா என்றில்லாமல் கூடுதலாக சிலவற்றையும் செய்ய நேரிடுகிறது. இதுவும் சிலர் முகம் சுளிக்கக் காரணம். மேலும் யா? போன்ற மின் குழுமங்களுக்கு யுனிகோடு அஞ்சலை அனுப்பிப் பெறும்போது ஒரு வரி இரண்டு மூன்றாக உடைந்து காணப்படாலாம். இதற்குக் காரணம் யா? அல்ல. நாம் ஏற்கெனவே யுனிகோடு பற்றிச் சொன்னதை நினைவு கூர்ந்தால் இது புரியும். தற்போது புழக்கத்திலிருக்கும் திஸ்கி போன்ற குறியீடுகளைக் கொண்டு 'அன்புள்ள' என்று எழுதினால் ஐந்து எழுத்துகள்தான். ஆனால் யுனிகோடில் எழுதினால் அது எட்டு எழுத்துக்களாக வரும். எப்படி? "ன்" என்பது 'ன' வும் புள்ளியும்

சேர்ந்தது. அதே போல் 'பு' என்பது 'ப' வும் 'உ' வும் சேர்ந்தது கவனிக்க: 'ப்+உ" அல்ல . 'ள்' உம் அங்கனமே இரண்டு இடத்தைப் பிடிக்கும். பொதுவாக மின்னஞ்சல் போன்ற படிவங்களில் வரிக்கு இத்துனை எழுத்து என்று வரையறுத்திருப்பதால் ஒரு வரியில் இருக்கும் சொற்களின் மொத்த எழுத்துக்கள் இங்கனமாகக் கூடிப் போனால் மடக்கி பல வரிகளில் எழுதப்படும்.

இதற்காகவும் யுனிகோடில் எழுதாமல் இருக்கலாமா? கூடாது என்பதுதான் என் கருத்து.

"தமிழ்" என்பது ஓர் அலாதியான சொல் என்பது நாம் அறிந்ததே. Google தேடு தளத்தில் தமிழ் என்று திஸ்கியில் எழுதி தேடிப்பாருங்கள். கிட்டத்தட்ட 2 மில்லியன் வலைத்தளங்களைக் காட்டும். என்ன, திகைக்கிறீர்களா? அவ்வளவு இணையத் தளங்களில் நம் தமிழ் வலம் வருகிறதா என்று வியக்கிறீர்களா? வலைத்தள பட்டியலை பார்த்தால் "தமிழ்" என சிலவற்றைப் படிக்கக் காண்பீர்கள். மற்றவற்றிலெல்லாம் தமிழ் எழுத்துக்கள் அலங்கோலமாக அங்குமிங்கும் சிதறிக் கிடக்கும். சில சீன, கொரிய எழுத்துக்களையும்கூட காண்பீர்கள். காரணம் எல்லோரும் அந்த 256 8 பிட் பொந்துகளில் பல்லாங்குழி ஆடியவையின் வெளிப்பாடுகள்தாம். தமிழ் எழுத்துரு கொண்டு பார்ப்பதால் அங்கங்கு தமிழ் எழுத்துக்கள் தெரிவதைக் காண்பீர்கள். இதையே ஒரு சீனாக்காரர் எல்லாவற்றையும் சீன எழுத்து வடிவில் பார்ப்பார்.

இப்போதிருக்கும் இந்த குறியீடுகளில் திஸ்கி, தாப், தாம் நீங்கள் அல்லது வேறு யாரோ என்றோ எழுதிய நல்லதொரு கட்டுரையை தேடிப் பிடிக்க எண்ணினால் என்னவாகும் என்று எண்ணிப் பாருங்கள். சில மடல் குழுக்களில் முன்பு எழுதிய மடல்களைத் தேடிப்பிடிக்க எவ்வளவு அல்லல் கொள்கிறார்கள் என்பது

நாமெல்லாம் அறிந்த செய்தி. 'ஆங்கிலத்தில் தலைப்பை இடுங்கள்' என்று அடிக்கடி அலறுவதும் நாம் அறியாததல்ல. யுனிகோடில் அந்த கதி வராது என்று நான் சொல்லத் தேவையில்லை. இதுவரை சொல்லப் பட்டவைகளிலிருந்தே அறிந்து கொண்டிருப்பீர்கள்.

இப்போது தமிழில் எழுதுவோரின் எண்ணிக்கை வெகு வேகமாக கூடியிருக்கிறது. நாளுக்கொரு வலைத்தளம் வந்து கொண்டிருக்கிறது. கவிதை, கட்டுரை, ஆன்மீகம், ஆராய்ச்சி, மொழியியல், அறிவியல், கணிதம் என்று ஏகப்பட்ட செய்திகள் தமிழில் வலைத்தளங்களில் எழுதப் படுகின்றன. இவையன்றி நூற்றுக்கணக்கான மென்பொருட்களும் பல்வேறு துறைகளில் வந்து கொண்டிருகின்றன.

இவையெல்லாம் ஒரே தரத்தில் யுனிகோடு இல்லையென்றால் விழலுக்கு இறைத்த நீராகத்தான் போகும். சிலருக்கு இப்போதென்ன அவசரம் எல்லாம் சரியானபின் மெல்ல மாறிக் கொள்ளலாமே என்ற எண்ணமும் இருக்கலாம். இப்போதே ஏகப்படவை குவிந்து கிடக்கின்றன. இனி எல்லாம் எப்போது சரியாகி எல்லாவற்றையும் மாற்றுவது? அதுவரை எல்லாம் யாருக்கும் பயனற்றுக் கிடக்க வேண்டுமா?

சிலர் சில நிறுவனங்களின் வளாகத்திற்குள் தங்களுக்குத் தோதாக தமிழ் பயன்படுத்துபவர்களை மாற்ற இயலுமா என்ற ஐயத்தையும் எழுப்புகின்றனர். மாற்றத் தேவையில்லை என்பதுதான் என் கருத்து. எடுத்துக் காட்டாக தொலைக் காட்சியில் எழுத்தைக் காட்ட யுனிகோடில் இருக்க வேண்டுமா என்றால் அது பைத்தியக் காரத்தனம். அது ஒரு சித்திர வடிவம் அவ்வளவுதான். ஆனால் எவரேனும் உலகலாவிய தொடர்பு என்று வைத்துக்கொண்டால், பிறருடன் தங்கள் கருத்துக்களை கணினி வழியாகப் பரிமாறிக்கொள்ள வேண்டும் என்ற நிலை ஏற்பட்டால் அவர்கள் பொது குறியீட்டிற்கு மாறுவதைத் தவிர வேறு வழில்லை.

சரி. நாம் விரும்புவதைப் போல் சரியான மாற்றங்களைச் செய்து அதை யுனிகோடு கன்சார்ட்டியமும் ஏற்றுகொண்டுவிட்டால் இப்போது மாற்றியவைகளை குப்பையில் போட வேண்டுமா என்ற எண்ணம் வரலாம். முதலில் அவ்வளவு அதிரடியான மாறுதல் வருமா என்பது ஐயமாகவே இருக்கிறது. அப்படியே வந்துவிட்டாலும் "நேற்றுவரை இருந்த யுனிகோடு அப்படி; இன்றிலிருந்து இப்படி" என்று கன்சார்ட்டியம் சொல்ல இயலாது. தற்போது புழக்கத்தில் இருக்கும் முறையையும் உள்ளடக்கி ஒத்துப்போகும் [compatibility] முறையாகத்தான் அது அமையும்.

புதிய முறை எப்போது வரும்? யாருக்கும் தெரியாது. ஆக, இன்று விட்டுவிட்டால் நாளை அது சுமைதான். தமிழ் யுனிகோடை செம்மைப் படுத்த இராம.கி. ஐயா அவர்கள் எழுதும் தொடர் படிக்க வேண்டியவை. அதற்கும் மேலாக அவர் நமக்கு அளிக்கும் தமிழ்ச் சொற்கள் பெரும் புதையல். அவை வீணே இந்த 8 பிட்டு பல்லாங்குழியில் அடங்கி கரைந்து போக விடலாமா?

அவர் தரும் எல்லாவற்றையும் யுனிகோடில் சேமித்து வைக்கின்றேன்.

நன்றி:

உமர், இ-சங்கமம்


All times are GMT +5.5. The time now is 09:35 PM.

Powered by Kamalogam members