<-- * * KAMALOGAM.COM * * -- * * காமலோகம்.காம் * * -->
Kamalogam
இங்கு புதியவர் சேர்க்கை January 14 முதல் February 14 வரை மட்டும் நடைபெறும். * * * இங்கு புதியவர் சேர்க்கை இப்போது நடப்பில் இல்லை , PAID MEMBERSHIP சேர்க்கை நடைமுறையில் இப்போது உள்ளது * * * ப்ரோஃபைல் இமெயில் முகவரி மாற்றுபவர்கள் கவனமாகச் செய்யவும், மாற்றும் முன் நிர்வாகி உதவியை தனிமடல்/இமெயிலில் நாடுவது சிறந்தது. முடுக்கி விடும் இமெயில் உங்கள் Junk/Bulk பகுதிகளுக்கு செல்ல வாய்ப்புள்ளது * * * 3 மாதங்களுக்கு மேல் பதிப்புகள் ஒன்றும் செய்யாதவர்களின் கணக்கு தானாக செயலிழந்துவிடும் * * * மாதந்திர சிறந்த கதை போட்டியில் வாக்களிக்காதவர்கள் கணக்கு வாக்கெடுப்பு முடிந்த பின் நீக்கப்படும் *** நமது தள படைப்புகளை மற்ற தளங்கள், குழுக்கள், வலைப்பூக்களில் பதிப்பவர்கள் நிரந்தர தடை செய்யப் படுவார்கள், நமது விதிமுறைகளை மதிக்கவும். * * * இங்கே நீங்கள் சொந்தமாக தட்டச்சு செய்த கதைகள் மட்டுமே பதிக்க வேண்டும், உங்களுக்கு கிடைக்கும் அடுத்தவர்களுடைய கதைகளை இங்கே பதிக்க அனுமதியில்லை, அவ்வாறு பதிப்பவர்கள் நிரந்தர தடை செய்யப் படுவார்கள் * * * உங்கள் கணக்கு முடக்கப்படிருந்தால் தொடர்பு கொள்ள வேண்டிய முகவரி KAMALOGAM@GMAIL.COM * * * தலைவாசலில் உள்ள நிர்வாக புதிய அறிவிப்புகளை தவறாமல் பார்க்கவும் ***

Go Back   காமலோகம்.காம் > தலை வாசல் > உதவி மையம் > தமிழில் எழுத உதவி

தமிழில் எழுத உதவி Ask your Tamil Font/Tamil Typing related doubts

Closed Thread
 
Thread Tools
  #1  
Old 06-04-05, 08:27 PM
thiruarul thiruarul is offline
*Reactivated on 5/12/10
 
யுனிகோட் (Unicode) - ஒரு சிறு அறிமுகம்

உன் கோடு, என் கோடு என்று போட்டியிட்டு பல 'கோடு'[கள்] தாண்டி இப்போது "யுனிகோடி"ற்கு வந்திருக்கிறோம். ஏற்கெனவே இருப்பது போதாதென்று இது வேறா என்று நம்மில் பலர் எண்ணக் கூடும். இன்று நாம் சந்தித்து வரும் பெரும் சிக்கல், எந்த குறியீட்டு முறையை இணையத் தளங்கள் அமைப்பதற்கும் மின்னஞ்சல் பரிமாற்றங்களைச் செய்வதற்கும் கையாள்வது என்பதுதான். இணையப் பக்கம் எழுதுவோர் அவரவர் பயன்படுத்தும் விதத்தில் தாம் கண்ட வசதிகளின் அடிப்படையில் குறிப்பிட்ட குறியீட்டைச் சிறந்தது என்று வாதிப்பர். மேலும் முன்பே சில அறியப்பட்ட குறியீட்டுத் தரங்கள் புழக்கத்தில் இருந்தாலும் சில மின்னிதழ்கள் தேவையில்லாமல் ஒழுங்கற்ற குறியீடுகளை பயன்படுத்துகின்றன. எனவே பெயருக்கு ஆக்கங்கள் மின் வடிவில் இருந்தும் அவ்வாக்கங்கள் பயனுள்ளவையாயிருந்தால்கூட பிறருடன் பரிமாறிக்கொள்ளவோ அல்லது தொகுத்து வைக்கவோ இயலுவதில்லை. தமிழில் மின் பதிப்புக்கள் போதிய அளவில் இல்லாத நிலையில் இம்மாதிரியான குழறுபடிகள் வேறு.

Unicode - முதலில் அதன் பெயரே அதன் அடிப்படையை உணர்த்துவதாக அமைந்துள்ளது. UNI[que]CODE - ஓர் அலாதியான தனி குறியீட்டு முறை. [Universal coding என்று எடுத்துக் கொண்டாலும் தப்பில்லைதான்!]. இதைப் பற்றி நம்மிடையே இப்போதுதான் கவனம் திரும்பியிருந்தாலும் மற்ற மொழி எழுத்துருக்கள் முன்பே புழக்கதில் இருக்கின்றன. இந்த யுனிகோடு எழுத்துக் குறியீட்டிற்குச் சொந்தக் காரர்கள் யார்? Unicode Consortium எனப்படும் ஓர் அமைப்புத்தான். இந்த அமைப்பால் உலகில் எழுத்து வழக்கில் உள்ள மொழிகள் எல்லாவற்றிற்கும் எழுத்துரு குறியீடுகள் வரையறுக்கப் பட்டுள்ளன. நம் தமிழ் மொழிக்கும் அவ்வாறான வரையரை செய்யப் பட்டுள்ளது. மேலும் குறியீட்டுப் பகுதியில் போதுமான இடமும் ஒதுக்கப் பட்டுள்ளது. இந்த யுனிகோடு முறையைப் பாவிப்பதால் கிட்டும் மற்றுமோர் அனுகூலம் என்னவென்றால் பன்மொழி உள்ளடக்கிய ஒரே எழுத்துருவை [font] பாவிக்க உதவுவது. இன்று நம்மிடையே இருக்கும் TAB, TSCII குறியீட்டு முறைகள் இரண்டு மொழிகளை [ஆங்கிலம், தமிழ்] மட்டுமே உள்ளடக்கக் கூடியன. ஆனால் யுனிகோடு முறையில் எல்லா மொழி எழுத்துக்களும் ஒரே வகையில் வரையறுக்கப் பட்டிருப்பதால் அத்துனை மொழிகளின் எழுத்துகளையும் ஒரே எழுதுரு கோப்பில் [font file] அடக்கி விடலாம். இது பல மொழிகளை ஒரே நேரத்தில் கையாளுவோருக்கு பெரிதும் உதவும்.

சாதரண பயனரைப் பொறுத்தவரையில் முரசு அஞ்சல் அல்லது எகலப்பை போன்றவற்றைப் பயன்படுத்தி யுனிகோடில் தட்டச்சு செய்யும்போது மேலோட்டமாக எந்த வித்தியாசத்தையும் அறியப் போவதில்லை. ஆனால் யுனிகோட் குறியீடு முறையும் அதன் முழு இயங்கு முறையும் அலாதியானது. ஒவ்வொரு எழுத்தும், குறியும் அதற்குரிய யுனிகோட் எண்ணைப் பெற்றிருக்கும். எடுத்துக்காட்டாக 'ர்' எனப்படுவதில் "ர" வுக்கு ஒரு குறியீட்டு எண்ணும் அதன் மேலுள்ள புள்ளிக்கு ஒரு குறியீட்டு எண்ணுமாக இருக்கும். "க்" என்பது "க" என்ற உயிர்மெய்யும் மேலே குறிப்பிட்ட புள்ளியும் சேர்ந்ததாகும். இதை வேறு வகையில் சொல்லப் போனால் நாம் கையால் எழுதும்போது எவ்விதமாக எழுதுவோமோ அம்முறையில்தான் யுனிகோடு அமைப்பும் இருக்கிறது. "த்" என்ற மெய் எழுத்தை எழுத "த" என்ற உயிர்மெய்யெழுத்தை எழுதி அதன்மேல் ஒரு புள்ளியை வைக்கிறோமல்லவா அதே மாதிரி. அதைப் போலவே எல்லா எழுத்துக்களின் இகர, ஈகார, உகர, ஊகார வடிவங்குக்கு அவைகளுக்குரிய யுனிகோடு குறீடுகளை இட வேண்டும். சரி, "கு"வை நாம் என்று எழுவதிலேயே? ஆனால் யுனிகோடு பக்கங்களில் "கு" என்றே சரியாகக் காண முடிகிறதே? ஆம், எப்படி சரியாக காட்ட வேண்டும் விபரப் பட்டியல் அந்த எழுத்துரு கோப்பிலேயே அடங்கி இருக்கிறது. மேலும் அப்பட்டியலில் உள்ளபடி சரியாக எழுத்துகளைக் காட்ட உதவும் ஒரு சிறப்புக் கோப்பு [unicode script processor - usp10.dll] உங்கள் கணினியிலும் இருக்கிறது. உங்களில் யாரேனும் யுனிகோடு பக்கங்களை சரியாக இல்லாமல் மேலே கண்டதுபோல் குழறுபடியாக ["கு" வை ஆக] காண நேர்தால் ups10.dll பழுதடைந்திருக்கலாம் [அல்லது இல்லாதிருக்கலாம்]. அதுவும் இல்லயென்றால் அந்தப் பக்கங்களில் கையாளப்பட்டிருக்கும் யுனிகோடு எழுத்துருவில் மேற்கண்ட விபரப் பட்டியல் இல்லாதிருக்கலாம்.

Open type font என்ற முறை எழுத்துருவில் கையாளப்பட்டவுடன் இந்த வித்தைகளைச் செய்வது எளிதாகிறது. எழுத்துரு உலகில் முன்னோடியான அடோப் நிறுவனமும் மைக்ரோசாப்ட் நிறுவனமும் கூடி ஒத்துக்கொண்ட முறைதான் இது. நம் தமிழாவது பரவாயில்லை. அரபு, மற்றும் வட இந்தியாவில் பேசப் படும் பல மொழிகளில் எழுதும்போது ஏற்படும் வேறுபாடுகள் மிக அதிகம். ஒரே எழுத்து சொல்லின் தொடக்கதில் ஒரு விதமாகவும் நடுவில் ஒரு விதமாகவும், சொல்லின் இறுதியில் வேறு விதமாகவும் இருக்கும். நாம் ஓர் எழுத்திற்கு ஒரு குறியீடுதான் என்றறிவோம். மூன்று வெவ்வேறான வடிவங்களை இடத்திற்கு தக்கவாறு எப்படி தானாகவே அமைத்துக் கொள்ளச் செய்வது? இந்தச் சிக்கலுக்கு தீர்வளித்து திரையில் சரியான எழுத்துக்களை காண வைப்பதுதான் இந்த முறை.

இறுதியாக யுனிகோடினால் என்ன பயன் என்று தெரிய வேண்டுமல்லவா?

முதலாவதாக, தமிழுக்கென்று தனி இடம். இதுவரை கையாளப்படும் TAM, TAB, TSCII போன்ற குறியீடுகள் மற்ற வேற்று மொழி எழுத்துருக்களில் இருக்கும் வடிவங்களை களைந்து விட்டு தமிழ் வரி வடிவங்களை உட்கொண்டதாக இருக்கின்றன. 256 கட்டங்களில்தான் விளையாட்டை வைத்துக் கொள்ள முடியும். அதில் ஒரு குறியீட்டு முறை "அ" வை 140 வது கட்டத்தில் புகுத்தியிருந்தால் வேறொரு குறியீட்டு முறை "ன" வை புகுத்தி இருக்கும். ஆனால் யுனிகோடில் அப்படி இல்லை. எண் 2946 இலிருந்து எண் 3071 [0B80 - 0BFF Hex] வரை தமிழுக்காக மட்டும்தான். நீங்களோ அல்லது ஓர் ஆப்பிரிக்காக்காரனோ அல்லது ஒரு சீனாக்காரனோ 2949 என்ற எண்ணை யுனிகோடில் எழுதினால் அது தமிழ் "அ" தான். இவ்வாறாக ஒரே குறியீடு மட்டும் உலகெங்கும் பாவிக்கப்பட்டால் செய்தி பரிமாற்றத்தில் குழப்பமேற்பட வழியில்லை. தேடு தளங்களில் தமிழில் தேடும்போது என்ன தேடுகிறீர்களோ அது சரியாகக் கிடைக்கும்.

யுனிகோடு எல்லா இடங்களிலும் இப்போது இல்லாவிட்டாலும் இனி அதுதான் எதிர்காலம். win95 வைத்திருப்போர் யுனிகோடில் காண இயலாது என்றாலும் அது முடிந்துவிட்ட கதை. குறைந்த பட்சம் Win98 இல் யுனிகோடு இணையத் தளங்களைப் பார்க்க இயலும். இப்பொழுது XP ஆட்கொண்டு இருப்பதால் இணையத் தளங்களை மெல்ல யுனிகோடிற்கு மாற்றுவது உத்தமம். சில உலாவிகள், இயக்கு தளங்கள் ஆகியவற்றில் சிக்கல்கள் இருப்பது உண்மைதான் என்றாலும் இது உலகலாவியது என்பதால் விரைவில் சிக்கல் தீர்ந்தே ஆக வேண்டும்.மைக்ரோசாப்ட் "லதா" என்ற யுனிகோடு எழுத்துருவை மட்டுமே தருகிறது. என்றாலும் புழக்கத்திலிருக்கும் எழுத்துருக்களுக்குள்ளும் யுனிகோடு குறியீடுகளை உட்புகுத்த முடியும். அந்தந்த எழுத்துரு தயாரிப்பளர்களை அனுகினால் செய்து கொடுப்பார்கள். அந்தவகையில் முரசு எழுத்துருக்கள் யுனிகோடு குறியீடுகளுடன் வருகின்றன. [TSCu.... என்பதில் u என்பது யுனிகோடு உள்ளடக்கியது என்பதைக் குறிக்கிறது].

கணினியுலகில் 'யாதும் ஊரே யாவரும் கேளிர்' என ஆக வேண்டுமானால் யுனிகோடிற்கு தாவுவதற்கு தயாராக வேண்டும்.
நன்றி: உமர்/எழில்நிலா

யுனிகோட் பற்றி மேலும் தெரிந்துகொள்ள விரும்புபவர்களுக்கான சுட்டிக்கு இங்கே சொடுக்கவும்.

Last edited by Kanchanadasan; 02-05-05 at 06:30 PM.
  #2  
Old 02-05-05, 06:34 PM
Kanchanadasan's Avatar
Kanchanadasan Kanchanadasan is offline
நிர்வாக ஆலோசகர்

Awards Showcase

 

நண்பர் திருவருள் அவர்களின் உதவியுடன் யுனி கோட் பற்றிய அறிமுகம் கிடைத்ததா? இப்போது இன்னும் கொஞ்சம் பயனுள்ள தகவல்கள் - காதா


யுனிகோட் என்பது தனி சா�ப்ட்வேர் அல்ல. இதை எங்கும் போய் வாங்கத் தேவையில்லை. Tscii திஸ்கி எங்காவது வாங்கினீர்களா என்ன? Tscii போல இதுவும் ஒரு வகை எழுத்துரு (font) தான். எழில் நிலா தளத்தில் உங்கள் கேள்விகளுக்கெல்லாம் பதில் உள்ளது.

தமிழ் யுனி கோட் தளத்தினை பார்க்க என்ன செய்ய வேண்டும்?

தமிழ் யுனி கோடில் தட்டச்சு செய்வது எப்படி?

விண்டோஸ் 98 பயன்படுத்துவோர் எப்படி யுனிகோட் பயன்படுத்துவது?

என ஒவ்வொன்றிற்கும் விளக்கம் உள்ளது. எனவே தயவு செய்து இத்தளத்தினை சென்று பார்க்கவும். நண்பர் திருவருள் அவர்கள் அங்கிருந்து ஒரு எளிய கட்டுரையை நமக்காக இங்கே மேலே பதிந்துள்ளார்.

தட்டச்சு செய்வது குறித்து சில நண்பர்கள் விளக்கம் கேட்டிருந்தீர்கள். இதோ நான் கற்றறிந்தவற்றைப் பகிர்ந்து கொள்கிறேன் இங்கே.

முரசு அஞ்சல் எடிட்டரில் யுனிகோட் தட்டச்சு சரியாகப் பணி புரியவில்லை. எ-கலப்பை வைத்திருப்பது தான் மிக எளிதான வழி. ஏற்கனவே எ-கலப்பை வைத்திருப்பவர்கள் முதலில் அதை நீக்கவும். பின் http://ezilnila.com/software.htm என்ற இணைய தளம் சென்று எ-கலப்பை 2.0 அஞ்சல் செயலியை பெற்று உங்கள் கணினியில் நிறுவுங்கள். நீங்கள் இப்போது தயார்.

Word Pad அல்லது Notepad ஐ திறந்து கொள்ளுங்கள். இப்போது

ALT + 1 - English
ALT + 2 - Unicode typing
ALT + 3 - TSCII Typing


அவ்வளவே தான்.

யுனி கோட் தரமானது Windows XP/2000 போன்ற இயங்கு தளங்களில் (Operating System) உள்ளடக்கப்பட்டுள்ளது. ஆனால் Windows 98/ NT & IE 5.0 உபயோகிப்பவர்களுக்கு யுனிகோட் சரியாகத் தெரியாவிடில் கீழ்கண்டவாறு செய்யவும்.

முதலில் C:\WINDOWS\SYSTEMக்கு சென்று அங்கிருக்கும் USP10.DLL என்ற கோப்பை வேறு பெயரிட்டு பாதுகாக்கவும்.

பின் USP10.DLL Updated Version ஐ இந்த லிங்கில் இருந்து பெற்று அதே இடத்தில் இடுவதன் மூலம் தமிழ் எழுத்துக்களை சீரான முறையில் காண இயலும்.

நன்றி - http://www.jaffnalibrary.com/tools/tools.htm

Go to C:\WINDOWS\SYSTEM
Rename the USP10.dll
Now go to and get the USP10.dll file and put it in C:\WINDOWS\SYSTEM.

When you find any website or web mail in Unicode, simply change encoding by selecting

View >> Encoding >> Unicode (UTF- or right click and select Encoding >>Unicode (UTF-.

வேறு ஏதேனும் உதவிகள் தேவை எனில் தெரிவிக்கவும். நன்றி
__________________

நன்றி.
நீர்ப்பரப்பில் காற்று வரைந்த ஓவியத்தை வானில் பறந்தபடி தேடிக் கொண்டிருக்கும் நீச்சல் தெரியாக் குருவியாய்
காமக்கடலில் காஞ்சனையிடம் எப்போதோ நான் தொலைத்த மனதை இன்னும் தேடி கொண்டிருக்கும்...

காஞ்சனாதாசன்.

Last edited by ஆதி; 02-04-08 at 09:16 PM. Reason: ஈகலப்பை சுட்டி கொடுக்க
  #3  
Old 02-05-05, 06:42 PM
Kanchanadasan's Avatar
Kanchanadasan Kanchanadasan is offline
நிர்வாக ஆலோசகர்

Awards Showcase

 
யுனிகோடில் ஏன் எழுத வேண்டும் - உமர்

யுனிகோடைப் பற்றி "வேண்டும்" - "வேண்டாம்" என்று சிலர் பேசிக் கொள்ளும் போது சாமானிய பயனர் 'தலைக்கு மேலே ஏதோ பறப்பதைப் போல்' குழம்பி நிற்பதை காண முடிவதுடன் இது என்ன புது வம்பு என்று ஒதுங்கி நிற்பதையும் பார்க்க இயலுகிறது. இந்த கட்டுரையின் நோக்கம். யுனிகோடைப் பற்றி முடிந்த வரை எல்லாவற்றையும் எளிய முறையில் அறியத் தருகிறது.

ஒராண்டிற்கும் மேலாக யுனிகோடில் எழுதவேண்டும் என்ற குரல் எழுந்தாலும் உனடியாக அது செயல்பாட்டிற்கு வர இயலவில்லை. என்றாலும் தொடர்ந்து வலைப்பக்கங்கள் யுனிகோடில் வரத்துவங்கின. குறிப்பாக, வலைப் பதிவுகள் யுனிகோடில் அதிகம் வரவே செய்தன. சிலர் யுனிகோடில் எழுதவேண்டும் என்று எண்ணாவிட்டாலும் கூட, வலைப்பதிவுகளை துவங்கும்போது அவை யுனிகோடிலேயே அமைந்தன. பலர் யுனிகோடை விட்டு ஒதுங்கி இருந்தற்கு பல்வேறு காரணங்களை காண முடிகிறது. தமிழில் எழுதுபவர்கள் பெரும்பலும் தமிழ் குழுக்களுக்கு மின்னஞ்சல் எழுதுபவர்களாக இருப்பதால் நடைமுறையில் இருக்கும் திஸ்கி முறையிலிருந்து யுனிகோடிற்கு மாறும்போது சந்திக்கும் சில சிக்கல்கள் பல்வேறு எண்ணங்களை அவர்களிடையே தூண்டிவிடுகிறது.

1. இது ஏதோ புதிதாக இருக்கிறதே, நாம் "கற்றுக் கொள்ள" கடினமாக இருக்குமோ?

2. இதுவரை தற்போதுள்ள குறியீடுகளில் அஞ்சல்களை வலைப்பக்கங்களை பரிமாறிக் கொண்டிருந்தோமே என்ன குறைந்துவிட்டது?

3. யுனிகோடைப் பற்றி அடிதடி நடந்து கொண்டிருக்கிறதே இதில் ஏன் மாட்டிக்கொள்ள வேண்டும்?

4. யுனிகோடு இடத்தை அடைக்குமாமே - என் "பட்ஜட்டுக்கு" இது ஒத்துவராது.

5. தரவு தளங்களில் சொற்களை வரிசைப் படுத்துவது போன்றவை சிக்கலாமே? சிக்கலில் ஏன் நாம் மாட்டிக்கொள்ள வேண்டும்?

6. எல்லாம் முடிந்து ஒரு வழிக்கு வரட்டும். நாம் மெல்ல அந்த நீரோட்டத்தில் கலந்து கொள்ளுவோம்.

இவையன்றி windows 98 வைத்திருக்கும் பலர் ஏதாவது யுனிகோடு எழுத்துக்களை எழுதிப் பார்த்தாலோ அவை கொக்கிகளாக வந்து பயமுறுத்துவதும் ஒரு காரணம்.

இங்கு யுனிகோடைப் பற்றி எழுதும்போது தோன்றும் சிக்கல்கள் உட்பட எல்லாவற்றையும் பற்றிப் பேசப்போகிறோம். குறிப்பாக மின்னஞ்சல் எழுதுவது பற்றியும் பேசப்போகிறோம்.

"யுனிகோடில் எழுத வேண்டும்" என்று ஓயாது சிலரால் கூறப்படுவததை சற்று ஏலனத்தோடும் எரிச்சலோடும் பார்க்கும் சிலரிடம் நான் கேட்கும் ஒரே கேள்வி இதுதான்: நீங்கள் பிரயத்தனப் பட்டு படைக்கும் ஆக்கங்கள் காற்றோடு கரைந்து போகட்டும் நன்று நினைப்பீர்களா அல்லது சில காலங்களுக்குப் பின்னரும் அவை பயன்பட வேண்டும் என்று நினைப்பீர்களா? நீங்கள் இரண்டாவது

பதிலைத்தான் தருவீர்கள் என்று நம்புகிறேன். அப்படியானால் நீங்கள் உங்களையும் அறியாமல் யுனிகோடிற்கு பச்சைக் கொடி காட்டுபவர் என்றுதான் பொருள்.

யுனிகோடு என்பது புதியதா? நமக்குப் புதியதாகத் தோன்றலாம். ஆனால் அதற்கு கிட்டத்தட்ட வயது 13 க்கும் மேல் ஆகிறது. 1991 ஆண்டுதான் அதன் துவக்கம். சரி, ஒரு இயல்பான ஐயம் நம்மிடையே தோன்றியிருக்க வேண்டுமே? தமிழில் எழுதும்போது மட்டும்தான் இந்த யுனிகோடு வந்து குறுக்கே நிற்கிறது. ஆங்கிலத்தில் எழுதும்போது ஒரு சத்ததையும் காணோமே? அப்படியானால் ஆங்கிலத்திற்கும் யுனிகோடிற்கும் தொடர்பில்லையா? நிச்சயம் உண்டு.

அப்படியானால் எழுதும்போது நாம் கவலைப் படுவதில்லையே? காரணம் இருக்கிறது. யுனிகோடில் ஆங்கில எழுத்துக்கள் முதல் 128 இடங்களுக்குள் அடங்கிவிடுகின்றன. ஆங்கில ASCII எழுத்துக்களின் அதே இடத்தை யுனிகோடிலும் பெற்றுக் கொண்டதால் பிரச்சினை எழுவதில்லை.

ஆனால் கதை அத்தோடு முடிந்துவிடவில்லை. புதிய அறிவியல் குறியீடுகள், கணிதக் குறியீடுகள் போன்றவற்றைக் குறிக்க புழக்கத்திலிருக்கும் எட்டு பிட் போதுமானதாக இல்லை. எனவே இம்மதிரியான குறியீடுகள் மற்றும் எழுத்துக்கள் அகிலத்திற்கு பொதுவானதாக, என்றும் எப்போதும் கையாளக் கூடியனவாக அமைய வேண்டியது தேவையாகி விட்டது. உலகில் பலவகையான கணினிகள், அவற்றில் பலவகையான குறியீடுகள் இருப்பதை நாம் அறிவோம். அவை குறுகிய வட்டத்திற்குள் கையாளப் படும்போது சிக்கல்கள் வருவதில்லை. ஆனால் உலகலாவிய தொடர்பு என்று வரும்போது பொதுவான ஒரு குறியீடு தேவையாகிறது. இப்போது நாம் கையாளும் திஸ்கி, டாம், டாப் போன்றவை எல்லாம் முன்பு குறிப்பிட்ட எட்டு பிட் வட்டத்திற்குள் சுழன்று வருபவைதான். இப்படி தங்கள் எண்ணத்தில் தோன்றிய படியெல்லாம் எழுத்துக்களை மாற்றி ஆளாளுக்கொரு குறியீட்டினை வைத்திருப்பதைக் காண்கிறோம். மளையாளத்தில்

ஒருவர் தன் மொழி எழுத்துக்களைக் கொண்டுவர எண்ணினால் நாம் தமிழில் என்ன வேலையைச் செய்தோமோ அவ்வாறே 256 கட்டங்களுக்குள் இருப்பவைகளைக் களைந்து விட்டு மலையாள எழுத்துக்களைப் புகுத்திக் கொள்வார். தமிழில் எழுத்தப்பட்ட ஆக்கமொன்றை மலையாள நண்பர் அவர் எழுத்துருவைக் கொண்டு பார்த்தால் மலையாளய எழுத்துக்களையே அதில் காண்பார். அவை சொற்றொடர்களாக இருக்காது என்பது வேறு விடயம். இப்படி நிகழ்வதற்குக் காரணம் எல்லோரும் அந்த எட்டு பிட் 256 பகுதிகள் வட்டத்திற்குள் சுழலுவதுதான்.

சரி, இப்படியெல்லாம் நிகழக்கூடாதென்றால் என்ன செய்ய வேண்டும்? ஒவ்வொரு மொழியிலும் உள்ள எழுத்துக்கள் தனித்தன்மை கொண்டதாக அமையவேண்டும். மொழி வாரியாக தனித்தன்மை கொண்டதாக இருந்தால் மட்டும் போதாது. ஒவ்வொரு எழுத்து வாரியாகவும் தனித்தன்மை கொண்டதாக இருக்கவேண்டும்.

அதாவது உலகிலுள்ள எழுதப்படும் ஒவ்வோர் எழுத்திற்கும் தனித்தனியான எண்கள் தரப்பட வேண்டும். உலகின் எந்த மூலையிலும் எந்தக் கணியிலும் அந்த எண் குறியீடு குறிக்கப்பட்டால் அந்த குறிப்பிட்ட எழுத்துத் தோன்ற வேண்டும் - அந்தக் கணினி எந்த மொழியில் பயன்படுத்தப் பட்டாலும் சரியே; எந்த இயக்கு தளத்தில் பயன்படுத்தப் பட்டாலும் சரியே; என்ன மென்பொருள் பயன்படுத்தினாலும் சரியே.

சரி, யுனிகோடு என்பது ஒவ்வொர் எழுத்திற்கும் அலாதியான எண்கள் கொடுக்கப்படும் ஒரு முறை என்று தெரிகிறது. வேறு என்ன சிக்கல்? ஒரு மொழி எழுத்துக்களை அடக்க 256 இடங்கள் சிறு இடம் போதுமானதாக இருந்தது. இப்போது உலகில் எழுதப்படும் எல்லா மொழிகளிலும் உள்ள எழுத்துக்களை ஒரே இடத்தின் கீழ் கொண்டு வருவதென்றால் ஒரு பெரிய இடம் தேவைப் படும் அல்லவா? இது ஒரு சிக்கல்தான். ஒரு சிறிய குடும்பத்திற்கு சிறிய வீடென்றால் அதன் பராமரிப்பு எளிதல்லவா? நிறையக் குடும்பங்கள்

ஒன்று சேர்ந்து ஒரு பெரிய மாளிகையை வாடகைக்குப் பிடித்துக் கொண்டது மாதிரியான ஒரு விடயம் இது. ஆக, எதோ ஒரு கூடுதலான ஒரு விலையைக் கொடுக்க வேண்டியிருக்கும்.

ஒவ்வொரு எழுத்தையும் 16 பிட் வடிவில் குறிக்கவேண்டியிருக்கும். விளைவு? அது அடைத்துக் கொள்ளும் இடம். அதாவது, இந்த யுனிகோடு குடையின் கீழ் வரும் ஒவ்வொரு எழுத்திற்கும் 16 பிட் ஒதுக்கியாகவேண்டும். இது கொள்ளளவைப் பற்றிக் கவலைப் படுவோரிடையே சிந்தனையை தூண்டுகிறது.

இணையப் பக்கங்களில் UTF8 என்ற ஒன்று அடிக்கடி பேசப் படுகிறதே, அது என்ன? அதுதான் இந்த யுனிகோடை இணையத்திற்கு ஏற்றதாக மாற்றித் தரும் ஒரு குறியீடு. Unicode Transformation Format எனப்படும் யுனிகோடு குறியீடுகளின் ஒரு வகைதான் இது. UTF32, UTF16, UTF8 என்ற வகைகள் இருந்தாலும் UTF8 வகைதான் இணையத்தில் பாவிக்கப்படுகிறது. இது யுனிகோடு எழுத்துக்களை எட்டு பிட்டு வரிசையாக உரு மாற்றுகிறது. எட்டு பிட் அதாவது ஒரு பைட் என்பது கணினிகளிடையே உரைவகைகளை பரிமாறிக்கொள்ளும் அமைப்பாக இருப்பதால் UTF8 முறை உகந்ததாக இருக்கிறது. எழுதின் அமைப்பிற்கொப்ப எட்டின் மடங்காக அதாவது 8 அல்லது 8+8 அல்லது 8+8+8 ஆக இணைய வழியில் பரிமாறிக் கொள்ள இது உதவுகிறது. ஆக, அடிப்படை யுனிகோடோடு ஒப்பிடும்போது இந்த முறை "சற்று" சிக்கனம்தான்.

இனி யுனிகோடில் தமிழின் நிலை பற்றி ஆதங்கப் படுவோரின் கருத்தைப் பற்றிப் பார்ப்போம். சிறு வயதில் கேள்வி ஒன்று கேட்பார்கள்: தமிழில் எத்தனை எழுத்து? 247 என்பதுதான் பலருக்கும் சொல்லிக்கொடுக்கப்பட்ட பதில். ஆனால் இல்லை; மெய்யெழுத்து 18, உயிரெழுத்து 12 ஆய்தம் 1 - ஆக 31 என்று சொல்வோரும் உண்டு. யுனிகோடில் "கிட்டத்தட்ட" இரண்டாவது வகைதான் கையாளப் பட்டிருக்கிறது. இதன் அமைப்பு அகர வரசையில் இல்லை என்பதுதான் பெருங்குறை. காரணம் ஒரு தரவை எளிதாக வரிசைப் படுத்த எழுத்துக்களின் அமைப்பு அடிப்படையிலேயே அவ்வாறு ஆங்கிலத்தில் A,B,C,D... என்றிருப்பதுபோல் இருந்தால் எளிதாக கணினி நோக்கில் சொல்லப்போனால் எடுத்துக் கொள்ளும் நேரம் குறைவாக இருக்கும் வரிசைப் படுத்த இயலும். மேலும் அத்துனை எழுத்துக்களுக்கும் இடம் ஒதுக்கப் பட்டிருந்தால் தரவு தளங்களில் கையாள்வதற்கும் தேடு பொறிகளில் தேடுவதற்கும் ஏதுவாக இருக்கும். இம்மாதிரியான சிக்கல்கள் சீன மற்றும் தெற்காசிய மொழிகளுக்கு வந்த போது அவர்கள் போராடிப் பெற்றார்கள். அந்த நிலையில் நாமும்

உறுதியாக இருக்க வேண்டும் என்பதுதான் ஆதங்கப் படும் இவர்களின் வாதம். இது விடயத்தில் தும்பை விட்டுவிட்டாதகவே தோன்றுகிறது. வாலைப் பிடிக்கவும் வெகுதூரம் ஓட வேண்டியிருக்கிறது.

இதற்காக யுனிகோடில் எழுதாமல் இருக்கலாமா? கூடாது என்பதுதான் என் கருத்து.

தற்போதைய யுனிகோடைப் பற்றி தருக்கிப்பவர்கள் யுனிகோடு எதிர்ப்பாளர்கள் என்று எண்ணுவதற்கில்லை. அதைச் செயல்படுத்திய விதத்தில்தான் முரண்படுகிறார்கள். ஆனால் பல பயனரிடையே யுனிகோடு என்பது வேண்டாத ஒன்று என்பது போலவும் சிக்கலைத் தோற்றுவிக்கும் ஒரு முறை என்பது போலவுமான எண்ணம் தோன்றியிருக்கிறது. காரணம் மற்ற குறியீடுகளைப் போலல்லாமல் உள்ளீடுகளை கையாள்வதில் நாமல்ல-கணினினி சற்று வேறுபடுவதுதான்.

1- மேற்கத்திய போர்வையில் இருக்கும் குறியீடுகளில் இப்போதிருக்கும் திஸ்கி, தாம், தாப் போன்றவை உள்ளீடு செய்வதில் சிரமம் இருப்பதில்லை. காரணம் எழுத்துக்களின் உருவத்தை மட்டும்தான் தமிழாக மாற்றுகிறோம் மற்றப்படி உள்ளிடு முறையில் மாற்றமில்லை. யுனிகோடில் புள்ளி உட்பட தனியாகச் சேமிக்கப்படுகிறது

2- உள்ளிடப்பட்டவைகளை வெளிக்கொணரும்போது நடக்கும் நிகழ்வு. சில நேரங்களில் இகர, உகர எழுத்துக்கள், புள்ளிகள் பிரிந்திருப்பது போலவும் கொ, கோ போன்றவை க, க என்பதாகவும் காண்கிறோம். இவை கணினி எழுத்துக்களை வெளிப்படுத்தும்போது நாம் வாசிக்கத் தோதாக மாற்றப் படாமல் அப்படியே வெளிவந்துவிடுவது.

3- யுனிகோடை கையாள இயலாத நிரல்களில் உள்ளிடப்படும்போது வெறும் கொக்கிகளாகத் தெரிவது.

இவை எல்லாம் "குறை" என்பவைபோல் சித்தரிக்கப் படுவதால் பயனரிடையே குழப்பதை உருவாக்குவது மட்டுமல்லாமல் நமக்குத் தேவையில்லை என்பதாகவும் எண்ண வைக்கிறது. இன்று பழைய இயக்கு தளங்களில் வெட்டி ஒட்டுதல் ஒரு கூடுதலான பணியாக இருக்கலாம். ஆனால் புதிய இயக்கு தளங்களில் சிக்கல் இல்லை.

நம்மில் பலர் கணினியில் தமிழ் எழுதிப் பார்ப்பது மின்னஞ்சல் எழுதும்போதுதான். இப்போதிருக்கும் இலவச மின்னஞ்சல் வசதிகளில் யுனிகோடை உள்ளிட வழி இருந்தாலும் அவைகளை அனுப்பிப் பெறும்போது கடைபிடிக்க வேண்டிய சில வழிகள் [encoding:UTF-8] எரிச்சல் ஊட்டுபவையாகத் தோன்றும். எழுத்துக்களைத் தட்டினோமா, அனுப்பினோமா என்றில்லாமல் கூடுதலாக சிலவற்றையும் செய்ய நேரிடுகிறது. இதுவும் சிலர் முகம் சுளிக்கக் காரணம். மேலும் யா? போன்ற மின் குழுமங்களுக்கு யுனிகோடு அஞ்சலை அனுப்பிப் பெறும்போது ஒரு வரி இரண்டு மூன்றாக உடைந்து காணப்படாலாம். இதற்குக் காரணம் யா? அல்ல. நாம் ஏற்கெனவே யுனிகோடு பற்றிச் சொன்னதை நினைவு கூர்ந்தால் இது புரியும். தற்போது புழக்கத்திலிருக்கும் திஸ்கி போன்ற குறியீடுகளைக் கொண்டு 'அன்புள்ள' என்று எழுதினால் ஐந்து எழுத்துகள்தான். ஆனால் யுனிகோடில் எழுதினால் அது எட்டு எழுத்துக்களாக வரும். எப்படி? "ன்" என்பது 'ன' வும் புள்ளியும்

சேர்ந்தது. அதே போல் 'பு' என்பது 'ப' வும் 'உ' வும் சேர்ந்தது கவனிக்க: 'ப்+உ" அல்ல . 'ள்' உம் அங்கனமே இரண்டு இடத்தைப் பிடிக்கும். பொதுவாக மின்னஞ்சல் போன்ற படிவங்களில் வரிக்கு இத்துனை எழுத்து என்று வரையறுத்திருப்பதால் ஒரு வரியில் இருக்கும் சொற்களின் மொத்த எழுத்துக்கள் இங்கனமாகக் கூடிப் போனால் மடக்கி பல வரிகளில் எழுதப்படும்.

இதற்காகவும் யுனிகோடில் எழுதாமல் இருக்கலாமா? கூடாது என்பதுதான் என் கருத்து.

"தமிழ்" என்பது ஓர் அலாதியான சொல் என்பது நாம் அறிந்ததே. Google தேடு தளத்தில் தமிழ் என்று திஸ்கியில் எழுதி தேடிப்பாருங்கள். கிட்டத்தட்ட 2 மில்லியன் வலைத்தளங்களைக் காட்டும். என்ன, திகைக்கிறீர்களா? அவ்வளவு இணையத் தளங்களில் நம் தமிழ் வலம் வருகிறதா என்று வியக்கிறீர்களா? வலைத்தள பட்டியலை பார்த்தால் "தமிழ்" என சிலவற்றைப் படிக்கக் காண்பீர்கள். மற்றவற்றிலெல்லாம் தமிழ் எழுத்துக்கள் அலங்கோலமாக அங்குமிங்கும் சிதறிக் கிடக்கும். சில சீன, கொரிய எழுத்துக்களையும்கூட காண்பீர்கள். காரணம் எல்லோரும் அந்த 256 8 பிட் பொந்துகளில் பல்லாங்குழி ஆடியவையின் வெளிப்பாடுகள்தாம். தமிழ் எழுத்துரு கொண்டு பார்ப்பதால் அங்கங்கு தமிழ் எழுத்துக்கள் தெரிவதைக் காண்பீர்கள். இதையே ஒரு சீனாக்காரர் எல்லாவற்றையும் சீன எழுத்து வடிவில் பார்ப்பார்.

இப்போதிருக்கும் இந்த குறியீடுகளில் திஸ்கி, தாப், தாம் நீங்கள் அல்லது வேறு யாரோ என்றோ எழுதிய நல்லதொரு கட்டுரையை தேடிப் பிடிக்க எண்ணினால் என்னவாகும் என்று எண்ணிப் பாருங்கள். சில மடல் குழுக்களில் முன்பு எழுதிய மடல்களைத் தேடிப்பிடிக்க எவ்வளவு அல்லல் கொள்கிறார்கள் என்பது

நாமெல்லாம் அறிந்த செய்தி. 'ஆங்கிலத்தில் தலைப்பை இடுங்கள்' என்று அடிக்கடி அலறுவதும் நாம் அறியாததல்ல. யுனிகோடில் அந்த கதி வராது என்று நான் சொல்லத் தேவையில்லை. இதுவரை சொல்லப் பட்டவைகளிலிருந்தே அறிந்து கொண்டிருப்பீர்கள்.

இப்போது தமிழில் எழுதுவோரின் எண்ணிக்கை வெகு வேகமாக கூடியிருக்கிறது. நாளுக்கொரு வலைத்தளம் வந்து கொண்டிருக்கிறது. கவிதை, கட்டுரை, ஆன்மீகம், ஆராய்ச்சி, மொழியியல், அறிவியல், கணிதம் என்று ஏகப்பட்ட செய்திகள் தமிழில் வலைத்தளங்களில் எழுதப் படுகின்றன. இவையன்றி நூற்றுக்கணக்கான மென்பொருட்களும் பல்வேறு துறைகளில் வந்து கொண்டிருகின்றன.

இவையெல்லாம் ஒரே தரத்தில் யுனிகோடு இல்லையென்றால் விழலுக்கு இறைத்த நீராகத்தான் போகும். சிலருக்கு இப்போதென்ன அவசரம் எல்லாம் சரியானபின் மெல்ல மாறிக் கொள்ளலாமே என்ற எண்ணமும் இருக்கலாம். இப்போதே ஏகப்படவை குவிந்து கிடக்கின்றன. இனி எல்லாம் எப்போது சரியாகி எல்லாவற்றையும் மாற்றுவது? அதுவரை எல்லாம் யாருக்கும் பயனற்றுக் கிடக்க வேண்டுமா?

சிலர் சில நிறுவனங்களின் வளாகத்திற்குள் தங்களுக்குத் தோதாக தமிழ் பயன்படுத்துபவர்களை மாற்ற இயலுமா என்ற ஐயத்தையும் எழுப்புகின்றனர். மாற்றத் தேவையில்லை என்பதுதான் என் கருத்து. எடுத்துக் காட்டாக தொலைக் காட்சியில் எழுத்தைக் காட்ட யுனிகோடில் இருக்க வேண்டுமா என்றால் அது பைத்தியக் காரத்தனம். அது ஒரு சித்திர வடிவம் அவ்வளவுதான். ஆனால் எவரேனும் உலகலாவிய தொடர்பு என்று வைத்துக்கொண்டால், பிறருடன் தங்கள் கருத்துக்களை கணினி வழியாகப் பரிமாறிக்கொள்ள வேண்டும் என்ற நிலை ஏற்பட்டால் அவர்கள் பொது குறியீட்டிற்கு மாறுவதைத் தவிர வேறு வழில்லை.

சரி. நாம் விரும்புவதைப் போல் சரியான மாற்றங்களைச் செய்து அதை யுனிகோடு கன்சார்ட்டியமும் ஏற்றுகொண்டுவிட்டால் இப்போது மாற்றியவைகளை குப்பையில் போட வேண்டுமா என்ற எண்ணம் வரலாம். முதலில் அவ்வளவு அதிரடியான மாறுதல் வருமா என்பது ஐயமாகவே இருக்கிறது. அப்படியே வந்துவிட்டாலும் "நேற்றுவரை இருந்த யுனிகோடு அப்படி; இன்றிலிருந்து இப்படி" என்று கன்சார்ட்டியம் சொல்ல இயலாது. தற்போது புழக்கத்தில் இருக்கும் முறையையும் உள்ளடக்கி ஒத்துப்போகும் [compatibility] முறையாகத்தான் அது அமையும்.

புதிய முறை எப்போது வரும்? யாருக்கும் தெரியாது. ஆக, இன்று விட்டுவிட்டால் நாளை அது சுமைதான். தமிழ் யுனிகோடை செம்மைப் படுத்த இராம.கி. ஐயா அவர்கள் எழுதும் தொடர் படிக்க வேண்டியவை. அதற்கும் மேலாக அவர் நமக்கு அளிக்கும் தமிழ்ச் சொற்கள் பெரும் புதையல். அவை வீணே இந்த 8 பிட்டு பல்லாங்குழியில் அடங்கி கரைந்து போக விடலாமா?

அவர் தரும் எல்லாவற்றையும் யுனிகோடில் சேமித்து வைக்கின்றேன்.

நன்றி:

உமர், இ-சங்கமம்
__________________

நன்றி.
நீர்ப்பரப்பில் காற்று வரைந்த ஓவியத்தை வானில் பறந்தபடி தேடிக் கொண்டிருக்கும் நீச்சல் தெரியாக் குருவியாய்
காமக்கடலில் காஞ்சனையிடம் எப்போதோ நான் தொலைத்த மனதை இன்னும் தேடி கொண்டிருக்கும்...

காஞ்சனாதாசன்.

Last edited by Kanchanadasan; 07-02-06 at 02:12 AM.
Closed Thread

Tags
ஒரு , சிறு , unicode

Thread Tools

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off

Forum Jump


கூகுல் தமிழ் தட்டச்சு - Google Tamil Transliteration
* Type a word in Tanglish and hit space to get it in Tamil
* Then copy and paste them whereever you want.
* Press Ctrl+g to toggle between Tamil and English.

    Unicode Converter    
Romanised
Anjal
Mylai
Bamini
TAB
TAM



All times are GMT +5.5. The time now is 09:03 PM.


Powered by Kamalogam members
vBCredits v1.4 Copyright ©2007 - 2008, PixelFX Studios
இதற்கு கிழே உள்ளவை தேடுபொறிக்காக சேர்க்கப் பட்டவை. Tamil, Tamizh, Tamil Nadu, tamilkamakathaigal, kama kathaigal, tamil kama kathai, tamil kama kathaigal, tamil kaama kathaigal, tamil story, thamizh story, Tamil dirty story, Tamil dirty stories, தமிழ் கதை, தமிழ் காமக் கதை, தமிழ்நாடு, tamil kamam, tamil kaamam, தமிழ் காமம், kaamalogam, kamalogam, kaamaulagam, kamaulagam, காமலோகம், காம உலகம், காம தேசம், காம நாடு, kaama desam, kaama naadu, kama kathai, kaama kathai, காமக் கதை, kaama kathaigal, kama kathaigal, காமக் கதைகள், kathaigal, kama_kathaigal, kaama_kathaigal, tamil kathai, tamil palaana kathai, tamil anubhavam, tamil sirippu, virundhu, maaya, indhunesan, kaama_kathaigal, kaama_kathai, tamil kamam, tamil kaamam, தமிழ் காமம், kadhal, kaadhal, kaathal, காதல், காதல் கதை, tamil kadhal, காமக் கவிதைகள், உல்டா பாடல்கள், காமச் சிரிப்புகள், தகாத உறவுக் கதைகள், இன்செஸ்ட், இன்செஸ்ட் கதை, தமிழ் காமக் கதைகள், dirtystory, lovestory, tamil love, tamil kathai, tamil kaadhal, tamil kaamam, பலான கதைகள், Palaana Kathaigal, கலவி, Kalavi, கலவிக் கதைகள், Kalavi Kathai, தேசி, Desi, Desi story, Desi Stories, Birth Control, Health Advise, Contraceptives, Mens Health, Natural ways, Enlargement, India, Desi, Paki, Srilanka, Sri Lanka, shipping, real estate, property, air lines, tickets, insurance, Gold, Money, Share market, Sensex,