“Unicode Transformation Format” के लिए जाना जाता है। UTF UTF-7, UTF-8, UTF-16, and UTF-32 सहित कई प्रकार के यूनिकोड वर्ण including को संदर्भित करता है।
UTF-7 – प्रत्येक वर्ण के लिए 7 बिट का उपयोग करता है। इसे email messages में ASCII वर्णों का प्रतिनिधित्व करने के लिए डिज़ाइन किया गया था जिन्हें Unicode encoding की आवश्यकता थी।
UTF-8 – Unicode encoding का सबसे लोकप्रिय प्रकार। यह मानक अंग्रेजी अक्षरों और प्रतीकों के लिए एक bytes , अतिरिक्त लैटिन और मध्य पूर्वी वर्णों के लिए two bytes और Asian characters के लिए तीन बाइट्स का उपयोग करता है। चार bytes का उपयोग करके अतिरिक्त वर्णों का प्रतिनिधित्व किया जा सकता है। UTF-8 ASCII के साथ पीछे की ओर संगत है, क्योंकि पहले 128 वर्णों को समान मानों पर मैप किया जाता है।
UTF-16 – “UCS-2” Unicode encoding का एक विस्तार, जो 65,536 वर्णों का प्रतिनिधित्व करने के लिए two bytes का उपयोग करता है। हालाँकि, UTF-16 one million तक के अतिरिक्त वर्णों के लिए four bytes का भी समर्थन करता है।
UTF-32 – a multibyte encoding जो प्रत्येक वर्ण को 4 बाइट्स के साथ दर्शाती है।
documents और webpages में अधिकांश टेक्स्ट उपरोक्त UTF एन्कोडिंग में से किसी एक का उपयोग करके encodings किया गया है। कई वर्ड प्रोसेसिंग प्रोग्राम आपको खुले दस्तावेज़ों के character encoding को देखने की अनुमति नहीं देते हैं, हालांकि कुछ document window के नीचे या फ़ाइल गुणों के भीतर encoding प्रदर्शित करते हैं। यदि आप किसी webpage द्वारा प्रयुक्त वर्ण encoding का प्रकार देखना चाहते हैं,
तो आप पृष्ठ का HTML देखने के लिए चयन कर सकते हैं। वर्ण encoding, यदि परिभाषित किया गया है, तो HTML के शीर्ष के पास, शीर्षलेख अनुभाग में होगा। UTF-8 encoding का उपयोग करने वाले पृष्ठ में HTML के संस्करण के आधार पर नीचे दिए गए text snippets में से एक शामिल हो सकता है।
XHTML: <meta http-equiv=”Content-Type” content=”text/html; charset=utf-8″ />
HTML 5: <meta charset=”UTF-8″>