أسعار العملات

دولار / شيكل 3.29
دينار / شيكل 4.64
جنيه مصري / شيكل 0.21
ريال سعودي / شيكل 0.88
يورو / شيكل 3.92
حالة الطقس

القدس / فلسطين

الأربعاء 20.24 C

اكواد الحروف العربية

اكواد الحروف العربية

اكواد الحروف العربية

طباعة تكبير الخط تصغير الخط

اكواد الحروف العربية ترميز الأحرف هو حجر الزاوية في تكنولوجيا الكمبيوتر. إذا كنت تريد استخدام أجهزة الكمبيوتر بكفاءة ، فيجب أن تفهم معرفة ترميز الأحرف.

قد لا يهتم الأشخاص الذين لا ينتبهون لهذا الأمر ، ولكن هذه المصطلحات تكون مربكة في بعض الأحيان. كما أنه من المهم جدًا للأشخاص الذين يرغبون في تعلم معرفة الكمبيوتر لفهمها ، كما تعلمت بعضًا من هذا الجانب تدريجيًا في الدراسة.

1. كود ASCII

داخل الكمبيوتر ، يتم التعبير عن جميع المعلومات في النهاية كسلسلة ثنائية. يحتوي كل بت ثنائي (بت) على حالتين ، 0 و 1 ، لذلك يمكن دمج ثماني بتات ثنائية في 256 حالة ، وهو ما يسمى بايت. بمعنى آخر ، يمكن استخدام البايت لتمثيل 256 حالة مختلفة في المجموع ، وكل حالة تتوافق مع رمز ، وهو 256 رمزًا ، تتراوح من 0000000 إلى 11111111.

في الستينيات ، صاغت الولايات المتحدة مجموعة من رموز الأحرف لتنظيم العلاقة بين الأحرف الإنجليزية والأرقام الثنائية بشكل موحد. هذا يسمى رمز ASCII ولا يزال قيد الاستخدام حتى اليوم.

يحدد كود ASCII ترميز إجمالي 128 حرفًا ، على سبيل المثال ، المسافة "SPACE" هي32(32 في النظام العشري ، 00100000 في النظام الثنائي) ، الحرف الكبير A هو 65 (ثنائي 01000001). هذه الرموز الـ 128 (بما في ذلك 32 رمز تحكم لا يمكن طباعتها) تشغل فقط آخر 7 بتات من البايت ، ويتم تعريف البتة الأولى بشكل موحد على أنها 0. فيما يلي لقطة شاشة: يمكنك التحقق منها على صفحة الويب هذه للحصول على التفاصيل:http://www.nengcha.com/code/ascii/all/

ولمزيد من المعلومات اضغط على هذا التقرير 

 

2. غير ترميز ASCII

يكفي ترميز اللغة الإنجليزية مع 128 رمزًا ، لكن بالنسبة للغات الأخرى ، لا يكفي 128 رمزًا. على سبيل المثال ، في الفرنسية ، توجد رموز صوتية فوق الحروف ، والتي لا يمكن تمثيلها برموز ASCII. نتيجة لذلك ، قررت بعض الدول الأوروبية استخدام الجزء الأكبر من البايت غير المستخدم لبرمجة رمز جديد. على سبيل المثال ، رمز é باللغة الفرنسية هو 130 (ثنائي 10000010). بهذه الطريقة ، يمكن أن يمثل نظام الترميز المستخدم في هذه البلدان الأوروبية ما يصل إلى 256 رمزًا.

ومع ذلك ، ظهرت مشاكل جديدة هنا. البلدان المختلفة لها أحرف مختلفة ، لذلك حتى لو كانت جميعها تستخدم طرق تشفير 256 رمزًا ، فإنها تمثل أحرفًا مختلفة. على سبيل المثال، 130 يمثل é في ترميز الفرنسي، ولكن جيميل (ג) في ترميز العبرية، ورمز آخر في ترميز الروسي. ولكن على أي حال ، في كل طرق التشفير هذه ،0-127 تعني نفس الرموز، والفرق الوحيد هو هذه الفقرة 128-255.

أما بالنسبة لنصوص الدول الآسيوية ، فهناك المزيد من الرموز المستخدمة ، ما يصل إلى 100000 حرف صيني. يمكن أن يمثل البايت الواحد 256 نوعًا فقط من الرموز ، وهذا بالتأكيد غير كافٍ ، ويجب استخدام وحدات البايت المتعددة لتمثيل رمز واحد. مثل،طريقة الترميز الشائعة للصينية المبسطة هي GB2312 ، والتي تستخدم وحدتي بايت لتمثيل حرف صيني ، لذلك من الناحية النظرية ، يمكن أن تمثل ما يصل إلى 256 × 256 = 65536 رمزًا.

3.Unicode

كما ذكرنا في القسم السابق ، هناك العديد من طرق التشفير في العالم ، ويمكن تفسير نفس الرقم الثنائي كرموز مختلفة. لذلك ، إذا كنت تريد فتح ملف نصي ، فيجب أن تعرف طريقة التشفير الخاصة به ، وإلا ستظهر الأحرف المشوشة إذا قمت بفك تشفيره باستخدام طريقة تشفير خاطئة. لماذا تظهر رسائل البريد الإلكتروني غالبًا مشوهة؟ ذلك لأن طريقة الترميز المستخدمة من قبل المرسل والمستقبل مختلفة.شرح: نفس الملف النصي ، بافتراض أن المحتوى مكتوب باللغة الإنجليزية ، في حالة الترميز باللغة الإنجليزية ، فإن كل حرف سيكون مطابقًا لرقم ثنائي (مثل 00101000) ، ثم حفظه على الكمبيوتر ، ثم إرسال الملف باللغة الإنجليزية إلى مستخدم في بلد روسي ، يرسل الكمبيوتر دفقًا ثنائيًا ، أي بيانات مثل 0101. للمستخدم الروسي ، يحتاج إلى طريقة التشفير الروسية الخاصة به لفك التشفير ، وتحويل كل دفق ثنائي إلى أحرف للعرض. بسبب جدول التشفير الروسي يختلف تفسير كل سلسلة من بيانات الدفق الثنائي ، نفس البيانات مثل 00101000 قد تمثل A باللغة الإنجليزية و B باللغة الروسية ، وهذا سينتج أحرف مشوشة ، وهذا ما أفهمه شخصيًا.

ترميز GB2312 ، الترميز الياباني ، وما إلى ذلك ، هي أيضًا ترميزات غير يونيكود ، والتي تحتاج إلى تحويلها إلى ترميز يونيكود من خلال جدول التحويل (صفحة الترميز) ، أو كيفية عرضها؟

من المتصور أنه إذا كان هناك نوع من التعليمات البرمجية ، فسيتم تضمين جميع الرموز الموجودة في العالم. يتم إعطاء كل رمز رمز فريد ، ثم تختفي المشكلة المشوشة. هذا هو Unicode ، كما يوحي اسمه ، هذا ترميز لجميع الرموز.

Unicode هو بالطبع مجموعة كبيرة ، ويمكن أن يحتوي المقياس الحالي على أكثر من مليون رمز. يختلف ترميز كل رمز ، فمثلاً U + 0639 يمثل الحرف العربي Ain ، ويمثل U + 0041 الحرف الكبير باللغة الإنجليزية A ، ويمثل U + 4E25 الحرف الصيني "صارم". يمكن الاستعلام عن جدول مراسلات الرموز المحددةunicode.org,أو متخصص جدول مراسلات الأحرف الصينية。

4. مشكلة Unicode

يجب أن تكون على علم ،Unicode هو مجرد مجموعة من الرموز ، مجرد مواصفة ومعيار. إنه يحدد فقط الرمز الثنائي للرمز ، ولكنه لا يحدد كيفية تخزين الشفرة الثنائية على الكمبيوتر.

على سبيل المثال ، الرمز الموحد للحرف الصيني "صارم" هو الرقم السداسي العشري 4E25 ، وهو 15 رقمًا (100111000100101) ، مما يعني أن تمثيل هذا الرمز يتطلب 2 بايت على الأقل. يمثل رموزًا أكبر أخرى قد تتطلب 3 بايت أو 4 بايت أو حتى أكثر.

هناك مشكلتان جسيمتان هنا: الأولى هي كيفية التمييز بين Unicode و ascii؟ كيف يعرف الكمبيوتر أن ثلاثة بايت تمثل رمزًا بدلاً من ثلاثة رموز بشكل منفصل؟ المشكلة الثانية هي أننا نعلم بالفعل أن الأحرف الإنجليزية يتم تمثيلها ببايت واحد فقط ، وإذا نصت يونيكود على أن كل رمز يتم تمثيله بثلاثة أو أربعة بايت ، فيجب أن يكون هناك اثنان قبل كل حرف إنجليزي. ما يصل إلى ثلاثة بايت يساوي 0 ، وهو إهدار كبير للتخزين ، وبالتالي فإن حجم الملف النصي سيكون أكبر بمرتين أو ثلاث مرات ، وهو أمر غير مقبول.

والنتيجة هي: 1) هناك طرق تخزين متعددة لـ unicode ، مما يعني أن هناك العديد من التنسيقات الثنائية المختلفة التي يمكن استخدامها لتمثيل unicode. 2) لا يمكن الترويج لـ Unicode لفترة طويلة ، حتى ظهور الإنترنت.

5.UTF-8

تتطلب شعبية الإنترنت بشدة طريقة ترميز موحدة. UTF-8 هو تطبيق يونيكود الأكثر استخدامًا على الإنترنت. تتضمن طرق التنفيذ الأخرى UTF-16 و UTF-32 ، لكنها في الأساس غير مستخدمة على الإنترنت.للتكرار ، العلاقة هنا هي أن UTF-8 هو أحد تطبيقات Unicode ، والذي يحدد كيفية تخزين الأحرف ونقلها في الكمبيوتر.

واحدة من أكبر خصائص UTF-8 هي أنه ملفمتغير الطول ترميز. يمكن أن تستخدم 1 إلى 4 بايت لتمثيل رمز ، ويختلف طول البايت وفقًا للرموز المختلفة.

قواعد ترميز UTF-8 بسيطة للغاية ، هناك نوعان فقط:

1) بالنسبة للرمز أحادي البايت ، يتم تعيين البتة الأولى من البايت على 0 ، والبتات السبعة التالية هي رمز unicode لهذا الرمز. لذلك ، بالنسبة للأحرف الإنجليزية ، يكون ترميز UTF-8 ورمز ASCII متماثلين.

2) بالنسبة لرموز n-byte (n> 1) ، يتم تعيين أول n بت من البايت الأول على 1 ، ويتم ضبط البتة n + 1 على 0 ، ويتم تعيين أول بتتين من البايتات التالية على 10. البتات الثنائية المتبقية غير المذكورة كلها رموز يونيكود لهذا الرمز.

يلخص الجدول التالي قواعد التشفير ، ويمثل الحرف x بتات التشفير المتاحة.

نطاق رمز Unicode | طريقة ترميز UTF-8
(سداسي عشري) | (ثنائي)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

بعد ذلك ، خذ الحرف الصيني "صارم" كمثال لتوضيح كيفية تنفيذ ترميز UTF-8.

من المعروف أن Unicode "الصارم" هو 4E25 (100111000100101). وفقًا للجدول أعلاه ، يمكن العثور على أن 4E25 يقع في نطاق السطر الثالث (0000 0800-0000 FFFF) ، لذا يتطلب ترميز UTF-8 "الصارم" ثلاثة بايت ، أي أن التنسيق هو "1110xxxx 10xxxxxx 10xxxxxx". بعد ذلك ، بدءًا من آخر بت ثنائي من "صارم" ، املأ x بالتنسيق من الخلف إلى الأمام ، وأضف 0 إلى البتات الإضافية. بهذه الطريقة ، يكون ترميز UTF-8 "الصارم" هو11100100 10111000 10100101 "، هذه هي البيانات الفعلية المحفوظة في الكمبيوتر، التحويل إلى النظام الست عشري هو E4B8A5 ، والغرض من التحويل إلى النظام الست عشري هو تسهيل القراءة.

6. التحويل بين Unicode و UTF-8

من خلال المثال في القسم السابق ، يمكنك أن ترى أن كود Unicode "الصارم" هو 4E25 ، ورمز UTF-8 هو E4B8A5 ، وهما مختلفان. يمكن تحقيق التحويل بينهما من خلال البرامج.

على نظام Windows الأساسي ، تتمثل إحدى أبسط طرق التحويل في استخدام برنامج Notepad المدمج Notepad.exe. بعد فتح الملف ، انقر فوق الأمر "حفظ باسم" في قائمة "ملف" ، وسيظهر مربع حوار ، مع شريط منسدل "ترميز" في الأسفل.

bg2007102801.jpg

هناك أربعة خيارات: ANSI و Unicode و Unicode big endian و UTF-8.

1)ANSI هي طريقة الترميز الافتراضية. بالنسبة للملفات الإنجليزية ، فهو ترميز ASCII ، وبالنسبة للملفات الصينية المبسطة ، فهو ترميز GB2312 (فقط للإصدار الصيني المبسط من Windows ، إذا كان الإصدار الصيني التقليدي ، فسيتم استخدام رمز Big5).

2) يشير ترميز Unicode إلى طريقة ترميز UCS-2 ، أي رمز Unicode الذي يستخدم مباشرة وحدتي بايت لتخزين الأحرف. الشكل الداخلي الصغير المستخدم لهذا الخيار.

3) يتوافق ترميز Unicode الكبير مع الخيار السابق. سأشرح معنى endian الصغير و endian الكبير في القسم التالي.

4) ترميز UTF-8 ، وهو طريقة التشفير التي تمت مناقشتها في القسم السابق.

بعد تحديد "طريقة الترميز" ، انقر فوق الزر "حفظ" ، وسيتم تحويل طريقة ترميز الملف على الفور.

7. إنديان صغير وكبير إنديان

كما ذكرنا في القسم السابق ، يمكن تخزين أكواد Unicode مباشرة بتنسيق UCS-2. خذ الحرف الصيني "Yan" كمثال. كود Unicode هو 4E25 ، والذي يتطلب وحدتي بايت للتخزين ، البايت الواحد هو 4E والبايت الآخر 25. عند التخزين ، يكون 4E في المقدمة و 25 في الخلف ، وهو وضع Endian الكبير ؛ 25 في المقدمة و 4E في الخلف ، وهو وضع Little endian.

لذلك بطبيعة الحال ، سيكون هناك سؤال: كيف يعرف الكمبيوتر أنه يتم استخدام ملف معينأي طريقة لتشفير?

تم تعريفه في مواصفات Unicode أنه يتم إضافة حرف يمثل ترتيب الترميز إلى مقدمة كل ملف. يسمى اسم هذا الحرف "ZERO WIDTH NO-BREAK SPACE" ، والذي يمثله FEFF. هذا بالضبط اثنين بايت ، و FF أكبر من FE بمقدار 1.

إذا كان أول وحدتي بايت من ملف نصي هما FE FF ، فهذا يعني أن الملف يعتمد وضع النهاية الكبيرة ؛ إذا كان أول وحدتي بايت هما FF FE ، فهذا يعني أن الملف يعتمد وضع النهاية الصغيرة.

8. أمثلة

هنا مثال.

افتح برنامج "المفكرة" Notepad.exe ، وأنشئ ملفًا نصيًا جديدًا ، فالمحتوى عبارة عن كلمة "صارمة" ، واحفظها في ترميز ANSI و Unicode و Unicode الكبير و UTF-8.

ثم استخدم برنامج تحرير النص أولتراديت"دالة سداسية عشرية" ، لاحظ الترميز الداخلي للملف.

1) ANSI: ترميز الملف هو 2 بايت "D1 CF" ، وهو ترميز GB2312 "الصارم" ، مما يعني أيضًا أن GB2312 يتم تخزينه بكميات كبيرة.

2) Unicode: الترميز هو أربعة بايت "FF FE 25 4E" ، حيث يشير "FF FE" إلى أنه مخزن في رؤوس صغيرة ، وأن الترميز الحقيقي هو 4E25.

3) Unicode big endian: الترميز هو أربعة بايت "FE FF 4E 25" ، حيث يشير "FE FF" إلى أنه مخزن في تنسيق endian كبير.

4) UTF-8: الترميز ستة بايت "EF BB BF E4 B8 A5" ، أول ثلاثة بايت "EF BB BF" تشير إلى أن هذا هو ترميز UTF-8 ، وآخر ثلاثة "E4B8A5" "صارمة" ترميز محدد ، يتوافق ترتيب التخزين الخاص به مع ترتيب الترميز.

اقرأ أيضا