ផ្ទះ ផ្កាដែលមានអាយុច្រើនឆ្នាំ ការឌិកូដតួអក្សរទៅជាភាសារុស្សី។ តើអ្វីទៅជាការអ៊ិនកូដ ANSI ហើយវាត្រូវបានគេបរិភោគជាមួយអ្វី? ការបង្ហាញនិមិត្តសញ្ញាមិនត្រឹមត្រូវ

ផ្កាដែលមានអាយុច្រើនឆ្នាំ

ការឌិកូដតួអក្សរទៅជាភាសារុស្សី។ តើអ្វីទៅជាការអ៊ិនកូដ ANSI ហើយវាត្រូវបានគេបរិភោគជាមួយអ្វី? ការបង្ហាញនិមិត្តសញ្ញាមិនត្រឹមត្រូវ

ការអ៊ិនកូដគេហទំព័រ (ការអ៊ិនកូដ) គឺជាការឆ្លើយឆ្លងនៃស៊េរីលេខទៅជាតួអក្សរ (លេខ អក្សរ សញ្ញា និងតួអក្សរពិសេសផ្សេងទៀត)។ ការអ៊ិនកូដទូទៅបំផុតគឺ ASCII រួមជាមួយយូនីកូដ UTF-8 និង Windows-1251 ។ នៅក្នុងខ្លឹមសារ ស្លាកមេតាពិសេសគឺទទួលខុសត្រូវចំពោះការអ៊ិនកូដ៖ ដែលកំណត់ប្រភេទជាក់លាក់នៃកូដសម្រាប់ទំព័រ។ ក្នុងករណីនេះវាគឺជា UTF-8 យូនីកូដ។

នៅក្នុងពាក្យសាមញ្ញ ទាំងនេះគឺជាតួអក្សរស្តង់ដារ និងលេខដែលត្រូវគ្នាទៅនឹងប្រភេទជាក់លាក់នៃសំណុំអក្សរ លេខ សញ្ញា និងធាតុផ្សេងទៀត។ ភាគច្រើនជាញឹកញាប់ ការអ៊ិនកូដប្រភេទមួយត្រូវបានប្រើនៅលើគេហទំព័រ ប៉ុន្តែមានករណីលើកលែងនៅពេលដែលការអ៊ិនកូដជាច្រើនអាចត្រូវបានកំណត់ក្នុងពេលតែមួយ។ ទោះយ៉ាងណាក៏ដោយ នេះអាចនាំទៅដល់ការបង្ហាញមិនត្រឹមត្រូវនៃធនធានគេហទំព័រទាំងមូល។ គេហទំព័រជាច្រើនប្រើស្តង់ដារអ៊ិនកូដ UTF-8 ចាប់តាំងពីប្រភេទនៃកូដនេះត្រូវបានគាំទ្រដោយកម្មវិធីរុករកល្បីៗ ម៉ាស៊ីនស្វែងរក ម៉ាស៊ីនមេ និងវេទិកាផ្សេងទៀត។ ជាញឹកញាប់មានស្ថានភាពនៅពេលដែលការអ៊ិនកូដដែលបានបញ្ជាក់នៅលើគេហទំព័រមិនត្រូវគ្នានឹងការកំណត់នៅលើម៉ាស៊ីនមេ។ ហេតុផលចម្បងសម្រាប់បាតុភូតនេះគឺថាអ្នកផ្តល់សេវាមិនគាំទ្រប្រភេទនៃការអ៊ិនកូដដែលបានផ្តល់នោះទេ ជាលទ្ធផលដែលវាផ្ញើ "របស់ខ្លួន" ដែលពិតជានាំឱ្យមានការបង្ហាញព័ត៌មានមិនត្រឹមត្រូវ។ ការអ៊ិនកូដគឺជាតារាងដែលពិពណ៌នាអំពីការឆ្លើយឆ្លងណាមួយរវាងតួអក្សរជាក់លាក់មួយ និងលេខមួយ។ និមិត្តសញ្ញានីមួយៗដែលអាចមើលឃើញនៅលើគេហទំព័រតំណាងឱ្យតែសំណុំប៊ីតសម្រាប់កុំព្យូទ័រ (សំណុំជាក់លាក់នៃលេខសូន្យ និងសញ្ញាផ្សេងទៀត)។

ប្រភេទនៃការអ៊ិនកូដគេហទំព័រ

សរុបមក មានប្រភេទអ៊ិនកូដជាច្រើននៅក្នុងពិភពអ៊ីនធឺណិត៖

ASCII គឺជាការអ៊ិនកូដដំបូងបំផុតដែលត្រូវបានអនុម័តដោយវិទ្យាស្ថានស្តង់ដារពិភពលោកជាតិអាមេរិក។ មានតែ 7 ប៊ីតប៉ុណ្ណោះដែលត្រូវបានប្រើសម្រាប់ការអ៊ិនកូដ ដែលជាលើកដំបូងតម្លៃ 128 ត្រូវបានដាក់ជាអក្ខរក្រមអង់គ្លេស ក៏ដូចជាលេខ សញ្ញា និងនិមិត្តសញ្ញាទាំងអស់។ ការអ៊ិនកូដនេះមិនមានលក្ខណៈជាសកលទេ ហើយត្រូវបានគេប្រើញឹកញាប់បំផុតនៅលើគេហទំព័រជាភាសាអង់គ្លេស។
Cyrillic គឺជាកំណែក្នុងស្រុកពិតប្រាកដ។ ការបំប្លែងកូដបានប្រើផ្នែកទីពីរនៃតារាងកូដចម្បង ឬជាតួអក្សរពី 129 ដល់ 256។ ប្រើនៅលើគេហទំព័រ និងប្លក់ជាភាសារុស្ស៊ី។
ការអ៊ិនកូដ 1250-1258 (ប្រព័ន្ធ MS Windows និង Windows) គឺជាការអ៊ិនកូដស្តង់ដារ 8 ប៊ីត ដែលបានលេចឡើងភ្លាមៗបន្ទាប់ពីការចេញផ្សាយប្រព័ន្ធប្រតិបត្តិការ Microsoft Windows ដ៏ល្បីល្បាញ។ លេខ 1250 ដល់ 1258 ត្រូវបានដឹកនាំទៅភាសាដែលប្រើដោយការអ៊ិនកូដ។ 1250 គឺជាភាសារបស់អឺរ៉ុបកណ្តាល ហើយ 1251 គឺសម្រាប់អក្ខរក្រម Cyrillic ។
KOI8 - តំណាងឱ្យលេខកូដផ្លាស់ប្តូរព័ត៌មាន 8 ប៊ីត។ ជាធម្មតាស្តង់ដារ Cyrillic របស់រុស្ស៊ីត្រូវបានប្រើនៅក្នុងប្រព័ន្ធ Unix និងផ្សេងទៀត ដែលស្តង់ដារ KOI-7, KOI8-R និង KOI8-U ត្រូវបានអនុវត្ត។
យូនីកូដ (ឈ្មោះដើម យូនីកូដ) គឺជាស្តង់ដារការអ៊ិនកូដតួអក្សរល្បី ដែលអនុញ្ញាតឱ្យអ្នកពិពណ៌នាអំពីសញ្ញានៃភាសាពិភពលោកទាំងអស់តាមព្យញ្ជនៈ។ ជាញឹកញាប់តំណាង "U+xxxx" ដែល "xxxx" គឺជាតម្លៃគោលដប់ប្រាំមួយ។ គ្រួសារទូទៅបំផុតនៃការអ៊ិនកូដនេះគឺ UTF (Unicode-Transformation Format) នោះគឺ UTF-8, 16 និង 32។

ទិដ្ឋភាពនីមួយៗអាចត្រូវបានប្រើដោយផ្ទាល់នៅលើគេហទំព័រណាមួយ។

ការអ៊ិនកូដជាសកល និងពេញនិយម

រហូតមកដល់បច្ចុប្បន្ន ការអ៊ិនកូដដ៏ពេញនិយម និងល្បីល្បាញបំផុតគឺ UTF-8 ហើយវាគឺជាការអរគុណដែលវាអាចធ្វើទៅបានដើម្បីធានាបាននូវភាពឆបគ្នាជាអតិបរមាជាមួយប្រព័ន្ធចាស់ទាំងអស់ដែលបានប្រើប្រភេទតួអក្សរ 8 ប៊ីតធម្មតា។ ការអ៊ិនកូដ UTF-8 រួមបញ្ចូលគេហទំព័រភាគច្រើនដែលមាននៅលើអ៊ីនធឺណិត ហើយស្តង់ដារនេះត្រូវបានចាត់ទុកថាជាសកល។ UTF-8 គាំទ្រទាំង Cyrillic និង Latin ។

ជំរាបសួរ, អ្នកអានជាទីស្រឡាញ់នៃគេហទំព័រប្លក់។ ថ្ងៃនេះយើងនឹងនិយាយជាមួយអ្នកអំពីកន្លែងដែល krakozyabrs មកពីគេហទំព័រ និងក្នុងកម្មវិធី តើការអ៊ិនកូដអត្ថបទមានអ្វីខ្លះ ហើយគួរប្រើមួយណា។ សូមពិនិត្យមើលឱ្យកាន់តែដិតដល់នូវប្រវត្តិនៃការអភិវឌ្ឍន៍របស់ពួកគេ ដោយចាប់ផ្តើមពី ASCII មូលដ្ឋាន ក៏ដូចជាកំណែបន្ថែមរបស់វា CP866, KOI8-R, Windows 1251 និងបញ្ចប់ដោយការអ៊ិនកូដទំនើបនៃសម្ព័ន្ធយូនីកូដ UTF 16 និង 8។

សម្រាប់មនុស្សមួយចំនួន ព័ត៌មាននេះហាក់ដូចជាមិនអាចខ្វះបាន ប៉ុន្តែអ្នកនឹងដឹងថាតើមានសំណួរប៉ុន្មានដែលខ្ញុំទទួលបានជាពិសេសទាក់ទងនឹង krakozyabrs (សំណុំតួអក្សរដែលមិនអាចអានបាន) ។ ឥឡូវនេះខ្ញុំនឹងមានឱកាសដើម្បីបញ្ជូនអ្នកគ្រប់គ្នាទៅកាន់អត្ថបទនៃអត្ថបទនេះ ហើយស្វែងរកដោយឯករាជ្យសម្រាប់ jambs របស់ខ្ញុំ។ ជាការប្រសើរណាស់, ត្រៀមខ្លួនដើម្បីស្រូបយកព័ត៌មានហើយព្យាយាមធ្វើតាមដំណើរនៃរឿង។

ASCII - ការអ៊ិនកូដអត្ថបទជាមូលដ្ឋានសម្រាប់ឡាតាំង

ការអភិវឌ្ឍន៍នៃការអ៊ិនកូដអត្ថបទបានកើតឡើងក្នុងពេលដំណាលគ្នាជាមួយនឹងការបង្កើតឧស្សាហកម្ម IT ហើយក្នុងអំឡុងពេលនេះ ពួកគេបានឆ្លងកាត់ការផ្លាស់ប្តូរយ៉ាងច្រើន។ ជាប្រវត្តិសាស្ត្រ វាទាំងអស់បានចាប់ផ្តើមជាមួយនឹង EBCDIC ដែលមានភាពច្របូកច្របល់នៅក្នុងការបញ្ចេញសំឡេងរបស់រុស្ស៊ី ដែលធ្វើឱ្យវាអាចធ្វើទៅបានក្នុងការអ៊ិនកូដអក្សរនៃអក្ខរក្រមឡាតាំង លេខអារ៉ាប់ និងសញ្ញាវណ្ណយុត្តិជាមួយនឹងតួអក្សរបញ្ជា។

ប៉ុន្តែនៅតែចំណុចចាប់ផ្តើមសម្រាប់ការអភិវឌ្ឍនៃការអ៊ិនកូដអត្ថបទទំនើបគួរតែត្រូវបានចាត់ទុកថាល្បីល្បាញ ASCII(កូដស្តង់ដារអាមេរិកសម្រាប់ការផ្លាស់ប្តូរព័ត៌មាន ដែលជាធម្មតាត្រូវបានប្រកាសជាភាសារុស្សីថា "aski")។ វាពិពណ៌នាអំពី 128 តួអក្សរដំបូងដែលប្រើជាទូទៅបំផុតដោយអ្នកប្រើប្រាស់ភាសាអង់គ្លេស - លេខអារ៉ាប់ និងសញ្ញាវណ្ណយុត្តិ។

សូម្បីតែនៅក្នុងតួអក្សរទាំង 128 នេះដែលត្រូវបានពិពណ៌នានៅក្នុង ASCII ក៏មានតួអក្សរសេវាកម្មមួយចំនួនដូចជា តង្កៀប របារ សញ្ញាផ្កាយជាដើម។ តាមពិតអ្នកអាចឃើញពួកគេដោយខ្លួនឯង៖

វាគឺជាតួអក្សរទាំង 128 នេះពីកំណែដើមនៃ ASCII ដែលបានក្លាយជាស្តង់ដារ ហើយនៅក្នុងការអ៊ិនកូដផ្សេងទៀត អ្នកប្រាកដជានឹងជួបពួកគេ ហើយពួកគេនឹងឈរនៅក្នុងលំដាប់នោះ។

ប៉ុន្តែការពិតគឺថា ដោយមានជំនួយពីព័ត៌មានមួយបៃ វាអាចទៅរួចក្នុងការអ៊ិនកូដមិនមែន 128 ទេ ប៉ុន្តែតម្លៃខុសៗគ្នារហូតដល់ 256 (ពីរទៅថាមពលប្រាំបីស្មើនឹង 256) ដូច្នេះបន្ទាប់ពីកំណែមូលដ្ឋាននៃ Asuka, ស៊េរីទាំងមូលនៃ ពង្រីកការអ៊ិនកូដ ASCIIដែលក្នុងនោះ បន្ថែមពីលើតួអក្សរមូលដ្ឋានចំនួន 128 វាក៏អាចធ្វើទៅបានផងដែរក្នុងការអ៊ិនកូដនិមិត្តសញ្ញានៃការអ៊ិនកូដជាតិ (ឧទាហរណ៍រុស្ស៊ី) ។

នៅទីនេះ ប្រហែលជាវាមានតម្លៃនិយាយបន្តិចអំពីប្រព័ន្ធលេខដែលត្រូវបានប្រើនៅក្នុងការពិពណ៌នា។ ជាដំបូង ដូចដែលអ្នកទាំងអស់គ្នាដឹងហើយថា កុំព្យូទ័រមួយដំណើរការតែជាមួយលេខនៅក្នុងប្រព័ន្ធគោលពីរប៉ុណ្ណោះ ពោលគឺលេខសូន្យ និងលេខមួយ ("ពិជគណិតប៊ូលីន" ប្រសិនបើអ្នកណាម្នាក់បានសិក្សានៅវិទ្យាស្ថាន ឬនៅសាលា)។ ដែលនីមួយៗជាពីរក្នុងដឺក្រេ ចាប់ផ្តើមពីសូន្យ និងរហូតដល់ពីរក្នុងដឺក្រេទីប្រាំពីរ៖

វាមិនមែនជាការលំបាកក្នុងការយល់ថាវាអាចមានត្រឹមតែ 256 នៃបន្សំដែលអាចធ្វើបាននៃលេខសូន្យ និងលេខមួយនៅក្នុងសំណង់បែបនេះ។ ការបំប្លែងលេខពីគោលពីរទៅទសភាគគឺសាមញ្ញណាស់។ អ្នកគ្រាន់តែត្រូវបន្ថែមអំណាចទាំងអស់នៃពីរ ដែលក្នុងនោះមានមួយ។

ក្នុងឧទាហរណ៍របស់យើង នេះគឺ 1 (2 ទៅថាមពលនៃសូន្យ) បូក 8 (ពីរទៅថាមពលនៃ 3) បូក 32 (ពីរទៅទីប្រាំ) បូក 64 (ដល់ទីប្រាំមួយ) បូក 128 (ដល់ទីប្រាំពីរ) . សរុបទទួលបាន 233 ជាសញ្ញាណទសភាគ។ ដូចដែលអ្នកអាចឃើញអ្វីគ្រប់យ៉ាងគឺសាមញ្ញណាស់។

ប៉ុន្តែប្រសិនបើអ្នកពិនិត្យមើលឱ្យកាន់តែដិតដល់លើតារាងដែលមានតួអក្សរ ASCII អ្នកនឹងឃើញថាពួកវាត្រូវបានតំណាងនៅក្នុងការអ៊ិនកូដលេខគោលដប់ប្រាំមួយ។ ឧទាហរណ៍ "សញ្ញាផ្កាយ" ត្រូវគ្នានៅក្នុង Asci ទៅលេខគោលដប់ប្រាំមួយ 2A ។ អ្នកប្រហែលជាដឹងថា បន្ថែមពីលើលេខអារ៉ាប់ ប្រព័ន្ធលេខគោលដប់ប្រាំមួយក៏ប្រើអក្សរឡាតាំងពី A (មានន័យថាដប់) ដល់ F (មានន័យថាដប់ប្រាំ)។

ជាការប្រសើរណាស់សម្រាប់ បំប្លែងប្រព័ន្ធគោលពីរទៅជាលេខគោលដប់ប្រាំមួយ។ងាកទៅរកវិធីសាស្រ្តសាមញ្ញ និងមើលឃើញខាងក្រោម។ បៃនៃព័ត៌មាននីមួយៗត្រូវបានបែងចែកជាពីរផ្នែកនៃបួនប៊ីត ដូចដែលបានបង្ហាញក្នុងរូបថតអេក្រង់ខាងលើ។ នោះ។ ក្នុងពាក់កណ្តាលបៃនីមួយៗ មានតែតម្លៃដប់ប្រាំមួយប៉ុណ្ណោះដែលអាចត្រូវបានអ៊ិនកូដជាកូដគោលពីរ (ពីរទៅថាមពលទីបួន) ដែលអាចត្រូវបានតំណាងយ៉ាងងាយស្រួលជាលេខគោលដប់ប្រាំមួយ។

លើសពីនេះទៅទៀត នៅក្នុងពាក់កណ្តាលខាងឆ្វេងនៃបៃ វានឹងចាំបាច់ក្នុងការរាប់ដឺក្រេម្តងទៀត ដោយចាប់ផ្តើមពីសូន្យ ហើយមិនមែនដូចដែលបានបង្ហាញក្នុងរូបថតអេក្រង់នោះទេ។ ជាលទ្ធផលដោយការគណនាសាមញ្ញយើងទទួលបានថាលេខ E9 ត្រូវបានអ៊ិនកូដនៅក្នុងរូបថតអេក្រង់។ ខ្ញុំសង្ឃឹមថា វគ្គនៃការវែកញែករបស់ខ្ញុំ និងដំណោះស្រាយចំពោះល្បែងផ្គុំរូបនេះ បានប្រែក្លាយជាច្បាស់លាស់សម្រាប់អ្នក។ មែនហើយ ឥឡូវនេះ សូមបន្ត ជាការពិត ដើម្បីនិយាយអំពីការអ៊ិនកូដអត្ថបទ។

កំណែបន្ថែមនៃការអ៊ិនកូដ Asuka - CP866 និង KOI8-R ជាមួយនឹងការក្លែងបន្លំ

ដូច្នេះ យើងចាប់ផ្តើមនិយាយអំពី ASCII ដែលជាចំណុចចាប់ផ្តើមសម្រាប់ការអភិវឌ្ឍន៍ការអ៊ិនកូដទំនើបទាំងអស់ (Windows 1251, Unicode, UTF 8)។

ដំបូងឡើយ វាមានតែ 128 តួអក្សរនៃអក្ខរក្រមឡាតាំង លេខអារ៉ាប់ និងអ្វីផ្សេងទៀត ប៉ុន្តែនៅក្នុងកំណែបន្ថែម វាអាចប្រើតម្លៃទាំងអស់ 256 ដែលអាចត្រូវបានអ៊ិនកូដក្នុងព័ត៌មានមួយបៃ។ ទាំងនោះ។ វាអាចបន្ថែមតួអក្សរនៃអក្សរនៃភាសារបស់អ្នកទៅ Asci ។

នៅទីនេះវាចាំបាច់ដើម្បីពន្យល់ម្តងទៀត - ហេតុអ្វីបានជាអ្នកត្រូវការសរសេរកូដទាំងស្រុង?អត្ថបទ និងហេតុអ្វីបានជាវាសំខាន់ម៉្លេះ។ តួអក្សរនៅលើអេក្រង់កុំព្យូទ័ររបស់អ្នកត្រូវបានបង្កើតឡើងនៅលើមូលដ្ឋាននៃវត្ថុពីរ - សំណុំនៃរាងវ៉ិចទ័រ (តំណាង) នៃតួអក្សរគ្រប់ប្រភេទ (ពួកវានៅក្នុងឯកសារសហ) និងកូដដែលអនុញ្ញាតឱ្យអ្នកទាញចេញពីសំណុំនៃរាងវ៉ិចទ័រនេះ ( font file) ជាតួអក្សរដែលអ្នកត្រូវបញ្ចូលទៅក្នុង Right place។

វាច្បាស់ណាស់ថាពុម្ពអក្សរទទួលខុសត្រូវចំពោះទម្រង់វ៉ិចទ័រដោយខ្លួនឯង ប៉ុន្តែប្រព័ន្ធប្រតិបត្តិការ និងកម្មវិធីដែលប្រើក្នុងវាទទួលខុសត្រូវចំពោះការអ៊ិនកូដ។ ទាំងនោះ។ អត្ថបទណាមួយនៅលើកុំព្យូទ័ររបស់អ្នកនឹងជាសំណុំនៃបៃ ដែលនីមួយៗអ៊ិនកូដតួអក្សរតែមួយនៃអត្ថបទនេះ។

កម្មវិធីដែលបង្ហាញអត្ថបទនេះនៅលើអេក្រង់ (កម្មវិធីនិពន្ធអត្ថបទ កម្មវិធីរុករកតាមអ៊ីនធឺណិត។ ឯកសារអត្ថបទ។ អ្វីគ្រប់យ៉ាងគឺសាមញ្ញនិង banal ។

នេះមានន័យថា ដើម្បីអ៊ិនកូដតួអក្សរណាមួយដែលយើងត្រូវការ (ឧទាហរណ៍ ពីអក្ខរក្រមជាតិ) លក្ខខណ្ឌពីរត្រូវតែបំពេញ - ទម្រង់វ៉ិចទ័រនៃតួអក្សរនេះត្រូវតែមាននៅក្នុងពុម្ពអក្សរដែលបានប្រើ ហើយតួអក្សរនេះអាចត្រូវបានអ៊ិនកូដនៅក្នុងការអ៊ិនកូដ ASCII បន្ថែម។ ក្នុងមួយបៃ។ ដូច្នេះមានជម្រើសបែបនេះច្រើន។ សម្រាប់តែការអ៊ិនកូដតួអក្សរនៃភាសារុស្សីប៉ុណ្ណោះ មានប្រភេទ Aska ដែលបានពង្រីក។

ឧទាហរណ៍ដំបូងមាន CP866ដែលក្នុងនោះវាអាចប្រើតួអក្សរនៃអក្ខរក្រមរុស្ស៊ីហើយវាគឺជាកំណែបន្ថែមនៃ ASCII ។

ទាំងនោះ។ ផ្នែកខាងលើរបស់វាស្របគ្នាទាំងស្រុងជាមួយនឹងកំណែមូលដ្ឋានរបស់ Asuka (128 តួអក្សរឡាតាំង លេខ និងអក្សរតូចផ្សេងទៀត) ដែលត្រូវបានបង្ហាញនៅក្នុងរូបថតអេក្រង់ខាងលើ ប៉ុន្តែផ្នែកខាងក្រោមនៃតារាងជាមួយនឹងការអ៊ិនកូដ CP866 មានទម្រង់ដែលបង្ហាញក្នុងរូបថតអេក្រង់ខាងក្រោម។ និងអនុញ្ញាតឱ្យអ៊ិនកូដសញ្ញា 128 ផ្សេងទៀត (អក្សររុស្ស៊ីនិងគ្រប់ប្រភេទនៃក្លែងក្លាយនៅទីនោះ):

អ្នកឃើញនៅក្នុងជួរឈរខាងស្តាំ លេខចាប់ផ្តើមដោយលេខ 8 ពីព្រោះ លេខពី 0 ដល់ 7 សំដៅលើផ្នែកមូលដ្ឋាន ASCII (សូមមើលរូបថតអេក្រង់ដំបូង) ។ នោះ។ អក្សររុស្ស៊ី "M" នៅក្នុង CP866 នឹងមានលេខកូដ 9C (វាមានទីតាំងនៅចំនុចប្រសព្វនៃជួរដេកដែលត្រូវគ្នាជាមួយលេខ 9 និងជួរឈរដែលមានលេខ C នៅក្នុងប្រព័ន្ធលេខគោលដប់ប្រាំមួយ) ដែលអាចត្រូវបានសរសេរក្នុងព័ត៌មានមួយបៃ។ ហើយប្រសិនបើមានពុម្ពអក្សរសមរម្យជាមួយតួអក្សររុស្ស៊ី អក្សរនេះដោយគ្មានបញ្ហានឹងត្រូវបានបង្ហាញនៅក្នុងអត្ថបទ។

តើចំនួននេះមកពីណា? ការក្លែងបន្លំនៅក្នុង CP866? រឿងនេះគឺថាការអ៊ិនកូដនេះសម្រាប់អត្ថបទជាភាសារុស្សីត្រូវបានបង្កើតឡើងវិញនៅក្នុងឆ្នាំដ៏ខ្លីទាំងនោះ នៅពេលដែលមិនមានការចែកចាយនៃប្រព័ន្ធប្រតិបត្តិការក្រាហ្វិកដូចដែលវាឥឡូវនេះ។ ហើយនៅក្នុង Dosa និងប្រព័ន្ធប្រតិបត្តិការអត្ថបទស្រដៀងគ្នា ក្រាហ្វិចក្លែងបន្លំបានធ្វើឱ្យវាអាចធ្វើទៅបានដើម្បីធ្វើពិពិធកម្មការរចនានៃអត្ថបទ ហើយដូច្នេះវាមានច្រើននៅក្នុង CP866 និងមិត្តផ្សេងទៀតរបស់វាពីប្រភេទនៃកំណែបន្ថែមរបស់ Asuka ។

CP866 ត្រូវបានចែកចាយដោយ IBM ប៉ុន្តែក្រៅពីនេះ ការអ៊ិនកូដមួយចំនួនត្រូវបានបង្កើតឡើងសម្រាប់តួអក្សររុស្ស៊ី ឧទាហរណ៍ ប្រភេទដូចគ្នា (ពង្រីក ASCII) អាចត្រូវបានកំណត់គុណលក្ខណៈ KOI8-R:

គោលការណ៍នៃប្រតិបត្តិការរបស់វានៅតែដូចគ្នានឹង CP866 ដែលបានពិពណ៌នាមុននេះបន្តិច - តួអក្សរនីមួយៗនៃអត្ថបទត្រូវបានអ៊ិនកូដដោយបៃតែមួយ។ រូបថតអេក្រង់បង្ហាញពីពាក់កណ្តាលទីពីរនៃតារាង KOI8-R ពីព្រោះ ពាក់កណ្តាលទីមួយត្រូវគ្នាយ៉ាងពេញលេញទៅនឹង Asuka មូលដ្ឋានដែលត្រូវបានបង្ហាញនៅក្នុងរូបថតអេក្រង់ដំបូងនៅក្នុងអត្ថបទនេះ។

ក្នុងចំណោមលក្ខណៈពិសេសនៃការអ៊ិនកូដ KOI8-R វាអាចត្រូវបានកត់សម្គាល់ថាអក្សររុស្ស៊ីនៅក្នុងតារាងរបស់វាមិនមានតាមលំដាប់អក្ខរក្រមទេឧទាហរណ៍ត្រូវបានធ្វើនៅក្នុង CP866 ។

ប្រសិនបើអ្នកក្រឡេកមើលរូបថតអេក្រង់ដំបូងបំផុត (នៃផ្នែកមូលដ្ឋានដែលត្រូវបានរួមបញ្ចូលនៅក្នុងការអ៊ិនកូដបន្ថែមទាំងអស់) អ្នកនឹងសម្គាល់ឃើញថានៅក្នុង KOI8-R អក្សររុស្ស៊ីមានទីតាំងនៅក្នុងក្រឡាដូចគ្នានៃតារាងជាអក្សរនៃព្យញ្ជនៈអក្ខរក្រមឡាតាំង។ ជាមួយពួកគេពីផ្នែកដំបូងនៃតារាង។ នេះត្រូវបានធ្វើដើម្បីភាពងាយស្រួលនៃការប្តូរពីអក្សររុស្ស៊ីទៅជាអក្សរឡាតាំងដោយបោះចោលតែមួយប៊ីត (ពីរទៅថាមពលទីប្រាំពីរ ឬ 128)។

Windows 1251 - កំណែទំនើបនៃ ASCII ហើយហេតុអ្វីបានជា krakozyabry លូនចេញមកក្រៅ

ការអភិវឌ្ឍន៍បន្ថែមទៀតនៃការអ៊ិនកូដអត្ថបទគឺដោយសារតែប្រព័ន្ធប្រតិបត្តិការក្រាហ្វិកកំពុងទទួលបានប្រជាប្រិយភាព ហើយតម្រូវការប្រើប្រាស់អក្សរក្លែងបន្លំនៅក្នុងពួកវាបានបាត់ទៅវិញតាមពេលវេលា។ ជាលទ្ធផល ក្រុមទាំងមូលបានក្រោកឡើង ដែលនៅក្នុងខ្លឹមសារនៅតែជាកំណែបន្ថែមនៃ Asuka (តួអក្សរអត្ថបទមួយត្រូវបានអ៊ិនកូដដោយព័ត៌មានមួយបៃប៉ុណ្ណោះ) ប៉ុន្តែដោយគ្មានការប្រើប្រាស់តួអក្សរក្លែងក្លាយ។

ពួកវាជាកម្មសិទ្ធិរបស់អ្វីដែលគេហៅថាការអ៊ិនកូដ ANSI ដែលត្រូវបានបង្កើតឡើងដោយវិទ្យាស្ថានស្តង់ដារអាមេរិក។ នៅក្នុងការនិយាយទូទៅ ឈ្មោះ Cyrillic ក៏ត្រូវបានគេប្រើសម្រាប់វ៉ារ្យ៉ង់ជាមួយនឹងការគាំទ្រសម្រាប់ភាសារុស្ស៊ី។ ឧទាហរណ៍នៃការនេះអាចបម្រើ។

វាប្រៀបធៀបដោយអនុគ្រោះជាមួយ CP866 និង KOI8-R ដែលបានប្រើពីមុន ដែលក្នុងនោះកន្លែងនៃនិមិត្តសញ្ញាក្លែងក្លាយនៅក្នុងវាត្រូវបានយកដោយនិមិត្តសញ្ញាដែលបាត់នៃការវាយអក្សររបស់រុស្ស៊ី (ក្រៅពីសញ្ញាសង្កត់សំឡេង) ក៏ដូចជានិមិត្តសញ្ញាដែលប្រើជាភាសាស្លាវីដែលនៅជិត។ រុស្ស៊ី (អ៊ុយក្រែន បេឡារុស្ស ។ល។) :

ដោយសារតែការអ៊ិនកូដភាសារុស្សីមានច្រើនបែបនេះ ក្រុមហ៊ុនផលិតពុម្ពអក្សរ និងក្រុមហ៊ុនផលិតសូហ្វវែរមានការឈឺក្បាលជានិច្ច ហើយយើងជាអ្នកអានជាទីគោរព ជាញឹកញាប់ទទួលបានព័ត៌មានដ៏ល្បី krakozyabryនៅពេលដែលមានការភ័ន្តច្រឡំជាមួយកំណែដែលបានប្រើនៅក្នុងអត្ថបទ។

ជាញឹកញាប់ពួកគេចេញក្រៅនៅពេលផ្ញើ និងទទួលសារតាមអ៊ីមែល ដែលនាំទៅដល់ការបង្កើតតារាងបំប្លែងដ៏ស្មុគស្មាញ ដែលតាមពិត មិនអាចដោះស្រាយបញ្ហានេះនៅឫសគល់បានទេ ហើយជារឿយៗអ្នកប្រើប្រាស់បានប្រើសម្រាប់ការឆ្លើយឆ្លង ដើម្បីជៀសវាងការល្បីឈ្មោះ។ krakozyabrs នៅពេលប្រើការអ៊ិនកូដរុស្ស៊ីដូចជា CP866, KOI8-R ឬ Windows 1251 ។

តាមពិត krakozyabry ដែលលេចឡើងជំនួសឱ្យអត្ថបទរុស្ស៊ីគឺជាលទ្ធផលនៃការប្រើប្រាស់មិនត្រឹមត្រូវនៃការអ៊ិនកូដនៃភាសានេះ ដែលមិនត្រូវគ្នាទៅនឹងអត្ថបទដែលសារត្រូវបានអ៊ិនកូដពីដំបូងឡើយ។

ឧទាហរណ៍ ប្រសិនបើអ្នកព្យាយាមបង្ហាញតួអក្សរដែលបានអ៊ិនកូដដោយប្រើ CP866 ដោយប្រើតារាងកូដ Windows 1251 បន្ទាប់មក krakozyabry ដូចគ្នាទាំងនេះ (សំណុំតួអក្សរគ្មានន័យ) នឹងចេញមក ដោយជំនួសអត្ថបទសារទាំងស្រុង។

ស្ថានភាពស្រដៀងគ្នានេះកើតឡើងជាញឹកញាប់ជាមួយវេទិកា ឬប្លក់ នៅពេលដែលអត្ថបទដែលមានអក្សររុស្សីត្រូវបានរក្សាទុកដោយច្រឡំក្នុងការបំប្លែងកូដខុសដែលត្រូវបានប្រើនៅលើគេហទំព័រតាមលំនាំដើម ឬនៅក្នុងកម្មវិធីកែអត្ថបទខុសដែលបន្ថែម gag ទៅកូដដែលមើលមិនឃើញ។ ភ្នែកទទេ។

នៅទីបញ្ចប់ មនុស្សជាច្រើនធុញទ្រាន់នឹងស្ថានភាពបែបនេះជាមួយនឹងការអ៊ិនកូដច្រើន ហើយចេញ krakozyabry ឥតឈប់ឈរ មានតម្រូវការជាមុនសម្រាប់ការបង្កើតបំរែបំរួលជាសកលថ្មីដែលនឹងជំនួសធាតុដែលមានស្រាប់ទាំងអស់ ហើយចុងក្រោយនឹងដោះស្រាយបញ្ហាជាមួយនឹងរូបរាងនៃអត្ថបទដែលមិនអាចអានបាន។ . លើសពីនេះទៀតមានបញ្ហានៃភាសាដូចជាភាសាចិនដែលមានតួអក្សរច្រើននៃភាសាច្រើនជាង 256 ។

យូនីកូដ (យូនីកូដ) - ការអ៊ិនកូដជាសកល UTF 8, 16 និង 32

តួអក្សររាប់ពាន់ទាំងនេះនៃក្រុមភាសាអាស៊ីអាគ្នេយ៍មិនអាចត្រូវបានពិពណ៌នាតាមមធ្យោបាយណាមួយក្នុងព័ត៌មានមួយបៃ ដែលត្រូវបានបម្រុងទុកសម្រាប់ការអ៊ិនកូដតួអក្សរនៅក្នុងកំណែបន្ថែមនៃ ASCII ។ ជាលទ្ធផលសម្ព័ន្ធមួយបានហៅ យូនីកូដ(យូនីកូដ - Unicode Consortium) ដោយមានកិច្ចសហការពីអ្នកដឹកនាំឧស្សាហកម្ម IT ជាច្រើន (អ្នកដែលផលិតកម្មវិធី អ្នកសរសេរកូដផ្នែករឹង អ្នកបង្កើតពុម្ពអក្សរ) ដែលចាប់អារម្មណ៍នឹងការលេចចេញនៃការអ៊ិនកូដអត្ថបទជាសកល។

បំរែបំរួលដំបូងដែលត្រូវបានចេញផ្សាយក្រោមការឧបត្ថម្ភពីសម្ព័ន្ធយូនីកូដគឺ UTF-32. លេខនៅក្នុងឈ្មោះនៃការអ៊ិនកូដមានន័យថាចំនួនប៊ីតដែលត្រូវបានប្រើដើម្បីអ៊ិនកូដតួអក្សរមួយ។ 32 ប៊ីតគឺ 4 បៃនៃព័ត៌មានដែលនឹងត្រូវការដើម្បីអ៊ិនកូដតួអក្សរតែមួយនៅក្នុងការអ៊ិនកូដសកល UTF ថ្មី។

ជាលទ្ធផល ឯកសារដូចគ្នាជាមួយនឹងអត្ថបទដែលបានអ៊ិនកូដនៅក្នុងកំណែបន្ថែមនៃ ASCII និងនៅក្នុង UTF-32 ក្នុងករណីចុងក្រោយនឹងមានទំហំ (ទម្ងន់) ធំជាងបួនដង។ នេះគឺអាក្រក់ ប៉ុន្តែឥឡូវនេះយើងមានឱកាសក្នុងការអ៊ិនកូដដោយប្រើ UTF ចំនួនតួអក្សរស្មើនឹងពីរទៅថាមពលសាមសិបវិនាទី ( រាប់ពាន់លានតួអក្សរដែលនឹងគ្របដណ្តប់លើតម្លៃចាំបាច់ណាមួយជាមួយនឹងរឹមដ៏ធំ)។

ប៉ុន្តែប្រទេសជាច្រើនដែលមានភាសានៃក្រុមអ៊ឺរ៉ុប មិនចាំបាច់ប្រើតួអក្សរដ៏ច្រើនបែបនេះក្នុងការអ៊ិនកូដទាល់តែសោះ ទោះបីជាយ៉ាងណាក៏ដោយ នៅពេលប្រើ UTF-32 ពួកគេនឹងទទួលបានទម្ងន់ឯកសារអត្ថបទកើនឡើង 4 ដង។ ដោយគ្មានអ្វីសោះ ហើយជាលទ្ធផល ការកើនឡើងនៃបរិមាណចរាចរអ៊ីនធឺណិត និងបរិមាណទិន្នន័យដែលបានរក្សាទុក។ នេះច្រើនណាស់ ហើយគ្មាននរណាម្នាក់អាចទិញកាកសំណល់បែបនេះបានទេ។

ជាលទ្ធផលនៃការអភិវឌ្ឍន៍យូនីកូដ។ UTF-16វាបានប្រែក្លាយថាទទួលបានជោគជ័យយ៉ាងខ្លាំងដែលវាត្រូវបានទទួលយកជាចន្លោះមូលដ្ឋានលំនាំដើមសម្រាប់តួអក្សរទាំងអស់ដែលយើងប្រើ។ វាប្រើពីរបៃដើម្បីអ៊ិនកូដតួអក្សរមួយ។ ចាំមើលថាតើរឿងនេះមានលក្ខណៈយ៉ាងណា?

នៅក្នុងប្រព័ន្ធប្រតិបត្តិការ Windows អ្នកអាចទៅតាមផ្លូវ "ចាប់ផ្តើម" - "កម្មវិធី" - "គ្រឿងបន្លាស់" - "ឧបករណ៍ប្រើប្រាស់" - "តារាងតួអក្សរ" ។ ជាលទ្ធផល តារាងដែលមានរាងវ៉ិចទ័រនៃពុម្ពអក្សរទាំងអស់ដែលបានដំឡើងនៅក្នុងប្រព័ន្ធរបស់អ្នកនឹងបើក។ ប្រសិនបើអ្នកជ្រើសរើសតួអក្សរយូនីកូដដែលបានកំណត់នៅក្នុង "ជម្រើសកម្រិតខ្ពស់" អ្នកអាចឃើញសម្រាប់ពុម្ពអក្សរនីមួយៗដាច់ដោយឡែកពីជួរតួអក្សរទាំងមូលដែលរួមបញ្ចូលនៅក្នុងវា។

ដោយវិធីនេះ ដោយចុចលើពួកវាណាមួយ អ្នកអាចឃើញបៃបៃពីរដងរបស់វា។ កូដក្នុងទម្រង់ UTF-16ដែលមានលេខគោលដប់ប្រាំមួយចំនួនបួន៖

តើតួអក្សរប៉ុន្មានអាចត្រូវបានអ៊ិនកូដនៅក្នុង UTF-16 ដោយប្រើ 16 ប៊ីត? 65,536 (ពីរទៅថាមពលដប់ប្រាំមួយ) ហើយវាគឺជាលេខនេះដែលត្រូវបានអនុម័តជាលំហមូលដ្ឋាននៅក្នុងយូនីកូដ។ លើសពីនេះ មានវិធីក្នុងការអ៊ិនកូដជាមួយវាប្រហែលពីរលានតួអក្សរ ប៉ុន្តែបានកំណត់ចំពោះទំហំបន្ថែមនៃអក្សរមួយលានតួអក្សរ។

ប៉ុន្តែសូម្បីតែកំណែដែលទទួលបានជោគជ័យនៃការអ៊ិនកូដយូនីកូដនេះមិនបាននាំមកនូវការពេញចិត្តច្រើនដល់អ្នកដែលសរសេរកម្មវិធីតែជាភាសាអង់គ្លេសទេ ពីព្រោះបន្ទាប់ពីការផ្លាស់ប្តូរពីកំណែបន្ថែមនៃ ASCII ទៅ UTF-16 ទម្ងន់នៃឯកសារបានកើនឡើងទ្វេដង (មួយបៃក្នុងមួយ តួអក្សរមួយនៅក្នុង Asci និងពីរបៃក្នុងមួយតួអក្សរដូចគ្នានៅក្នុង UTF-16) ។

នោះហើយជាវាសម្រាប់ការពេញចិត្តរបស់មនុស្សគ្រប់គ្នា និងអ្វីគ្រប់យ៉ាងនៅក្នុងសម្ព័ន្ធយូនីកូដ វាត្រូវបានសម្រេចចិត្តបង្កើត ការអ៊ិនកូដប្រវែងអថេរ. វាត្រូវបានគេហៅថា UTF-8 ។ ទោះបីជាមានប្រាំបីនៅក្នុងឈ្មោះក៏ដោយ វាពិតជាមានប្រវែងអថេរ i.e. តួអក្សរអត្ថបទនីមួយៗអាចត្រូវបានអ៊ិនកូដទៅជាលំដាប់ពីមួយទៅប្រាំមួយបៃ។

នៅក្នុងការអនុវត្តជាក់ស្តែងនៅក្នុង UTF-8 មានតែចន្លោះពីមួយទៅបួនបៃប៉ុណ្ណោះដែលត្រូវបានប្រើប្រាស់ ពីព្រោះនៅពីក្រោយកូដចំនួនបួនបៃ គ្មានអ្វីអាចស្រមៃបានតាមទ្រឹស្តីនោះទេ។ អក្សរឡាតាំងទាំងអស់នៅក្នុងវាត្រូវបានអ៊ិនកូដក្នុងមួយបៃ ដូចជានៅក្នុង ASCII ចាស់ដ៏ល្អ។

គួរកត់សម្គាល់ថា ក្នុងករណីដែលអ៊ិនកូដតែឡាតាំង សូម្បីតែកម្មវិធីដែលមិនយល់យូនីកូដនឹងនៅតែអានអ្វីដែលត្រូវបានអ៊ិនកូដនៅក្នុង UTF-8 ដដែល។ ទាំងនោះ។ ផ្នែកមូលដ្ឋាននៃ Asuka បានឆ្លងចូលទៅក្នុងគំនិតនៃសម្ព័ន្ធយូនីកូដនេះ។

តួអក្សរ Cyrillic នៅក្នុង UTF-8 ត្រូវបានអ៊ិនកូដជាពីរបៃ ហើយឧទាហរណ៍ តួអក្សរហ្សកហ្ស៊ីក្នុងបីបៃ។ សម្ព័ន្ធយូនីកូដ បន្ទាប់ពីបង្កើត UTF 16 និង 8 បានដោះស្រាយបញ្ហាចម្បង - ឥឡូវនេះយើងមាន ពុម្ពអក្សរមានចន្លោះកូដតែមួយ. ហើយឥឡូវនេះអ្នកផលិតរបស់ពួកគេអាចបំពេញវាដោយទម្រង់វ៉ិចទ័រនៃតួអក្សរអត្ថបទដោយផ្អែកលើភាពខ្លាំង និងសមត្ថភាពរបស់ពួកគេ។ ឥឡូវនេះសូម្បីតែនៅក្នុងសំណុំ។

នៅក្នុង "តារាងតួអក្សរ" ខាងលើ អ្នកអាចមើលឃើញថាពុម្ពអក្សរផ្សេងគ្នាគាំទ្រចំនួនតួអក្សរផ្សេងគ្នា។ ពុម្ពអក្សរដែលសំបូរទៅដោយយូនីកូដមួយចំនួនអាចមានទំហំធំណាស់។ ប៉ុន្តែឥឡូវនេះពួកវាមិនខុសគ្នាត្រង់ថាពួកគេត្រូវបានបង្កើតសម្រាប់ការអ៊ិនកូដខុសៗគ្នានោះទេប៉ុន្តែនៅក្នុងការពិតដែលថាក្រុមហ៊ុនផលិតពុម្ពអក្សរបានបំពេញឬមិនបានបំពេញចន្លោះកូដតែមួយជាមួយនឹងទម្រង់វ៉ិចទ័រមួយឬមួយផ្សេងទៀតរហូតដល់ទីបញ្ចប់។

Krakozyabry ជំនួសឱ្យអក្សររុស្ស៊ី - របៀបជួសជុល

ឥឡូវនេះសូមមើលពីរបៀបដែល krakozyabras លេចឡើងជំនួសឱ្យអត្ថបទ ឬនិយាយម្យ៉ាងទៀតពីរបៀបដែលការអ៊ិនកូដត្រឹមត្រូវសម្រាប់អត្ថបទរុស្ស៊ីត្រូវបានជ្រើសរើស។ តាមពិតទៅ វាត្រូវបានកំណត់នៅក្នុងកម្មវិធីដែលអ្នកបង្កើត ឬកែសម្រួលអត្ថបទដូចគ្នានេះ ឬកូដដោយប្រើបំណែកអត្ថបទ។

សម្រាប់ការកែសម្រួល និងបង្កើតឯកសារអត្ថបទ ខ្ញុំផ្ទាល់ប្រើល្អណាស់ តាមគំនិតរបស់ខ្ញុំ។ ទោះយ៉ាងណាក៏ដោយ វាអាចរំលេចវាក្យសម្ព័ន្ធនៃភាសាសរសេរកម្មវិធី និងសញ្ញាសម្គាល់ល្អមួយរយទៀត ហើយថែមទាំងមានសមត្ថភាពពង្រីកដោយប្រើកម្មវិធីជំនួយផងដែរ។ សូមអានការពិនិត្យឡើងវិញលម្អិតនៃកម្មវិធីដ៏អស្ចារ្យនេះនៅតំណខាងក្រោម។

នៅក្នុងម៉ឺនុយកំពូលនៃ Notepad ++ មានធាតុ "ការអ៊ិនកូដ" ដែលអ្នកនឹងមានឱកាសបំប្លែងជម្រើសដែលមានស្រាប់ទៅជាជម្រើសដែលបានប្រើនៅលើគេហទំព័ររបស់អ្នកតាមលំនាំដើម៖

ក្នុងករណីគេហទំព័រនៅលើ Joomla 1.5 និងខ្ពស់ជាងនេះ ក៏ដូចជាក្នុងករណីប្លុកនៅលើ WordPress ដើម្បីជៀសវាងការលេចឡើងនៃកំហុស សូមជ្រើសរើសជម្រើស UTF8 ដោយគ្មាន BOM. តើបុព្វបទ BOM ជាអ្វី?

ការពិតគឺថានៅពេលដែលពួកគេបង្កើតការអ៊ិនកូដ UTF-16 សម្រាប់ហេតុផលមួយចំនួនពួកគេបានសម្រេចចិត្តភ្ជាប់ជាមួយវាដូចជាសមត្ថភាពក្នុងការសរសេរកូដតួអក្សរទាំងនៅក្នុងលំដាប់ផ្ទាល់ (ឧទាហរណ៍ 0A15) និងបញ្ច្រាស (150A) ។ . ហើយដើម្បីឱ្យកម្មវិធីយល់ពីលំដាប់ណាដែលត្រូវអានកូដ វាត្រូវបានបង្កើត BOM(Byte Order Mark ឬនិយាយម្យ៉ាងទៀតហត្ថលេខា) ដែលត្រូវបានបញ្ជាក់នៅក្នុងការបន្ថែមនៃបៃបន្ថែមចំនួនបីដល់ដើមដំបូងនៃឯកសារ។

នៅក្នុងការអ៊ិនកូដ UTF-8 គ្មាន BOM ត្រូវបានផ្តល់ជូននៅក្នុងសម្ព័ន្ធយូនីកូដទេ ដូច្នេះហើយការបន្ថែមហត្ថលេខា (បីបៃបន្ថែមដ៏ល្បីបំផុតទាំងនេះទៅដើមឯកសារ) គ្រាន់តែរារាំងកម្មវិធីមួយចំនួនពីការអានកូដ។ ដូច្នេះនៅពេលរក្សាទុកឯកសារក្នុង UTF យើងត្រូវជ្រើសរើសជម្រើសដោយគ្មាន BOM (ដោយគ្មានហត្ថលេខា)។ ដូច្នេះអ្នកឈានទៅមុខ ការពារខ្លួនអ្នកពីការវារ krakozyabry.

គួរកត់សម្គាល់ថាកម្មវិធីមួយចំនួននៅក្នុង Windows មិនដឹងពីរបៀបធ្វើវាទេ (ពួកគេមិនអាចរក្សាទុកអត្ថបទក្នុង UTF-8 ដោយគ្មាន BOM) ឧទាហរណ៍ Windows Notepad ដ៏ល្បីល្បាញដូចគ្នា។ វារក្សាទុកឯកសារក្នុង UTF-8 ប៉ុន្តែនៅតែបន្ថែមហត្ថលេខា (បីបៃបន្ថែម) ទៅការចាប់ផ្តើមរបស់វា។ លើសពីនេះទៅទៀត បៃទាំងនេះនឹងដូចគ្នាជានិច្ច - អានកូដតាមលំដាប់ផ្ទាល់។ ប៉ុន្តែនៅលើម៉ាស៊ីនមេដោយសារតែរឿងតូចតាចនេះបញ្ហាអាចកើតឡើង - krakozyabry នឹងចេញមក។

ដូច្នេះដោយគ្មានមធ្យោបាយ កុំប្រើ Windows notepad ធម្មតា។សម្រាប់ការកែសម្រួលឯកសារនៃគេហទំព័ររបស់អ្នក ប្រសិនបើអ្នកមិនចង់បានរូបរាងរបស់ krakozyabrov ។ ខ្ញុំចាត់ទុកកម្មវិធីនិពន្ធ Notepad ++ ដែលបានរៀបរាប់រួចជាស្រេចថាជាជម្រើសដ៏ល្អបំផុត និងសាមញ្ញបំផុត ដែលអនុវត្តជាក់ស្តែងគ្មានគុណវិបត្តិ និងមានតែគុណសម្បត្តិប៉ុណ្ណោះ។

នៅក្នុង Notepad++ នៅពេលអ្នកជ្រើសរើសការអ៊ិនកូដ អ្នកនឹងមានជម្រើសក្នុងការបំប្លែងអត្ថបទទៅជាការអ៊ិនកូដ UCS-2 ដែលតាមពិតទៅជិតស្តង់ដារយូនីកូដ។ ផងដែរនៅក្នុង Notepad វានឹងអាចធ្វើទៅបានដើម្បីអ៊ិនកូដអត្ថបទនៅក្នុង ANSI, i.e. ទាក់ទងទៅនឹងភាសារុស្សី នេះនឹងក្លាយជា Windows 1251 ដែលយើងបានរៀបរាប់ខាងលើបន្តិច។ តើព័ត៌មាននេះមកពីណា?

វាត្រូវបានសរសេរនៅក្នុងបញ្ជីឈ្មោះប្រព័ន្ធប្រតិបត្តិការ Windows របស់អ្នក ដែលការអ៊ិនកូដដែលត្រូវជ្រើសរើសក្នុងករណី ANSI មួយណាដែលត្រូវជ្រើសរើសក្នុងករណី OEM (សម្រាប់ភាសារុស្សីវានឹងជា CP866)។ ប្រសិនបើអ្នកដំឡើងភាសាលំនាំដើមផ្សេងទៀតនៅលើកុំព្យូទ័ររបស់អ្នក នោះការអ៊ិនកូដទាំងនេះនឹងត្រូវបានជំនួសដោយភាសាស្រដៀងគ្នាពីប្រភេទ ANSI ឬ OEM សម្រាប់ភាសាដូចគ្នានោះ។

បន្ទាប់ពីអ្នករក្សាទុកឯកសារក្នុង Notepad ++ ក្នុងការអ៊ិនកូដដែលអ្នកត្រូវការ ឬបើកឯកសារពីគេហទំព័រសម្រាប់កែសម្រួល អ្នកអាចឃើញឈ្មោះរបស់វានៅជ្រុងខាងស្តាំខាងក្រោមនៃកម្មវិធីនិពន្ធ៖

ដើម្បីជៀសវាង krakozyabrovបន្ថែមពីលើសកម្មភាពដែលបានពិពណ៌នាខាងលើ វានឹងមានប្រយោជន៍ក្នុងការសរសេរព័ត៌មានអំពីការអ៊ិនកូដនេះនៅក្នុងបឋមកថានៃកូដប្រភពនៃទំព័រទាំងអស់នៃគេហទំព័រ ដើម្បីកុំឱ្យមានការភ័ន្តច្រឡំនៅលើម៉ាស៊ីនមេ ឬម៉ាស៊ីនមូលដ្ឋាន។

ជាទូទៅ នៅក្នុងគ្រប់ភាសា hypertext markup លើកលែងតែ Html សេចក្តីប្រកាស xml ពិសេសមួយត្រូវបានប្រើ ដែលបញ្ជាក់ការអ៊ិនកូដអត្ថបទ។

មុនពេលញែកកូដ កម្មវិធីរុករកដឹងថាតើកំណែមួយណាកំពុងត្រូវបានប្រើប្រាស់ និងថាតើលេខកូដតួអក្សរនៃភាសានោះគួរត្រូវបានបកស្រាយយ៉ាងណា។ ប៉ុន្តែអ្វីដែលគួរឲ្យកត់សម្គាល់ ប្រសិនបើអ្នករក្សាទុកឯកសារក្នុងយូនីកូដលំនាំដើម នោះការប្រកាស xml នេះអាចត្រូវបានលុបចោល (ការអ៊ិនកូដនឹងត្រូវបានចាត់ទុកជា UTF-8 ប្រសិនបើមិនមាន BOM ឬ UTF-16 ប្រសិនបើមាន BOM)។

ក្នុងករណីឯកសារភាសា Html ការអ៊ិនកូដត្រូវបានប្រើដើម្បីបញ្ជាក់ ធាតុមេតាដែលត្រូវបានសរសេរនៅចន្លោះស្លាកក្បាលបើក និងបិទ៖

... ...

ធាតុនេះគឺខុសគ្នាខ្លាំងពីមួយក្នុង ប៉ុន្តែត្រូវគោរពយ៉ាងពេញលេញជាមួយនឹងស្តង់ដារ Html 5 ថ្មីដែលកំពុងត្រូវបានណែនាំបន្តិចម្តងៗ ហើយវានឹងត្រូវបានយល់យ៉ាងត្រឹមត្រូវ 100% ដោយកម្មវិធីរុករកណាមួយដែលកំពុងប្រើប្រាស់នាពេលបច្ចុប្បន្ន។

តាមទ្រឹស្តី ធាតុ Meta ជាមួយនឹងការអ៊ិនកូដ Html នៃឯកសារនឹងល្អជាងក្នុងការដាក់ ខ្ពស់តាមដែលអាចធ្វើទៅបាននៅក្នុងបឋមកថានៃឯកសារដូច្នេះនៅពេលនៃការប្រជុំនៅក្នុងអត្ថបទនៃតួអក្សរទីមួយមិនមែនមកពី ANSI មូលដ្ឋាន (ដែលនឹងតែងតែត្រូវបានអានយ៉ាងត្រឹមត្រូវនិងនៅក្នុងការប្រែប្រួលណាមួយ) កម្មវិធីរុករកគួរតែមានព័ត៌មានអំពីរបៀបបកស្រាយកូដនៃតួអក្សរទាំងនេះរួចហើយ។

សូមឱ្យអ្នកមានសំណាងល្អ! ជួបគ្នាឆាប់ៗនៅលើទំព័រប្លុក

អ្នកប្រហែលជាចាប់អារម្មណ៍

តើអ្វីជា URL អ្វីជាភាពខុសគ្នារវាងតំណភ្ជាប់ដាច់ខាត និងទំនាក់ទំនងសម្រាប់គេហទំព័រមួយ។
OpenServer - ម៉ាស៊ីនមេក្នុងស្រុកទំនើប និងជាឧទាហរណ៍នៃការប្រើប្រាស់វាដើម្បីដំឡើង WordPress នៅលើកុំព្យូទ័រ
តើ Chmod ជាអ្វី ការអនុញ្ញាតអ្វីខ្លះដើម្បីផ្តល់ឯកសារ និងថតឯកសារ (777, 755, 666) និងរបៀបធ្វើវាតាមរយៈ PHP
ស្វែងរក Yandex នៅលើគេហទំព័រនិងហាងអនឡាញ

ពេលក្រោយ ASCIIត្រូវបានពង្រីក (ដំបូងវាមិនប្រើ 8 ប៊ីតទាំងអស់ទេ) ដូច្នេះវាអាចប្រើមិនមែន 128 ទេ ប៉ុន្តែ 256 (2 ទៅ 8) តួអក្សរផ្សេងគ្នាដែលអាចត្រូវបានអ៊ិនកូដក្នុងព័ត៌មានមួយបៃ។
ការកែលម្អនេះបានធ្វើឱ្យវាអាចបន្ថែមទៅការអ៊ិនកូដ ASCIIនិមិត្តសញ្ញានៃភាសាជាតិនៃប្រទេសផ្សេងៗ បន្ថែមពីលើអក្ខរក្រមឡាតាំងដែលមានស្រាប់។
ជម្រើសការអ៊ិនកូដបន្ថែម ASCIIមានច្រើនណាស់ព្រោះមានភាសាច្រើនណាស់នៅលើពិភពលោក។ ខ្ញុំគិតថា អ្នកជាច្រើនបានឮការបំប្លែងកូដដូចជា KOI8 (Information Interchange Code, 8 bits) - នេះក៏ជាការបំប្លែងកូដបន្ថែមផងដែរ ASCII. KOI8 រួមបញ្ចូលលេខ អក្សរនៃអក្ខរក្រមឡាតាំង និងរុស្ស៊ី ព្រមទាំងសញ្ញាវណ្ណយុត្តិ តួអក្សរពិសេស និងអក្សរក្លែងបន្លំ។

ការអ៊ិនកូដ ISO

អង្គការស្តង់ដារអន្តរជាតិបានបង្កើតជួរនៃការអ៊ិនកូដសម្រាប់ស្គ្រីប/ភាសាផ្សេងៗ។

ការអ៊ិនកូដស៊េរី ISO 8859

ការអ៊ិនកូដ	ការពិពណ៌នា
ISO 8859-1 (ឡាតាំង-1)	ឡាតាំងបន្ថែម រួមទាំងតួអក្សរពីភាសាអឺរ៉ុបខាងលិចភាគច្រើន (អង់គ្លេស ដាណឺម៉ាក អៀរឡង់ អ៊ីស្លង់ អេស្ប៉ាញ អ៊ីតាលី អាឡឺម៉ង់ ន័រវេស ព័រទុយហ្គាល់ រ៉ូម៉ាំង ហ្វារ៉ូស ស៊ុយអែត ស្កុតឡេន (ហ្គេលិក) និងមួយផ្នែក ហូឡង់ ហ្វាំងឡង់ បារាំង) ក៏ដូចជាភាសាអឺរ៉ុបខាងកើត (អាល់បានី) និងភាសាអាហ្រ្វិក (Afrikaans, Swahili)។ ឡាតាំង-1 ខ្វះសញ្ញាអឺរ៉ូ និងអក្សរធំ Ÿ ។ ទំព័រកូដនេះត្រូវបានចាត់ទុកថាជាការអ៊ិនកូដលំនាំដើមសម្រាប់ឯកសារ HTML និងសារអ៊ីមែល។ ទំព័រកូដនេះក៏ត្រូវនឹងតួអក្សរយូនីកូដ 256 ដំបូងផងដែរ។
ISO 8859-2 (ឡាតាំង-2)	ភាសាឡាតាំងដែលបានពង្រីក រួមទាំងតួអក្សរមកពីភាសាអឺរ៉ុបកណ្តាល និងអឺរ៉ុបខាងកើត (បូស្នៀ ហុងគ្រី ប៉ូឡូញ ស្លូវ៉ាគី ស្លូវេនី ក្រូអាត ឆេក)។ Latin-2 ដូចជា Latin-1 ខ្វះសញ្ញាអឺរ៉ូ។
ISO 8859-3 (ឡាតាំង-3)	ពង្រីកឡាតាំង រួមទាំងតួអក្សរពីភាសាអឺរ៉ុបភាគខាងត្បូង (ម៉ាល់ត៍ ទួរគី និងអេស្ប៉ារ៉ាន់តូ)។
ISO 8859-4 (ឡាតាំង-4)	ឡាតាំងដែលបានពង្រីក រួមទាំងតួអក្សរមកពីភាសាអឺរ៉ុបខាងជើង (ភាសាហ្គ្រីនឡិននិច អេស្តូនី ឡាតវី លីទុយអានី និងភាសាសាមី)។
ISO 8859-5 (ឡាតាំង/ស៊ីរីលិក)	Cyrillic រួមទាំងនិមិត្តសញ្ញានៃភាសាស្លាវី (បេឡារុស្ស ប៊ុលហ្គារី ម៉ាសេដូនៀ រុស្ស៊ី ស៊ែប៊ី និងអ៊ុយក្រែនមួយផ្នែក)។
ISO 8859-6 (ឡាតាំង/អារ៉ាប់)	និមិត្តសញ្ញាដែលប្រើជាភាសាអារ៉ាប់។ តួអក្សរពីភាសាអារ៉ាប់ផ្សេងទៀតមិនត្រូវបានគាំទ្រទេ។ ការបង្ហាញត្រឹមត្រូវនៃអត្ថបទ ISO 8859-6 ទាមទារការគាំទ្រសម្រាប់ការសរសេរទ្វេទិស និងទម្រង់តួអក្សរដែលប្រកាន់យកបរិបទ។
ISO 8859-7 (ឡាតាំង/ក្រិក)	និមិត្តសញ្ញានៃភាសាក្រិកទំនើប។ វាក៏អាចត្រូវបានប្រើដើម្បីសរសេរអត្ថបទក្រិកបុរាណនៅក្នុងអក្សរសាស្ត្រ monotonic ។
ISO 8859-8 (ឡាតាំង/ហេប្រ៊ូ)	និមិត្តសញ្ញាភាសាហេព្រើរទំនើប។ ប្រើជាពីរកំណែ៖ ជាមួយនឹងលំដាប់តួអក្សរឡូជីខល (ទាមទារការគាំទ្រទ្វេទិស) និងជាមួយលំដាប់តួអក្សរដែលមើលឃើញ។
ISO 8859-9 (ឡាតាំង-5)	វ៉ារ្យ៉ង់ Latin-1 ដែលជំនួសតួអក្សរអ៊ីស្លង់ដែលកម្រប្រើជាមួយអក្សរទួរគី។ ប្រើសម្រាប់ទួរគី និងឃឺដ។
ISO 8859-10 (ឡាតាំង-6)	វ៉ារ្យ៉ង់ឡាតាំង-4 កាន់តែងាយស្រួលសម្រាប់ភាសាស្កែនឌីណាវ។
ISO 8859-11 (ឡាតាំង/ថៃ)	និមិត្តសញ្ញាភាសាថៃ។
ISO 8859-13 (ឡាតាំង-7)	វ៉ារ្យ៉ង់ Latin-4 ដែលងាយស្រួលជាងសម្រាប់ភាសាបាល់ទិក។
ISO 8859-14 (ឡាតាំង-8)	បានពង្រីកឡាតាំងដើម្បីរួមបញ្ចូលតួអក្សរពីភាសា Celtic ដូចជា Scots (Gaelic) និង Breton ។
ISO 8859-15 (ឡាតាំង-9)	បំរែបំរួល Latin-1 ដែលជំនួសតួអក្សរដែលកម្រប្រើជាមួយតួអក្សរដែលត្រូវការដើម្បីគាំទ្រពេញលក្ខណៈហ្វាំងឡង់ បារាំង និងអេស្តូនី។ លើសពីនេះទៀតសញ្ញាប្រាក់អឺរ៉ូត្រូវបានបន្ថែមទៅ Latin-9 ។
ISO 8859-16 (ឡាតាំង-10)	ឡាតាំងបន្ថែម រួមទាំងតួអក្សរមកពីអឺរ៉ុបខាងត្បូង និងខាងកើត (អាល់បានី ហុងគ្រី អ៊ីតាលី ប៉ូឡូញ រ៉ូម៉ានី ស្លូវេន ក្រូអាត) ក៏ដូចជាភាសាអឺរ៉ុបខាងលិចមួយចំនួន (អៀរឡង់ក្នុងអក្សរកាត់ថ្មី អាឡឺម៉ង់ ហ្វាំងឡង់ បារាំង)។ ដូច Latin-9 សញ្ញាអឺរ៉ូត្រូវបានបន្ថែមទៅ Latin-10 ។

សម្រាប់ឯកសារជាភាសាអង់គ្លេស និងភាគច្រើនផ្សេងទៀតនៅអឺរ៉ុបខាងលិច ការអ៊ិនកូដត្រូវបានគាំទ្រយ៉ាងទូលំទូលាយ ISO-8859-1.

នៅក្នុង HTML ISO-8859-1គឺជាការអ៊ិនកូដលំនាំដើម (ក្នុង XHTML និងក្នុង HTML5 ការអ៊ិនកូដលំនាំដើមគឺ UTF-8)។
នៅពេលប្រើការអ៊ិនកូដទំព័រក្រៅពី ISO-8859-1 អ្នកត្រូវបញ្ជាក់វានៅក្នុងស្លាក .

សម្រាប់ HTML4៖

សម្រាប់ HTML5៖

ឧទាហរណ៍នៃការអ៊ិនកូដ ANSI គឺល្បីល្បាញ Windows-1251.

Windows-1251ប្រៀបធៀបដោយអនុគ្រោះជាមួយនឹងការអ៊ិនកូដ Cyrillic 8 ប៊ីតផ្សេងទៀត (ដូចជា CP866 និង ISO 8859-5) ដោយវត្តមានរបស់តួអក្សរស្ទើរតែទាំងអស់ដែលប្រើក្នុងការវាយអក្សររុស្ស៊ីសម្រាប់អត្ថបទធម្មតា (មានតែការសង្កត់សំឡេងប៉ុណ្ណោះដែលបាត់) ។ វាក៏មានតួអក្សរទាំងអស់សម្រាប់ភាសាស្លាវីផ្សេងទៀតផងដែរ៖ អ៊ុយក្រែន បេឡារុស្ស ស៊ែប៊ី ម៉ាសេដូនី និងប៊ុលហ្គារី។
ខាងក្រោមនេះគឺជាតម្លៃទសភាគនៃតួអក្សរអ៊ិនកូដ Windows-1251.

ដើម្បីបង្ហាញតួអក្សរតារាងក្នុងឯកសារ HTML សូមប្រើវាក្យសម្ព័ន្ធខាងក្រោម៖

& + កូដ + ;

ការអ៊ិនកូដ Windows-1251 (CP1251)

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.ក	.ខ	.គ	.ឃ	.អ៊ី	.F
8.	Ђ 402	Ѓ 403	‚ 201A	ѓ 453	„ 201 អ៊ី	… 2026	† 2020	‡ 2021	€ 20AC	‰ 2030	Љ 409	‹ 2039	Њ 40A	Ќ 40C	Ћ ៤០ ប	Џ 40F
9.	ђ 452	‘ 2018	’ 2019	“ 201 គ	” ២០១ ឃ	2022	– 2013	- 2014		™ 2122	љ 459	› 203A	њ 45A	ќ 45C	ћ ៤៥ ប	џ 45F
ក.	A0	Ў 40 អ៊ី	ў ៤៥ អ៊ី	Ј 408	¤ ក៤	Ґ 490	¦ ក៦	§ ក៧	យូ 401	© ក៩	Є 404	« AB	¬ AC	AD	® អេ	Ї 407
ខ.	° B0	± ខ១	І 406	і 456	ґ 491	µ ខ៥	¶ ខ៦	· ខ៧	យូ 451	№ 2116	є 454	» ប៊ីប៊ី	ј 458	Ѕ 405	ѕ 455	ї 457
គ.	ប៉ុន្តែ 410	ខ 411	IN 412	ជី 413	ឃ 414	អ៊ី 415	ច 416	វ 417	និង 418	យ 419	TO ៤១ ក	អិល ៤១ ប	ម 41 គ	ហ 41 ឃ	អំពី ៤១ អ៊ី	ទំ 41F
ឃ.	រ 420	ពី 421	ធ 422	នៅ 423	ច 424	X 425	គ 426	ហ 427	វ 428	SCH 429	Kommersant ៤២ ក	ស ៤២ ប	ខ ៤២ គ	អ៊ី 42 ឃ	យូយូ ៤២ អ៊ី	ខ្ញុំ 42F
អ៊ី.	ប៉ុន្តែ 430	ខ 431	ក្នុង 432	ជី 433	ឃ 434	អ៊ី 435	ផងដែរ 436	ម៉ោង 437	និង 438	ទី 439	ទៅ ៤៣ ក	លីត្រ ៤៣ ប	ម 43 គ	ន 43D	អំពី ៤៣ អ៊ី	ទំ 43F
ច.	រ 440	ពី 441	ធ 442	នៅ 443	f 444	X 445	គ 446	ម៉ោង 447	វ 448	SCH 449	ខ ៤៤ ក	ស ៤៤ ប	ខ 44 គ	អូ 44 ឃ	យូ 44 អ៊ី	ខ្ញុំ 44F

ការអ៊ិនកូដ UNICODE

យូនីកូដ (eng. Unicode) គឺជាស្តង់ដារការអ៊ិនកូដតួអក្សរដែលអនុញ្ញាតឱ្យអ្នកតំណាងឱ្យតួអក្សរនៃស្គ្រីបស្ទើរតែទាំងអស់នៅក្នុងពិភពលោក និងតួអក្សរពិសេស។ តួអក្សរដែលតំណាងជាយូនីកូដត្រូវបានអ៊ិនកូដជាចំនួនគត់ដែលមិនបានចុះហត្ថលេខា។ យូនីកូដមានទម្រង់ជាច្រើនសម្រាប់តំណាងតួអក្សរនៅលើកុំព្យូទ័រ៖ UTF-8, UTF-16 (UTF-16BE, UTF-16LE) និង UTF-32 (UTF-32BE, UTF-32LE)។ (ទម្រង់បំប្លែងជាភាសាអង់គ្លេសយូនីកូដ - UTF) ។
UTF-8បច្ចុប្បន្នគឺជាការអ៊ិនកូដទូទៅដែលបានរកឃើញកម្មវិធីធំទូលាយនៅក្នុងប្រព័ន្ធប្រតិបត្តិការ និងទំហំបណ្តាញ។ អត្ថបទដែលមានតួអក្សរយូនីកូដតិចជាង 128 (តំបន់កូដ U+0000 ដល់ U+007F) មានតួអក្សរកំណត់ ASCIIជាមួយនឹងលេខកូដដែលត្រូវគ្នា។ បន្ទាប់គឺជាផ្នែកនៃតួអក្សរនៃស្គ្រីបផ្សេងៗ សញ្ញាវណ្ណយុត្តិ និងនិមិត្តសញ្ញាបច្ចេកទេស។ នៅក្រោមតួអក្សរ Cyrillic តំបន់នៃតួអក្សរដែលមានលេខកូដពី U + 0400 ទៅ U + 052F, ពី U + 2DE0 ទៅ U + 2DFF, ពី U + A640 ទៅ U + A69F ត្រូវបានបែងចែក។

ការអ៊ិនកូដ UTF-8មានលក្ខណៈជាសកល និងមានទុនបម្រុងដ៏គួរឱ្យចាប់អារម្មណ៍សម្រាប់អនាគត។ នេះធ្វើឱ្យវាក្លាយជាការអ៊ិនកូដងាយស្រួលបំផុតសម្រាប់ប្រើនៅលើគេហទំព័រ។

មុននឹងឆ្លើយសំណួរថាតើអ្វីទៅជាការអ៊ិនកូដវីនដូ ANSI សូមឆ្លើយសំណួរមួយទៀតជាមុនសិន៖ "តើអ្វីទៅជាការអ៊ិនកូដជាទូទៅ?"

កុំព្យូទ័រនីមួយៗ ប្រព័ន្ធនីមួយៗប្រើប្រាស់សំណុំតួអក្សរជាក់លាក់ អាស្រ័យលើភាសាដែលអ្នកប្រើប្រាស់ប្រើប្រាស់ លើជំនាញវិជ្ជាជីវៈ និងចំណូលចិត្តផ្ទាល់ខ្លួន។

និយមន័យទូទៅនៃការអ៊ិនកូដ

ដូច្នេះនៅក្នុងភាសារុស្សី 33 តួអក្សរត្រូវបានប្រើដើម្បីសម្គាល់អក្សរជាភាសាអង់គ្លេស - 26 ។ ផងដែរ 10 ខ្ទង់ត្រូវបានប្រើសម្រាប់ការរាប់ (0; 1; 2; 3; 4; 5; 6; 7; 8; 9) និងពិសេសមួយចំនួន។ តួអក្សរ ដក ដកឃ្លា កំឡុងពេល ភាគរយ និងដូច្នេះនៅលើ។

តួអក្សរទាំងនេះនីមួយៗត្រូវបានផ្តល់លេខស៊េរីដោយប្រើតារាងកូដ។ ឧទាហរណ៍ អក្សរ "A" អាចត្រូវបានផ្តល់លេខ 1; "Z" - 26 និងបន្តបន្ទាប់។

តាមពិត លេខដែលតំណាងឱ្យតួអក្សរជាចំនួនគត់ត្រូវបានចាត់ទុកថាជាកូដតួអក្សរ ហើយការអ៊ិនកូដគឺរៀងគ្នាជាសំណុំនៃតួអក្សរនៅក្នុងតារាងបែបនេះ។

ភាពសម្បូរបែបនៃភាពខុសគ្នានៃតារាងកូដ

នៅពេលនេះ មានការអ៊ិនកូដ និងតារាងកូដមួយចំនួនធំដែលប្រើដោយអ្នកឯកទេសផ្សេងៗគ្នា៖ នេះគឺជា ASCII ដែលត្រូវបានបង្កើតឡើងក្នុងឆ្នាំ 1963 នៅអាមេរិក និង Windows-1251 ដែលថ្មីៗនេះមានការពេញនិយមដោយសារក្រុមហ៊ុន Microsoft, KOI8-R និង Guobiao - និង មនុស្សជាច្រើន មនុស្សជាច្រើនផ្សេងទៀត ហើយដំណើរការនៃរូបរាង និងការស្លាប់របស់ពួកគេនៅតែបន្តរហូតមកដល់សព្វថ្ងៃនេះ។

ក្នុងចំណោមបញ្ជីដ៏ធំនេះ អ្វីដែលគេហៅថា ការអ៊ិនកូដ ANSI លេចធ្លោជាពិសេស។

ការពិតគឺថានៅពេលមួយ Microsoft បានបង្កើតសំណុំទាំងមូលនៃទំព័រកូដ:

ពួកគេទាំងអស់បានទទួលឈ្មោះទូទៅនៃតារាងអ៊ិនកូដ ANSI ឬទំព័រកូដ ANSI ។

ការពិតគួរឱ្យចាប់អារម្មណ៍មួយ៖ តារាងលេខកូដទីមួយគឺ ASCII ដែលត្រូវបានបង្កើតឡើងក្នុងឆ្នាំ 1963 ដោយវិទ្យាស្ថានស្តង់ដារជាតិអាមេរិក (វិទ្យាស្ថានស្តង់ដារជាតិអាមេរិក) ដែលអក្សរកាត់ថា ANSI ។

ក្នុងចំណោមរបស់ផ្សេងទៀត ការអ៊ិនកូដនេះក៏មានតួអក្សរដែលមិនអាចបោះពុម្ពបានដែរ ដែលហៅថា "Escape sequences" ឬ ESCs ដែលមានតែមួយគត់សម្រាប់តារាងតួអក្សរទាំងអស់ ដែលជារឿយៗមិនត្រូវគ្នានឹងគ្នា។ ទោះជាយ៉ាងណាក៏ដោយ ជាមួយនឹងការប្រើប្រាស់ប្រកបដោយជំនាញ ពួកគេបានអនុញ្ញាតឱ្យអ្នកលាក់ និងស្ដារទស្សន៍ទ្រនិច ផ្លាស់ទីវាពីទីតាំងមួយក្នុងអត្ថបទទៅមួយទៀត កំណត់ផ្ទាំង លុបផ្នែកនៃបង្អួចស្ថានីយដែលអ្នកកំពុងធ្វើការ ផ្លាស់ប្តូរទម្រង់អត្ថបទនៅលើអេក្រង់ និងផ្លាស់ប្តូរពណ៌ (ឬសូម្បីតែគូរនិងបម្រើសញ្ញាសំឡេង!) ដោយវិធីនេះ នៅឆ្នាំ 1976 នេះគឺជាជំនួយដ៏ល្អសម្រាប់អ្នកសរសេរកម្មវិធី។ ដោយវិធីនេះ ស្ថានីយគឺជាឧបករណ៍ដែលទាមទារសម្រាប់ការបញ្ចូល និងបញ្ចេញព័ត៌មាន។ នៅសម័យឆ្ងាយនោះ វាជាម៉ូនីទ័រ និងក្តារចុចដែលភ្ជាប់ជាមួយកុំព្យូទ័រ (កុំព្យូទ័រអេឡិចត្រូនិក)។

ការបង្ហាញនិមិត្តសញ្ញាមិនត្រឹមត្រូវ

ជាអកុសល នៅពេលអនាគត ប្រព័ន្ធបែបនេះបណ្តាលឱ្យមានការបរាជ័យជាច្រើននៅក្នុងប្រព័ន្ធ ដោយបង្ហាញនូវអ្វីដែលគេហៅថា krakozyabry ជំនួសឱ្យកំណាព្យ ពត៌មានព័ត៌មាន ឬការពិពណ៌នាអំពីហ្គេមកុំព្យូទ័រដែលអ្នកចូលចិត្ត។ - សំណុំតួអក្សរដែលមិនអាចអានបានគ្មានន័យ។ រូបរាងនៃកំហុសគ្រប់ទីកន្លែងទាំងនេះគឺបណ្តាលមកពីការប៉ុនប៉ងដើម្បីបង្ហាញតួអក្សរដែលបានអ៊ិនកូដនៅក្នុងតារាងបំលែងកូដមួយដោយប្រើមួយផ្សេងទៀត។

ជាញឹកញយ យើងនៅតែជួបប្រទះនឹងផលវិបាកនៃការអានមិនត្រឹមត្រូវនៃការបំប្លែងកូដនេះនៅលើអ៊ីនធឺណិត នៅពេលដែលកម្មវិធីរុករកតាមអ៊ីនធឺណិតរបស់យើង ដោយហេតុផលមួយចំនួន មិនអាចកំណត់បានត្រឹមត្រូវថាតើការអ៊ិនកូដ Windows-**** មួយណាត្រូវបានប្រើប្រាស់នាពេលបច្ចុប្បន្ន ដោយសារការចង្អុលបង្ហាញនៃគេហទំព័រ - អ្នកជំនួយការអ៊ិនកូដ ANSI ទូទៅ ឬការអ៊ិនកូដដំបូងមិនត្រឹមត្រូវ ឧទាហរណ៍ 1252 ជំនួសឱ្យ 1521។ ខាងក្រោមគឺជាតារាងការអ៊ិនកូដពិតប្រាកដ។

តារាងអ៊ិនកូដ Cyrillic ANSI, Windows-1251

លើសពីនេះទៅទៀត នៅឆ្នាំ 1986 ANSI ត្រូវបានពង្រីកយ៉ាងខ្លាំង ដោយសារលោក Ian E. Davies ដែលបានសរសេរកញ្ចប់ The Draw ដែលអនុញ្ញាតឱ្យមិនត្រឹមតែប្រើមូលដ្ឋាន តាមទស្សនៈ មុខងាររបស់យើងប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចគូរបានពេញលេញ (ឬស្ទើរតែពេញលេញទៀតផង។ )!