ຄອມພິວເຕີດໍາເນີນໂຄງການ

UTF-8 - ການເຂົ້າລະຫັດລັກສະນະ

Unicode ສະຫນັບສະຫນູນ virtually ທັງຫມົດຊຸດມີລັກສະນະທີ່ມີຢູ່ແລ້ວ. ຮູບແບບທີ່ດີທີ່ສຸດຂອງການເຂົ້າລະຫັດທີ່ກໍານົດໄວ້ລັກສະນະ Unicode ເປັນ UTF-8 ລະບົບພາສາ. ມັນສະຫນັບສະຫນູນທີ່ເຫມາະສົມກັບ ASCII, ການຕໍ່ຕ້ານກັບການບິດເບືອນຂອງຂໍ້ມູນໄດ້, ປະສິດທິພາບແລະສະດວກໃນການປະມວນຜົນ. ແຕ່ສິ່ງທີ່ທໍາອິດຄັ້ງທໍາອິດ.

ຮູບແບບການເຂົ້າລະຫັດ

ຄອມພິວເຕີປະຕິບັດງານບໍ່ພຽງແຕ່ເປັນຈໍານວນວັດຖຸບໍ່ມີຕົວຕົນທາງຄະນິດສາດ, ເຊັ່ນດຽວກັນກັບການລວມກັນຂອງຫນ່ວຍງານຂອງການເກັບຮັກສາແລະການຈັດການຂໍ້ມູນການແກ້ໄຂຂະຫນາດ - byte ແລະຄໍາ 32-bit. ມາດຕະຖານການເຂົ້າລະຫັດຕ້ອງໃຊ້ເວລານີ້ເຂົ້າໃນບັນຊີໃນເວລາທີ່ກໍານົດວິທີການນໍາສະເຫນີ ຈໍານວນຂອງຕົວອັກສອນໄດ້.

ໃນລະບົບຄອມພິວເຕີ, ຈໍານວນເຕັມໄດ້ເກັບຮັກສາໄວ້ໃນຈຸລັງຫນ່ວຍຄວາມຈໍາຂອງ 8 ບິດ (1 byte), 16 ຫຼື 32 bits. ຮູບແບບໃນແຕ່ລະໄດ້ກໍານົດເປັນການເຂົ້າລະຫັດ Unicode ຊຶ່ງລໍາດັບຂອງຈຸລັງຫນ່ວຍຄວາມຈໍາເປັນຈໍານວນເຕັມທີ່ສອດຄ້ອງກັນກັບສັນຍາລັກສະເພາະ. ໃນມາດຕະຖານທີ່ມີສາມຮູບແບບທີ່ແຕກຕ່າງກັນຂອງຊົນຕົວອັກສອນ Unicode 8, 16 ແລະ 32-bit ຕັນ. ຕາມຄວາມເຫມາະສົມ, ພວກເຂົາເຈົ້າເປັນທີ່ຮູ້ຈັກເປັນ UTF-8, UTF-16 ແລະ UTF-32. ຊື່ UTF ຫຍໍ້ມາຈາກ Unicode Format ການຫັນເປັນ. ແຕ່ລະໃນສາມຮູບແບບຂອງວິທີການເຂົ້າລະຫັດແມ່ນເທົ່າທຽມກັນການເປັນຕົວແທນອັກຂະລະ Unicode ມີຄວາມໄດ້ປຽບໃນການໃຊ້ວຽກຕ່າງໆ.

ການເຂົ້າລະຫັດຂໍ້ມູນສາມາດຖືກນໍາໃຊ້ເພື່ອເປັນຕົວແທນຂອງຕົວອັກສອນທັງຫມົດໃນມາດຕະຖານ Unicode. ດັ່ງນັ້ນ, ພວກເຂົາເຈົ້າໄດ້ຢ່າງເຕັມສ່ວນທີ່ເຫມາະສົມເພື່ອແກ້ໄຂບັນສໍາລັບຊະນິດຂອງເຫດຜົນ, ການນໍາໃຊ້ຮູບແບບທີ່ແຕກຕ່າງກັນຂອງຊົນ. ແຕ່ລະການເຂົ້າລະຫັດສາມາດແບ່ງຂັ້ນຄຸ້ມຄອງໄດ້ຮັບການປ່ຽນໃຈເຫລື້ອມໃສເຂົ້າໄປໃນທຸກຂອງຄົນອື່ນທັງສອງໂດຍບໍ່ມີການສູນເສຍຂອງຂໍ້ມູນ.

ຫຼັກການ nenalozheniya

ແຕ່ລະຂອງລະບົບພາສາຮູບແບບ Unicode ພັດທະນາໃນທັດສະນະຂອງກັນບໍ່ບາງສ່ວນ. ສໍາລັບຕົວຢ່າງ, Windows, 932 ຄໍານາມພາລັກສະນະຂອງຫນຶ່ງຫຼືສອງ bytes ຂອງຂໍ້ກໍານົດ. ຄວາມຍາວລໍາດັບຂຶ້ນຢູ່ກັບ byte ທໍາອິດ, ສະນັ້ນການຄ່າ byte ນໍາໃນໄລຍະການຂອງສອງໄບຕ໌ແລະ disjointed ໄບດຽວໄດ້. ຢ່າງໃດກໍຕາມ, ມູນຄ່າຂອງໄບດຽວແລະຕໍ່ທ້າຍລໍາດັບ byte ອາດ coincide. ນີ້ຫມາຍຄວາມວ່າສໍາລັບການຍົກຕົວຢ່າງວ່າການຄົ້ນຫາມີລັກສະນະ D (ລະຫັດ 44) ສາມາດຊອກຫາມັນ mistakenly ເຂົ້າເຂົ້າໄປໃນສ່ວນທີ່ສອງຂອງລໍາດັບຂອງສອງໄບຕ໌ລັກສະນະຂອງ "D" ໄດ້ (ລະຫັດ 84 44). ເພື່ອກວດເບິ່ງວ່າລໍາດັບທີ່ຖືກຕ້ອງ, ໂຄງການຄວນຈະໃຊ້ເວລາເຂົ້າໄປໃນບັນຊີຂອງໄບຕ໌ທີ່ຜ່ານມາ.

ສະຖານະການສັບສົນ, ຖ້າຫາກວ່າການຈັບຄູ່ນໍາແລະຕໍ່ທ້າຍໄບຕ໌. ນີ້ຫມາຍຄວາມວ່າໃນຄໍາສັ່ງທີ່ຈະເອົານ່າສົງໃສຈະເປັນການຄົ້ນຫາໄດ້ຢ່າງສິ້ນເຊີງກ່ອນທີ່ຈະເຖິງການເລີ່ມຕົ້ນຂອງຂໍ້ຄວາມຫຼືລໍາດັບລະຫັດເປັນເອກະລັກໄດ້. ນີ້ແມ່ນບໍ່ພຽງແຕ່ປະສິດທິພາບ, ແຕ່ບໍ່ໄດ້ປ້ອງກັນຈາກຄວາມຜິດພາດທີ່ເປັນໄປໄດ້, ນັບຕັ້ງແຕ່ມີພຽງແຕ່ຫນຶ່ງ byte ຜິດກັບຂໍ້ມູນແບບເຕັມໆໄດ້ກາຍເປັນບໍ່ສາມາດອ່ານ.

ຮູບແບບການແປງ Unicode ການລົດຜ່ອນຄວາມບັນຫານີ້ເນື່ອງຈາກວ່າມູນຄ່າຂອງຊັ້ນນໍາ, trailing, ແລະຫນ່ວຍບໍລິການດຽວຂອງການເກັບຮັກສາບໍ່ໄດ້ຂໍ້ມູນຂ່າວສານດຽວກັນ. ນີ້ຮັບປະກັນວ່າທັງຫມົດ Unicode ສໍາລັບການຊອກຫາແລະການປຽບທຽບ, ບໍ່ໃຫ້ຜົນໄດ້ຮັບ erroneous ເນື່ອງຈາກ coincidence ຂອງພາກສ່ວນທີ່ແຕກຕ່າງກັນຂອງລະຫັດລັກສະນະດັ່ງກ່າວ. ຄວາມຈິງທີ່ວ່າຮູບແບບການເຫຼົ່ານີ້ຂອງຊົນສັງເກດເຫັນ nenalozheniya ຫຼັກການ, ທີ່ແຕກຕ່າງອອກ Asian ຕາເວັນອອກລະບົບພາສາຫຼາຍໄບຕ໌ອື່ນໆ.

ດ້ານ nonintersection ອື່ນ ລະບົບພາສາ Unicode ແມ່ນມີລັກສະນະແຕ່ລະມີຊາຍແດນກໍານົດຢ່າງຈະແຈ້ງ. ນີ້ບໍ່ຈໍາເປັນຕ້ອງສະແກນເປັນຈໍານວນບໍ່ຈໍາກັດຂອງສັນຍາລັກທີ່ຜ່ານມາ. ຄຸນນະສົມບັດນີ້ແມ່ນໄດ້ຖືກເອີ້ນວ່າບາງຄັ້ງການເຂົ້າລະຫັດຕົນເອງ clocking. ການບິດເບືອນຂອງຫນ່ວຍງານລະຫັດຈະແນະນໍາການບິດເບືອນຂອງມີພຽງແຕ່ລັກສະນະ, ແລະລັກສະນະອ້ອມຂ້າງແມ່ນຍັງ intact. ໃນຮູບແບບການສົນທະນາ 8-bit, ຖ້າຈຸດຊີ້ໄປ byte, ໂດຍເລີ່ມຕົ້ນ 10xxxxxx (ໃນລະຫັດໄບນາລີ) ເພື່ອຊອກຫາການເລີ່ມຕົ້ນຂອງສັນຍາລັກທີ່ໄດ້ຖືກກໍານົດສໍາລັບການຫນຶ່ງໃນສາມຕຣາການປ່ຽນແປງຢ່າງສິ້ນເຊີງ.

ຄວາມສອດຄ່ອງ

Unicode Consortium ຢ່າງເຕັມສ່ວນສະຫນັບສະຫນູນທັງຫມົດ 3 ຮູບແບບຂອງລະບົບພາສາ. ມັນເປັນສິ່ງສໍາຄັນບໍ່ໃຫ້ oppose ໄດ້ UTF-8 ແລະ Unicode, ເປັນທັງຫມົດຮູບແບບການແປງ - ເທົ່າທຽມກັນຮູບແບບທີ່ຖືກຕ້ອງຂອງ embodiment ຂອງມາດຕະຖານມີລັກສະນະການເຂົ້າລະຫັດ Unicode.

ໄບຕ໌ປະຖົມນິເທດ

ເພື່ອເປັນຕົວແທນ UTF-32 ຕົວອັກສອນຈະຕ້ອງມີຫນ່ວຍບໍລິການລະຫັດ 32-bit, ເຊິ່ງ coincides ມີລະຫັດ Unicode. UTF-16 - ຫນຶ່ງຫາສອງຫນ່ວຍ 16-bit. A UTF-8 ໃຊ້ເຖິງ 4 ໄບຕ໌.

ການເຂົ້າລະຫັດ UTF-8 ທີ່ອອກແບບມາໃຫ້ເຫມາະສົມກັບລະບົບ ASCII ທີ່ byte, ຮັດກຸມ. ສ່ວນໃຫຍ່ຂອງຊອບແວທີ່ມີຢູ່ແລ້ວແລະການປະຕິບັດຂອງເຕັກໂນໂລຊີຂໍ້ມູນຂ່າວສານສໍາລັບການໃຊ້ເວລາດົນນານໄດ້ອີງອາໃສການເປັນຕົວແທນຂອງຕົວອັກສອນໃນລໍາດັບຂອງໄບຕ໌ໄດ້. ອະນຸສັນຍາທີ່ຫຼາກຫຼາຍຂຶ້ນຢູ່ກັບຄວາມຫມັ້ນຄົງຂອງ ລະບົບພາສາ ASCII ແລະໃຊ້ບໍ່ວ່າຈະລົດຜ່ອນຄວາມຕົວອັກສອນຄວບຄຸມພິເສດ. A ວິທີການງ່າຍດາຍທີ່ຈະໃຫ້ເຫມາະສົມກັບສະຖານະການ Unicode ສາມາດເຮັດໄດ້, ການນໍາໃຊ້ການເຂົ້າລະຫັດ 8-bit ສໍາລັບຕົວແທນຕົວອັກສອນ Unicode, ລັກສະນະຂອງ ASCII ທຽບເທົ່າຫຼືລັກສະນະການຄວບຄຸມໄດ້. ດ້ວຍເຫດດັ່ງກ່າວນີ້, ແລະມັນເປັນ UTF-8 ລະບົບພາສາ.

ຄວາມຍາວຂອງຕົວປ່ຽນແປງ

UTF-8 - ການເຂົ້າລະຫັດຂອງຄວາມຍາວຂອງຕົວປ່ຽນແປງ, ປະກອບມີຫນ່ວຍງານການເກັບຮັກສາ 8-bit, ບິດເທິງຊຶ່ງຊີ້ບອກທີ່ສ່ວນຫນຶ່ງຂອງລໍາດັບຂອງແຕ່ລະ byte ບຸກຄົນເປັນ. ລະດັບຫນຶ່ງຂອງຄ່າທີ່ໄດ້ຮັບການອົງປະກອບທໍາອິດຂອງລໍາດັບຂໍ້ກໍານົດ, ອື່ນໆ - ສໍາລັບຕໍ່ໄປ. ນີ້ຈະສະຫນອງການເຂົ້າລະຫັດ disjointed.

ASCII

ລະຫັດ ASCII ການເຂົ້າລະຫັດ UTF-8 ທີ່ສະຫນັບສະຫນຸນຢ່າງເຕັມສ່ວນ (0x00-0x7F). ຊຶ່ງຫມາຍຄວາມວ່າຕົວອັກສອນ Unicode U + 0000-U + 007F ປ່ຽນໃຈເຫລື້ອມໃສເຂົ້າໄປໃນໄບດຽວ 0x00-0x7F UTF-8 ແລະກາຍເປັນ indistinguishable ຈາກ ASCII ດັ່ງນັ້ນຈຶ່ງ. ນອກຈາກນີ້, ເພື່ອຫຼີກເວັ້ນການນ່າສົງໃສ, ມູນຄ່າການ 0x00-0x7F ບໍ່ໄດ້ໃຊ້ອີກຕໍ່ໄປໃນການເປັນຕົວແທນໄບດຽວຂອງຕົວອັກສອນ Unicode. ການເຂົ້າລະຫັດສັນຍາລັກ neideograficheskih ອື່ນທີ່ບໍ່ແມ່ນ ASCII, ການນໍາໃຊ້ລໍາດັບຂອງສອງ bytes ໄດ້. ສັນຍາລັກສະ U + 0800-U + FFFF ແມ່ນເປັນຕົວແທນໂດຍສາມໄບແລະລະຫັດເພີ່ມເຕີມມີຫຼາຍກ່ວາ U + FFFF ຮຽກຮ້ອງໃຫ້ມີສີ່ໄບຕ໌.

ຂອບເຂດຂອງຄໍາຮ້ອງສະຫມັກ

ການເຂົ້າລະຫັດ UTF-8 ປົກກະຕິແລ້ວແມ່ນໄດ້ຮັບຄວາມຕ້ອງການໃນອະນຸສັນຍາ HTML, ແລະຄື.

XML ໄດ້ກາຍເປັນມາດຕະຖານທີ່ດີເດັ່ນເຕັມສໍາລັບ UTF-8 ລະບົບພາສາ. ອົງການຈັດຕັ້ງມາດຕະຖານຍັງແນະນໍາໃຫ້ມັນ. ບັນຫາສະຫນັບສະຫນູນທີ່ຢູ່ເວັບໄຊທີ່ແຕກຕ່າງຈາກລັກສະນະ ASCII, ໄດ້, ໄດ້ຮັບການແກ້ໄຂໃນເວລາທີ່ W3C ກຸ່ມບໍລິສັດແລະກຸ່ມວິສະວະກໍາ IETF ມາໃນຂໍ້ຕົກລົງກ່ຽວກັບການເຂົ້າລະຫັດຂອງທັງຫມົດ ທີ່ຢູ່ເວັບໄຊ ສະເພາະແຕ່ໃນ UTF-8.

ຄວາມເຂົ້າກັນໄດ້ກັບ ASCII ສະຫັນໄປສູ່ການຊອບແວໃຫມ່. ມີ UTF-8 ທີ່ເຮັດວຽກບັນນາທິການຫນັງສືທີ່ສຸດ, ລວມທັງ jEdit, Emacs, BBEdit, ອຸປະລາຄາ, ແລະ "Notepad" ລະບົບປະຕິບັດການ Windows. No ຮູບແບບອື່ນໆຂອງການເຂົ້າລະຫັດ Unicode ບໍ່ສາມາດເວົ້າໂອ້ອວດຂອງດັ່ງກ່າວສະຫນັບສະຫນູນຂອງເຄື່ອງມືໄດ້.

ລະຫັດປະໂຫຍດແມ່ນວ່າມັນປະກອບດ້ວຍລໍາດັບຂອງໄບຕ໌ໄດ້. ມີ UTF-8 string ແມ່ນເລື່ອງງ່າຍທີ່ຈະເຮັດວຽກໃນ C ແລະພາສາການຂຽນໂປຣແກຣມອື່ນໆ. ນີ້ແມ່ນຮູບແບບພຽງແຕ່ຂອງລະບົບພາສາ, ຄໍາສັ່ງບໍ່ຮຽກຮ້ອງໃຫ້ມີສະຫຼາກໄບ BOM ຫຼືການປະກາດການເຂົ້າລະຫັດໃນ XML.

synchronization ຕົນເອງ

ໃນສະພາບແວດລ້ອມທີ່ໃຊ້ສັນຍາລັກ 8-bit ຂອງການປະມວນຜົນເມື່ອທຽບກັບອື່ນໆຊຸດຕົວອັກສອນຫຼາຍໄບຕ໌ເປັນ, UTF-8 ມີຄວາມໄດ້ປຽບດັ່ງຕໍ່ໄປນີ້:

  • ທໍາອິດລໍາດັບລະຫັດ byte ປະກອບດ້ວຍຂໍ້ມູນກ່ຽວກັບຄວາມຍາວຂອງຕົນ. ນີ້ເພີ່ມປະສິດທິພາບຂອງການຄົ້ນຫາໂດຍກົງໄດ້.
  • ຫຍໍ້ການຊອກຫາການເລີ່ມຕົ້ນຂອງສັນຍາລັກທີ່ເປັນ byte ເລີ່ມໄດ້ຖືກຈໍາກັດການລະດັບຄົງທີ່ຂອງຄ່າ.
  • No ຄ່າ intersection byte.

ປຽບທຽບຜົນປະໂຫຍດໄດ້

ການເຂົ້າລະຫັດ UTF-8 ມີຂະຫນາດເລັກ. ແຕ່ໃນເວລາທີ່ນໍາໃຊ້ສໍາລັບການເຂົ້າລະຫັດຕົວອັກສອນອາຊີຕາເວັນ (ຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ລາຍລັກອັກສອນຈີນນໍາໃຊ້ອາການ) ການນໍາໃຊ້ລໍາດັບ 3 ໄບຕ໌. ນອກຈາກນີ້ຮອງຮັບ UTF-8 ລະບົບພາສາແມ່ນ inferior ກັບຮູບແບບອື່ນໆຂອງການເຂົ້າລະຫັດຄວາມໄວການປຸງແຕ່ງ. A ສາຍການຮຽງລໍາດັບໄບນາລີສາມາດຜະລິດຜົນໄດ້ຮັບເຊັ່ນດຽວກັນກັບຄູ່ຮຽງລໍາດັບ Unicode.

ໂຄງການລະບົບພາສາມີລັກສະນະ

ໂຄງການລະບົບພາສາມີລັກສະນະປະກອບດ້ວຍຮູບແບບສັນຍາລັກການເຂົ້າລະຫັດແລະວິທີການສໍາລັບການໄບດຽວຫນ່ວຍລະຫັດສະຖານທີ່. ການກໍານົດການໃສ່ລະຫັດມາດຕະຖານ Unicode ໃຫ້ການນໍາໃຊ້ຂອງເຄື່ອງຫມາຍເພື່ອ byte ທໍາອິດ (BOM, ໄບຕ໌ເຄື່ອງຫມາຍ order) ໄດ້.

ໃນເວລາທີ່ BOM ໃນ UTF-8 ໂຄດຄໍາສັ່ງຄຸນນະສົມບັດໄດ້ຖືກຈໍາກັດໂດຍການອ້າງອິງເທົ່າກັບການນໍາໃຊ້ໃນຮູບແບບຂອງການເຂົ້າລະຫັດໄດ້. ບັນຫາໃນການກໍານົດ endian UTF-8 ມີ, ເປັນຂະຫນາດການເຂົ້າລະຫັດຂອງຕົນແມ່ນຫນຶ່ງໃນ byte. ການນໍາໃຊ້ BOM ສໍາລັບຮູບແບບຂອງການເຂົ້າລະຫັດນີ້ແມ່ນບໍ່ຕ້ອງການຫຼືແນະນໍາ. BOM ອາດຈະເກີດຂຶ້ນໃນຂໍ້ຄວາມທີ່ຈະປ່ຽນໃຈເຫລື້ອມໃສຈາກລະຫັດອື່ນ ໆ ໃຊ້ເຄື່ອງຫມາຍເພື່ອ byte ຫຼືລາຍເຊັນສໍາລັບ UTF-8 ລະບົບພາສາ. ເປັນລໍາດັບຂອງ 3 bytes EF BB 16 16 BF 16 ໄດ້.

ວິທີການຕັ້ງຄ່າລະບົບພາສາ UTF-8

The HTML ລະຫັດ UTF-8 ໄດ້ຖືກຕິດຕັ້ງທີ່ມີລະຫັດດັ່ງຕໍ່ໄປນີ້:

ຫົວ

meta http-equiv = "Content-Type" content = "text / html; charset = utf-8" ˃

ໃນ PHP UTF-8 ລະບົບພາສາແມ່ນໄດ້ກໍານົດການນໍາໃຊ້ການທໍາງານຂອງຫົວ () ໃນຕອນຕົ້ນຂອງເອກະສານດັ່ງກ່າວພາຍຫຼັງການສ້າງຕັ້ງຄວາມຜິດພາດຄ່າລະດັບຜົນຜະລິດ:

˂? Php

error_reporting (-1);

header ( "Content-Type: text / html; charset = utf-8");

ເພື່ອເຊື່ອມຕໍ່ກັບຖານຂໍ້ມູນ MySQL UTF-8 ລະບົບພາສາແມ່ນໄດ້ກໍານົດ:

˂? Php

mysql_set_charset ( 'utf8');

ການເຂົ້າລະຫັດ CSS, ເອກະສານແມ່ນ UTF-8 ຕົວອັກສອນແມ່ນກໍານົດໄວ້ດັ່ງຕໍ່ໄປນີ້:

@charset "utf-8";

ໃນເວລາທີ່ທ່ານຊ່ວຍປະຢັດໄຟລ໌ຂອງທຸກປະເພດເລືອກ UTF-8 ລະບົບພາສາໂດຍບໍ່ມີການ BOM, ຖ້າບໍ່ດັ່ງນັ້ນເວັບໄຊດັ່ງກ່າວຈະບໍ່ເຮັດວຽກ. ເພື່ອເຮັດສິ່ງນີ້ໃນ Dreamweaver ຈໍາເປັນຕ້ອງເລືອກລາຍການເມນູ "ແກ້ໄຂ - ຄຸນສົມບັດ Page - ຫົວຂໍ້ / ລະບົບພາສາ" ມີການປ່ຽນແປງການເຂົ້າລະຫັດໃນການຮອງຮັບ UTF-8. ປະຕິບັດຕາມໂດຍ reloading ຫນ້າ, ເອົາເຄື່ອງຫມາຍຖືກອອກຈາກ "ລາຍເຊັນ Connect Unicode (BOM) »ແລະສະຫມັກຂໍເອົາການປ່ຽນແປງ. ຖ້າຫາກວ່າຂໍ້ຄວາມໃດກ່ຽວກັບຫນ້າຫຼືໃນຖານຂໍ້ມູນໄດ້ນໍາສະເຫນີຮູບແບບຂອງການລະຫັດອື່ນ, ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະ Re: ກະລຸນາໃສ່ຫຼື Re: encode. ໃນເວລາທີ່ທ່ານເຮັດວຽກຮ່ວມກັບການສະແດງອອກເປັນປົກກະຕິ, ໃຫ້ແນ່ໃຈວ່າການນໍາໃຊ້ຕົວໄດ້ u.

ນອກນັ້ນທ່ານຍັງສາມາດບັນທຶກໄຟລ໌ໃນລະບົບພາສາ UTF-8 ໃນ "Notepad" ຂອງ Windows. ຫຼັງຈາກການເລືອກລາຍການໃນເມນູ "File - Save As ... " ການຕິດຕັ້ງຮູບແບບມີຄວາມຈໍາເປັນຂອງການເຂົ້າລະຫັດແລະປະຫຍັດເອກະສານໃນ UTF-8 ໄດ້.

ໃນບັນນາທິການບົດເລື່ອງ Notepad ++, ຖ້າຫາກກໍານົດອື່ນໆກ່ວາ UTF-8, ຜ່ານລາຍການເມນູ "ປ່ຽນເພື່ອຮອງຮັບ UTF-8 ໂດຍບໍ່ມີການ BOM »ມີການປ່ຽນແປງລັກສະນະແລະບັນທຶກໃນ UTF-8.

ບໍ່ມີທາງເລືອກທີ່ບໍ່ມີ

ໃນສະພາບການຂອງໂລກາພິວັດ, ບ່ອນທີ່ຂອບເຂດຊາຍແດນທາງດ້ານການເມືອງແລະພາສາໄດ້ຖືກລຶບໄດ້, ຊຸດມີລັກສະນະທີ່ມີລັກສະນະທ້ອງຖິ່ນ, ມີການນໍາໃຊ້ພຽງເລັກນ້ອຍ. Unicode ເປັນທີ່ກໍານົດໄວ້ລັກສະນະດຽວທີ່ຮອງຮັບໃນທ້ອງຖິ່ນທັງຫມົດ. A UTF-8 - ຕົວຢ່າງຂອງການປະຕິບັດທີ່ເຫມາະສົມຂອງ Unicode, ຊຶ່ງເປັນ:

  • ມັນສະຫນັບສະຫນູນເປັນລະດັບຄວາມກ້ວາງຂອງເຄື່ອງມື, ລວມທັງເຫມາະສົມກັບການເຂົ້າລະຫັດ ASCII;
  • ມັນເປັນໄມ້ທົນທານຂໍ້ມູນບິດເບືອນ;
  • ງ່າຍດາຍແລະປະສິດທິພາບໃນການປິ່ນປົວ;
  • ແມ່ນເວທີເປັນເອກະລາດ.

ມີການມາເຖິງຂອງ UTF-8 ການໂຕ້ວາທີກ່ຽວກັບສິ່ງທີ່ຮູບແບບຂອງການເຂົ້າລະຫັດຫລືມີລັກສະນະທີ່ກໍານົດໄວ້ເປັນທີ່ດີກວ່າທີ່ມັນຈະກາຍເປັນຄວາມຫມາຍ.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 lo.birmiss.com. Theme powered by WordPress.