ການສ້າງຕັ້ງ, ວິທະຍາໄລແລະວິທະຍາໄລ

Corpus Linguistics ແມ່ນຫຍັງ?

ພຽງແຕ່ທົດສະວັດທີ່ບໍ່ຫຼາຍປານໃດທີ່ຜ່ານມາເພື່ອເຮັດໃຫ້ການຄົ້ນຄ້ວາພາສາ, ວິທະຍາສາດພຽງແຕ່ສາມາດຝັນຂອງ. ການເຮັດວຽກແມ່ນເຮັດດ້ວຍມື, ມັນດຶງດູດຈໍານວນຂະຫນາດໃຫຍ່ຂອງນັກສຶກສາ, ມີຄວາມເປັນໄປໄດ້ຢ່າງຫຼວງຫຼາຍມີຄວາມຜິດພາດ "careless", ແລະສໍາຄັນທີ່ສຸດ - ທັງຫມົດນີ້ໄດ້ເປັນເວລາດົນ, ເວລາດົນນານ.

ມີການພັດທະນາຂອງເຕັກໂນໂລຊີຄອມພິວເຕີໄດ້ກາຍເປັນໄປໄດ້ທີ່ຈະດໍາເນີນການຄົ້ນຄ້ວາກ່ຽວກັບຄໍາສັ່ງຂອງຂະຫນາດໄດ້ໄວຂຶ້ນ, ແລະໃນມື້ນີ້ຫນຶ່ງຂອງບັນດາທິດທາງທີ່ດີທີ່ສຸດໃນການສຶກສາຂອງພາສາທີ່ເປັນພາສາ corpus. ຄຸນນະສົມບັດຕົ້ນຕໍຂອງຕົນແມ່ນການນໍາໃຊ້ຂອງປະລິມານຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂ່າວສານຂໍ້ຄວາມ, ຂໍ້ມູນຂ່າວສານເຂົ້າໄປໃນຖານຂໍ້ມູນດຽວ, ໃນວິທີການພິເສດແລະໄດ້ຮຽກຮ້ອງໃຫ້ຮ່າງກາຍເຄື່ອງຫມາຍ.

ມາຮອດປະຈຸ, ມີອາຄານຈໍານວນຫຼາຍສ້າງຂຶ້ນດ້ວຍຈຸດປະສົງທີ່ແຕກຕ່າງກັນບົນພື້ນຖານຂອງອຸປະກອນການພາສາຕ່າງໆຢຽດຈາກລ້ານສິບຕື້ຂອງຫນ່ວຍງານ lexical ໄດ້. ທິດທາງນີ້ໄດ້ຖືກຮັບຮູ້ເປັນທີ່ດີແລະສະແດງໃຫ້ເຫັນຄວາມຄືບຫນ້າທີ່ສໍາຄັນຕໍ່ຈຸດປະສົງການນໍາໃຊ້ແລະຄົ້ນຄ້ວາ. ຊ່ຽວຊານ, ວິທີການຫນຶ່ງຫຼືຈັດການກັບພາສາທໍາມະຊາດອື່ນ, ມັນແມ່ນແນະນໍາໃຫ້ໄດ້ຮັບສະນິດສະນົມທີ່ມີຮ່າງກາຍຂອງບົດເລື່ອງຕ່າງໆທີ່ຢູ່ໃນຢ່າງຫນ້ອຍຢູ່ໃນລະດັບພື້ນຖານ.

ປະຫວັດສາດຂອງ corpus ພາສາ

ການສ້າງຕັ້ງຂອງແນວໂນ້ມການນີ້ແມ່ນເນື່ອງມາຈາກການສ້າງຂອງສະຫະລັດອາເມລິກາຢູ່ໃນຮ່າງກາຍນ້ໍາຕານໃນຕົ້ນປີ 60-ies ຂອງສະຕະວັດທີ່ຜ່ານມາໄດ້. ເກັບກໍາຂໍ້ມູນປະກອບດ້ວຍບົດເລື່ອງຂອງທັງຫມົດ 1 ລ້ານຂອງຮູບແບບຄໍາ, ແລະໃນມື້ນີ້ຮ່າງກາຍຂອງຂະຫນາດນີ້ຈະ uncompetitive ໂດຍສິ້ນເຊີງ. ນີ້ເປັນສ່ວນໃຫຍ່ເນື່ອງຈາກຈັງຫວະການພັດທະນາຂອງເຕັກໂນໂລຊີຄອມພິວເຕີ, ເຊັ່ນດຽວກັນກັບຄວາມຕ້ອງການສໍາລັບການຊັບພະຍາກອນຄົ້ນຄ້ວາໃຫມ່.

ໃນ 90s ໄດ້ພາສາ corpus ເກີດເປັນລະບຽບວິໄນຢ່າງເຕັມທີ່ແລະເອກະລາດ, ເປັນການເກັບກໍາຂອງບົດເລື່ອງຕ່າງໆໄດ້ຮັບການຂຶ້ນແລະຫມາຍສໍາລັບອາຍແກັສຂອງພາສາ. ໃນໄລຍະເວລານີ້ມັນໄດ້ຖືກສ້າງຂື້ນ, ສໍາລັບການຍົກຕົວຢ່າງ, ປະເທດອັງກິດແຫ່ງຊາດ Corpus 100 ລ້ານ tokens.

ມີການພັດທະນາຂອງບໍລິເວນຂອງພາສານີ້, ປະລິມານຂໍ້ຄວາມເປັນຫຼາຍແລະຫຼາຍ (ແລະສາມາດບັນລຸພັນລ້ານຫນ່ວຍຈະນານຸກົມ), ແລະຮູບລັກໄດ້ຖືກກາຍມາເປັນຫຼາກຫຼາຍຊະນິດຫຼາຍ. ມາຮອດປະຈຸ, ຊ່ອງອິນເຕີເນັດສາມາດໄດ້ຮັບການພົບເຫັນຊາກລາຍລັກອັກສອນແລະເວົ້າພາສາ multilingual, ແລະວັນນະຄະດີສິລະປະຫຼືວິຊາການການຮຽນຮູ້ສະເພາະ, ເຊັ່ນດຽວກັນກັບຊະນິດອື່ນໆຈໍານວນຫຼາຍ.

ສິ່ງທີ່ມີທີ່ຢູ່ອາໄສ

ປະເພດຂອງຮ່າງກາຍໃນພາສາຮ່າງກາຍອາດຈະຖືກສະຫນອງໃຫ້ສໍາລັບເຫດຜົນຫຼາຍ. ສັງຫອນໃຈພື້ນຖານສໍາລັບການຈັດປະເພດທີ່ສາມາດພາສາຂໍ້ຄວາມ (ພາສາລັດເຊຍ, ເຍຍລະມັນ), ຮູບແບບການເຂົ້າເຖິງ (ແຫຼ່ງເປີດ, ປິດ, ການຄ້າ), ປະເພດຂອງອຸປະກອນການສະແດງຂໍ້ມູນ (fiction, ສາລະຄະດີ, ວິຊາການ, ສື່ສານມວນຊົນ) ໄດ້.

ວິທີການທີ່ຫນ້າສົນໃຈສ້າງວັດຖຸຂອງພາສາເວົ້າ. ນັບຕັ້ງແຕ່ການບັນທຶກໂດຍເຈດຕະນາໃນການປາກເວົ້າດັ່ງກ່າວເພື່ອສ້າງສະພາບແວດລ້ອມທຽມສໍາລັບຕອບແບບສອບຖາມແລະອຸປະກອນການສົ່ງຜົນໃຫ້ບໍ່ສາມາດເອີ້ນວ່າ "ທໍາມະຊາດ", ພາສາຮ່າງກາຍທີ່ທັນສະໄຫມໄດ້ຫມົດວິທີການອື່ນໆ. A ອາສາສະຫມັກແມ່ນເຄື່ອງມືຈມີ microphone ເປັນ, ແລະໃນລະຫວ່າງວັນຜະລິດການບັນທຶກຂອງການສົນທະນາທັງຫມົດ, ໃນທີ່ຈະເຂົ້າຮ່ວມໄດ້. ປະຊາຊົນປະມານ, ແນ່ນອນ, ອາດຈະບໍ່ຮູ້ວ່າໃນໄລຍະການສົນທະນາປະຈໍາວັນການປະກອບສ່ວນເພື່ອການພັດທະນາຂອງວິທະຍາສາດ.

ຕໍ່ມາໄດ້ຮັບການບັນທຶກເກັບຮັກສາໄວ້ໃນຖານຂໍ້ມູນແລະກໍາລັງປະກອບໂດຍພິມປະເພດຂໍ້ມູນຈາກຂໍ້ຄວາມ. ດັ່ງນັ້ນ, ມັນຈະກາຍເປັນ markup ເປັນໄປໄດ້ຈໍາເປັນໃນການສ້າງທີ່ຢູ່ອາໄສຄໍາເວົ້າປາກປະຈໍາວັນ.

ຄໍາຮ້ອງສະຫມັກ

ບ່ອນໃດກໍຕາມການນໍາໃຊ້ຂອງພາສາ, ແລະບາງທີອາດມີການນໍາໃຊ້ຂອງອາຄານບົດເລື່ອງຕ່າງໆທີ່ເປັນໄປໄດ້. ວິທີການຍື່ນຄໍາຮ້ອງຂໍເຮືອໃນພາສາອາດຈະມີ:

ການສ້າງໂຄງການເປັນການກໍານົດທີ່ສໍາຄັນທີ່, ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນດ້ານການເມືອງແລະທຸລະກິດເພື່ອຮັກສາຕິດຕາມການຕອບສະຫນອງໃນທາງບວກແລະທາງລົບຂອງຜູ້ລົງຄະແນນແລະລູກຄ້າ, ຕາມລໍາດັບ.
ລະບົບຂໍ້ມູນຂ່າວສານການເຊື່ອມຕໍ່ກັບຈະນານຸກົມແລະນັກແປພາສາໃນການປັບປຸງປະສິດທິພາບຂອງເຂົາເຈົ້າ.
ຊະນິດຂອງວຽກງານຄົ້ນຄ້ວາທີ່ປະກອບສ່ວນເຂົ້າຄວາມເຂົ້າໃຈຂອງຫນ່ວຍງານພາສາ, ປະຫວັດສາດຂອງການພັດທະນາແລະການຄາດຄະເນການປ່ຽນແປງໃນອະນາຄົດອັນໃກ້ນີ້ຂອງຕົນໄດ້.
ການພັດທະນາຂອງລະບົບ retrieval ຂໍ້ມູນຂ່າວສານອີງໃສ່ວິທະຍາ, syntactic, semantic ແລະອື່ນໆຄຸນນະສົມບັດ.
ທີ່ດີທີ່ສຸດຂອງລະບົບພາສາທີ່ແຕກຕ່າງກັນແລະອື່ນໆ.

ການນໍາໃຊ້ອາຄານ

ການໂຕ້ຕອບຊັບພະຍາກອນທີ່ຄ້າຍຄືກັນກັບເຄື່ອງມືຄົ້ນຫາປົກກະຕິ, ແລະ prompts ຜູ້ໃຊ້ສາມາດປ້ອນຄໍາສັບຫຼືປະສົມປະສານຂອງຄໍາສັບຕ່າງໆໃນການຊອກຫາຖານຂໍ້ມູນໄດ້. ນອກປະກອບການສອບຖາມທີ່ແນ່ນອນສາມາດນໍາໃຊ້ສະບັບປັບປຸງ, ເຊິ່ງອະນຸຍາດໃຫ້ເພື່ອຊອກຫາຂໍ້ມູນຂ່າວສານຂໍ້ຄວາມກ່ຽວກັບ virtually ເງື່ອນໄຂພາສາໃດ.

ຖານຄົ້ນຫາອາດຈະ:

ສະມາຊິກຂອງກຸ່ມສະເພາະໃດຫນຶ່ງຂອງພາກສ່ວນຂອງການປາກເວົ້າ;
ຄຸນນະສົມບັດ grammatical;
ຄວາມຫມາຍ;
stylistic ແລະຈິດໃຈສີ.

ນອກນັ້ນທ່ານຍັງສາມາດສົມທົບການຄົ້ນຫາສໍາລັບລໍາດັບຂອງຄໍາສັບຕ່າງໆເປັນ, ສໍາລັບການຍົກຕົວຢ່າງ, ເພື່ອຊອກຫາການປະກົດຕົວຂອງຄໍາໃນປະຈຸບັນຄໍາ, ຄົນທໍາອິດປະເພດ, ເຊິ່ງມາຫຼັງຈາກ preposition ໄດ້ "ໃນ" ແລະພາສາໃນກໍລະນີໂຈດໄດ້. ການແກ້ໄຂວຽກງານດັ່ງກ່າວງ່າຍດາຍທີ່ໃຊ້ເວລາທີ່ຜູ້ໃຊ້ບໍ່ພໍເທົ່າໃດວິນາທີແລະຮຽກຮ້ອງໃຫ້ມີພຽງແຕ່ກົດຫນູບໍ່ຫຼາຍປານໃດໃນຂົງເຂດທີ່ກໍານົດໄວ້.

ຂະບວນການຂອງການສ້າງ

ການຊອກຫາຕົວຂອງມັນເອງສາມາດເຮັດໄດ້ກ່ຽວກັບ subcorpus ທັງຫມົດແລະໄດ້ຮັບຄັດເລືອກໂດຍສະເພາະ, ໂດຍອີງຕາມຄວາມຕ້ອງການໃນການບັນລຸເປົ້າຫມາຍສະເພາະຂອງ:

ຂັ້ນຕອນທໍາອິດແມ່ນເພື່ອກໍານົດທີ່ບົດເລື່ອງອື່ນໆທີ່ປະກອບເປັນພື້ນຖານສໍາລັບກໍລະນີດັ່ງກ່າວ. ສໍາລັບຈຸດປະສົງການປະຕິບັດ, ມັນຖືກນໍາໃຊ້ເລື້ອຍໆຂອງນັກຂ່າວ, ຂ່າວ, ຄວາມຄິດເຫັນອອນໄລນ໌. ໂຄງການຄົ້ນຄ້ວາແມ່ນການນໍາໃຊ້ທີ່ຫລາກຫລາຍຂອງປະເພດຊຸດໄດ້, ແຕ່ຂໍ້ຄວນໄດ້ຮັບການຄັດເລືອກອີງຕາມການບາງພື້ນຖານ.
ການເກັບກໍາຜົນອອກມາຂອງບົດເລື່ອງຕ່າງໆອາດມີການ pretreatment, ມີການແກ້ໄຂຄວາມຜິດພາດຂອງ, ຖ້າມີ, ກະກຽມໂດຍຄໍາອະທິບາຍບັນນານຸກົມແລະພິເສດທີ່ໃຊ້ພາສາຂອງຂໍ້ຄວາມ.
ໄດ້ຖືກລົບລ້າງຂໍ້ມູນຂ່າວສານທີ່ບໍ່ແມ່ນຕົ້ນສະບັບເດີມທັງຫມົດ: ລຶບຮູບພາບ, ຮູບພາບ, ຕາຕະລາງ.
ເປັນການຈັດສັນຂອງ tokens, ຊຶ່ງເປັນປົກກະຕິການປາກເວົ້າ, ສໍາລັບການປະມວນຜົນໃນຕໍ່ຫນ້າ.
ທ້າຍສຸດນີ້, ມັນປະຕິບັດວິທະຍາ, syntactic ແລະເຄື່ອງຫມາຍອື່ນໆໄດ້ສຽງຂອງອົງປະກອບ.

ຜົນໄດ້ຮັບຂອງທຸລະກໍາທັງຫມົດທີ່ຂຽນໂດຍໂຄງປະກອບການ syntactic ກັບແຈກຢາຍໃນທົ່ວສັງຄົມສຽງຂອງອົງປະກອບ, ແຕ່ລະຊຶ່ງໃນນັ້ນແມ່ນລະບຸສ່ວນຂອງການປາກເວົ້າ, ໄວຍະກອນແລະໃນບາງກໍລະນີ, ຄຸນລັກສະນະ semantic.

ຂໍ້ຫຍຸ້ງຍາກໃນການສ້າງອາຄານ

ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະເຂົ້າໃຈວ່າບໍ່ແມ່ນພຽງພໍທີ່ຈະເຮັດໃຫ້ກັນທີ່ກໍານົດໄວ້ຂອງຄໍາສັບຕ່າງໆຫຼືປະໂຫຍກສໍາລັບຮ່າງກາຍ. ໃນອີກດ້ານຫນຶ່ງ, ການເກັບກໍາບົດເລື່ອງຕ່າງໆທີ່ຄວນຈະມີການດຸ່ນດ່ຽງ, ວ່າແມ່ນ, ເປັນຕົວແທນຂອງປະເພດທີ່ແຕກຕ່າງກັນຂອງບົດເລື່ອງຕ່າງໆໃນສະເພາະໃດຫນຶ່ງອັດຕາສ່ວນ. ກ່ຽວກັບການອື່ນໆ - ເນື້ອໃນຂອງ enclosure ໄດ້ຄວນຈະໄດ້ຮັບສະຖານທີ່ໃນວິທີການພິເສດ.

ບັນຫາທໍາອິດແມ່ນການແກ້ໄຂໂດຍສັນຍາເກັ່ງເພາະຕົວຢ່າງ, ໃນການເກັບກໍາປະກອບດ້ວຍ 60% ຂອງບົດເລື່ອງຕ່າງໆວັນນະຄະດີ, 20% ຂອງຄະດີ, ອັດຕາສ່ວນສະເພາະໃດຫນຶ່ງໄດ້ຮັບການສະແດງລາຍລັກອັກສອນຂອງພາສາທີ່ເວົ້າຕາມຕົງ, ນິຕິກໍາ, ວຽກງານວິທະຍາສາດ, ແລະອື່ນໆທີ່ສົມບູນແບບສູດສົມສ່ວນຂອງຮ່າງກາຍໃນມື້ນີ້ບໍ່ມີ ...

ຄໍາຖາມທີສອງ, ກ່ຽວກັບການຮູບລັກເນື້ອຫາແກ້ໄຂສິ່ງທ້າທາຍ. ມີໂຄງການພິເສດແລະຂັ້ນຕອນວິທີການນໍາໃຊ້ສໍາລັບການອັດຕະໂນມັດຫມາຍຂອງບົດເລື່ອງຕ່າງໆແມ່ນ, ແຕ່ພວກເຂົາເຈົ້າບໍ່ໃຫ້ເປັນຜົນທີ່ສົມບູນແບບ, ສາມາດເຮັດໃຫ້ເກີດການຢຸດຊະງັກແລະຮຽກຮ້ອງໃຫ້ມີ rework ຄູ່ມື. ກາລະໂອກາດແລະສິ່ງທ້າທາຍໃນການຈັດການກັບບັນຫານີ້ໄດ້ຖືກອະທິບາຍໃນລາຍລະອຽດໃນເອກະສານ V. P. Zaharova ຂອງພາສາຮ່າງກາຍ.

markup ຂໍ້ຄວາມຖືກປະຕິບັດຢູ່ໃນລະດັບຫຼາຍ, ທີ່ພວກເຮົາລາຍຕ່ໍາກວ່າ.

tagging morphological

ຈາກໂຮງຮຽນ, ພວກເຮົາຈື່ໄດ້ວ່າໃນພາສາລັດເຊຍ, ບໍ່ມີພາກສ່ວນທີ່ແຕກຕ່າງກັນຂອງການປາກເວົ້າ, ແລະແຕ່ລະຄົນຂອງເຂົາເຈົ້າມີລັກສະນະເປັນຂອງຕົນເອງ. ສໍາລັບຕົວຢ່າງ, ຄໍາມີປະເພດຂອງຄວາມໂນ້ມອຽງແລະໃຊ້ເວລາທີ່ບໍ່ມີພາສາ. ເປັນເຈົ້າຂອງພາສາໂດຍບໍ່ມີການ hesitation ປະຕິເສດຄໍານາມແລະຄໍາກິລິຍາ conjugate, ແຕ່ເພື່ອເຮັດເຄື່ອງຫມາຍຮ່າງກາຍຂອງ 100 ລ້ານ. tokens ແຮງງານຄູ່ມືຈະບໍ່ເຮັດວຽກ. ທັງຫມົດການດໍາເນີນງານມີຄວາມຈໍາເປັນສາມາດດໍາເນີນການຄອມພິວເຕີ, ຢ່າງໃດກໍຕາມ, ສໍາລັບການນີ້ມັນຕ້ອງການທີ່ຈະໄດ້ຮັບການສອນ.

tagging ສັນຖານວິທະຄອມພິວເຕີຕ້ອງ "ເຂົ້າໃຈ" ແຕ່ລະຄໍາເປັນສ່ວນສະເພາະໃດຫນຶ່ງຂອງການປາກເວົ້າມີລັກສະນະໄວຍະກອນທີ່ແນ່ນອນ. ນັບຕັ້ງແຕ່ລັດເຊຍ (ແລະພາສາອື່ນໆ) ດໍາເນີນການຈໍານວນຂອງກົດລະບຽບປົກກະຕິ, ມັນເປັນໄປໄດ້ທີ່ຈະສ້າງເປັນລະບຽບການອັດຕະໂນມັດສໍາລັບການວິເຄາະວິທະຍາ, ການລົງທຶນໃນລົດສໍາລັບການຈໍານວນຂອງຂັ້ນຕອນວິທີ. ຢ່າງໃດກໍຕາມ, ມີຂໍ້ຍົກເວັ້ນຕໍ່ກົດລະບຽບ, ເຊັ່ນດຽວກັນກັບປັດໄຈພາວະແຊກຊ້ອນຕ່າງໆ. ດັ່ງນັ້ນ, ການວິເຄາະຄອມພິວເຕີ net ຂອງມື້ນີ້ແມ່ນຢູ່ໄກຈາກທີ່ເຫມາະສົມ, ແລະແມ້ກະທັ້ງ 4 ຄວາມຜິດພາດ% yields ເປັນມູນຄ່າທັງຫມົດ 4 ລ້ານ. ຄໍາໃນຮ່າງກາຍຂອງ 100 ລ້ານ. ຫນ່ວຍທີ່ຕ້ອງ rework ຄູ່ມື.

ຫນັງສືລະອຽດອະທິບາຍບັນຫາ Zaharova V. P "Corpus Linguistics".

ບັນທຶກຫຍໍ້ syntactic

ການແຍກຫຼືການແຍກວິເຄາະ - ລະບຽບການທີ່ກໍານົດສາຍພົວພັນຂອງຄໍາສັບຕ່າງໆໃນປະໂຫຍກໄດ້. ການນໍາໃຊ້ທີ່ກໍານົດໄວ້ຂອງສູດການຄິດໄລ່ເປັນໄປໄດ້ທີ່ຈະກໍານົດຂໍ້ຄວາມຂອງວິຊາ, ຢາ, ນອກຈາກນັ້ນ, ຫຼາຍເຮັດໃນການເວົ້າ. ຊອກຫາທີ່ຄໍາແມ່ນລໍາດັບຕົ້ນຕໍ, ແລະ - ຂຶ້ນ, ພວກເຮົາປະສິດທິພາບສາມາດສະກັດຂໍ້ມູນຈາກຂໍ້ຄວາມທີ່ຈະສອນເຄື່ອງໃນການອອກເພື່ອຕອບສະຫນອງກັບການຮ້ອງຂໍການຊອກຫາເປັນພຽງແຕ່ຂໍ້ມູນຂ່າວສານທີ່ຫນ້າສົນໃຈພວກເຮົາ.

ໂດຍວິທີການ, ເຄື່ອງຈັກຊອກຫາທີ່ທັນສະໄຫມນໍາໃຊ້ມັນເພື່ອໃຫ້ອອກຈໍານວນສະເພາະໃດຫນຶ່ງແທນທີ່ຈະເປັນຂອງບົດເລື່ອງຕ່າງໆທີ່ຍາວນານເພື່ອຕອບສະຫນອງກັບການສອບຖາມທີ່ກ່ຽວຂ້ອງເຊັ່ນ: "ວິທີການຈໍານວນຫຼາຍພະລັງງານໃນຫມາກໂປມ" ຫຼື "ໄລຍະທາງຈາກ Moscow ກັບທີ່ St Petersburg." ຢ່າງໃດກໍຕາມ, ທີ່ຈະເຂົ້າໃຈແມ້ກະທັ້ງຄວາມຮູ້ພື້ນຖານຂອງຂະບວນການອະທິບາຍໂດຍຄວາມຕ້ອງການປຶກສາຫາລື "ການນໍາສະເຫນີການ Corpus Linguistics" ຫຼື tutorial ພື້ນຖານອື່ນໆ.

semantic markup

The ຫມາຍຂອງຄໍາວ່າ - ແມ່ນ, ໃນເງື່ອນໄຂທີ່ງ່າຍດາຍ, ຄວາມຫມາຍໄດ້. ວິທີການຢ່າງກວ້າງຂວາງສາມາດນໍາໃຊ້ກັບການວິເຄາະຄວາມຫມາຍຂອງ tags ຄໍາສະແດງທີ່ສະທ້ອນໃຫ້ເຫັນຂອງເຂົາເປັນຂອງທີ່ກໍານົດໄວ້ຂອງປະເພດ semantic ແລະ subcategories ໄດ້. ຂໍ້ມູນດັ່ງກ່າວແມ່ນມີຄຸນຄ່າສໍາລັບ optimizing ຂັ້ນຕອນວິທີວິເຄາະໂຕນຂໍ້ຄວາມ, ສະຫຼຸບອັດຕະໂນມັດແລະວິທີການວຽກງານອື່ນໆຂອງພາສາຮ່າງກາຍ.

ມີຈໍານວນຂອງ "ຮາກ" ຂອງຕົ້ນໄມ້, ຕາງຫນ້າເປັນຄໍາບໍ່ມີຕົວຕົນທີ່ມີຄວາມຫມາຍກ້ວາງຫຼາຍມີ. ໃນຖານະເປັນສາຂາຂອງຂໍ້ຕົ້ນໄມ້ໄດ້ຖືກສ້າງຕັ້ງຂຶ້ນ, ມີອົງປະກອບ lexical ແລະເພາະເຈາະຈົງ. ສໍາລັບຕົວຢ່າງ, ຄໍາວ່າ "ສິ່ງມີຊີວິດ" ອາດຈະໄດ້ຮັບທີ່ກ່ຽວຂ້ອງກ່ຽວກັບເນື້ອໃນດັ່ງກ່າວເປັນ "ມະນຸດ" ແລະ "ສັດ". ຄໍາທໍາອິດຈະດໍາເນີນການຕໍ່ກັບສາຂາອອກເຂົ້າໄປໃນວິຊາອາຊີບທີ່ແຕກຕ່າງກັນ, ຂໍ້ກໍານົດຄ່າຍທາງພີ່ນ້ອງ, ສັນຊາດ, ແລະຄັ້ງທີສອງ - ໃນຫ້ອງຮຽນແລະປະເພດຂອງສັດ.

ການນໍາໃຊ້ລະບົບ retrieval ຂໍ້ມູນຂ່າວສານ

ພື້ນທີ່ຂອງການນໍາໃຊ້ພາສາຮ່າງກາຍກວມເອົາບັນດາຂົງເຂດຂອງກິດຈະກໍາ. ເຮືອນໄດ້ຖືກນໍາໃຊ້ສໍາລັບການກະກຽມແລະການແກ້ໄຂຂອງການຄົ້ນຫາ, ການສ້າງລະບົບການແປພາສາອັດຕະໂນມັດ, annotating, ດຶງຂໍ້ເທັດຈິງ, ການກໍານົດໂຕນແລະການປະມວນຜົນຂໍ້ອື່ນໆ.

ໃນນອກຈາກນັ້ນ, ຊັບພະຍາກອນດັ່ງກ່າວໄດ້ຖືກນໍາໃຊ້ຢ່າງຈິງຈັງໃນການສຶກສາຂອງພາສາໃນໂລກແລະກົນໄກການປະຕິບັດຫນ້າຂອງພາສາໂດຍທົ່ວໄປໄດ້. ການເຂົ້າເຖິງບໍລິມາດຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂ່າວສານທາງສ່ວນຫນ້າຂອງການກະກຽມສະສຶກສາຢ່າງໄວວາແລະທີ່ສົມບູນແບບຂອງແນວໂນ້ມຂອງພາສາການພັດທະນາແລະການປ່ຽນແປງຄົງຕົວ neologisms ໄວເວົ້າໃຫ້ຄຸນຄ່າຫນ່ວຍ lexical ແລະອື່ນໆ.

ເນື່ອງຈາກວ່າການເຮັດວຽກທີ່ມີປະລິມານຂະຫນາດໃຫຍ່ດັ່ງກ່າວຂອງຂໍ້ມູນຮຽກຮ້ອງໃຫ້ມີອັດຕະໂນມັດ, ໃນມື້ນີ້ມີປະຕິສໍາພັນໃກ້ຊິດລະຫວ່າງຄອມພິວເຕີແລະ corpus ໄດ້ພາສາ.

ລັດເຊຍ Corpus ແຫ່ງຊາດ

ກໍລະນີນີ້ (ສະບັບຫຍໍ້ NKRYA) ປະກອບມີຈໍານວນຂອງ subcorpus, ອະນຸຍາດໃຫ້ການນໍາໃຊ້ຂອງຊັບພະຍາກອນສໍາລັບຊະນິດກ້ວາງຂອງວຽກງານການ.

ອຸປະກອນໃນຖານຂໍ້ມູນໄດ້ຖືກແບ່ງອອກ NKRYA:

ສາທາລະນະໃນ 90s ສື່ມວນຊົນແລະຊຸມປີ 2000, ທັງພາຍໃນແລະຕ່າງປະເທດ;
ການບັນທຶກຄໍາເວົ້າ;
aktsentologicheski ຫມາຍຂໍ້ພຣະຄໍາພີ ( i.e. , ເຄື່ອງຫມາຍຂອງຄວາມກົດດັນໄດ້);
ເວົ້າພາສາ;
poetry;
ວັດສະດຸທີ່ມີ syntactic ແລະເຄື່ອງຫມາຍ.

ລະບົບຂໍ້ມູນຂ່າວສານຍັງປະກອບ Subcorpus ກັບການແປພາສາຂະຫນານຂອງວຽກຈາກລັດເຊຍເຂົ້າໄປໃນພາສາອັງກິດ, ເຍຍລະມັນ, ຝຣັ່ງແລະຈໍານວນຫຼາຍພາສາອື່ນໆ (ແລະໃນທາງກັບກັນ).

ນອກຈາກນີ້ໃນຖານຂໍ້ມູນທີ່ມີສ່ວນຂອງບົດເລື່ອງຕ່າງໆປະຫວັດສາດ, ທີ່ເປັນຕົວແທນຄໍາເວົ້າລາຍລັກອັກສອນໃນພາສາລັດເຊຍໃນໄລຍະເວລາທີ່ແຕກຕ່າງກັນຂອງການພັດທະນາຂອງຕົນ. ນອກນັ້ນຍັງມີຮ່າງກາຍການຝຶກອົບຮົມ, ທີ່ສາມາດເປັນປະໂຫຍດສໍາລັບພົນລະເມືອງຕ່າງປະເທດໃນການຄວບຄຸມພາສາລັດເຊຍ.

ລັດເຊຍແຫ່ງຊາດ Corpus ປະກອບດ້ວຍ 400 ລ້ານຫນ່ວຍ lexical, ແລະໃນຫຼາຍວິທີການລ່ວງຫນ້າຂອງສ່ວນທີ່ສໍາຄັນຂອງພາສາຂອງອົງການຈັດຕັ້ງເອີຣົບໄດ້.

ຄວາມສົດໃສດ້ານ

ຄວາມເປັນຈິງໃນເງື່ອນໄຂຂອງການຮັບຮູ້ຂອງແນວໂນ້ມການນີ້ແມ່ນການມີກໍາສັນຍາພາສາ corpus ຫ້ອງທົດລອງໃນມະລັດເຊຍ, ເຊັ່ນດຽວກັນກັບຕ່າງປະເທດໄດ້. ມີການນໍາໃຊ້ຂອງແລະຄົ້ນຄ້ວາໃນຂອບຂອງການຂໍ້ມູນຂ່າວສານແລະການຄົ້ນຫານີ້ຊັບພະຍາກອນດັ່ງກ່າວຫມາຍເຖິງການພັດທະນາຂອງບາງພື້ນທີ່ໃນພາກສະຫນາມຂອງເຕັກໂນໂລຊີສູງ, ລະບົບຄໍາຖາມ, ຕອບ, ແຕ່ມັນແມ່ນປຶກສາຫາລືຂ້າງເທິງ.

ການພັດທະນາໃນຕໍ່ຫນ້າຂອງຮ່າງກາຍພາສາແມ່ນການຄາດຄະເນຢູ່ໃນທຸກລະດັບຕັ້ງແຕ່ດ້ານວິຊາການແລະຂໍ້ກໍານົດຂອງການປະຕິບັດຂັ້ນຕອນວິທີໃຫມ່ທີ່ເພີ່ມປະສິດທິຂະບວນການຂອງການຊອກຫາແລະການປະມວນຜົນຂໍ້ມູນ, ເພີ່ມຂີດຄວາມສາຄອມພິວເຕີໄດ້, RAM ເພີ່ມເຕີມ, ແລະຜູ້ບໍລິໂພກ, ເນື່ອງຈາກວ່າຜູ້ຊົມໃຊ້ມີວິທີການເພີ່ມເຕີມແລະເພີ່ມເຕີມຕໍ່ກັບການນໍາໃຊ້ປະເພດຂອງຊັບພະຍາກອນນີ້ໃນແຕ່ລະວັນຂອງພວກເຂົາ ຊີວິດແລະການເຮັດວຽກ.

ສະຫລຸບລວມແລ້ວ

ຢູ່ເຄິ່ງກາງຂອງສະຕະວັດທີ່ຜ່ານມາໃນປີ 2017 ເບິ່ງຄືວ່າໃນອະນາຄົດຫ່າງໄກ, ບ່ອນທີ່ spaceships ເດີນທາງຜ່ານຈັກກະວານແລະຫຸ່ນຍົນເຮັດວຽກທັງຫມົດສໍາລັບການປະຊາຊົນ. ໃນຄວາມເປັນຈິງ, ວິທະຍາສາດແມ່ນເຕັມໄປດ້ວຍ "ຈຸດສີຂາວ" ແລະເຮັດໃຫ້ຄວາມພະຍາຍາມຫມົດຫວັງທີ່ຈະຕອບຄໍາຖາມຂອງມະນຸດຊາດສໍາລັບສັດຕະວັດແລ້ວລົບກວນໄດ້. ຄໍາຖາມທີ່ປະຕິບັດຫນ້າຂອງພາສານີ້ໄວກວ່າສະຖານທີ່ຂອງກຽດສັກສີ, ແລະຕູ້ແລະຄອມພິວເຕີພາສາສາມາດຊ່ວຍໃຫ້ພວກເຮົາຕອບໃຫ້ເຂົາເຈົ້າ.

ການປະມວນຜົນຂອງຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ສາມາດກວດສອບຮູບແບບ, ມູນຫຍຸ້ງຍາກຫລາຍໃນເມື່ອກ່ອນ, ຄາດຄະເນການພັດທະນາຄຸນນະສົມບັດພາສາສະເພາະໃດຫນຶ່ງເພື່ອຕິດຕາມການສ້າງຕັ້ງຂອງຄໍາສັບຕ່າງໆໃນທີ່ໃຊ້ເວລາທີ່ແທ້ຈິງໄດ້.

ໃນລະດັບປະຕິບັດ, ການ enclosures ທົ່ວໂລກສາມາດໄດ້ຮັບການເຫັນ, ສໍາລັບການຍົກຕົວຢ່າງ, ເປັນເຄື່ອງມືມີທ່າແຮງໃນການປະເມີນອາລົມສາທາລະນະ - ອິນເຕີເນັດແມ່ນການປັບປຸງຢູ່ສະເຫມີພື້ນຖານບົດເລື່ອງຕ່າງໆປະຈໍາວັນທີ່ສ້າງຂຶ້ນໂດຍຜູ້ໃຊ້ທີ່ແທ້ຈິງ: ຄວາມຄິດເຫັນນີ້ແລະການທົບທວນຄືນ, ແລະບົດຄວາມແລະຮູບແບບອື່ນໆຈໍານວນຫຼາຍໃນການປາກເວົ້າ.

ໃນນອກຈາກນັ້ນ, ການເຮັດວຽກກັບອົງການຈັດຕັ້ງປະກອບສ່ວນເຂົ້າການພັດທະນາຂອງຮາດແວດຽວກັນ, ທີ່ມີສ່ວນຮ່ວມໃນການຟື້ນຟູຂໍ້ມູນ, ພວກເຮົາມີຄວາມຄຸ້ນເຄີຍກັບການບໍລິການ "ກູໂກ" ຫຼື "Yandex", ການແປພາສາເຄື່ອງ, ຈະນານຸກົມເອເລັກໂຕຣນິກ.

ພວກເຮົາມີຄວາມຫມັ້ນໃຈສາມາດຍືນຍັນວ່າພາສາ corpus ໄດ້ເຮັດໃຫ້ພຽງແຕ່ຂັ້ນຕອນທໍາອິດ, ແລະໃນອະນາຄົດອັນໃກ້ນີ້ຈະ flourish.

ການສ້າງຕັ້ງ, ວິທະຍາໄລແລະວິທະຍາໄລ

Corpus Linguistics ແມ່ນຫຍັງ?

ປະຫວັດສາດຂອງ corpus ພາສາ

ສິ່ງທີ່ມີທີ່ຢູ່ອາໄສ

ຄໍາຮ້ອງສະຫມັກ

ການນໍາໃຊ້ອາຄານ

ຂະບວນການຂອງການສ້າງ

ຂໍ້ຫຍຸ້ງຍາກໃນການສ້າງອາຄານ

tagging morphological

ບັນທຶກຫຍໍ້ syntactic

semantic markup

ການນໍາໃຊ້ລະບົບ retrieval ຂໍ້ມູນຂ່າວສານ

ລັດເຊຍ Corpus ແຫ່ງຊາດ

ຄວາມສົດໃສດ້ານ

ສະຫລຸບລວມແລ້ວ

Similar articles

ການສ້າງຕັ້ງ

ການສ້າງຕັ້ງ

ການສ້າງຕັ້ງ

ການສ້າງຕັ້ງ

ການສ້າງຕັ້ງ

ການສ້າງຕັ້ງ

Trending Now

ຄອມພິວເຕີ

ສຸຂະພາບ

ທຸລະກິດ

ສຸຂະພາບ

ຂ່າວແລະສະມາຄົມ

ສຸຂະພາບ

Newest

ສຸຂະພາບ

ສຸຂະພາບ

ຂ່າວແລະສະມາຄົມ

ອາຫານແລະເຄື່ອງດື່ມ

ການສ້າງຕັ້ງ

ສິລະປະແລະຄວາມບັນເທີງ