ການສ້າງຕັ້ງ, ວິທະຍາໄລແລະວິທະຍາໄລ
Corpus Linguistics ແມ່ນຫຍັງ?
ພຽງແຕ່ທົດສະວັດທີ່ບໍ່ຫຼາຍປານໃດທີ່ຜ່ານມາເພື່ອເຮັດໃຫ້ການຄົ້ນຄ້ວາພາສາ, ວິທະຍາສາດພຽງແຕ່ສາມາດຝັນຂອງ. ການເຮັດວຽກແມ່ນເຮັດດ້ວຍມື, ມັນດຶງດູດຈໍານວນຂະຫນາດໃຫຍ່ຂອງນັກສຶກສາ, ມີຄວາມເປັນໄປໄດ້ຢ່າງຫຼວງຫຼາຍມີຄວາມຜິດພາດ "careless", ແລະສໍາຄັນທີ່ສຸດ - ທັງຫມົດນີ້ໄດ້ເປັນເວລາດົນ, ເວລາດົນນານ.
ມີການພັດທະນາຂອງເຕັກໂນໂລຊີຄອມພິວເຕີໄດ້ກາຍເປັນໄປໄດ້ທີ່ຈະດໍາເນີນການຄົ້ນຄ້ວາກ່ຽວກັບຄໍາສັ່ງຂອງຂະຫນາດໄດ້ໄວຂຶ້ນ, ແລະໃນມື້ນີ້ຫນຶ່ງຂອງບັນດາທິດທາງທີ່ດີທີ່ສຸດໃນການສຶກສາຂອງພາສາທີ່ເປັນພາສາ corpus. ຄຸນນະສົມບັດຕົ້ນຕໍຂອງຕົນແມ່ນການນໍາໃຊ້ຂອງປະລິມານຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂ່າວສານຂໍ້ຄວາມ, ຂໍ້ມູນຂ່າວສານເຂົ້າໄປໃນຖານຂໍ້ມູນດຽວ, ໃນວິທີການພິເສດແລະໄດ້ຮຽກຮ້ອງໃຫ້ຮ່າງກາຍເຄື່ອງຫມາຍ.
ມາຮອດປະຈຸ, ມີອາຄານຈໍານວນຫຼາຍສ້າງຂຶ້ນດ້ວຍຈຸດປະສົງທີ່ແຕກຕ່າງກັນບົນພື້ນຖານຂອງອຸປະກອນການພາສາຕ່າງໆຢຽດຈາກລ້ານສິບຕື້ຂອງຫນ່ວຍງານ lexical ໄດ້. ທິດທາງນີ້ໄດ້ຖືກຮັບຮູ້ເປັນທີ່ດີແລະສະແດງໃຫ້ເຫັນຄວາມຄືບຫນ້າທີ່ສໍາຄັນຕໍ່ຈຸດປະສົງການນໍາໃຊ້ແລະຄົ້ນຄ້ວາ. ຊ່ຽວຊານ, ວິທີການຫນຶ່ງຫຼືຈັດການກັບພາສາທໍາມະຊາດອື່ນ, ມັນແມ່ນແນະນໍາໃຫ້ໄດ້ຮັບສະນິດສະນົມທີ່ມີຮ່າງກາຍຂອງບົດເລື່ອງຕ່າງໆທີ່ຢູ່ໃນຢ່າງຫນ້ອຍຢູ່ໃນລະດັບພື້ນຖານ.
ປະຫວັດສາດຂອງ corpus ພາສາ
ການສ້າງຕັ້ງຂອງແນວໂນ້ມການນີ້ແມ່ນເນື່ອງມາຈາກການສ້າງຂອງສະຫະລັດອາເມລິກາຢູ່ໃນຮ່າງກາຍນ້ໍາຕານໃນຕົ້ນປີ 60-ies ຂອງສະຕະວັດທີ່ຜ່ານມາໄດ້. ເກັບກໍາຂໍ້ມູນປະກອບດ້ວຍບົດເລື່ອງຂອງທັງຫມົດ 1 ລ້ານຂອງຮູບແບບຄໍາ, ແລະໃນມື້ນີ້ຮ່າງກາຍຂອງຂະຫນາດນີ້ຈະ uncompetitive ໂດຍສິ້ນເຊີງ. ນີ້ເປັນສ່ວນໃຫຍ່ເນື່ອງຈາກຈັງຫວະການພັດທະນາຂອງເຕັກໂນໂລຊີຄອມພິວເຕີ, ເຊັ່ນດຽວກັນກັບຄວາມຕ້ອງການສໍາລັບການຊັບພະຍາກອນຄົ້ນຄ້ວາໃຫມ່.
ໃນ 90s ໄດ້ພາສາ corpus ເກີດເປັນລະບຽບວິໄນຢ່າງເຕັມທີ່ແລະເອກະລາດ, ເປັນການເກັບກໍາຂອງບົດເລື່ອງຕ່າງໆໄດ້ຮັບການຂຶ້ນແລະຫມາຍສໍາລັບອາຍແກັສຂອງພາສາ. ໃນໄລຍະເວລານີ້ມັນໄດ້ຖືກສ້າງຂື້ນ, ສໍາລັບການຍົກຕົວຢ່າງ, ປະເທດອັງກິດແຫ່ງຊາດ Corpus 100 ລ້ານ tokens.
ມີການພັດທະນາຂອງບໍລິເວນຂອງພາສານີ້, ປະລິມານຂໍ້ຄວາມເປັນຫຼາຍແລະຫຼາຍ (ແລະສາມາດບັນລຸພັນລ້ານຫນ່ວຍຈະນານຸກົມ), ແລະຮູບລັກໄດ້ຖືກກາຍມາເປັນຫຼາກຫຼາຍຊະນິດຫຼາຍ. ມາຮອດປະຈຸ, ຊ່ອງອິນເຕີເນັດສາມາດໄດ້ຮັບການພົບເຫັນຊາກລາຍລັກອັກສອນແລະເວົ້າພາສາ multilingual, ແລະວັນນະຄະດີສິລະປະຫຼືວິຊາການການຮຽນຮູ້ສະເພາະ, ເຊັ່ນດຽວກັນກັບຊະນິດອື່ນໆຈໍານວນຫຼາຍ.
ສິ່ງທີ່ມີທີ່ຢູ່ອາໄສ
ປະເພດຂອງຮ່າງກາຍໃນພາສາຮ່າງກາຍອາດຈະຖືກສະຫນອງໃຫ້ສໍາລັບເຫດຜົນຫຼາຍ. ສັງຫອນໃຈພື້ນຖານສໍາລັບການຈັດປະເພດທີ່ສາມາດພາສາຂໍ້ຄວາມ (ພາສາລັດເຊຍ, ເຍຍລະມັນ), ຮູບແບບການເຂົ້າເຖິງ (ແຫຼ່ງເປີດ, ປິດ, ການຄ້າ), ປະເພດຂອງອຸປະກອນການສະແດງຂໍ້ມູນ (fiction, ສາລະຄະດີ, ວິຊາການ, ສື່ສານມວນຊົນ) ໄດ້.
ວິທີການທີ່ຫນ້າສົນໃຈສ້າງວັດຖຸຂອງພາສາເວົ້າ. ນັບຕັ້ງແຕ່ການບັນທຶກໂດຍເຈດຕະນາໃນການປາກເວົ້າດັ່ງກ່າວເພື່ອສ້າງສະພາບແວດລ້ອມທຽມສໍາລັບຕອບແບບສອບຖາມແລະອຸປະກອນການສົ່ງຜົນໃຫ້ບໍ່ສາມາດເອີ້ນວ່າ "ທໍາມະຊາດ", ພາສາຮ່າງກາຍທີ່ທັນສະໄຫມໄດ້ຫມົດວິທີການອື່ນໆ. A ອາສາສະຫມັກແມ່ນເຄື່ອງມືຈມີ microphone ເປັນ, ແລະໃນລະຫວ່າງວັນຜະລິດການບັນທຶກຂອງການສົນທະນາທັງຫມົດ, ໃນທີ່ຈະເຂົ້າຮ່ວມໄດ້. ປະຊາຊົນປະມານ, ແນ່ນອນ, ອາດຈະບໍ່ຮູ້ວ່າໃນໄລຍະການສົນທະນາປະຈໍາວັນການປະກອບສ່ວນເພື່ອການພັດທະນາຂອງວິທະຍາສາດ.
ຕໍ່ມາໄດ້ຮັບການບັນທຶກເກັບຮັກສາໄວ້ໃນຖານຂໍ້ມູນແລະກໍາລັງປະກອບໂດຍພິມປະເພດຂໍ້ມູນຈາກຂໍ້ຄວາມ. ດັ່ງນັ້ນ, ມັນຈະກາຍເປັນ markup ເປັນໄປໄດ້ຈໍາເປັນໃນການສ້າງທີ່ຢູ່ອາໄສຄໍາເວົ້າປາກປະຈໍາວັນ.
ຄໍາຮ້ອງສະຫມັກ
ບ່ອນໃດກໍຕາມການນໍາໃຊ້ຂອງພາສາ, ແລະບາງທີອາດມີການນໍາໃຊ້ຂອງອາຄານບົດເລື່ອງຕ່າງໆທີ່ເປັນໄປໄດ້. ວິທີການຍື່ນຄໍາຮ້ອງຂໍເຮືອໃນພາສາອາດຈະມີ:
- ການສ້າງໂຄງການເປັນການກໍານົດທີ່ສໍາຄັນທີ່, ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນດ້ານການເມືອງແລະທຸລະກິດເພື່ອຮັກສາຕິດຕາມການຕອບສະຫນອງໃນທາງບວກແລະທາງລົບຂອງຜູ້ລົງຄະແນນແລະລູກຄ້າ, ຕາມລໍາດັບ.
- ລະບົບຂໍ້ມູນຂ່າວສານການເຊື່ອມຕໍ່ກັບຈະນານຸກົມແລະນັກແປພາສາໃນການປັບປຸງປະສິດທິພາບຂອງເຂົາເຈົ້າ.
- ຊະນິດຂອງວຽກງານຄົ້ນຄ້ວາທີ່ປະກອບສ່ວນເຂົ້າຄວາມເຂົ້າໃຈຂອງຫນ່ວຍງານພາສາ, ປະຫວັດສາດຂອງການພັດທະນາແລະການຄາດຄະເນການປ່ຽນແປງໃນອະນາຄົດອັນໃກ້ນີ້ຂອງຕົນໄດ້.
- ການພັດທະນາຂອງລະບົບ retrieval ຂໍ້ມູນຂ່າວສານອີງໃສ່ວິທະຍາ, syntactic, semantic ແລະອື່ນໆຄຸນນະສົມບັດ.
- ທີ່ດີທີ່ສຸດຂອງລະບົບພາສາທີ່ແຕກຕ່າງກັນແລະອື່ນໆ.
ການນໍາໃຊ້ອາຄານ
ການໂຕ້ຕອບຊັບພະຍາກອນທີ່ຄ້າຍຄືກັນກັບເຄື່ອງມືຄົ້ນຫາປົກກະຕິ, ແລະ prompts ຜູ້ໃຊ້ສາມາດປ້ອນຄໍາສັບຫຼືປະສົມປະສານຂອງຄໍາສັບຕ່າງໆໃນການຊອກຫາຖານຂໍ້ມູນໄດ້. ນອກປະກອບການສອບຖາມທີ່ແນ່ນອນສາມາດນໍາໃຊ້ສະບັບປັບປຸງ, ເຊິ່ງອະນຸຍາດໃຫ້ເພື່ອຊອກຫາຂໍ້ມູນຂ່າວສານຂໍ້ຄວາມກ່ຽວກັບ virtually ເງື່ອນໄຂພາສາໃດ.
ຖານຄົ້ນຫາອາດຈະ:
- ສະມາຊິກຂອງກຸ່ມສະເພາະໃດຫນຶ່ງຂອງພາກສ່ວນຂອງການປາກເວົ້າ;
- ຄຸນນະສົມບັດ grammatical;
- ຄວາມຫມາຍ;
- stylistic ແລະຈິດໃຈສີ.
ນອກນັ້ນທ່ານຍັງສາມາດສົມທົບການຄົ້ນຫາສໍາລັບລໍາດັບຂອງຄໍາສັບຕ່າງໆເປັນ, ສໍາລັບການຍົກຕົວຢ່າງ, ເພື່ອຊອກຫາການປະກົດຕົວຂອງຄໍາໃນປະຈຸບັນຄໍາ, ຄົນທໍາອິດປະເພດ, ເຊິ່ງມາຫຼັງຈາກ preposition ໄດ້ "ໃນ" ແລະພາສາໃນກໍລະນີໂຈດໄດ້. ການແກ້ໄຂວຽກງານດັ່ງກ່າວງ່າຍດາຍທີ່ໃຊ້ເວລາທີ່ຜູ້ໃຊ້ບໍ່ພໍເທົ່າໃດວິນາທີແລະຮຽກຮ້ອງໃຫ້ມີພຽງແຕ່ກົດຫນູບໍ່ຫຼາຍປານໃດໃນຂົງເຂດທີ່ກໍານົດໄວ້.
ຂະບວນການຂອງການສ້າງ
ການຊອກຫາຕົວຂອງມັນເອງສາມາດເຮັດໄດ້ກ່ຽວກັບ subcorpus ທັງຫມົດແລະໄດ້ຮັບຄັດເລືອກໂດຍສະເພາະ, ໂດຍອີງຕາມຄວາມຕ້ອງການໃນການບັນລຸເປົ້າຫມາຍສະເພາະຂອງ:
- ຂັ້ນຕອນທໍາອິດແມ່ນເພື່ອກໍານົດທີ່ບົດເລື່ອງອື່ນໆທີ່ປະກອບເປັນພື້ນຖານສໍາລັບກໍລະນີດັ່ງກ່າວ. ສໍາລັບຈຸດປະສົງການປະຕິບັດ, ມັນຖືກນໍາໃຊ້ເລື້ອຍໆຂອງນັກຂ່າວ, ຂ່າວ, ຄວາມຄິດເຫັນອອນໄລນ໌. ໂຄງການຄົ້ນຄ້ວາແມ່ນການນໍາໃຊ້ທີ່ຫລາກຫລາຍຂອງປະເພດຊຸດໄດ້, ແຕ່ຂໍ້ຄວນໄດ້ຮັບການຄັດເລືອກອີງຕາມການບາງພື້ນຖານ.
- ການເກັບກໍາຜົນອອກມາຂອງບົດເລື່ອງຕ່າງໆອາດມີການ pretreatment, ມີການແກ້ໄຂຄວາມຜິດພາດຂອງ, ຖ້າມີ, ກະກຽມໂດຍຄໍາອະທິບາຍບັນນານຸກົມແລະພິເສດທີ່ໃຊ້ພາສາຂອງຂໍ້ຄວາມ.
- ໄດ້ຖືກລົບລ້າງຂໍ້ມູນຂ່າວສານທີ່ບໍ່ແມ່ນຕົ້ນສະບັບເດີມທັງຫມົດ: ລຶບຮູບພາບ, ຮູບພາບ, ຕາຕະລາງ.
- ເປັນການຈັດສັນຂອງ tokens, ຊຶ່ງເປັນປົກກະຕິການປາກເວົ້າ, ສໍາລັບການປະມວນຜົນໃນຕໍ່ຫນ້າ.
- ທ້າຍສຸດນີ້, ມັນປະຕິບັດວິທະຍາ, syntactic ແລະເຄື່ອງຫມາຍອື່ນໆໄດ້ສຽງຂອງອົງປະກອບ.
ຜົນໄດ້ຮັບຂອງທຸລະກໍາທັງຫມົດທີ່ຂຽນໂດຍໂຄງປະກອບການ syntactic ກັບແຈກຢາຍໃນທົ່ວສັງຄົມສຽງຂອງອົງປະກອບ, ແຕ່ລະຊຶ່ງໃນນັ້ນແມ່ນລະບຸສ່ວນຂອງການປາກເວົ້າ, ໄວຍະກອນແລະໃນບາງກໍລະນີ, ຄຸນລັກສະນະ semantic.
ຂໍ້ຫຍຸ້ງຍາກໃນການສ້າງອາຄານ
ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະເຂົ້າໃຈວ່າບໍ່ແມ່ນພຽງພໍທີ່ຈະເຮັດໃຫ້ກັນທີ່ກໍານົດໄວ້ຂອງຄໍາສັບຕ່າງໆຫຼືປະໂຫຍກສໍາລັບຮ່າງກາຍ. ໃນອີກດ້ານຫນຶ່ງ, ການເກັບກໍາບົດເລື່ອງຕ່າງໆທີ່ຄວນຈະມີການດຸ່ນດ່ຽງ, ວ່າແມ່ນ, ເປັນຕົວແທນຂອງປະເພດທີ່ແຕກຕ່າງກັນຂອງບົດເລື່ອງຕ່າງໆໃນສະເພາະໃດຫນຶ່ງອັດຕາສ່ວນ. ກ່ຽວກັບການອື່ນໆ - ເນື້ອໃນຂອງ enclosure ໄດ້ຄວນຈະໄດ້ຮັບສະຖານທີ່ໃນວິທີການພິເສດ.
ບັນຫາທໍາອິດແມ່ນການແກ້ໄຂໂດຍສັນຍາເກັ່ງເພາະຕົວຢ່າງ, ໃນການເກັບກໍາປະກອບດ້ວຍ 60% ຂອງບົດເລື່ອງຕ່າງໆວັນນະຄະດີ, 20% ຂອງຄະດີ, ອັດຕາສ່ວນສະເພາະໃດຫນຶ່ງໄດ້ຮັບການສະແດງລາຍລັກອັກສອນຂອງພາສາທີ່ເວົ້າຕາມຕົງ, ນິຕິກໍາ, ວຽກງານວິທະຍາສາດ, ແລະອື່ນໆທີ່ສົມບູນແບບສູດສົມສ່ວນຂອງຮ່າງກາຍໃນມື້ນີ້ບໍ່ມີ ...
ຄໍາຖາມທີສອງ, ກ່ຽວກັບການຮູບລັກເນື້ອຫາແກ້ໄຂສິ່ງທ້າທາຍ. ມີໂຄງການພິເສດແລະຂັ້ນຕອນວິທີການນໍາໃຊ້ສໍາລັບການອັດຕະໂນມັດຫມາຍຂອງບົດເລື່ອງຕ່າງໆແມ່ນ, ແຕ່ພວກເຂົາເຈົ້າບໍ່ໃຫ້ເປັນຜົນທີ່ສົມບູນແບບ, ສາມາດເຮັດໃຫ້ເກີດການຢຸດຊະງັກແລະຮຽກຮ້ອງໃຫ້ມີ rework ຄູ່ມື. ກາລະໂອກາດແລະສິ່ງທ້າທາຍໃນການຈັດການກັບບັນຫານີ້ໄດ້ຖືກອະທິບາຍໃນລາຍລະອຽດໃນເອກະສານ V. P. Zaharova ຂອງພາສາຮ່າງກາຍ.
markup ຂໍ້ຄວາມຖືກປະຕິບັດຢູ່ໃນລະດັບຫຼາຍ, ທີ່ພວກເຮົາລາຍຕ່ໍາກວ່າ.
tagging morphological
ຈາກໂຮງຮຽນ, ພວກເຮົາຈື່ໄດ້ວ່າໃນພາສາລັດເຊຍ, ບໍ່ມີພາກສ່ວນທີ່ແຕກຕ່າງກັນຂອງການປາກເວົ້າ, ແລະແຕ່ລະຄົນຂອງເຂົາເຈົ້າມີລັກສະນະເປັນຂອງຕົນເອງ. ສໍາລັບຕົວຢ່າງ, ຄໍາມີປະເພດຂອງຄວາມໂນ້ມອຽງແລະໃຊ້ເວລາທີ່ບໍ່ມີພາສາ. ເປັນເຈົ້າຂອງພາສາໂດຍບໍ່ມີການ hesitation ປະຕິເສດຄໍານາມແລະຄໍາກິລິຍາ conjugate, ແຕ່ເພື່ອເຮັດເຄື່ອງຫມາຍຮ່າງກາຍຂອງ 100 ລ້ານ. tokens ແຮງງານຄູ່ມືຈະບໍ່ເຮັດວຽກ. ທັງຫມົດການດໍາເນີນງານມີຄວາມຈໍາເປັນສາມາດດໍາເນີນການຄອມພິວເຕີ, ຢ່າງໃດກໍຕາມ, ສໍາລັບການນີ້ມັນຕ້ອງການທີ່ຈະໄດ້ຮັບການສອນ.
tagging ສັນຖານວິທະຄອມພິວເຕີຕ້ອງ "ເຂົ້າໃຈ" ແຕ່ລະຄໍາເປັນສ່ວນສະເພາະໃດຫນຶ່ງຂອງການປາກເວົ້າມີລັກສະນະໄວຍະກອນທີ່ແນ່ນອນ. ນັບຕັ້ງແຕ່ລັດເຊຍ (ແລະພາສາອື່ນໆ) ດໍາເນີນການຈໍານວນຂອງກົດລະບຽບປົກກະຕິ, ມັນເປັນໄປໄດ້ທີ່ຈະສ້າງເປັນລະບຽບການອັດຕະໂນມັດສໍາລັບການວິເຄາະວິທະຍາ, ການລົງທຶນໃນລົດສໍາລັບການຈໍານວນຂອງຂັ້ນຕອນວິທີ. ຢ່າງໃດກໍຕາມ, ມີຂໍ້ຍົກເວັ້ນຕໍ່ກົດລະບຽບ, ເຊັ່ນດຽວກັນກັບປັດໄຈພາວະແຊກຊ້ອນຕ່າງໆ. ດັ່ງນັ້ນ, ການວິເຄາະຄອມພິວເຕີ net ຂອງມື້ນີ້ແມ່ນຢູ່ໄກຈາກທີ່ເຫມາະສົມ, ແລະແມ້ກະທັ້ງ 4 ຄວາມຜິດພາດ% yields ເປັນມູນຄ່າທັງຫມົດ 4 ລ້ານ. ຄໍາໃນຮ່າງກາຍຂອງ 100 ລ້ານ. ຫນ່ວຍທີ່ຕ້ອງ rework ຄູ່ມື.
ຫນັງສືລະອຽດອະທິບາຍບັນຫາ Zaharova V. P "Corpus Linguistics".
ບັນທຶກຫຍໍ້ syntactic
ການແຍກຫຼືການແຍກວິເຄາະ - ລະບຽບການທີ່ກໍານົດສາຍພົວພັນຂອງຄໍາສັບຕ່າງໆໃນປະໂຫຍກໄດ້. ການນໍາໃຊ້ທີ່ກໍານົດໄວ້ຂອງສູດການຄິດໄລ່ເປັນໄປໄດ້ທີ່ຈະກໍານົດຂໍ້ຄວາມຂອງວິຊາ, ຢາ, ນອກຈາກນັ້ນ, ຫຼາຍເຮັດໃນການເວົ້າ. ຊອກຫາທີ່ຄໍາແມ່ນລໍາດັບຕົ້ນຕໍ, ແລະ - ຂຶ້ນ, ພວກເຮົາປະສິດທິພາບສາມາດສະກັດຂໍ້ມູນຈາກຂໍ້ຄວາມທີ່ຈະສອນເຄື່ອງໃນການອອກເພື່ອຕອບສະຫນອງກັບການຮ້ອງຂໍການຊອກຫາເປັນພຽງແຕ່ຂໍ້ມູນຂ່າວສານທີ່ຫນ້າສົນໃຈພວກເຮົາ.
ໂດຍວິທີການ, ເຄື່ອງຈັກຊອກຫາທີ່ທັນສະໄຫມນໍາໃຊ້ມັນເພື່ອໃຫ້ອອກຈໍານວນສະເພາະໃດຫນຶ່ງແທນທີ່ຈະເປັນຂອງບົດເລື່ອງຕ່າງໆທີ່ຍາວນານເພື່ອຕອບສະຫນອງກັບການສອບຖາມທີ່ກ່ຽວຂ້ອງເຊັ່ນ: "ວິທີການຈໍານວນຫຼາຍພະລັງງານໃນຫມາກໂປມ" ຫຼື "ໄລຍະທາງຈາກ Moscow ກັບທີ່ St Petersburg." ຢ່າງໃດກໍຕາມ, ທີ່ຈະເຂົ້າໃຈແມ້ກະທັ້ງຄວາມຮູ້ພື້ນຖານຂອງຂະບວນການອະທິບາຍໂດຍຄວາມຕ້ອງການປຶກສາຫາລື "ການນໍາສະເຫນີການ Corpus Linguistics" ຫຼື tutorial ພື້ນຖານອື່ນໆ.
semantic markup
The ຫມາຍຂອງຄໍາວ່າ - ແມ່ນ, ໃນເງື່ອນໄຂທີ່ງ່າຍດາຍ, ຄວາມຫມາຍໄດ້. ວິທີການຢ່າງກວ້າງຂວາງສາມາດນໍາໃຊ້ກັບການວິເຄາະຄວາມຫມາຍຂອງ tags ຄໍາສະແດງທີ່ສະທ້ອນໃຫ້ເຫັນຂອງເຂົາເປັນຂອງທີ່ກໍານົດໄວ້ຂອງປະເພດ semantic ແລະ subcategories ໄດ້. ຂໍ້ມູນດັ່ງກ່າວແມ່ນມີຄຸນຄ່າສໍາລັບ optimizing ຂັ້ນຕອນວິທີວິເຄາະໂຕນຂໍ້ຄວາມ, ສະຫຼຸບອັດຕະໂນມັດແລະວິທີການວຽກງານອື່ນໆຂອງພາສາຮ່າງກາຍ.
ມີຈໍານວນຂອງ "ຮາກ" ຂອງຕົ້ນໄມ້, ຕາງຫນ້າເປັນຄໍາບໍ່ມີຕົວຕົນທີ່ມີຄວາມຫມາຍກ້ວາງຫຼາຍມີ. ໃນຖານະເປັນສາຂາຂອງຂໍ້ຕົ້ນໄມ້ໄດ້ຖືກສ້າງຕັ້ງຂຶ້ນ, ມີອົງປະກອບ lexical ແລະເພາະເຈາະຈົງ. ສໍາລັບຕົວຢ່າງ, ຄໍາວ່າ "ສິ່ງມີຊີວິດ" ອາດຈະໄດ້ຮັບທີ່ກ່ຽວຂ້ອງກ່ຽວກັບເນື້ອໃນດັ່ງກ່າວເປັນ "ມະນຸດ" ແລະ "ສັດ". ຄໍາທໍາອິດຈະດໍາເນີນການຕໍ່ກັບສາຂາອອກເຂົ້າໄປໃນວິຊາອາຊີບທີ່ແຕກຕ່າງກັນ, ຂໍ້ກໍານົດຄ່າຍທາງພີ່ນ້ອງ, ສັນຊາດ, ແລະຄັ້ງທີສອງ - ໃນຫ້ອງຮຽນແລະປະເພດຂອງສັດ.
ການນໍາໃຊ້ລະບົບ retrieval ຂໍ້ມູນຂ່າວສານ
ພື້ນທີ່ຂອງການນໍາໃຊ້ພາສາຮ່າງກາຍກວມເອົາບັນດາຂົງເຂດຂອງກິດຈະກໍາ. ເຮືອນໄດ້ຖືກນໍາໃຊ້ສໍາລັບການກະກຽມແລະການແກ້ໄຂຂອງການຄົ້ນຫາ, ການສ້າງລະບົບການແປພາສາອັດຕະໂນມັດ, annotating, ດຶງຂໍ້ເທັດຈິງ, ການກໍານົດໂຕນແລະການປະມວນຜົນຂໍ້ອື່ນໆ.
ໃນນອກຈາກນັ້ນ, ຊັບພະຍາກອນດັ່ງກ່າວໄດ້ຖືກນໍາໃຊ້ຢ່າງຈິງຈັງໃນການສຶກສາຂອງພາສາໃນໂລກແລະກົນໄກການປະຕິບັດຫນ້າຂອງພາສາໂດຍທົ່ວໄປໄດ້. ການເຂົ້າເຖິງບໍລິມາດຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂ່າວສານທາງສ່ວນຫນ້າຂອງການກະກຽມສະສຶກສາຢ່າງໄວວາແລະທີ່ສົມບູນແບບຂອງແນວໂນ້ມຂອງພາສາການພັດທະນາແລະການປ່ຽນແປງຄົງຕົວ neologisms ໄວເວົ້າໃຫ້ຄຸນຄ່າຫນ່ວຍ lexical ແລະອື່ນໆ.
ເນື່ອງຈາກວ່າການເຮັດວຽກທີ່ມີປະລິມານຂະຫນາດໃຫຍ່ດັ່ງກ່າວຂອງຂໍ້ມູນຮຽກຮ້ອງໃຫ້ມີອັດຕະໂນມັດ, ໃນມື້ນີ້ມີປະຕິສໍາພັນໃກ້ຊິດລະຫວ່າງຄອມພິວເຕີແລະ corpus ໄດ້ພາສາ.
ລັດເຊຍ Corpus ແຫ່ງຊາດ
ກໍລະນີນີ້ (ສະບັບຫຍໍ້ NKRYA) ປະກອບມີຈໍານວນຂອງ subcorpus, ອະນຸຍາດໃຫ້ການນໍາໃຊ້ຂອງຊັບພະຍາກອນສໍາລັບຊະນິດກ້ວາງຂອງວຽກງານການ.
ອຸປະກອນໃນຖານຂໍ້ມູນໄດ້ຖືກແບ່ງອອກ NKRYA:
- ສາທາລະນະໃນ 90s ສື່ມວນຊົນແລະຊຸມປີ 2000, ທັງພາຍໃນແລະຕ່າງປະເທດ;
- ການບັນທຶກຄໍາເວົ້າ;
- aktsentologicheski ຫມາຍຂໍ້ພຣະຄໍາພີ ( i.e. , ເຄື່ອງຫມາຍຂອງຄວາມກົດດັນໄດ້);
- ເວົ້າພາສາ;
- poetry;
- ວັດສະດຸທີ່ມີ syntactic ແລະເຄື່ອງຫມາຍ.
ລະບົບຂໍ້ມູນຂ່າວສານຍັງປະກອບ Subcorpus ກັບການແປພາສາຂະຫນານຂອງວຽກຈາກລັດເຊຍເຂົ້າໄປໃນພາສາອັງກິດ, ເຍຍລະມັນ, ຝຣັ່ງແລະຈໍານວນຫຼາຍພາສາອື່ນໆ (ແລະໃນທາງກັບກັນ).
ນອກຈາກນີ້ໃນຖານຂໍ້ມູນທີ່ມີສ່ວນຂອງບົດເລື່ອງຕ່າງໆປະຫວັດສາດ, ທີ່ເປັນຕົວແທນຄໍາເວົ້າລາຍລັກອັກສອນໃນພາສາລັດເຊຍໃນໄລຍະເວລາທີ່ແຕກຕ່າງກັນຂອງການພັດທະນາຂອງຕົນ. ນອກນັ້ນຍັງມີຮ່າງກາຍການຝຶກອົບຮົມ, ທີ່ສາມາດເປັນປະໂຫຍດສໍາລັບພົນລະເມືອງຕ່າງປະເທດໃນການຄວບຄຸມພາສາລັດເຊຍ.
ລັດເຊຍແຫ່ງຊາດ Corpus ປະກອບດ້ວຍ 400 ລ້ານຫນ່ວຍ lexical, ແລະໃນຫຼາຍວິທີການລ່ວງຫນ້າຂອງສ່ວນທີ່ສໍາຄັນຂອງພາສາຂອງອົງການຈັດຕັ້ງເອີຣົບໄດ້.
ຄວາມສົດໃສດ້ານ
ຄວາມເປັນຈິງໃນເງື່ອນໄຂຂອງການຮັບຮູ້ຂອງແນວໂນ້ມການນີ້ແມ່ນການມີກໍາສັນຍາພາສາ corpus ຫ້ອງທົດລອງໃນມະລັດເຊຍ, ເຊັ່ນດຽວກັນກັບຕ່າງປະເທດໄດ້. ມີການນໍາໃຊ້ຂອງແລະຄົ້ນຄ້ວາໃນຂອບຂອງການຂໍ້ມູນຂ່າວສານແລະການຄົ້ນຫານີ້ຊັບພະຍາກອນດັ່ງກ່າວຫມາຍເຖິງການພັດທະນາຂອງບາງພື້ນທີ່ໃນພາກສະຫນາມຂອງເຕັກໂນໂລຊີສູງ, ລະບົບຄໍາຖາມ, ຕອບ, ແຕ່ມັນແມ່ນປຶກສາຫາລືຂ້າງເທິງ.
ການພັດທະນາໃນຕໍ່ຫນ້າຂອງຮ່າງກາຍພາສາແມ່ນການຄາດຄະເນຢູ່ໃນທຸກລະດັບຕັ້ງແຕ່ດ້ານວິຊາການແລະຂໍ້ກໍານົດຂອງການປະຕິບັດຂັ້ນຕອນວິທີໃຫມ່ທີ່ເພີ່ມປະສິດທິຂະບວນການຂອງການຊອກຫາແລະການປະມວນຜົນຂໍ້ມູນ, ເພີ່ມຂີດຄວາມສາຄອມພິວເຕີໄດ້, RAM ເພີ່ມເຕີມ, ແລະຜູ້ບໍລິໂພກ, ເນື່ອງຈາກວ່າຜູ້ຊົມໃຊ້ມີວິທີການເພີ່ມເຕີມແລະເພີ່ມເຕີມຕໍ່ກັບການນໍາໃຊ້ປະເພດຂອງຊັບພະຍາກອນນີ້ໃນແຕ່ລະວັນຂອງພວກເຂົາ ຊີວິດແລະການເຮັດວຽກ.
ສະຫລຸບລວມແລ້ວ
ຢູ່ເຄິ່ງກາງຂອງສະຕະວັດທີ່ຜ່ານມາໃນປີ 2017 ເບິ່ງຄືວ່າໃນອະນາຄົດຫ່າງໄກ, ບ່ອນທີ່ spaceships ເດີນທາງຜ່ານຈັກກະວານແລະຫຸ່ນຍົນເຮັດວຽກທັງຫມົດສໍາລັບການປະຊາຊົນ. ໃນຄວາມເປັນຈິງ, ວິທະຍາສາດແມ່ນເຕັມໄປດ້ວຍ "ຈຸດສີຂາວ" ແລະເຮັດໃຫ້ຄວາມພະຍາຍາມຫມົດຫວັງທີ່ຈະຕອບຄໍາຖາມຂອງມະນຸດຊາດສໍາລັບສັດຕະວັດແລ້ວລົບກວນໄດ້. ຄໍາຖາມທີ່ປະຕິບັດຫນ້າຂອງພາສານີ້ໄວກວ່າສະຖານທີ່ຂອງກຽດສັກສີ, ແລະຕູ້ແລະຄອມພິວເຕີພາສາສາມາດຊ່ວຍໃຫ້ພວກເຮົາຕອບໃຫ້ເຂົາເຈົ້າ.
ການປະມວນຜົນຂອງຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ສາມາດກວດສອບຮູບແບບ, ມູນຫຍຸ້ງຍາກຫລາຍໃນເມື່ອກ່ອນ, ຄາດຄະເນການພັດທະນາຄຸນນະສົມບັດພາສາສະເພາະໃດຫນຶ່ງເພື່ອຕິດຕາມການສ້າງຕັ້ງຂອງຄໍາສັບຕ່າງໆໃນທີ່ໃຊ້ເວລາທີ່ແທ້ຈິງໄດ້.
ໃນລະດັບປະຕິບັດ, ການ enclosures ທົ່ວໂລກສາມາດໄດ້ຮັບການເຫັນ, ສໍາລັບການຍົກຕົວຢ່າງ, ເປັນເຄື່ອງມືມີທ່າແຮງໃນການປະເມີນອາລົມສາທາລະນະ - ອິນເຕີເນັດແມ່ນການປັບປຸງຢູ່ສະເຫມີພື້ນຖານບົດເລື່ອງຕ່າງໆປະຈໍາວັນທີ່ສ້າງຂຶ້ນໂດຍຜູ້ໃຊ້ທີ່ແທ້ຈິງ: ຄວາມຄິດເຫັນນີ້ແລະການທົບທວນຄືນ, ແລະບົດຄວາມແລະຮູບແບບອື່ນໆຈໍານວນຫຼາຍໃນການປາກເວົ້າ.
ໃນນອກຈາກນັ້ນ, ການເຮັດວຽກກັບອົງການຈັດຕັ້ງປະກອບສ່ວນເຂົ້າການພັດທະນາຂອງຮາດແວດຽວກັນ, ທີ່ມີສ່ວນຮ່ວມໃນການຟື້ນຟູຂໍ້ມູນ, ພວກເຮົາມີຄວາມຄຸ້ນເຄີຍກັບການບໍລິການ "ກູໂກ" ຫຼື "Yandex", ການແປພາສາເຄື່ອງ, ຈະນານຸກົມເອເລັກໂຕຣນິກ.
ພວກເຮົາມີຄວາມຫມັ້ນໃຈສາມາດຍືນຍັນວ່າພາສາ corpus ໄດ້ເຮັດໃຫ້ພຽງແຕ່ຂັ້ນຕອນທໍາອິດ, ແລະໃນອະນາຄົດອັນໃກ້ນີ້ຈະ flourish.
Similar articles
Trending Now