បច្ចេកវិទ្យា និងការច្នៃប្រឌិត · ស៊េរីពិសេស «បញ្ញាសិប្បនិម្មិត»
ដោយ ក្រុមនិពន្ធ Eksastra · ផ្នែកទី ៣ ក្នុងចំណោម ៥ · អាន ៨ នាទី
នៅឆ្នាំ ២០១៧ ការច្នៃប្រឌិតមួយឈ្មោះ «Transformer» បានផ្លាស់ប្តូរ AI ជារៀងរហូត។ វាបានបើកផ្លូវឱ្យកំណើតនៃ «ម៉ូដែលភាសាធំ» (LLM) ដូចជា ChatGPT ដែលអាចសរសេរ បកប្រែ និងសន្ទនាបានស្ទើរដូចមនុស្ស។ តើបាតុភូតនេះ ដំណើរការយ៉ាងដូចម្តេច?
#LLM · #ChatGPT · #Transformer · #GPT · #AI
ក្នុងផ្នែកមុន យើងបានឃើញរបៀបដែលម៉ាស៊ីន «រៀន» ពីទិន្នន័យ។ ប៉ុន្តែការធ្វើឱ្យម៉ាស៊ីនយល់ និងបង្កើតភាសាមនុស្ស គឺជាបញ្ហាដ៏លំបាកមួយផ្សេងទៀត — ព្រោះភាសាមានបរិបទ លំដាប់ និងអត្ថន័យស្មុគស្មាញ។ ការដោះស្រាយបញ្ហានេះ បាននាំ AI ចូលដល់សម័យកាលថ្មីទាំងស្រុង។
តើ «ម៉ូដែលភាសាធំ» (LLM) ជាអ្វី?
«ម៉ូដែលភាសាធំ» (Large Language Model ឬ LLM) គឺជាប្រព័ន្ធ AI ដែលត្រូវបានបណ្តុះបណ្តាលលើអត្ថបទមហាសាល — សៀវភៅ គេហទំព័រ អត្ថបទ និងកូដកម្មវិធី។ គោលការណ៍សំខាន់របស់វាសាមញ្ញគួរឱ្យភ្ញាក់ផ្អើល៖ វា «ទាយពាក្យបន្ទាប់» (next-word prediction)។ ដោយបានឃើញពាក្យរាប់ពាន់ពាន់លាន ម៉ូដែលរៀនលំនាំនៃភាសា — ថាតើពាក្យណាគួរតាមពាក្យណា — រួចបង្កើតប្រយោគថ្មីៗ ដោយជ្រើសពាក្យបន្ទាប់ម្តងមួយៗ។
ទោះបីគោលការណ៍សាមញ្ញ ប៉ុន្តែនៅពេលធ្វើក្នុងមាត្រដ្ឋានធំ លទ្ធផលគួរឱ្យភ្ញាក់ផ្អើល៖ ម៉ូដែលអាចសរសេរអត្ថបទ ឆ្លើយសំណួរ សង្ខេបឯកសារ បកប្រែភាសា និងសូម្បីតែសរសេរកូដកម្មវិធី។
ការច្នៃប្រឌិត «Transformer» ឆ្នាំ ២០១៧
ចំណុចរបត់ដ៏សំខាន់កើតឡើងនៅឆ្នាំ ២០១៧ នៅពេលក្រុមអ្នកស្រាវជ្រាវនៅ Google បានបោះពុម្ពអត្ថបទមួយឈ្មោះ «Attention Is All You Need» ដែលណែនាំស្ថាបត្យកម្មថ្មីឈ្មោះ «Transformer» [1]។ បច្ចេកទេសសំខាន់របស់វាគឺ «ការយកចិត្តទុកដាក់ខ្លួនឯង» (self-attention) ដែលអនុញ្ញាតឱ្យម៉ូដែលថ្លឹងថ្លែងសារៈសំខាន់នៃពាក្យនីមួយៗ ធៀបនឹងពាក្យដទៃក្នុងប្រយោគ — ដោយយល់បរិបទកាន់តែប្រសើរ។ Transformer បានក្លាយជាមូលដ្ឋានគ្រឹះនៃម៉ូដែលទំនើបស្ទើរទាំងអស់ រួមមាន GPT, BERT និង T5។
«Transformer» គឺជាម៉ាស៊ីនចក្រ ដែលជំរុញ AI បង្កើតភាសាសម័យទំនើបស្ទើរទាំងអស់។
ពី GPT ដល់ ChatGPT
ដោយផ្អែកលើ Transformer ក្រុមហ៊ុន OpenAI បានបង្កើតស៊េរីម៉ូដែល GPT (Generative Pre-trained Transformer)។ នៅឆ្នាំ ២០២០ GPT-3 ត្រូវបានចេញផ្សាយ ដោយមានប៉ារ៉ាម៉ែត្រ ១៧៥ ប៊ីលាន បណ្តុះបណ្តាលលើទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹក [2]។ បន្ទាប់មក នៅខែវិច្ឆិកា ឆ្នាំ ២០២២ OpenAI បានចេញ ChatGPT (ផ្អែកលើ GPT-3.5) ដែលផ្តល់មុខងារសន្ទនាងាយស្រួលប្រើ — ហើយវាបានក្លាយជាបាតុភូតពិភពលោកភ្លាមៗ [3]។
ChatGPT · ការរីកដុះដាលគួរឱ្យភ្ញាក់ផ្អើល
- ១ លាន អ្នកប្រើ ក្នុងរយៈពេលត្រឹម ៥ ថ្ងៃ
- ១០០ លាន អ្នកប្រើ ក្នុងរយៈពេល ២ ខែ
- ក្លាយជា កម្មវិធីលូតលាស់លឿនបំផុត ក្នុងប្រវត្តិសាស្ត្រ (រហូតដល់ការចេញ Threads)
តើ LLM «គិត» ឬគ្រាន់តែ «ទាយពាក្យ»?
នេះជាចំណុចសំខាន់ដែលគួរយល់ច្បាស់៖ LLM មិន «យល់» ពិភពលោកដូចមនុស្សទេ។ វាជាម៉ាស៊ីនទាយលំនាំស្ថិតិ ដ៏ខ្លាំងពូកែ។ ដោយសារវាបង្កើតពាក្យតាមលំនាំ ពេលខ្លះវាអាចបង្កើតព័ត៌មានដែលស្តាប់ទៅ «ត្រឹមត្រូវ» ប៉ុន្តែពិតជា ខុស — បាតុភូតនេះគេហៅថា «ការប្រឌិត» (hallucination)។ ដូច្នេះ LLM ជាឧបករណ៍ដ៏មានឥទ្ធិពល ប៉ុន្តែអ្នកប្រើគួរផ្ទៀងផ្ទាត់ព័ត៌មានសំខាន់ៗជានិច្ច។
សទ្ទានុក្រម · ពាក្យគន្លឹះ
- LLM (ម៉ូដែលភាសាធំ)៖ ប្រព័ន្ធ AI បណ្តុះបណ្តាលលើអត្ថបទមហាសាល ដើម្បីទាយ និងបង្កើតភាសា។
- Transformer៖ ស្ថាបត្យកម្មបណ្តាញនុយរ៉ូន (២០១៧) ដែលជាមូលដ្ឋាននៃ LLM។
- Token៖ អង្គភាពតូចនៃអត្ថបទ (ពាក្យ ឬផ្នែកនៃពាក្យ) ដែលម៉ូដែលដំណើរការ។
- Prompt៖ សំណួរ ឬការណែនាំ ដែលអ្នកវាយបញ្ចូលឱ្យម៉ូដែល។
- Hallucination (ការប្រឌិត)៖ ពេលដែល AI បង្កើតព័ត៌មានខុស ប៉ុន្តែស្តាប់ទៅទំនង។
សំណួរ-ចម្លើយ (FAQ)
- តើ ChatGPT ខុសពី Google ត្រង់ណា? Google ស្វែងរក និងបង្ហាញតំណគេហទំព័រ; ChatGPT បង្កើតចម្លើយជាអត្ថបទថ្មីដោយផ្ទាល់ ប៉ុន្តែអាចមានកំហុស។
- តើ LLM ដឹងគ្រប់យ៉ាងទេ? ទេ — វាដឹងតែលំនាំពីទិន្នន័យបណ្តុះបណ្តាល ហើយអាចហួសសម័យ ឬខុស។
- «GPT» មានន័យយ៉ាងណា? Generative Pre-trained Transformer — ម៉ូដែលបង្កើតអត្ថបទ ដែលបណ្តុះបណ្តាលជាមុនលើ Transformer។
ចំណុចគួរចងចាំ
- LLM៖ ទាយ «ពាក្យបន្ទាប់» ពីលំនាំក្នុងអត្ថបទមហាសាល
- ចំណុចរបត់៖ Transformer (២០១៧) — «Attention Is All You Need»
- GPT-3 (២០២០)៖ ១៧៥ ប៊ីលាន ប៉ារ៉ាម៉ែត្រ
- ChatGPT (វិច្ឆិកា ២០២២)៖ ១០០ លានអ្នកប្រើក្នុង ២ ខែ
- ប្រុងប្រយ័ត្ន៖ «ការប្រឌិត» (hallucination) — ផ្ទៀងផ្ទាត់ជានិច្ច
អ្វីដែលរង់ចាំនៅខាងមុខ
ថាមពលនៃ LLM កំពុងផ្លាស់ប្តូររបៀបដែលយើងធ្វើការ និងរៀនសូត្រ។ ប៉ុន្តែតើវានឹងប៉ះពាល់ដល់ការងាររបស់យើងយ៉ាងណា? នេះជាប្រធានបទនៃ ផ្នែកបន្ទាប់ — AI និងការងារ។
ឯកសារយោង
- [1] Vaswani et al. (2017). Attention Is All You Need. NeurIPS / arXiv. arxiv.org
- [2] GPT-3. Wikipedia. en.wikipedia.org
- [3] ChatGPT. Wikipedia. en.wikipedia.org
អត្ថបទពាក់ព័ន្ធ (ស៊េរីពេញលេញ)
- ផ្នែកទី ១៖ កំណើតនៃបញ្ញាសិប្បនិម្មិត
- ផ្នែកទី ២៖ ការរៀនរបស់ម៉ាស៊ីន
- ផ្នែកទី ៣ (អ្នកកំពុងអាន)៖ បដិវត្តន៍ LLM និង ChatGPT
- ផ្នែកទី ៤៖ AI និងការងារ
- ផ្នែកទី ៥៖ ក្រមសីលធម៌ វិធាន និងអនាគត
ការបញ្ជាក់៖ អត្ថបទនេះគឺជាការសំយោគ និងវិភាគទិន្នន័យពីប្រភពស្រាវជ្រាវផ្សេងៗ ក្នុងគោលបំណងចែករំលែកចំណេះដឹងទូទៅប៉ុណ្ណោះ។
