Model bahasa besar (bahasa Inggris: large language model, biasa disingkat LLM) adalah model bahasa berskala besar yang terkenal karena kemampuannya untuk mencapai tujuan umum dalam pemahaman dan pembangkitan bahasa. LLM memperoleh kemampuan ini dengan menggunakan data dalam jumlah besar untuk mempelajari miliaran parameter selama pelatihan dan mengonsumsi sumber daya komputasi yang besar selama pelatihan dan pengoperasiannya.[1] LLM merupakan jaringan syaraf tiruan (umumnya menggunakan transformer[2]) dan telah dilatih sebelumnya dengan menggunakan pemelajaran terawasi mandiri dan pemelajaran semi terawasi.

Sebagai model bahasa yang bersifat autoregresif, LLM bekerja dengan menerima teks masukan dan memprediksi token atau kata selanjutnya secara berulang.[3] Sampai tahun 2020, fine tuning adalah satu-satunya cara suatu model bisa beradaptasi untuk bisa menyelesaikan tugas tertentu. Adapun model yang lebih besar, seperti GPT-3, dapat di-prompt-engineer untuk mencapai hasil yang sama. [4] LLM dianggap memiliki pengetahuan terkait sintaksis, semantik, dan ontologi yang melekat pada korpora bahasa manusia, tetapi LLM juga memiliki semacam ketidakakuratan dan bias yang ada dalam korpora. [5]

Contoh terkenal, termasuk model GPT oleh OpenAI (seperti, GPT-3.5 dan GPT-4, yang digunakan dalam ChatGPT), PaLM milik Google (digunakan dalam Bard), dan LLaMA milik Meta, serta BLOOM, Ernie 3. 0 Titan, dan Claude 2.

Referensi

sunting
  1. ^ "Better Language Models and Their Implications". OpenAI. 2019-02-14. Diarsipkan dari versi aslinya tanggal 2020-12-19. Diakses tanggal 2019-08-25.
  2. ^ Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog (dalam bahasa American English). Diakses tanggal 2023-07-25.
  3. ^ Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models". arฮงiv:2304.00612 [cs.CL].ย 
  4. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (ed.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. 33. Curran Associates, Inc.: 1877โ€“1901.
  5. ^ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127โ€“138. doi:10.1162/daed_a_01905. S2CIDย 248377870.

๐Ÿ“š Artikel Terkait di Wikipedia

JSON-LD

JSON-LD dirancang dengan konsep sebuah "konteks" untuk memetakan data dari JSON ke model RDF . Konteks menghubungkan properti objek dalam dokumen JSON dengan

Penambangan teks

sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur dan

Informasi

2005.tb00531.x. hdl:2299/1825. S2CIDย 5593220. Floridi, Luciano (2005). "Semantic Conceptions of Information". Dalam Zalta, Edward N. (ed.). The Stanford

Sejarah Internet

menyediakan apa yang kita butuhkan dengan bisa memberi saran atau nasihat. Semantic Web (web dengan kemampuan membaca situs semudah manusia membacanya sehingga

Pentransformasi praterlatih generatif

pemelajaran dalam yang disebut transformer (pentransformasi). Model ini dipralatih pada kumpulan data besar berisi konten tidak berlabel, dan mampu menghasilkan

Pemodelan data

Graham. C. (2005). Data Modeling Essentials. 3rd Edition. Morgan Kaufmann Publishers. ISBN 0-12-644551-6 J.H. ter Bekke (1991). Semantic Data Modeling in Relational

Graph database

Graph database (Basis data graf) dalam dunia ilmu komputer adalah basis data yang menggunakan struktur data graf yg memiliki komponen simpel (node), tepi

Pengolahan bahasa alami

bahasa (alami) manusia, khususnya cara memprogram komputer untuk mengolah data bahasa alami dalam jumlah besar. Hasilnya adalah komputer mampu "memahami"