Desember 21, 2024

SUARAPALU.COM

Periksa halaman ini untuk berita utama terkini Indonesia, analisis, laporan khusus dari pusat kota besar termasuk Jakarta, Surabaya, Medan & Bekasi.

Peneliti Yellow.ai sedang membangun model bahasa besar untuk bahasa-bahasa Indonesia

Peneliti Yellow.ai sedang membangun model bahasa besar untuk bahasa-bahasa Indonesia

Peneliti AI Louise Owen, Vishesh Tripathi, Abhay Kumar dan Bidwan Ahmed, yang bekerja di perusahaan teknologi layanan pelanggan Yellow AI, menerbitkan makalah tersebut. Kertas (unduh) Maret 2024 menjelaskan pengalaman mereka dengan model bahasa besar (LLM) Komodo-7B-Instruct.

Model yang diinstruksikan Komodo-7b dikembangkan di Llama-2 LLM. Menariknya, pada tahun 2023, Meta menganggap Llama-2 LLM tidak pantas untuk penggunaan non-Inggris. Komodo LLM mempromosikan layanan penerjemahan bahasa dan “berkontribusi untuk mengatasi kesenjangan pendidikan di Indonesia, menyediakan terjemahan langsung dari bahasa Inggris ke 11 bahasa daerah,” kata para peneliti.

Model yang dirancang untuk berbagai dialek seperti bahasa Aceh, Bali, Banjar, Bugis, Dayak Nakaju, Jawa, Lampung, Madura, Minangkabau, Sunda, dan Batak Toba ini memiliki tujuh miliar parameter yang mengacu pada 7B dalam namanya. .

Dalam makalah tersebut, para peneliti menjelaskan bahwa dengan model ini, mereka berupaya mengatasi masalah yang diketahui dalam LLM dengan sumber daya tinggi dan multibahasa lainnya, termasuk bias bahasa Inggris dan kinerja buruk dalam bahasa dengan sumber daya rendah.

Buku teks 1-12 sebagai sumber standar

Kumpulan data yang digunakan untuk melatih dan menyempurnakan Komodo-7B-Instruct LLM dibuat dari data sumber terbuka dan data yang dikumpulkan secara manual. Sumbernya antara lain buku pelajaran bahasa Indonesia berbagai mata pelajaran, data tuturan dari subtitle film, berita dan percakapan informal.

Menjelaskan bahwa “pemilihan data berkualitas tinggi secara bijaksana telah terbukti efektif, bahkan memberikan kinerja canggih dalam beberapa situasi,” para peneliti mulai mengembangkan model yang berspesialisasi dalam pemahaman. Kumpulan data yang dihasilkan membahas karakteristik bahasa tertentu, termasuk kefasihan berbahasa, pemahaman lintas bahasa, penalaran pengetahuan umum, analisis sentimen, dan klasifikasi objek.

Kosakata yang digunakan diperluas hingga mencakup istilah-istilah umum bahasa Indonesia dan istilah daerah. Para peneliti mengidentifikasi dan menggabungkan sekitar 2.000 kata yang sering digunakan dalam bahasa Indonesia dan 1.000 kata untuk bahasa daerah yang tidak termasuk dalam sampel LAMA-2.

Pada fase pra-pelatihan, Komodo-7B-Instruct menyempurnakan kemampuannya dalam menyusun kata dengan mengelompokkan kata-kata serupa dalam ingatannya. Langkah persiapan kumpulan data lainnya mencakup deduplikasi (pengulangan kata atau frasa yang berlebihan), pemfilteran kualitas (menyaring data berkualitas rendah atau tidak relevan), dan deduplikasi (menghapus entri duplikat).

Bagian dari pelatihan model mencakup kumpulan data berbahasa Inggris dan kumpulan data paralel dengan seluruh kombinasi bahasa Inggris, Indonesia, dan 11 bahasa daerah. Tujuan peneliti melakukan hal ini adalah untuk meningkatkan pemahaman model terhadap kalimat campur kode (multibahasa). Mereka juga menggunakan strategi prediksi token berikutnya dalam dua bahasa, bukan prediksi token berikutnya dalam satu bahasa dengan teks terjemahan bahasa Indonesia.

10 Kasus Penggunaan LLM (Topik Utama)

Panduan Slater Pro: Terjemahan AI

Panduan Slater Pro menyajikan 10 cara baru dan berdampak yang dapat digunakan LLM untuk meningkatkan alur kerja terjemahan.

Performa luar biasa di seluruh tugas

Menurut para peneliti, Comodo LLM mereka mengungguli berbagai model multibahasa, termasuk Aya-101 dari Gohair, Bacterion-X-Lama-7B dari MBZUAI, Gwen-1.5, Mixtral-8x7B-Instruct-v0.1 dari Mistral, dan Indonesia Chaos dari AISingapore, yang memiliki sudah Dalam banyak tugas bertentangan dengan definisi di Ini juga melampaui Google Translate (yang hanya mendukung bahasa Indonesia, Jawa, dan Sunda).

Model ini unggul dalam klasifikasi objek, deteksi bahasa sehari-hari, analisis sentimen lintas bahasa, dan pemahaman lintas bahasa (misalnya Indonesia-Inggris), kata para peneliti. Komodo-7B-Base mampu mempertahankan kinerja basis Llama-2-7B di semua tugas kecuali tugas matematika GSM8k.

Komodo LLM “berhasil merancang dan menyempurnakan varian linguistik yang spesifik untuk konteks Indonesia dan bahasa daerah, sehingga memungkinkan mereka untuk bekerja dengan baik dalam tugas-tugas yang berkaitan dengan bahasa Indonesia dan bahasa daerah,” tambah para peneliti.

Di luar penerapan bisnis, penerapan penting model ini adalah potensi perannya dalam mendukung berbagai bahasa daerah Indonesia untuk tujuan pendidikan, saran para peneliti. Ide mereka adalah melalui Comodo LLM “sumber daya dan informasi dapat disebarkan lebih luas dan berkontribusi pada lanskap pendidikan yang inklusif dan adil di seluruh negeri.”