ChatGPT Buatan Versi Jepang

ChatGPT Buatan Versi Jepang – Beberapa peneliti Jepang percaya bahwa sistem AI yang dilatih dalam bahasa asing tidak memahami kompleksitas bahasa dan budaya Jepang. Jepang sedang membangun ChatGPT versinya sendiri, ruang obrolan kecerdasan buatan (AI) yang dibuat oleh OpenAI yang berbasis di AS dan menjadi sensasi global ketika diluncurkan kurang dari setahun yang lalu.

meirapenna – Pemerintah Jepang dan perusahaan teknologi besar termasuk NEC, , Fujitsu, dan SoftBank telah menghabiskan ratusan juta dolar untuk menciptakan sistem kecerdasan buatan berdasarkan teknologi yang sama yang dikenal sebagai pemodelan bahasa besar (LLM), tetapi menggunakan versi terjemahan bahasa Jepang dan bukan bahasa Inggris.

“Hari ini LLM seperti GPT unggul dalam bahasa Inggris, namun sering gagal di Jepang karena perbedaan sistem alfabet, keterbatasan data, dan faktor lainnya,” kata peneliti pemrosesan bahasa alami Keisuke Sakaguchi dari Universitas Tohoku di Jepang.

BIAS BAHASA INGGRIS

LLM biasanya menggunakan jumlah besar. data dari sumber publik tentang ucapan alami dan mengeksplorasi pola prosa. Mereka diajarkan untuk memprediksi kata berikutnya berdasarkan kata-kata sebelumnya dalam teks. Sebagian besar teks yang digunakan untuk melatih model ChatGPT sebelumnya, GPT-3, dalam bahasa Inggris.

Kemampuan ChatGPT yang luar biasa untuk membuat percakapan manusia tetap bersemangat dan khawatir. Beberapa orang melihatnya sebagai alat yang berpotensi menghemat tenaga kerja; yang lain khawatir data tersebut dapat digunakan untuk menghasilkan publikasi atau data ilmiah.

Jepang khawatir sistem kecerdasan buatan yang dilatih pada kumpulan data dalam bahasa lain tidak akan memahami kompleksitas bahasa dan budaya Jepang. Struktur kalimat bahasa Jepang sangat berbeda dengan bahasa Inggris. Oleh karena itu ChatGPT harus menerjemahkan pertanyaan bahasa Jepang ke bahasa Inggris, menemukan jawabannya, lalu menerjemahkan jawabannya kembali ke bahasa Jepang.

Meskipun bahasa Inggris hanya memiliki 26 karakter, bahasa Jepang tertulis terdiri dari dua set yang terdiri dari 48 karakter dasar, ditambah 2.136 karakter . Karakter Cina atau kanji yang umum digunakan. Kebanyakan kanji mempunyai dua pengucapan atau lebih, dan sekitar 50.000 kanji jarang digunakan. Dengan kerumitan ini, tidak mengherankan jika ChatGPT bisa terjerumus ke dalam bahasa.

Dalam bahasa Jepang, ChatGPT terkadang menghasilkan karakter yang sangat langka yang belum pernah dilihat kebanyakan orang, dan menghasilkan kata-kata aneh yang asing,” kata Sakaguchi.

Baca juga : Teknologi Dirgantara Asli Jepang Kelas Dunia

STANDAR BUDAYA

Agar LLM berguna dan bahkan layak secara komersial, LLM harus secara akurat mencerminkan praktik budaya dan bahasa. Jika ChatGPT diminta untuk menulis email tentang pelamar kerja dalam, misalnya, bahasa Jepang, email tersebut mungkin melewatkan sapaan umum dan tampak seperti terjemahan bahasa Inggris yang jelas.

Untuk mengukur seberapa sensitif LLM terhadap budaya Jepang, tim peneliti meluncurkan Rakuda , penilaian, seberapa baik LLM dapat menjawab pertanyaan terbuka tentang topik Jepang. Pendiri Rakuda Sam Passaglia dan rekan-rekannya meminta ChatGPT untuk membandingkan kelancaran dan kesesuaian budaya antara respons dan perintah standar. Penggunaan alat ini untuk mengklasifikasikan hasil didasarkan pada publikasi awal pada bulan Juni, yang menunjukkan bahwa GPT-4 disetujui oleh 87 persen penilai 1 . LLM Jepang open source terbaik dianugerahi peringkat ke-4 oleh Rakuda, sedangkan peringkat pertama, mungkin tidak mengherankan karena ia juga menjadi juri kompetisi, adalah GPT-4.

“Tentu saja, LLM Jepang mengalami peningkatan, namun mereka jauh di belakang GPT-4,” kata Passaglia, fisikawan Universitas Tokyo yang mempelajari model Jepang. Namun, katanya, tidak ada prinsip mengapa LLM Jepang tidak bisa menyamai atau melampaui GPT-4 di masa depan. “Secara teknis, hal ini bukannya tidak dapat diatasi, ini hanya masalah sumber daya.”

Salah satu upaya terbesar untuk menciptakan LLM Jepang adalah penggunaan superkomputer Fugaku Jepang, salah satu yang tercepat di dunia, yang mengajarkannya terutama dalam bahasa Jepang . . untuk menyampaikan Didukung oleh Institut Teknologi Tokyo, Universitas Tohoku, Fujitsu dan Grup Pusat Penelitian RIKEN yang didanai pemerintah, LLM yang diantisipasi akan diterbitkan tahun depan.

Tidak seperti GPT-4 dan model kepemilikan lainnya, model ini terintegrasi dengan LLM sumber terbuka lainnya, sehingga kodenya tersedia untuk semua pengguna. Menurut Sakaguchi, yang terlibat dalam proyek ini, tim berharap dapat memperkenalkan setidaknya 30 miliar parameter, yang merupakan nilai yang memengaruhi kinerjanya dan dapat menjadi tolok ukur ukurannya.

Tetapi LLM Fugaku kemungkinan besar akan memperkenalkannya. digantikan oleh perusahaan yang lebih besar Kementerian Pendidikan, Kebudayaan, Olahraga, Sains dan Teknologi Jepang mendanai pembuatan program kecerdasan buatan Jepang yang disesuaikan dengan kebutuhan sains. Program ini belajar untuk menghasilkan hipotesis ilmiah dari penelitian yang dipublikasikan dan dengan demikian mempercepat identifikasi tujuan penelitian. Model ini dapat dimulai dengan 100 miliar parameter, setengah dari GPT-3, dan berkembang seiring waktu.

“Kami berharap dapat mempercepat siklus penelitian dan memperluas area pencarian secara signifikan,” kata Makoto. Wakil Direktur Pusat Penelitian Dinamika Biosistem RIKEN Taiji berbicara tentang proyek tersebut. Pengembangan LLM ini memerlukan biaya setidaknya ¥30 miliar (US$204 juta) dan diperkirakan akan dirilis ke publik pada tahun 2031.

Baca juga : Mempertahankan Kepemimpinan Inggris Dalam Teknologi AI

MEMPERLUAS KEMAMPUAN

Perusahaan Jepang lainnya sudah mengkomersialkan, atau berencana mengkomersialkan, teknologi LLM mereka sendiri. Pembuat superkomputer NEC mulai menggunakan AI generatifnya berdasarkan bahasa Jepang pada bulan Mei, dan mengklaim bahwa hal itu mengurangi waktu yang diperlukan untuk membuat laporan internal sebesar 50% dan kode sumber perangkat lunak internal sebesar 80%. Pada bulan Juli, perusahaan mulai menawarkan layanan AI generatif yang dapat disesuaikan kepada pelanggan.

Masafumi Oyamada, peneliti utama senior di NEC Data Science Laboratories, mengatakan bahwa teknologi ini dapat digunakan “di berbagai industri, seperti keuangan, transportasi dan logistik, distribusi dan manufaktur”. Dia menambahkan bahwa para peneliti dapat menerapkannya untuk menulis kode, membantu menulis dan mengedit makalah, mensurvei makalah yang sudah diterbitkan, dan tugas-tugas lainnya.

Sementara itu, perusahaan telekomunikasi Jepang SoftBank menginvestasikan sekitar ¥20 miliar pada AI generatif yang dilatih dalam teks Jepang dan berencana meluncurkan LLM-nya sendiri tahun depan. Softbank, yang memiliki 40 juta pelanggan dan bermitra dengan investor OpenAI Microsoft, mengatakan pihaknya bertujuan membantu perusahaan mendigitalkan bisnis mereka dan meningkatkan produktivitas. SoftBank berharap universitas, lembaga penelitian, dan organisasi lainnya dapat menggunakan layanan LLM miliknya.

Sementara itu, para peneliti Jepang berharap bahwa chatbot AI yang akurat dan canggih buatan Jepang dapat membantu mempercepat ilmu pengetahuan dan menjembatani kesenjangan antara Jepang dan negara-negara lain di dunia. “Jika ChatGPT versi Jepang bisa akurat, diharapkan dapat akan memberikan hasil yang lebih baik bagi orang-orang yang ingin belajar di Jepang atau melakukan penelitian di Jepang,” kata Shotaro Kinoshita, peneliti teknologi medis di Fakultas Kedokteran Universitas Keio Tokyo. “Hasilnya, hal ini dapat memberikan dampak positif pada penelitian kolaboratif internasional.”