Apakah Anda tertarik pada mereka? PENAWARAN? Hemat dengan kupon kami ADA APA o Telegram!

Apa itu Mamba, arsitektur yang bertujuan untuk mengatasi GPT sepenuhnya. Era baru AI?

Januari 18 2024

ular digital secara simbolis mewakili arsitektur Mamba dalam kecerdasan buatan

Hari ini saya ingin membahas lebih teknis. Kita berbicara tentang kecerdasan buatan setiap hari, tetapi mengetahui apa dasar kecerdasan buatan dan cara kerjanya adalah hal yang benar. Dalam hal ini saya ingin memperkenalkan Anda kepada Mamba, arsitektur baru yang menjanjikan perubahan i model linguistik seperti yang kita kenal sekarang. Fitur-fitur Mamba, dibandingkan dengan GPT, sangat unggul dan juga memungkinkan Anda melakukannya.

Mamba adalah cakrawala baru bagi kecerdasan buatan

Arsitektur Transformer, diperkenalkan pada tahun 2016 melalui makalah “Perhatian Adalah Yang Anda Butuhkan” oleh Google, mewakili terobosan model bahasa, yang memungkinkan mereka mempertahankan konteks dalam interaksi. Singkatnya: arsitektur Transformer adalah model AI yang digunakan untuk membuat model seperti GPT (Trafo Terlatih Generatif).

BAGAIMANA ARSITEKTUR TRANSFORMATOR BEKERJA

Inti dari arsitektur Transformer adalah mekanisme “perhatian“, yang memungkinkan model untuk fokus pada bagian tertentu dari satu teks sambil membuat atau memproses teks lainnya. Mekanisme ini membuat Transformers sangat efektif dalam memahami konteks dan hubungan kompleks dalam sebuah teks. Dalam praktiknya, model berdasarkan arsitektur Transformer, seperti GPT, mereka belajar menghasilkan dan memahami bahasa melalui dua tahap yang utama: pelatihan (training) dan inferensi (pembuatan teks).
Selama latihan, model dilatih pada kumpulan data teks besar untuk memahami struktur linguistik, hubungan antar kata, konteks, dll. Dalam fase kesimpulan, model menggunakan apa yang telah dipelajarinya untuk menghasilkan teks baru, menjawab pertanyaan, menerjemahkan bahasa, dan tugas pemrosesan bahasa lainnya.

Namun kemunculan Mamba bisa jadi menandai dimulainya era baru. Arsitektur ini menjanjikan hal tersebut lebih efisien, mampu mengatasi beberapa tantangan utama yang dihadapi model saat ini seperti GPT. Secara khusus, tiga aspek utama menjadikan Mamba arsitektur yang menjanjikan:

mengurangi biaya inferensi: Aspek utama Mamba adalah pengurangan biaya inferensi secara signifikan. Seperti yang saya katakan sebelumnya, inferensi adalah proses dimana model AI, setelah dilatih, menerapkan apa yang telah dipelajarinya pada data baru, menghasilkan teks atau gambar. Dalam model yang kompleks seperti GPT-3 atau GPT-4, proses ini bisa memakan banyak biaya dalam hal sumber daya komputasi. Mamba berjanji akan melakukannya mengurangi biaya ini hingga lima kali lipat dibandingkan dengan model berbasis Transformer, yang dapat memberikan dampak signifikan, terutama untuk aplikasi yang memerlukan pembangkitan respons cepat atau bekerja dengan kumpulan data besar;
biaya perhitungan perhatian linier: Keunggulan kedua Mamba adalah efisiensi dalam menghitung perhatian. Dalam model Transformer, biayanya bertambah sebenarnya (tepatnya pada tataran kekuasaan, bukan kiasan) seiring bertambahnya panjang teks. Artinya semakin panjang teks, semakin banyak sumber daya yang diperlukan untuk memprosesnya, sehingga membatasi kepraktisan model dalam beberapa aplikasi. Mamba mengusulkan solusi dimana biayanya tumbuh secara linear dibandingkan dengan ukuran jendela perhatian, menjadikan pemrosesan teks panjang lebih mudah dikelola dan tidak terlalu memberatkan dalam hal komputasi;
masukan yang sangat besar: Mamba dapat menangani jendela input maksimum hingga 1 juta tokenn, lebih dari yang mungkin dilakukan dengan arsitektur Transformer. Ini berarti bahwa Mamba, secara teori, dapat menganalisis dan memahami teks yang sangat panjang, seperti keseluruhan buku, menjaga koherensi dan detail dalam konteks. Misalnya, dia mungkin menganalisis keseluruhan novel sambil mempertahankan pemahaman yang jelas tentang karakter, plot, dan tema dari awal hingga akhir.

Terlepas dari janji Mamba, kertas Soleva keraguan tentang skalabilitasnya, khususnya jika dibandingkan dengan model besar seperti GPT-4, yang memiliki 175 miliar parameter. Skalabilitas, dalam istilah yang sangat sederhana, mengacu pada kemampuan suatu sistem untuk menangani peningkatan pekerjaan atau peningkatan ukuran tanpa kehilangan efektivitas. Bayangkan sebuah restoran kecil yang sukses dengan sedikit pelanggan. Jika sebuah restoran menjadi populer dan mulai memiliki lebih banyak pelanggan, restoran tersebut harus mampu menangani peningkatan ini tanpa mengurangi kualitas layanan atau makanan. Jika berhasil, maka “scalable”.

Mamba, dalam kondisinya saat ini, telah diuji hanya dengan 3 miliar parameter. Oleh karena itu, masih belum pasti apakah kinerja dan efisiensinya dapat dipertahankan atau ditingkatkan ketika diperluas ke ukuran yang lebih besar.