Generative AI bisa menjadi cara yang lebih cepat untuk menguji teori-teori tentang bagaimana alam semesta berfungsi.

IBM dan CERN menggunakan transformer deret waktu untuk memodelkan tabrakan partikel di penghambur partikel terbesar di dunia; ini bagian dari tujuan lebih besar untuk mengubah data observasional mentah menjadi wawasan yang dapat diambil tindakan.

Materi biasa membentuk segala sesuatu yang kita ketahui tentang dunia, tetapi hanya mewakili 5% dari alam semesta. Sisanya terdiri dari partikel-partikel misterius yang ilmuwan sebut sebagai energi gelap dan materi gelap.

Pencarian berkelanjutan untuk materi yang hilang ini sedang berlangsung di terowongan di bawah Pegunungan Alpen, di Large Hadron Collider (LHC) CERN. Partikel bermuatan dihancurkan bersama dengan kecepatan mendekati cahaya untuk mengungkap apa yang membentuk alam semesta dan bagaimana cara kerjanya. Partikel baru diciptakan dalam setiap tabrakan, dan saat mereka berinteraksi dengan detektor-detektor LHC, sub-partikel terbentuk dan diukur.

Boson Higgs, yang terlibat dalam memberikan massa pada semua partikel lain, ditemukan dengan cara ini pada tahun 2012. Namun, sebelum mengumpulkan bukti fisiknya, ilmuwan menjalankan simulasi ekstensif untuk merancang eksperimen mereka, menginterpretasikan hasil, dan menguji hipotesis mereka dengan membandingkan hasil simulasi dengan observasi kehidupan nyata.

CERN menghasilkan data sintetis dari simulasi sebanyak yang mereka lakukan dari eksperimen kehidupan nyata. Namun, simulasi ini mahal, dan semakin mahal seiring dengan peningkatan LHC dan detektor-detektornya untuk mempelajari lebih lanjut tentang Higgs dan meningkatkan kemungkinan menemukan partikel baru. Begitu selesai, eksperimen nyata dan pengganti CERN akan menghasilkan data yang jauh lebih banyak dan mengonsumsi daya komputasi yang jauh lebih besar.

Untuk membantu mengatasi masalah ini, IBM baru-baru ini mulai bekerja dengan CERN untuk menerapkan model fondasi deret waktu mereka untuk memodelkan tabrakan partikel. Apa yang dilakukan oleh model bahasa besar (LLMs) untuk analisis teks, IBM berharap transformer deret waktu dapat melakukannya untuk tugas prediksi berdasarkan data nyata atau sintetis. Jika model AI dapat mempelajari proses fisik dari rangkaian pengukuran, bukan perhitungan statistik, ini dapat membuka jalan untuk prediksi yang lebih cepat dan lebih kuat dalam hampir setiap bidang.

Fisika teoritis menjadi fokus IBM dengan CERN, tetapi proyek ini memiliki relevansi luas bagi setiap organisasi yang memodelkan perilaku sistem fisik yang kompleks. Model fondasi memiliki kekuatan untuk mengubah data sensor beresolusi tinggi yang mentah menjadi representasi digital dari realitas yang perusahaan dapat gali untuk cara baru memperbaiki produk atau operasi mereka.

“Bagaimana saya dapat menyesuaikan proses manufaktur untuk menghasilkan lebih banyak kertas atau gula,” kata Jayant Kalagnanam, direktur aplikasi AI di IBM Research. “Berapa sering saya harus melakukan layanan pada sebuah mesin untuk memperpanjang umurnya? Dan apa cara terbaik untuk merancang sebuah eksperimen untuk mendapatkan hasil yang diinginkan? Model fondasi yang dapat ‘belajar’ proses fisik dari data observasional memungkinkan Anda mengajukan pertanyaan operasional yang sebelumnya tidak terjangkau.”

Memodelkan proses fisik dari pengamatan daripada probabilitas statistic

Banyak organisasi tenggelam dalam data sensor. Miliaran hingga triliunan pengamatan yang sangat detail bisa diubah menjadi wawasan berharga jika kita bisa melihat hutan di tengah pepohonan.

Model fondasi sekarang membawa kejelasan ini ke dalam pemodelan dunia fisik seperti yang mereka lakukan untuk pemodelan bahasa alami dan gambar. IBM adalah yang pertama kali menerapkan transformer pada data deret waktu mentah dengan beberapa variabel pada tahun 2021. Pekerjaan ini menginspirasi gelombang model serupa tetapi antusiasme awal itu mereda setelah tim dari Hong Kong menunjukkan bahwa model regresi sederhana dapat lebih baik dalam berbagai tugas.

Kekurangan utama dari transformer deret waktu awal itu adalah cara mereka memperlakukan pengukuran dalam waktu sama seperti kata-kata, seperti yang ditunjukkan tim. Ketika setiap langkah waktu diberi token dan dimasukkan ke dalam transformer, konteks lokal hilang. Kesalahan yang dihasilkan semakin bertambah saat jumlah variabel meningkat, dan risiko korelasi yang tidak bermakna juga meningkat.

Masalah ini sebelumnya sudah diatasi dalam penyesuaian transformer untuk tugas-tugas visi seperti klasifikasi objek dan pengenalan adegan. Peneliti IBM melihat bahwa ide-ide yang sama bisa diterapkan pada peramalan deret waktu.

Inovasi pertama IBM adalah mengelompokkan titik waktu berurutan menjadi satu token, sama seperti piksel-piksel tetangga dalam gambar digabungkan menjadi “patch” untuk mempermudah transformer dalam mencerna data. Memisahkan dan mengkonsolidasi langkah-langkah waktu dengan cara ini mempertahankan konteks lokal lebih banyak. Ini juga mengurangi biaya komputasi, mempercepat pelatihan, dan membebaskan memori untuk memproses lebih banyak data historis.

Terobosan selanjutnya IBM adalah mempersempit mekanisme perhatian transformer yang luas. Daripada memodelkan interaksi semua variabel sepanjang waktu, cukup untuk menghitung interaksi mereka pada setiap langkah waktu. Korelasi yang disinkronkan waktu ini kemudian dapat diatur dalam bentuk matriks, di mana hubungan yang paling bermakna dapat diekstraksi.

“Pikirkan sebagai grafik,” kata peneliti IBM Vijay Ekambaram. “Ini adalah peta bagaimana variabel-variabel saling berhubungan dan saling memengaruhi dari waktu ke waktu.” Model deret waktu PatchTSMixer yang efisien dari IBM telah terbukti mengungguli model peramalan lainnya hingga 60% sambil menggunakan dua hingga tiga kali lebih sedikit memori.

Belajar bagaimana partikel sub-atomik berperilaku

Memprediksi bagaimana partikel-partikel energi tinggi akan berkembang biak dalam penghambur adalah tugas yang tidak mudah. Perhitungan statistik diperlukan untuk memodelkan partikel yang dihasilkan dalam tabrakan awal, serta hujan ribuan hingga jutaan partikel sekunder yang diciptakan kemudian dalam detektor-detektor penghambur. Nasib setiap partikel harus dihitung satu per satu.

Sinyal yang mereka tinggalkan dalam detektor digunakan untuk menyimpulkan identitas partikel target, momentum, dan properti lainnya. Perangkat lunak simulasi saat ini menyediakan perkiraan beresolusi tinggi, tetapi para peneliti berharap bahwa model fondasi dapat menyederhanakan perhitungan yang terlibat dan memberikan hasil yang dapat dibandingkan setidaknya 100 kali lebih cepat.

Pekerjaan IBM dengan CERN difokuskan pada bagian detektor yang dikenal sebagai kalorimeter, yang mengukur posisi dan energi partikel-partikel hujan. Dengan menggunakan data sintetis dari simulasi masa lalu, IBM melatih model PatchTSMixer-nya untuk memahami bagaimana sebuah hujan tipikal terungkap. Nilai-nilai yang dimasukkan ke dalam model termasuk sudut dan energi partikel masuk, serta jumlah energi yang didepositkan di kalorimeter oleh hujan partikel sekunder.

Ketika diminta untuk mereplikasi sebuah hujan dengan seperangkat parameter yang diinginkan, PatchTSMixer dapat dengan cepat memberikan perkiraan nilai energi akhir. “Setiap peristiwa hujan berbeda, dengan hasil yang ditentukan secara acak,” kata peneliti IBM Kyongmin Yeo. “Kami telah menyesuaikan model fondasi deret waktu kami untuk mensimulasikan peristiwa-peristiwa acak ini dengan mempelajari distribusi probabilitas menggunakan metode generatif.”

Untuk berguna, perkiraan harus cepat dan akurat. “Hasilnya sejauh ini terlihat sangat menjanjikan,” kata Anna Zaborowska, seorang fisikawan di CERN. “Jika kita bisa mempercepat simulasi hujan tunggal hingga 100 kali lipat itu akan sangat luar biasa.”

Apa yang Selanjutnya terjadi ?

CERN telah mengusulkan untuk membangun akselerator senilai $17 miliar yang tiga kali lebih besar dari LHC dan saat ini menggunakan simulasi untuk merancangnya. Jika simulasi cepat dari IBM berhasil, dan Future Circular Collider (FCC) disetujui, model-model IBM bisa digunakan untuk merancang eksperimen di akselerator baru tersebut dan menginterpretasi hasilnya.

Simulasi cepat juga dapat berperan dalam mengurangi jejak karbon LHC. “Pada prinsipnya, ini bisa mengarah pada penghematan energi yang substansial,” kata Zaborowska.

Di luar pekerjaan CERN untuk mengungkap misteri alam semesta, model fondasi deret waktu memiliki potensi untuk mengoptimalkan proses industri dalam berbagai cara untuk meningkatkan pendapatan dan memotong biaya. Sensor-sensor sekarang memberikan pandangan rinci tentang bisnis, mulai dari setiap langkah di jalur perakitan hingga setiap pembangkit listrik di jaringan multi-negara bagian.

Sebelum transformer hadir, mengeksplorasi data sensor ini untuk wawasan seringkali tidak praktis atau tidak mungkin. IBM sekarang bekerja dengan beberapa perusahaan di berbagai industri untuk mengambil data sensor mereka dan membangun model proksi dari proses manufaktur yang bisa diteliti untuk cara meningkatkan produktivitas atau mengurangi penggunaan energi.

“Model proksi yang dipelajari ini juga merupakan cara yang baik untuk memantau perilaku mesin atau proses dengan membandingkan hasil yang diamati dengan prediksi untuk menandai setiap anomali,” kata Kalagnanam.

Selain bekerja dengan perusahaan untuk mengoptimalkan operasi mereka dengan transformer deret waktu, IBM telah membuka sumber daya kode PatchTST dan Patch TSMixer mereka di Hugging Face, di mana model-model tersebut telah diunduh beberapa ribu kali dalam dua bulan terakhir.

Ingin tahu lebih banyak mengenai AI IBm, silahkan hubungi [email protected]