SSR: Bagaimana AI Mengubah Teks Bebas Menjadi Skor Likert yang Akurat
Bayangkan Anda meluncurkan produk baru. Anda ingin tahu: seberapa besar kemungkinan konsumen membelinya? Dalam riset tradisional, jawabannya datang dari skala Likert — angka 1 sampai 5 yang menunjukkan minat beli.
Tapi apa yang terjadi ketika "konsumen" itu adalah AI?
Masalah: AI Selalu Menjawab "3"
Ketika Large Language Model (LLM) diminta langsung memberikan rating Likert — "berikan angka 1-5 untuk produk ini" — hasilnya mengecewakan. Model hampir selalu menjawab 3. Aman, netral, tidak informatif.
Fenomena ini disebut regression to the mean. LLM memilih jawaban "aman" di tengah skala, menghasilkan distribusi yang sangat sempit dan tidak realistis. Rata-rata minat beli manusia di 57 survei nyata adalah 4.0 — tapi LLM dengan metode langsung menghasilkan distribusi yang hampir semuanya terpusat di 3.
Ini bukan keterbatasan fundamental AI. Ini masalah cara kita bertanya.
Tiga Pendekatan yang Diuji
Paper ilmiah dari Maier et al. (2025) — kolaborasi PyMC Labs dan Colgate-Palmolive — menguji tiga metode berbeda untuk mendapatkan skor minat beli dari LLM:
1. Direct Likert Rating (DLR)
LLM diminta langsung memilih angka 1-5.
Hasil: Distribusi sangat sempit. KS Similarity hanya 0.26. Hampir semua jawaban di angka 3. Tidak berguna untuk pengambilan keputusan.
2. Follow-up Likert Rating (FLR)
LLM pertama menulis respons teks bebas tentang produk. Lalu LLM kedua — berperan sebagai "ahli rating Likert" — mengonversi teks itu ke angka 1-5.
Hasil: Lebih baik. KS Similarity naik ke 0.72. Tapi distribusi masih kurang akurat dibanding manusia.
3. Semantic Similarity Rating (SSR)
Ini terobosannya. Alih-alih meminta AI mengonversi teks ke angka, SSR menggunakan matematika embedding untuk mengukur seberapa mirip respons AI dengan pernyataan referensi untuk setiap titik Likert.
Hasil: KS Similarity 0.88. Correlation Attainment 90% dari reliabilitas test-retest manusia.
| Metode | KS Similarity | Correlation Attainment | Catatan |
|---|---|---|---|
| DLR | 0.26 | 80% | Semua jawaban di 3 |
| FLR | 0.72 | 85% | Lebih baik, masih kurang akurat |
| SSR | 0.88 | 90% | Distribusi sangat mirip manusia |
Bagaimana SSR Bekerja
Langkah 1: Elicitasi Teks Bebas
LLM berperan sebagai konsumen sintetis dengan atribut demografis tertentu (usia, gender, pendapatan, lokasi). Ia melihat deskripsi produk, lalu diminta menjawab dalam teks bebas: "Seberapa tertarik Anda untuk membeli produk ini?"
Contoh respons: "Saya cukup tertarik, tapi harganya agak mahal untuk kantong saya. Mungkin kalau ada diskon."
Langkah 2: Embedding ke Ruang Vektor
Teks respons diubah menjadi vektor 768 dimensi menggunakan model embedding (text-embedding-3-small). Setiap kalimat menjadi titik koordinat dalam ruang matematika.
Langkah 3: Perbandingan dengan Anchor
Untuk setiap titik Likert (1-5), ada pernyataan referensi (anchor) yang sudah disiapkan. Contoh:
- Likert 1: "Saya sangat tidak tertarik dan tidak akan membeli produk ini"
- Likert 3: "Saya ragu-ragu, mungkin akan mencoba jika ada kesempatan"
- Likert 5: "Saya sangat antusias dan pasti akan langsung membelinya"
Langkah 4: Cosine Similarity
Sistem menghitung kesamaan kosinus antara vektor respons dan setiap vektor anchor. Semakin mirip arah dua vektor, semakin tinggi skor similarity-nya (0 sampai 1).
Langkah 5: Distribusi Probabilitas
Similarity dikurangi nilai minimum (untuk memperbesar kontras), lalu dinormalisasi menjadi distribusi probabilitas:
Hasilnya bukan satu angka, tapi distribusi penuh — misalnya: 5% Likert-1, 10% Likert-2, 25% Likert-3, 40% Likert-4, 20% Likert-5. Rata-rata tertimbang = Mean Purchase Intent.
Langkah 6: Rata-rata 6 Set Anchor
Untuk robustness, digunakan 6 set anchor berbeda (total 30 pernyataan). Distribusi final adalah rata-rata dari keenam set.
Coba Sendiri
Simulasi sederhana SSR — ketik respons konsumen atau pilih preset, lihat bagaimana distribusi Likert berubah:
Validasi: 57 Survei, 9.300 Responden Manusia
Paper ini bukan teori. Divalidasi pada 57 survei riset konsumen nyata untuk produk personal care, dilakukan oleh perusahaan Fortune 500. Setiap survei melibatkan 150-400 responden manusia (total 9.300).
Temuan kunci:
- SSR mengalahkan machine learning: LightGBM (supervised ML) hanya mencapai ρ = 65%. SSR mencapai ρ = 90% — tanpa training data sama sekali
- Dua model diuji: GPT-4o (KS sim 0.88) dan Gemini-2f (KS sim 0.80). Keduanya bekerja
- Zero-shot: Tidak perlu fine-tuning atau data latih. Langsung plug-and-play
- Ranking produk akurat: Urutan popularitas 57 produk berdasarkan mean PI sintetis vs. manusia berkorelasi sangat tinggi
Apa yang Bisa (dan Tidak Bisa) Direplikasi
Berhasil direplikasi:
- Usia: Pola concave — minat beli lebih rendah di usia muda dan tua, puncak di usia menengah
- Pendapatan: Konsumen dengan masalah anggaran menunjukkan PI lebih rendah
- Kategori produk: Ranking antar kategori (Cat. I paling rendah, Cat. IV paling tinggi) konsisten
- Segmen harga: Tier 1 paling rendah, Tier 4-5 paling tinggi — sesuai data manusia
Belum konsisten:
- Gender dan wilayah: LLM belum reliabel mereplikasi perbedaan subgroup berdasarkan gender, wilayah, atau etnisitas
- Domain asing: SSR bergantung pada pengetahuan LLM. Untuk produk/budaya yang jarang muncul di data training, hasilnya kurang akurat
Kenapa Ini Penting untuk Bisnis Anda
Riset tradisional: Panel konsumen 150-400 orang, biaya puluhan juta rupiah, waktu berminggu-minggu.
Dengan SSR: Konsumen sintetis yang distribusinya 88% mirip manusia, dalam hitungan menit, dengan biaya yang terjangkau UMKM.
Dan yang paling berharga — SSR menghasilkan feedback kualitatif gratis. Setiap respons teks dari konsumen sintetis berisi alasan, keberatan, dan saran yang bisa ditambang untuk pengembangan produk. Rating Likert tradisional hanya memberi angka tanpa penjelasan.
Ini bukan pengganti riset manusia. Ini cara untuk screening 100 ide produk secara cepat, lalu menginvestasikan budget riset manusia hanya untuk 5 kandidat terbaik.
Arctech Menggunakan SSR
Metode SSR dari Maier et al. inilah yang menjadi fondasi scoring engine Arctech. Setiap kali Anda menjalankan riset di platform kami, respons persona sintetis dikonversi ke skor minat beli menggunakan prinsip yang sama — embedding, cosine similarity, distribusi probabilitas.
Bedanya: kami mengadaptasinya untuk konteks Indonesia. Anchor statements disesuaikan dengan bahasa dan budaya konsumen Indonesia. Persona diperkaya dengan data sensus BPS dan Kemendagri untuk 88.379 kelurahan.
Referensi
- Maier, B.F., Aslak, U., Fiaschi, L., Rismal, N., Fletcher, K., Luhmann, C.C., Dow, R., Pappas, K., & Wiecki, T.V. (2025). LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings. arXiv:2510.08338v2.
- PyMC Labs & Colgate-Palmolive Company. Dataset: 57 consumer research surveys, 9,300 participants.
© 2025 Arctech.id (PT Arkana Cerdas Teknologi). All rights reserved.
© 2025 Arctech.id (PT Arkana Cerdas Teknologi).
All rights reserved.