SSR: Bagaimana AI Mengubah Teks Bebas Menjadi Skor Likert yang Akurat

Bayangkan Anda meluncurkan produk baru. Anda ingin tahu: seberapa besar kemungkinan konsumen membelinya? Dalam riset tradisional, jawabannya datang dari skala Likert — angka 1 sampai 5 yang menunjukkan minat beli.

Tapi apa yang terjadi ketika "konsumen" itu adalah AI?

Masalah: AI Selalu Menjawab "3"

Ketika Large Language Model (LLM) diminta langsung memberikan rating Likert — "berikan angka 1-5 untuk produk ini" — hasilnya mengecewakan. Model hampir selalu menjawab 3. Aman, netral, tidak informatif.

Fenomena ini disebut regression to the mean. LLM memilih jawaban "aman" di tengah skala, menghasilkan distribusi yang sangat sempit dan tidak realistis. Rata-rata minat beli manusia di 57 survei nyata adalah 4.0 — tapi LLM dengan metode langsung menghasilkan distribusi yang hampir semuanya terpusat di 3.

Ini bukan keterbatasan fundamental AI. Ini masalah cara kita bertanya.

Tiga Pendekatan yang Diuji

Paper ilmiah dari Maier et al. (2025) — kolaborasi PyMC Labs dan Colgate-Palmolive — menguji tiga metode berbeda untuk mendapatkan skor minat beli dari LLM:

1. Direct Likert Rating (DLR)

LLM diminta langsung memilih angka 1-5.

Hasil: Distribusi sangat sempit. KS Similarity hanya 0.26. Hampir semua jawaban di angka 3. Tidak berguna untuk pengambilan keputusan.

2. Follow-up Likert Rating (FLR)

LLM pertama menulis respons teks bebas tentang produk. Lalu LLM kedua — berperan sebagai "ahli rating Likert" — mengonversi teks itu ke angka 1-5.

Hasil: Lebih baik. KS Similarity naik ke 0.72. Tapi distribusi masih kurang akurat dibanding manusia.

3. Semantic Similarity Rating (SSR)

Ini terobosannya. Alih-alih meminta AI mengonversi teks ke angka, SSR menggunakan matematika embedding untuk mengukur seberapa mirip respons AI dengan pernyataan referensi untuk setiap titik Likert.

Hasil: KS Similarity 0.88. Correlation Attainment 90% dari reliabilitas test-retest manusia.

Metode	KS Similarity	Correlation Attainment	Catatan
DLR	0.26	80%	Semua jawaban di 3
FLR	0.72	85%	Lebih baik, masih kurang akurat
SSR	0.88	90%	Distribusi sangat mirip manusia

Bagaimana SSR Bekerja

Langkah 1: Elicitasi Teks Bebas

LLM berperan sebagai konsumen sintetis dengan atribut demografis tertentu (usia, gender, pendapatan, lokasi). Ia melihat deskripsi produk, lalu diminta menjawab dalam teks bebas: "Seberapa tertarik Anda untuk membeli produk ini?"

Contoh respons: "Saya cukup tertarik, tapi harganya agak mahal untuk kantong saya. Mungkin kalau ada diskon."

Langkah 2: Embedding ke Ruang Vektor

Teks respons diubah menjadi vektor 768 dimensi menggunakan model embedding (text-embedding-3-small). Setiap kalimat menjadi titik koordinat dalam ruang matematika.

Langkah 3: Perbandingan dengan Anchor

Untuk setiap titik Likert (1-5), ada pernyataan referensi (anchor) yang sudah disiapkan. Contoh:

Likert 1: "Saya sangat tidak tertarik dan tidak akan membeli produk ini"
Likert 3: "Saya ragu-ragu, mungkin akan mencoba jika ada kesempatan"
Likert 5: "Saya sangat antusias dan pasti akan langsung membelinya"

Langkah 4: Cosine Similarity

Sistem menghitung kesamaan kosinus antara vektor respons dan setiap vektor anchor. Semakin mirip arah dua vektor, semakin tinggi skor similarity-nya (0 sampai 1).

Langkah 5: Distribusi Probabilitas

Similarity dikurangi nilai minimum (untuk memperbesar kontras), lalu dinormalisasi menjadi distribusi probabilitas:

$p(r) \propto \cos\_sim(\text{respons}, \text{anchor}_r) - \min(\cos\_sim\_set)$

Hasilnya bukan satu angka, tapi distribusi penuh — misalnya: 5% Likert-1, 10% Likert-2, 25% Likert-3, 40% Likert-4, 20% Likert-5. Rata-rata tertimbang = Mean Purchase Intent.

Langkah 6: Rata-rata 6 Set Anchor

Untuk robustness, digunakan 6 set anchor berbeda (total 30 pernyataan). Distribusi final adalah rata-rata dari keenam set.

Coba Sendiri

Simulasi sederhana SSR — ketik respons konsumen atau pilih preset, lihat bagaimana distribusi Likert berubah:

Simulasi SSR Interaktif

Ketik respons bebas atau pilih preset untuk melihat distribusi Likert 1-5

10%

20%

35%

30%

1 = Pasti Tidak Beli | 5 = Pasti Beli

Mean PI: 3.75

Validasi: 57 Survei, 9.300 Responden Manusia

Paper ini bukan teori. Divalidasi pada 57 survei riset konsumen nyata untuk produk personal care, dilakukan oleh perusahaan Fortune 500. Setiap survei melibatkan 150-400 responden manusia (total 9.300).

Temuan kunci:

SSR mengalahkan machine learning: LightGBM (supervised ML) hanya mencapai ρ = 65%. SSR mencapai ρ = 90% — tanpa training data sama sekali
Dua model diuji: GPT-4o (KS sim 0.88) dan Gemini-2f (KS sim 0.80). Keduanya bekerja
Zero-shot: Tidak perlu fine-tuning atau data latih. Langsung plug-and-play
Ranking produk akurat: Urutan popularitas 57 produk berdasarkan mean PI sintetis vs. manusia berkorelasi sangat tinggi

Apa yang Bisa (dan Tidak Bisa) Direplikasi

Berhasil direplikasi:

Usia: Pola concave — minat beli lebih rendah di usia muda dan tua, puncak di usia menengah
Pendapatan: Konsumen dengan masalah anggaran menunjukkan PI lebih rendah
Kategori produk: Ranking antar kategori (Cat. I paling rendah, Cat. IV paling tinggi) konsisten
Segmen harga: Tier 1 paling rendah, Tier 4-5 paling tinggi — sesuai data manusia

Belum konsisten:

Gender dan wilayah: LLM belum reliabel mereplikasi perbedaan subgroup berdasarkan gender, wilayah, atau etnisitas
Domain asing: SSR bergantung pada pengetahuan LLM. Untuk produk/budaya yang jarang muncul di data training, hasilnya kurang akurat

Kenapa Ini Penting untuk Bisnis Anda

Riset tradisional: Panel konsumen 150-400 orang, biaya puluhan juta rupiah, waktu berminggu-minggu.

Dengan SSR: Konsumen sintetis yang distribusinya 88% mirip manusia, dalam hitungan menit, dengan biaya yang terjangkau UMKM.

Dan yang paling berharga — SSR menghasilkan feedback kualitatif gratis. Setiap respons teks dari konsumen sintetis berisi alasan, keberatan, dan saran yang bisa ditambang untuk pengembangan produk. Rating Likert tradisional hanya memberi angka tanpa penjelasan.

Ini bukan pengganti riset manusia. Ini cara untuk screening 100 ide produk secara cepat, lalu menginvestasikan budget riset manusia hanya untuk 5 kandidat terbaik.

Arctech Menggunakan SSR

Metode SSR dari Maier et al. inilah yang menjadi fondasi scoring engine Arctech. Setiap kali Anda menjalankan riset di platform kami, respons persona sintetis dikonversi ke skor minat beli menggunakan prinsip yang sama — embedding, cosine similarity, distribusi probabilitas.

Bedanya: kami mengadaptasinya untuk konteks Indonesia. Anchor statements disesuaikan dengan bahasa dan budaya konsumen Indonesia. Persona diperkaya dengan data sensus BPS dan Kemendagri untuk 88.379 kelurahan.

Referensi

Maier, B.F., Aslak, U., Fiaschi, L., Rismal, N., Fletcher, K., Luhmann, C.C., Dow, R., Pappas, K., & Wiecki, T.V. (2025). LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings. arXiv:2510.08338v2.
PyMC Labs & Colgate-Palmolive Company. Dataset: 57 consumer research surveys, 9,300 participants.