Membangun Konsumen Virtual dari Data Nyata Indonesia

Nusa Persona adalah platform riset pasar berbasis kecerdasan buatan yang menciptakan populasi konsumen sintetis dari data sensus resmi Indonesia (BPS dan Kemendagri), lalu mewawancarai mereka secara otomatis menggunakan Large Language Model untuk menghasilkan insight pasar yang terukur, dapat dipertanggungjawabkan secara statistik, dan terjangkau bagi jutaan pelaku ekonomi kreatif.

Visi & Filosofi: Simulation-First Research

Arctech bukan sekadar chatbot. Ia adalah mesin simulasi sosiometrik yang membangun populasi virtual dari realitas statistik Indonesia dan mensimulasikan interaksi manusia dalam skala besar menggunakan Large Language Model (LLM).

Masalah utama riset pasar tradisional: Social Desirability Bias — kecenderungan responden memberikan jawaban yang dianggap "benar" secara sosial, bukan jawaban jujur — dan biaya logistik tinggi. Arctech memecahkan keduanya dengan Synthetic Population dari data resmi pemerintah.

Definisi Masalah: Pelaku Kreatif Tanpa Akses Riset

Ekonomi kreatif Indonesia menyumbang Rp1.200+ triliun (7,7% PDB), 17 subsektor, 8,2 juta pelaku. Namun 67% mengalami kegagalan produk karena ketidakpahaman pasar (Kemenparekraf 2023). 70% tidak melakukan riset pasar sebelum launch. Kerugian: Rp5-30 juta per produk gagal.

Riset agensi = Rp50 juta (tidak terjangkau UMKM). Polling Instagram/Google Forms = convenience sample yang bias. 96% pelaku berskala UMKM dengan omzet di bawah Rp500 juta/tahun.

Kompetitor sesungguhnya bukan agensi Rp50 juta, melainkan kebiasaan "tidak riset sama sekali". Platform global (SyntheticUsers) tidak paham konteks Indonesia: distribusi agama, musyawarah keluarga, sensitivitas halal, variasi 88.379 kelurahan.

Arsitektur Sistem

Lima tahap otomatis tanpa campur tangan manual. Pengguna cukup chat.

Input (Chat Natural) → Koordinator (Scoping & Design) → IPF Engine (Persona Synthesis) → Interview (Wawancara + SSR) → Report (Analysis & Insight)

Stack Teknologi

Core Logic: Next.js, di-deploy ke Cloudflare Pages + Durable Objects untuk resiliensi
Database: Cloudflare D1 (SQLite edge) + PostgreSQL. Menyimpan session state, hasil riset, data BPS
AI Orchestration: Agentic LLM dengan function-calling. Lima semantic tools diorkestrasi otomatis
Embeddings: Model text-embedding-3-small (vektor 768 dimensi) untuk SSR Scoring
External Data: Tavily API (market intelligence), Kemendagri (sensus), BPS API (indikator ekonomi)

Fase 1-3: Scoping & Design (AI Coordinator)

AI Coordinator menyaring niat pengguna menjadi desain studi formal. Bertindak sebagai konsultan riset, bukan asisten umum. SELALU menjalankan search_market_intel sebelum memberikan desain studi.

Logika Penentuan Study Mode

Mode	Kasus Penggunaan	Penjelasan
Individual	Produk personal (fashion, skincare, gadget)	Keputusan 100% oleh responden
Household	Produk rumah tangga (kulkas, WiFi, asuransi)	Simulasi musyawarah keluarga dengan bobot peran
Mixed	Produk hybrid (motor, laptop)	Ada pengaruh keluarga tapi keputusan akhir personal

Waterfall Data Query

Saat pengguna menyebut lokasi, sistem query tabel silver_indicators secara berjenjang:

Level Kabupaten — kemendagri_id lengkap
Level Provinsi — 2 digit pertama ID (jika kabupaten kosong)
Level Nasional — jika provinsi kosong

Bridge Table 1.799 pemetaan silang ID BPS – ID Kemendagri menjaga konsistensi.

Fase 4: Statistical Population Synthesis

Hierarchical Demographic Loading

Data dari tabel kemendagri_kelurahan mencakup 88.379 kelurahan, 38 provinsi, 514 kabupaten/kota, 7.240 kecamatan. Setiap kelurahan memiliki distribusi usia, gender, agama, status pernikahan, pendidikan, dan pekerjaan.

Algoritma IPF (Iterative Proportional Fitting)

Data BPS hanya memberikan marginal (total per satu dimensi). Kita butuh joint distribution (distribusi gabungan beberapa variabel). IPF mengestimasi ini secara iteratif.

Persamaan inti:

$X_{ijk}^{(n+1)} = X_{ijk}^{(n)} \times \frac{\text{Target Marginal}}{\text{Total Saat Ini}}$

Langkah-langkah:

Scaling Usia — total per baris = data Kemendagri
Scaling Gender — total per kolom = data sensus
Scaling Pendapatan — distribusi SES nasional
Convergence Test — $TAE = \sum |Current_i - Target_i| < 0.000001$

Berhenti jika TAE di bawah 0.000001 atau 100 iterasi tercapai.

Simulasi IPF Interaktif

Geser slider untuk melihat konvergensi distribusi secara iteratif

Total Absolute Error

14.0000

Iterasi 08

Pria

Wanita

Non-binary

Target

18-29

10.0

30-49

10.0

50+

10.0

Iterasi genap menyesuaikan baris (usia), iterasi ganjil menyesuaikan kolom (gender). Warna semakin terang = bobot semakin besar. TAE mendekati 0 = distribusi sudah konvergen.

Monte Carlo Sampling

Setelah konvergen, Monte Carlo Sampling menghasilkan persona proporsional terhadap populasi nyata. Sel berbobot 0.15 = 15% persona dari kategori tersebut.

Fase 5: Simulation Engine — Soul Injection & Interview

Soul Injection (Psycho-Demographics)

Modul persona-crafter.ts memperkaya profil statistik dengan tiga lapisan:

OCEAN Personality: Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism. Setiap persona mendapat skor acak terkontrol yang mempengaruhi cara merespons
Cultural Priors: Kewajiban halal, pengaruh keluarga dalam keputusan, komitmen zakat/pengeluaran keagamaan
Economic Constraints: Necessities Ratio — berapa persen gaji habis untuk kebutuhan pokok. Persona dengan ratio 80% hanya punya 20% untuk pengeluaran diskresioner

Empat Mode Wawancara

Mode	Deskripsi
Individual	Produk personal. 10 putaran wawancara mandiri
Household	Musyawarah keluarga Indonesia. Bobot peran berbeda (istri 0.35 untuk furnitur)
FGD	6-10 persona berdiskusi bersama. Menangkap dinamika sosial
Swarm	100 persona, 3 putaran diskusi berantai. Uji potensi viralitas

Interviewer Protocol (Probing Logic)

Logika "Probe or Move On": jika jawaban singkat ("Lumayan mahal"), moderator bertanya "Mahal dibanding apa?". Max 5-8 turns per sesi.

Instruksi anti-bias: "Anda MANUSIA SUNGGUHAN. Jika harga melebihi 10% pendapatan, Anda HARUS menyatakan keberatan." Ini mencegah AI Politeness Bias — kecenderungan LLM terlalu sopan dan positif.

Fase 5.3: SSR Scoring (Maier et al. 2025)

SSR (Semantic Similarity Rating) mengubah teks bebas menjadi angka Likert (1-5) yang akurat. Metode tercanggih dari Maier et al. 2025 (PyMC Labs + Colgate-Palmolive), divalidasi pada 57 survei dan 9.300 responden.

Langkah-Langkah SSR

Elicitasi Teks Bebas — Persona menjawab dalam teks natural, bukan angka
6 Anchor Sets (30 pernyataan) — Referensi untuk setiap titik Likert
Embedding — Teks diubah ke vektor 768 dimensi
Cosine Similarity — Kesamaan kosinus antara respons dan anchor
Distribusi probabilitas:

$p(r) \sim \cos\_sim(\text{respons}, \text{anchor}_r) - \min(\cos\_sim\_set)$

Mean PI = rata-rata tertimbang distribusi

Simulasi SSR Interaktif

Ketik respons bebas atau pilih preset untuk melihat distribusi Likert 1-5

10%

20%

35%

30%

1 = Pasti Tidak Beli | 5 = Pasti Beli

Mean PI: 3.75

Perbandingan Performa

Metode	KS Similarity	Attainment	Catatan
DLR (Direct Likert)	0.26	80%	Semua jawaban di angka 3. Tidak realistis
FLR (Follow-up Likert)	0.72	85%	Lebih baik tapi distribusi masih kurang akurat
SSR (Metode Kami)	0.88	90%	Distribusi sangat mirip manusia

Fase 6: Analysis & Synthesis

Qualitative Integration

Model AI analisis memproses transkrip wawancara untuk menemukan Friction Points (hambatan yang membuat konsumen batal beli) dan Aha! Moments (fitur yang tidak dibanggakan tapi ternyata disukai).

Cluster Reporting

Hasil dikelompokkan per demografi. Contoh: "Disukai Ibu RT 30-45 di Jabodetabek (PI 4.2), ditolak mahasiswa 18-25 karena kepraktisan (PI 2.8)."

Format Output

Distribusi minat beli per segmen, sensitivitas harga, fitur dicari, positioning kompetitif, kutipan verbatim, rekomendasi aksi. Export: CSV, PDF, JSON.

Validasi, Privasi, dan Keamanan

Mengacu framework PDPC Singapore dan A*STAR (2024) untuk synthetic data.

Tidak Ada PII — Semua persona = entitas fiksi. Tidak ada data pribadi nyata
Enkripsi End-to-End — Data produk pengguna dienkripsi browser-to-database
Data Sumber Resmi — BPS API resmi + Kemendagri. Bukan estimasi atau scraping
Isolasi Sesi — Data pengguna A tidak pernah bocor ke sesi pengguna B

Metrik Validasi

Data Integrity: Kelengkapan, konsistensi, validitas terhadap data dictionary sumber
Data Fidelity: Histogram-based similarity + correlational similarity terhadap distribusi sumber
Data Utility: Correlation attainment — seberapa dekat korelasi sintetis-manusia terhadap test-retest reliability

Referensi

Maier, B.F., et al. (2025). LLMs Reproduce Human Purchase Intent via SSR. arXiv:2510.08338v2. 57 survei, 9.300 responden.
PDPC Singapore & A*STAR (2024). Proposed Guide on Synthetic Data Generation.
BPS. Data Statistik Indonesia 2020-2024. 3.956 indikator, 34 provinsi, 150+ kabupaten.
Kemendagri. Data Administrasi Kependudukan. 88.379 kelurahan.
Kemenparekraf (2023). Survei Pelaku Ekonomi Kreatif.
BPS (2024). Survei UMKM Indonesia.

Membangun Konsumen Virtual dari Data Nyata Indonesia

Visi & Filosofi: Simulation-First Research

Definisi Masalah: Pelaku Kreatif Tanpa Akses Riset

Arsitektur Sistem

Stack Teknologi

Fase 1-3: Scoping & Design (AI Coordinator)

Logika Penentuan Study Mode

Waterfall Data Query

Fase 4: Statistical Population Synthesis

Hierarchical Demographic Loading

Algoritma IPF (Iterative Proportional Fitting)

Monte Carlo Sampling

Fase 5: Simulation Engine — Soul Injection & Interview

Soul Injection (Psycho-Demographics)

Empat Mode Wawancara

Interviewer Protocol (Probing Logic)

Fase 5.3: SSR Scoring (Maier et al. 2025)

Langkah-Langkah SSR

Perbandingan Performa

Fase 6: Analysis & Synthesis

Qualitative Integration

Cluster Reporting

Format Output

Validasi, Privasi, dan Keamanan

Metrik Validasi

Referensi

Artikel Terkait

SSR: Bagaimana AI Mengubah Teks Bebas Menjadi Skor Likert yang Akurat

Follow Us

Follow Us