Membangun Konsumen Virtual dari Data Nyata Indonesia
Nusa Persona adalah platform riset pasar berbasis kecerdasan buatan yang menciptakan populasi konsumen sintetis dari data sensus resmi Indonesia (BPS dan Kemendagri), lalu mewawancarai mereka secara otomatis menggunakan Large Language Model untuk menghasilkan insight pasar yang terukur, dapat dipertanggungjawabkan secara statistik, dan terjangkau bagi jutaan pelaku ekonomi kreatif.
Visi & Filosofi: Simulation-First Research
Arctech bukan sekadar chatbot. Ia adalah mesin simulasi sosiometrik yang membangun populasi virtual dari realitas statistik Indonesia dan mensimulasikan interaksi manusia dalam skala besar menggunakan Large Language Model (LLM).
Masalah utama riset pasar tradisional: Social Desirability Bias — kecenderungan responden memberikan jawaban yang dianggap "benar" secara sosial, bukan jawaban jujur — dan biaya logistik tinggi. Arctech memecahkan keduanya dengan Synthetic Population dari data resmi pemerintah.
Definisi Masalah: Pelaku Kreatif Tanpa Akses Riset
Ekonomi kreatif Indonesia menyumbang Rp1.200+ triliun (7,7% PDB), 17 subsektor, 8,2 juta pelaku. Namun 67% mengalami kegagalan produk karena ketidakpahaman pasar (Kemenparekraf 2023). 70% tidak melakukan riset pasar sebelum launch. Kerugian: Rp5-30 juta per produk gagal.
Riset agensi = Rp50 juta (tidak terjangkau UMKM). Polling Instagram/Google Forms = convenience sample yang bias. 96% pelaku berskala UMKM dengan omzet di bawah Rp500 juta/tahun.
Kompetitor sesungguhnya bukan agensi Rp50 juta, melainkan kebiasaan "tidak riset sama sekali". Platform global (SyntheticUsers) tidak paham konteks Indonesia: distribusi agama, musyawarah keluarga, sensitivitas halal, variasi 88.379 kelurahan.
Arsitektur Sistem
Lima tahap otomatis tanpa campur tangan manual. Pengguna cukup chat.
Input (Chat Natural) → Koordinator (Scoping & Design) → IPF Engine (Persona Synthesis) → Interview (Wawancara + SSR) → Report (Analysis & Insight)
Stack Teknologi
- Core Logic: Next.js, di-deploy ke Cloudflare Pages + Durable Objects untuk resiliensi
- Database: Cloudflare D1 (SQLite edge) + PostgreSQL. Menyimpan session state, hasil riset, data BPS
- AI Orchestration: Agentic LLM dengan function-calling. Lima semantic tools diorkestrasi otomatis
- Embeddings: Model text-embedding-3-small (vektor 768 dimensi) untuk SSR Scoring
- External Data: Tavily API (market intelligence), Kemendagri (sensus), BPS API (indikator ekonomi)
Fase 1-3: Scoping & Design (AI Coordinator)
AI Coordinator menyaring niat pengguna menjadi desain studi formal. Bertindak sebagai konsultan riset, bukan asisten umum. SELALU menjalankan search_market_intel sebelum memberikan desain studi.
Logika Penentuan Study Mode
| Mode | Kasus Penggunaan | Penjelasan |
|---|---|---|
| Individual | Produk personal (fashion, skincare, gadget) | Keputusan 100% oleh responden |
| Household | Produk rumah tangga (kulkas, WiFi, asuransi) | Simulasi musyawarah keluarga dengan bobot peran |
| Mixed | Produk hybrid (motor, laptop) | Ada pengaruh keluarga tapi keputusan akhir personal |
Waterfall Data Query
Saat pengguna menyebut lokasi, sistem query tabel silver_indicators secara berjenjang:
- Level Kabupaten — kemendagri_id lengkap
- Level Provinsi — 2 digit pertama ID (jika kabupaten kosong)
- Level Nasional — jika provinsi kosong
Bridge Table 1.799 pemetaan silang ID BPS – ID Kemendagri menjaga konsistensi.
Fase 4: Statistical Population Synthesis
Hierarchical Demographic Loading
Data dari tabel kemendagri_kelurahan mencakup 88.379 kelurahan, 38 provinsi, 514 kabupaten/kota, 7.240 kecamatan. Setiap kelurahan memiliki distribusi usia, gender, agama, status pernikahan, pendidikan, dan pekerjaan.
Algoritma IPF (Iterative Proportional Fitting)
Data BPS hanya memberikan marginal (total per satu dimensi). Kita butuh joint distribution (distribusi gabungan beberapa variabel). IPF mengestimasi ini secara iteratif.
Persamaan inti:
Langkah-langkah:
- Scaling Usia — total per baris = data Kemendagri
- Scaling Gender — total per kolom = data sensus
- Scaling Pendapatan — distribusi SES nasional
- Convergence Test —
Berhenti jika TAE di bawah 0.000001 atau 100 iterasi tercapai.
Monte Carlo Sampling
Setelah konvergen, Monte Carlo Sampling menghasilkan persona proporsional terhadap populasi nyata. Sel berbobot 0.15 = 15% persona dari kategori tersebut.
Fase 5: Simulation Engine — Soul Injection & Interview
Soul Injection (Psycho-Demographics)
Modul persona-crafter.ts memperkaya profil statistik dengan tiga lapisan:
- OCEAN Personality: Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism. Setiap persona mendapat skor acak terkontrol yang mempengaruhi cara merespons
- Cultural Priors: Kewajiban halal, pengaruh keluarga dalam keputusan, komitmen zakat/pengeluaran keagamaan
- Economic Constraints: Necessities Ratio — berapa persen gaji habis untuk kebutuhan pokok. Persona dengan ratio 80% hanya punya 20% untuk pengeluaran diskresioner
Empat Mode Wawancara
| Mode | Deskripsi |
|---|---|
| Individual | Produk personal. 10 putaran wawancara mandiri |
| Household | Musyawarah keluarga Indonesia. Bobot peran berbeda (istri 0.35 untuk furnitur) |
| FGD | 6-10 persona berdiskusi bersama. Menangkap dinamika sosial |
| Swarm | 100 persona, 3 putaran diskusi berantai. Uji potensi viralitas |
Interviewer Protocol (Probing Logic)
Logika "Probe or Move On": jika jawaban singkat ("Lumayan mahal"), moderator bertanya "Mahal dibanding apa?". Max 5-8 turns per sesi.
Instruksi anti-bias: "Anda MANUSIA SUNGGUHAN. Jika harga melebihi 10% pendapatan, Anda HARUS menyatakan keberatan." Ini mencegah AI Politeness Bias — kecenderungan LLM terlalu sopan dan positif.
Fase 5.3: SSR Scoring (Maier et al. 2025)
SSR (Semantic Similarity Rating) mengubah teks bebas menjadi angka Likert (1-5) yang akurat. Metode tercanggih dari Maier et al. 2025 (PyMC Labs + Colgate-Palmolive), divalidasi pada 57 survei dan 9.300 responden.
Langkah-Langkah SSR
- Elicitasi Teks Bebas — Persona menjawab dalam teks natural, bukan angka
- 6 Anchor Sets (30 pernyataan) — Referensi untuk setiap titik Likert
- Embedding — Teks diubah ke vektor 768 dimensi
- Cosine Similarity — Kesamaan kosinus antara respons dan anchor
- Distribusi probabilitas:
- Mean PI = rata-rata tertimbang distribusi
Perbandingan Performa
| Metode | KS Similarity | Attainment | Catatan |
|---|---|---|---|
| DLR (Direct Likert) | 0.26 | 80% | Semua jawaban di angka 3. Tidak realistis |
| FLR (Follow-up Likert) | 0.72 | 85% | Lebih baik tapi distribusi masih kurang akurat |
| SSR (Metode Kami) | 0.88 | 90% | Distribusi sangat mirip manusia |
Fase 6: Analysis & Synthesis
Qualitative Integration
Model AI analisis memproses transkrip wawancara untuk menemukan Friction Points (hambatan yang membuat konsumen batal beli) dan Aha! Moments (fitur yang tidak dibanggakan tapi ternyata disukai).
Cluster Reporting
Hasil dikelompokkan per demografi. Contoh: "Disukai Ibu RT 30-45 di Jabodetabek (PI 4.2), ditolak mahasiswa 18-25 karena kepraktisan (PI 2.8)."
Format Output
Distribusi minat beli per segmen, sensitivitas harga, fitur dicari, positioning kompetitif, kutipan verbatim, rekomendasi aksi. Export: CSV, PDF, JSON.
Validasi, Privasi, dan Keamanan
Mengacu framework PDPC Singapore dan A*STAR (2024) untuk synthetic data.
- Tidak Ada PII — Semua persona = entitas fiksi. Tidak ada data pribadi nyata
- Enkripsi End-to-End — Data produk pengguna dienkripsi browser-to-database
- Data Sumber Resmi — BPS API resmi + Kemendagri. Bukan estimasi atau scraping
- Isolasi Sesi — Data pengguna A tidak pernah bocor ke sesi pengguna B
Metrik Validasi
- Data Integrity: Kelengkapan, konsistensi, validitas terhadap data dictionary sumber
- Data Fidelity: Histogram-based similarity + correlational similarity terhadap distribusi sumber
- Data Utility: Correlation attainment — seberapa dekat korelasi sintetis-manusia terhadap test-retest reliability
Referensi
- Maier, B.F., et al. (2025). LLMs Reproduce Human Purchase Intent via SSR. arXiv:2510.08338v2. 57 survei, 9.300 responden.
- PDPC Singapore & A*STAR (2024). Proposed Guide on Synthetic Data Generation.
- BPS. Data Statistik Indonesia 2020-2024. 3.956 indikator, 34 provinsi, 150+ kabupaten.
- Kemendagri. Data Administrasi Kependudukan. 88.379 kelurahan.
- Kemenparekraf (2023). Survei Pelaku Ekonomi Kreatif.
- BPS (2024). Survei UMKM Indonesia.
© 2025 Arctech.id (PT Arkana Cerdas Teknologi). All rights reserved.
© 2025 Arctech.id (PT Arkana Cerdas Teknologi).
All rights reserved.