arctech.id
Metodologi

Membangun Konsumen Virtual dari Data Nyata Indonesia

Tim Riset Arctech31 Maret 202615 mnt baca
Membangun Konsumen Virtual dari Data Nyata Indonesia

Nusa Persona adalah platform riset pasar berbasis kecerdasan buatan yang menciptakan populasi konsumen sintetis dari data sensus resmi Indonesia (BPS dan Kemendagri), lalu mewawancarai mereka secara otomatis menggunakan Large Language Model untuk menghasilkan insight pasar yang terukur, dapat dipertanggungjawabkan secara statistik, dan terjangkau bagi jutaan pelaku ekonomi kreatif.

Visi & Filosofi: Simulation-First Research

Arctech bukan sekadar chatbot. Ia adalah mesin simulasi sosiometrik yang membangun populasi virtual dari realitas statistik Indonesia dan mensimulasikan interaksi manusia dalam skala besar menggunakan Large Language Model (LLM).

Masalah utama riset pasar tradisional: Social Desirability Bias — kecenderungan responden memberikan jawaban yang dianggap "benar" secara sosial, bukan jawaban jujur — dan biaya logistik tinggi. Arctech memecahkan keduanya dengan Synthetic Population dari data resmi pemerintah.

Definisi Masalah: Pelaku Kreatif Tanpa Akses Riset

Ekonomi kreatif Indonesia menyumbang Rp1.200+ triliun (7,7% PDB), 17 subsektor, 8,2 juta pelaku. Namun 67% mengalami kegagalan produk karena ketidakpahaman pasar (Kemenparekraf 2023). 70% tidak melakukan riset pasar sebelum launch. Kerugian: Rp5-30 juta per produk gagal.

Riset agensi = Rp50 juta (tidak terjangkau UMKM). Polling Instagram/Google Forms = convenience sample yang bias. 96% pelaku berskala UMKM dengan omzet di bawah Rp500 juta/tahun.

Kompetitor sesungguhnya bukan agensi Rp50 juta, melainkan kebiasaan "tidak riset sama sekali". Platform global (SyntheticUsers) tidak paham konteks Indonesia: distribusi agama, musyawarah keluarga, sensitivitas halal, variasi 88.379 kelurahan.

Arsitektur Sistem

Lima tahap otomatis tanpa campur tangan manual. Pengguna cukup chat.

Input (Chat Natural) → Koordinator (Scoping & Design) → IPF Engine (Persona Synthesis) → Interview (Wawancara + SSR) → Report (Analysis & Insight)

Stack Teknologi

  • Core Logic: Next.js, di-deploy ke Cloudflare Pages + Durable Objects untuk resiliensi
  • Database: Cloudflare D1 (SQLite edge) + PostgreSQL. Menyimpan session state, hasil riset, data BPS
  • AI Orchestration: Agentic LLM dengan function-calling. Lima semantic tools diorkestrasi otomatis
  • Embeddings: Model text-embedding-3-small (vektor 768 dimensi) untuk SSR Scoring
  • External Data: Tavily API (market intelligence), Kemendagri (sensus), BPS API (indikator ekonomi)

Fase 1-3: Scoping & Design (AI Coordinator)

AI Coordinator menyaring niat pengguna menjadi desain studi formal. Bertindak sebagai konsultan riset, bukan asisten umum. SELALU menjalankan search_market_intel sebelum memberikan desain studi.

Logika Penentuan Study Mode

ModeKasus PenggunaanPenjelasan
IndividualProduk personal (fashion, skincare, gadget)Keputusan 100% oleh responden
HouseholdProduk rumah tangga (kulkas, WiFi, asuransi)Simulasi musyawarah keluarga dengan bobot peran
MixedProduk hybrid (motor, laptop)Ada pengaruh keluarga tapi keputusan akhir personal

Waterfall Data Query

Saat pengguna menyebut lokasi, sistem query tabel silver_indicators secara berjenjang:

  1. Level Kabupaten — kemendagri_id lengkap
  2. Level Provinsi — 2 digit pertama ID (jika kabupaten kosong)
  3. Level Nasional — jika provinsi kosong

Bridge Table 1.799 pemetaan silang ID BPS – ID Kemendagri menjaga konsistensi.

Fase 4: Statistical Population Synthesis

Hierarchical Demographic Loading

Data dari tabel kemendagri_kelurahan mencakup 88.379 kelurahan, 38 provinsi, 514 kabupaten/kota, 7.240 kecamatan. Setiap kelurahan memiliki distribusi usia, gender, agama, status pernikahan, pendidikan, dan pekerjaan.

Algoritma IPF (Iterative Proportional Fitting)

Data BPS hanya memberikan marginal (total per satu dimensi). Kita butuh joint distribution (distribusi gabungan beberapa variabel). IPF mengestimasi ini secara iteratif.

Persamaan inti:

Xijk(n+1)=Xijk(n)×Target MarginalTotal Saat IniX_{ijk}^{(n+1)} = X_{ijk}^{(n)} \times \frac{\text{Target Marginal}}{\text{Total Saat Ini}}

Langkah-langkah:

  1. Scaling Usia — total per baris = data Kemendagri
  2. Scaling Gender — total per kolom = data sensus
  3. Scaling Pendapatan — distribusi SES nasional
  4. Convergence TestTAE=CurrentiTargeti<0.000001TAE = \sum |Current_i - Target_i| < 0.000001

Berhenti jika TAE di bawah 0.000001 atau 100 iterasi tercapai.

Simulasi IPF Interaktif
Geser slider untuk melihat konvergensi distribusi secara iteratif
Total Absolute Error
14.0000
Iterasi 08
Pria
Wanita
Non-binary
Target
18-29
10.0
10.0
10.0
25
30-49
10.0
10.0
10.0
35
50+
10.0
10.0
10.0
30
30
28
32
Iterasi genap menyesuaikan baris (usia), iterasi ganjil menyesuaikan kolom (gender). Warna semakin terang = bobot semakin besar. TAE mendekati 0 = distribusi sudah konvergen.

Monte Carlo Sampling

Setelah konvergen, Monte Carlo Sampling menghasilkan persona proporsional terhadap populasi nyata. Sel berbobot 0.15 = 15% persona dari kategori tersebut.

Fase 5: Simulation Engine — Soul Injection & Interview

Soul Injection (Psycho-Demographics)

Modul persona-crafter.ts memperkaya profil statistik dengan tiga lapisan:

  • OCEAN Personality: Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism. Setiap persona mendapat skor acak terkontrol yang mempengaruhi cara merespons
  • Cultural Priors: Kewajiban halal, pengaruh keluarga dalam keputusan, komitmen zakat/pengeluaran keagamaan
  • Economic Constraints: Necessities Ratio — berapa persen gaji habis untuk kebutuhan pokok. Persona dengan ratio 80% hanya punya 20% untuk pengeluaran diskresioner

Empat Mode Wawancara

ModeDeskripsi
IndividualProduk personal. 10 putaran wawancara mandiri
HouseholdMusyawarah keluarga Indonesia. Bobot peran berbeda (istri 0.35 untuk furnitur)
FGD6-10 persona berdiskusi bersama. Menangkap dinamika sosial
Swarm100 persona, 3 putaran diskusi berantai. Uji potensi viralitas

Interviewer Protocol (Probing Logic)

Logika "Probe or Move On": jika jawaban singkat ("Lumayan mahal"), moderator bertanya "Mahal dibanding apa?". Max 5-8 turns per sesi.

Instruksi anti-bias: "Anda MANUSIA SUNGGUHAN. Jika harga melebihi 10% pendapatan, Anda HARUS menyatakan keberatan." Ini mencegah AI Politeness Bias — kecenderungan LLM terlalu sopan dan positif.

Fase 5.3: SSR Scoring (Maier et al. 2025)

SSR (Semantic Similarity Rating) mengubah teks bebas menjadi angka Likert (1-5) yang akurat. Metode tercanggih dari Maier et al. 2025 (PyMC Labs + Colgate-Palmolive), divalidasi pada 57 survei dan 9.300 responden.

Langkah-Langkah SSR

  1. Elicitasi Teks Bebas — Persona menjawab dalam teks natural, bukan angka
  2. 6 Anchor Sets (30 pernyataan) — Referensi untuk setiap titik Likert
  3. Embedding — Teks diubah ke vektor 768 dimensi
  4. Cosine Similarity — Kesamaan kosinus antara respons dan anchor
  5. Distribusi probabilitas:

p(r)cos_sim(respons,anchorr)min(cos_sim_set)p(r) \sim \cos\_sim(\text{respons}, \text{anchor}_r) - \min(\cos\_sim\_set)

  1. Mean PI = rata-rata tertimbang distribusi
Simulasi SSR Interaktif
Ketik respons bebas atau pilih preset untuk melihat distribusi Likert 1-5
5%
1
10%
2
20%
3
35%
4
30%
5
1 = Pasti Tidak Beli | 5 = Pasti Beli
Mean PI: 3.75

Perbandingan Performa

MetodeKS SimilarityAttainmentCatatan
DLR (Direct Likert)0.2680%Semua jawaban di angka 3. Tidak realistis
FLR (Follow-up Likert)0.7285%Lebih baik tapi distribusi masih kurang akurat
SSR (Metode Kami)0.8890%Distribusi sangat mirip manusia

Fase 6: Analysis & Synthesis

Qualitative Integration

Model AI analisis memproses transkrip wawancara untuk menemukan Friction Points (hambatan yang membuat konsumen batal beli) dan Aha! Moments (fitur yang tidak dibanggakan tapi ternyata disukai).

Cluster Reporting

Hasil dikelompokkan per demografi. Contoh: "Disukai Ibu RT 30-45 di Jabodetabek (PI 4.2), ditolak mahasiswa 18-25 karena kepraktisan (PI 2.8)."

Format Output

Distribusi minat beli per segmen, sensitivitas harga, fitur dicari, positioning kompetitif, kutipan verbatim, rekomendasi aksi. Export: CSV, PDF, JSON.

Validasi, Privasi, dan Keamanan

Mengacu framework PDPC Singapore dan A*STAR (2024) untuk synthetic data.

  • Tidak Ada PII — Semua persona = entitas fiksi. Tidak ada data pribadi nyata
  • Enkripsi End-to-End — Data produk pengguna dienkripsi browser-to-database
  • Data Sumber Resmi — BPS API resmi + Kemendagri. Bukan estimasi atau scraping
  • Isolasi Sesi — Data pengguna A tidak pernah bocor ke sesi pengguna B

Metrik Validasi

  • Data Integrity: Kelengkapan, konsistensi, validitas terhadap data dictionary sumber
  • Data Fidelity: Histogram-based similarity + correlational similarity terhadap distribusi sumber
  • Data Utility: Correlation attainment — seberapa dekat korelasi sintetis-manusia terhadap test-retest reliability

Referensi

  1. Maier, B.F., et al. (2025). LLMs Reproduce Human Purchase Intent via SSR. arXiv:2510.08338v2. 57 survei, 9.300 responden.
  2. PDPC Singapore & A*STAR (2024). Proposed Guide on Synthetic Data Generation.
  3. BPS. Data Statistik Indonesia 2020-2024. 3.956 indikator, 34 provinsi, 150+ kabupaten.
  4. Kemendagri. Data Administrasi Kependudukan. 88.379 kelurahan.
  5. Kemenparekraf (2023). Survei Pelaku Ekonomi Kreatif.
  6. BPS (2024). Survei UMKM Indonesia.
persona sintetisOCEAN modeldemografi IndonesiaIPFSSR
Bagikan:
Arctech.id
📍 The Savia BSD City, Ciater Serpong
Tangerang Selatan 15310

Follow Us

    InstagramLinkedInEmail

© 2025 Arctech.id (PT Arkana Cerdas Teknologi).
All rights reserved.