Transkrip Podcast
Podcast BPO: Akurasi 90%+ berkelanjutan di Transperfect Dataforce (transkrip)
Episode 2 dari The BPO podcast, format transkrip: deep dive tentang bagaimana program anotasi interpolasi Transperfect Dataforce Zipang naik dari akurasi 78% di minggu 1 ke 92% di minggu 12 — dan seperti apa review tiga-lapis (peer review di frame N, supervisor review di frame N+24, gold set mingguan 200-kasus) sebenarnya dalam produksi. Percakapan mencakup analisis error yang mendorong arc retraining, mengapa 92,1% adalah angka sustained yang penting, dan bagaimana funnel 5-gate diadaptasi untuk tugas yang lebih sulit. Transkrip mempertahankan tag [HOST] dan [GUEST], mencakup talking point dan kutipan kunci. Durasi dengar 8 menit; durasi baca kira-kira 12 menit.
Read in English →Data singkat
Apa itu …?
Apa itu anotasi interpolasi, dan apa arti akurasi sustained 90%+?
Anotasi interpolasi adalah tugas pelabelan frame video yang digunakan untuk melatih model computer vision pada motion dan kontinuitas antara frame berurutan. Untuk setiap klip video, anotator mengidentifikasi state objek di frame N, memprediksi state di frame N+24, menggambar bounding box, poligon, atau keypoint, dan menandai motion-blur, oklusi, atau transisi scene apapun. Akurasi sustained 90%+ berarti rolling average 12-minggu tetap di atas lantai kontraktual 90% yang digunakan klien untuk memutuskan apakah data berlabel usable untuk training model downstream.
Cold open: angka 90%, dan apa sebenarnya artinya
[HOST] Selamat datang kembali di The BPO podcast. Hari ini kita bicara tentang sebuah angka: 90%. Secara spesifik, lantai akurasi 90% yang ditetapkan Transperfect Dataforce pada program anotasi interpolasi mereka, dan bagaimana pod Indonesia Zipang melewatinya di minggu 11 dan tetap di atasnya sejak saat itu. Bergabung lagi dengan saya adalah Yoseph Gratika.
[GUEST] Terima kasih sudah mengundang saya kembali. Angka 90% adalah lantai kontraktual — di bawahnya, data berlabel terlalu berisik untuk melatih model. Pertanyaan menariknya adalah apa angka sustained aktualnya, dan bagaimana sampai di sana. Akhir-2025, rolling average 12-minggu adalah 92,1%. Itu angka yang penting.
Talking point: momen minggu 1 di 78%
[HOST] Walkthrough minggu 1. Batch 2.000-klip pertama mendarat, dan akurasinya 78%. Apa yang terjadi?
[GUEST] Tiga cluster error. Pertama, kasus edge motion-blur. Operator menggambar box terlalu ketat, kehilangan objek ketika melewati batas frame. Kedua, deteksi small-object otomotif. Pedestrian di jarak terlewat seluruhnya; model membutuhkan itu untuk training downstream. Ketiga, frame transisi scene. Operator melabeli frame post-transition, bukan transisinya sendiri, yang merupakan jenis error berbeda. Analisis error berjalan pada gold set, dan tiga cluster adalah input untuk arc retraining.
[HOST] Jadi 78% bukan kejutan.
[GUEST] Tidak. Kami berharap minggu 1 mendarat di bawah lantai, karena SOP baru dan operator masih belajar rubrik spesifik klien. Pertanyaannya adalah apakah arc retraining bisa mendaratkan mereka di atas lantai pada minggu 12. Jika minggu 12 masih di bawah 90%, program dalam masalah.
Talking point: minggu 2-4, retraining tertarget pada tiga cluster
[HOST] Minggu 2 sampai 4. Seperti apa retraining tertarget?
[GUEST] Setiap cluster mendapat modul retraining 30-menit dengan contoh beranotasi dari gold set. Motion-blur mendapat 12 contoh yang menunjukkan lebar box yang benar di batas frame. Deteksi small-object mendapat 8 contoh di 1080p dan 4K dengan inflasi bounding-box yang benar. Transisi scene mendapat 10 contoh yang mengontraskan frame transisi versus frame post-transition. Operator mengulang subset kuis gate 3 pada contoh-contoh itu; pass rate bergerak dari 54% ke 71% lintas kohort. Akurasi produksi naik dari 78% ke 82% pada minggu 4.
[HOST] Dan minggu 5 sampai 8?
[GUEST] Peer review di frame N. Operator kedua melabeli frame N secara independen; setiap disagree lebih dari 5% IoU memicu re-anotasi. Ini menangkap disagree sebelum mereka mencapai klien. Akurasi produksi naik dari 82% ke 88% pada minggu 8.
Talking point: minggu 9-12, supervisor review dan gold set mingguan
[HOST] Minggu 9 sampai 12 — minggu-minggu persilangan lantai.
[GUEST] Dua hal terjadi. Pertama, supervisor review di frame N+24. QA supervisor meninjau setiap prediksi N+24 terhadap video sumber, menilai motion-continuity dan edge-case tagging. Kedua, gold set mingguan 200-kasus yang kohort lengkap melabel ulang pada hari Jumat. Skor dihitung terhadap answer key beku; operator yang akurasinya drift di bawah 89% pada gold set ditarik ke retraining 1:1 sebelum produksi live minggu berikutnya. Akurasi produksi melewati 90% di minggu 11 dan mendarat di 92% di minggu 12.
[HOST] Dan itu bertahan sejak?
[GUEST] Ya. Berosilasi antara 91% dan 93% pada rolling average 12-minggu. Akhir-2025 adalah 92,1%. Lantai kontrak adalah 90%; program deliver 92,1%. Bantal 2,1-poin itulah yang membuat program defensible.
Talking point: mengapa tiga layer review, bukan satu
[HOST] Mengapa tiga layer review? Mengapa tidak satu yang bagus?
[GUEST] Setiap layer menangkap kelas error berbeda. Peer review di frame N menangkap disagree antara dua operator pada frame yang sama — itu cek konsistensi. Supervisor review di frame N+24 menangkap kasus prediksi yang lebih sulit, di mana operator meramalkan 24 frame ke depan. Gold set mingguan menangkap drift dari waktu ke waktu, di mana akurasi operator perlahan terkikis ketika SOP berevolusi atau ketika kalibrasi operator meleset. Satu layer tidak bisa melakukan ketiganya. Tiga layer adalah minimum untuk sustained 90%+ pada tugas sulit.
[HOST] Dan biayanya?
[GUEST] Waktu supervisor kira-kira 12% dari total biaya program. Peer review dibangun ke dalam rate operator — kami membayar bonus 5% untuk kerja peer review. Gold set adalah line item paling mahal: 200 kasus × 20 operator × 12 menit per kasus, setiap Jumat, selama 52 minggu. Itu bottleneck-nya, tapi juga yang membuat angka 92,1% itu nyata.
Talking point: 60 dilatih, 20 full-time, konversi 33%
[HOST] Matematika kohort — 60 dilatih, 20 full-time, konversi trial-ke-full-time 33%. Mengapa begitu rendah?
[GUEST] Tugas Transperfect lebih sulit dari tugas ritel Prancis. Anotasi interpolasi memerlukan保持 state objek konsisten lintas frame, dan QA reviewer dan siklus gold set adalah bottleneck, bukan pool operator. Kohort lebih besar akan butuh dua QA reviewer full-time, yang menggandakan biaya QA tanpa menggandakan throughput. Kohort 20-operator butuh satu QA reviewer. 33% konversi adalah angka yang tepat untuk tugas ini.
[HOST] Dan pass rate funnel 5-gate?
[GUEST] Gate 1 mempertahankan 26% pelamar, gate 2 mempertahankan 47%, gate 3 mempertahankan 54%, gate 4 mempertahankan 71%, gate 5 mempertahankan 81%. End-to-end, 60 dari kira-kira 1.800 pelamar mencapai kohort trial, dan 20 dari 60 itu ber-konversi ke full-time. Pass rate funnel agregat adalah 3,3%, yang berada di ujung bawah rentang 6–12% Zipang karena tugas lebih sulit.
Talking point: apa yang harus ditanyakan buyer 2026 tentang 90%+
[HOST] Untuk buyer yang mengevaluasi BPO Indonesia di 2026, apa yang harus mereka tanyakan tentang klaim akurasi 90%+?
[GUEST] Tiga pertanyaan. Pertama, apa akurasi minggu 1? Jika vendor tidak bisa menyebutkan angka minggu 1, mereka tidak menjalankan jenis program yang menghasilkan angka sustained 92,1%. Kedua, apa siklus gold set? Jika vendor tidak bisa menyebutkan ukuran gold set mingguan, mereka tidak menjalankan kalibrasi, dan angka sustained adalah fiktif. Ketiga, apa ambang kegagalan? Di bawah 90% selama dua minggu berturut-turut memicu rencana remediasi; di bawah 88% selama satu minggu memicu eskalasi. Vendor yang tidak bisa menyebutkan ambang-ambang itu adalah vendor yang belum menandatangani kontrak dengan lantai 90%.
[HOST] Ada lagi?
[GUEST] Minta kurva akurasi, bukan hanya angka sustained. Kurva dari 78% di minggu 1 ke 92% di minggu 12 adalah cerita operasional; 92,1% sustained adalah konsekuensinya. Vendor yang hanya bisa menunjukkan angka sustained menyembunyikan kurva.
Kutipan kunci dari episode ini
Pada lantai 90%: "Di bawah 90%, data berlabel terlalu berisik untuk melatih model. Bantal 2,1-poin itulah yang membuat program defensible."
Pada ekspektasi minggu 1: "Kami berharap minggu 1 mendarat di bawah lantai. Pertanyaannya adalah apakah arc retraining mendaratkan mereka di atas lantai pada minggu 12."
Pada tiga layer review: "Setiap layer menangkap kelas error berbeda. Satu layer tidak bisa melakukan ketiganya. Tiga layer adalah minimum untuk sustained 90%+ pada tugas sulit."
Pada gold set: "200 kasus × 20 operator × 12 menit per kasus, setiap Jumat, selama 52 minggu. Itu bottleneck-nya, tapi juga yang membuat angka 92,1% itu nyata."
Pada matematika kohort: "Kohort lebih besar akan butuh dua QA reviewer full-time, yang menggandakan biaya QA tanpa menggandakan throughput. 20 adalah angka yang tepat untuk tugas ini."
Pada apa yang harus ditanyakan buyer: "Minta angka minggu 1, siklus gold set, dan ambang kegagalan. Vendor yang tidak bisa menyebutkan ketiganya belum menandatangani kontrak dengan lantai 90%."
Pertanyaan umum
Mengapa Transperfect Dataforce dinamai dalam studi kasus?
Transperfect Dataforce adalah vendor publik dan merujuk program di material studi kasus publik mereka. Klien ritel Prancis adalah grup ritel Prancis privat yang belum memberikan persetujuan untuk disclosure publik. Studi kasus mendeskripsikan program ritel Prancis secara operasional tanpa menamai klien karena kontrak tidak mengizinkan.
Bagaimana akurasi bisa dari 78% di minggu 1 ke 92% di minggu 12?
Arc retraining tiga-langkah. Minggu 2–4: retraining tertarget pada tiga cluster error yang diidentifikasi dalam analisis error minggu 1 (motion blur, deteksi small-object, transisi scene), menggunakan gold set sebagai rubrik. Minggu 5–8: peer review di frame N menangkap disagree sebelum mereka mencapai klien. Minggu 9–12: supervisor review di frame N+24 plus gold set mingguan 200-kasus. Ambang 90% pertama kali dilewati di minggu 11.
Apa ambang kegagalan?
Di bawah 90% selama dua minggu berturut-turut memicu rencana remediasi. Di bawah 88% selama satu minggu memicu eskalasi langsung. Di bawah 89% pada gold set mingguan selama dua minggu berturut-turut mengeluarkan operator dari produksi live ke retraining 1:1. Angka 90% adalah lantai kontraktual; 92,1% sustained adalah apa yang sebenarnya program deliver.
Bisakah klien meminta agen tambahan di luar 20?
Ya, dengan ramp 60-hari pada metodologi yang sama. Bottleneck adalah QA reviewer dan siklus gold set, bukan pool operator, jadi ekspansi headcount di-pacing ke kapasitas QA. Ramp 40-operator butuh 90 hari; ramp 100-operator butuh 6 bulan.
Apakah SOP yang sama digunakan lintas region?
Ya. Pod Indonesia dan pod paralel di region lain bekerja dari SOP yang sama, gold set yang sama, dan rubrik yang sama. Skor kalibrasi pod Indonesia adalah baseline terhadap mana region lain dibandingkan, dan kalibrasi cross-region mingguan dijalankan oleh Transperfect untuk menandai drift.
Apa garansi replacement 30-hari?
Agen manapun yang jatuh di bawah ambang gold set selama dua minggu berturut-turut, atau yang memicu event eskalasi, di-replace dalam 30 hari. Window 90-hari mencakup issue non-performa yang muncul belakangan: throughput konsisten lambat, flag QA berulang, atau kegagalan mempertahankan coverage shift. Replacement adalah tanggung jawab operator, bukan klien.
Poin penting
- 1. Akurasi minggu 1 adalah 78%. Lantai kontrak adalah 90%. Akurasi sustained akhir-2025 adalah 92,1% pada rolling average 12-minggu.
- 2. Arc retraining tiga-langkah: minggu 2–4 (retraining tertarget), minggu 5–8 (peer review di frame N), minggu 9–12 (supervisor review di frame N+24 + gold set mingguan 200-kasus). 90% dilewati di minggu 11.
- 3. Tiga layer review: peer review di frame N (konsistensi), supervisor review di frame N+24 (forecasting), gold set mingguan 200-kasus (drift). Satu layer tidak bisa melakukan ketiganya.
- 4. 60 dari ~1.800 pelamar mencapai kohort trial (3,3% end-to-end). 20 dari 60 itu ber-konversi ke full-time (33% trial-ke-full-time). Kohort sengaja kecil.
- 5. Gold set mingguan 200-kasus adalah bottleneck dan line item paling mahal. Juga yang membuat angka 92,1% itu nyata dan bukan aspirasional.
- 6. Untuk buyer 2026, minta: akurasi minggu 1, siklus gold set, ambang kegagalan. Vendor yang menyembunyikan salah satu dari ketiganya belum menandatangani kontrak dengan lantai 90%.
Mengevaluasi anotasi interpolasi atau frame video pada sustained 90%+?
Zipang menjalankan program Transperfect Dataforce pada akurasi sustained 92,1%, 78%-ke-92% dalam 12 minggu, dengan review tiga-lapis dan kalibrasi gold set mingguan. Kasus operasional lengkap terdokumentasi.
Sumber
Data dan klaim di artikel ini mengacu pada sumber yang dapat diverifikasi (termasuk riset Zipang dan data publik seperti APJII, JobStreet, Buffer).
- 1.Riset Pasar Kerja Remote Zipang 2026
Zipang Research · 2026-06-14
- 2.
- 3.Transperfect Dataforce — Data Annotation Services
Transperfect · 2026-06-14
- 4.Statistik Tenaga Kerja Indonesia
BPS Indonesia · 2026-06-14
- 5.EF English Proficiency Index 2025
EF Education First · 2026-06-14
Jelajahi jalur pekerjaan terkait
Zipang knowledge base