Jump to content

Rekayasa Reliabilitas Situs wikimedia

From mediawiki.org
This page is a translated version of the page Wikimedia Site Reliability Engineering and the translation is 100% complete.

Tim Rekayasa Reliabilitas Situs Wikimedia, atau disingkat SRE, adalah tim yang bertanggung jawab untuk mengembangkan dan memelihara infrastruktur produksi Wikimedia. Sebelumnya dikenal sebagai Operasi Teknis, mereka bertanggung jawab untuk memastikan semua situs dan layanan Wikimedia yang digunakan oleh publik (termasuk MediaWiki dan semua layanan terkait) berjalan dengan andal, aman, dan berkinerja tinggi.

Beritahu kami tentang keadaan darurat dengan Klaxon.

#wikimedia-sre connect

Dokumentasi tambahan terkait infrastruktur kami dan pekerjaan tim dapat ditemukan di Wikitech.

Struktur tim

Collaboration Services

We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-MediaWiki websites and other collaboration services.

Operasi Pusat Data

Tim Operasi Pusat Data bertanggung jawab atas semua penerapan dan logistik pusat data Wikimedia, serta mempertahankan keberadaan kami di berbagai lokasi di seluruh dunia. Mereka melakukan pekerjaan di lokasi dan memelihara siklus hidup 5 tahun penuh (spesifikasi, pembelian, instalasi fisik, perbaikan/pembongkaran, dan penghentian operasional) untuk semua perangkat keras.

#wikimedia-dcops connect

Fondasi Infrastruktur

Tim ini berfokus pada pembangunan dan pemeliharaan platform dasar kami ("metal cloud") yang menjadi fondasi bagi hampir semua hal lain dalam infrastruktur kami. Selain penerapan bare metal kami, tanggung jawab mereka meliputi (namun tidak terbatas pada) sistem manajemen konfigurasi, otomatisasi infrastruktur, peralatan orkestrasi, keamanan infrastruktur, dan operasi jaringan.

#wikimedia-sre-foundations connect

Observabilitas

Tim Observabilitas, atau disingkat "o11y", bekerja lintas SRE dan Teknologi untuk menyediakan alat diagnostik, platform, dan wawasan bagi tim tentang kinerja sistem dan layanan. Tim ini memanfaatkan teknologi seperti Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager, dan lainnya.

#wikimedia-observability connect

Lalu lintas

Tim Lalu lintas bertanggung jawab atas lapisan pertama infrastruktur lalu lintas tinggi yang penting yang sekarang menjangkau sebagian besar dunia, termasuk lapisan terminasi dan penyimpanan sementara TLS (ATS, Varnish), penyeimbangan beban, DNS, dan jaringan kami sendiri.

#wikimedia-traffic connect

Persistensi Data

Tim Persistensi Data berfokus pada sistem penyimpanan dan pengambilan data persisten Wikimedia, termasuk basis data (No)SQL, penyimpanan objek (terdistribusi), penyimpanan berkas, dan sistem pencadangan.

#wikimedia-data-persistence connect

Operasi Layanan

Tim Operasi Layanan menangani layanan publik dan layanan yang "terlihat oleh pengguna" melalui kolaborasi erat dengan tim Teknologi dan Produk. Ini mencakup platform MediaWiki kami, infrastruktur layanan SOA berbasis Kubernetes, serta layanan yang berorientasi komunitas dan pengembang seperti Gitlab, Gerrit, Phabricator, dan VRTS.

#wikimedia-serviceops connect

Menghubungi tim

Jika Anda perlu menghubungi tim, ada petunjuk terperinci tentang wikitech:SRE Team requests.