From a414dca90133aac73ac38aa7f1c2e76b9cf21f5f Mon Sep 17 00:00:00 2001 From: Muniza Date: Tue, 28 Jan 2025 20:31:58 +0000 Subject: [PATCH] research:reference-risk-features: generate features for all canonical wikis --- research/dags/reference_risk_features_dag.py | 3 +- ...s-compute_reference_risk_features.expected | 45 ++++++++++++++++++- 2 files changed, 46 insertions(+), 2 deletions(-) diff --git a/research/dags/reference_risk_features_dag.py b/research/dags/reference_risk_features_dag.py index 17cf21da2..1014868b5 100644 --- a/research/dags/reference_risk_features_dag.py +++ b/research/dags/reference_risk_features_dag.py @@ -7,6 +7,7 @@ from airflow.operators.python import BranchPythonOperator from pydantic.dataclasses import dataclass from research.config import args, dag_config +from research.config.wikis import WIKIS as CANONICAL_WIKIS from research.dags.snapshot_sensor import ( wait_for_mediawiki_wikitext_current_snapshot, wait_for_mediawiki_wikitext_history_snapshot, @@ -60,7 +61,7 @@ class DagProperties(dag_config.BaseProperties): / "{{ data_interval_start | to_ds_nodash }}" / "features.db" ), - wikis=None, + wikis=CANONICAL_WIKIS, ) # Swift configuration publish_to_swift: bool = False diff --git a/tests/research/fixtures/spark_skein_specs/research_dags_reference_risk_features_dag.py-reference_risk_features-compute_reference_risk_features.expected b/tests/research/fixtures/spark_skein_specs/research_dags_reference_risk_features_dag.py-reference_risk_features-compute_reference_risk_features.expected index 7917fe7c5..46c42d3e0 100644 --- a/tests/research/fixtures/spark_skein_specs/research_dags_reference_risk_features_dag.py-reference_risk_features-compute_reference_risk_features.expected +++ b/tests/research/fixtures/spark_skein_specs/research_dags_reference_risk_features_dag.py-reference_risk_features-compute_reference_risk_features.expected @@ -47,7 +47,50 @@ master: --queue production --deploy-mode client venv/bin/research_datasets_pipelines.py referencequality.pipeline.run ''{"mediawiki_snapshot": "2024-09", "output": "/tmp/research/reference_risk/features", "partitions": 8, "sqlite_db": "/tmp/research/reference_risk/inference/20240901/features.db", - "wikis": null}''' + "wikis": ["aawiki", "abwiki", "acewiki", "adywiki", "afwiki", "akwiki", "alswiki", + "altwiki", "amiwiki", "amwiki", "angwiki", "anpwiki", "anwiki", "arcwiki", "arwiki", + "arywiki", "arzwiki", "astwiki", "aswiki", "atjwiki", "avkwiki", "avwiki", "awawiki", + "aywiki", "azbwiki", "azwiki", "banwiki", "barwiki", "bat_smgwiki", "bawiki", + "bbcwiki", "bclwiki", "be_x_oldwiki", "bewiki", "bgwiki", "bhwiki", "biwiki", + "bjnwiki", "blkwiki", "bmwiki", "bnwiki", "bowiki", "bpywiki", "brwiki", "bswiki", + "bugwiki", "bxrwiki", "cawiki", "cbk_zamwiki", "cdowiki", "cebwiki", "cewiki", + "chowiki", "chrwiki", "chwiki", "chywiki", "ckbwiki", "cowiki", "crhwiki", "crwiki", + "csbwiki", "cswiki", "cuwiki", "cvwiki", "cywiki", "dagwiki", "dawiki", "dewiki", + "dgawiki", "dinwiki", "diqwiki", "dsbwiki", "dtywiki", "dvwiki", "dzwiki", "eewiki", + "elwiki", "emlwiki", "enwiki", "eowiki", "eswiki", "etwiki", "euwiki", "extwiki", + "fatwiki", "fawiki", "ffwiki", "fiu_vrowiki", "fiwiki", "fjwiki", "fonwiki", "fowiki", + "frpwiki", "frrwiki", "frwiki", "furwiki", "fywiki", "gagwiki", "ganwiki", "gawiki", + "gcrwiki", "gdwiki", "glkwiki", "glwiki", "gnwiki", "gomwiki", "gorwiki", "gotwiki", + "gpewiki", "gucwiki", "gurwiki", "guwiki", "guwwiki", "gvwiki", "hakwiki", "hawiki", + "hawwiki", "hewiki", "hifwiki", "hiwiki", "howiki", "hrwiki", "hsbwiki", "htwiki", + "huwiki", "hywiki", "hywwiki", "hzwiki", "iawiki", "idwiki", "iewiki", "igwiki", + "iiwiki", "ikwiki", "ilowiki", "inhwiki", "iowiki", "iswiki", "itwiki", "iuwiki", + "jamwiki", "jawiki", "jbowiki", "jvwiki", "kaawiki", "kabwiki", "kawiki", "kbdwiki", + "kbpwiki", "kcgwiki", "kgwiki", "kiwiki", "kjwiki", "kkwiki", "klwiki", "kmwiki", + "knwiki", "koiwiki", "kowiki", "krcwiki", "krwiki", "kshwiki", "kswiki", "kuwiki", + "kvwiki", "kwwiki", "kywiki", "ladwiki", "lawiki", "lbewiki", "lbwiki", "lezwiki", + "lfnwiki", "lgwiki", "lijwiki", "liwiki", "lldwiki", "lmowiki", "lnwiki", "lowiki", + "lrcwiki", "ltgwiki", "ltwiki", "lvwiki", "madwiki", "maiwiki", "map_bmswiki", + "mdfwiki", "mgwiki", "mhrwiki", "mhwiki", "minwiki", "miwiki", "mkwiki", "mlwiki", + "mniwiki", "mnwiki", "mnwwiki", "mrjwiki", "mrwiki", "mswiki", "mtwiki", "muswiki", + "mwlwiki", "myvwiki", "mywiki", "mznwiki", "nahwiki", "napwiki", "nawiki", "nds_nlwiki", + "ndswiki", "newiki", "newwiki", "ngwiki", "niawiki", "nlwiki", "nnwiki", "novwiki", + "nowiki", "nqowiki", "nrmwiki", "nsowiki", "nvwiki", "nywiki", "ocwiki", "olowiki", + "omwiki", "orwiki", "oswiki", "pagwiki", "pamwiki", "papwiki", "pawiki", "pcdwiki", + "pcmwiki", "pdcwiki", "pflwiki", "pihwiki", "piwiki", "plwiki", "pmswiki", "pnbwiki", + "pntwiki", "pswiki", "ptwiki", "pwnwiki", "quwiki", "rmwiki", "rmywiki", "rnwiki", + "roa_rupwiki", "roa_tarawiki", "rowiki", "ruewiki", "ruwiki", "rwwiki", "sahwiki", + "satwiki", "sawiki", "scnwiki", "scowiki", "scwiki", "sdwiki", "sewiki", "sgwiki", + "shiwiki", "shnwiki", "shwiki", "simplewiki", "siwiki", "skrwiki", "skwiki", "slwiki", + "smnwiki", "smwiki", "snwiki", "sowiki", "sqwiki", "srnwiki", "srwiki", "sswiki", + "stqwiki", "stwiki", "suwiki", "svwiki", "swwiki", "szlwiki", "szywiki", "tawiki", + "taywiki", "tcywiki", "tetwiki", "tewiki", "tgwiki", "thwiki", "tiwiki", "tkwiki", + "tlwiki", "tlywiki", "tnwiki", "towiki", "tpiwiki", "trvwiki", "trwiki", "tswiki", + "ttwiki", "tumwiki", "twwiki", "tyvwiki", "tywiki", "udmwiki", "ugwiki", "ukwiki", + "urwiki", "uzwiki", "vecwiki", "vepwiki", "vewiki", "viwiki", "vlswiki", "vowiki", + "warwiki", "wawiki", "wowiki", "wuuwiki", "xalwiki", "xhwiki", "xmfwiki", "yiwiki", + "yowiki", "zawiki", "zeawiki", "zghwiki", "zh_classicalwiki", "zh_min_nanwiki", + "zh_yuewiki", "zhwiki", "zuwiki"]}''' max_attempts: 1 name: Airflow SparkSkeinSubmitHook skein launcher reference_risk_features__compute_reference_risk_features__20241001 node_label: '' -- GitLab