Bibliothèque de points de contrôle Snowpark : Hypothèse¶

Test unitaire Hypothesis¶

Hypothesis est une puissante bibliothèque de tests pour Python conçue pour améliorer les tests unitaires traditionnels en générant automatiquement un large éventail de données d’entrée. Elle utilise des tests basés sur les propriétés, où au lieu de spécifier des cas de test individuels, vous pouvez décrire le comportement attendu de votre code avec des propriétés ou des conditions. Hypothesis génère des exemples pour tester ces propriétés en profondeur. Cette approche permet de découvrir les cas limites et les comportements inattendus, ce qui la rend particulièrement efficace pour les fonctions complexes. Pour plus d’informations, voir Hypothesis.

Le paquet snowpark-checkpoints-hypothesis étend la bibliothèque Hypothesis pour générer des DataFrames Snowpark synthétiques à des fins de test. En tirant parti de la capacité d’Hypothesis à générer des données de test diverses et aléatoires, vous pouvez créer des DataFramesSnowpark avec des schémas et des valeurs variés pour simuler des scénarios réels, ce qui garantie ainsi la robustesse du code et permet de vérifier l’exactitude des transformations complexes.

La stratégie d’Hypothesis pour Snowpark s’appuie sur pandera pour générer des données synthétiques. La fonction dataframe_strategy utilise le schéma spécifié pour générer un DataFrame pandas qui s’y conforme et le convertit ensuite en un DataFrame Snowpark.

Signature de la fonction :

def dataframe_strategy(
  schema: Union[str, DataFrameSchema],
  session: Session,
  size: Optional[int] = None
) -> SearchStrategy[DataFrame]

Copy

Paramètres de fonction :

schema : le schéma qui définit les colonnes, les types de données et les contrôles auxquels le dataframe Snowpark généré doit correspondre.

Le schéma peut être le suivant :
- Un chemin vers un fichier de schéma JSON généré par la fonction collect_dataframe_checkpoint du paquet snowpark-checkpoints-collectors
- Une instance de pandera.api.pandas.container.DataFrameSchema
session : une instance de snowflake.snowpark.Session qui sera utilisée pour créer les DataFrames Snowpark
size : le nombre de lignes à générer pour chaque DataFrame Snowpark

Si ce paramètre n’est pas fourni, la stratégie générera des DataFrames de tailles différentes.

Sortie de fonction :

Renvoie une SearchStrategy Hypothesis qui génère des DataFrames Snowpark

Types de données pris en charge et non pris en charge¶

La fonction dataframe_strategy prend en charge la génération de DataFrames Snowpark avec différents types de données, qui varient en fonction du type de l’argument du schéma transmis à la fonction. Notez que si la stratégie lèvera une exception si elle trouve un type de données non pris en charge.

La table suivante indique les types de données PySpark pris en charge et non pris en charge par la fonction dataframe_strategy lorsqu’un fichier JSON est transmis en tant qu’argument schema :

Type de données PySpark	Pris en charge
Tableau	Oui
Booléen	Oui
Char	Non
Date	Oui
DayTimeIntervalType	Non
Décimal	Non
Map	Non
Null	Non
Octet, Court, Entier, Long, Flottant, Double	Oui
Chaîne	Oui
Struct	Non
Horodatage	Oui
TimestampNTZ	Oui
Varchar	Non
YearMonthIntervalType	Non

La table suivante présente les types de données pandera pris en charge par la fonction dataframe_strategy lorsqu’elle transmet un objet DataFrameSchema en tant qu’argument schema et les types de données Snowpark auxquels ils sont mappés :

Type de données Pandera	Type de données Snowpark
int8	ByteType
int16	ShortType
int32	IntegerType
int64	LongType
float32	FloatType
float64	DoubleType
string	StringType
bool	BooleanType
datetime64[ns, tz]	TimestampType(TZ)
datetime64[ns]	TimestampType(NTZ)
date	DateType

Exemples¶

La procédure suivante présente le processus typique d’utilisation de la bibliothèque Hypothesis pour générer des DataFramesSnowpark :

Créez une fonction de test Python standard avec les différentes assertions ou conditions que votre code doit satisfaire pour toutes les entrées.
Ajoutez le décorateur Hypothesis @given à votre fonction de test et passez la fonction dataframe_strategy en argument.

Pour plus d’informations sur le décorateur @given, voir hypothesis.given.
Exécutez la fonction de test.

Hypothesis fournit automatiquement les entrées générées comme arguments au test.

Exemple 1 : générer les DataFrames de Snowpark à partir d’un fichier JSON

Dans cet exemple, les DataFrames Snowpark sont générés à partir d’un fichier de schéma JSON généré par la fonction:code:collect_dataframe_checkpoint du package snowpark-checkpoints-collectors :

from hypothesis import given

from snowflake.hypothesis_snowpark import dataframe_strategy
from snowflake.snowpark import DataFrame, Session


@given(
    df=dataframe_strategy(
        schema="path/to/file.json",
        session=Session.builder.getOrCreate(),
        size=10,
    )
)
def test_my_function_from_json_file(df: DataFrame):
    # Test a particular function using the generated Snowpark DataFrame
    ...

Copy

Exemple 2 : générer un DataFrame Snowpark à partir d’un objet DataFrameSchema pandera

Dans cet exemple, les DataFrames Snowpark sont générés à partir d’une instance d’un DataFrameSchema pandera :

import pandera as pa

from hypothesis import given

from snowflake.hypothesis_snowpark import dataframe_strategy
from snowflake.snowpark import DataFrame, Session


@given(
    df=dataframe_strategy(
        schema=pa.DataFrameSchema(
            {
                "boolean_column": pa.Column(bool),
                "integer_column": pa.Column("int64", pa.Check.in_range(0, 9)),
                "float_column": pa.Column(pa.Float32, pa.Check.in_range(10.5, 20.5)),
            }
        ),
        session=Session.builder.getOrCreate(),
        size=10,
    )
)
def test_my_function_from_dataframeschema_object(df: DataFrame):
    # Test a particular function using the generated Snowpark DataFrame
    ...

Copy

Pour plus d’informations, voir DataFrameSchema Pandera.

Exemple 3 : personnaliser le comportement d’Hypothesis

Vous pouvez également personnaliser le comportement de votre test à l’aide du décorateur Hypothesis @settings. Ce décorateur vous permet de personnaliser divers paramètres de configuration afin d’adapter le comportement du test à vos besoins.

En utilisant le décorateur @settings, vous pouvez contrôler des aspects tels que le nombre maximal de cas de test, la date limite pour chaque exécution de test, et les niveaux de verbosité :

from datetime import timedelta

from hypothesis import given, settings
from snowflake.snowpark import DataFrame, Session

from snowflake.hypothesis_snowpark import dataframe_strategy


@given(
    df=dataframe_strategy(
        schema="path/to/file.json",
        session=Session.builder.getOrCreate(),
    )
)
@settings(
    deadline=timedelta(milliseconds=800),
    max_examples=25,
)
def test_my_function(df: DataFrame):
    # Test a particular function using the generated Snowpark DataFrame
    ...

Copy

Pour plus d’informations, voir Paramètres d’Hypothesis.