Add two-output visualization and robust CSV parsing

justushelo · justushelo · commit d90dd4d45bc8 · 2026-03-12T10:48:42.000+02:00
Created a new function for two-output visualization. Added a try/except block for CSV parsing in the dashboard. If a wrong delimiter or invalid character is detected, it loads stress.csv to stop buffering and prevent reactive cascade crashes. Closes #45 Closes #50
diff --git a/panel/simdec_app.py b/panel/simdec_app.py
@@ -41,55 +41,30 @@
     # save_layout=True,
 )
 
-
-def _validate_csv_bytes(raw_bytes):
-    """Pre-parse validation. Returns an error string or None."""
-    try:
-        first_line = raw_bytes.decode("utf-8").split("\n")[0].strip()
-    except UnicodeDecodeError:
-        return "File encoding error. Please use files in UTF-8."
-
-    if "," not in first_line:
-        detected = (
-            "Semicolons(';')"
-            if ";" in first_line
-            else "tabs"
-            if "\t" in first_line
-            else "Unknown delimiter"
-        )
-        return f"Wrong column delimiter {detected}. Save the data with commas ',' as the delimiter"
-
-    col_names = [c.strip().strip('"').strip("'") for c in first_line.split(",")]
-    bad_cols = [c for c in col_names if re.search(r"[^A-Za-z0-9_ \-.]", c)]
-    if bad_cols:
-        return (
-            f"Special characters found in column name(s): {bad_cols}."
-            f"Column names may contain only letters, numbers and underscores."
-            f"Please rename columns {bad_cols} before uploading data again."
-        )
-    return None
+VALID_CHARACTERS = re.compile(r"[A-Za-z0-9_ \-.]")
+GENERIC_ERROR_MSG = (
+    "Could not parse the CSV file. "
+    "Please check that it uses commas ',' as the delimiter "
+    "and that column names contain no special characters."
+)
 
 
 @pn.cache
 def load_data(text_fname):
     if text_fname is None:
         return pd.read_csv("tests/data/stress.csv")
-
-    raw_bytes = bytes(text_fname)
-
-    # Run pre-validation
-    error = _validate_csv_bytes(raw_bytes)
-    if error:
-        pn.state.notifications.error(error, duration=0)
-        return None
-
-    # Try parsing
     try:
-        text_fname = io.BytesIO(text_fname)
-        return pd.read_csv(text_fname)
-    except Exception as e:
-        pn.state.notifications.error(f"Could not parse CSV {e}.", duration=0)
-        return None
+        raw = bytes(text_fname)
+        first_line = raw.decode("utf-8").split("\n")[0].strip()
+        if "," not in first_line:
+            raise ValueError("No comma delimiter")
+        col_names = [c.strip().strip('"').strip("'") for c in first_line.split(",")]
+        if any(VALID_CHARACTERS.search(c) for c in col_names):
+            raise ValueError("Bad column names")
+        return pd.read_csv(io.BytesIO(raw))
+    except Exception:
+        pn.state.notifications.error(GENERIC_ERROR_MSG, duration=0)
+        return pd.read_csv("tests/data/stress.csv")
 
 
 @pn.cache
diff --git a/src/simdec/__init__.py b/src/simdec/__init__.py
@@ -8,6 +8,7 @@
     "states_expansion",
     "decomposition",
     "visualization",
+    "two_output_visualization",
     "tableau",
     "palette",
 ]
diff --git a/src/simdec/visualization.py b/src/simdec/visualization.py
@@ -1,7 +1,7 @@
 import copy
 import functools
 import itertools
-from typing import Literal, Optional
+from typing import Literal
 
 import colorsys
 import matplotlib as mpl
@@ -11,7 +11,7 @@
 import pandas as pd
 from pandas.io.formats.style import Styler
 
-__all__ = ["visualization", "tableau", "palette"]
+__all__ = ["visualization", "two_output_visualization", "tableau", "palette"]
 
 
 SEQUENTIAL_PALETTES = [
@@ -135,25 +135,17 @@ def palette(
 def visualization(
     *,
     bins: pd.DataFrame,
-    bins2: Optional[pd.DataFrame] = None,
     palette: list[list[float]],
     n_bins: str | int = "auto",
     kind: Literal["histogram", "boxplot"] = "histogram",
     ax=None,
-    output_name: str = "Output 1",
-    output_name2: str = "Output 2",
-    xlim: Optional[tuple[float, float]] = None,
-    ylim: Optional[tuple[float, float]] = None,
-    r_scatter: float = 1.0,
 ) -> plt.Axes:
     """Histogram plot of scenarios.
 
     Parameters
     ----------
     bins : DataFrame
         Multidimensional bins.
-    bins2 : DataFrame
-        Multidimensional bins for output 2
     palette : list of int of size (n, 4)
         List of colours corresponding to scenarios.
     n_bins : str or int
@@ -162,85 +154,16 @@ def visualization(
         Histogram or Box Plot.
     ax : Axes, optional
         Matplotlib axis.
-    output_name : str, default "Output 1"
-        Name of the primary output variable.
-    output_name2 : str, default "Output 2"
-        Name of the second output variable.
-    xlim : tuple of float, optional
-        Minimum and maximum values for the x-axis (Output 1).
-    ylim : tuple of float, optional
-        Minimum and maximum values for the y-axis (Output 2).
-    r_scatter : float, default 1.0
-        The portion of data points displayed on the scatter plot (0 to 1).
 
     Returns
     -------
-    axs : Axes
-        Matplotlib axis for two-output graph.
     ax : Axes
         Matplotlib axis.
 
     """
     # needed to get the correct stacking order
     bins.columns = pd.RangeIndex(start=len(bins.columns), stop=0, step=-1)
 
-    if bins2 is not None:
-        fig, axs = plt.subplots(2, 2, sharex="col", sharey="row", figsize=(8, 8))
-        axs[0, 1].axis("off")
-
-        sns.histplot(
-            bins,
-            multiple="stack",
-            stat="probability",
-            palette=palette,
-            common_bins=True,
-            common_norm=True,
-            bins=n_bins,
-            legend=False,
-            ax=axs[0, 0],
-        )
-        axs[0, 0].set_xlim(xlim)
-        axs[0, 0].set_box_aspect(1)
-        axs[0, 0].axis("off")
-
-        data = pd.concat([pd.melt(bins), pd.melt(bins2)["value"]], axis=1)
-        data.columns = ["c", "x", "y"]
-
-        if r_scatter < 1.0:
-            data = data.sample(frac=r_scatter)
-
-        sns.scatterplot(
-            data=data,
-            x="x",
-            y="y",
-            hue="c",
-            palette=palette,
-            ax=axs[1, 0],
-            legend=False,
-        )
-        axs[1, 0].set(xlabel=output_name, ylabel=output_name2)
-        axs[1, 0].set_box_aspect(1)
-
-        sns.histplot(
-            data,
-            y="y",
-            hue="c",
-            multiple="stack",
-            stat="probability",
-            palette=palette,
-            common_bins=True,
-            common_norm=True,
-            bins=40,
-            legend=False,
-            ax=axs[1, 1],
-        )
-        axs[1, 1].set_ylim(ylim)
-        axs[1, 1].set_box_aspect(1)
-        axs[1, 1].axis("off")
-
-        fig.subplots_adjust(wspace=-0.015, hspace=0)
-        return axs[1, 0]
-
     if kind == "histogram":
         ax = sns.histplot(
             bins,
@@ -266,6 +189,105 @@ def visualization(
     return ax
 
 
+def two_output_visualization(
+    *,
+    bins: pd.DataFrame,
+    bins2: pd.DataFrame,
+    palette: list[list[float]],
+    n_bins: str | int = "auto",
+    output_name: str = "Output 1",
+    output_name2: str = "Output 2",
+    xlim: tuple[float, float] | None = None,
+    ylim: tuple[float, float] | None = None,
+    r_scatter: float = 1.0,
+) -> tuple[plt.Figure, np.ndarray]:
+    """Two-output visualization.
+    Produces a 2x2 figure
+    * top-left    : stacked histogram for *output 1* (axes hidden)
+    * bottom-left : scatter of output 1 vs output 2, coloured by scenario
+    * bottom-right: rotated stacked histogram for *output 2* (axes hidden)
+    * top-right   : empty
+
+        Parameters
+    ----------
+    bins : DataFrame
+        Multidimensional bins for the primary output.
+    bins2 : DataFrame
+        Multidimensional bins for the secondary output.
+    palette : list of int of size (n, 4)
+        List of colours corresponding to scenarios.
+    n_bins : str or int
+        Number of bins for the histograms.
+    output_name : str, default "Output 1"
+        Axis label for the primary output.
+    output_name2 : str, default "Output 2"
+        Axis label for the secondary output.
+    xlim : tuple of float, optional
+        Limits for the primary output axis (scatter x / top histogram).
+    ylim : tuple of float, optional
+        Limits for the secondary output axis (scatter y / right histogram).
+    r_scatter : float, default 1.0
+        Fraction of data points shown in the scatter plot.
+
+    Returns
+    -------
+    fig : Figure
+    axs : ndarray of shape (2, 2)
+
+    """
+    fig, axs = plt.subplots(2, 2, sharex="col", sharey="row", figsize=(8, 8))
+
+    axs[0, 1].axis("off")
+
+    visualization(bins=bins.copy(), palette=palette, n_bins=n_bins, ax=axs[0, 0])
+    if xlim is not None:
+        axs[0, 0].set_xlim(xlim)
+    axs[0, 0].set_box_aspect(1)
+    axs[0, 0].axis("off")
+
+    data = pd.concat([pd.melt(bins), pd.melt(bins2)["value"]], axis=1)
+    data.columns = ["c", "x", "y"]
+    if r_scatter < 1.0:
+        data = data.sample(frac=r_scatter)
+
+    sns.scatterplot(
+        data=data,
+        x="x",
+        y="y",
+        hue="c",
+        palette=palette,
+        ax=axs[1, 0],
+        legend=False,
+    )
+    axs[1, 0].set(xlabel=output_name, ylabel=output_name2)
+    if xlim is not None:
+        axs[1, 0].set_xlim(xlim)
+    if ylim is not None:
+        axs[1, 0].set_ylim(ylim)
+    axs[1, 0].set_box_aspect(1)
+
+    sns.histplot(
+        data,
+        y="y",
+        hue="c",
+        multiple="stack",
+        stat="probability",
+        palette=palette,
+        common_bins=True,
+        common_norm=True,
+        bins=40,
+        legend=False,
+        ax=axs[1, 1],
+    )
+    if ylim is not None:
+        axs[1, 1].set_ylim(ylim)
+    axs[1, 1].set_box_aspect(1)
+    axs[1, 1].axis("off")
+
+    fig.subplots_adjust(wspace=-0.015, hspace=0)
+    return fig, axs
+
+
 def tableau(
     *,
     var_names: list[str],
diff --git a/tests/test_visualization.py b/tests/test_visualization.py
@@ -4,29 +4,61 @@
 import simdec as sd
 
 
-def test_visualization_single_output():
+@pytest.fixture(autouse=True)
+def close_plots():
+    yield
+    plt.close("all")
+
+
+def test_visualization_histogram():
     bins = pd.DataFrame({"s1": [1, 2], "s2": [3, 4]})
     palette = [[1, 0, 0, 1], [0, 1, 0, 1]]
-
     ax = sd.visualization(bins=bins, palette=palette, kind="histogram")
     assert isinstance(ax, plt.Axes)
 
-    ax_box = sd.visualization(bins=bins, palette=palette, kind="boxplot")
-    assert isinstance(ax_box, plt.Axes)
 
+def test_visualization_boxplot():
+    bins = pd.DataFrame({"s1": [1, 2], "s2": [3, 4]})
+    palette = [[1, 0, 0, 1], [0, 1, 0, 1]]
+    ax = sd.visualization(bins=bins, palette=palette, kind="boxplot")
+    assert isinstance(ax, plt.Axes)
 
-def test_visualization_two_outputs():
+
+def test_visualization_invalid_kind():
+    bins = pd.DataFrame({"s1": [1]})
+    with pytest.raises(ValueError, match="'kind' can only be 'histogram' or 'boxplot'"):
+        sd.visualization(bins=bins, palette=[[1, 0, 0, 1]], kind="invalid")
+
+
+def test_two_output_visualization_returns_correct_types():
     bins = pd.DataFrame({"s1": [1, 2]})
     bins2 = pd.DataFrame({"s1": [5, 6]})
     palette = [[1, 0, 0, 1]]
+    fig, axs = sd.two_output_visualization(bins=bins, bins2=bins2, palette=palette)
+    assert isinstance(fig, plt.Figure)
+    assert axs.shape == (2, 2)
 
-    ax = sd.visualization(bins=bins, bins2=bins2, palette=palette)
 
-    assert ax.get_xlabel() == "Output 1"
-    assert len(ax.figure.axes) == 4
+def test_two_output_visualization_axis_labels():
+    bins = pd.DataFrame({"s1": [1, 2]})
+    bins2 = pd.DataFrame({"s1": [5, 6]})
+    palette = [[1, 0, 0, 1]]
+    _, axs = sd.two_output_visualization(
+        bins=bins,
+        bins2=bins2,
+        palette=palette,
+        output_name="Stress",
+        output_name2="Displacement",
+    )
+    assert axs[1, 0].get_xlabel() == "Stress"
+    assert axs[1, 0].get_ylabel() == "Displacement"
 
 
-def test_visualization_invalid_kind():
-    bins = pd.DataFrame({"s1": [1]})
-    with pytest.raises(ValueError, match="'kind' can only be 'histogram' or 'boxplot'"):
-        sd.visualization(bins=bins, palette=[[1, 0, 0, 1]], kind="invalid")
+def test_two_output_visualization_r_scatter():
+    bins = pd.DataFrame({"s1": list(range(100))})
+    bins2 = pd.DataFrame({"s1": list(range(100))})
+    palette = [[1, 0, 0, 1]]
+    fig, axs = sd.two_output_visualization(
+        bins=bins, bins2=bins2, palette=palette, r_scatter=0.5
+    )
+    assert isinstance(fig, plt.Figure)

Original file line number	Diff line number	Diff line change
`@@ -8,6 +8,7 @@`
`8`	`8`	`"states_expansion",`
`9`	`9`	`"decomposition",`
`10`	`10`	`"visualization",`
	`11`	`+ "two_output_visualization",`
`11`	`12`	`"tableau",`
`12`	`13`	`"palette",`
`13`	`14`	`]`