supaernova.steps.data

[docs] module supaernova.steps.data
import osimport random as rnfrom typing importTYPE_CHECKING,ClassVar,cast,overridefrom pathlib importPathimport numpy as npimport pandas as pdfrom astropy importcosmologyascosmoimport sncosmofrom supaernova.analysis.spectra importSpectraPlotterfrom supaernova.analysis.analysis importPlotterfrom supaernova.configs.steps.data importDataStepResultfrom .steps importSNPAEStepifTYPE_CHECKING:from typing importAnyfrom logging importLoggerfrom collections.abc importIterable,Sequencefrom numpy importtypingasnptfrom supaernova.configs.paths importPathConfigfrom supaernova.configs.globals importGlobalConfigfrom supaernova.typing.dimensions importSNDim,WLDim,SpecDimfrom supaernova.configs.steps.data importDataStepConfig,DataStepAnalysisSNeDataFrame=pd.DataFrameWL_MASK_MIN=3298.68WL_MASK_MAX=9701.23class DataStep(SNPAEStep):[docs]
# Class Variablesid:ClassVar[str]="data"def __init__(self,config:"DataStepConfig")->None:# --- Superclass Variables ---self.options:DataStepConfigself.config:GlobalConfigself.paths:PathConfigself.log:Loggerself.force:boolself.verbose:boolsuper().__init__(config)# --- Previous Step Variables ---# --- Config Variables ---# Requiredself.data_dir:Pathself.meta:Pathself.idr:Pathself.mask:Pathself.colourlaw:npt.NDArray[np.float64]|None# Optionalself.cosmological_model:cosmo.FlatLambdaCDMself.salt_model:sncosmo.SALT2Source|sncosmo.SALT3Sourceself.min_phase:floatself.max_phase:floatself.train_frac:floatself.seed:int# --- Setup Variables ---# Output pathsself.out_data:Pathself.out_sne:Pathself.out_train:Pathself.out_test:Path# Train / Test splitself.test_frac:floatself.n_kfolds:int# --- Run Variables ---self.wavelength:npt.NDArray[np.float32]self.nspectra_per_sn:npt.NDArray[np.int32]# Output objectsself.sne:SNeDataFrameself.data:DataStepResultself.train_data:list[DataStepResult]self.test_data:list[DataStepResult]# Data Dimensionsself.sn_dim:SNDimself.spec_dim:SpecDimself.wl_dim:WLDim# --- Analysis Variables ---self.analysis:tuple[DataStepAnalysis]=self.options.analysis@overridedef _setup(self)->None:# --- Previous Step Variables ---# --- Config Variables ---# Requiredself.data_dir=self.options.data_dirself.meta=self.options.metaself.idr=self.options.idrself.mask=self.options.maskcolourlaw=self.options.colourlawifcolourlawisnotNone:_,colourlaw=np.loadtxt(colourlaw,unpack=True)self.colourlaw=colourlaw# Optional# Get astropy.cosmology model associated with provided cosmological_model stringself.cosmological_model=getattr(cosmo,self.options.cosmological_model)# Get sncosmo SALTSource associated with provided salt_model string#   If salt_model is a valid Path, pass it to the SALTSource as the modeldirsalt_model=self.options.salt_modelifisinstance(salt_model,Path):if"salt2"instr(salt_model):self.salt_model=sncosmo.SALT2Source(salt_model)elif"salt3"instr(salt_model):self.salt_model=sncosmo.SALT3Source(salt_model)else:self.salt_model=sncosmo.get_source(salt_model)self.min_phase=self.options.min_phaseself.max_phase=self.options.max_phaseself.train_frac=self.options.train_fracself.seed=self.options.seed# Output pathsself.out_data=self.paths.out/"data.npz"self.out_sne=self.paths.out/"sne.pkl"self.out_train=self.paths.out/"train"self.out_train.mkdir(parents=True,exist_ok=True)self.out_test=self.paths.out/"test"self.out_test.mkdir(parents=True,exist_ok=True)# Train / Test splitself.test_frac=1-self.train_fracself.n_kfolds=int(1/self.test_frac)@overridedef _completed(self)->bool:ifnotself.out_data.exists():self.log.debug(f"{self.name} has not completed as {self.out_data} does not exist")returnFalseifnotself.out_sne.exists():self.log.debug(f"{self.name} has not completed as {self.out_sne} does not exist")returnFalseifnotself.out_train.exists():self.log.debug(f"{self.name} has not completed as {self.out_train} does not exist")returnFalseifnotself.out_test.exists():self.log.debug(f"{self.name} has not completed as {self.out_test} does not exist")returnFalseiflen(list(self.out_train.iterdir()))==0:self.log.debug(f"{self.name} has not completed as {self.out_train} does not contain any files")returnFalseiflen(list(self.out_test.iterdir()))==0:self.log.debug(f"{self.name} has not completed as {self.out_test} does not contain any files")returnFalsereturnTrue@overridedef _load(self)->None:# Load SNe DataFramesself.log.debug(f"Loading SNe dataframe from {self.out_sne}")self.sne=pd.read_pickle(self.out_sne)# Calculate data dimensionsself.get_dims()# Load data from files# Open the file, read each key into a dictionary, then close the fileself.log.debug(f"Loading data arrays from {self.out_data}")withnp.load(self.out_data,allow_pickle=True)asio:data=dict(io.items())self.data=DataStepResult.model_validate(data)# Load in training and testing dataself.log.debug(f"Loading training data arrays from {self.out_train}")self.train_data=[]fortrain_datainself.out_train.iterdir():iftrain_data.is_file():withnp.load(train_data,allow_pickle=True)asio:data=dict(io.items())self.train_data.append(DataStepResult.model_validate(data))self.log.debug(f"Loading testing data arrays from {self.out_test}")self.test_data=[]fortest_datainself.out_test.iterdir():iftest_data.is_file():withnp.load(test_data,allow_pickle=True)asio:data=dict(io.items())self.test_data.append(DataStepResult.model_validate(data))@overridedef _run(self)->None:# Create self.sneself.load_sne()self.calculate_salt_flux()self.get_dims()self.prepare_data_arrays()self.split_train_test()@overridedef _result(self)->None:self.log.debug(f"Saving SNe DataFrame to {self.out_sne}")self.sne.to_pickle(self.out_sne)self.log.debug(f"Saving data arrays to {self.out_data}")np.savez_compressed(self.out_data,**self.data.model_dump(exclude={"metadata"}))self.log.debug(f"Saving training data arrays to {self.out_train}")fori,train_datainenumerate(self.train_data):np.savez_compressed(self.out_train/f"kfold_{i:d}.npz",**train_data.model_dump(exclude={"metadata"}),)self.log.debug(f"Saving testing data arrays to {self.out_test}")fori,test_datainenumerate(self.test_data):np.savez_compressed(self.out_test/f"kfold_{i:d}.npz",**test_data.model_dump(exclude={"metadata"}),)@overridedef _analyse(self)->None:ifself.analysis.plot_spectraisnotNone:ifnotisinstance(self.analysis.plot_spectra,list):self.analysis.plot_spectra=[self.analysis.plot_spectra]foroptsinself.analysis.plot_spectra:ifopts.nameisNone:opts.name="spectra"ifopts.savepathisNone:opts.savepath=self.paths.plots/str(self.seed)opts.savepath.mkdir(parents=True,exist_ok=True)SpectraPlotter.plot_spectra(self.data,opts)ifself.analysis.plot_summaryisnotNone:ifnotisinstance(self.analysis.plot_summary,list):self.analysis.plot_summary=[self.analysis.plot_summary]foroptsinself.analysis.plot_summary:ifopts.nameisNone:opts.name="summary"ifopts.savepathisNone:opts.savepath=self.paths.plots/str(self.seed)opts.savepath.mkdir(parents=True,exist_ok=True)savepath=(opts.savepathorPath())/f"{opts.name}.{opts.ext}"ifsavepath.exists():returnfig,ax=SpectraPlotter.plot_summary(self.data,opts,save=False)fordtin("train","test"):forkfoldinrange(self.n_kfolds):fig,ax=SpectraPlotter.plot_summary(getattr(self,f"{dt}_data")[kfold],opts,fig=fig,ax=ax,save=False,)fig=Plotter.save(fig,savepath)Plotter.close(fig,ax)## === DataStep Specific Functions ===#def load_sne(self)->None:[docs]
self.log.debug(f"Loading data from `meta` file: {self.meta}")sne_dtypes={"id":str,"sn":str,"phase":float,"z":float,"MB":float,"x0":float,"x1":float,"c":float,"path":str,"hubble_resid":float,}sne_data=pd.read_csv(self.meta,header=0,dtype=sne_dtypes)# Update paths relative to self.metasne_data.path=sne_data.path.apply(lambdapath:str(self.paths.resolve_path(Path(path),relative_path=self.meta.parent)))self.log.debug(f"Loading data from `idr` file: {self.idr}")dphase_dtypes={"sn":str,"mjd":float,"dphase":float,}dphase=pd.read_csv(self.idr,sep="\\s+",names=["sn","mjd","dphase"],dtype=dphase_dtypes)sne_data=sne_data.merge(dphase,on="sn",how="left")self.log.debug(f"Loading data from `mask` file: {self.mask}")mask_dtypes={"sn":str,"id":str,"flag":int,"wl_mask_min":float,"wl_mask_max":float,}mask=pd.read_csv(self.mask,sep="\\s+",names=["sn","id","flag","wl_mask_min","wl_mask_max"],dtype=mask_dtypes,)# Fill NaN valuesmask.wl_mask_min=mask.wl_mask_min.fillna(np.inf)mask.wl_mask_max=mask.wl_mask_max.fillna(-np.inf)mask.id=mask.sn+"_"+mask.idsne_data=sne_data.merge(mask,on=["sn","id"],how="left")# Fill missing values with default valuessne_data.wl_mask_min=sne_data.wl_mask_min.fillna(WL_MASK_MIN)sne_data.wl_mask_max=sne_data.wl_mask_max.fillna(WL_MASK_MAX)self.log.debug("Merging SNe data")# Split data into two dataframes# A SN dataframe which contains one row per SN, and the following columnssne_cols=["sn","MB","x0","x1","c","z","hubble_resid","mjd","dphase"]sne=sne_data[sne_cols].drop_duplicates().reset_index(drop=True)# A dataframe which contains one row per spectra, and the following columns# Note that we keep the sn column so that we can match each spectra with their SNspec_cols=["sn","id","phase","path","flag","wl_mask_min","wl_mask_max",]spectra=sne_data[spec_cols].reset_index(drop=True)self.log.debug(f"Cutting spectra with phases outside the range {self.min_phase} <= phase <= {self.max_phase}",)self.log.debug(f"Number of spectra before phase-cut: {len(spectra)}")spectra=spectra[spectra.phase.between(self.min_phase,self.max_phase)]self.log.debug(f"Number of spectra after phase-cut: {len(spectra)}")self.log.debug("Loading spectra data")spectra_dtype={"wave":float,"flux":float,"sigma":float}spectra["data"]=[pd.read_csv(spec.path,dtype=spectra_dtype)for_,specinspectra.iterrows()]self.log.debug("Linking spectra to their associated SNe")sne["spectra"]=sne.sn.apply(lambdasn_name:spectra[spectra.sn==sn_name].reset_index(drop=True),)# Final structure is 1 row per SN with columns:#   sn:           str       = SN Name#   MB:           float     = Redshift-dependant absolute magnitude of a ``standard'' SN Ia#   x0:           float     = SALT $x_{0}$ parameter, with the SN apparent magnitude $m_{b}=\log_{10}(x0)$#   x1:           float     = SALT $x_{1}$ stretch parameter#   c:            float     = SALT $\mathcal{C}$ colour parameter#   z:            float     = Redshift of SN#   hubble_resid: float     = Hubble Residual#   dphase:       float     = Phase offset#   spectra:      DataFrame = SN Spectra with columns:##       sn:             str       = SN Name#       id:             str       = Spectra Id#       phase:          float     = Spectral phase relative to peak mag in days#       path:           str       = Path to spectra, relative to metapath#       flag:           int       = Quality of spectra#       wl_mask_min:    float     = Min wavelength of spectra#       wl_mask_max:    float     = Max wavelength of spectra#       data:           DataFrame = Spectral data with columns:##           wave:  Series[float]  = wavelength in AA#           flux:  Series[float]  = flux#           sigma: Series[float]  = flux errorself.sne=snedef calculate_salt_flux(self)->None:[docs]
self.log.debug("Calculating SALT fluxes")def get_salt_flux(wavelength:"npt.NDArray[np.float32]",tobs:float=0.0,z:float=0.0,x0:float=1.0,x1:float=0.0,c:float=0.0,zref:float=0.05,)->"npt.NDArray[np.float32]":self.salt_model.set(x0=x0,x1=x1,c=c)return(self.salt_model.flux(phase=tobs,wave=wavelength)*((self.cosmological_model.luminosity_distance(z)/self.cosmological_model.luminosity_distance(zref))**2)*((1+z)/(1+zref))*1e15)for_,sninself.sne.iterrows():for_,spectrainsn["spectra"].iterrows():spectra["data"]["salt_flux"]=get_salt_flux(spectra["data"]["wave"].to_numpy(),tobs=spectra["phase"],z=sn["z"],x0=sn["x0"],x1=sn["x1"],c=sn["c"],)def get_dims(self)->None:[docs]
self.log.debug("Calculating data dimensions")self.sn_dim=len(self.sne)self.log.debug(f"Number of SNe: {self.sn_dim}")# Maximum number of observations for any given SNself.nspectra_per_sn=np.array([len(spectra)forspectrainself.sne["spectra"]],)self.spec_dim=self.nspectra_per_sn.max()self.log.debug(f"Maximum number of observations for any given SN: {self.spec_dim}",)# Wavelength grid# Since all spectra share the same wavelength grid# Just get the wavelength grid of the first spectrumself.wavelength=self.sne["spectra"][0]["data"][0]["wave"].to_numpy()self.wl_dim=len(self.wavelength)self.log.debug(f"Length of wavelength grid: {self.wl_dim}")def prepare_data_arrays(self)->None:[docs]
self.log.debug("Preparing data arrays")# Each element of data is a 3D Array of shape (SNDim x SpecDim x DataDim) where:#   SNDim = Number of SNe#   SpecDim = Maximum number of observations for any given SN (padded if needed)#   DataDim = Length of datatype# Allows for filling an array with paddingphase_axis=self.nspectra_per_sn.copy()phase_axis.fill(self.spec_dim)# --- Get Parameters ---data={}# Given an array of shape (sn_dim x N <= spec_dim)# Create an array of shape sn_dim by spec_dim padding if neededdef pad[T:np.generic](arr:"Iterable[Sequence[T | npt.NDArray[T]]]",padding:"T | npt.NDArray[T]",)->"npt.NDArray[T]":ifisinstance(padding,np.ndarray):padded_arr:npt.NDArray[T]=np.full((self.sn_dim,self.spec_dim,*padding.shape),padding,)else:padded_arr=np.full((self.sn_dim,self.spec_dim),padding)fori,rowinenumerate(arr):row_length=len(row)padded_arr[i,:row_length]=rowreturnpadded_arr# Given a list of value-per-row of length sn_dim# Fill each row with spec_dim repeats of that row's valuedef fill_rows[T:np.generic](values:"npt.NDArray[T]")->"npt.NDArray[T]":returnnp.repeat(values,phase_axis).reshape((self.sn_dim,self.spec_dim))# Index of each SNedata["ind"]=fill_rows(np.array(range(self.sn_dim)))# Number of spectra per SNedata["nspectra"]=fill_rows(self.nspectra_per_sn)# Get SNe parameterssne_params={"sn_name":"sn","dphase":"dphase","redshift":"z","x0":"x0","x1":"x1","c":"c","MB":"MB","hubble_residual":"hubble_resid",}fordata_key,sne_keyinsne_params.items():data[data_key]=fill_rows(self.sne[sne_key].to_numpy(),)data["luminosity_distance"]=self.cosmological_model.luminosity_distance(data["redshift"],).value# Get Parameters from spectramax_id_len=max(len(spectra["id"])forspectrainself.sne["spectra"])spectra_params={"spectra_id":("id",np.str_("-"*max_id_len)),"phase":("phase",np.float32(-100.0)),"wl_mask_min":("wl_mask_min",np.float32(np.inf)),"wl_mask_max":("wl_mask_max",np.float32(-np.inf)),}fordata_key,(spectra_key,padding)inspectra_params.items():data[data_key]=pad([spectra[spectra_key].to_numpy()forspectrainself.sne["spectra"]],padding,)# Get spectral data parametersspectral_data_params={"amplitude":("flux",np.zeros(self.wl_dim)-1),"sigma":("sigma",np.zeros(self.wl_dim)),"salt_flux":("salt_flux",np.zeros(self.wl_dim)-1),}fordata_key,(spectral_data_key,padding)inspectral_data_params.items():data[data_key]=pad([[spectral_data[spectral_data_key].to_numpy()forspectral_datainspectra["data"]]forspectrainself.sne["spectra"]],padding,)data["wavelength"]=np.tile(self.wavelength,(self.sn_dim,self.spec_dim,1))# Ensure everything has the right number of axesfork,vindata.items():iflen(v.shape)==2:data[k]=v[...,np.newaxis]def nearest_mask[T:np.number[Any]](arr:"npt.NDArray[T]",min_val:"T | npt.NDArray[T]",max_val:"T | npt.NDArray[T]",)->"npt.NDArray[np.bool_]":ifnotisinstance(min_val,np.ndarray):min_val=cast("npt.NDArray[T]",np.array(min_val))ifnotisinstance(max_val,np.ndarray):max_val=cast("npt.NDArray[T]",np.array(max_val))base_mask=(min_val<=arr)&(arr<=max_val)# Pad left and rightpad_left=np.pad(base_mask[:,:,:-1],((0,0),(0,0),(1,0)),mode="constant",constant_values=False,)pad_right=np.pad(base_mask[:,:,1:],((0,0),(0,0),(0,1)),mode="constant",constant_values=False,)# Compute distances to the boundariesdist_to_min=np.abs(arr-min_val)dist_to_max=np.abs(arr-max_val)# Left edge logicexpand_left=((~base_mask)&pad_right&(dist_to_min<np.roll(dist_to_min,-1)))# Right edge logicexpand_right=((~base_mask)&pad_left&(dist_to_max<np.roll(dist_to_max,1)))# Combine the masksreturnbase_mask|expand_left|expand_right# Create a mask of wavelength outside of the wavelength limitsdata["mask"]=np.full((self.sn_dim,self.spec_dim,self.wl_dim),fill_value=False)valid_wavelength_mask=nearest_mask(data["wavelength"],data["wl_mask_min"],data["wl_mask_max"])data["mask"][valid_wavelength_mask]=True# Mask any huge laser lines, Na D (5674 - 5692A)# TODO: Make these options# these are large jumps in flux, localized over a few wavelength binslaser_wl_start=np.float32(5000.0)laser_wl_end=np.float32(8000.0)laser_width=2# in units of wavelength binslaser_height=0.4# fractional increase in amplitude over neighbours to be considered laserlaser_wl_mask=nearest_mask(data["wavelength"],laser_wl_start,laser_wl_end)laser_amp=np.full(data["amplitude"].shape,np.nan)laser_amp[laser_wl_mask]=data["amplitude"][laser_wl_mask]laser_amp_min=np.roll(laser_amp,(0,0,-laser_width))laser_amp_max=np.roll(laser_amp,(0,0,laser_width))laser_amp_smooth=(0.5*(laser_amp_min+laser_amp_max)*laser_wl_mask.astype(np.float32))laser_mask=(laser_amp-laser_amp_smooth)>laser_heightwhilelaser_width>0:laser_mask_min=np.roll(laser_mask,(0,0,-1))laser_mask_max=np.roll(laser_mask,(0,0,1))laser_mask=laser_mask|laser_mask_min|laser_mask_maxlaser_width-=1data["mask"]&=~laser_mask# --- Finalise Data ---# Rescale phase to time such that:#   time = 0 -> phase = min_phase#   time = 1 -> phase = max_phasetime_mask=data["phase"]>-100data["time"]=data["phase"].copy()data["time"][time_mask]=(data["time"][time_mask]-self.min_phase)/(self.max_phase-self.min_phase)data["time"][~time_mask]=-1# Remove negative amplitude from unmasked amplitudesdata["amplitude"][data["mask"]]=np.clip(data["amplitude"][data["mask"]],0,np.inf,)# Scale observed uncertainty to account for fitting degrees of freedom, and an error floordata["sigma"]=1.4*data["sigma"]+4e-10data["mask"]=data["mask"].astype(np.int32)self.data=DataStepResult.model_validate(data)def split_train_test(self)->None:[docs]
self.set_seed()self.train_data=[]self.test_data=[]# Train test splitind_split=int(self.sn_dim*self.train_frac)# Select train_frac for training, the rest for testinginds=np.arange(0,self.sn_dim)np.random.shuffle(inds)# Split into k cross validation setsforkfoldinrange(self.n_kfolds):inds_k=np.roll(inds,kfold*inds.shape[0]//self.n_kfolds)inds_train=inds_k[:ind_split]inds_test=inds_k[ind_split:]self.train_data.append(DataStepResult.model_validate({key:val[inds_train,:,:]ifval.ndim==3elseval[inds_train,:]forkey,valinself.data.model_dump().items()ifvalisnotNone}))self.test_data.append(DataStepResult.model_validate({key:val[inds_test,:,:]ifval.ndim==3elseval[inds_test,:]forkey,valinself.data.model_dump().items()ifvalisnotNone}))n_train_sn=self.train_data[0].amplitude.shape[0]n_test_sn=self.test_data[0].amplitude.shape[0]self.log.debug(f"n_train_sn: {n_train_sn} ({100 * n_train_sn / self.sn_dim}%) + n_test_sn: {n_test_sn} ({100 * n_test_sn / self.sn_dim}%) = {n_train_sn + n_test_sn} ({100 * (n_train_sn + n_test_sn) / self.sn_dim}%)",)DataStep.register_step()