Expand ROIs to all signal regions and cell types

I wanted to test whether using a binning approach + a similar training strategy as PCPC/RR has an effect on our predictions.
MiraldiLab · Jun 3, 2021 · 39bce87 · 39bce87
1 parent 78ffa82
commit 39bce87
Show file tree

Hide file tree

Showing 3 changed files with 82 additions and 410 deletions.
diff --git a/maxatac/analyses/train.py b/maxatac/analyses/train.py
@@ -54,11 +54,6 @@ def run_training(args):
                                  weights=args.weights
                                  )
 
-    logging.error("Window the genome to desired bin width and step size")
-
-    # Import windowed genome
-    windowed_gen = pd.read_csv(args.window_sequence, sep='\t', header=None, names=["Chr", "Start", "Stop"])
-
     logging.error("Import training regions")
 
     # Import training regions
@@ -67,8 +62,8 @@ def run_training(args):
                              prefix=args.prefix,
                              output_directory=maxatac_model.output_directory,
                              tag="training",
-                             test_cell_type=maxatac_model.test_cell_type,
-                             genomic_bins=windowed_gen)
+                             test_cell_type=maxatac_model.test_cell_type
+                             )
 
     logging.error("Import validation regions")
 
@@ -78,35 +73,29 @@ def run_training(args):
                                 prefix=args.prefix,
                                 output_directory=maxatac_model.output_directory,
                                 tag="validation",
-                                test_cell_type=maxatac_model.test_cell_type,
-                                genomic_bins=windowed_gen)
+                                test_cell_type=maxatac_model.test_cell_type
+                                )
 
     logging.error("Initialize the training generator")
 
     # Initialize the training generator
     train_gen = DataGenerator(sequence=args.sequence,
                               meta_table=maxatac_model.meta_dataframe,
-                              roi_pool=train_examples,
-                              cell_type_list=maxatac_model.cell_types,
-                              chroms=args.tchroms,
+                              roi_pool=train_examples.ROI_pool_df,
                               quant=args.quant,
                               batch_size=args.batch_size,
-                              target_scale_factor=args.target_scale_factor,
-                              shuffle_cell_type=args.shuffle_cell_type
+                              target_scale_factor=args.target_scale_factor
                               )
 
     logging.error("Initialize the validation generator")
 
     # Initialize the validation generator
     val_gen = DataGenerator(sequence=args.sequence,
                             meta_table=maxatac_model.meta_dataframe,
-                            roi_pool=validate_examples,
-                            cell_type_list=maxatac_model.cell_types,
-                            chroms=args.vchroms,
+                            roi_pool=validate_examples.ROI_pool_df,
                             quant=args.quant,
                             batch_size=args.batch_size,
-                            target_scale_factor=args.target_scale_factor,
-                            shuffle_cell_type=args.shuffle_cell_type
+                            target_scale_factor=args.target_scale_factor
                             )
 
     logging.error("Fit the model")

diff --git a/maxatac/utilities/parser.py b/maxatac/utilities/parser.py
@@ -422,13 +422,6 @@ def get_parser():
                                 help="Input signal file"
                                 )
 
-    predict_parser.add_argument("--minimum",
-                                dest="minimum",
-                                type=float,
-                                default=DEFAULT_MIN_PREDICTION,
-                                help="Minimum prediction value to be reported. Default: " + str(DEFAULT_MIN_PREDICTION)
-                                )
-
     predict_parser.add_argument("--output",
                                 dest="output",
                                 type=str,
@@ -452,12 +445,6 @@ def get_parser():
                                       Default: None, predictions are done on the whole chromosome length"
                                 )
 
-    predict_parser.add_argument("--keep",
-                                dest="keep",
-                                action="store_true",
-                                help="Keep temporary files. Default: False"
-                                )
-
     predict_parser.add_argument("--threads",
                                 dest="threads",
                                 default=get_cpu_count(),
@@ -526,13 +513,6 @@ def get_parser():
 
     train_parser.set_defaults(func=run_training)
 
-    train_parser.add_argument("--window_sequence",
-                                dest="window_sequence",
-                                type=str,
-                                required=True,
-                                help="Windowed Genome at 1024 bp sliding at 256"
-                                )
-
     train_parser.add_argument("--sequence",
                               dest="sequence",
                               type=str,