huggingface · sgugger · Oct 6, 2021 · Oct 6, 2021 · Oct 6, 2021 · Oct 6, 2021
diff --git a/src/transformers/trainer.py b/src/transformers/trainer.py
@@ -1311,9 +1311,12 @@ def train(
                 else:
                     tr_loss_step = self.training_step(model, inputs)
 
-                if args.logging_nan_inf_filter and (torch.isnan(tr_loss_step) or torch.isinf(tr_loss_step)):
-                    # if loss is nan or inf simply add the average of previous logged losses
-                    tr_loss += tr_loss / (1 + self.state.global_step - self._globalstep_last_logged)
+                if args.logging_nan_inf_filter:
+                    if is_torch_tpu_available():
+                        xm.mark_step()
+                    if (torch.isnan(tr_loss_step) or torch.isinf(tr_loss_step)):
+                        # if loss is nan or inf simply add the average of previous logged losses
+                        tr_loss += tr_loss / (1 + self.state.global_step - self._globalstep_last_logged)
                 else:
                     tr_loss += tr_loss_step