dask · jrbourbeau · May 10, 2022 · Apr 28, 2022 · Apr 28, 2022 · May 3, 2022
diff --git a/continuous_integration/scripts/install.sh b/continuous_integration/scripts/install.sh
@@ -7,7 +7,7 @@ set -xe
 # python -m pip install --no-deps cityhash
 
 if [[ ${UPSTREAM_DEV} ]]; then
-    mamba install -y -c arrow-nightlies "pyarrow>5.0"
+    mamba install -y -c arrow-nightlies "pyarrow>7.0"
 
     # FIXME https://github.com/mamba-org/mamba/issues/412
     # mamba uninstall --force numpy pandas fastparquet

diff --git a/dask/bytes/tests/test_s3.py b/dask/bytes/tests/test_s3.py
@@ -455,6 +455,9 @@ def test_parquet(s3, engine, s3so, metadata_file):
     ):
         pytest.skip("#7056 - new s3fs not supported before pyarrow 3.0")
 
+    if engine == "pyarrow" and lib_version > parse_version("7.0.0"):
+        pytest.skip("#8993 - parquet dataset with s3 failing on pyarrow master")
+
     url = "s3://%s/test.parquet" % test_bucket_name
 
     data = pd.DataFrame(
@@ -555,6 +558,12 @@ def test_parquet_append(s3, engine, s3so):
     pd = pytest.importorskip("pandas")
     np = pytest.importorskip("numpy")
 
+    # TEMP
+    lib = pytest.importorskip(engine)
+    lib_version = parse_version(lib.__version__)
+    if engine == "pyarrow" and lib_version > parse_version("7.0.0"):
+        pytest.skip("#8993 - parquet dataset with s3 failing on pyarrow master")
+
     url = "s3://%s/test.parquet.append" % test_bucket_name
 
     data = pd.DataFrame(
@@ -609,6 +618,12 @@ def test_parquet_wstoragepars(s3, s3so, engine):
     pd = pytest.importorskip("pandas")
     np = pytest.importorskip("numpy")
 
+    # TEMP
+    lib = pytest.importorskip(engine)
+    lib_version = parse_version(lib.__version__)
+    if engine == "pyarrow" and lib_version > parse_version("7.0.0"):
+        pytest.skip("#8993 - parquet dataset with s3 failing on pyarrow master")
+
     url = "s3://%s/test.parquet" % test_bucket_name
 
     data = pd.DataFrame({"i32": np.array([0, 5, 2, 5])})

diff --git a/dask/dataframe/io/tests/test_parquet.py b/dask/dataframe/io/tests/test_parquet.py
@@ -1662,7 +1662,7 @@ def check_compression(engine, filename, compression):
         else:
             assert md.total_compressed_size != md.total_uncompressed_size
     else:
-        metadata = pa.parquet.ParquetDataset(filename).metadata
+        metadata = pa.parquet.read_metadata(filename + "/_metadata")
         names = metadata.schema.names
         for i in range(metadata.num_row_groups):
             row_group = metadata.row_group(i)