EVAL1_SPC1 - Details for Query 297

Submitted Time: 2026/02/19 17:05:10
Duration: 3 s
Succeeded Jobs: 365 369

Show the Stage ID and Task ID that corresponds to the max metric

digraph G { 0 [labelType="html" label=" AdaptiveSparkPlan "]; subgraph cluster1 { isCluster="true"; label="WholeStageCodegen (2)\n \nduration: 0 ms"; 2 [labelType="html" label="HashAggregate time in aggregation build: 0 ms number of output rows: 1"]; } 3 [labelType="html" label="Exchange shuffle records written: 3 local merged chunks fetched: 0 shuffle write time total (min, med, max (stageId: taskId)) 2 ms (0 ms, 0 ms, 0 ms (stage 457.0: task 459)) remote merged bytes read: 0.0 B local merged blocks fetched: 0 corrupt merged block chunks: 0 remote merged reqs duration: 0 ms remote merged blocks fetched: 0 records read: 3 local bytes read: 168.0 B fetch wait time: 0 ms remote bytes read: 0.0 B merged fetch fallback count: 0 local blocks read: 3 remote merged chunks fetched: 0 remote blocks read: 0 data size total (min, med, max (stageId: taskId)) 48.0 B (16.0 B, 16.0 B, 16.0 B (stage 457.0: task 459)) local merged bytes read: 0.0 B number of partitions: 1 remote reqs duration: 0 ms remote bytes read to disk: 0.0 B shuffle bytes written total (min, med, max (stageId: taskId)) 168.0 B (56.0 B, 56.0 B, 56.0 B (stage 457.0: task 459))"]; subgraph cluster4 { isCluster="true"; label="WholeStageCodegen (1)\n \nduration: total (min, med, max (stageId: taskId))\n3.1 s (3 ms, 3 ms, 3.0 s (stage 457.0: task 460))"; 5 [labelType="html" label="HashAggregate time in aggregation build total (min, med, max (stageId: taskId)) 3.1 s (2 ms, 2 ms, 3.0 s (stage 457.0: task 460)) number of output rows: 3"]; 6 [labelType="html" label=" Project "]; 7 [labelType="html" label="Generate number of output rows: 0"]; 8 [labelType="html" label=" Project "]; 9 [labelType="html" label="Filter number of output rows: 0"]; 10 [labelType="html" label="ColumnarToRow number of output rows: 9,522 number of input batches: 3"]; } 11 [labelType="html" label="Scan parquet number of files read: 1 scan time total (min, med, max (stageId: taskId)) 217 ms (2 ms, 2 ms, 213 ms (stage 457.0: task 460)) metadata time: 0 ms size of files read: 9.4 MiB number of output rows: 9,522"]; 2->0; 3->2; 5->3; 6->5; 7->6; 8->7; 9->8; 10->9; 11->10; }

AdaptiveSparkPlan isFinalPlan=true

HashAggregate(keys=[], functions=[count(1)])

WholeStageCodegen (2)

Exchange SinglePartition, ENSURE_REQUIREMENTS, [plan_id=6384]

HashAggregate(keys=[], functions=[partial_count(1)])

Project

Generate explode(COL_C7843BC2_7937_4409_A10A_5E400C7FA5D7#40091), false, [COL_94E48C82_07E9_4C2B_9EA0_327C1C82AC04#40114]

Project [str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [], [.]), <p[^>]*>(.*?)<\/p>) AS COL_C7843BC2_7937_4409_A10A_5E400C7FA5D7#40091]

Filter ((size(str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [], [.]), <p[^>]*>(.*?)<\/p>), true) > 0) AND isnotnull(str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [], [.]), <p[^>]*>(.*?)<\/p>)))

ColumnarToRow

WholeStageCodegen (1)

FileScan parquet [BODY_3253#39770] Batched: true, DataFilters: [(size(str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#3977..., Format: Parquet, Location: InMemoryFileIndex(1 paths)[file:/data/output/cache/parquet/uet/DOCUMENT_3240], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<BODY_3253:string>

Details

== Physical Plan ==
AdaptiveSparkPlan (18)
+- == Final Plan ==
   * HashAggregate (10)
   +- ShuffleQueryStage (9), Statistics(sizeInBytes=48.0 B, rowCount=3)
      +- Exchange (8)
         +- * HashAggregate (7)
            +- * Project (6)
               +- * Generate (5)
                  +- * Project (4)
                     +- * Filter (3)
                        +- * ColumnarToRow (2)
                           +- Scan parquet  (1)
+- == Initial Plan ==
   HashAggregate (17)
   +- Exchange (16)
      +- HashAggregate (15)
         +- Project (14)
            +- Generate (13)
               +- Project (12)
                  +- Filter (11)
                     +- Scan parquet  (1)


(1) Scan parquet 
Output [1]: [BODY_3253#39770]
Batched: true
Location: InMemoryFileIndex [file:/data/output/cache/parquet/uet/DOCUMENT_3240]
ReadSchema: struct<BODY_3253:string>

(2) ColumnarToRow [codegen id : 1]
Input [1]: [BODY_3253#39770]

(3) Filter [codegen id : 1]
Input [1]: [BODY_3253#39770]
Condition : ((size(str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [</p>], [</p>.]), <p[^>]*>(.*?)<\/p>), true) > 0) AND isnotnull(str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [</p>], [</p>.]), <p[^>]*>(.*?)<\/p>)))

(4) Project [codegen id : 1]
Output [1]: [str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [</p>], [</p>.]), <p[^>]*>(.*?)<\/p>) AS COL_C7843BC2_7937_4409_A10A_5E400C7FA5D7#40091]
Input [1]: [BODY_3253#39770]

(5) Generate [codegen id : 1]
Input [1]: [COL_C7843BC2_7937_4409_A10A_5E400C7FA5D7#40091]
Arguments: explode(COL_C7843BC2_7937_4409_A10A_5E400C7FA5D7#40091), false, [COL_94E48C82_07E9_4C2B_9EA0_327C1C82AC04#40114]

(6) Project [codegen id : 1]
Output: []
Input [1]: [COL_94E48C82_07E9_4C2B_9EA0_327C1C82AC04#40114]

(7) HashAggregate [codegen id : 1]
Input: []
Keys: []
Functions [1]: [partial_count(1)]
Aggregate Attributes [1]: [count#40224L]
Results [1]: [count#40225L]

(8) Exchange
Input [1]: [count#40225L]
Arguments: SinglePartition, ENSURE_REQUIREMENTS, [plan_id=6384]

(9) ShuffleQueryStage
Output [1]: [count#40225L]
Arguments: 0

(10) HashAggregate [codegen id : 2]
Input [1]: [count#40225L]
Keys: []
Functions [1]: [count(1)]
Aggregate Attributes [1]: [count(1)#40221L]
Results [1]: [count(1)#40221L AS count#40222L]

(11) Filter
Input [1]: [BODY_3253#39770]
Condition : ((size(str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [</p>], [</p>.]), <p[^>]*>(.*?)<\/p>), true) > 0) AND isnotnull(str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [</p>], [</p>.]), <p[^>]*>(.*?)<\/p>)))

(12) Project
Output [1]: [str_extract_by_regex(str_replace_extend(str_replace_regex(str_replace_regex(BODY_3253#39770, <br\s*\/?>, ), <[^<>]+>, ), [</p>], [</p>.]), <p[^>]*>(.*?)<\/p>) AS COL_C7843BC2_7937_4409_A10A_5E400C7FA5D7#40091]
Input [1]: [BODY_3253#39770]

(13) Generate
Input [1]: [COL_C7843BC2_7937_4409_A10A_5E400C7FA5D7#40091]
Arguments: explode(COL_C7843BC2_7937_4409_A10A_5E400C7FA5D7#40091), false, [COL_94E48C82_07E9_4C2B_9EA0_327C1C82AC04#40114]

(14) Project
Output: []
Input [1]: [COL_94E48C82_07E9_4C2B_9EA0_327C1C82AC04#40114]

(15) HashAggregate
Input: []
Keys: []
Functions [1]: [partial_count(1)]
Aggregate Attributes [1]: [count#40224L]
Results [1]: [count#40225L]

(16) Exchange
Input [1]: [count#40225L]
Arguments: SinglePartition, ENSURE_REQUIREMENTS, [plan_id=6356]

(17) HashAggregate
Input [1]: [count#40225L]
Keys: []
Functions [1]: [count(1)]
Aggregate Attributes [1]: [count(1)#40221L]
Results [1]: [count(1)#40221L AS count#40222L]

(18) AdaptiveSparkPlan
Output [1]: [count#40222L]
Arguments: isFinalPlan=true

SQL / DataFrame Properties

Name	Value
spark.sql.optimizer.nestedPredicatePushdown.supportedFileSources	parquet,orc,geoparquet