diff options
Diffstat (limited to 'llvm/test/CodeGen/X86/horizontal-reduce-umin.ll')
| -rw-r--r-- | llvm/test/CodeGen/X86/horizontal-reduce-umin.ll | 581 |
1 files changed, 239 insertions, 342 deletions
diff --git a/llvm/test/CodeGen/X86/horizontal-reduce-umin.ll b/llvm/test/CodeGen/X86/horizontal-reduce-umin.ll index 37d62f311a1..66dd8fd6a87 100644 --- a/llvm/test/CodeGen/X86/horizontal-reduce-umin.ll +++ b/llvm/test/CodeGen/X86/horizontal-reduce-umin.ll @@ -227,34 +227,23 @@ define i32 @test_reduce_v4i32(<4 x i32> %a0) { define i16 @test_reduce_v8i16(<8 x i16> %a0) { ; X86-SSE2-LABEL: test_reduce_v8i16: ; X86-SSE2: ## %bb.0: -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1] -; X86-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768] -; X86-SSE2-NEXT: movdqa %xmm0, %xmm3 -; X86-SSE2-NEXT: pxor %xmm1, %xmm3 -; X86-SSE2-NEXT: movdqa %xmm2, %xmm4 -; X86-SSE2-NEXT: pxor %xmm1, %xmm4 -; X86-SSE2-NEXT: pcmpgtw %xmm3, %xmm4 -; X86-SSE2-NEXT: pand %xmm4, %xmm0 -; X86-SSE2-NEXT: pandn %xmm2, %xmm4 -; X86-SSE2-NEXT: por %xmm0, %xmm4 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,2,3] -; X86-SSE2-NEXT: movdqa %xmm4, %xmm2 -; X86-SSE2-NEXT: pxor %xmm1, %xmm2 -; X86-SSE2-NEXT: movdqa %xmm0, %xmm3 -; X86-SSE2-NEXT: pxor %xmm1, %xmm3 -; X86-SSE2-NEXT: pcmpgtw %xmm2, %xmm3 -; X86-SSE2-NEXT: pand %xmm3, %xmm4 -; X86-SSE2-NEXT: pandn %xmm0, %xmm3 -; X86-SSE2-NEXT: por %xmm4, %xmm3 -; X86-SSE2-NEXT: movdqa %xmm3, %xmm0 -; X86-SSE2-NEXT: psrld $16, %xmm0 -; X86-SSE2-NEXT: movdqa %xmm3, %xmm2 -; X86-SSE2-NEXT: pxor %xmm1, %xmm2 -; X86-SSE2-NEXT: pxor %xmm0, %xmm1 -; X86-SSE2-NEXT: pcmpgtw %xmm2, %xmm1 -; X86-SSE2-NEXT: pand %xmm1, %xmm3 -; X86-SSE2-NEXT: pandn %xmm0, %xmm1 -; X86-SSE2-NEXT: por %xmm3, %xmm1 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1] +; X86-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768] +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 +; X86-SSE2-NEXT: pminsw %xmm0, %xmm1 +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3] +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: pminsw %xmm1, %xmm0 +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: movdqa %xmm0, %xmm1 +; X86-SSE2-NEXT: psrld $16, %xmm1 +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 +; X86-SSE2-NEXT: pminsw %xmm0, %xmm1 +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 ; X86-SSE2-NEXT: movd %xmm1, %eax ; X86-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax ; X86-SSE2-NEXT: retl @@ -275,34 +264,23 @@ define i16 @test_reduce_v8i16(<8 x i16> %a0) { ; ; X64-SSE2-LABEL: test_reduce_v8i16: ; X64-SSE2: ## %bb.0: -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1] -; X64-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768] -; X64-SSE2-NEXT: movdqa %xmm0, %xmm3 -; X64-SSE2-NEXT: pxor %xmm1, %xmm3 -; X64-SSE2-NEXT: movdqa %xmm2, %xmm4 -; X64-SSE2-NEXT: pxor %xmm1, %xmm4 -; X64-SSE2-NEXT: pcmpgtw %xmm3, %xmm4 -; X64-SSE2-NEXT: pand %xmm4, %xmm0 -; X64-SSE2-NEXT: pandn %xmm2, %xmm4 -; X64-SSE2-NEXT: por %xmm0, %xmm4 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,2,3] -; X64-SSE2-NEXT: movdqa %xmm4, %xmm2 -; X64-SSE2-NEXT: pxor %xmm1, %xmm2 -; X64-SSE2-NEXT: movdqa %xmm0, %xmm3 -; X64-SSE2-NEXT: pxor %xmm1, %xmm3 -; X64-SSE2-NEXT: pcmpgtw %xmm2, %xmm3 -; X64-SSE2-NEXT: pand %xmm3, %xmm4 -; X64-SSE2-NEXT: pandn %xmm0, %xmm3 -; X64-SSE2-NEXT: por %xmm4, %xmm3 -; X64-SSE2-NEXT: movdqa %xmm3, %xmm0 -; X64-SSE2-NEXT: psrld $16, %xmm0 -; X64-SSE2-NEXT: movdqa %xmm3, %xmm2 -; X64-SSE2-NEXT: pxor %xmm1, %xmm2 -; X64-SSE2-NEXT: pxor %xmm0, %xmm1 -; X64-SSE2-NEXT: pcmpgtw %xmm2, %xmm1 -; X64-SSE2-NEXT: pand %xmm1, %xmm3 -; X64-SSE2-NEXT: pandn %xmm0, %xmm1 -; X64-SSE2-NEXT: por %xmm3, %xmm1 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1] +; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768] +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 +; X64-SSE2-NEXT: pminsw %xmm0, %xmm1 +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3] +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: pminsw %xmm1, %xmm0 +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: movdqa %xmm0, %xmm1 +; X64-SSE2-NEXT: psrld $16, %xmm1 +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 +; X64-SSE2-NEXT: pminsw %xmm0, %xmm1 +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 ; X64-SSE2-NEXT: movd %xmm1, %eax ; X64-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax ; X64-SSE2-NEXT: retq @@ -799,42 +777,27 @@ define i16 @test_reduce_v16i16(<16 x i16> %a0) { ; X86-SSE2-LABEL: test_reduce_v16i16: ; X86-SSE2: ## %bb.0: ; X86-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768] -; X86-SSE2-NEXT: movdqa %xmm0, %xmm3 -; X86-SSE2-NEXT: pxor %xmm2, %xmm3 -; X86-SSE2-NEXT: movdqa %xmm1, %xmm4 -; X86-SSE2-NEXT: pxor %xmm2, %xmm4 -; X86-SSE2-NEXT: pcmpgtw %xmm3, %xmm4 -; X86-SSE2-NEXT: pand %xmm4, %xmm0 -; X86-SSE2-NEXT: pandn %xmm1, %xmm4 -; X86-SSE2-NEXT: por %xmm0, %xmm4 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[2,3,0,1] -; X86-SSE2-NEXT: movdqa %xmm4, %xmm1 ; X86-SSE2-NEXT: pxor %xmm2, %xmm1 -; X86-SSE2-NEXT: movdqa %xmm0, %xmm3 -; X86-SSE2-NEXT: pxor %xmm2, %xmm3 -; X86-SSE2-NEXT: pcmpgtw %xmm1, %xmm3 -; X86-SSE2-NEXT: pand %xmm3, %xmm4 -; X86-SSE2-NEXT: pandn %xmm0, %xmm3 -; X86-SSE2-NEXT: por %xmm4, %xmm3 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3] -; X86-SSE2-NEXT: movdqa %xmm3, %xmm1 +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: pminsw %xmm1, %xmm0 +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1] +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 ; X86-SSE2-NEXT: pxor %xmm2, %xmm1 -; X86-SSE2-NEXT: movdqa %xmm0, %xmm4 -; X86-SSE2-NEXT: pxor %xmm2, %xmm4 -; X86-SSE2-NEXT: pcmpgtw %xmm1, %xmm4 -; X86-SSE2-NEXT: pand %xmm4, %xmm3 -; X86-SSE2-NEXT: pandn %xmm0, %xmm4 -; X86-SSE2-NEXT: por %xmm3, %xmm4 -; X86-SSE2-NEXT: movdqa %xmm4, %xmm0 -; X86-SSE2-NEXT: psrld $16, %xmm0 -; X86-SSE2-NEXT: movdqa %xmm4, %xmm1 +; X86-SSE2-NEXT: pminsw %xmm0, %xmm1 ; X86-SSE2-NEXT: pxor %xmm2, %xmm1 -; X86-SSE2-NEXT: pxor %xmm0, %xmm2 -; X86-SSE2-NEXT: pcmpgtw %xmm1, %xmm2 -; X86-SSE2-NEXT: pand %xmm2, %xmm4 -; X86-SSE2-NEXT: pandn %xmm0, %xmm2 -; X86-SSE2-NEXT: por %xmm4, %xmm2 -; X86-SSE2-NEXT: movd %xmm2, %eax +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3] +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: pminsw %xmm1, %xmm0 +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: movdqa %xmm0, %xmm1 +; X86-SSE2-NEXT: psrld $16, %xmm1 +; X86-SSE2-NEXT: pxor %xmm2, %xmm0 +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 +; X86-SSE2-NEXT: pminsw %xmm0, %xmm1 +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 +; X86-SSE2-NEXT: movd %xmm1, %eax ; X86-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax ; X86-SSE2-NEXT: retl ; @@ -869,42 +832,27 @@ define i16 @test_reduce_v16i16(<16 x i16> %a0) { ; X64-SSE2-LABEL: test_reduce_v16i16: ; X64-SSE2: ## %bb.0: ; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768] -; X64-SSE2-NEXT: movdqa %xmm0, %xmm3 -; X64-SSE2-NEXT: pxor %xmm2, %xmm3 -; X64-SSE2-NEXT: movdqa %xmm1, %xmm4 -; X64-SSE2-NEXT: pxor %xmm2, %xmm4 -; X64-SSE2-NEXT: pcmpgtw %xmm3, %xmm4 -; X64-SSE2-NEXT: pand %xmm4, %xmm0 -; X64-SSE2-NEXT: pandn %xmm1, %xmm4 -; X64-SSE2-NEXT: por %xmm0, %xmm4 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[2,3,0,1] -; X64-SSE2-NEXT: movdqa %xmm4, %xmm1 ; X64-SSE2-NEXT: pxor %xmm2, %xmm1 -; X64-SSE2-NEXT: movdqa %xmm0, %xmm3 -; X64-SSE2-NEXT: pxor %xmm2, %xmm3 -; X64-SSE2-NEXT: pcmpgtw %xmm1, %xmm3 -; X64-SSE2-NEXT: pand %xmm3, %xmm4 -; X64-SSE2-NEXT: pandn %xmm0, %xmm3 -; X64-SSE2-NEXT: por %xmm4, %xmm3 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3] -; X64-SSE2-NEXT: movdqa %xmm3, %xmm1 +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: pminsw %xmm1, %xmm0 +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1] +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 ; X64-SSE2-NEXT: pxor %xmm2, %xmm1 -; X64-SSE2-NEXT: movdqa %xmm0, %xmm4 -; X64-SSE2-NEXT: pxor %xmm2, %xmm4 -; X64-SSE2-NEXT: pcmpgtw %xmm1, %xmm4 -; X64-SSE2-NEXT: pand %xmm4, %xmm3 -; X64-SSE2-NEXT: pandn %xmm0, %xmm4 -; X64-SSE2-NEXT: por %xmm3, %xmm4 -; X64-SSE2-NEXT: movdqa %xmm4, %xmm0 -; X64-SSE2-NEXT: psrld $16, %xmm0 -; X64-SSE2-NEXT: movdqa %xmm4, %xmm1 +; X64-SSE2-NEXT: pminsw %xmm0, %xmm1 ; X64-SSE2-NEXT: pxor %xmm2, %xmm1 -; X64-SSE2-NEXT: pxor %xmm0, %xmm2 -; X64-SSE2-NEXT: pcmpgtw %xmm1, %xmm2 -; X64-SSE2-NEXT: pand %xmm2, %xmm4 -; X64-SSE2-NEXT: pandn %xmm0, %xmm2 -; X64-SSE2-NEXT: por %xmm4, %xmm2 -; X64-SSE2-NEXT: movd %xmm2, %eax +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3] +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: pminsw %xmm1, %xmm0 +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: movdqa %xmm0, %xmm1 +; X64-SSE2-NEXT: psrld $16, %xmm1 +; X64-SSE2-NEXT: pxor %xmm2, %xmm0 +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 +; X64-SSE2-NEXT: pminsw %xmm0, %xmm1 +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 +; X64-SSE2-NEXT: movd %xmm1, %eax ; X64-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax ; X64-SSE2-NEXT: retq ; @@ -1103,14 +1051,10 @@ define i8 @test_reduce_v32i8(<32 x i8> %a0) { define i64 @test_reduce_v8i64(<8 x i64> %a0) { ; X86-SSE2-LABEL: test_reduce_v8i64: ; X86-SSE2: ## %bb.0: -; X86-SSE2-NEXT: subl $28, %esp -; X86-SSE2-NEXT: .cfi_def_cfa_offset 32 -; X86-SSE2-NEXT: movdqa %xmm2, %xmm6 -; X86-SSE2-NEXT: movdqa %xmm2, (%esp) ## 16-byte Spill -; X86-SSE2-NEXT: movdqa %xmm0, %xmm2 ; X86-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648] -; X86-SSE2-NEXT: movdqa %xmm0, %xmm5 +; X86-SSE2-NEXT: movdqa %xmm1, %xmm5 ; X86-SSE2-NEXT: pxor %xmm4, %xmm5 +; X86-SSE2-NEXT: movdqa %xmm3, %xmm6 ; X86-SSE2-NEXT: pxor %xmm4, %xmm6 ; X86-SSE2-NEXT: movdqa %xmm6, %xmm7 ; X86-SSE2-NEXT: pcmpgtd %xmm5, %xmm7 @@ -1120,39 +1064,39 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) { ; X86-SSE2-NEXT: pand %xmm5, %xmm6 ; X86-SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3] ; X86-SSE2-NEXT: por %xmm6, %xmm5 -; X86-SSE2-NEXT: movdqa %xmm1, %xmm6 -; X86-SSE2-NEXT: pxor %xmm4, %xmm6 -; X86-SSE2-NEXT: movdqa %xmm3, %xmm7 -; X86-SSE2-NEXT: pxor %xmm4, %xmm7 -; X86-SSE2-NEXT: movdqa %xmm7, %xmm0 -; X86-SSE2-NEXT: pcmpgtd %xmm6, %xmm0 -; X86-SSE2-NEXT: pcmpeqd %xmm6, %xmm7 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm7[1,1,3,3] -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,0,2,2] -; X86-SSE2-NEXT: pand %xmm6, %xmm7 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3] -; X86-SSE2-NEXT: por %xmm7, %xmm6 -; X86-SSE2-NEXT: pand %xmm6, %xmm1 -; X86-SSE2-NEXT: pandn %xmm3, %xmm6 -; X86-SSE2-NEXT: por %xmm1, %xmm6 -; X86-SSE2-NEXT: pand %xmm5, %xmm2 -; X86-SSE2-NEXT: pandn (%esp), %xmm5 ## 16-byte Folded Reload -; X86-SSE2-NEXT: por %xmm2, %xmm5 -; X86-SSE2-NEXT: movdqa %xmm5, %xmm0 -; X86-SSE2-NEXT: pxor %xmm4, %xmm0 -; X86-SSE2-NEXT: movdqa %xmm6, %xmm1 +; X86-SSE2-NEXT: pand %xmm5, %xmm1 +; X86-SSE2-NEXT: pandn %xmm3, %xmm5 +; X86-SSE2-NEXT: por %xmm1, %xmm5 +; X86-SSE2-NEXT: movdqa %xmm0, %xmm1 ; X86-SSE2-NEXT: pxor %xmm4, %xmm1 -; X86-SSE2-NEXT: movdqa %xmm1, %xmm2 -; X86-SSE2-NEXT: pcmpgtd %xmm0, %xmm2 -; X86-SSE2-NEXT: pcmpeqd %xmm0, %xmm1 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2] -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3] +; X86-SSE2-NEXT: movdqa %xmm2, %xmm3 +; X86-SSE2-NEXT: pxor %xmm4, %xmm3 +; X86-SSE2-NEXT: movdqa %xmm3, %xmm6 +; X86-SSE2-NEXT: pcmpgtd %xmm1, %xmm6 +; X86-SSE2-NEXT: pcmpeqd %xmm1, %xmm3 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm6[0,0,2,2] +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3] +; X86-SSE2-NEXT: pand %xmm1, %xmm3 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm6[1,1,3,3] +; X86-SSE2-NEXT: por %xmm3, %xmm1 +; X86-SSE2-NEXT: pand %xmm1, %xmm0 +; X86-SSE2-NEXT: pandn %xmm2, %xmm1 +; X86-SSE2-NEXT: por %xmm0, %xmm1 +; X86-SSE2-NEXT: movdqa %xmm1, %xmm0 +; X86-SSE2-NEXT: pxor %xmm4, %xmm0 +; X86-SSE2-NEXT: movdqa %xmm5, %xmm2 +; X86-SSE2-NEXT: pxor %xmm4, %xmm2 +; X86-SSE2-NEXT: movdqa %xmm2, %xmm3 +; X86-SSE2-NEXT: pcmpgtd %xmm0, %xmm3 +; X86-SSE2-NEXT: pcmpeqd %xmm0, %xmm2 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2] +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3] +; X86-SSE2-NEXT: pand %xmm0, %xmm2 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3] +; X86-SSE2-NEXT: por %xmm2, %xmm0 ; X86-SSE2-NEXT: pand %xmm0, %xmm1 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3] +; X86-SSE2-NEXT: pandn %xmm5, %xmm0 ; X86-SSE2-NEXT: por %xmm1, %xmm0 -; X86-SSE2-NEXT: pand %xmm0, %xmm5 -; X86-SSE2-NEXT: pandn %xmm6, %xmm0 -; X86-SSE2-NEXT: por %xmm5, %xmm0 ; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1] ; X86-SSE2-NEXT: movdqa %xmm0, %xmm2 ; X86-SSE2-NEXT: pxor %xmm4, %xmm2 @@ -1171,24 +1115,23 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) { ; X86-SSE2-NEXT: movd %xmm2, %eax ; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3] ; X86-SSE2-NEXT: movd %xmm0, %edx -; X86-SSE2-NEXT: addl $28, %esp ; X86-SSE2-NEXT: retl ; ; X86-SSE42-LABEL: test_reduce_v8i64: ; X86-SSE42: ## %bb.0: ; X86-SSE42-NEXT: movdqa %xmm0, %xmm5 ; X86-SSE42-NEXT: movdqa {{.*#+}} xmm4 = [0,2147483648,0,2147483648] -; X86-SSE42-NEXT: pxor %xmm4, %xmm0 -; X86-SSE42-NEXT: movdqa %xmm2, %xmm6 +; X86-SSE42-NEXT: movdqa %xmm1, %xmm6 ; X86-SSE42-NEXT: pxor %xmm4, %xmm6 -; X86-SSE42-NEXT: pcmpgtq %xmm0, %xmm6 -; X86-SSE42-NEXT: movdqa %xmm1, %xmm7 -; X86-SSE42-NEXT: pxor %xmm4, %xmm7 ; X86-SSE42-NEXT: movdqa %xmm3, %xmm0 ; X86-SSE42-NEXT: pxor %xmm4, %xmm0 -; X86-SSE42-NEXT: pcmpgtq %xmm7, %xmm0 +; X86-SSE42-NEXT: pcmpgtq %xmm6, %xmm0 ; X86-SSE42-NEXT: blendvpd %xmm0, %xmm1, %xmm3 -; X86-SSE42-NEXT: movdqa %xmm6, %xmm0 +; X86-SSE42-NEXT: movdqa %xmm5, %xmm1 +; X86-SSE42-NEXT: pxor %xmm4, %xmm1 +; X86-SSE42-NEXT: movdqa %xmm2, %xmm0 +; X86-SSE42-NEXT: pxor %xmm4, %xmm0 +; X86-SSE42-NEXT: pcmpgtq %xmm1, %xmm0 ; X86-SSE42-NEXT: blendvpd %xmm0, %xmm5, %xmm2 ; X86-SSE42-NEXT: movapd %xmm2, %xmm1 ; X86-SSE42-NEXT: xorpd %xmm4, %xmm1 @@ -1265,11 +1208,11 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) { ; ; X64-SSE2-LABEL: test_reduce_v8i64: ; X64-SSE2: ## %bb.0: -; X64-SSE2-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648] -; X64-SSE2-NEXT: movdqa %xmm0, %xmm5 -; X64-SSE2-NEXT: pxor %xmm9, %xmm5 -; X64-SSE2-NEXT: movdqa %xmm2, %xmm6 -; X64-SSE2-NEXT: pxor %xmm9, %xmm6 +; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648] +; X64-SSE2-NEXT: movdqa %xmm1, %xmm5 +; X64-SSE2-NEXT: pxor %xmm4, %xmm5 +; X64-SSE2-NEXT: movdqa %xmm3, %xmm6 +; X64-SSE2-NEXT: pxor %xmm4, %xmm6 ; X64-SSE2-NEXT: movdqa %xmm6, %xmm7 ; X64-SSE2-NEXT: pcmpgtd %xmm5, %xmm7 ; X64-SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2] @@ -1278,49 +1221,49 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) { ; X64-SSE2-NEXT: pand %xmm8, %xmm6 ; X64-SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3] ; X64-SSE2-NEXT: por %xmm6, %xmm5 -; X64-SSE2-NEXT: movdqa %xmm1, %xmm6 -; X64-SSE2-NEXT: pxor %xmm9, %xmm6 -; X64-SSE2-NEXT: movdqa %xmm3, %xmm7 -; X64-SSE2-NEXT: pxor %xmm9, %xmm7 -; X64-SSE2-NEXT: movdqa %xmm7, %xmm4 -; X64-SSE2-NEXT: pcmpgtd %xmm6, %xmm4 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm4[0,0,2,2] -; X64-SSE2-NEXT: pcmpeqd %xmm6, %xmm7 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm7[1,1,3,3] -; X64-SSE2-NEXT: pand %xmm8, %xmm7 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3] -; X64-SSE2-NEXT: por %xmm7, %xmm6 -; X64-SSE2-NEXT: pand %xmm6, %xmm1 -; X64-SSE2-NEXT: pandn %xmm3, %xmm6 -; X64-SSE2-NEXT: por %xmm1, %xmm6 -; X64-SSE2-NEXT: pand %xmm5, %xmm0 -; X64-SSE2-NEXT: pandn %xmm2, %xmm5 -; X64-SSE2-NEXT: por %xmm0, %xmm5 -; X64-SSE2-NEXT: movdqa %xmm5, %xmm0 -; X64-SSE2-NEXT: pxor %xmm9, %xmm0 -; X64-SSE2-NEXT: movdqa %xmm6, %xmm1 -; X64-SSE2-NEXT: pxor %xmm9, %xmm1 +; X64-SSE2-NEXT: pand %xmm5, %xmm1 +; X64-SSE2-NEXT: pandn %xmm3, %xmm5 +; X64-SSE2-NEXT: por %xmm1, %xmm5 +; X64-SSE2-NEXT: movdqa %xmm0, %xmm1 +; X64-SSE2-NEXT: pxor %xmm4, %xmm1 +; X64-SSE2-NEXT: movdqa %xmm2, %xmm3 +; X64-SSE2-NEXT: pxor %xmm4, %xmm3 +; X64-SSE2-NEXT: movdqa %xmm3, %xmm6 +; X64-SSE2-NEXT: pcmpgtd %xmm1, %xmm6 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2] +; X64-SSE2-NEXT: pcmpeqd %xmm1, %xmm3 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3] +; X64-SSE2-NEXT: pand %xmm7, %xmm1 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm6[1,1,3,3] +; X64-SSE2-NEXT: por %xmm1, %xmm3 +; X64-SSE2-NEXT: pand %xmm3, %xmm0 +; X64-SSE2-NEXT: pandn %xmm2, %xmm3 +; X64-SSE2-NEXT: por %xmm0, %xmm3 +; X64-SSE2-NEXT: movdqa %xmm3, %xmm0 +; X64-SSE2-NEXT: pxor %xmm4, %xmm0 +; X64-SSE2-NEXT: movdqa %xmm5, %xmm1 +; X64-SSE2-NEXT: pxor %xmm4, %xmm1 ; X64-SSE2-NEXT: movdqa %xmm1, %xmm2 ; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm2 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2] +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2] ; X64-SSE2-NEXT: pcmpeqd %xmm0, %xmm1 ; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3] -; X64-SSE2-NEXT: pand %xmm3, %xmm0 +; X64-SSE2-NEXT: pand %xmm6, %xmm0 ; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3] ; X64-SSE2-NEXT: por %xmm0, %xmm1 -; X64-SSE2-NEXT: pand %xmm1, %xmm5 -; X64-SSE2-NEXT: pandn %xmm6, %xmm1 -; X64-SSE2-NEXT: por %xmm5, %xmm1 +; X64-SSE2-NEXT: pand %xmm1, %xmm3 +; X64-SSE2-NEXT: pandn %xmm5, %xmm1 +; X64-SSE2-NEXT: por %xmm3, %xmm1 ; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1] ; X64-SSE2-NEXT: movdqa %xmm1, %xmm2 -; X64-SSE2-NEXT: pxor %xmm9, %xmm2 -; X64-SSE2-NEXT: pxor %xmm0, %xmm9 -; X64-SSE2-NEXT: movdqa %xmm9, %xmm3 +; X64-SSE2-NEXT: pxor %xmm4, %xmm2 +; X64-SSE2-NEXT: pxor %xmm0, %xmm4 +; X64-SSE2-NEXT: movdqa %xmm4, %xmm3 ; X64-SSE2-NEXT: pcmpgtd %xmm2, %xmm3 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2] -; X64-SSE2-NEXT: pcmpeqd %xmm2, %xmm9 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm9[1,1,3,3] -; X64-SSE2-NEXT: pand %xmm4, %xmm2 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2] +; X64-SSE2-NEXT: pcmpeqd %xmm2, %xmm4 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3] +; X64-SSE2-NEXT: pand %xmm5, %xmm2 ; X64-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3] ; X64-SSE2-NEXT: por %xmm2, %xmm3 ; X64-SSE2-NEXT: pand %xmm3, %xmm1 @@ -1333,17 +1276,17 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) { ; X64-SSE42: ## %bb.0: ; X64-SSE42-NEXT: movdqa %xmm0, %xmm5 ; X64-SSE42-NEXT: movdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808] -; X64-SSE42-NEXT: pxor %xmm4, %xmm0 -; X64-SSE42-NEXT: movdqa %xmm2, %xmm6 +; X64-SSE42-NEXT: movdqa %xmm1, %xmm6 ; X64-SSE42-NEXT: pxor %xmm4, %xmm6 -; X64-SSE42-NEXT: pcmpgtq %xmm0, %xmm6 -; X64-SSE42-NEXT: movdqa %xmm1, %xmm7 -; X64-SSE42-NEXT: pxor %xmm4, %xmm7 ; X64-SSE42-NEXT: movdqa %xmm3, %xmm0 ; X64-SSE42-NEXT: pxor %xmm4, %xmm0 -; X64-SSE42-NEXT: pcmpgtq %xmm7, %xmm0 +; X64-SSE42-NEXT: pcmpgtq %xmm6, %xmm0 ; X64-SSE42-NEXT: blendvpd %xmm0, %xmm1, %xmm3 -; X64-SSE42-NEXT: movdqa %xmm6, %xmm0 +; X64-SSE42-NEXT: movdqa %xmm5, %xmm1 +; X64-SSE42-NEXT: pxor %xmm4, %xmm1 +; X64-SSE42-NEXT: movdqa %xmm2, %xmm0 +; X64-SSE42-NEXT: pxor %xmm4, %xmm0 +; X64-SSE42-NEXT: pcmpgtq %xmm1, %xmm0 ; X64-SSE42-NEXT: blendvpd %xmm0, %xmm5, %xmm2 ; X64-SSE42-NEXT: movapd %xmm2, %xmm1 ; X64-SSE42-NEXT: xorpd %xmm4, %xmm1 @@ -1443,30 +1386,30 @@ define i32 @test_reduce_v16i32(<16 x i32> %a0) { ; X86-SSE2-LABEL: test_reduce_v16i32: ; X86-SSE2: ## %bb.0: ; X86-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648] -; X86-SSE2-NEXT: movdqa %xmm0, %xmm6 -; X86-SSE2-NEXT: pxor %xmm4, %xmm6 -; X86-SSE2-NEXT: movdqa %xmm2, %xmm5 +; X86-SSE2-NEXT: movdqa %xmm1, %xmm5 ; X86-SSE2-NEXT: pxor %xmm4, %xmm5 -; X86-SSE2-NEXT: pcmpgtd %xmm6, %xmm5 -; X86-SSE2-NEXT: movdqa %xmm1, %xmm6 +; X86-SSE2-NEXT: movdqa %xmm3, %xmm6 ; X86-SSE2-NEXT: pxor %xmm4, %xmm6 -; X86-SSE2-NEXT: movdqa %xmm3, %xmm7 -; X86-SSE2-NEXT: pxor %xmm4, %xmm7 -; X86-SSE2-NEXT: pcmpgtd %xmm6, %xmm7 -; X86-SSE2-NEXT: pand %xmm7, %xmm1 -; X86-SSE2-NEXT: pandn %xmm3, %xmm7 -; X86-SSE2-NEXT: por %xmm1, %xmm7 -; X86-SSE2-NEXT: pand %xmm5, %xmm0 -; X86-SSE2-NEXT: pandn %xmm2, %xmm5 -; X86-SSE2-NEXT: por %xmm0, %xmm5 -; X86-SSE2-NEXT: movdqa %xmm5, %xmm0 +; X86-SSE2-NEXT: pcmpgtd %xmm5, %xmm6 +; X86-SSE2-NEXT: pand %xmm6, %xmm1 +; X86-SSE2-NEXT: pandn %xmm3, %xmm6 +; X86-SSE2-NEXT: por %xmm1, %xmm6 +; X86-SSE2-NEXT: movdqa %xmm0, %xmm1 +; X86-SSE2-NEXT: pxor %xmm4, %xmm1 +; X86-SSE2-NEXT: movdqa %xmm2, %xmm3 +; X86-SSE2-NEXT: pxor %xmm4, %xmm3 +; X86-SSE2-NEXT: pcmpgtd %xmm1, %xmm3 +; X86-SSE2-NEXT: pand %xmm3, %xmm0 +; X86-SSE2-NEXT: pandn %xmm2, %xmm3 +; X86-SSE2-NEXT: por %xmm0, %xmm3 +; X86-SSE2-NEXT: movdqa %xmm3, %xmm0 ; X86-SSE2-NEXT: pxor %xmm4, %xmm0 -; X86-SSE2-NEXT: movdqa %xmm7, %xmm1 +; X86-SSE2-NEXT: movdqa %xmm6, %xmm1 ; X86-SSE2-NEXT: pxor %xmm4, %xmm1 ; X86-SSE2-NEXT: pcmpgtd %xmm0, %xmm1 -; X86-SSE2-NEXT: pand %xmm1, %xmm5 -; X86-SSE2-NEXT: pandn %xmm7, %xmm1 -; X86-SSE2-NEXT: por %xmm5, %xmm1 +; X86-SSE2-NEXT: pand %xmm1, %xmm3 +; X86-SSE2-NEXT: pandn %xmm6, %xmm1 +; X86-SSE2-NEXT: por %xmm3, %xmm1 ; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1] ; X86-SSE2-NEXT: movdqa %xmm1, %xmm2 ; X86-SSE2-NEXT: pxor %xmm4, %xmm2 @@ -1530,30 +1473,30 @@ define i32 @test_reduce_v16i32(<16 x i32> %a0) { ; X64-SSE2-LABEL: test_reduce_v16i32: ; X64-SSE2: ## %bb.0: ; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648] -; X64-SSE2-NEXT: movdqa %xmm0, %xmm6 -; X64-SSE2-NEXT: pxor %xmm4, %xmm6 -; X64-SSE2-NEXT: movdqa %xmm2, %xmm5 +; X64-SSE2-NEXT: movdqa %xmm1, %xmm5 ; X64-SSE2-NEXT: pxor %xmm4, %xmm5 -; X64-SSE2-NEXT: pcmpgtd %xmm6, %xmm5 -; X64-SSE2-NEXT: movdqa %xmm1, %xmm6 +; X64-SSE2-NEXT: movdqa %xmm3, %xmm6 ; X64-SSE2-NEXT: pxor %xmm4, %xmm6 -; X64-SSE2-NEXT: movdqa %xmm3, %xmm7 -; X64-SSE2-NEXT: pxor %xmm4, %xmm7 -; X64-SSE2-NEXT: pcmpgtd %xmm6, %xmm7 -; X64-SSE2-NEXT: pand %xmm7, %xmm1 -; X64-SSE2-NEXT: pandn %xmm3, %xmm7 -; X64-SSE2-NEXT: por %xmm1, %xmm7 -; X64-SSE2-NEXT: pand %xmm5, %xmm0 -; X64-SSE2-NEXT: pandn %xmm2, %xmm5 -; X64-SSE2-NEXT: por %xmm0, %xmm5 -; X64-SSE2-NEXT: movdqa %xmm5, %xmm0 +; X64-SSE2-NEXT: pcmpgtd %xmm5, %xmm6 +; X64-SSE2-NEXT: pand %xmm6, %xmm1 +; X64-SSE2-NEXT: pandn %xmm3, %xmm6 +; X64-SSE2-NEXT: por %xmm1, %xmm6 +; X64-SSE2-NEXT: movdqa %xmm0, %xmm1 +; X64-SSE2-NEXT: pxor %xmm4, %xmm1 +; X64-SSE2-NEXT: movdqa %xmm2, %xmm3 +; X64-SSE2-NEXT: pxor %xmm4, %xmm3 +; X64-SSE2-NEXT: pcmpgtd %xmm1, %xmm3 +; X64-SSE2-NEXT: pand %xmm3, %xmm0 +; X64-SSE2-NEXT: pandn %xmm2, %xmm3 +; X64-SSE2-NEXT: por %xmm0, %xmm3 +; X64-SSE2-NEXT: movdqa %xmm3, %xmm0 ; X64-SSE2-NEXT: pxor %xmm4, %xmm0 -; X64-SSE2-NEXT: movdqa %xmm7, %xmm1 +; X64-SSE2-NEXT: movdqa %xmm6, %xmm1 ; X64-SSE2-NEXT: pxor %xmm4, %xmm1 ; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm1 -; X64-SSE2-NEXT: pand %xmm1, %xmm5 -; X64-SSE2-NEXT: pandn %xmm7, %xmm1 -; X64-SSE2-NEXT: por %xmm5, %xmm1 +; X64-SSE2-NEXT: pand %xmm1, %xmm3 +; X64-SSE2-NEXT: pandn %xmm6, %xmm1 +; X64-SSE2-NEXT: por %xmm3, %xmm1 ; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1] ; X64-SSE2-NEXT: movdqa %xmm1, %xmm2 ; X64-SSE2-NEXT: pxor %xmm4, %xmm2 @@ -1647,58 +1590,35 @@ define i16 @test_reduce_v32i16(<32 x i16> %a0) { ; X86-SSE2-LABEL: test_reduce_v32i16: ; X86-SSE2: ## %bb.0: ; X86-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32768,32768,32768,32768,32768,32768,32768,32768] -; X86-SSE2-NEXT: movdqa %xmm0, %xmm6 -; X86-SSE2-NEXT: pxor %xmm4, %xmm6 -; X86-SSE2-NEXT: movdqa %xmm2, %xmm5 -; X86-SSE2-NEXT: pxor %xmm4, %xmm5 -; X86-SSE2-NEXT: pcmpgtw %xmm6, %xmm5 -; X86-SSE2-NEXT: movdqa %xmm1, %xmm6 -; X86-SSE2-NEXT: pxor %xmm4, %xmm6 -; X86-SSE2-NEXT: movdqa %xmm3, %xmm7 -; X86-SSE2-NEXT: pxor %xmm4, %xmm7 -; X86-SSE2-NEXT: pcmpgtw %xmm6, %xmm7 -; X86-SSE2-NEXT: pand %xmm7, %xmm1 -; X86-SSE2-NEXT: pandn %xmm3, %xmm7 -; X86-SSE2-NEXT: por %xmm1, %xmm7 -; X86-SSE2-NEXT: pand %xmm5, %xmm0 -; X86-SSE2-NEXT: pandn %xmm2, %xmm5 -; X86-SSE2-NEXT: por %xmm0, %xmm5 -; X86-SSE2-NEXT: movdqa %xmm5, %xmm0 -; X86-SSE2-NEXT: pxor %xmm4, %xmm0 -; X86-SSE2-NEXT: movdqa %xmm7, %xmm1 -; X86-SSE2-NEXT: pxor %xmm4, %xmm1 -; X86-SSE2-NEXT: pcmpgtw %xmm0, %xmm1 -; X86-SSE2-NEXT: pand %xmm1, %xmm5 -; X86-SSE2-NEXT: pandn %xmm7, %xmm1 -; X86-SSE2-NEXT: por %xmm5, %xmm1 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1] -; X86-SSE2-NEXT: movdqa %xmm1, %xmm2 ; X86-SSE2-NEXT: pxor %xmm4, %xmm2 -; X86-SSE2-NEXT: movdqa %xmm0, %xmm3 +; X86-SSE2-NEXT: pxor %xmm4, %xmm0 +; X86-SSE2-NEXT: pminsw %xmm2, %xmm0 ; X86-SSE2-NEXT: pxor %xmm4, %xmm3 -; X86-SSE2-NEXT: pcmpgtw %xmm2, %xmm3 -; X86-SSE2-NEXT: pand %xmm3, %xmm1 -; X86-SSE2-NEXT: pandn %xmm0, %xmm3 -; X86-SSE2-NEXT: por %xmm1, %xmm3 -; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3] -; X86-SSE2-NEXT: movdqa %xmm3, %xmm1 ; X86-SSE2-NEXT: pxor %xmm4, %xmm1 -; X86-SSE2-NEXT: movdqa %xmm0, %xmm2 +; X86-SSE2-NEXT: pminsw %xmm3, %xmm1 +; X86-SSE2-NEXT: movdqa %xmm4, %xmm2 ; X86-SSE2-NEXT: pxor %xmm4, %xmm2 -; X86-SSE2-NEXT: pcmpgtw %xmm1, %xmm2 -; X86-SSE2-NEXT: pand %xmm2, %xmm3 -; X86-SSE2-NEXT: pandn %xmm0, %xmm2 -; X86-SSE2-NEXT: por %xmm3, %xmm2 -; X86-SSE2-NEXT: movdqa %xmm2, %xmm0 +; X86-SSE2-NEXT: pxor %xmm2, %xmm1 +; X86-SSE2-NEXT: pxor %xmm0, %xmm2 +; X86-SSE2-NEXT: pminsw %xmm1, %xmm2 +; X86-SSE2-NEXT: pxor %xmm4, %xmm2 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1] +; X86-SSE2-NEXT: pxor %xmm4, %xmm2 +; X86-SSE2-NEXT: pxor %xmm4, %xmm0 +; X86-SSE2-NEXT: pminsw %xmm2, %xmm0 +; X86-SSE2-NEXT: pxor %xmm4, %xmm0 +; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3] +; X86-SSE2-NEXT: pxor %xmm4, %xmm0 +; X86-SSE2-NEXT: pxor %xmm4, %xmm1 +; X86-SSE2-NEXT: pminsw %xmm0, %xmm1 +; X86-SSE2-NEXT: pxor %xmm4, %xmm1 +; X86-SSE2-NEXT: movdqa %xmm1, %xmm0 ; X86-SSE2-NEXT: psrld $16, %xmm0 -; X86-SSE2-NEXT: movdqa %xmm2, %xmm1 ; X86-SSE2-NEXT: pxor %xmm4, %xmm1 -; X86-SSE2-NEXT: pxor %xmm0, %xmm4 -; X86-SSE2-NEXT: pcmpgtw %xmm1, %xmm4 -; X86-SSE2-NEXT: pand %xmm4, %xmm2 -; X86-SSE2-NEXT: pandn %xmm0, %xmm4 -; X86-SSE2-NEXT: por %xmm2, %xmm4 -; X86-SSE2-NEXT: movd %xmm4, %eax +; X86-SSE2-NEXT: pxor %xmm4, %xmm0 +; X86-SSE2-NEXT: pminsw %xmm1, %xmm0 +; X86-SSE2-NEXT: pxor %xmm4, %xmm0 +; X86-SSE2-NEXT: movd %xmm0, %eax ; X86-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax ; X86-SSE2-NEXT: retl ; @@ -1739,58 +1659,35 @@ define i16 @test_reduce_v32i16(<32 x i16> %a0) { ; X64-SSE2-LABEL: test_reduce_v32i16: ; X64-SSE2: ## %bb.0: ; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32768,32768,32768,32768,32768,32768,32768,32768] -; X64-SSE2-NEXT: movdqa %xmm0, %xmm6 -; X64-SSE2-NEXT: pxor %xmm4, %xmm6 -; X64-SSE2-NEXT: movdqa %xmm2, %xmm5 -; X64-SSE2-NEXT: pxor %xmm4, %xmm5 -; X64-SSE2-NEXT: pcmpgtw %xmm6, %xmm5 -; X64-SSE2-NEXT: movdqa %xmm1, %xmm6 -; X64-SSE2-NEXT: pxor %xmm4, %xmm6 -; X64-SSE2-NEXT: movdqa %xmm3, %xmm7 -; X64-SSE2-NEXT: pxor %xmm4, %xmm7 -; X64-SSE2-NEXT: pcmpgtw %xmm6, %xmm7 -; X64-SSE2-NEXT: pand %xmm7, %xmm1 -; X64-SSE2-NEXT: pandn %xmm3, %xmm7 -; X64-SSE2-NEXT: por %xmm1, %xmm7 -; X64-SSE2-NEXT: pand %xmm5, %xmm0 -; X64-SSE2-NEXT: pandn %xmm2, %xmm5 -; X64-SSE2-NEXT: por %xmm0, %xmm5 -; X64-SSE2-NEXT: movdqa %xmm5, %xmm0 -; X64-SSE2-NEXT: pxor %xmm4, %xmm0 -; X64-SSE2-NEXT: movdqa %xmm7, %xmm1 -; X64-SSE2-NEXT: pxor %xmm4, %xmm1 -; X64-SSE2-NEXT: pcmpgtw %xmm0, %xmm1 -; X64-SSE2-NEXT: pand %xmm1, %xmm5 -; X64-SSE2-NEXT: pandn %xmm7, %xmm1 -; X64-SSE2-NEXT: por %xmm5, %xmm1 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1] -; X64-SSE2-NEXT: movdqa %xmm1, %xmm2 ; X64-SSE2-NEXT: pxor %xmm4, %xmm2 -; X64-SSE2-NEXT: movdqa %xmm0, %xmm3 +; X64-SSE2-NEXT: pxor %xmm4, %xmm0 +; X64-SSE2-NEXT: pminsw %xmm2, %xmm0 ; X64-SSE2-NEXT: pxor %xmm4, %xmm3 -; X64-SSE2-NEXT: pcmpgtw %xmm2, %xmm3 -; X64-SSE2-NEXT: pand %xmm3, %xmm1 -; X64-SSE2-NEXT: pandn %xmm0, %xmm3 -; X64-SSE2-NEXT: por %xmm1, %xmm3 -; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3] -; X64-SSE2-NEXT: movdqa %xmm3, %xmm1 ; X64-SSE2-NEXT: pxor %xmm4, %xmm1 -; X64-SSE2-NEXT: movdqa %xmm0, %xmm2 +; X64-SSE2-NEXT: pminsw %xmm3, %xmm1 +; X64-SSE2-NEXT: movdqa %xmm4, %xmm2 ; X64-SSE2-NEXT: pxor %xmm4, %xmm2 -; X64-SSE2-NEXT: pcmpgtw %xmm1, %xmm2 -; X64-SSE2-NEXT: pand %xmm2, %xmm3 -; X64-SSE2-NEXT: pandn %xmm0, %xmm2 -; X64-SSE2-NEXT: por %xmm3, %xmm2 -; X64-SSE2-NEXT: movdqa %xmm2, %xmm0 +; X64-SSE2-NEXT: pxor %xmm2, %xmm1 +; X64-SSE2-NEXT: pxor %xmm0, %xmm2 +; X64-SSE2-NEXT: pminsw %xmm1, %xmm2 +; X64-SSE2-NEXT: pxor %xmm4, %xmm2 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1] +; X64-SSE2-NEXT: pxor %xmm4, %xmm2 +; X64-SSE2-NEXT: pxor %xmm4, %xmm0 +; X64-SSE2-NEXT: pminsw %xmm2, %xmm0 +; X64-SSE2-NEXT: pxor %xmm4, %xmm0 +; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3] +; X64-SSE2-NEXT: pxor %xmm4, %xmm0 +; X64-SSE2-NEXT: pxor %xmm4, %xmm1 +; X64-SSE2-NEXT: pminsw %xmm0, %xmm1 +; X64-SSE2-NEXT: pxor %xmm4, %xmm1 +; X64-SSE2-NEXT: movdqa %xmm1, %xmm0 ; X64-SSE2-NEXT: psrld $16, %xmm0 -; X64-SSE2-NEXT: movdqa %xmm2, %xmm1 ; X64-SSE2-NEXT: pxor %xmm4, %xmm1 -; X64-SSE2-NEXT: pxor %xmm0, %xmm4 -; X64-SSE2-NEXT: pcmpgtw %xmm1, %xmm4 -; X64-SSE2-NEXT: pand %xmm4, %xmm2 -; X64-SSE2-NEXT: pandn %xmm0, %xmm4 -; X64-SSE2-NEXT: por %xmm2, %xmm4 -; X64-SSE2-NEXT: movd %xmm4, %eax +; X64-SSE2-NEXT: pxor %xmm4, %xmm0 +; X64-SSE2-NEXT: pminsw %xmm1, %xmm0 +; X64-SSE2-NEXT: pxor %xmm4, %xmm0 +; X64-SSE2-NEXT: movd %xmm0, %eax ; X64-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax ; X64-SSE2-NEXT: retq ; |

