summaryrefslogtreecommitdiffstats
path: root/llvm/test/CodeGen/X86/horizontal-reduce-umax.ll
diff options
context:
space:
mode:
Diffstat (limited to 'llvm/test/CodeGen/X86/horizontal-reduce-umax.ll')
-rw-r--r--llvm/test/CodeGen/X86/horizontal-reduce-umax.ll613
1 files changed, 252 insertions, 361 deletions
diff --git a/llvm/test/CodeGen/X86/horizontal-reduce-umax.ll b/llvm/test/CodeGen/X86/horizontal-reduce-umax.ll
index 9f8d07ac37a..fe8612bdc45 100644
--- a/llvm/test/CodeGen/X86/horizontal-reduce-umax.ll
+++ b/llvm/test/CodeGen/X86/horizontal-reduce-umax.ll
@@ -225,35 +225,24 @@ define i32 @test_reduce_v4i32(<4 x i32> %a0) {
define i16 @test_reduce_v8i16(<8 x i16> %a0) {
; X86-SSE2-LABEL: test_reduce_v8i16:
; X86-SSE2: ## %bb.0:
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
-; X86-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm3
-; X86-SSE2-NEXT: pxor %xmm1, %xmm3
-; X86-SSE2-NEXT: movdqa %xmm2, %xmm4
-; X86-SSE2-NEXT: pxor %xmm1, %xmm4
-; X86-SSE2-NEXT: pcmpgtw %xmm4, %xmm3
-; X86-SSE2-NEXT: pand %xmm3, %xmm0
-; X86-SSE2-NEXT: pandn %xmm2, %xmm3
-; X86-SSE2-NEXT: por %xmm0, %xmm3
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]
-; X86-SSE2-NEXT: movdqa %xmm3, %xmm2
-; X86-SSE2-NEXT: pxor %xmm1, %xmm2
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm4
-; X86-SSE2-NEXT: pxor %xmm1, %xmm4
-; X86-SSE2-NEXT: pcmpgtw %xmm4, %xmm2
-; X86-SSE2-NEXT: pand %xmm2, %xmm3
-; X86-SSE2-NEXT: pandn %xmm0, %xmm2
-; X86-SSE2-NEXT: por %xmm3, %xmm2
-; X86-SSE2-NEXT: movdqa %xmm2, %xmm0
-; X86-SSE2-NEXT: psrld $16, %xmm0
-; X86-SSE2-NEXT: movdqa %xmm2, %xmm3
-; X86-SSE2-NEXT: pxor %xmm1, %xmm3
-; X86-SSE2-NEXT: pxor %xmm0, %xmm1
-; X86-SSE2-NEXT: pcmpgtw %xmm1, %xmm3
-; X86-SSE2-NEXT: pand %xmm3, %xmm2
-; X86-SSE2-NEXT: pandn %xmm0, %xmm3
-; X86-SSE2-NEXT: por %xmm2, %xmm3
-; X86-SSE2-NEXT: movd %xmm3, %eax
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
+; X86-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
+; X86-SSE2-NEXT: pmaxsw %xmm0, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: pmaxsw %xmm1, %xmm0
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: movdqa %xmm0, %xmm1
+; X86-SSE2-NEXT: psrld $16, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
+; X86-SSE2-NEXT: pmaxsw %xmm0, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
+; X86-SSE2-NEXT: movd %xmm1, %eax
; X86-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax
; X86-SSE2-NEXT: retl
;
@@ -279,35 +268,24 @@ define i16 @test_reduce_v8i16(<8 x i16> %a0) {
;
; X64-SSE2-LABEL: test_reduce_v8i16:
; X64-SSE2: ## %bb.0:
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
-; X64-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm3
-; X64-SSE2-NEXT: pxor %xmm1, %xmm3
-; X64-SSE2-NEXT: movdqa %xmm2, %xmm4
-; X64-SSE2-NEXT: pxor %xmm1, %xmm4
-; X64-SSE2-NEXT: pcmpgtw %xmm4, %xmm3
-; X64-SSE2-NEXT: pand %xmm3, %xmm0
-; X64-SSE2-NEXT: pandn %xmm2, %xmm3
-; X64-SSE2-NEXT: por %xmm0, %xmm3
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]
-; X64-SSE2-NEXT: movdqa %xmm3, %xmm2
-; X64-SSE2-NEXT: pxor %xmm1, %xmm2
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm4
-; X64-SSE2-NEXT: pxor %xmm1, %xmm4
-; X64-SSE2-NEXT: pcmpgtw %xmm4, %xmm2
-; X64-SSE2-NEXT: pand %xmm2, %xmm3
-; X64-SSE2-NEXT: pandn %xmm0, %xmm2
-; X64-SSE2-NEXT: por %xmm3, %xmm2
-; X64-SSE2-NEXT: movdqa %xmm2, %xmm0
-; X64-SSE2-NEXT: psrld $16, %xmm0
-; X64-SSE2-NEXT: movdqa %xmm2, %xmm3
-; X64-SSE2-NEXT: pxor %xmm1, %xmm3
-; X64-SSE2-NEXT: pxor %xmm0, %xmm1
-; X64-SSE2-NEXT: pcmpgtw %xmm1, %xmm3
-; X64-SSE2-NEXT: pand %xmm3, %xmm2
-; X64-SSE2-NEXT: pandn %xmm0, %xmm3
-; X64-SSE2-NEXT: por %xmm2, %xmm3
-; X64-SSE2-NEXT: movd %xmm3, %eax
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
+; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
+; X64-SSE2-NEXT: pmaxsw %xmm0, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: pmaxsw %xmm1, %xmm0
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: movdqa %xmm0, %xmm1
+; X64-SSE2-NEXT: psrld $16, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
+; X64-SSE2-NEXT: pmaxsw %xmm0, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
+; X64-SSE2-NEXT: movd %xmm1, %eax
; X64-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax
; X64-SSE2-NEXT: retq
;
@@ -859,41 +837,26 @@ define i16 @test_reduce_v16i16(<16 x i16> %a0) {
; X86-SSE2-LABEL: test_reduce_v16i16:
; X86-SSE2: ## %bb.0:
; X86-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
-; X86-SSE2-NEXT: movdqa %xmm1, %xmm3
-; X86-SSE2-NEXT: pxor %xmm2, %xmm3
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm4
-; X86-SSE2-NEXT: pxor %xmm2, %xmm4
-; X86-SSE2-NEXT: pcmpgtw %xmm3, %xmm4
-; X86-SSE2-NEXT: pand %xmm4, %xmm0
-; X86-SSE2-NEXT: pandn %xmm1, %xmm4
-; X86-SSE2-NEXT: por %xmm0, %xmm4
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[2,3,0,1]
-; X86-SSE2-NEXT: movdqa %xmm4, %xmm1
; X86-SSE2-NEXT: pxor %xmm2, %xmm1
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm3
-; X86-SSE2-NEXT: pxor %xmm2, %xmm3
-; X86-SSE2-NEXT: pcmpgtw %xmm3, %xmm1
-; X86-SSE2-NEXT: pand %xmm1, %xmm4
-; X86-SSE2-NEXT: pandn %xmm0, %xmm1
-; X86-SSE2-NEXT: por %xmm4, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: pmaxsw %xmm1, %xmm0
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
+; X86-SSE2-NEXT: pmaxsw %xmm0, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
-; X86-SSE2-NEXT: movdqa %xmm1, %xmm3
-; X86-SSE2-NEXT: pxor %xmm2, %xmm3
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm4
-; X86-SSE2-NEXT: pxor %xmm2, %xmm4
-; X86-SSE2-NEXT: pcmpgtw %xmm4, %xmm3
-; X86-SSE2-NEXT: pand %xmm3, %xmm1
-; X86-SSE2-NEXT: pandn %xmm0, %xmm3
-; X86-SSE2-NEXT: por %xmm1, %xmm3
-; X86-SSE2-NEXT: movdqa %xmm3, %xmm0
-; X86-SSE2-NEXT: psrld $16, %xmm0
-; X86-SSE2-NEXT: movdqa %xmm3, %xmm1
; X86-SSE2-NEXT: pxor %xmm2, %xmm1
-; X86-SSE2-NEXT: pxor %xmm0, %xmm2
-; X86-SSE2-NEXT: pcmpgtw %xmm2, %xmm1
-; X86-SSE2-NEXT: pand %xmm1, %xmm3
-; X86-SSE2-NEXT: pandn %xmm0, %xmm1
-; X86-SSE2-NEXT: por %xmm3, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: pmaxsw %xmm1, %xmm0
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: movdqa %xmm0, %xmm1
+; X86-SSE2-NEXT: psrld $16, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm0
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
+; X86-SSE2-NEXT: pmaxsw %xmm0, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
; X86-SSE2-NEXT: movd %xmm1, %eax
; X86-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax
; X86-SSE2-NEXT: retl
@@ -938,41 +901,26 @@ define i16 @test_reduce_v16i16(<16 x i16> %a0) {
; X64-SSE2-LABEL: test_reduce_v16i16:
; X64-SSE2: ## %bb.0:
; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
-; X64-SSE2-NEXT: movdqa %xmm1, %xmm3
-; X64-SSE2-NEXT: pxor %xmm2, %xmm3
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm4
-; X64-SSE2-NEXT: pxor %xmm2, %xmm4
-; X64-SSE2-NEXT: pcmpgtw %xmm3, %xmm4
-; X64-SSE2-NEXT: pand %xmm4, %xmm0
-; X64-SSE2-NEXT: pandn %xmm1, %xmm4
-; X64-SSE2-NEXT: por %xmm0, %xmm4
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[2,3,0,1]
-; X64-SSE2-NEXT: movdqa %xmm4, %xmm1
; X64-SSE2-NEXT: pxor %xmm2, %xmm1
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm3
-; X64-SSE2-NEXT: pxor %xmm2, %xmm3
-; X64-SSE2-NEXT: pcmpgtw %xmm3, %xmm1
-; X64-SSE2-NEXT: pand %xmm1, %xmm4
-; X64-SSE2-NEXT: pandn %xmm0, %xmm1
-; X64-SSE2-NEXT: por %xmm4, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: pmaxsw %xmm1, %xmm0
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
+; X64-SSE2-NEXT: pmaxsw %xmm0, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
-; X64-SSE2-NEXT: movdqa %xmm1, %xmm3
-; X64-SSE2-NEXT: pxor %xmm2, %xmm3
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm4
-; X64-SSE2-NEXT: pxor %xmm2, %xmm4
-; X64-SSE2-NEXT: pcmpgtw %xmm4, %xmm3
-; X64-SSE2-NEXT: pand %xmm3, %xmm1
-; X64-SSE2-NEXT: pandn %xmm0, %xmm3
-; X64-SSE2-NEXT: por %xmm1, %xmm3
-; X64-SSE2-NEXT: movdqa %xmm3, %xmm0
-; X64-SSE2-NEXT: psrld $16, %xmm0
-; X64-SSE2-NEXT: movdqa %xmm3, %xmm1
; X64-SSE2-NEXT: pxor %xmm2, %xmm1
-; X64-SSE2-NEXT: pxor %xmm0, %xmm2
-; X64-SSE2-NEXT: pcmpgtw %xmm2, %xmm1
-; X64-SSE2-NEXT: pand %xmm1, %xmm3
-; X64-SSE2-NEXT: pandn %xmm0, %xmm1
-; X64-SSE2-NEXT: por %xmm3, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: pmaxsw %xmm1, %xmm0
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: movdqa %xmm0, %xmm1
+; X64-SSE2-NEXT: psrld $16, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm0
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
+; X64-SSE2-NEXT: pmaxsw %xmm0, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
; X64-SSE2-NEXT: movd %xmm1, %eax
; X64-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax
; X64-SSE2-NEXT: retq
@@ -1203,16 +1151,10 @@ define i8 @test_reduce_v32i8(<32 x i8> %a0) {
define i64 @test_reduce_v8i64(<8 x i64> %a0) {
; X86-SSE2-LABEL: test_reduce_v8i64:
; X86-SSE2: ## %bb.0:
-; X86-SSE2-NEXT: subl $28, %esp
-; X86-SSE2-NEXT: .cfi_def_cfa_offset 32
-; X86-SSE2-NEXT: movdqa %xmm3, %xmm5
-; X86-SSE2-NEXT: movdqa %xmm3, (%esp) ## 16-byte Spill
-; X86-SSE2-NEXT: movdqa %xmm2, %xmm3
-; X86-SSE2-NEXT: movdqa %xmm1, %xmm2
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm1
; X86-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
+; X86-SSE2-NEXT: movdqa %xmm2, %xmm5
; X86-SSE2-NEXT: pxor %xmm4, %xmm5
-; X86-SSE2-NEXT: movdqa %xmm2, %xmm6
+; X86-SSE2-NEXT: movdqa %xmm0, %xmm6
; X86-SSE2-NEXT: pxor %xmm4, %xmm6
; X86-SSE2-NEXT: movdqa %xmm6, %xmm7
; X86-SSE2-NEXT: pcmpgtd %xmm5, %xmm7
@@ -1222,43 +1164,43 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) {
; X86-SSE2-NEXT: pand %xmm5, %xmm6
; X86-SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]
; X86-SSE2-NEXT: por %xmm6, %xmm5
-; X86-SSE2-NEXT: movdqa %xmm3, %xmm6
-; X86-SSE2-NEXT: pxor %xmm4, %xmm6
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm7
-; X86-SSE2-NEXT: pxor %xmm4, %xmm7
-; X86-SSE2-NEXT: movdqa %xmm7, %xmm0
-; X86-SSE2-NEXT: pcmpgtd %xmm6, %xmm0
-; X86-SSE2-NEXT: pcmpeqd %xmm6, %xmm7
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,0,2,2]
-; X86-SSE2-NEXT: pand %xmm6, %xmm7
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]
-; X86-SSE2-NEXT: por %xmm7, %xmm6
-; X86-SSE2-NEXT: pand %xmm6, %xmm1
-; X86-SSE2-NEXT: pandn %xmm3, %xmm6
-; X86-SSE2-NEXT: por %xmm1, %xmm6
-; X86-SSE2-NEXT: pand %xmm5, %xmm2
-; X86-SSE2-NEXT: pandn (%esp), %xmm5 ## 16-byte Folded Reload
-; X86-SSE2-NEXT: por %xmm2, %xmm5
-; X86-SSE2-NEXT: movdqa %xmm5, %xmm0
+; X86-SSE2-NEXT: pand %xmm5, %xmm0
+; X86-SSE2-NEXT: pandn %xmm2, %xmm5
+; X86-SSE2-NEXT: por %xmm0, %xmm5
+; X86-SSE2-NEXT: movdqa %xmm3, %xmm0
; X86-SSE2-NEXT: pxor %xmm4, %xmm0
-; X86-SSE2-NEXT: movdqa %xmm6, %xmm1
-; X86-SSE2-NEXT: pxor %xmm4, %xmm1
; X86-SSE2-NEXT: movdqa %xmm1, %xmm2
-; X86-SSE2-NEXT: pcmpgtd %xmm0, %xmm2
-; X86-SSE2-NEXT: pcmpeqd %xmm0, %xmm1
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
+; X86-SSE2-NEXT: pxor %xmm4, %xmm2
+; X86-SSE2-NEXT: movdqa %xmm2, %xmm6
+; X86-SSE2-NEXT: pcmpgtd %xmm0, %xmm6
+; X86-SSE2-NEXT: pcmpeqd %xmm0, %xmm2
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
+; X86-SSE2-NEXT: pand %xmm0, %xmm2
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
+; X86-SSE2-NEXT: por %xmm2, %xmm0
; X86-SSE2-NEXT: pand %xmm0, %xmm1
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]
+; X86-SSE2-NEXT: pandn %xmm3, %xmm0
; X86-SSE2-NEXT: por %xmm1, %xmm0
-; X86-SSE2-NEXT: pand %xmm0, %xmm6
-; X86-SSE2-NEXT: pandn %xmm5, %xmm0
-; X86-SSE2-NEXT: por %xmm6, %xmm0
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm2
+; X86-SSE2-NEXT: movdqa %xmm0, %xmm1
+; X86-SSE2-NEXT: pxor %xmm4, %xmm1
+; X86-SSE2-NEXT: movdqa %xmm5, %xmm2
; X86-SSE2-NEXT: pxor %xmm4, %xmm2
-; X86-SSE2-NEXT: pxor %xmm1, %xmm4
+; X86-SSE2-NEXT: movdqa %xmm2, %xmm3
+; X86-SSE2-NEXT: pcmpgtd %xmm1, %xmm3
+; X86-SSE2-NEXT: pcmpeqd %xmm1, %xmm2
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,0,2,2]
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
+; X86-SSE2-NEXT: pand %xmm1, %xmm2
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
+; X86-SSE2-NEXT: por %xmm2, %xmm1
+; X86-SSE2-NEXT: pand %xmm1, %xmm5
+; X86-SSE2-NEXT: pandn %xmm0, %xmm1
+; X86-SSE2-NEXT: por %xmm5, %xmm1
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
+; X86-SSE2-NEXT: movdqa %xmm1, %xmm2
+; X86-SSE2-NEXT: pxor %xmm4, %xmm2
+; X86-SSE2-NEXT: pxor %xmm0, %xmm4
; X86-SSE2-NEXT: movdqa %xmm2, %xmm3
; X86-SSE2-NEXT: pcmpgtd %xmm4, %xmm3
; X86-SSE2-NEXT: pcmpeqd %xmm2, %xmm4
@@ -1267,43 +1209,40 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) {
; X86-SSE2-NEXT: pand %xmm2, %xmm4
; X86-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
; X86-SSE2-NEXT: por %xmm4, %xmm2
-; X86-SSE2-NEXT: pand %xmm2, %xmm0
-; X86-SSE2-NEXT: pandn %xmm1, %xmm2
-; X86-SSE2-NEXT: por %xmm0, %xmm2
+; X86-SSE2-NEXT: pand %xmm2, %xmm1
+; X86-SSE2-NEXT: pandn %xmm0, %xmm2
+; X86-SSE2-NEXT: por %xmm1, %xmm2
; X86-SSE2-NEXT: movd %xmm2, %eax
; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]
; X86-SSE2-NEXT: movd %xmm0, %edx
-; X86-SSE2-NEXT: addl $28, %esp
; X86-SSE2-NEXT: retl
;
; X86-SSE42-LABEL: test_reduce_v8i64:
; X86-SSE42: ## %bb.0:
; X86-SSE42-NEXT: movdqa %xmm0, %xmm4
-; X86-SSE42-NEXT: movdqa {{.*#+}} xmm6 = [0,2147483648,0,2147483648]
-; X86-SSE42-NEXT: movdqa %xmm3, %xmm0
-; X86-SSE42-NEXT: pxor %xmm6, %xmm0
-; X86-SSE42-NEXT: movdqa %xmm1, %xmm5
-; X86-SSE42-NEXT: pxor %xmm6, %xmm5
-; X86-SSE42-NEXT: pcmpgtq %xmm0, %xmm5
-; X86-SSE42-NEXT: movdqa %xmm2, %xmm7
-; X86-SSE42-NEXT: pxor %xmm6, %xmm7
-; X86-SSE42-NEXT: movdqa %xmm4, %xmm0
-; X86-SSE42-NEXT: pxor %xmm6, %xmm0
-; X86-SSE42-NEXT: pcmpgtq %xmm7, %xmm0
+; X86-SSE42-NEXT: movdqa {{.*#+}} xmm5 = [0,2147483648,0,2147483648]
+; X86-SSE42-NEXT: movdqa %xmm2, %xmm6
+; X86-SSE42-NEXT: pxor %xmm5, %xmm6
+; X86-SSE42-NEXT: pxor %xmm5, %xmm0
+; X86-SSE42-NEXT: pcmpgtq %xmm6, %xmm0
; X86-SSE42-NEXT: blendvpd %xmm0, %xmm4, %xmm2
-; X86-SSE42-NEXT: movdqa %xmm5, %xmm0
+; X86-SSE42-NEXT: movdqa %xmm3, %xmm4
+; X86-SSE42-NEXT: pxor %xmm5, %xmm4
+; X86-SSE42-NEXT: movdqa %xmm1, %xmm0
+; X86-SSE42-NEXT: pxor %xmm5, %xmm0
+; X86-SSE42-NEXT: pcmpgtq %xmm4, %xmm0
; X86-SSE42-NEXT: blendvpd %xmm0, %xmm1, %xmm3
; X86-SSE42-NEXT: movapd %xmm3, %xmm1
-; X86-SSE42-NEXT: xorpd %xmm6, %xmm1
+; X86-SSE42-NEXT: xorpd %xmm5, %xmm1
; X86-SSE42-NEXT: movapd %xmm2, %xmm0
-; X86-SSE42-NEXT: xorpd %xmm6, %xmm0
+; X86-SSE42-NEXT: xorpd %xmm5, %xmm0
; X86-SSE42-NEXT: pcmpgtq %xmm1, %xmm0
; X86-SSE42-NEXT: blendvpd %xmm0, %xmm2, %xmm3
; X86-SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
; X86-SSE42-NEXT: movdqa %xmm3, %xmm0
-; X86-SSE42-NEXT: pxor %xmm6, %xmm0
-; X86-SSE42-NEXT: pxor %xmm1, %xmm6
-; X86-SSE42-NEXT: pcmpgtq %xmm6, %xmm0
+; X86-SSE42-NEXT: pxor %xmm5, %xmm0
+; X86-SSE42-NEXT: pxor %xmm1, %xmm5
+; X86-SSE42-NEXT: pcmpgtq %xmm5, %xmm0
; X86-SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1
; X86-SSE42-NEXT: movd %xmm1, %eax
; X86-SSE42-NEXT: pextrd $1, %xmm1, %edx
@@ -1368,9 +1307,9 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) {
; X64-SSE2-LABEL: test_reduce_v8i64:
; X64-SSE2: ## %bb.0:
; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
-; X64-SSE2-NEXT: movdqa %xmm3, %xmm5
+; X64-SSE2-NEXT: movdqa %xmm2, %xmm5
; X64-SSE2-NEXT: pxor %xmm4, %xmm5
-; X64-SSE2-NEXT: movdqa %xmm1, %xmm6
+; X64-SSE2-NEXT: movdqa %xmm0, %xmm6
; X64-SSE2-NEXT: pxor %xmm4, %xmm6
; X64-SSE2-NEXT: movdqa %xmm6, %xmm7
; X64-SSE2-NEXT: pcmpgtd %xmm5, %xmm7
@@ -1378,41 +1317,41 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) {
; X64-SSE2-NEXT: pcmpeqd %xmm5, %xmm6
; X64-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
; X64-SSE2-NEXT: pand %xmm8, %xmm6
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm7[1,1,3,3]
-; X64-SSE2-NEXT: por %xmm6, %xmm8
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]
+; X64-SSE2-NEXT: por %xmm6, %xmm5
+; X64-SSE2-NEXT: pand %xmm5, %xmm0
+; X64-SSE2-NEXT: pandn %xmm2, %xmm5
+; X64-SSE2-NEXT: por %xmm0, %xmm5
+; X64-SSE2-NEXT: movdqa %xmm3, %xmm0
+; X64-SSE2-NEXT: pxor %xmm4, %xmm0
+; X64-SSE2-NEXT: movdqa %xmm1, %xmm2
+; X64-SSE2-NEXT: pxor %xmm4, %xmm2
; X64-SSE2-NEXT: movdqa %xmm2, %xmm6
-; X64-SSE2-NEXT: pxor %xmm4, %xmm6
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm7
-; X64-SSE2-NEXT: pxor %xmm4, %xmm7
-; X64-SSE2-NEXT: movdqa %xmm7, %xmm5
-; X64-SSE2-NEXT: pcmpgtd %xmm6, %xmm5
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
-; X64-SSE2-NEXT: pcmpeqd %xmm6, %xmm7
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
-; X64-SSE2-NEXT: pand %xmm9, %xmm7
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]
-; X64-SSE2-NEXT: por %xmm7, %xmm6
-; X64-SSE2-NEXT: pand %xmm6, %xmm0
-; X64-SSE2-NEXT: pandn %xmm2, %xmm6
-; X64-SSE2-NEXT: por %xmm0, %xmm6
-; X64-SSE2-NEXT: pand %xmm8, %xmm1
-; X64-SSE2-NEXT: pandn %xmm3, %xmm8
-; X64-SSE2-NEXT: por %xmm1, %xmm8
-; X64-SSE2-NEXT: movdqa %xmm8, %xmm0
+; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm6
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
+; X64-SSE2-NEXT: pcmpeqd %xmm0, %xmm2
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]
+; X64-SSE2-NEXT: pand %xmm7, %xmm0
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm6[1,1,3,3]
+; X64-SSE2-NEXT: por %xmm0, %xmm2
+; X64-SSE2-NEXT: pand %xmm2, %xmm1
+; X64-SSE2-NEXT: pandn %xmm3, %xmm2
+; X64-SSE2-NEXT: por %xmm1, %xmm2
+; X64-SSE2-NEXT: movdqa %xmm2, %xmm0
; X64-SSE2-NEXT: pxor %xmm4, %xmm0
-; X64-SSE2-NEXT: movdqa %xmm6, %xmm1
+; X64-SSE2-NEXT: movdqa %xmm5, %xmm1
; X64-SSE2-NEXT: pxor %xmm4, %xmm1
-; X64-SSE2-NEXT: movdqa %xmm1, %xmm2
-; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm2
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
+; X64-SSE2-NEXT: movdqa %xmm1, %xmm3
+; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm3
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm3[0,0,2,2]
; X64-SSE2-NEXT: pcmpeqd %xmm0, %xmm1
; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
-; X64-SSE2-NEXT: pand %xmm3, %xmm0
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
+; X64-SSE2-NEXT: pand %xmm6, %xmm0
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
; X64-SSE2-NEXT: por %xmm0, %xmm1
-; X64-SSE2-NEXT: pand %xmm1, %xmm6
-; X64-SSE2-NEXT: pandn %xmm8, %xmm1
-; X64-SSE2-NEXT: por %xmm6, %xmm1
+; X64-SSE2-NEXT: pand %xmm1, %xmm5
+; X64-SSE2-NEXT: pandn %xmm2, %xmm1
+; X64-SSE2-NEXT: por %xmm5, %xmm1
; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; X64-SSE2-NEXT: movdqa %xmm1, %xmm2
; X64-SSE2-NEXT: pxor %xmm4, %xmm2
@@ -1434,31 +1373,29 @@ define i64 @test_reduce_v8i64(<8 x i64> %a0) {
; X64-SSE42-LABEL: test_reduce_v8i64:
; X64-SSE42: ## %bb.0:
; X64-SSE42-NEXT: movdqa %xmm0, %xmm4
-; X64-SSE42-NEXT: movdqa {{.*#+}} xmm6 = [9223372036854775808,9223372036854775808]
-; X64-SSE42-NEXT: movdqa %xmm3, %xmm0
-; X64-SSE42-NEXT: pxor %xmm6, %xmm0
-; X64-SSE42-NEXT: movdqa %xmm1, %xmm5
-; X64-SSE42-NEXT: pxor %xmm6, %xmm5
-; X64-SSE42-NEXT: pcmpgtq %xmm0, %xmm5
-; X64-SSE42-NEXT: movdqa %xmm2, %xmm7
-; X64-SSE42-NEXT: pxor %xmm6, %xmm7
-; X64-SSE42-NEXT: movdqa %xmm4, %xmm0
-; X64-SSE42-NEXT: pxor %xmm6, %xmm0
-; X64-SSE42-NEXT: pcmpgtq %xmm7, %xmm0
+; X64-SSE42-NEXT: movdqa {{.*#+}} xmm5 = [9223372036854775808,9223372036854775808]
+; X64-SSE42-NEXT: movdqa %xmm2, %xmm6
+; X64-SSE42-NEXT: pxor %xmm5, %xmm6
+; X64-SSE42-NEXT: pxor %xmm5, %xmm0
+; X64-SSE42-NEXT: pcmpgtq %xmm6, %xmm0
; X64-SSE42-NEXT: blendvpd %xmm0, %xmm4, %xmm2
-; X64-SSE42-NEXT: movdqa %xmm5, %xmm0
+; X64-SSE42-NEXT: movdqa %xmm3, %xmm4
+; X64-SSE42-NEXT: pxor %xmm5, %xmm4
+; X64-SSE42-NEXT: movdqa %xmm1, %xmm0
+; X64-SSE42-NEXT: pxor %xmm5, %xmm0
+; X64-SSE42-NEXT: pcmpgtq %xmm4, %xmm0
; X64-SSE42-NEXT: blendvpd %xmm0, %xmm1, %xmm3
; X64-SSE42-NEXT: movapd %xmm3, %xmm1
-; X64-SSE42-NEXT: xorpd %xmm6, %xmm1
+; X64-SSE42-NEXT: xorpd %xmm5, %xmm1
; X64-SSE42-NEXT: movapd %xmm2, %xmm0
-; X64-SSE42-NEXT: xorpd %xmm6, %xmm0
+; X64-SSE42-NEXT: xorpd %xmm5, %xmm0
; X64-SSE42-NEXT: pcmpgtq %xmm1, %xmm0
; X64-SSE42-NEXT: blendvpd %xmm0, %xmm2, %xmm3
; X64-SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
; X64-SSE42-NEXT: movdqa %xmm3, %xmm0
-; X64-SSE42-NEXT: pxor %xmm6, %xmm0
-; X64-SSE42-NEXT: pxor %xmm1, %xmm6
-; X64-SSE42-NEXT: pcmpgtq %xmm6, %xmm0
+; X64-SSE42-NEXT: pxor %xmm5, %xmm0
+; X64-SSE42-NEXT: pxor %xmm1, %xmm5
+; X64-SSE42-NEXT: pcmpgtq %xmm5, %xmm0
; X64-SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1
; X64-SSE42-NEXT: movq %xmm1, %rax
; X64-SSE42-NEXT: retq
@@ -1545,30 +1482,30 @@ define i32 @test_reduce_v16i32(<16 x i32> %a0) {
; X86-SSE2-LABEL: test_reduce_v16i32:
; X86-SSE2: ## %bb.0:
; X86-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
-; X86-SSE2-NEXT: movdqa %xmm3, %xmm5
-; X86-SSE2-NEXT: pxor %xmm4, %xmm5
-; X86-SSE2-NEXT: movdqa %xmm1, %xmm6
+; X86-SSE2-NEXT: movdqa %xmm2, %xmm6
; X86-SSE2-NEXT: pxor %xmm4, %xmm6
-; X86-SSE2-NEXT: pcmpgtd %xmm5, %xmm6
-; X86-SSE2-NEXT: movdqa %xmm2, %xmm5
+; X86-SSE2-NEXT: movdqa %xmm0, %xmm5
; X86-SSE2-NEXT: pxor %xmm4, %xmm5
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm7
-; X86-SSE2-NEXT: pxor %xmm4, %xmm7
-; X86-SSE2-NEXT: pcmpgtd %xmm5, %xmm7
-; X86-SSE2-NEXT: pand %xmm7, %xmm0
-; X86-SSE2-NEXT: pandn %xmm2, %xmm7
-; X86-SSE2-NEXT: por %xmm0, %xmm7
-; X86-SSE2-NEXT: pand %xmm6, %xmm1
-; X86-SSE2-NEXT: pandn %xmm3, %xmm6
-; X86-SSE2-NEXT: por %xmm1, %xmm6
-; X86-SSE2-NEXT: movdqa %xmm6, %xmm0
+; X86-SSE2-NEXT: pcmpgtd %xmm6, %xmm5
+; X86-SSE2-NEXT: pand %xmm5, %xmm0
+; X86-SSE2-NEXT: pandn %xmm2, %xmm5
+; X86-SSE2-NEXT: por %xmm0, %xmm5
+; X86-SSE2-NEXT: movdqa %xmm3, %xmm0
+; X86-SSE2-NEXT: pxor %xmm4, %xmm0
+; X86-SSE2-NEXT: movdqa %xmm1, %xmm2
+; X86-SSE2-NEXT: pxor %xmm4, %xmm2
+; X86-SSE2-NEXT: pcmpgtd %xmm0, %xmm2
+; X86-SSE2-NEXT: pand %xmm2, %xmm1
+; X86-SSE2-NEXT: pandn %xmm3, %xmm2
+; X86-SSE2-NEXT: por %xmm1, %xmm2
+; X86-SSE2-NEXT: movdqa %xmm2, %xmm0
; X86-SSE2-NEXT: pxor %xmm4, %xmm0
-; X86-SSE2-NEXT: movdqa %xmm7, %xmm1
+; X86-SSE2-NEXT: movdqa %xmm5, %xmm1
; X86-SSE2-NEXT: pxor %xmm4, %xmm1
; X86-SSE2-NEXT: pcmpgtd %xmm0, %xmm1
-; X86-SSE2-NEXT: pand %xmm1, %xmm7
-; X86-SSE2-NEXT: pandn %xmm6, %xmm1
-; X86-SSE2-NEXT: por %xmm7, %xmm1
+; X86-SSE2-NEXT: pand %xmm1, %xmm5
+; X86-SSE2-NEXT: pandn %xmm2, %xmm1
+; X86-SSE2-NEXT: por %xmm5, %xmm1
; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; X86-SSE2-NEXT: movdqa %xmm1, %xmm2
; X86-SSE2-NEXT: pxor %xmm4, %xmm2
@@ -1632,30 +1569,30 @@ define i32 @test_reduce_v16i32(<16 x i32> %a0) {
; X64-SSE2-LABEL: test_reduce_v16i32:
; X64-SSE2: ## %bb.0:
; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
-; X64-SSE2-NEXT: movdqa %xmm3, %xmm5
-; X64-SSE2-NEXT: pxor %xmm4, %xmm5
-; X64-SSE2-NEXT: movdqa %xmm1, %xmm6
+; X64-SSE2-NEXT: movdqa %xmm2, %xmm6
; X64-SSE2-NEXT: pxor %xmm4, %xmm6
-; X64-SSE2-NEXT: pcmpgtd %xmm5, %xmm6
-; X64-SSE2-NEXT: movdqa %xmm2, %xmm5
+; X64-SSE2-NEXT: movdqa %xmm0, %xmm5
; X64-SSE2-NEXT: pxor %xmm4, %xmm5
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm7
-; X64-SSE2-NEXT: pxor %xmm4, %xmm7
-; X64-SSE2-NEXT: pcmpgtd %xmm5, %xmm7
-; X64-SSE2-NEXT: pand %xmm7, %xmm0
-; X64-SSE2-NEXT: pandn %xmm2, %xmm7
-; X64-SSE2-NEXT: por %xmm0, %xmm7
-; X64-SSE2-NEXT: pand %xmm6, %xmm1
-; X64-SSE2-NEXT: pandn %xmm3, %xmm6
-; X64-SSE2-NEXT: por %xmm1, %xmm6
-; X64-SSE2-NEXT: movdqa %xmm6, %xmm0
+; X64-SSE2-NEXT: pcmpgtd %xmm6, %xmm5
+; X64-SSE2-NEXT: pand %xmm5, %xmm0
+; X64-SSE2-NEXT: pandn %xmm2, %xmm5
+; X64-SSE2-NEXT: por %xmm0, %xmm5
+; X64-SSE2-NEXT: movdqa %xmm3, %xmm0
; X64-SSE2-NEXT: pxor %xmm4, %xmm0
-; X64-SSE2-NEXT: movdqa %xmm7, %xmm1
+; X64-SSE2-NEXT: movdqa %xmm1, %xmm2
+; X64-SSE2-NEXT: pxor %xmm4, %xmm2
+; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm2
+; X64-SSE2-NEXT: pand %xmm2, %xmm1
+; X64-SSE2-NEXT: pandn %xmm3, %xmm2
+; X64-SSE2-NEXT: por %xmm1, %xmm2
+; X64-SSE2-NEXT: movdqa %xmm2, %xmm0
+; X64-SSE2-NEXT: pxor %xmm4, %xmm0
+; X64-SSE2-NEXT: movdqa %xmm5, %xmm1
; X64-SSE2-NEXT: pxor %xmm4, %xmm1
; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm1
-; X64-SSE2-NEXT: pand %xmm1, %xmm7
-; X64-SSE2-NEXT: pandn %xmm6, %xmm1
-; X64-SSE2-NEXT: por %xmm7, %xmm1
+; X64-SSE2-NEXT: pand %xmm1, %xmm5
+; X64-SSE2-NEXT: pandn %xmm2, %xmm1
+; X64-SSE2-NEXT: por %xmm5, %xmm1
; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; X64-SSE2-NEXT: movdqa %xmm1, %xmm2
; X64-SSE2-NEXT: pxor %xmm4, %xmm2
@@ -1749,58 +1686,35 @@ define i16 @test_reduce_v32i16(<32 x i16> %a0) {
; X86-SSE2-LABEL: test_reduce_v32i16:
; X86-SSE2: ## %bb.0:
; X86-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32768,32768,32768,32768,32768,32768,32768,32768]
-; X86-SSE2-NEXT: movdqa %xmm3, %xmm5
-; X86-SSE2-NEXT: pxor %xmm4, %xmm5
-; X86-SSE2-NEXT: movdqa %xmm1, %xmm6
-; X86-SSE2-NEXT: pxor %xmm4, %xmm6
-; X86-SSE2-NEXT: pcmpgtw %xmm5, %xmm6
-; X86-SSE2-NEXT: movdqa %xmm2, %xmm5
-; X86-SSE2-NEXT: pxor %xmm4, %xmm5
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm7
-; X86-SSE2-NEXT: pxor %xmm4, %xmm7
-; X86-SSE2-NEXT: pcmpgtw %xmm5, %xmm7
-; X86-SSE2-NEXT: pand %xmm7, %xmm0
-; X86-SSE2-NEXT: pandn %xmm2, %xmm7
-; X86-SSE2-NEXT: por %xmm0, %xmm7
-; X86-SSE2-NEXT: pand %xmm6, %xmm1
-; X86-SSE2-NEXT: pandn %xmm3, %xmm6
-; X86-SSE2-NEXT: por %xmm1, %xmm6
-; X86-SSE2-NEXT: movdqa %xmm6, %xmm0
+; X86-SSE2-NEXT: pxor %xmm4, %xmm2
; X86-SSE2-NEXT: pxor %xmm4, %xmm0
-; X86-SSE2-NEXT: movdqa %xmm7, %xmm1
+; X86-SSE2-NEXT: pmaxsw %xmm2, %xmm0
+; X86-SSE2-NEXT: pxor %xmm4, %xmm3
; X86-SSE2-NEXT: pxor %xmm4, %xmm1
-; X86-SSE2-NEXT: pcmpgtw %xmm0, %xmm1
-; X86-SSE2-NEXT: pand %xmm1, %xmm7
-; X86-SSE2-NEXT: pandn %xmm6, %xmm1
-; X86-SSE2-NEXT: por %xmm7, %xmm1
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
-; X86-SSE2-NEXT: movdqa %xmm1, %xmm2
+; X86-SSE2-NEXT: pmaxsw %xmm3, %xmm1
+; X86-SSE2-NEXT: movdqa %xmm4, %xmm2
; X86-SSE2-NEXT: pxor %xmm4, %xmm2
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm3
-; X86-SSE2-NEXT: pxor %xmm4, %xmm3
-; X86-SSE2-NEXT: pcmpgtw %xmm3, %xmm2
-; X86-SSE2-NEXT: pand %xmm2, %xmm1
-; X86-SSE2-NEXT: pandn %xmm0, %xmm2
-; X86-SSE2-NEXT: por %xmm1, %xmm2
-; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]
-; X86-SSE2-NEXT: movdqa %xmm2, %xmm1
+; X86-SSE2-NEXT: pxor %xmm2, %xmm1
+; X86-SSE2-NEXT: pxor %xmm0, %xmm2
+; X86-SSE2-NEXT: pmaxsw %xmm1, %xmm2
+; X86-SSE2-NEXT: pxor %xmm4, %xmm2
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
+; X86-SSE2-NEXT: pxor %xmm4, %xmm2
+; X86-SSE2-NEXT: pxor %xmm4, %xmm0
+; X86-SSE2-NEXT: pmaxsw %xmm2, %xmm0
+; X86-SSE2-NEXT: pxor %xmm4, %xmm0
+; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
+; X86-SSE2-NEXT: pxor %xmm4, %xmm0
+; X86-SSE2-NEXT: pxor %xmm4, %xmm1
+; X86-SSE2-NEXT: pmaxsw %xmm0, %xmm1
; X86-SSE2-NEXT: pxor %xmm4, %xmm1
-; X86-SSE2-NEXT: movdqa %xmm0, %xmm3
-; X86-SSE2-NEXT: pxor %xmm4, %xmm3
-; X86-SSE2-NEXT: pcmpgtw %xmm3, %xmm1
-; X86-SSE2-NEXT: pand %xmm1, %xmm2
-; X86-SSE2-NEXT: pandn %xmm0, %xmm1
-; X86-SSE2-NEXT: por %xmm2, %xmm1
; X86-SSE2-NEXT: movdqa %xmm1, %xmm0
; X86-SSE2-NEXT: psrld $16, %xmm0
-; X86-SSE2-NEXT: movdqa %xmm1, %xmm2
-; X86-SSE2-NEXT: pxor %xmm4, %xmm2
-; X86-SSE2-NEXT: pxor %xmm0, %xmm4
-; X86-SSE2-NEXT: pcmpgtw %xmm4, %xmm2
-; X86-SSE2-NEXT: pand %xmm2, %xmm1
-; X86-SSE2-NEXT: pandn %xmm0, %xmm2
-; X86-SSE2-NEXT: por %xmm1, %xmm2
-; X86-SSE2-NEXT: movd %xmm2, %eax
+; X86-SSE2-NEXT: pxor %xmm4, %xmm1
+; X86-SSE2-NEXT: pxor %xmm4, %xmm0
+; X86-SSE2-NEXT: pmaxsw %xmm1, %xmm0
+; X86-SSE2-NEXT: pxor %xmm4, %xmm0
+; X86-SSE2-NEXT: movd %xmm0, %eax
; X86-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax
; X86-SSE2-NEXT: retl
;
@@ -1850,58 +1764,35 @@ define i16 @test_reduce_v32i16(<32 x i16> %a0) {
; X64-SSE2-LABEL: test_reduce_v32i16:
; X64-SSE2: ## %bb.0:
; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32768,32768,32768,32768,32768,32768,32768,32768]
-; X64-SSE2-NEXT: movdqa %xmm3, %xmm5
-; X64-SSE2-NEXT: pxor %xmm4, %xmm5
-; X64-SSE2-NEXT: movdqa %xmm1, %xmm6
-; X64-SSE2-NEXT: pxor %xmm4, %xmm6
-; X64-SSE2-NEXT: pcmpgtw %xmm5, %xmm6
-; X64-SSE2-NEXT: movdqa %xmm2, %xmm5
-; X64-SSE2-NEXT: pxor %xmm4, %xmm5
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm7
-; X64-SSE2-NEXT: pxor %xmm4, %xmm7
-; X64-SSE2-NEXT: pcmpgtw %xmm5, %xmm7
-; X64-SSE2-NEXT: pand %xmm7, %xmm0
-; X64-SSE2-NEXT: pandn %xmm2, %xmm7
-; X64-SSE2-NEXT: por %xmm0, %xmm7
-; X64-SSE2-NEXT: pand %xmm6, %xmm1
-; X64-SSE2-NEXT: pandn %xmm3, %xmm6
-; X64-SSE2-NEXT: por %xmm1, %xmm6
-; X64-SSE2-NEXT: movdqa %xmm6, %xmm0
+; X64-SSE2-NEXT: pxor %xmm4, %xmm2
; X64-SSE2-NEXT: pxor %xmm4, %xmm0
-; X64-SSE2-NEXT: movdqa %xmm7, %xmm1
+; X64-SSE2-NEXT: pmaxsw %xmm2, %xmm0
+; X64-SSE2-NEXT: pxor %xmm4, %xmm3
; X64-SSE2-NEXT: pxor %xmm4, %xmm1
-; X64-SSE2-NEXT: pcmpgtw %xmm0, %xmm1
-; X64-SSE2-NEXT: pand %xmm1, %xmm7
-; X64-SSE2-NEXT: pandn %xmm6, %xmm1
-; X64-SSE2-NEXT: por %xmm7, %xmm1
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
-; X64-SSE2-NEXT: movdqa %xmm1, %xmm2
+; X64-SSE2-NEXT: pmaxsw %xmm3, %xmm1
+; X64-SSE2-NEXT: movdqa %xmm4, %xmm2
; X64-SSE2-NEXT: pxor %xmm4, %xmm2
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm3
-; X64-SSE2-NEXT: pxor %xmm4, %xmm3
-; X64-SSE2-NEXT: pcmpgtw %xmm3, %xmm2
-; X64-SSE2-NEXT: pand %xmm2, %xmm1
-; X64-SSE2-NEXT: pandn %xmm0, %xmm2
-; X64-SSE2-NEXT: por %xmm1, %xmm2
-; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]
-; X64-SSE2-NEXT: movdqa %xmm2, %xmm1
+; X64-SSE2-NEXT: pxor %xmm2, %xmm1
+; X64-SSE2-NEXT: pxor %xmm0, %xmm2
+; X64-SSE2-NEXT: pmaxsw %xmm1, %xmm2
+; X64-SSE2-NEXT: pxor %xmm4, %xmm2
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
+; X64-SSE2-NEXT: pxor %xmm4, %xmm2
+; X64-SSE2-NEXT: pxor %xmm4, %xmm0
+; X64-SSE2-NEXT: pmaxsw %xmm2, %xmm0
+; X64-SSE2-NEXT: pxor %xmm4, %xmm0
+; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
+; X64-SSE2-NEXT: pxor %xmm4, %xmm0
+; X64-SSE2-NEXT: pxor %xmm4, %xmm1
+; X64-SSE2-NEXT: pmaxsw %xmm0, %xmm1
; X64-SSE2-NEXT: pxor %xmm4, %xmm1
-; X64-SSE2-NEXT: movdqa %xmm0, %xmm3
-; X64-SSE2-NEXT: pxor %xmm4, %xmm3
-; X64-SSE2-NEXT: pcmpgtw %xmm3, %xmm1
-; X64-SSE2-NEXT: pand %xmm1, %xmm2
-; X64-SSE2-NEXT: pandn %xmm0, %xmm1
-; X64-SSE2-NEXT: por %xmm2, %xmm1
; X64-SSE2-NEXT: movdqa %xmm1, %xmm0
; X64-SSE2-NEXT: psrld $16, %xmm0
-; X64-SSE2-NEXT: movdqa %xmm1, %xmm2
-; X64-SSE2-NEXT: pxor %xmm4, %xmm2
-; X64-SSE2-NEXT: pxor %xmm0, %xmm4
-; X64-SSE2-NEXT: pcmpgtw %xmm4, %xmm2
-; X64-SSE2-NEXT: pand %xmm2, %xmm1
-; X64-SSE2-NEXT: pandn %xmm0, %xmm2
-; X64-SSE2-NEXT: por %xmm1, %xmm2
-; X64-SSE2-NEXT: movd %xmm2, %eax
+; X64-SSE2-NEXT: pxor %xmm4, %xmm1
+; X64-SSE2-NEXT: pxor %xmm4, %xmm0
+; X64-SSE2-NEXT: pmaxsw %xmm1, %xmm0
+; X64-SSE2-NEXT: pxor %xmm4, %xmm0
+; X64-SSE2-NEXT: movd %xmm0, %eax
; X64-SSE2-NEXT: ## kill: def $ax killed $ax killed $eax
; X64-SSE2-NEXT: retq
;
OpenPOWER on IntegriCloud