[X86][SSE] Use PMADDWD for v4i32 multiplies with 17 or more leading zeros

If there are 17 or more leading zeros to the v4i32 elements, then we can use PMADD for the integer multiply when PMULLD is unavailable or slow. The 17 bits need to be zero as the PMADDWD performs a v8i16 signed-mul-extend + pairwise-add - the upper 16 so we're adding a zero pair and the 17th bit so we don't incorrectly sign extend. Differential Revision: https://reviews.llvm.org/D41484 llvm-svn: 321516
author: Simon Pilgrim <llvm-dev@redking.me.uk> 2017-12-28 10:05:49 +0000
committer: Simon Pilgrim <llvm-dev@redking.me.uk> 2017-12-28 10:05:49 +0000
commit: 62411e4d4f704d6021f1d3a7444a64c9fd4b3b82 (patch)
tree: 35e4acc5f5faf4bcc64d805b9ff4c79b8ad730f9 /llvm/lib/Target
parent: 472689a159e6e2d455724d28eef35554daa6667b (diff)
download: bcm5719-llvm-62411e4d4f704d6021f1d3a7444a64c9fd4b3b82.tar.gz
bcm5719-llvm-62411e4d4f704d6021f1d3a7444a64c9fd4b3b82.zip
1 files changed, 14 insertions, 0 deletions
diff --git a/llvm/lib/Target/X86/X86ISelLowering.cpp b/llvm/lib/Target/X86/X86ISelLowering.cpp
index ad2d4b55bda..ba3b02e25a9 100644
--- a/llvm/lib/Target/X86/X86ISelLowering.cpp
+++ b/llvm/lib/Target/X86/X86ISelLowering.cpp
@@ -22086,6 +22086,13 @@ static SDValue LowerMUL(SDValue Op, const X86Subtarget &Subtarget,
     assert(Subtarget.hasSSE2() && !Subtarget.hasSSE41() &&
            "Should not custom lower when pmulld is available!");
 
+    // If the upper 17 bits of each element are zero then we can use PMADD.
+    APInt Mask17 = APInt::getHighBitsSet(32, 17);
+    if (DAG.MaskedValueIsZero(A, Mask17) && DAG.MaskedValueIsZero(B, Mask17))
+      return DAG.getNode(X86ISD::VPMADDWD, dl, VT,
+                         DAG.getBitcast(MVT::v8i16, A),
+                         DAG.getBitcast(MVT::v8i16, B));
+
     // Extract the odd parts.
     static const int UnpackMask[] = { 1, -1, 3, -1 };
     SDValue Aodds = DAG.getVectorShuffle(VT, dl, A, A, UnpackMask);
@@ -32259,6 +32266,13 @@ static SDValue reduceVMULWidth(SDNode *N, SelectionDAG &DAG,
   if ((NumElts % 2) != 0)
     return SDValue();
 
+  // If the upper 17 bits of each element are zero then we can use PMADD.
+  APInt Mask17 = APInt::getHighBitsSet(32, 17);
+  if (VT == MVT::v4i32 && DAG.MaskedValueIsZero(N0, Mask17) &&
+      DAG.MaskedValueIsZero(N1, Mask17))
+    return DAG.getNode(X86ISD::VPMADDWD, DL, VT, DAG.getBitcast(MVT::v8i16, N0),
+                       DAG.getBitcast(MVT::v8i16, N1));
+
   unsigned RegSize = 128;
   MVT OpsVT = MVT::getVectorVT(MVT::i16, RegSize / 16);
   EVT ReducedVT = EVT::getVectorVT(*DAG.getContext(), MVT::i16, NumElts);
author	Simon Pilgrim <llvm-dev@redking.me.uk>	2017-12-28 10:05:49 +0000
committer	Simon Pilgrim <llvm-dev@redking.me.uk>	2017-12-28 10:05:49 +0000
commit	62411e4d4f704d6021f1d3a7444a64c9fd4b3b82 (patch)
tree	35e4acc5f5faf4bcc64d805b9ff4c79b8ad730f9 /llvm/lib/Target
parent	472689a159e6e2d455724d28eef35554daa6667b (diff)
download	bcm5719-llvm-62411e4d4f704d6021f1d3a7444a64c9fd4b3b82.tar.gz bcm5719-llvm-62411e4d4f704d6021f1d3a7444a64c9fd4b3b82.zip