LLVM: lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp Source File

//===- AMDGPULegalizerInfo.cpp -----------------------------------*- C++ -*-==//

//

// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

// See https://llvm.org/LICENSE.txt for license information.

// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

//

//===----------------------------------------------------------------------===//

/// \file

/// This file implements the targeting of the Machinelegalizer class for

/// AMDGPU.

/// \todo This should be generated by TableGen.

//===----------------------------------------------------------------------===//


#include "AMDGPULegalizerInfo.h"


#include "AMDGPU.h"

#include "AMDGPUGlobalISelUtils.h"

#include "AMDGPUInstrInfo.h"

#include "AMDGPUMemoryUtils.h"

#include "AMDGPUTargetMachine.h"

#include "MCTargetDesc/AMDGPUMCTargetDesc.h"

#include "SIInstrInfo.h"

#include "SIMachineFunctionInfo.h"

#include "SIRegisterInfo.h"

#include "Utils/AMDGPUBaseInfo.h"

#include "llvm/ADT/ScopeExit.h"

#include "llvm/CodeGen/GlobalISel/GenericMachineInstrs.h"

#include "llvm/CodeGen/GlobalISel/LegalizerHelper.h"

#include "llvm/CodeGen/GlobalISel/LegalizerInfo.h"

#include "llvm/CodeGen/GlobalISel/MIPatternMatch.h"

#include "llvm/CodeGen/GlobalISel/MachineIRBuilder.h"

#include "llvm/CodeGen/GlobalISel/Utils.h"

#include "llvm/CodeGen/TargetOpcodes.h"

#include "llvm/IR/DiagnosticInfo.h"

#include "llvm/IR/IntrinsicsAMDGPU.h"

#include "llvm/IR/IntrinsicsR600.h"


#define DEBUG_TYPE "amdgpu-legalinfo"


using namespace llvm;

using namespace LegalizeActions;

using namespace LegalizeMutations;

using namespace LegalityPredicates;

using namespace MIPatternMatch;


// Hack until load/store selection patterns support any tuple of legal types.

static cl::opt<bool> EnableNewLegality(

  "amdgpu-global-isel-new-legality",

  cl::desc("Use GlobalISel desired legality, rather than try to use"

           "rules compatible with selection patterns"),

  cl::init(false),

  cl::ReallyHidden);


static constexpr unsigned MaxRegisterSize = 1024;


// Round the number of elements to the next power of two elements


static LLT getPow2VectorType(LLT Ty) {

  unsigned NElts = Ty.getNumElements();

  unsigned Pow2NElts = 1 <<  Log2_32_Ceil(NElts);

  return Ty.changeElementCount(ElementCount::getFixed(Pow2NElts));

}


// Round the number of bits to the next power of two bits


static LLT getPow2ScalarType(LLT Ty) {

  unsigned Bits = Ty.getSizeInBits();

  unsigned Pow2Bits = 1 <<  Log2_32_Ceil(Bits);

  return LLT::scalar(Pow2Bits);

}


/// \returns true if this is an odd sized vector which should widen by adding an

/// additional element. This is mostly to handle <3 x s16> -> <4 x s16>. This

/// excludes s1 vectors, which should always be scalarized.


static LegalityPredicate isSmallOddVector(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    if (!Ty.isVector())

      return false;


    const LLT EltTy = Ty.getElementType();

    const unsigned EltSize = EltTy.getSizeInBits();

    return Ty.getNumElements() % 2 != 0 &&

           EltSize > 1 && EltSize < 32 &&

           Ty.getSizeInBits() % 32 != 0;

  };

}


static LegalityPredicate sizeIsMultipleOf32(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    return Ty.getSizeInBits() % 32 == 0;

  };

}


static LegalityPredicate isWideVec16(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    const LLT EltTy = Ty.getScalarType();

    return EltTy.getSizeInBits() == 16 && Ty.getNumElements() > 2;

  };

}


static LegalizeMutation oneMoreElement(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    const LLT EltTy = Ty.getElementType();

    return std::pair(TypeIdx,

                     LLT::fixed_vector(Ty.getNumElements() + 1, EltTy));

  };

}


static LegalizeMutation fewerEltsToSize64Vector(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    const LLT EltTy = Ty.getElementType();

    unsigned Size = Ty.getSizeInBits();

    unsigned Pieces = (Size + 63) / 64;

    unsigned NewNumElts = (Ty.getNumElements() + 1) / Pieces;

    return std::pair(TypeIdx, LLT::scalarOrVector(

                                  ElementCount::getFixed(NewNumElts), EltTy));

  };

}


// Increase the number of vector elements to reach the next multiple of 32-bit

// type.


static LegalizeMutation moreEltsToNext32Bit(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];


    const LLT EltTy = Ty.getElementType();

    const int Size = Ty.getSizeInBits();

    const int EltSize = EltTy.getSizeInBits();

    const int NextMul32 = (Size + 31) / 32;


    assert(EltSize < 32);


    const int NewNumElts = (32 * NextMul32 + EltSize - 1) / EltSize;

    return std::pair(TypeIdx, LLT::fixed_vector(NewNumElts, EltTy));

  };

}


// Retrieves the scalar type that's the same size as the mem desc


static LegalizeMutation getScalarTypeFromMemDesc(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    unsigned MemSize = Query.MMODescrs[0].MemoryTy.getSizeInBits();

    return std::make_pair(TypeIdx, LLT::scalar(MemSize));

  };

}


// Increase the number of vector elements to reach the next legal RegClass.


static LegalizeMutation moreElementsToNextExistingRegClass(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    const unsigned NumElts = Ty.getNumElements();

    const unsigned EltSize = Ty.getElementType().getSizeInBits();

    const unsigned MaxNumElts = MaxRegisterSize / EltSize;


    assert(EltSize == 32 || EltSize == 64);

    assert(Ty.getSizeInBits() < MaxRegisterSize);


    unsigned NewNumElts;

    // Find the nearest legal RegClass that is larger than the current type.

    for (NewNumElts = NumElts; NewNumElts < MaxNumElts; ++NewNumElts) {

      if (SIRegisterInfo::getSGPRClassForBitWidth(NewNumElts * EltSize))

        break;

    }

    return std::pair(TypeIdx,

                     LLT::fixed_vector(NewNumElts, Ty.getElementType()));

  };

}


static LLT getBufferRsrcScalarType(const LLT Ty) {

  if (!Ty.isVector())

    return LLT::scalar(128);

  const ElementCount NumElems = Ty.getElementCount();

  return LLT::vector(NumElems, LLT::scalar(128));

}


static LLT getBufferRsrcRegisterType(const LLT Ty) {

  if (!Ty.isVector())

    return LLT::fixed_vector(4, LLT::scalar(32));

  const unsigned NumElems = Ty.getElementCount().getFixedValue();

  return LLT::fixed_vector(NumElems * 4, LLT::scalar(32));

}


static LLT getBitcastRegisterType(const LLT Ty) {

  const unsigned Size = Ty.getSizeInBits();


  if (Size <= 32) {

    // <2 x s8> -> s16

    // <4 x s8> -> s32

    return LLT::scalar(Size);

  }


  return LLT::scalarOrVector(ElementCount::getFixed(Size / 32), 32);

}


static LegalizeMutation bitcastToRegisterType(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    return std::pair(TypeIdx, getBitcastRegisterType(Ty));

  };

}


static LegalizeMutation bitcastToVectorElement32(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    unsigned Size = Ty.getSizeInBits();

    assert(Size % 32 == 0);

    return std::pair(

        TypeIdx, LLT::scalarOrVector(ElementCount::getFixed(Size / 32), 32));

  };

}


static LegalityPredicate vectorSmallerThan(unsigned TypeIdx, unsigned Size) {

  return [=](const LegalityQuery &Query) {

    const LLT QueryTy = Query.Types[TypeIdx];

    return QueryTy.isVector() && QueryTy.getSizeInBits() < Size;

  };

}


static LegalityPredicate vectorWiderThan(unsigned TypeIdx, unsigned Size) {

  return [=](const LegalityQuery &Query) {

    const LLT QueryTy = Query.Types[TypeIdx];

    return QueryTy.isVector() && QueryTy.getSizeInBits() > Size;

  };

}


static LegalityPredicate numElementsNotEven(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT QueryTy = Query.Types[TypeIdx];

    return QueryTy.isVector() && QueryTy.getNumElements() % 2 != 0;

  };

}


static bool isRegisterSize(const GCNSubtarget &ST, unsigned Size) {

  return ((ST.useRealTrue16Insts() && Size == 16) || Size % 32 == 0) &&

         Size <= MaxRegisterSize;

}


static bool isRegisterVectorElementType(LLT EltTy) {

  const int EltSize = EltTy.getSizeInBits();

  return EltSize == 16 || EltSize % 32 == 0;

}


static bool isRegisterVectorType(LLT Ty) {

  const int EltSize = Ty.getElementType().getSizeInBits();

  return EltSize == 32 || EltSize == 64 ||

         (EltSize == 16 && Ty.getNumElements() % 2 == 0) ||

         EltSize == 128 || EltSize == 256;

}


// TODO: replace all uses of isRegisterType with isRegisterClassType


static bool isRegisterType(const GCNSubtarget &ST, LLT Ty) {

  if (!isRegisterSize(ST, Ty.getSizeInBits()))

    return false;


  if (Ty.isVector())

    return isRegisterVectorType(Ty);


  return true;

}


// Any combination of 32 or 64-bit elements up the maximum register size, and

// multiples of v2s16.


static LegalityPredicate isRegisterType(const GCNSubtarget &ST,

                                        unsigned TypeIdx) {

  return [=, &ST](const LegalityQuery &Query) {

    return isRegisterType(ST, Query.Types[TypeIdx]);

  };

}


// RegisterType that doesn't have a corresponding RegClass.

// TODO: Once `isRegisterType` is replaced with `isRegisterClassType` this

// should be removed.


static LegalityPredicate isIllegalRegisterType(const GCNSubtarget &ST,

                                               unsigned TypeIdx) {

  return [=, &ST](const LegalityQuery &Query) {

    LLT Ty = Query.Types[TypeIdx];

    return isRegisterType(ST, Ty) &&

           !SIRegisterInfo::getSGPRClassForBitWidth(Ty.getSizeInBits());

  };

}


static LegalityPredicate elementTypeIsLegal(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT QueryTy = Query.Types[TypeIdx];

    if (!QueryTy.isVector())

      return false;

    const LLT EltTy = QueryTy.getElementType();

    return EltTy == LLT::scalar(16) || EltTy.getSizeInBits() >= 32;

  };

}


constexpr LLT S1 = LLT::scalar(1);

constexpr LLT S8 = LLT::scalar(8);

constexpr LLT S16 = LLT::scalar(16);

constexpr LLT S32 = LLT::scalar(32);

constexpr LLT F32 = LLT::float32();

constexpr LLT S64 = LLT::scalar(64);

constexpr LLT F64 = LLT::float64();

constexpr LLT S96 = LLT::scalar(96);

constexpr LLT S128 = LLT::scalar(128);

constexpr LLT S160 = LLT::scalar(160);

constexpr LLT S192 = LLT::scalar(192);

constexpr LLT S224 = LLT::scalar(224);

constexpr LLT S256 = LLT::scalar(256);

constexpr LLT S512 = LLT::scalar(512);

constexpr LLT S1024 = LLT::scalar(1024);

constexpr LLT MaxScalar = LLT::scalar(MaxRegisterSize);


constexpr LLT V2S8 = LLT::fixed_vector(2, 8);

constexpr LLT V2S16 = LLT::fixed_vector(2, 16);

constexpr LLT V4S16 = LLT::fixed_vector(4, 16);

constexpr LLT V6S16 = LLT::fixed_vector(6, 16);

constexpr LLT V8S16 = LLT::fixed_vector(8, 16);

constexpr LLT V10S16 = LLT::fixed_vector(10, 16);

constexpr LLT V12S16 = LLT::fixed_vector(12, 16);

constexpr LLT V16S16 = LLT::fixed_vector(16, 16);


constexpr LLT V2F16 = LLT::fixed_vector(2, LLT::float16());

constexpr LLT V2BF16 = V2F16; // FIXME


constexpr LLT V2S32 = LLT::fixed_vector(2, 32);

constexpr LLT V3S32 = LLT::fixed_vector(3, 32);

constexpr LLT V4S32 = LLT::fixed_vector(4, 32);

constexpr LLT V5S32 = LLT::fixed_vector(5, 32);

constexpr LLT V6S32 = LLT::fixed_vector(6, 32);

constexpr LLT V7S32 = LLT::fixed_vector(7, 32);

constexpr LLT V8S32 = LLT::fixed_vector(8, 32);

constexpr LLT V9S32 = LLT::fixed_vector(9, 32);

constexpr LLT V10S32 = LLT::fixed_vector(10, 32);

constexpr LLT V11S32 = LLT::fixed_vector(11, 32);

constexpr LLT V12S32 = LLT::fixed_vector(12, 32);

constexpr LLT V16S32 = LLT::fixed_vector(16, 32);

constexpr LLT V32S32 = LLT::fixed_vector(32, 32);


constexpr LLT V2S64 = LLT::fixed_vector(2, 64);

constexpr LLT V3S64 = LLT::fixed_vector(3, 64);

constexpr LLT V4S64 = LLT::fixed_vector(4, 64);

constexpr LLT V5S64 = LLT::fixed_vector(5, 64);

constexpr LLT V6S64 = LLT::fixed_vector(6, 64);

constexpr LLT V7S64 = LLT::fixed_vector(7, 64);

constexpr LLT V8S64 = LLT::fixed_vector(8, 64);

constexpr LLT V16S64 = LLT::fixed_vector(16, 64);


constexpr LLT V2S128 = LLT::fixed_vector(2, 128);

constexpr LLT V4S128 = LLT::fixed_vector(4, 128);


constexpr std::initializer_list<LLT> AllScalarTypes = {

    S32, S64, S96, S128, S160, S192, S224, S256, S512, S1024};


constexpr std::initializer_list<LLT> AllS16Vectors{

    V2S16, V4S16, V6S16, V8S16, V10S16, V12S16, V16S16, V2S128, V4S128};


constexpr std::initializer_list<LLT> AllS32Vectors = {

    V2S32, V3S32,  V4S32,  V5S32,  V6S32,  V7S32, V8S32,

    V9S32, V10S32, V11S32, V12S32, V16S32, V32S32};


constexpr std::initializer_list<LLT> AllS64Vectors = {

    V2S64, V3S64, V4S64, V5S64, V6S64, V7S64, V8S64, V16S64};


constexpr std::initializer_list<LLT> AllVectors{

    V2S16,  V4S16,  V6S16,  V8S16,  V10S16, V12S16, V16S16, V2S128,

    V4S128, V2S32,  V3S32,  V4S32,  V5S32,  V6S32,  V7S32,  V8S32,

    V9S32,  V10S32, V11S32, V12S32, V16S32, V32S32, V2S64,  V3S64,

    V4S64,  V5S64,  V6S64,  V7S64,  V8S64,  V16S64};


// Checks whether a type is in the list of legal register types.


static bool isRegisterClassType(const GCNSubtarget &ST, LLT Ty) {

  if (Ty.isPointerOrPointerVector())

    Ty = Ty.changeElementType(LLT::scalar(Ty.getScalarSizeInBits()));


  return is_contained(AllS32Vectors, Ty) || is_contained(AllS64Vectors, Ty) ||

         is_contained(AllScalarTypes, Ty) ||

         (ST.useRealTrue16Insts() && Ty == S16) ||

         is_contained(AllS16Vectors, Ty);

}


static LegalityPredicate isRegisterClassType(const GCNSubtarget &ST,

                                             unsigned TypeIdx) {

  return [&ST, TypeIdx](const LegalityQuery &Query) {

    return isRegisterClassType(ST, Query.Types[TypeIdx]);

  };

}


// If we have a truncating store or an extending load with a data size larger

// than 32-bits, we need to reduce to a 32-bit type.


static LegalityPredicate isWideScalarExtLoadTruncStore(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    const LLT Ty = Query.Types[TypeIdx];

    return !Ty.isVector() && Ty.getSizeInBits() > 32 &&

           Query.MMODescrs[0].MemoryTy.getSizeInBits() < Ty.getSizeInBits();

  };

}


// If we have a truncating store or an extending load with a data size larger

// than 32-bits and mem location is a power of 2


static LegalityPredicate isTruncStoreToSizePowerOf2(unsigned TypeIdx) {

  return [=](const LegalityQuery &Query) {

    unsigned MemSize = Query.MMODescrs[0].MemoryTy.getSizeInBits();

    return isWideScalarExtLoadTruncStore(TypeIdx)(Query) &&

           isPowerOf2_64(MemSize);

  };

}


// TODO: Should load to s16 be legal? Most loads extend to 32-bits, but we

// handle some operations by just promoting the register during

// selection. There are also d16 loads on GFX9+ which preserve the high bits.


static unsigned maxSizeForAddrSpace(const GCNSubtarget &ST, unsigned AS,

                                    bool IsLoad, bool IsAtomic) {

  switch (AS) {

  case AMDGPUAS::PRIVATE_ADDRESS:

    // FIXME: Private element size.

    return ST.enableFlatScratch() ? 128 : 32;

  case AMDGPUAS::LOCAL_ADDRESS:

    return ST.useDS128() ? 128 : 64;

  case AMDGPUAS::GLOBAL_ADDRESS:

  case AMDGPUAS::CONSTANT_ADDRESS:

  case AMDGPUAS::CONSTANT_ADDRESS_32BIT:

  case AMDGPUAS::BUFFER_RESOURCE:

    // Treat constant and global as identical. SMRD loads are sometimes usable for

    // global loads (ideally constant address space should be eliminated)

    // depending on the context. Legality cannot be context dependent, but

    // RegBankSelect can split the load as necessary depending on the pointer

    // register bank/uniformity and if the memory is invariant or not written in a

    // kernel.

    return IsLoad ? 512 : 128;

  default:

    // FIXME: Flat addresses may contextually need to be split to 32-bit parts

    // if they may alias scratch depending on the subtarget.  This needs to be

    // moved to custom handling to use addressMayBeAccessedAsPrivate

    return ST.hasMultiDwordFlatScratchAddressing() || IsAtomic ? 128 : 32;

  }

}


static bool isLoadStoreSizeLegal(const GCNSubtarget &ST,

                                 const LegalityQuery &Query) {

  const LLT Ty = Query.Types[0];


  // Handle G_LOAD, G_ZEXTLOAD, G_SEXTLOAD

  const bool IsLoad = Query.Opcode != AMDGPU::G_STORE;


  unsigned RegSize = Ty.getSizeInBits();

  uint64_t MemSize = Query.MMODescrs[0].MemoryTy.getSizeInBits();

  uint64_t AlignBits = Query.MMODescrs[0].AlignInBits;

  unsigned AS = Query.Types[1].getAddressSpace();


  // All of these need to be custom lowered to cast the pointer operand.

  if (AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT)

    return false;


  // Do not handle extending vector loads.

  if (Ty.isVector() && MemSize != RegSize)

    return false;


  // TODO: We should be able to widen loads if the alignment is high enough, but

  // we also need to modify the memory access size.

#if 0

  // Accept widening loads based on alignment.

  if (IsLoad && MemSize < Size)

    MemSize = std::max(MemSize, Align);

#endif


  // Only 1-byte and 2-byte to 32-bit extloads are valid.

  if (MemSize != RegSize && RegSize != 32)

    return false;


  if (MemSize > maxSizeForAddrSpace(ST, AS, IsLoad,

                                    Query.MMODescrs[0].Ordering !=

                                        AtomicOrdering::NotAtomic))

    return false;


  switch (MemSize) {

  case 8:

  case 16:

  case 32:

  case 64:

  case 128:

    break;

  case 96:

    if (!ST.hasDwordx3LoadStores())

      return false;

    break;

  case 256:

  case 512:

    // These may contextually need to be broken down.

    break;

  default:

    return false;

  }


  assert(RegSize >= MemSize);


  if (AlignBits < MemSize) {

    const SITargetLowering *TLI = ST.getTargetLowering();

    if (!TLI->allowsMisalignedMemoryAccessesImpl(MemSize, AS,

                                                 Align(AlignBits / 8)))

      return false;

  }


  return true;

}


// The newer buffer intrinsic forms take their resource arguments as

// pointers in address space 8, aka s128 values. However, in order to not break

// SelectionDAG, the underlying operations have to continue to take v4i32

// arguments. Therefore, we convert resource pointers - or vectors of them

// to integer values here.


static bool hasBufferRsrcWorkaround(const LLT Ty) {

  if (Ty.isPointer() && Ty.getAddressSpace() == AMDGPUAS::BUFFER_RESOURCE)

    return true;

  if (Ty.isVector()) {

    const LLT ElemTy = Ty.getElementType();

    return hasBufferRsrcWorkaround(ElemTy);

  }

  return false;

}


// The current selector can't handle <6 x s16>, <8 x s16>, s96, s128 etc, so

// workaround this. Eventually it should ignore the type for loads and only care

// about the size. Return true in cases where we will workaround this for now by

// bitcasting.


static bool loadStoreBitcastWorkaround(const LLT Ty) {

  if (EnableNewLegality)

    return false;


  const unsigned Size = Ty.getSizeInBits();

  if (Ty.isPointerVector())

    return true;

  if (Size <= 64)

    return false;

  // Address space 8 pointers get their own workaround.

  if (hasBufferRsrcWorkaround(Ty))

    return false;

  if (!Ty.isVector())

    return true;


  unsigned EltSize = Ty.getScalarSizeInBits();

  return EltSize != 32 && EltSize != 64;

}


static bool isLoadStoreLegal(const GCNSubtarget &ST, const LegalityQuery &Query) {

  const LLT Ty = Query.Types[0];

  return isRegisterType(ST, Ty) && isLoadStoreSizeLegal(ST, Query) &&

         !hasBufferRsrcWorkaround(Ty) && !loadStoreBitcastWorkaround(Ty);

}


/// Return true if a load or store of the type should be lowered with a bitcast

/// to a different type.


static bool shouldBitcastLoadStoreType(const GCNSubtarget &ST, const LLT Ty,

                                       const LLT MemTy) {

  const unsigned MemSizeInBits = MemTy.getSizeInBits();

  const unsigned Size = Ty.getSizeInBits();

  if (Size != MemSizeInBits)

    return Size <= 32 && Ty.isVector();


  if (loadStoreBitcastWorkaround(Ty) && isRegisterType(ST, Ty))

    return true;


  // Don't try to handle bitcasting vector ext loads for now.

  return Ty.isVector() && (!MemTy.isVector() || MemTy == Ty) &&

         (Size <= 32 || isRegisterSize(ST, Size)) &&

         !isRegisterVectorElementType(Ty.getElementType());

}


/// Return true if we should legalize a load by widening an odd sized memory

/// access up to the alignment. Note this case when the memory access itself

/// changes, not the size of the result register.


static bool shouldWidenLoad(const GCNSubtarget &ST, LLT MemoryTy,

                            uint64_t AlignInBits, unsigned AddrSpace,

                            unsigned Opcode) {

  unsigned SizeInBits = MemoryTy.getSizeInBits();

  // We don't want to widen cases that are naturally legal.

  if (isPowerOf2_32(SizeInBits))

    return false;


  // If we have 96-bit memory operations, we shouldn't touch them. Note we may

  // end up widening these for a scalar load during RegBankSelect, if we don't

  // have 96-bit scalar loads.

  if (SizeInBits == 96 && ST.hasDwordx3LoadStores())

    return false;


  if (SizeInBits >= maxSizeForAddrSpace(ST, AddrSpace, Opcode, false))

    return false;


  // A load is known dereferenceable up to the alignment, so it's legal to widen

  // to it.

  //

  // TODO: Could check dereferenceable for less aligned cases.

  unsigned RoundedSize = NextPowerOf2(SizeInBits);

  if (AlignInBits < RoundedSize)

    return false;


  // Do not widen if it would introduce a slow unaligned load.

  const SITargetLowering *TLI = ST.getTargetLowering();

  unsigned Fast = 0;

  return TLI->allowsMisalignedMemoryAccessesImpl(

             RoundedSize, AddrSpace, Align(AlignInBits / 8),

             MachineMemOperand::MOLoad, &Fast) &&

         Fast;

}


static bool shouldWidenLoad(const GCNSubtarget &ST, const LegalityQuery &Query,

                            unsigned Opcode) {

  if (Query.MMODescrs[0].Ordering != AtomicOrdering::NotAtomic)

    return false;


  return shouldWidenLoad(ST, Query.MMODescrs[0].MemoryTy,

                         Query.MMODescrs[0].AlignInBits,

                         Query.Types[1].getAddressSpace(), Opcode);

}


/// Mutates IR (typicaly a load instruction) to use a <4 x s32> as the initial

/// type of the operand `idx` and then to transform it to a `p8` via bitcasts

/// and inttoptr. In addition, handle vectors of p8. Returns the new type.


static LLT castBufferRsrcFromV4I32(MachineInstr &MI, MachineIRBuilder &B,

                                   MachineRegisterInfo &MRI, unsigned Idx) {

  MachineOperand &MO = MI.getOperand(Idx);


  const LLT PointerTy = MRI.getType(MO.getReg());


  // Paranoidly prevent us from doing this multiple times.

  if (!hasBufferRsrcWorkaround(PointerTy))

    return PointerTy;


  const LLT ScalarTy = getBufferRsrcScalarType(PointerTy);

  const LLT VectorTy = getBufferRsrcRegisterType(PointerTy);

  if (!PointerTy.isVector()) {

    // Happy path: (4 x s32) -> (s32, s32, s32, s32) -> (p8)

    const unsigned NumParts = PointerTy.getSizeInBits() / 32;

    const LLT S32 = LLT::scalar(32);


    Register VectorReg = MRI.createGenericVirtualRegister(VectorTy);

    std::array<Register, 4> VectorElems;

    B.setInsertPt(B.getMBB(), ++B.getInsertPt());

    for (unsigned I = 0; I < NumParts; ++I)

      VectorElems[I] =

          B.buildExtractVectorElementConstant(S32, VectorReg, I).getReg(0);

    B.buildMergeValues(MO, VectorElems);

    MO.setReg(VectorReg);

    return VectorTy;

  }

  Register BitcastReg = MRI.createGenericVirtualRegister(VectorTy);

  B.setInsertPt(B.getMBB(), ++B.getInsertPt());

  auto Scalar = B.buildBitcast(ScalarTy, BitcastReg);

  B.buildIntToPtr(MO, Scalar);

  MO.setReg(BitcastReg);


  return VectorTy;

}


/// Cast a buffer resource (an address space 8 pointer) into a 4xi32, which is

/// the form in which the value must be in order to be passed to the low-level

/// representations used for MUBUF/MTBUF intrinsics. This is a hack, which is

/// needed in order to account for the fact that we can't define a register

/// class for s128 without breaking SelectionDAG.


static Register castBufferRsrcToV4I32(Register Pointer, MachineIRBuilder &B) {

  MachineRegisterInfo &MRI = *B.getMRI();

  const LLT PointerTy = MRI.getType(Pointer);

  const LLT ScalarTy = getBufferRsrcScalarType(PointerTy);

  const LLT VectorTy = getBufferRsrcRegisterType(PointerTy);


  if (!PointerTy.isVector()) {

    // Special case: p8 -> (s32, s32, s32, s32) -> (4xs32)

    SmallVector<Register, 4> PointerParts;

    const unsigned NumParts = PointerTy.getSizeInBits() / 32;

    auto Unmerged = B.buildUnmerge(LLT::scalar(32), Pointer);

    for (unsigned I = 0; I < NumParts; ++I)

      PointerParts.push_back(Unmerged.getReg(I));

    return B.buildBuildVector(VectorTy, PointerParts).getReg(0);

  }

  Register Scalar = B.buildPtrToInt(ScalarTy, Pointer).getReg(0);

  return B.buildBitcast(VectorTy, Scalar).getReg(0);

}


static void castBufferRsrcArgToV4I32(MachineInstr &MI, MachineIRBuilder &B,

                                     unsigned Idx) {

  MachineOperand &MO = MI.getOperand(Idx);


  const LLT PointerTy = B.getMRI()->getType(MO.getReg());

  // Paranoidly prevent us from doing this multiple times.

  if (!hasBufferRsrcWorkaround(PointerTy))

    return;

  MO.setReg(castBufferRsrcToV4I32(MO.getReg(), B));

}


AMDGPULegalizerInfo::AMDGPULegalizerInfo(const GCNSubtarget &ST_,

                                         const GCNTargetMachine &TM)

  :  ST(ST_) {

  using namespace TargetOpcode;


  auto GetAddrSpacePtr = [&TM](unsigned AS) {

    return LLT::pointer(AS, TM.getPointerSizeInBits(AS));

  };


  const LLT GlobalPtr = GetAddrSpacePtr(AMDGPUAS::GLOBAL_ADDRESS);

  const LLT ConstantPtr = GetAddrSpacePtr(AMDGPUAS::CONSTANT_ADDRESS);

  const LLT Constant32Ptr = GetAddrSpacePtr(AMDGPUAS::CONSTANT_ADDRESS_32BIT);

  const LLT LocalPtr = GetAddrSpacePtr(AMDGPUAS::LOCAL_ADDRESS);

  const LLT RegionPtr = GetAddrSpacePtr(AMDGPUAS::REGION_ADDRESS);

  const LLT FlatPtr = GetAddrSpacePtr(AMDGPUAS::FLAT_ADDRESS);

  const LLT PrivatePtr = GetAddrSpacePtr(AMDGPUAS::PRIVATE_ADDRESS);

  const LLT BufferFatPtr = GetAddrSpacePtr(AMDGPUAS::BUFFER_FAT_POINTER);

  const LLT RsrcPtr = GetAddrSpacePtr(AMDGPUAS::BUFFER_RESOURCE);

  const LLT BufferStridedPtr =

      GetAddrSpacePtr(AMDGPUAS::BUFFER_STRIDED_POINTER);


  const LLT CodePtr = FlatPtr;


  const std::initializer_list<LLT> AddrSpaces64 = {

    GlobalPtr, ConstantPtr, FlatPtr

  };


  const std::initializer_list<LLT> AddrSpaces32 = {

    LocalPtr, PrivatePtr, Constant32Ptr, RegionPtr

  };


  const std::initializer_list<LLT> AddrSpaces128 = {RsrcPtr};


  const std::initializer_list<LLT> FPTypesBase = {

    S32, S64

  };


  const std::initializer_list<LLT> FPTypes16 = {

    S32, S64, S16

  };


  const std::initializer_list<LLT> FPTypesPK16 = {

    S32, S64, S16, V2S16

  };


  const LLT MinScalarFPTy = ST.has16BitInsts() ? S16 : S32;


  // s1 for VCC branches, s32 for SCC branches.

  getActionDefinitionsBuilder(G_BRCOND).legalFor({S1, S32});


  // TODO: All multiples of 32, vectors of pointers, all v2s16 pairs, more

  // elements for v3s16

  getActionDefinitionsBuilder(G_PHI)

      .legalFor({S32, S64, V2S16, S16, V4S16, S1, S128, S256})

      .legalFor(AllS32Vectors)

      .legalFor(AllS64Vectors)

      .legalFor(AddrSpaces64)

      .legalFor(AddrSpaces32)

      .legalFor(AddrSpaces128)

      .legalIf(isPointer(0))

      .clampScalar(0, S16, S256)

      .widenScalarToNextPow2(0, 32)

      .clampMaxNumElements(0, S32, 16)

      .moreElementsIf(isSmallOddVector(0), oneMoreElement(0))

      .scalarize(0);


  if (ST.hasVOP3PInsts() && ST.hasAddNoCarry() && ST.hasIntClamp()) {

    // Full set of gfx9 features.

    if (ST.hasScalarAddSub64()) {

      getActionDefinitionsBuilder({G_ADD, G_SUB})

          .legalFor({S64, S32, S16, V2S16})

          .clampMaxNumElementsStrict(0, S16, 2)

          .scalarize(0)

          .minScalar(0, S16)

          .widenScalarToNextMultipleOf(0, 32)

          .maxScalar(0, S32);

    } else {

      getActionDefinitionsBuilder({G_ADD, G_SUB})

          .legalFor({S32, S16, V2S16})

          .clampMaxNumElementsStrict(0, S16, 2)

          .scalarize(0)

          .minScalar(0, S16)

          .widenScalarToNextMultipleOf(0, 32)

          .maxScalar(0, S32);

    }


    if (ST.hasScalarSMulU64()) {

      getActionDefinitionsBuilder(G_MUL)

          .legalFor({S64, S32, S16, V2S16})

          .clampMaxNumElementsStrict(0, S16, 2)

          .scalarize(0)

          .minScalar(0, S16)

          .widenScalarToNextMultipleOf(0, 32)

          .custom();

    } else {

      getActionDefinitionsBuilder(G_MUL)

          .legalFor({S32, S16, V2S16})

          .clampMaxNumElementsStrict(0, S16, 2)

          .scalarize(0)

          .minScalar(0, S16)

          .widenScalarToNextMultipleOf(0, 32)

          .custom();

    }

    assert(ST.hasMad64_32());


    getActionDefinitionsBuilder({G_UADDSAT, G_USUBSAT, G_SADDSAT, G_SSUBSAT})

      .legalFor({S32, S16, V2S16}) // Clamp modifier

      .minScalarOrElt(0, S16)

      .clampMaxNumElementsStrict(0, S16, 2)

      .scalarize(0)

      .widenScalarToNextPow2(0, 32)

      .lower();

  } else if (ST.has16BitInsts()) {

    getActionDefinitionsBuilder({G_ADD, G_SUB})

      .legalFor({S32, S16})

      .minScalar(0, S16)

      .widenScalarToNextMultipleOf(0, 32)

      .maxScalar(0, S32)

      .scalarize(0);


    getActionDefinitionsBuilder(G_MUL)

      .legalFor({S32, S16})

      .scalarize(0)

      .minScalar(0, S16)

      .widenScalarToNextMultipleOf(0, 32)

      .custom();

    assert(ST.hasMad64_32());


    // Technically the saturating operations require clamp bit support, but this

    // was introduced at the same time as 16-bit operations.

    getActionDefinitionsBuilder({G_UADDSAT, G_USUBSAT})

      .legalFor({S32, S16}) // Clamp modifier

      .minScalar(0, S16)

      .scalarize(0)

      .widenScalarToNextPow2(0, 16)

      .lower();


    // We're just lowering this, but it helps get a better result to try to

    // coerce to the desired type first.

    getActionDefinitionsBuilder({G_SADDSAT, G_SSUBSAT})

      .minScalar(0, S16)

      .scalarize(0)

      .lower();

  } else {

    getActionDefinitionsBuilder({G_ADD, G_SUB})

      .legalFor({S32})

      .widenScalarToNextMultipleOf(0, 32)

      .clampScalar(0, S32, S32)

      .scalarize(0);


    auto &Mul = getActionDefinitionsBuilder(G_MUL)

      .legalFor({S32})

      .scalarize(0)

      .minScalar(0, S32)

      .widenScalarToNextMultipleOf(0, 32);


    if (ST.hasMad64_32())

      Mul.custom();

    else

      Mul.maxScalar(0, S32);


    if (ST.hasIntClamp()) {

      getActionDefinitionsBuilder({G_UADDSAT, G_USUBSAT})

        .legalFor({S32}) // Clamp modifier.

        .scalarize(0)

        .minScalarOrElt(0, S32)

        .lower();

    } else {

      // Clamp bit support was added in VI, along with 16-bit operations.

      getActionDefinitionsBuilder({G_UADDSAT, G_USUBSAT})

        .minScalar(0, S32)

        .scalarize(0)

        .lower();

    }


    // FIXME: DAG expansion gets better results. The widening uses the smaller

    // range values and goes for the min/max lowering directly.

    getActionDefinitionsBuilder({G_SADDSAT, G_SSUBSAT})

      .minScalar(0, S32)

      .scalarize(0)

      .lower();

  }


  getActionDefinitionsBuilder(

      {G_SDIV, G_UDIV, G_SREM, G_UREM, G_SDIVREM, G_UDIVREM})

      .customFor({S32, S64})

      .clampScalar(0, S32, S64)

      .widenScalarToNextPow2(0, 32)

      .scalarize(0);


  auto &Mulh = getActionDefinitionsBuilder({G_UMULH, G_SMULH})

                   .legalFor({S32})

                   .maxScalar(0, S32);


  if (ST.hasVOP3PInsts()) {

    Mulh

      .clampMaxNumElements(0, S8, 2)

      .lowerFor({V2S8});

  }


  Mulh

    .scalarize(0)

    .lower();


  // Report legal for any types we can handle anywhere. For the cases only legal

  // on the SALU, RegBankSelect will be able to re-legalize.

  getActionDefinitionsBuilder({G_AND, G_OR, G_XOR})

      .legalFor({S32, S1, S64, V2S32, S16, V2S16, V4S16})

      .clampScalar(0, S32, S64)

      .moreElementsIf(isSmallOddVector(0), oneMoreElement(0))

      .fewerElementsIf(

          all(vectorWiderThan(0, 64), scalarOrEltNarrowerThan(0, 64)),

          fewerEltsToSize64Vector(0))

      .widenScalarToNextPow2(0)

      .scalarize(0);


  getActionDefinitionsBuilder(

      {G_UADDO, G_USUBO, G_UADDE, G_SADDE, G_USUBE, G_SSUBE})

      .legalFor({{S32, S1}, {S32, S32}})

      .clampScalar(0, S32, S32)

      .scalarize(0);


  getActionDefinitionsBuilder(G_BITCAST)

      // Don't worry about the size constraint.

      .legalIf(all(isRegisterClassType(ST, 0), isRegisterClassType(ST, 1)))

      .lower();


  getActionDefinitionsBuilder(G_CONSTANT)

    .legalFor({S1, S32, S64, S16, GlobalPtr,

               LocalPtr, ConstantPtr, PrivatePtr, FlatPtr })

    .legalIf(isPointer(0))

    .clampScalar(0, S32, S64)

    .widenScalarToNextPow2(0);


  getActionDefinitionsBuilder(G_FCONSTANT)

    .legalFor({S32, S64, S16})

    .clampScalar(0, S16, S64);


  getActionDefinitionsBuilder({G_IMPLICIT_DEF, G_FREEZE})

      .legalIf(isRegisterClassType(ST, 0))

      // s1 and s16 are special cases because they have legal operations on

      // them, but don't really occupy registers in the normal way.

      .legalFor({S1, S16})

      .clampNumElements(0, V16S32, V32S32)

      .moreElementsIf(isSmallOddVector(0), oneMoreElement(0))

      .clampScalarOrElt(0, S32, MaxScalar)

      .widenScalarToNextPow2(0, 32)

      .clampMaxNumElements(0, S32, 16);


  getActionDefinitionsBuilder(G_FRAME_INDEX).legalFor({PrivatePtr});


  // If the amount is divergent, we have to do a wave reduction to get the

  // maximum value, so this is expanded during RegBankSelect.

  getActionDefinitionsBuilder(G_DYN_STACKALLOC)

    .legalFor({{PrivatePtr, S32}});


  getActionDefinitionsBuilder(G_STACKSAVE)

    .customFor({PrivatePtr});

  getActionDefinitionsBuilder(G_STACKRESTORE)

    .legalFor({PrivatePtr});


  getActionDefinitionsBuilder({G_GET_FPENV, G_SET_FPENV}).customFor({S64});


  getActionDefinitionsBuilder(G_GLOBAL_VALUE)

    .customIf(typeIsNot(0, PrivatePtr));


  getActionDefinitionsBuilder(G_BLOCK_ADDR).legalFor({CodePtr});


  auto &FPOpActions = getActionDefinitionsBuilder(

    { G_FADD, G_FMUL, G_FMA, G_FCANONICALIZE,

      G_STRICT_FADD, G_STRICT_FMUL, G_STRICT_FMA})

    .legalFor({S32, S64});

  auto &TrigActions = getActionDefinitionsBuilder({G_FSIN, G_FCOS})

    .customFor({S32, S64});

  auto &FDIVActions = getActionDefinitionsBuilder(G_FDIV)

    .customFor({S32, S64});


  if (ST.has16BitInsts()) {

    if (ST.hasVOP3PInsts())

      FPOpActions.legalFor({S16, V2S16});

    else

      FPOpActions.legalFor({S16});


    TrigActions.customFor({S16});

    FDIVActions.customFor({S16});

  }


  if (ST.hasPackedFP32Ops()) {

    FPOpActions.legalFor({V2S32});

    FPOpActions.clampMaxNumElementsStrict(0, S32, 2);

  }


  auto &MinNumMaxNum = getActionDefinitionsBuilder(

      {G_FMINNUM, G_FMAXNUM, G_FMINIMUMNUM, G_FMAXIMUMNUM, G_FMINNUM_IEEE,

       G_FMAXNUM_IEEE});


  if (ST.hasVOP3PInsts()) {

    MinNumMaxNum.customFor(FPTypesPK16)

      .moreElementsIf(isSmallOddVector(0), oneMoreElement(0))

      .clampMaxNumElements(0, S16, 2)

      .clampScalar(0, S16, S64)

      .scalarize(0);

  } else if (ST.has16BitInsts()) {

    MinNumMaxNum.customFor(FPTypes16)

      .clampScalar(0, S16, S64)

      .scalarize(0);

  } else {

    MinNumMaxNum.customFor(FPTypesBase)

      .clampScalar(0, S32, S64)

      .scalarize(0);

  }


  if (ST.hasVOP3PInsts())

    FPOpActions.clampMaxNumElementsStrict(0, S16, 2);


  FPOpActions

    .scalarize(0)

    .clampScalar(0, ST.has16BitInsts() ? S16 : S32, S64);


  TrigActions

    .scalarize(0)

    .clampScalar(0, ST.has16BitInsts() ? S16 : S32, S64);


  FDIVActions

    .scalarize(0)

    .clampScalar(0, ST.has16BitInsts() ? S16 : S32, S64);


  getActionDefinitionsBuilder({G_FNEG, G_FABS})

    .legalFor(FPTypesPK16)

    .clampMaxNumElementsStrict(0, S16, 2)

    .scalarize(0)

    .clampScalar(0, S16, S64);


  if (ST.has16BitInsts()) {

    getActionDefinitionsBuilder(G_FSQRT)

      .legalFor({S16})

      .customFor({S32, S64})

      .scalarize(0)

      .unsupported();

    getActionDefinitionsBuilder(G_FFLOOR)

      .legalFor({S32, S64, S16})

      .scalarize(0)

      .clampScalar(0, S16, S64);


    getActionDefinitionsBuilder({G_FLDEXP, G_STRICT_FLDEXP})

      .legalFor({{S32, S32}, {S64, S32}, {S16, S16}})

      .scalarize(0)

      .maxScalarIf(typeIs(0, S16), 1, S16)

      .clampScalar(1, S32, S32)

      .lower();


    getActionDefinitionsBuilder(G_FFREXP)

      .customFor({{S32, S32}, {S64, S32}, {S16, S16}, {S16, S32}})

      .scalarize(0)

      .lower();

  } else {

    getActionDefinitionsBuilder(G_FSQRT)

      .customFor({S32, S64, S16})

      .scalarize(0)

      .unsupported();


    if (ST.hasFractBug()) {

      getActionDefinitionsBuilder(G_FFLOOR)

        .customFor({S64})

        .legalFor({S32, S64})

        .scalarize(0)

        .clampScalar(0, S32, S64);

    } else {

      getActionDefinitionsBuilder(G_FFLOOR)

        .legalFor({S32, S64})

        .scalarize(0)

        .clampScalar(0, S32, S64);

    }


    getActionDefinitionsBuilder({G_FLDEXP, G_STRICT_FLDEXP})

      .legalFor({{S32, S32}, {S64, S32}})

      .scalarize(0)

      .clampScalar(0, S32, S64)

      .clampScalar(1, S32, S32)

      .lower();


    getActionDefinitionsBuilder(G_FFREXP)

      .customFor({{S32, S32}, {S64, S32}})

      .scalarize(0)

      .minScalar(0, S32)

      .clampScalar(1, S32, S32)

      .lower();

  }


  auto &FPTruncActions = getActionDefinitionsBuilder(G_FPTRUNC);

  if (ST.hasCvtPkF16F32Inst()) {

    FPTruncActions.legalFor({{S32, S64}, {S16, S32}, {V2S16, V2S32}})

        .clampMaxNumElements(0, S16, 2);

  } else {

    FPTruncActions.legalFor({{S32, S64}, {S16, S32}});

  }

  FPTruncActions.scalarize(0).lower();


  getActionDefinitionsBuilder(G_FPEXT)

    .legalFor({{S64, S32}, {S32, S16}})

    .narrowScalarFor({{S64, S16}}, changeTo(0, S32))

    .scalarize(0);


  auto &FSubActions = getActionDefinitionsBuilder({G_FSUB, G_STRICT_FSUB});

  if (ST.has16BitInsts()) {

    FSubActions

      // Use actual fsub instruction

      .legalFor({S32, S16})

      // Must use fadd + fneg

      .lowerFor({S64, V2S16});

  } else {

    FSubActions

      // Use actual fsub instruction

      .legalFor({S32})

      // Must use fadd + fneg

      .lowerFor({S64, S16, V2S16});

  }


  FSubActions

    .scalarize(0)

    .clampScalar(0, S32, S64);


  // Whether this is legal depends on the floating point mode for the function.

  auto &FMad = getActionDefinitionsBuilder(G_FMAD);

  if (ST.hasMadF16() && ST.hasMadMacF32Insts())

    FMad.customFor({S32, S16});

  else if (ST.hasMadMacF32Insts())

    FMad.customFor({S32});

  else if (ST.hasMadF16())

    FMad.customFor({S16});

  FMad.scalarize(0)

      .lower();


  auto &FRem = getActionDefinitionsBuilder(G_FREM);

  if (ST.has16BitInsts()) {

    FRem.customFor({S16, S32, S64});

  } else {

    FRem.minScalar(0, S32)

        .customFor({S32, S64});

  }

  FRem.scalarize(0);


  // TODO: Do we need to clamp maximum bitwidth?

  getActionDefinitionsBuilder(G_TRUNC)

    .legalIf(isScalar(0))

    .legalFor({{V2S16, V2S32}})

    .clampMaxNumElements(0, S16, 2)

    // Avoid scalarizing in cases that should be truly illegal. In unresolvable

    // situations (like an invalid implicit use), we don't want to infinite loop

    // in the legalizer.

    .fewerElementsIf(elementTypeIsLegal(0), LegalizeMutations::scalarize(0))

    .alwaysLegal();


  getActionDefinitionsBuilder({G_SEXT, G_ZEXT, G_ANYEXT})

    .legalFor({{S64, S32}, {S32, S16}, {S64, S16},

               {S32, S1}, {S64, S1}, {S16, S1}})

    .scalarize(0)

    .clampScalar(0, S32, S64)

    .widenScalarToNextPow2(1, 32);


  // TODO: Split s1->s64 during regbankselect for VALU.

  auto &IToFP = getActionDefinitionsBuilder({G_SITOFP, G_UITOFP})

                    .legalFor({{S32, S32}, {S64, S32}, {S16, S32}})

                    .lowerIf(typeIs(1, S1))

                    .customFor({{S32, S64}, {S64, S64}});

  if (ST.has16BitInsts())

    IToFP.legalFor({{S16, S16}});

  IToFP.clampScalar(1, S32, S64)

       .minScalar(0, S32)

       .scalarize(0)

       .widenScalarToNextPow2(1);


  auto &FPToI = getActionDefinitionsBuilder({G_FPTOSI, G_FPTOUI})

    .legalFor({{S32, S32}, {S32, S64}, {S32, S16}})

    .customFor({{S64, S32}, {S64, S64}})

    .narrowScalarFor({{S64, S16}}, changeTo(0, S32));

  if (ST.has16BitInsts())

    FPToI.legalFor({{S16, S16}});

  else

    FPToI.minScalar(1, S32);


  FPToI.minScalar(0, S32)

       .widenScalarToNextPow2(0, 32)

       .scalarize(0)

       .lower();


  getActionDefinitionsBuilder({G_LROUND, G_LLROUND})

      .clampScalar(0, S16, S64)

      .scalarize(0)

      .lower();


  getActionDefinitionsBuilder(G_INTRINSIC_FPTRUNC_ROUND)

      .legalFor({S16, S32})

      .scalarize(0)

      .lower();


  // Lower G_FNEARBYINT and G_FRINT into G_INTRINSIC_ROUNDEVEN

  getActionDefinitionsBuilder({G_INTRINSIC_ROUND, G_FRINT, G_FNEARBYINT})

      .scalarize(0)

      .lower();


  getActionDefinitionsBuilder({G_INTRINSIC_LRINT, G_INTRINSIC_LLRINT})

      .clampScalar(0, S16, S64)

      .scalarize(0)

      .lower();


  if (ST.has16BitInsts()) {

    getActionDefinitionsBuilder(

        {G_INTRINSIC_TRUNC, G_FCEIL, G_INTRINSIC_ROUNDEVEN})

        .legalFor({S16, S32, S64})

        .clampScalar(0, S16, S64)

        .scalarize(0);

  } else if (ST.getGeneration() >= AMDGPUSubtarget::SEA_ISLANDS) {

    getActionDefinitionsBuilder(

        {G_INTRINSIC_TRUNC, G_FCEIL, G_INTRINSIC_ROUNDEVEN})

        .legalFor({S32, S64})

        .clampScalar(0, S32, S64)

        .scalarize(0);

  } else {

    getActionDefinitionsBuilder(

        {G_INTRINSIC_TRUNC, G_FCEIL, G_INTRINSIC_ROUNDEVEN})

        .legalFor({S32})

        .customFor({S64})

        .clampScalar(0, S32, S64)

        .scalarize(0);

  }


  getActionDefinitionsBuilder(G_PTR_ADD)

      .unsupportedFor({BufferFatPtr, BufferStridedPtr, RsrcPtr})

      .legalIf(all(isPointer(0), sameSize(0, 1)))

      .scalarize(0)

      .scalarSameSizeAs(1, 0);


  getActionDefinitionsBuilder(G_PTRMASK)

    .legalIf(all(sameSize(0, 1), typeInSet(1, {S64, S32})))

    .scalarSameSizeAs(1, 0)

    .scalarize(0);


  auto &CmpBuilder =

    getActionDefinitionsBuilder(G_ICMP)

    // The compare output type differs based on the register bank of the output,

    // so make both s1 and s32 legal.

    //

    // Scalar compares producing output in scc will be promoted to s32, as that

    // is the allocatable register type that will be needed for the copy from

    // scc. This will be promoted during RegBankSelect, and we assume something

    // before that won't try to use s32 result types.

    //

    // Vector compares producing an output in vcc/SGPR will use s1 in VCC reg

    // bank.

    .legalForCartesianProduct(

      {S1}, {S32, S64, GlobalPtr, LocalPtr, ConstantPtr, PrivatePtr, FlatPtr})

    .legalForCartesianProduct(

      {S32}, {S32, S64, GlobalPtr, LocalPtr, ConstantPtr, PrivatePtr, FlatPtr});

  if (ST.has16BitInsts()) {

    CmpBuilder.legalFor({{S1, S16}});

  }


  CmpBuilder

    .widenScalarToNextPow2(1)

    .clampScalar(1, S32, S64)

    .scalarize(0)

    .legalIf(all(typeInSet(0, {S1, S32}), isPointer(1)));


  auto &FCmpBuilder =

      getActionDefinitionsBuilder(G_FCMP).legalForCartesianProduct(

          {S1}, ST.has16BitInsts() ? FPTypes16 : FPTypesBase);


  if (ST.hasSALUFloatInsts())

    FCmpBuilder.legalForCartesianProduct({S32}, {S16, S32});


  FCmpBuilder

    .widenScalarToNextPow2(1)

    .clampScalar(1, S32, S64)

    .scalarize(0);


  // FIXME: fpow has a selection pattern that should move to custom lowering.

  auto &ExpOps = getActionDefinitionsBuilder(G_FPOW);

  if (ST.has16BitInsts())

    ExpOps.customFor({{S32}, {S16}});

  else

    ExpOps.customFor({S32});

  ExpOps.clampScalar(0, MinScalarFPTy, S32)

        .scalarize(0);


  getActionDefinitionsBuilder(G_FPOWI)

    .clampScalar(0, MinScalarFPTy, S32)

    .lower();


  auto &Log2Ops = getActionDefinitionsBuilder({G_FLOG2, G_FEXP2});

  Log2Ops.customFor({S32});

  if (ST.has16BitInsts())

    Log2Ops.legalFor({S16});

  else

    Log2Ops.customFor({S16});

  Log2Ops.scalarize(0)

    .lower();


  auto &LogOps =

      getActionDefinitionsBuilder({G_FLOG, G_FLOG10, G_FEXP, G_FEXP10});

  LogOps.customFor({S32, S16});

  LogOps.clampScalar(0, MinScalarFPTy, S32)

        .scalarize(0);


  // The 64-bit versions produce 32-bit results, but only on the SALU.

  getActionDefinitionsBuilder(G_CTPOP)

    .legalFor({{S32, S32}, {S32, S64}})

    .clampScalar(0, S32, S32)

    .widenScalarToNextPow2(1, 32)

    .clampScalar(1, S32, S64)

    .scalarize(0)

    .widenScalarToNextPow2(0, 32);


  // If no 16 bit instr is available, lower into different instructions.

  if (ST.has16BitInsts())

    getActionDefinitionsBuilder(G_IS_FPCLASS)

        .legalForCartesianProduct({S1}, FPTypes16)

        .widenScalarToNextPow2(1)

        .scalarize(0)

        .lower();

  else

    getActionDefinitionsBuilder(G_IS_FPCLASS)

        .legalForCartesianProduct({S1}, FPTypesBase)

        .lowerFor({S1, S16})

        .widenScalarToNextPow2(1)

        .scalarize(0)

        .lower();


  // The hardware instructions return a different result on 0 than the generic

  // instructions expect. The hardware produces -1, but these produce the

  // bitwidth.

  getActionDefinitionsBuilder({G_CTLZ, G_CTTZ})

    .scalarize(0)

    .clampScalar(0, S32, S32)

    .clampScalar(1, S32, S64)

    .widenScalarToNextPow2(0, 32)

    .widenScalarToNextPow2(1, 32)

    .custom();


  // The 64-bit versions produce 32-bit results, but only on the SALU.

  getActionDefinitionsBuilder(G_CTLZ_ZERO_UNDEF)

      .legalFor({{S32, S32}, {S32, S64}})

      .customIf(scalarNarrowerThan(1, 32))

      .clampScalar(0, S32, S32)

      .clampScalar(1, S32, S64)

      .scalarize(0)

      .widenScalarToNextPow2(0, 32)

      .widenScalarToNextPow2(1, 32);


  getActionDefinitionsBuilder(G_CTTZ_ZERO_UNDEF)

      .legalFor({{S32, S32}, {S32, S64}})

      .clampScalar(0, S32, S32)

      .clampScalar(1, S32, S64)

      .scalarize(0)

      .widenScalarToNextPow2(0, 32)

      .widenScalarToNextPow2(1, 32);


  // S64 is only legal on SALU, and needs to be broken into 32-bit elements in

  // RegBankSelect.

  getActionDefinitionsBuilder(G_BITREVERSE)

    .legalFor({S32, S64})

    .clampScalar(0, S32, S64)

    .scalarize(0)

    .widenScalarToNextPow2(0);


  if (ST.has16BitInsts()) {

    getActionDefinitionsBuilder(G_BSWAP)

      .legalFor({S16, S32, V2S16})

      .clampMaxNumElementsStrict(0, S16, 2)

      // FIXME: Fixing non-power-of-2 before clamp is workaround for

      // narrowScalar limitation.

      .widenScalarToNextPow2(0)

      .clampScalar(0, S16, S32)

      .scalarize(0);


    if (ST.hasVOP3PInsts()) {

      getActionDefinitionsBuilder(G_ABS)

          .legalFor({S32, S16, V2S16})

          .clampMaxNumElements(0, S16, 2)

          .minScalar(0, S16)

          .widenScalarToNextPow2(0)

          .scalarize(0)

          .lower();

      if (ST.hasIntMinMax64()) {

        getActionDefinitionsBuilder({G_SMIN, G_SMAX, G_UMIN, G_UMAX})

            .legalFor({S32, S16, S64, V2S16})

            .clampMaxNumElements(0, S16, 2)

            .minScalar(0, S16)

            .widenScalarToNextPow2(0)

            .scalarize(0)

            .lower();

      } else {

        getActionDefinitionsBuilder({G_SMIN, G_SMAX, G_UMIN, G_UMAX})

            .legalFor({S32, S16, V2S16})

            .clampMaxNumElements(0, S16, 2)

            .minScalar(0, S16)

            .widenScalarToNextPow2(0)

            .scalarize(0)

            .lower();

      }

    } else {

      getActionDefinitionsBuilder({G_SMIN, G_SMAX, G_UMIN, G_UMAX, G_ABS})

        .legalFor({S32, S16})

        .widenScalarToNextPow2(0)

        .minScalar(0, S16)

        .scalarize(0)

        .lower();

    }

  } else {

    // TODO: Should have same legality without v_perm_b32

    getActionDefinitionsBuilder(G_BSWAP)

      .legalFor({S32})

      .lowerIf(scalarNarrowerThan(0, 32))

      // FIXME: Fixing non-power-of-2 before clamp is workaround for

      // narrowScalar limitation.

      .widenScalarToNextPow2(0)

      .maxScalar(0, S32)

      .scalarize(0)

      .lower();


    getActionDefinitionsBuilder({G_SMIN, G_SMAX, G_UMIN, G_UMAX, G_ABS})

      .legalFor({S32})

      .minScalar(0, S32)

      .widenScalarToNextPow2(0)

      .scalarize(0)

      .lower();

  }


  getActionDefinitionsBuilder(G_INTTOPTR)

      // List the common cases

      .legalForCartesianProduct(AddrSpaces64, {S64})

      .legalForCartesianProduct(AddrSpaces32, {S32})

      .scalarize(0)

      // Accept any address space as long as the size matches

      .legalIf(sameSize(0, 1))

      .widenScalarIf(smallerThan(1, 0),

                     [](const LegalityQuery &Query) {

                       return std::pair(

                           1, LLT::scalar(Query.Types[0].getSizeInBits()));

                     })

      .narrowScalarIf(largerThan(1, 0), [](const LegalityQuery &Query) {

        return std::pair(1, LLT::scalar(Query.Types[0].getSizeInBits()));

      });


  getActionDefinitionsBuilder(G_PTRTOINT)

      // List the common cases

      .legalForCartesianProduct(AddrSpaces64, {S64})

      .legalForCartesianProduct(AddrSpaces32, {S32})

      .scalarize(0)

      // Accept any address space as long as the size matches

      .legalIf(sameSize(0, 1))

      .widenScalarIf(smallerThan(0, 1),

                     [](const LegalityQuery &Query) {

                       return std::pair(

                           0, LLT::scalar(Query.Types[1].getSizeInBits()));

                     })

      .narrowScalarIf(largerThan(0, 1), [](const LegalityQuery &Query) {

        return std::pair(0, LLT::scalar(Query.Types[1].getSizeInBits()));

      });


  getActionDefinitionsBuilder(G_ADDRSPACE_CAST)

    .scalarize(0)

    .custom();


  const auto needToSplitMemOp = [=](const LegalityQuery &Query,

                                    bool IsLoad) -> bool {

    const LLT DstTy = Query.Types[0];


    // Split vector extloads.

    unsigned MemSize = Query.MMODescrs[0].MemoryTy.getSizeInBits();


    if (DstTy.isVector() && DstTy.getSizeInBits() > MemSize)

      return true;


    const LLT PtrTy = Query.Types[1];

    unsigned AS = PtrTy.getAddressSpace();

    if (MemSize > maxSizeForAddrSpace(ST, AS, IsLoad,

                                      Query.MMODescrs[0].Ordering !=

                                          AtomicOrdering::NotAtomic))

      return true;


    // Catch weird sized loads that don't evenly divide into the access sizes

    // TODO: May be able to widen depending on alignment etc.

    unsigned NumRegs = (MemSize + 31) / 32;

    if (NumRegs == 3) {

      if (!ST.hasDwordx3LoadStores())

        return true;

    } else {

      // If the alignment allows, these should have been widened.

      if (!isPowerOf2_32(NumRegs))

        return true;

    }


    return false;

  };


  unsigned GlobalAlign32 = ST.hasUnalignedBufferAccessEnabled() ? 0 : 32;

  unsigned GlobalAlign16 = ST.hasUnalignedBufferAccessEnabled() ? 0 : 16;

  unsigned GlobalAlign8 = ST.hasUnalignedBufferAccessEnabled() ? 0 : 8;


  // TODO: Refine based on subtargets which support unaligned access or 128-bit

  // LDS

  // TODO: Unsupported flat for SI.


  for (unsigned Op : {G_LOAD, G_STORE}) {

    const bool IsStore = Op == G_STORE;


    auto &Actions = getActionDefinitionsBuilder(Op);

    // Explicitly list some common cases.

    // TODO: Does this help compile time at all?

    Actions.legalForTypesWithMemDesc({{S32, GlobalPtr, S32, GlobalAlign32},

                                      {V2S32, GlobalPtr, V2S32, GlobalAlign32},

                                      {V4S32, GlobalPtr, V4S32, GlobalAlign32},

                                      {S64, GlobalPtr, S64, GlobalAlign32},

                                      {V2S64, GlobalPtr, V2S64, GlobalAlign32},

                                      {V2S16, GlobalPtr, V2S16, GlobalAlign32},

                                      {S32, GlobalPtr, S8, GlobalAlign8},

                                      {S32, GlobalPtr, S16, GlobalAlign16},


                                      {S32, LocalPtr, S32, 32},

                                      {S64, LocalPtr, S64, 32},

                                      {V2S32, LocalPtr, V2S32, 32},

                                      {S32, LocalPtr, S8, 8},

                                      {S32, LocalPtr, S16, 16},

                                      {V2S16, LocalPtr, S32, 32},


                                      {S32, PrivatePtr, S32, 32},

                                      {S32, PrivatePtr, S8, 8},

                                      {S32, PrivatePtr, S16, 16},

                                      {V2S16, PrivatePtr, S32, 32},


                                      {S32, ConstantPtr, S32, GlobalAlign32},

                                      {V2S32, ConstantPtr, V2S32, GlobalAlign32},

                                      {V4S32, ConstantPtr, V4S32, GlobalAlign32},

                                      {S64, ConstantPtr, S64, GlobalAlign32},

                                      {V2S32, ConstantPtr, V2S32, GlobalAlign32}});

    Actions.legalIf(

      [=](const LegalityQuery &Query) -> bool {

        return isLoadStoreLegal(ST, Query);

      });


    // The custom pointers (fat pointers, buffer resources) don't work with load

    // and store at this level. Fat pointers should have been lowered to

    // intrinsics before the translation to MIR.

    Actions.unsupportedIf(

        typeInSet(1, {BufferFatPtr, BufferStridedPtr, RsrcPtr}));


    // Address space 8 pointers are handled by a 4xs32 load, bitcast, and

    // ptrtoint. This is needed to account for the fact that we can't have i128

    // as a register class for SelectionDAG reasons.

    Actions.customIf([=](const LegalityQuery &Query) -> bool {

      return hasBufferRsrcWorkaround(Query.Types[0]);

    });


    // Constant 32-bit is handled by addrspacecasting the 32-bit pointer to

    // 64-bits.

    //

    // TODO: Should generalize bitcast action into coerce, which will also cover

    // inserting addrspacecasts.

    Actions.customIf(typeIs(1, Constant32Ptr));


    // Turn any illegal element vectors into something easier to deal

    // with. These will ultimately produce 32-bit scalar shifts to extract the

    // parts anyway.

    //

    // For odd 16-bit element vectors, prefer to split those into pieces with

    // 16-bit vector parts.

    Actions.bitcastIf(

      [=](const LegalityQuery &Query) -> bool {

        return shouldBitcastLoadStoreType(ST, Query.Types[0],

                                          Query.MMODescrs[0].MemoryTy);

      }, bitcastToRegisterType(0));


    if (!IsStore) {

      // Widen suitably aligned loads by loading extra bytes. The standard

      // legalization actions can't properly express widening memory operands.

      Actions.customIf([=](const LegalityQuery &Query) -> bool {

        return shouldWidenLoad(ST, Query, G_LOAD);

      });

    }


    // FIXME: load/store narrowing should be moved to lower action

    Actions

        .narrowScalarIf(

            [=](const LegalityQuery &Query) -> bool {

              return !Query.Types[0].isVector() &&

                     needToSplitMemOp(Query, Op == G_LOAD);

            },

            [=](const LegalityQuery &Query) -> std::pair<unsigned, LLT> {

              const LLT DstTy = Query.Types[0];

              const LLT PtrTy = Query.Types[1];


              const unsigned DstSize = DstTy.getSizeInBits();

              unsigned MemSize = Query.MMODescrs[0].MemoryTy.getSizeInBits();


              // Split extloads.

              if (DstSize > MemSize)

                return std::pair(0, LLT::scalar(MemSize));


              unsigned MaxSize = maxSizeForAddrSpace(

                  ST, PtrTy.getAddressSpace(), Op == G_LOAD,

                  Query.MMODescrs[0].Ordering != AtomicOrdering::NotAtomic);

              if (MemSize > MaxSize)

                return std::pair(0, LLT::scalar(MaxSize));


              uint64_t Align = Query.MMODescrs[0].AlignInBits;

              return std::pair(0, LLT::scalar(Align));

            })

        .fewerElementsIf(

            [=](const LegalityQuery &Query) -> bool {

              return Query.Types[0].isVector() &&

                     needToSplitMemOp(Query, Op == G_LOAD);

            },

            [=](const LegalityQuery &Query) -> std::pair<unsigned, LLT> {

              const LLT DstTy = Query.Types[0];

              const LLT PtrTy = Query.Types[1];


              LLT EltTy = DstTy.getElementType();

              unsigned MaxSize = maxSizeForAddrSpace(

                  ST, PtrTy.getAddressSpace(), Op == G_LOAD,

                  Query.MMODescrs[0].Ordering != AtomicOrdering::NotAtomic);


              // FIXME: Handle widened to power of 2 results better. This ends

              // up scalarizing.

              // FIXME: 3 element stores scalarized on SI


              // Split if it's too large for the address space.

              unsigned MemSize = Query.MMODescrs[0].MemoryTy.getSizeInBits();

              if (MemSize > MaxSize) {

                unsigned NumElts = DstTy.getNumElements();

                unsigned EltSize = EltTy.getSizeInBits();


                if (MaxSize % EltSize == 0) {

                  return std::pair(

                      0, LLT::scalarOrVector(

                             ElementCount::getFixed(MaxSize / EltSize), EltTy));

                }


                unsigned NumPieces = MemSize / MaxSize;


                // FIXME: Refine when odd breakdowns handled

                // The scalars will need to be re-legalized.

                if (NumPieces == 1 || NumPieces >= NumElts ||

                    NumElts % NumPieces != 0)

                  return std::pair(0, EltTy);


                return std::pair(0,

                                 LLT::fixed_vector(NumElts / NumPieces, EltTy));

              }


              // FIXME: We could probably handle weird extending loads better.

              if (DstTy.getSizeInBits() > MemSize)

                return std::pair(0, EltTy);


              unsigned EltSize = EltTy.getSizeInBits();

              unsigned DstSize = DstTy.getSizeInBits();

              if (!isPowerOf2_32(DstSize)) {

                // We're probably decomposing an odd sized store. Try to split

                // to the widest type. TODO: Account for alignment. As-is it

                // should be OK, since the new parts will be further legalized.

                unsigned FloorSize = llvm::bit_floor(DstSize);

                return std::pair(

                    0, LLT::scalarOrVector(

                           ElementCount::getFixed(FloorSize / EltSize), EltTy));

              }


              // May need relegalization for the scalars.

              return std::pair(0, EltTy);

            })

        .minScalar(0, S32)

        .narrowScalarIf(isTruncStoreToSizePowerOf2(0),

                        getScalarTypeFromMemDesc(0))

        .widenScalarToNextPow2(0)

        .moreElementsIf(vectorSmallerThan(0, 32), moreEltsToNext32Bit(0))

        .lower();

  }


  // FIXME: Unaligned accesses not lowered.

  auto &ExtLoads = getActionDefinitionsBuilder({G_SEXTLOAD, G_ZEXTLOAD})

                       .legalForTypesWithMemDesc({{S32, GlobalPtr, S8, 8},

                                                  {S32, GlobalPtr, S16, 2 * 8},

                                                  {S32, LocalPtr, S8, 8},

                                                  {S32, LocalPtr, S16, 16},

                                                  {S32, PrivatePtr, S8, 8},

                                                  {S32, PrivatePtr, S16, 16},

                                                  {S32, ConstantPtr, S8, 8},

                                                  {S32, ConstantPtr, S16, 2 * 8}})

                       .legalIf(

                         [=](const LegalityQuery &Query) -> bool {

                           return isLoadStoreLegal(ST, Query);

                         });


  if (ST.hasFlatAddressSpace()) {

    ExtLoads.legalForTypesWithMemDesc(

        {{S32, FlatPtr, S8, 8}, {S32, FlatPtr, S16, 16}});

  }


  // Constant 32-bit is handled by addrspacecasting the 32-bit pointer to

  // 64-bits.

  //

  // TODO: Should generalize bitcast action into coerce, which will also cover

  // inserting addrspacecasts.

  ExtLoads.customIf(typeIs(1, Constant32Ptr));


  ExtLoads.clampScalar(0, S32, S32)

          .widenScalarToNextPow2(0)

          .lower();


  auto &Atomics = getActionDefinitionsBuilder(

    {G_ATOMICRMW_XCHG, G_ATOMICRMW_ADD, G_ATOMICRMW_SUB,

     G_ATOMICRMW_AND, G_ATOMICRMW_OR, G_ATOMICRMW_XOR,

     G_ATOMICRMW_MAX, G_ATOMICRMW_MIN, G_ATOMICRMW_UMAX,

     G_ATOMICRMW_UMIN, G_ATOMICRMW_UINC_WRAP, G_ATOMICRMW_UDEC_WRAP})

    .legalFor({{S32, GlobalPtr}, {S32, LocalPtr},

               {S64, GlobalPtr}, {S64, LocalPtr},

               {S32, RegionPtr}, {S64, RegionPtr}});

  if (ST.hasFlatAddressSpace()) {

    Atomics.legalFor({{S32, FlatPtr}, {S64, FlatPtr}});

  }


  // TODO: v2bf16 operations, and fat buffer pointer support.

  auto &Atomic = getActionDefinitionsBuilder(G_ATOMICRMW_FADD);

  if (ST.hasLDSFPAtomicAddF32()) {

    Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});

    if (ST.hasLdsAtomicAddF64())

      Atomic.legalFor({{S64, LocalPtr}});

    if (ST.hasAtomicDsPkAdd16Insts())

      Atomic.legalFor({{V2F16, LocalPtr}, {V2BF16, LocalPtr}});

  }

  if (ST.hasAtomicFaddInsts())

    Atomic.legalFor({{S32, GlobalPtr}});

  if (ST.hasFlatAtomicFaddF32Inst())

    Atomic.legalFor({{S32, FlatPtr}});


  if (ST.hasGFX90AInsts() || ST.hasGFX1250Insts()) {

    // These are legal with some caveats, and should have undergone expansion in

    // the IR in most situations

    // TODO: Move atomic expansion into legalizer

    Atomic.legalFor({

        {S32, GlobalPtr},

        {S64, GlobalPtr},

        {S64, FlatPtr}

      });

  }


  if (ST.hasAtomicBufferGlobalPkAddF16NoRtnInsts() ||

      ST.hasAtomicBufferGlobalPkAddF16Insts())

    Atomic.legalFor({{V2F16, GlobalPtr}, {V2F16, BufferFatPtr}});

  if (ST.hasAtomicGlobalPkAddBF16Inst())

    Atomic.legalFor({{V2BF16, GlobalPtr}});

  if (ST.hasAtomicFlatPkAdd16Insts())

    Atomic.legalFor({{V2F16, FlatPtr}, {V2BF16, FlatPtr}});


  // Most of the legalization work here is done by AtomicExpand. We could

  // probably use a simpler legality rule that just assumes anything is OK.

  auto &AtomicFMinFMax =

    getActionDefinitionsBuilder({G_ATOMICRMW_FMIN, G_ATOMICRMW_FMAX})

    .legalFor({{F32, LocalPtr}, {F64, LocalPtr}});


  if (ST.hasAtomicFMinFMaxF32GlobalInsts())

    AtomicFMinFMax.legalFor({{F32, GlobalPtr},{F32, BufferFatPtr}});

  if (ST.hasAtomicFMinFMaxF64GlobalInsts())

    AtomicFMinFMax.legalFor({{F64, GlobalPtr}, {F64, BufferFatPtr}});

  if (ST.hasAtomicFMinFMaxF32FlatInsts())

    AtomicFMinFMax.legalFor({F32, FlatPtr});

  if (ST.hasAtomicFMinFMaxF64FlatInsts())

    AtomicFMinFMax.legalFor({F64, FlatPtr});


  // BUFFER/FLAT_ATOMIC_CMP_SWAP on GCN GPUs needs input marshalling, and output

  // demarshalling

  getActionDefinitionsBuilder(G_ATOMIC_CMPXCHG)

    .customFor({{S32, GlobalPtr}, {S64, GlobalPtr},

                {S32, FlatPtr}, {S64, FlatPtr}})

    .legalFor({{S32, LocalPtr}, {S64, LocalPtr},

               {S32, RegionPtr}, {S64, RegionPtr}});

  // TODO: Pointer types, any 32-bit or 64-bit vector


  // Condition should be s32 for scalar, s1 for vector.

  getActionDefinitionsBuilder(G_SELECT)

      .legalForCartesianProduct({S32, S64, S16, V2S32, V2S16, V4S16, GlobalPtr,

                                 LocalPtr, FlatPtr, PrivatePtr,

                                 LLT::fixed_vector(2, LocalPtr),

                                 LLT::fixed_vector(2, PrivatePtr)},

                                {S1, S32})

      .clampScalar(0, S16, S64)

      .scalarize(1)

      .moreElementsIf(isSmallOddVector(0), oneMoreElement(0))

      .fewerElementsIf(numElementsNotEven(0), scalarize(0))

      .clampMaxNumElements(0, S32, 2)

      .clampMaxNumElements(0, LocalPtr, 2)

      .clampMaxNumElements(0, PrivatePtr, 2)

      .scalarize(0)

      .widenScalarToNextPow2(0)

      .legalIf(all(isPointer(0), typeInSet(1, {S1, S32})));


  // TODO: Only the low 4/5/6 bits of the shift amount are observed, so we can

  // be more flexible with the shift amount type.

  auto &Shifts = getActionDefinitionsBuilder({G_SHL, G_LSHR, G_ASHR})

    .legalFor({{S32, S32}, {S64, S32}});

  if (ST.has16BitInsts()) {

    if (ST.hasVOP3PInsts()) {

      Shifts.legalFor({{S16, S16}, {V2S16, V2S16}})

            .clampMaxNumElements(0, S16, 2);

    } else

      Shifts.legalFor({{S16, S16}});


    // TODO: Support 16-bit shift amounts for all types

    Shifts.widenScalarIf(

      [=](const LegalityQuery &Query) {

        // Use 16-bit shift amounts for any 16-bit shift. Otherwise we want a

        // 32-bit amount.

        const LLT ValTy = Query.Types[0];

        const LLT AmountTy = Query.Types[1];

        return ValTy.isScalar() && ValTy.getSizeInBits() <= 16 &&

               AmountTy.getSizeInBits() < 16;

      }, changeTo(1, S16));

    Shifts.maxScalarIf(typeIs(0, S16), 1, S16);

    Shifts.clampScalar(1, S32, S32);

    Shifts.widenScalarToNextPow2(0, 16);

    Shifts.clampScalar(0, S16, S64);


    getActionDefinitionsBuilder({G_SSHLSAT, G_USHLSAT})

      .minScalar(0, S16)

      .scalarize(0)

      .lower();

  } else {

    // Make sure we legalize the shift amount type first, as the general

    // expansion for the shifted type will produce much worse code if it hasn't

    // been truncated already.

    Shifts.clampScalar(1, S32, S32);

    Shifts.widenScalarToNextPow2(0, 32);

    Shifts.clampScalar(0, S32, S64);


    getActionDefinitionsBuilder({G_SSHLSAT, G_USHLSAT})

      .minScalar(0, S32)

      .scalarize(0)

      .lower();

  }

  Shifts.scalarize(0);


  for (unsigned Op : {G_EXTRACT_VECTOR_ELT, G_INSERT_VECTOR_ELT}) {

    unsigned VecTypeIdx = Op == G_EXTRACT_VECTOR_ELT ? 1 : 0;

    unsigned EltTypeIdx = Op == G_EXTRACT_VECTOR_ELT ? 0 : 1;

    unsigned IdxTypeIdx = 2;


    getActionDefinitionsBuilder(Op)

        .customIf([=](const LegalityQuery &Query) {

          const LLT EltTy = Query.Types[EltTypeIdx];

          const LLT VecTy = Query.Types[VecTypeIdx];

          const LLT IdxTy = Query.Types[IdxTypeIdx];

          const unsigned EltSize = EltTy.getSizeInBits();

          const bool isLegalVecType =

              !!SIRegisterInfo::getSGPRClassForBitWidth(VecTy.getSizeInBits());

          // Address space 8 pointers are 128-bit wide values, but the logic

          // below will try to bitcast them to 2N x s64, which will fail.

          // Therefore, as an intermediate step, wrap extracts/insertions from a

          // ptrtoint-ing the vector and scalar arguments (or inttoptring the

          // extraction result) in order to produce a vector operation that can

          // be handled by the logic below.

          if (EltTy.isPointer() && EltSize > 64)

            return true;

          return (EltSize == 32 || EltSize == 64) &&

                  VecTy.getSizeInBits() % 32 == 0 &&

                  VecTy.getSizeInBits() <= MaxRegisterSize &&

                  IdxTy.getSizeInBits() == 32 &&

                  isLegalVecType;

        })

        .bitcastIf(all(sizeIsMultipleOf32(VecTypeIdx),

                       scalarOrEltNarrowerThan(VecTypeIdx, 32)),

                   bitcastToVectorElement32(VecTypeIdx))

        //.bitcastIf(vectorSmallerThan(1, 32), bitcastToScalar(1))

        .bitcastIf(all(sizeIsMultipleOf32(VecTypeIdx),

                       scalarOrEltWiderThan(VecTypeIdx, 64)),

                   [=](const LegalityQuery &Query) {

                     // For > 64-bit element types, try to turn this into a

                     // 64-bit element vector since we may be able to do better

                     // indexing if this is scalar. If not, fall back to 32.

                     const LLT EltTy = Query.Types[EltTypeIdx];

                     const LLT VecTy = Query.Types[VecTypeIdx];

                     const unsigned DstEltSize = EltTy.getSizeInBits();

                     const unsigned VecSize = VecTy.getSizeInBits();


                     const unsigned TargetEltSize =

                         DstEltSize % 64 == 0 ? 64 : 32;

                     return std::pair(VecTypeIdx,

                                      LLT::fixed_vector(VecSize / TargetEltSize,

                                                        TargetEltSize));

                   })

        .clampScalar(EltTypeIdx, S32, S64)

        .clampScalar(VecTypeIdx, S32, S64)

        .clampScalar(IdxTypeIdx, S32, S32)

        .clampMaxNumElements(VecTypeIdx, S32, 32)

        // TODO: Clamp elements for 64-bit vectors?

        .moreElementsIf(isIllegalRegisterType(ST, VecTypeIdx),

                        moreElementsToNextExistingRegClass(VecTypeIdx))

        // It should only be necessary with variable indexes.

        // As a last resort, lower to the stack

        .lower();

  }


  getActionDefinitionsBuilder(G_EXTRACT_VECTOR_ELT)

    .unsupportedIf([=](const LegalityQuery &Query) {

        const LLT &EltTy = Query.Types[1].getElementType();

        return Query.Types[0] != EltTy;

      });


  for (unsigned Op : {G_EXTRACT, G_INSERT}) {

    unsigned BigTyIdx = Op == G_EXTRACT ? 1 : 0;

    unsigned LitTyIdx = Op == G_EXTRACT ? 0 : 1;


    // FIXME: Doesn't handle extract of illegal sizes.

    getActionDefinitionsBuilder(Op)

      .lowerIf(all(typeIs(LitTyIdx, S16), sizeIs(BigTyIdx, 32)))

      .lowerIf([=](const LegalityQuery &Query) {

          // Sub-vector(or single element) insert and extract.

          // TODO: verify immediate offset here since lower only works with

          // whole elements.

          const LLT BigTy = Query.Types[BigTyIdx];

          return BigTy.isVector();

        })

      // FIXME: Multiples of 16 should not be legal.

      .legalIf([=](const LegalityQuery &Query) {

          const LLT BigTy = Query.Types[BigTyIdx];

          const LLT LitTy = Query.Types[LitTyIdx];

          return (BigTy.getSizeInBits() % 32 == 0) &&

                 (LitTy.getSizeInBits() % 16 == 0);

        })

      .widenScalarIf(

        [=](const LegalityQuery &Query) {

          const LLT BigTy = Query.Types[BigTyIdx];

          return (BigTy.getScalarSizeInBits() < 16);

        },

        LegalizeMutations::widenScalarOrEltToNextPow2(BigTyIdx, 16))

      .widenScalarIf(

        [=](const LegalityQuery &Query) {

          const LLT LitTy = Query.Types[LitTyIdx];

          return (LitTy.getScalarSizeInBits() < 16);

        },

        LegalizeMutations::widenScalarOrEltToNextPow2(LitTyIdx, 16))

      .moreElementsIf(isSmallOddVector(BigTyIdx), oneMoreElement(BigTyIdx))

      .widenScalarToNextPow2(BigTyIdx, 32);


  }


  auto &BuildVector =

      getActionDefinitionsBuilder(G_BUILD_VECTOR)

          .legalForCartesianProduct(AllS32Vectors, {S32})

          .legalForCartesianProduct(AllS64Vectors, {S64})

          .clampNumElements(0, V16S32, V32S32)

          .clampNumElements(0, V2S64, V16S64)

          .fewerElementsIf(isWideVec16(0), changeTo(0, V2S16))

          .moreElementsIf(isIllegalRegisterType(ST, 0),

                          moreElementsToNextExistingRegClass(0));


  if (ST.hasScalarPackInsts()) {

    BuildVector

      // FIXME: Should probably widen s1 vectors straight to s32

      .minScalarOrElt(0, S16)

      .minScalar(1, S16);


    getActionDefinitionsBuilder(G_BUILD_VECTOR_TRUNC)

      .legalFor({V2S16, S32})

      .lower();

  } else {

    BuildVector.customFor({V2S16, S16});

    BuildVector.minScalarOrElt(0, S32);


    getActionDefinitionsBuilder(G_BUILD_VECTOR_TRUNC)

      .customFor({V2S16, S32})

      .lower();

  }


  BuildVector.legalIf(isRegisterType(ST, 0));


  // FIXME: Clamp maximum size

  getActionDefinitionsBuilder(G_CONCAT_VECTORS)

      .legalIf(all(isRegisterType(ST, 0), isRegisterType(ST, 1)))

      .clampMaxNumElements(0, S32, 32)

      .clampMaxNumElements(1, S16, 2) // TODO: Make 4?

      .clampMaxNumElements(0, S16, 64);


  getActionDefinitionsBuilder(G_SHUFFLE_VECTOR).lower();


  // Merge/Unmerge

  for (unsigned Op : {G_MERGE_VALUES, G_UNMERGE_VALUES}) {

    unsigned BigTyIdx = Op == G_MERGE_VALUES ? 0 : 1;

    unsigned LitTyIdx = Op == G_MERGE_VALUES ? 1 : 0;


    auto notValidElt = [=](const LegalityQuery &Query, unsigned TypeIdx) {

      const LLT Ty = Query.Types[TypeIdx];

      if (Ty.isVector()) {

        const LLT &EltTy = Ty.getElementType();

        if (EltTy.getSizeInBits() < 8 || EltTy.getSizeInBits() > 512)

          return true;

        if (!llvm::has_single_bit<uint32_t>(EltTy.getSizeInBits()))

          return true;

      }

      return false;

    };


    auto &Builder =

        getActionDefinitionsBuilder(Op)

            .legalIf(all(isRegisterType(ST, 0), isRegisterType(ST, 1)))

            .lowerFor({{S16, V2S16}})

            .lowerIf([=](const LegalityQuery &Query) {

              const LLT BigTy = Query.Types[BigTyIdx];

              return BigTy.getSizeInBits() == 32;

            })

            // Try to widen to s16 first for small types.

            // TODO: Only do this on targets with legal s16 shifts

            .minScalarOrEltIf(scalarNarrowerThan(LitTyIdx, 16), LitTyIdx, S16)

            .widenScalarToNextPow2(LitTyIdx, /*Min*/ 16)

            .moreElementsIf(isSmallOddVector(BigTyIdx),

                            oneMoreElement(BigTyIdx))

            .fewerElementsIf(all(typeIs(0, S16), vectorWiderThan(1, 32),

                                 elementTypeIs(1, S16)),

                             changeTo(1, V2S16))

            // Clamp the little scalar to s8-s256 and make it a power of 2. It's

            // not worth considering the multiples of 64 since 2*192 and 2*384

            // are not valid.

            .clampScalar(LitTyIdx, S32, S512)

            .widenScalarToNextPow2(LitTyIdx, /*Min*/ 32)

            // Break up vectors with weird elements into scalars

            .fewerElementsIf(

                [=](const LegalityQuery &Query) {

                  return notValidElt(Query, LitTyIdx);

                },

                scalarize(0))

            .fewerElementsIf(

                [=](const LegalityQuery &Query) {

                  return notValidElt(Query, BigTyIdx);

                },

                scalarize(1))

            .clampScalar(BigTyIdx, S32, MaxScalar);


    if (Op == G_MERGE_VALUES) {

      Builder.widenScalarIf(

        // TODO: Use 16-bit shifts if legal for 8-bit values?

        [=](const LegalityQuery &Query) {

          const LLT Ty = Query.Types[LitTyIdx];

          return Ty.getSizeInBits() < 32;

        },

        changeTo(LitTyIdx, S32));

    }


    Builder.widenScalarIf(

      [=](const LegalityQuery &Query) {

        const LLT Ty = Query.Types[BigTyIdx];

        return Ty.getSizeInBits() % 16 != 0;

      },

      [=](const LegalityQuery &Query) {

        // Pick the next power of 2, or a multiple of 64 over 128.

        // Whichever is smaller.

        const LLT &Ty = Query.Types[BigTyIdx];

        unsigned NewSizeInBits = 1 << Log2_32_Ceil(Ty.getSizeInBits() + 1);

        if (NewSizeInBits >= 256) {

          unsigned RoundedTo = alignTo<64>(Ty.getSizeInBits() + 1);

          if (RoundedTo < NewSizeInBits)

            NewSizeInBits = RoundedTo;

        }

        return std::pair(BigTyIdx, LLT::scalar(NewSizeInBits));

      })

      // Any vectors left are the wrong size. Scalarize them.

      .scalarize(0)

      .scalarize(1);

  }


  // S64 is only legal on SALU, and needs to be broken into 32-bit elements in

  // RegBankSelect.

  auto &SextInReg = getActionDefinitionsBuilder(G_SEXT_INREG)

                        .legalFor({{S32}, {S64}})

                        .clampScalar(0, S32, S64);


  if (ST.hasVOP3PInsts()) {

    SextInReg.lowerFor({{V2S16}})

      // Prefer to reduce vector widths for 16-bit vectors before lowering, to

      // get more vector shift opportunities, since we'll get those when

      // expanded.

      .clampMaxNumElementsStrict(0, S16, 2);

  } else if (ST.has16BitInsts()) {

    SextInReg.lowerFor({{S32}, {S64}, {S16}});

  } else {

    // Prefer to promote to s32 before lowering if we don't have 16-bit

    // shifts. This avoid a lot of intermediate truncate and extend operations.

    SextInReg.lowerFor({{S32}, {S64}});

  }


  SextInReg

    .scalarize(0)

    .clampScalar(0, S32, S64)

    .lower();


  getActionDefinitionsBuilder({G_ROTR, G_ROTL})

    .scalarize(0)

    .lower();


  auto &FSHRActionDefs = getActionDefinitionsBuilder(G_FSHR);

  FSHRActionDefs.legalFor({{S32, S32}})

                              .clampMaxNumElementsStrict(0, S16, 2);

  if (ST.hasVOP3PInsts())

    FSHRActionDefs.lowerFor({{V2S16, V2S16}});

  FSHRActionDefs.scalarize(0).lower();


  if (ST.hasVOP3PInsts()) {

    getActionDefinitionsBuilder(G_FSHL)

      .lowerFor({{V2S16, V2S16}})

      .clampMaxNumElementsStrict(0, S16, 2)

      .scalarize(0)

      .lower();

  } else {

    getActionDefinitionsBuilder(G_FSHL)

      .scalarize(0)

      .lower();

  }


  getActionDefinitionsBuilder(G_READCYCLECOUNTER)

    .legalFor({S64});


  getActionDefinitionsBuilder(G_READSTEADYCOUNTER).legalFor({S64});


  getActionDefinitionsBuilder(G_FENCE)

    .alwaysLegal();


  getActionDefinitionsBuilder({G_SMULO, G_UMULO})

      .scalarize(0)

      .minScalar(0, S32)

      .lower();


  getActionDefinitionsBuilder({G_SBFX, G_UBFX})

      .legalFor({{S32, S32}, {S64, S32}})

      .clampScalar(1, S32, S32)

      .clampScalar(0, S32, S64)

      .widenScalarToNextPow2(0)

      .scalarize(0);


  getActionDefinitionsBuilder(

      {// TODO: Verify V_BFI_B32 is generated from expanded bit ops

       G_FCOPYSIGN,


       G_ATOMIC_CMPXCHG_WITH_SUCCESS, G_ATOMICRMW_NAND, G_ATOMICRMW_FSUB,

       G_READ_REGISTER, G_WRITE_REGISTER,


       G_SADDO, G_SSUBO})

      .lower();


  if (ST.hasIEEEMinimumMaximumInsts()) {

    getActionDefinitionsBuilder({G_FMINIMUM, G_FMAXIMUM})

        .legalFor(FPTypesPK16)

        .clampMaxNumElements(0, S16, 2)

        .scalarize(0);

  } else {

    // TODO: Implement

    getActionDefinitionsBuilder({G_FMINIMUM, G_FMAXIMUM}).lower();

  }


  getActionDefinitionsBuilder({G_MEMCPY, G_MEMCPY_INLINE, G_MEMMOVE, G_MEMSET})

      .lower();


  getActionDefinitionsBuilder({G_TRAP, G_DEBUGTRAP}).custom();


  getActionDefinitionsBuilder({G_VASTART, G_VAARG, G_BRJT, G_JUMP_TABLE,

        G_INDEXED_LOAD, G_INDEXED_SEXTLOAD,

        G_INDEXED_ZEXTLOAD, G_INDEXED_STORE})

    .unsupported();


  getActionDefinitionsBuilder(G_PREFETCH).alwaysLegal();


  getActionDefinitionsBuilder(

      {G_VECREDUCE_SMIN, G_VECREDUCE_SMAX, G_VECREDUCE_UMIN, G_VECREDUCE_UMAX,

       G_VECREDUCE_ADD, G_VECREDUCE_MUL, G_VECREDUCE_FMUL, G_VECREDUCE_FMIN,

       G_VECREDUCE_FMAX, G_VECREDUCE_FMINIMUM, G_VECREDUCE_FMAXIMUM,

       G_VECREDUCE_OR, G_VECREDUCE_AND, G_VECREDUCE_XOR})

      .legalFor(AllVectors)

      .scalarize(1)

      .lower();


  getLegacyLegalizerInfo().computeTables();

  verify(*ST.getInstrInfo());

}


bool AMDGPULegalizerInfo::legalizeCustom(

    LegalizerHelper &Helper, MachineInstr &MI,

    LostDebugLocObserver &LocObserver) const {

  MachineIRBuilder &B = Helper.MIRBuilder;

  MachineRegisterInfo &MRI = *B.getMRI();


  switch (MI.getOpcode()) {

  case TargetOpcode::G_ADDRSPACE_CAST:

    return legalizeAddrSpaceCast(MI, MRI, B);

  case TargetOpcode::G_INTRINSIC_ROUNDEVEN:

    return legalizeFroundeven(MI, MRI, B);

  case TargetOpcode::G_FCEIL:

    return legalizeFceil(MI, MRI, B);

  case TargetOpcode::G_FREM:

    return legalizeFrem(MI, MRI, B);

  case TargetOpcode::G_INTRINSIC_TRUNC:

    return legalizeIntrinsicTrunc(MI, MRI, B);

  case TargetOpcode::G_SITOFP:

    return legalizeITOFP(MI, MRI, B, true);

  case TargetOpcode::G_UITOFP:

    return legalizeITOFP(MI, MRI, B, false);

  case TargetOpcode::G_FPTOSI:

    return legalizeFPTOI(MI, MRI, B, true);

  case TargetOpcode::G_FPTOUI:

    return legalizeFPTOI(MI, MRI, B, false);

  case TargetOpcode::G_FMINNUM:

  case TargetOpcode::G_FMAXNUM:

  case TargetOpcode::G_FMINIMUMNUM:

  case TargetOpcode::G_FMAXIMUMNUM:

  case TargetOpcode::G_FMINNUM_IEEE:

  case TargetOpcode::G_FMAXNUM_IEEE:

    return legalizeMinNumMaxNum(Helper, MI);

  case TargetOpcode::G_EXTRACT_VECTOR_ELT:

    return legalizeExtractVectorElt(MI, MRI, B);

  case TargetOpcode::G_INSERT_VECTOR_ELT:

    return legalizeInsertVectorElt(MI, MRI, B);

  case TargetOpcode::G_FSIN:

  case TargetOpcode::G_FCOS:

    return legalizeSinCos(MI, MRI, B);

  case TargetOpcode::G_GLOBAL_VALUE:

    return legalizeGlobalValue(MI, MRI, B);

  case TargetOpcode::G_LOAD:

  case TargetOpcode::G_SEXTLOAD:

  case TargetOpcode::G_ZEXTLOAD:

    return legalizeLoad(Helper, MI);

  case TargetOpcode::G_STORE:

    return legalizeStore(Helper, MI);

  case TargetOpcode::G_FMAD:

    return legalizeFMad(MI, MRI, B);

  case TargetOpcode::G_FDIV:

    return legalizeFDIV(MI, MRI, B);

  case TargetOpcode::G_FFREXP:

    return legalizeFFREXP(MI, MRI, B);

  case TargetOpcode::G_FSQRT:

    return legalizeFSQRT(MI, MRI, B);

  case TargetOpcode::G_UDIV:

  case TargetOpcode::G_UREM:

  case TargetOpcode::G_UDIVREM:

    return legalizeUnsignedDIV_REM(MI, MRI, B);

  case TargetOpcode::G_SDIV:

  case TargetOpcode::G_SREM:

  case TargetOpcode::G_SDIVREM:

    return legalizeSignedDIV_REM(MI, MRI, B);

  case TargetOpcode::G_ATOMIC_CMPXCHG:

    return legalizeAtomicCmpXChg(MI, MRI, B);

  case TargetOpcode::G_FLOG2:

    return legalizeFlog2(MI, B);

  case TargetOpcode::G_FLOG:

  case TargetOpcode::G_FLOG10:

    return legalizeFlogCommon(MI, B);

  case TargetOpcode::G_FEXP2:

    return legalizeFExp2(MI, B);

  case TargetOpcode::G_FEXP:

  case TargetOpcode::G_FEXP10:

    return legalizeFExp(MI, B);

  case TargetOpcode::G_FPOW:

    return legalizeFPow(MI, B);

  case TargetOpcode::G_FFLOOR:

    return legalizeFFloor(MI, MRI, B);

  case TargetOpcode::G_BUILD_VECTOR:

  case TargetOpcode::G_BUILD_VECTOR_TRUNC:

    return legalizeBuildVector(MI, MRI, B);

  case TargetOpcode::G_MUL:

    return legalizeMul(Helper, MI);

  case TargetOpcode::G_CTLZ:

  case TargetOpcode::G_CTTZ:

    return legalizeCTLZ_CTTZ(MI, MRI, B);

  case TargetOpcode::G_CTLZ_ZERO_UNDEF:

    return legalizeCTLZ_ZERO_UNDEF(MI, MRI, B);

  case TargetOpcode::G_STACKSAVE:

    return legalizeStackSave(MI, B);

  case TargetOpcode::G_GET_FPENV:

    return legalizeGetFPEnv(MI, MRI, B);

  case TargetOpcode::G_SET_FPENV:

    return legalizeSetFPEnv(MI, MRI, B);

  case TargetOpcode::G_TRAP:

    return legalizeTrap(MI, MRI, B);

  case TargetOpcode::G_DEBUGTRAP:

    return legalizeDebugTrap(MI, MRI, B);

  default:

    return false;

  }


  llvm_unreachable("expected switch to return");

}


Register AMDGPULegalizerInfo::getSegmentAperture(

  unsigned AS,

  MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {

  MachineFunction &MF = B.getMF();

  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

  const LLT S32 = LLT::scalar(32);

  const LLT S64 = LLT::scalar(64);


  assert(AS == AMDGPUAS::LOCAL_ADDRESS || AS == AMDGPUAS::PRIVATE_ADDRESS);


  if (ST.hasApertureRegs()) {

    // Note: this register is somewhat broken. When used as a 32-bit operand,

    // it only returns zeroes. The real value is in the upper 32 bits.

    // Thus, we must emit extract the high 32 bits.

    const unsigned ApertureRegNo = (AS == AMDGPUAS::LOCAL_ADDRESS)

                                       ? AMDGPU::SRC_SHARED_BASE

                                       : AMDGPU::SRC_PRIVATE_BASE;

    assert((ApertureRegNo != AMDGPU::SRC_PRIVATE_BASE ||

            !ST.hasGloballyAddressableScratch()) &&

           "Cannot use src_private_base with globally addressable scratch!");

    // FIXME: It would be more natural to emit a COPY here, but then copy

    // coalescing would kick in and it would think it's okay to use the "HI"

    // subregister (instead of extracting the HI 32 bits) which is an artificial

    // (unusable) register.

    //  Register TableGen definitions would need an overhaul to get rid of the

    //  artificial "HI" aperture registers and prevent this kind of issue from

    //  happening.

    Register Dst = MRI.createGenericVirtualRegister(S64);

    MRI.setRegClass(Dst, &AMDGPU::SReg_64RegClass);

    B.buildInstr(AMDGPU::S_MOV_B64, {Dst}, {Register(ApertureRegNo)});

    return B.buildUnmerge(S32, Dst).getReg(1);

  }


  // TODO: can we be smarter about machine pointer info?

  MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);

  Register LoadAddr = MRI.createGenericVirtualRegister(

    LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));

  // For code object version 5, private_base and shared_base are passed through

  // implicit kernargs.

  if (AMDGPU::getAMDHSACodeObjectVersion(*MF.getFunction().getParent()) >=

      AMDGPU::AMDHSA_COV5) {

    AMDGPUTargetLowering::ImplicitParameter Param =

        AS == AMDGPUAS::LOCAL_ADDRESS ? AMDGPUTargetLowering::SHARED_BASE

                                      : AMDGPUTargetLowering::PRIVATE_BASE;

    uint64_t Offset =

        ST.getTargetLowering()->getImplicitParameterOffset(B.getMF(), Param);


    Register KernargPtrReg = MRI.createGenericVirtualRegister(

        LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));


    if (!loadInputValue(KernargPtrReg, B,

                        AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR))

      return Register();


    MachineMemOperand *MMO = MF.getMachineMemOperand(

        PtrInfo,

        MachineMemOperand::MOLoad | MachineMemOperand::MODereferenceable |

            MachineMemOperand::MOInvariant,

        LLT::scalar(32), commonAlignment(Align(64), Offset));


    // Pointer address

    B.buildObjectPtrOffset(LoadAddr, KernargPtrReg,

                           B.buildConstant(LLT::scalar(64), Offset).getReg(0));

    // Load address

    return B.buildLoad(S32, LoadAddr, *MMO).getReg(0);

  }


  Register QueuePtr = MRI.createGenericVirtualRegister(

    LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));


  if (!loadInputValue(QueuePtr, B, AMDGPUFunctionArgInfo::QUEUE_PTR))

    return Register();


  // Offset into amd_queue_t for group_segment_aperture_base_hi /

  // private_segment_aperture_base_hi.

  uint32_t StructOffset = (AS == AMDGPUAS::LOCAL_ADDRESS) ? 0x40 : 0x44;


  MachineMemOperand *MMO = MF.getMachineMemOperand(

      PtrInfo,

      MachineMemOperand::MOLoad | MachineMemOperand::MODereferenceable |

          MachineMemOperand::MOInvariant,

      LLT::scalar(32), commonAlignment(Align(64), StructOffset));


  B.buildObjectPtrOffset(

      LoadAddr, QueuePtr,

      B.buildConstant(LLT::scalar(64), StructOffset).getReg(0));

  return B.buildLoad(S32, LoadAddr, *MMO).getReg(0);

}


/// Return true if the value is a known valid address, such that a null check is

/// not necessary.


static bool isKnownNonNull(Register Val, MachineRegisterInfo &MRI,

                           const AMDGPUTargetMachine &TM, unsigned AddrSpace) {

  MachineInstr *Def = MRI.getVRegDef(Val);

  switch (Def->getOpcode()) {

  case AMDGPU::G_FRAME_INDEX:

  case AMDGPU::G_GLOBAL_VALUE:

  case AMDGPU::G_BLOCK_ADDR:

    return true;

  case AMDGPU::G_CONSTANT: {

    const ConstantInt *CI = Def->getOperand(1).getCImm();

    return CI->getSExtValue() != TM.getNullPointerValue(AddrSpace);

  }

  default:

    return false;

  }


  return false;

}


bool AMDGPULegalizerInfo::legalizeAddrSpaceCast(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {

  MachineFunction &MF = B.getMF();


  // MI can either be a G_ADDRSPACE_CAST or a

  // G_INTRINSIC @llvm.amdgcn.addrspacecast.nonnull

  assert(MI.getOpcode() == TargetOpcode::G_ADDRSPACE_CAST ||

         (isa<GIntrinsic>(MI) && cast<GIntrinsic>(MI).getIntrinsicID() ==

                                     Intrinsic::amdgcn_addrspacecast_nonnull));


  const LLT S32 = LLT::scalar(32);

  Register Dst = MI.getOperand(0).getReg();

  Register Src = isa<GIntrinsic>(MI) ? MI.getOperand(2).getReg()

                                     : MI.getOperand(1).getReg();

  LLT DstTy = MRI.getType(Dst);

  LLT SrcTy = MRI.getType(Src);

  unsigned DestAS = DstTy.getAddressSpace();

  unsigned SrcAS = SrcTy.getAddressSpace();


  // TODO: Avoid reloading from the queue ptr for each cast, or at least each

  // vector element.

  assert(!DstTy.isVector());


  const AMDGPUTargetMachine &TM

    = static_cast<const AMDGPUTargetMachine &>(MF.getTarget());


  if (TM.isNoopAddrSpaceCast(SrcAS, DestAS)) {

    MI.setDesc(B.getTII().get(TargetOpcode::G_BITCAST));

    return true;

  }


  if (SrcAS == AMDGPUAS::FLAT_ADDRESS &&

      (DestAS == AMDGPUAS::LOCAL_ADDRESS ||

       DestAS == AMDGPUAS::PRIVATE_ADDRESS)) {

    auto castFlatToLocalOrPrivate = [&](const DstOp &Dst) -> Register {

      if (DestAS == AMDGPUAS::PRIVATE_ADDRESS &&

          ST.hasGloballyAddressableScratch()) {

        // flat -> private with globally addressable scratch: subtract

        // src_flat_scratch_base_lo.

        const LLT S32 = LLT::scalar(32);

        Register SrcLo = B.buildExtract(S32, Src, 0).getReg(0);

        Register FlatScratchBaseLo =

            B.buildInstr(AMDGPU::S_MOV_B32, {S32},

                         {Register(AMDGPU::SRC_FLAT_SCRATCH_BASE_LO)})

                .getReg(0);

        MRI.setRegClass(FlatScratchBaseLo, &AMDGPU::SReg_32RegClass);

        Register Sub = B.buildSub(S32, SrcLo, FlatScratchBaseLo).getReg(0);

        return B.buildIntToPtr(Dst, Sub).getReg(0);

      }


      // Extract low 32-bits of the pointer.

      return B.buildExtract(Dst, Src, 0).getReg(0);

    };


    // For llvm.amdgcn.addrspacecast.nonnull we can always assume non-null, for

    // G_ADDRSPACE_CAST we need to guess.

    if (isa<GIntrinsic>(MI) || isKnownNonNull(Src, MRI, TM, SrcAS)) {

      castFlatToLocalOrPrivate(Dst);

      MI.eraseFromParent();

      return true;

    }


    unsigned NullVal = TM.getNullPointerValue(DestAS);


    auto SegmentNull = B.buildConstant(DstTy, NullVal);

    auto FlatNull = B.buildConstant(SrcTy, 0);


    // Extract low 32-bits of the pointer.

    auto PtrLo32 = castFlatToLocalOrPrivate(DstTy);


    auto CmpRes =

        B.buildICmp(CmpInst::ICMP_NE, LLT::scalar(1), Src, FlatNull.getReg(0));

    B.buildSelect(Dst, CmpRes, PtrLo32, SegmentNull.getReg(0));


    MI.eraseFromParent();

    return true;

  }


  if (DestAS == AMDGPUAS::FLAT_ADDRESS &&

      (SrcAS == AMDGPUAS::LOCAL_ADDRESS ||

       SrcAS == AMDGPUAS::PRIVATE_ADDRESS)) {

    auto castLocalOrPrivateToFlat = [&](const DstOp &Dst) -> Register {

      // Coerce the type of the low half of the result so we can use

      // merge_values.

      Register SrcAsInt = B.buildPtrToInt(S32, Src).getReg(0);


      if (SrcAS == AMDGPUAS::PRIVATE_ADDRESS &&

          ST.hasGloballyAddressableScratch()) {

        // For wave32: Addr = (TID[4:0] << 52) + FLAT_SCRATCH_BASE + privateAddr

        // For wave64: Addr = (TID[5:0] << 51) + FLAT_SCRATCH_BASE + privateAddr

        Register AllOnes = B.buildConstant(S32, -1).getReg(0);

        Register ThreadID = B.buildConstant(S32, 0).getReg(0);

        ThreadID = B.buildIntrinsic(Intrinsic::amdgcn_mbcnt_lo, {S32})

                       .addUse(AllOnes)

                       .addUse(ThreadID)

                       .getReg(0);

        if (ST.isWave64()) {

          ThreadID = B.buildIntrinsic(Intrinsic::amdgcn_mbcnt_hi, {S32})

                         .addUse(AllOnes)

                         .addUse(ThreadID)

                         .getReg(0);

        }

        Register ShAmt =

            B.buildConstant(S32, 57 - 32 - ST.getWavefrontSizeLog2()).getReg(0);

        Register SrcHi = B.buildShl(S32, ThreadID, ShAmt).getReg(0);

        Register CvtPtr =

            B.buildMergeLikeInstr(DstTy, {SrcAsInt, SrcHi}).getReg(0);

        // Accessing src_flat_scratch_base_lo as a 64-bit operand gives the full

        // 64-bit hi:lo value.

        Register FlatScratchBase =

            B.buildInstr(AMDGPU::S_MOV_B64, {S64},

                         {Register(AMDGPU::SRC_FLAT_SCRATCH_BASE)})

                .getReg(0);

        MRI.setRegClass(FlatScratchBase, &AMDGPU::SReg_64RegClass);

        return B.buildPtrAdd(Dst, CvtPtr, FlatScratchBase).getReg(0);

      }


      Register ApertureReg = getSegmentAperture(SrcAS, MRI, B);

      if (!ApertureReg.isValid())

        return false;


      // TODO: Should we allow mismatched types but matching sizes in merges to

      // avoid the ptrtoint?

      return B.buildMergeLikeInstr(Dst, {SrcAsInt, ApertureReg}).getReg(0);

    };


    // For llvm.amdgcn.addrspacecast.nonnull we can always assume non-null, for

    // G_ADDRSPACE_CAST we need to guess.

    if (isa<GIntrinsic>(MI) || isKnownNonNull(Src, MRI, TM, SrcAS)) {

      castLocalOrPrivateToFlat(Dst);

      MI.eraseFromParent();

      return true;

    }


    Register BuildPtr = castLocalOrPrivateToFlat(DstTy);


    auto SegmentNull = B.buildConstant(SrcTy, TM.getNullPointerValue(SrcAS));

    auto FlatNull = B.buildConstant(DstTy, TM.getNullPointerValue(DestAS));


    auto CmpRes = B.buildICmp(CmpInst::ICMP_NE, LLT::scalar(1), Src,

                              SegmentNull.getReg(0));


    B.buildSelect(Dst, CmpRes, BuildPtr, FlatNull);


    MI.eraseFromParent();

    return true;

  }


  if (DestAS == AMDGPUAS::CONSTANT_ADDRESS_32BIT &&

      SrcTy.getSizeInBits() == 64) {

    // Truncate.

    B.buildExtract(Dst, Src, 0);

    MI.eraseFromParent();

    return true;

  }


  if (SrcAS == AMDGPUAS::CONSTANT_ADDRESS_32BIT &&

      DstTy.getSizeInBits() == 64) {

    const SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();

    uint32_t AddrHiVal = Info->get32BitAddressHighBits();

    auto PtrLo = B.buildPtrToInt(S32, Src);

    auto HighAddr = B.buildConstant(S32, AddrHiVal);

    B.buildMergeLikeInstr(Dst, {PtrLo, HighAddr});

    MI.eraseFromParent();

    return true;

  }


  // Invalid casts are poison.

  // TODO: Should return poison

  B.buildUndef(Dst);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFroundeven(MachineInstr &MI,

                                             MachineRegisterInfo &MRI,

                                             MachineIRBuilder &B) const {

  Register Src = MI.getOperand(1).getReg();

  LLT Ty = MRI.getType(Src);

  assert(Ty.isScalar() && Ty.getSizeInBits() == 64);


  APFloat C1Val(APFloat::IEEEdouble(), "0x1.0p+52");

  APFloat C2Val(APFloat::IEEEdouble(), "0x1.fffffffffffffp+51");


  auto C1 = B.buildFConstant(Ty, C1Val);

  auto CopySign = B.buildFCopysign(Ty, C1, Src);


  // TODO: Should this propagate fast-math-flags?

  auto Tmp1 = B.buildFAdd(Ty, Src, CopySign);

  auto Tmp2 = B.buildFSub(Ty, Tmp1, CopySign);


  auto C2 = B.buildFConstant(Ty, C2Val);

  auto Fabs = B.buildFAbs(Ty, Src);


  auto Cond = B.buildFCmp(CmpInst::FCMP_OGT, LLT::scalar(1), Fabs, C2);

  B.buildSelect(MI.getOperand(0).getReg(), Cond, Src, Tmp2);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFceil(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {


  const LLT S1 = LLT::scalar(1);

  const LLT S64 = LLT::scalar(64);


  Register Src = MI.getOperand(1).getReg();

  assert(MRI.getType(Src) == S64);


  // result = trunc(src)

  // if (src > 0.0 && src != result)

  //   result += 1.0


  auto Trunc = B.buildIntrinsicTrunc(S64, Src);


  const auto Zero = B.buildFConstant(S64, 0.0);

  const auto One = B.buildFConstant(S64, 1.0);

  auto Lt0 = B.buildFCmp(CmpInst::FCMP_OGT, S1, Src, Zero);

  auto NeTrunc = B.buildFCmp(CmpInst::FCMP_ONE, S1, Src, Trunc);

  auto And = B.buildAnd(S1, Lt0, NeTrunc);

  auto Add = B.buildSelect(S64, And, One, Zero);


  // TODO: Should this propagate fast-math-flags?

  B.buildFAdd(MI.getOperand(0).getReg(), Trunc, Add);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFrem(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {

    Register DstReg = MI.getOperand(0).getReg();

    Register Src0Reg = MI.getOperand(1).getReg();

    Register Src1Reg = MI.getOperand(2).getReg();

    auto Flags = MI.getFlags();

    LLT Ty = MRI.getType(DstReg);


    auto Div = B.buildFDiv(Ty, Src0Reg, Src1Reg, Flags);

    auto Trunc = B.buildIntrinsicTrunc(Ty, Div, Flags);

    auto Neg = B.buildFNeg(Ty, Trunc, Flags);

    B.buildFMA(DstReg, Neg, Src1Reg, Src0Reg, Flags);

    MI.eraseFromParent();

    return true;

}


static MachineInstrBuilder extractF64Exponent(Register Hi,

                                              MachineIRBuilder &B) {

  const unsigned FractBits = 52;

  const unsigned ExpBits = 11;

  LLT S32 = LLT::scalar(32);


  auto Const0 = B.buildConstant(S32, FractBits - 32);

  auto Const1 = B.buildConstant(S32, ExpBits);


  auto ExpPart = B.buildIntrinsic(Intrinsic::amdgcn_ubfe, {S32})

                     .addUse(Hi)

                     .addUse(Const0.getReg(0))

                     .addUse(Const1.getReg(0));


  return B.buildSub(S32, ExpPart, B.buildConstant(S32, 1023));

}


bool AMDGPULegalizerInfo::legalizeIntrinsicTrunc(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {

  const LLT S1 = LLT::scalar(1);

  const LLT S32 = LLT::scalar(32);

  const LLT S64 = LLT::scalar(64);


  Register Src = MI.getOperand(1).getReg();

  assert(MRI.getType(Src) == S64);


  // TODO: Should this use extract since the low half is unused?

  auto Unmerge = B.buildUnmerge({S32, S32}, Src);

  Register Hi = Unmerge.getReg(1);


  // Extract the upper half, since this is where we will find the sign and

  // exponent.

  auto Exp = extractF64Exponent(Hi, B);


  const unsigned FractBits = 52;


  // Extract the sign bit.

  const auto SignBitMask = B.buildConstant(S32, UINT32_C(1) << 31);

  auto SignBit = B.buildAnd(S32, Hi, SignBitMask);


  const auto FractMask = B.buildConstant(S64, (UINT64_C(1) << FractBits) - 1);


  const auto Zero32 = B.buildConstant(S32, 0);


  // Extend back to 64-bits.

  auto SignBit64 = B.buildMergeLikeInstr(S64, {Zero32, SignBit});


  auto Shr = B.buildAShr(S64, FractMask, Exp);

  auto Not = B.buildNot(S64, Shr);

  auto Tmp0 = B.buildAnd(S64, Src, Not);

  auto FiftyOne = B.buildConstant(S32, FractBits - 1);


  auto ExpLt0 = B.buildICmp(CmpInst::ICMP_SLT, S1, Exp, Zero32);

  auto ExpGt51 = B.buildICmp(CmpInst::ICMP_SGT, S1, Exp, FiftyOne);


  auto Tmp1 = B.buildSelect(S64, ExpLt0, SignBit64, Tmp0);

  B.buildSelect(MI.getOperand(0).getReg(), ExpGt51, Src, Tmp1);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeITOFP(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B, bool Signed) const {


  Register Dst = MI.getOperand(0).getReg();

  Register Src = MI.getOperand(1).getReg();


  const LLT S64 = LLT::scalar(64);

  const LLT S32 = LLT::scalar(32);


  assert(MRI.getType(Src) == S64);


  auto Unmerge = B.buildUnmerge({S32, S32}, Src);

  auto ThirtyTwo = B.buildConstant(S32, 32);


  if (MRI.getType(Dst) == S64) {

    auto CvtHi = Signed ? B.buildSITOFP(S64, Unmerge.getReg(1))

                        : B.buildUITOFP(S64, Unmerge.getReg(1));


    auto CvtLo = B.buildUITOFP(S64, Unmerge.getReg(0));

    auto LdExp = B.buildFLdexp(S64, CvtHi, ThirtyTwo);


    // TODO: Should this propagate fast-math-flags?

    B.buildFAdd(Dst, LdExp, CvtLo);

    MI.eraseFromParent();

    return true;

  }


  assert(MRI.getType(Dst) == S32);


  auto One = B.buildConstant(S32, 1);


  MachineInstrBuilder ShAmt;

  if (Signed) {

    auto ThirtyOne = B.buildConstant(S32, 31);

    auto X = B.buildXor(S32, Unmerge.getReg(0), Unmerge.getReg(1));

    auto OppositeSign = B.buildAShr(S32, X, ThirtyOne);

    auto MaxShAmt = B.buildAdd(S32, ThirtyTwo, OppositeSign);

    auto LS = B.buildIntrinsic(Intrinsic::amdgcn_sffbh, {S32})

                  .addUse(Unmerge.getReg(1));

    auto LS2 = B.buildSub(S32, LS, One);

    ShAmt = B.buildUMin(S32, LS2, MaxShAmt);

  } else

    ShAmt = B.buildCTLZ(S32, Unmerge.getReg(1));

  auto Norm = B.buildShl(S64, Src, ShAmt);

  auto Unmerge2 = B.buildUnmerge({S32, S32}, Norm);

  auto Adjust = B.buildUMin(S32, One, Unmerge2.getReg(0));

  auto Norm2 = B.buildOr(S32, Unmerge2.getReg(1), Adjust);

  auto FVal = Signed ? B.buildSITOFP(S32, Norm2) : B.buildUITOFP(S32, Norm2);

  auto Scale = B.buildSub(S32, ThirtyTwo, ShAmt);

  B.buildFLdexp(Dst, FVal, Scale);

  MI.eraseFromParent();

  return true;

}


// TODO: Copied from DAG implementation. Verify logic and document how this

// actually works.


bool AMDGPULegalizerInfo::legalizeFPTOI(MachineInstr &MI,

                                        MachineRegisterInfo &MRI,

                                        MachineIRBuilder &B,

                                        bool Signed) const {


  Register Dst = MI.getOperand(0).getReg();

  Register Src = MI.getOperand(1).getReg();


  const LLT S64 = LLT::scalar(64);

  const LLT S32 = LLT::scalar(32);


  const LLT SrcLT = MRI.getType(Src);

  assert((SrcLT == S32 || SrcLT == S64) && MRI.getType(Dst) == S64);


  unsigned Flags = MI.getFlags();


  // The basic idea of converting a floating point number into a pair of 32-bit

  // integers is illustrated as follows:

  //

  //     tf := trunc(val);

  //    hif := floor(tf * 2^-32);

  //    lof := tf - hif * 2^32; // lof is always positive due to floor.

  //     hi := fptoi(hif);

  //     lo := fptoi(lof);

  //

  auto Trunc = B.buildIntrinsicTrunc(SrcLT, Src, Flags);

  MachineInstrBuilder Sign;

  if (Signed && SrcLT == S32) {

    // However, a 32-bit floating point number has only 23 bits mantissa and

    // it's not enough to hold all the significant bits of `lof` if val is

    // negative. To avoid the loss of precision, We need to take the absolute

    // value after truncating and flip the result back based on the original

    // signedness.

    Sign = B.buildAShr(S32, Src, B.buildConstant(S32, 31));

    Trunc = B.buildFAbs(S32, Trunc, Flags);

  }

  MachineInstrBuilder K0, K1;

  if (SrcLT == S64) {

    K0 = B.buildFConstant(

        S64, llvm::bit_cast<double>(UINT64_C(/*2^-32*/ 0x3df0000000000000)));

    K1 = B.buildFConstant(

        S64, llvm::bit_cast<double>(UINT64_C(/*-2^32*/ 0xc1f0000000000000)));

  } else {

    K0 = B.buildFConstant(

        S32, llvm::bit_cast<float>(UINT32_C(/*2^-32*/ 0x2f800000)));

    K1 = B.buildFConstant(

        S32, llvm::bit_cast<float>(UINT32_C(/*-2^32*/ 0xcf800000)));

  }


  auto Mul = B.buildFMul(SrcLT, Trunc, K0, Flags);

  auto FloorMul = B.buildFFloor(SrcLT, Mul, Flags);

  auto Fma = B.buildFMA(SrcLT, FloorMul, K1, Trunc, Flags);


  auto Hi = (Signed && SrcLT == S64) ? B.buildFPTOSI(S32, FloorMul)

                                     : B.buildFPTOUI(S32, FloorMul);

  auto Lo = B.buildFPTOUI(S32, Fma);


  if (Signed && SrcLT == S32) {

    // Flip the result based on the signedness, which is either all 0s or 1s.

    Sign = B.buildMergeLikeInstr(S64, {Sign, Sign});

    // r := xor({lo, hi}, sign) - sign;

    B.buildSub(Dst, B.buildXor(S64, B.buildMergeLikeInstr(S64, {Lo, Hi}), Sign),

               Sign);

  } else

    B.buildMergeLikeInstr(Dst, {Lo, Hi});

  MI.eraseFromParent();


  return true;

}


bool AMDGPULegalizerInfo::legalizeMinNumMaxNum(LegalizerHelper &Helper,

                                               MachineInstr &MI) const {

  MachineFunction &MF = Helper.MIRBuilder.getMF();

  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();


  const bool IsIEEEOp = MI.getOpcode() == AMDGPU::G_FMINNUM_IEEE ||

                        MI.getOpcode() == AMDGPU::G_FMAXNUM_IEEE;


  // With ieee_mode disabled, the instructions have the correct behavior

  // already for G_FMINIMUMNUM/G_FMAXIMUMNUM.

  //

  // FIXME: G_FMINNUM/G_FMAXNUM should match the behavior with ieee_mode

  // enabled.

  if (!MFI->getMode().IEEE) {

    if (MI.getOpcode() == AMDGPU::G_FMINIMUMNUM ||

        MI.getOpcode() == AMDGPU::G_FMAXIMUMNUM)

      return true;


    return !IsIEEEOp;

  }


  if (IsIEEEOp)

    return true;


  return Helper.lowerFMinNumMaxNum(MI) == LegalizerHelper::Legalized;

}


bool AMDGPULegalizerInfo::legalizeExtractVectorElt(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {

  // TODO: Should move some of this into LegalizerHelper.


  // TODO: Promote dynamic indexing of s16 to s32


  Register Dst = MI.getOperand(0).getReg();

  Register Vec = MI.getOperand(1).getReg();


  LLT VecTy = MRI.getType(Vec);

  LLT EltTy = VecTy.getElementType();

  assert(EltTy == MRI.getType(Dst));


  // Other legalization maps vector<? x [type bigger than 64 bits]> via bitcasts

  // but we can't go directly to that logic becasue you can't bitcast a vector

  // of pointers to a vector of integers. Therefore, introduce an intermediate

  // vector of integers using ptrtoint (and inttoptr on the output) in order to

  // drive the legalization forward.

  if (EltTy.isPointer() && EltTy.getSizeInBits() > 64) {

    LLT IntTy = LLT::scalar(EltTy.getSizeInBits());

    LLT IntVecTy = VecTy.changeElementType(IntTy);


    auto IntVec = B.buildPtrToInt(IntVecTy, Vec);

    auto IntElt = B.buildExtractVectorElement(IntTy, IntVec, MI.getOperand(2));

    B.buildIntToPtr(Dst, IntElt);


    MI.eraseFromParent();

    return true;

  }


  // FIXME: Artifact combiner probably should have replaced the truncated

  // constant before this, so we shouldn't need

  // getIConstantVRegValWithLookThrough.

  std::optional<ValueAndVReg> MaybeIdxVal =

      getIConstantVRegValWithLookThrough(MI.getOperand(2).getReg(), MRI);

  if (!MaybeIdxVal) // Dynamic case will be selected to register indexing.

    return true;

  const uint64_t IdxVal = MaybeIdxVal->Value.getZExtValue();


  if (IdxVal < VecTy.getNumElements()) {

    auto Unmerge = B.buildUnmerge(EltTy, Vec);

    B.buildCopy(Dst, Unmerge.getReg(IdxVal));

  } else {

    B.buildUndef(Dst);

  }


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeInsertVectorElt(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {

  // TODO: Should move some of this into LegalizerHelper.


  // TODO: Promote dynamic indexing of s16 to s32


  Register Dst = MI.getOperand(0).getReg();

  Register Vec = MI.getOperand(1).getReg();

  Register Ins = MI.getOperand(2).getReg();


  LLT VecTy = MRI.getType(Vec);

  LLT EltTy = VecTy.getElementType();

  assert(EltTy == MRI.getType(Ins));


  // Other legalization maps vector<? x [type bigger than 64 bits]> via bitcasts

  // but we can't go directly to that logic becasue you can't bitcast a vector

  // of pointers to a vector of integers. Therefore, make the pointer vector

  // into an equivalent vector of integers with ptrtoint, insert the ptrtoint'd

  // new value, and then inttoptr the result vector back. This will then allow

  // the rest of legalization to take over.

  if (EltTy.isPointer() && EltTy.getSizeInBits() > 64) {

    LLT IntTy = LLT::scalar(EltTy.getSizeInBits());

    LLT IntVecTy = VecTy.changeElementType(IntTy);


    auto IntVecSource = B.buildPtrToInt(IntVecTy, Vec);

    auto IntIns = B.buildPtrToInt(IntTy, Ins);

    auto IntVecDest = B.buildInsertVectorElement(IntVecTy, IntVecSource, IntIns,

                                                 MI.getOperand(3));

    B.buildIntToPtr(Dst, IntVecDest);

    MI.eraseFromParent();

    return true;

  }


  // FIXME: Artifact combiner probably should have replaced the truncated

  // constant before this, so we shouldn't need

  // getIConstantVRegValWithLookThrough.

  std::optional<ValueAndVReg> MaybeIdxVal =

      getIConstantVRegValWithLookThrough(MI.getOperand(3).getReg(), MRI);

  if (!MaybeIdxVal) // Dynamic case will be selected to register indexing.

    return true;


  const uint64_t IdxVal = MaybeIdxVal->Value.getZExtValue();


  unsigned NumElts = VecTy.getNumElements();

  if (IdxVal < NumElts) {

    SmallVector<Register, 8> SrcRegs;

    for (unsigned i = 0; i < NumElts; ++i)

      SrcRegs.push_back(MRI.createGenericVirtualRegister(EltTy));

    B.buildUnmerge(SrcRegs, Vec);


    SrcRegs[IdxVal] = MI.getOperand(2).getReg();

    B.buildMergeLikeInstr(Dst, SrcRegs);

  } else {

    B.buildUndef(Dst);

  }


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeSinCos(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {


  Register DstReg = MI.getOperand(0).getReg();

  Register SrcReg = MI.getOperand(1).getReg();

  LLT Ty = MRI.getType(DstReg);

  unsigned Flags = MI.getFlags();


  Register TrigVal;

  auto OneOver2Pi = B.buildFConstant(Ty, 0.5 * numbers::inv_pi);

  if (ST.hasTrigReducedRange()) {

    auto MulVal = B.buildFMul(Ty, SrcReg, OneOver2Pi, Flags);

    TrigVal = B.buildIntrinsic(Intrinsic::amdgcn_fract, {Ty})

                  .addUse(MulVal.getReg(0))

                  .setMIFlags(Flags)

                  .getReg(0);

  } else

    TrigVal = B.buildFMul(Ty, SrcReg, OneOver2Pi, Flags).getReg(0);


  Intrinsic::ID TrigIntrin = MI.getOpcode() == AMDGPU::G_FSIN ?

    Intrinsic::amdgcn_sin : Intrinsic::amdgcn_cos;

  B.buildIntrinsic(TrigIntrin, ArrayRef<Register>(DstReg))

      .addUse(TrigVal)

      .setMIFlags(Flags);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::buildPCRelGlobalAddress(Register DstReg, LLT PtrTy,

                                                  MachineIRBuilder &B,

                                                  const GlobalValue *GV,

                                                  int64_t Offset,

                                                  unsigned GAFlags) const {

  assert(isInt<32>(Offset + 4) && "32-bit offset is expected!");

  // In order to support pc-relative addressing, SI_PC_ADD_REL_OFFSET is lowered

  // to the following code sequence:

  //

  // For constant address space:

  //   s_getpc_b64 s[0:1]

  //   s_add_u32 s0, s0, $symbol

  //   s_addc_u32 s1, s1, 0

  //

  //   s_getpc_b64 returns the address of the s_add_u32 instruction and then

  //   a fixup or relocation is emitted to replace $symbol with a literal

  //   constant, which is a pc-relative offset from the encoding of the $symbol

  //   operand to the global variable.

  //

  // For global address space:

  //   s_getpc_b64 s[0:1]

  //   s_add_u32 s0, s0, $symbol@{gotpc}rel32@lo

  //   s_addc_u32 s1, s1, $symbol@{gotpc}rel32@hi

  //

  //   s_getpc_b64 returns the address of the s_add_u32 instruction and then

  //   fixups or relocations are emitted to replace $symbol@*@lo and

  //   $symbol@*@hi with lower 32 bits and higher 32 bits of a literal constant,

  //   which is a 64-bit pc-relative offset from the encoding of the $symbol

  //   operand to the global variable.


  LLT ConstPtrTy = LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64);


  Register PCReg = PtrTy.getSizeInBits() != 32 ? DstReg :

    B.getMRI()->createGenericVirtualRegister(ConstPtrTy);


  if (ST.has64BitLiterals()) {

    assert(GAFlags != SIInstrInfo::MO_NONE);


    MachineInstrBuilder MIB =

        B.buildInstr(AMDGPU::SI_PC_ADD_REL_OFFSET64).addDef(PCReg);

    MIB.addGlobalAddress(GV, Offset, GAFlags + 2);

  } else {

    MachineInstrBuilder MIB =

        B.buildInstr(AMDGPU::SI_PC_ADD_REL_OFFSET).addDef(PCReg);


    MIB.addGlobalAddress(GV, Offset, GAFlags);

    if (GAFlags == SIInstrInfo::MO_NONE)

      MIB.addImm(0);

    else

      MIB.addGlobalAddress(GV, Offset, GAFlags + 1);

  }


  if (!B.getMRI()->getRegClassOrNull(PCReg))

    B.getMRI()->setRegClass(PCReg, &AMDGPU::SReg_64RegClass);


  if (PtrTy.getSizeInBits() == 32)

    B.buildExtract(DstReg, PCReg, 0);

  return true;

}


// Emit a ABS32_LO / ABS32_HI relocation stub.


void AMDGPULegalizerInfo::buildAbsGlobalAddress(

    Register DstReg, LLT PtrTy, MachineIRBuilder &B, const GlobalValue *GV,

    MachineRegisterInfo &MRI) const {

  bool RequiresHighHalf = PtrTy.getSizeInBits() != 32;


  if (RequiresHighHalf && ST.has64BitLiterals()) {

    if (!MRI.getRegClassOrNull(DstReg))

      MRI.setRegClass(DstReg, &AMDGPU::SReg_64RegClass);

    B.buildInstr(AMDGPU::S_MOV_B64)

        .addDef(DstReg)

        .addGlobalAddress(GV, 0, SIInstrInfo::MO_ABS64);

    return;

  }


  LLT S32 = LLT::scalar(32);


  // Use the destination directly, if and only if we store the lower address

  // part only and we don't have a register class being set.

  Register AddrLo = !RequiresHighHalf && !MRI.getRegClassOrNull(DstReg)

                        ? DstReg

                        : MRI.createGenericVirtualRegister(S32);


  if (!MRI.getRegClassOrNull(AddrLo))

    MRI.setRegClass(AddrLo, &AMDGPU::SReg_32RegClass);


  // Write the lower half.

  B.buildInstr(AMDGPU::S_MOV_B32)

      .addDef(AddrLo)

      .addGlobalAddress(GV, 0, SIInstrInfo::MO_ABS32_LO);


  // If required, write the upper half as well.

  if (RequiresHighHalf) {

    assert(PtrTy.getSizeInBits() == 64 &&

           "Must provide a 64-bit pointer type!");


    Register AddrHi = MRI.createGenericVirtualRegister(S32);

    MRI.setRegClass(AddrHi, &AMDGPU::SReg_32RegClass);


    B.buildInstr(AMDGPU::S_MOV_B32)

        .addDef(AddrHi)

        .addGlobalAddress(GV, 0, SIInstrInfo::MO_ABS32_HI);


    // Use the destination directly, if and only if we don't have a register

    // class being set.

    Register AddrDst = !MRI.getRegClassOrNull(DstReg)

                           ? DstReg

                           : MRI.createGenericVirtualRegister(LLT::scalar(64));


    if (!MRI.getRegClassOrNull(AddrDst))

      MRI.setRegClass(AddrDst, &AMDGPU::SReg_64RegClass);


    B.buildMergeValues(AddrDst, {AddrLo, AddrHi});


    // If we created a new register for the destination, cast the result into

    // the final output.

    if (AddrDst != DstReg)

      B.buildCast(DstReg, AddrDst);

  } else if (AddrLo != DstReg) {

    // If we created a new register for the destination, cast the result into

    // the final output.

    B.buildCast(DstReg, AddrLo);

  }

}


bool AMDGPULegalizerInfo::legalizeGlobalValue(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {

  Register DstReg = MI.getOperand(0).getReg();

  LLT Ty = MRI.getType(DstReg);

  unsigned AS = Ty.getAddressSpace();


  const GlobalValue *GV = MI.getOperand(1).getGlobal();

  MachineFunction &MF = B.getMF();

  SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();


  if (AS == AMDGPUAS::LOCAL_ADDRESS || AS == AMDGPUAS::REGION_ADDRESS) {

    if (!MFI->isModuleEntryFunction() &&

        GV->getName() != "llvm.amdgcn.module.lds" &&

        !AMDGPU::isNamedBarrier(*cast<GlobalVariable>(GV))) {

      const Function &Fn = MF.getFunction();

      Fn.getContext().diagnose(DiagnosticInfoUnsupported(

          Fn, "local memory global used by non-kernel function",

          MI.getDebugLoc(), DS_Warning));


      // We currently don't have a way to correctly allocate LDS objects that

      // aren't directly associated with a kernel. We do force inlining of

      // functions that use local objects. However, if these dead functions are

      // not eliminated, we don't want a compile time error. Just emit a warning

      // and a trap, since there should be no callable path here.

      B.buildTrap();

      B.buildUndef(DstReg);

      MI.eraseFromParent();

      return true;

    }


    // TODO: We could emit code to handle the initialization somewhere.

    // We ignore the initializer for now and legalize it to allow selection.

    // The initializer will anyway get errored out during assembly emission.

    const SITargetLowering *TLI = ST.getTargetLowering();

    if (!TLI->shouldUseLDSConstAddress(GV)) {

      MI.getOperand(1).setTargetFlags(SIInstrInfo::MO_ABS32_LO);

      return true; // Leave in place;

    }


    if (AS == AMDGPUAS::LOCAL_ADDRESS && GV->hasExternalLinkage()) {

      Type *Ty = GV->getValueType();

      // HIP uses an unsized array `extern __shared__ T s[]` or similar

      // zero-sized type in other languages to declare the dynamic shared

      // memory which size is not known at the compile time. They will be

      // allocated by the runtime and placed directly after the static

      // allocated ones. They all share the same offset.

      if (B.getDataLayout().getTypeAllocSize(Ty).isZero()) {

        // Adjust alignment for that dynamic shared memory array.

        MFI->setDynLDSAlign(MF.getFunction(), *cast<GlobalVariable>(GV));

        LLT S32 = LLT::scalar(32);

        auto Sz = B.buildIntrinsic(Intrinsic::amdgcn_groupstaticsize, {S32});

        B.buildIntToPtr(DstReg, Sz);

        MI.eraseFromParent();

        return true;

      }

    }


    B.buildConstant(DstReg, MFI->allocateLDSGlobal(B.getDataLayout(),

                                                   *cast<GlobalVariable>(GV)));

    MI.eraseFromParent();

    return true;

  }


  if (ST.isAmdPalOS() || ST.isMesa3DOS()) {

    buildAbsGlobalAddress(DstReg, Ty, B, GV, MRI);

    MI.eraseFromParent();

    return true;

  }


  const SITargetLowering *TLI = ST.getTargetLowering();


  if (TLI->shouldEmitFixup(GV)) {

    buildPCRelGlobalAddress(DstReg, Ty, B, GV, 0);

    MI.eraseFromParent();

    return true;

  }


  if (TLI->shouldEmitPCReloc(GV)) {

    buildPCRelGlobalAddress(DstReg, Ty, B, GV, 0, SIInstrInfo::MO_REL32);

    MI.eraseFromParent();

    return true;

  }


  LLT PtrTy = LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64);

  Register GOTAddr = MRI.createGenericVirtualRegister(PtrTy);


  LLT LoadTy = Ty.getSizeInBits() == 32 ? PtrTy : Ty;

  MachineMemOperand *GOTMMO = MF.getMachineMemOperand(

      MachinePointerInfo::getGOT(MF),

      MachineMemOperand::MOLoad | MachineMemOperand::MODereferenceable |

          MachineMemOperand::MOInvariant,

      LoadTy, Align(8));


  buildPCRelGlobalAddress(GOTAddr, PtrTy, B, GV, 0, SIInstrInfo::MO_GOTPCREL32);


  if (Ty.getSizeInBits() == 32) {

    // Truncate if this is a 32-bit constant address.

    auto Load = B.buildLoad(PtrTy, GOTAddr, *GOTMMO);

    B.buildExtract(DstReg, Load, 0);

  } else

    B.buildLoad(DstReg, GOTAddr, *GOTMMO);


  MI.eraseFromParent();

  return true;

}


static LLT widenToNextPowerOf2(LLT Ty) {

  if (Ty.isVector())

    return Ty.changeElementCount(

        ElementCount::getFixed(PowerOf2Ceil(Ty.getNumElements())));

  return LLT::scalar(PowerOf2Ceil(Ty.getSizeInBits()));

}


bool AMDGPULegalizerInfo::legalizeLoad(LegalizerHelper &Helper,

                                       MachineInstr &MI) const {

  MachineIRBuilder &B = Helper.MIRBuilder;

  MachineRegisterInfo &MRI = *B.getMRI();

  GISelChangeObserver &Observer = Helper.Observer;


  Register PtrReg = MI.getOperand(1).getReg();

  LLT PtrTy = MRI.getType(PtrReg);

  unsigned AddrSpace = PtrTy.getAddressSpace();


  if (AddrSpace == AMDGPUAS::CONSTANT_ADDRESS_32BIT) {

    LLT ConstPtr = LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64);

    auto Cast = B.buildAddrSpaceCast(ConstPtr, PtrReg);

    Observer.changingInstr(MI);

    MI.getOperand(1).setReg(Cast.getReg(0));

    Observer.changedInstr(MI);

    return true;

  }


  if (MI.getOpcode() != AMDGPU::G_LOAD)

    return false;


  Register ValReg = MI.getOperand(0).getReg();

  LLT ValTy = MRI.getType(ValReg);


  if (hasBufferRsrcWorkaround(ValTy)) {

    Observer.changingInstr(MI);

    castBufferRsrcFromV4I32(MI, B, MRI, 0);

    Observer.changedInstr(MI);

    return true;

  }


  MachineMemOperand *MMO = *MI.memoperands_begin();

  const unsigned ValSize = ValTy.getSizeInBits();

  const LLT MemTy = MMO->getMemoryType();

  const Align MemAlign = MMO->getAlign();

  const unsigned MemSize = MemTy.getSizeInBits();

  const uint64_t AlignInBits = 8 * MemAlign.value();


  // Widen non-power-of-2 loads to the alignment if needed

  if (shouldWidenLoad(ST, MemTy, AlignInBits, AddrSpace, MI.getOpcode())) {

    const unsigned WideMemSize = PowerOf2Ceil(MemSize);


    // This was already the correct extending load result type, so just adjust

    // the memory type.

    if (WideMemSize == ValSize) {

      MachineFunction &MF = B.getMF();


      MachineMemOperand *WideMMO =

          MF.getMachineMemOperand(MMO, 0, WideMemSize / 8);

      Observer.changingInstr(MI);

      MI.setMemRefs(MF, {WideMMO});

      Observer.changedInstr(MI);

      return true;

    }


    // Don't bother handling edge case that should probably never be produced.

    if (ValSize > WideMemSize)

      return false;


    LLT WideTy = widenToNextPowerOf2(ValTy);


    Register WideLoad;

    if (!WideTy.isVector()) {

      WideLoad = B.buildLoadFromOffset(WideTy, PtrReg, *MMO, 0).getReg(0);

      B.buildTrunc(ValReg, WideLoad).getReg(0);

    } else {

      // Extract the subvector.


      if (isRegisterType(ST, ValTy)) {

        // If this a case where G_EXTRACT is legal, use it.

        // (e.g. <3 x s32> -> <4 x s32>)

        WideLoad = B.buildLoadFromOffset(WideTy, PtrReg, *MMO, 0).getReg(0);

        B.buildExtract(ValReg, WideLoad, 0);

      } else {

        // For cases where the widened type isn't a nice register value, unmerge

        // from a widened register (e.g. <3 x s16> -> <4 x s16>)

        WideLoad = B.buildLoadFromOffset(WideTy, PtrReg, *MMO, 0).getReg(0);

        B.buildDeleteTrailingVectorElements(ValReg, WideLoad);

      }

    }


    MI.eraseFromParent();

    return true;

  }


  return false;

}


bool AMDGPULegalizerInfo::legalizeStore(LegalizerHelper &Helper,

                                        MachineInstr &MI) const {

  MachineIRBuilder &B = Helper.MIRBuilder;

  MachineRegisterInfo &MRI = *B.getMRI();

  GISelChangeObserver &Observer = Helper.Observer;


  Register DataReg = MI.getOperand(0).getReg();

  LLT DataTy = MRI.getType(DataReg);


  if (hasBufferRsrcWorkaround(DataTy)) {

    Observer.changingInstr(MI);

    castBufferRsrcArgToV4I32(MI, B, 0);

    Observer.changedInstr(MI);

    return true;

  }

  return false;

}


bool AMDGPULegalizerInfo::legalizeFMad(

  MachineInstr &MI, MachineRegisterInfo &MRI,

  MachineIRBuilder &B) const {

  LLT Ty = MRI.getType(MI.getOperand(0).getReg());

  assert(Ty.isScalar());


  MachineFunction &MF = B.getMF();

  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();


  // TODO: Always legal with future ftz flag.

  // FIXME: Do we need just output?

  if (Ty == LLT::float32() &&

      MFI->getMode().FP32Denormals == DenormalMode::getPreserveSign())

    return true;

  if (Ty == LLT::float16() &&

      MFI->getMode().FP64FP16Denormals == DenormalMode::getPreserveSign())

    return true;


  MachineIRBuilder HelperBuilder(MI);

  GISelObserverWrapper DummyObserver;

  LegalizerHelper Helper(MF, DummyObserver, HelperBuilder);

  return Helper.lowerFMad(MI) == LegalizerHelper::Legalized;

}


bool AMDGPULegalizerInfo::legalizeAtomicCmpXChg(

  MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {

  Register DstReg = MI.getOperand(0).getReg();

  Register PtrReg = MI.getOperand(1).getReg();

  Register CmpVal = MI.getOperand(2).getReg();

  Register NewVal = MI.getOperand(3).getReg();


  assert(AMDGPU::isFlatGlobalAddrSpace(MRI.getType(PtrReg).getAddressSpace()) &&

         "this should not have been custom lowered");


  LLT ValTy = MRI.getType(CmpVal);

  LLT VecTy = LLT::fixed_vector(2, ValTy);


  Register PackedVal = B.buildBuildVector(VecTy, { NewVal, CmpVal }).getReg(0);


  B.buildInstr(AMDGPU::G_AMDGPU_ATOMIC_CMPXCHG)

    .addDef(DstReg)

    .addUse(PtrReg)

    .addUse(PackedVal)

    .setMemRefs(MI.memoperands());


  MI.eraseFromParent();

  return true;

}


/// Return true if it's known that \p Src can never be an f32 denormal value.


static bool valueIsKnownNeverF32Denorm(const MachineRegisterInfo &MRI,

                                       Register Src) {

  const MachineInstr *DefMI = MRI.getVRegDef(Src);

  switch (DefMI->getOpcode()) {

  case TargetOpcode::G_INTRINSIC: {

    switch (cast<GIntrinsic>(DefMI)->getIntrinsicID()) {

    case Intrinsic::amdgcn_frexp_mant:

      return true;

    default:

      break;

    }


    break;

  }

  case TargetOpcode::G_FFREXP: {

    if (DefMI->getOperand(0).getReg() == Src)

      return true;

    break;

  }

  case TargetOpcode::G_FPEXT: {

    return MRI.getType(DefMI->getOperand(1).getReg()) == LLT::scalar(16);

  }

  default:

    return false;

  }


  return false;

}


static bool allowApproxFunc(const MachineFunction &MF, unsigned Flags) {

  return Flags & MachineInstr::FmAfn;

}


static bool needsDenormHandlingF32(const MachineFunction &MF, Register Src,

                                   unsigned Flags) {

  return !valueIsKnownNeverF32Denorm(MF.getRegInfo(), Src) &&

         MF.getDenormalMode(APFloat::IEEEsingle()).Input !=

             DenormalMode::PreserveSign;

}


std::pair<Register, Register>


AMDGPULegalizerInfo::getScaledLogInput(MachineIRBuilder &B, Register Src,

                                       unsigned Flags) const {

  if (!needsDenormHandlingF32(B.getMF(), Src, Flags))

    return {};


  const LLT F32 = LLT::scalar(32);

  auto SmallestNormal = B.buildFConstant(

      F32, APFloat::getSmallestNormalized(APFloat::IEEEsingle()));

  auto IsLtSmallestNormal =

      B.buildFCmp(CmpInst::FCMP_OLT, LLT::scalar(1), Src, SmallestNormal);


  auto Scale32 = B.buildFConstant(F32, 0x1.0p+32);

  auto One = B.buildFConstant(F32, 1.0);

  auto ScaleFactor =

      B.buildSelect(F32, IsLtSmallestNormal, Scale32, One, Flags);

  auto ScaledInput = B.buildFMul(F32, Src, ScaleFactor, Flags);


  return {ScaledInput.getReg(0), IsLtSmallestNormal.getReg(0)};

}


bool AMDGPULegalizerInfo::legalizeFlog2(MachineInstr &MI,

                                        MachineIRBuilder &B) const {

  // v_log_f32 is good enough for OpenCL, except it doesn't handle denormals.

  // If we have to handle denormals, scale up the input and adjust the result.


  // scaled = x * (is_denormal ? 0x1.0p+32 : 1.0)

  // log2 = amdgpu_log2 - (is_denormal ? 32.0 : 0.0)


  Register Dst = MI.getOperand(0).getReg();

  Register Src = MI.getOperand(1).getReg();

  LLT Ty = B.getMRI()->getType(Dst);

  unsigned Flags = MI.getFlags();


  if (Ty == LLT::scalar(16)) {

    const LLT F32 = LLT::scalar(32);

    // Nothing in half is a denormal when promoted to f32.

    auto Ext = B.buildFPExt(F32, Src, Flags);

    auto Log2 = B.buildIntrinsic(Intrinsic::amdgcn_log, {F32})

                    .addUse(Ext.getReg(0))

                    .setMIFlags(Flags);

    B.buildFPTrunc(Dst, Log2, Flags);

    MI.eraseFromParent();

    return true;

  }


  assert(Ty == LLT::scalar(32));


  auto [ScaledInput, IsLtSmallestNormal] = getScaledLogInput(B, Src, Flags);

  if (!ScaledInput) {

    B.buildIntrinsic(Intrinsic::amdgcn_log, {MI.getOperand(0)})

        .addUse(Src)

        .setMIFlags(Flags);

    MI.eraseFromParent();

    return true;

  }


  auto Log2 = B.buildIntrinsic(Intrinsic::amdgcn_log, {Ty})

                  .addUse(ScaledInput)

                  .setMIFlags(Flags);


  auto ThirtyTwo = B.buildFConstant(Ty, 32.0);

  auto Zero = B.buildFConstant(Ty, 0.0);

  auto ResultOffset =

      B.buildSelect(Ty, IsLtSmallestNormal, ThirtyTwo, Zero, Flags);

  B.buildFSub(Dst, Log2, ResultOffset, Flags);


  MI.eraseFromParent();

  return true;

}


static Register getMad(MachineIRBuilder &B, LLT Ty, Register X, Register Y,

                       Register Z, unsigned Flags) {

  auto FMul = B.buildFMul(Ty, X, Y, Flags);

  return B.buildFAdd(Ty, FMul, Z, Flags).getReg(0);

}


bool AMDGPULegalizerInfo::legalizeFlogCommon(MachineInstr &MI,

                                             MachineIRBuilder &B) const {

  const bool IsLog10 = MI.getOpcode() == TargetOpcode::G_FLOG10;

  assert(IsLog10 || MI.getOpcode() == TargetOpcode::G_FLOG);


  MachineRegisterInfo &MRI = *B.getMRI();

  Register Dst = MI.getOperand(0).getReg();

  Register X = MI.getOperand(1).getReg();

  unsigned Flags = MI.getFlags();

  const LLT Ty = MRI.getType(X);

  MachineFunction &MF = B.getMF();


  const LLT F32 = LLT::scalar(32);

  const LLT F16 = LLT::scalar(16);


  const AMDGPUTargetMachine &TM =

      static_cast<const AMDGPUTargetMachine &>(MF.getTarget());


  if (Ty == F16 || MI.getFlag(MachineInstr::FmAfn)) {

    if (Ty == F16 && !ST.has16BitInsts()) {

      Register LogVal = MRI.createGenericVirtualRegister(F32);

      auto PromoteSrc = B.buildFPExt(F32, X);

      legalizeFlogUnsafe(B, LogVal, PromoteSrc.getReg(0), IsLog10, Flags);

      B.buildFPTrunc(Dst, LogVal);

    } else {

      legalizeFlogUnsafe(B, Dst, X, IsLog10, Flags);

    }


    MI.eraseFromParent();

    return true;

  }


  auto [ScaledInput, IsScaled] = getScaledLogInput(B, X, Flags);

  if (ScaledInput)

    X = ScaledInput;


  auto Y =

      B.buildIntrinsic(Intrinsic::amdgcn_log, {Ty}).addUse(X).setMIFlags(Flags);


  Register R;

  if (ST.hasFastFMAF32()) {

    // c+cc are ln(2)/ln(10) to more than 49 bits

    const float c_log10 = 0x1.344134p-2f;

    const float cc_log10 = 0x1.09f79ep-26f;


    // c + cc is ln(2) to more than 49 bits

    const float c_log = 0x1.62e42ep-1f;

    const float cc_log = 0x1.efa39ep-25f;


    auto C = B.buildFConstant(Ty, IsLog10 ? c_log10 : c_log);

    auto CC = B.buildFConstant(Ty, IsLog10 ? cc_log10 : cc_log);


    R = B.buildFMul(Ty, Y, C, Flags).getReg(0);

    auto NegR = B.buildFNeg(Ty, R, Flags);

    auto FMA0 = B.buildFMA(Ty, Y, C, NegR, Flags);

    auto FMA1 = B.buildFMA(Ty, Y, CC, FMA0, Flags);

    R = B.buildFAdd(Ty, R, FMA1, Flags).getReg(0);

  } else {

    // ch+ct is ln(2)/ln(10) to more than 36 bits

    const float ch_log10 = 0x1.344000p-2f;

    const float ct_log10 = 0x1.3509f6p-18f;


    // ch + ct is ln(2) to more than 36 bits

    const float ch_log = 0x1.62e000p-1f;

    const float ct_log = 0x1.0bfbe8p-15f;


    auto CH = B.buildFConstant(Ty, IsLog10 ? ch_log10 : ch_log);

    auto CT = B.buildFConstant(Ty, IsLog10 ? ct_log10 : ct_log);


    auto MaskConst = B.buildConstant(Ty, 0xfffff000);

    auto YH = B.buildAnd(Ty, Y, MaskConst);

    auto YT = B.buildFSub(Ty, Y, YH, Flags);

    auto YTCT = B.buildFMul(Ty, YT, CT, Flags);


    Register Mad0 =

        getMad(B, Ty, YH.getReg(0), CT.getReg(0), YTCT.getReg(0), Flags);

    Register Mad1 = getMad(B, Ty, YT.getReg(0), CH.getReg(0), Mad0, Flags);

    R = getMad(B, Ty, YH.getReg(0), CH.getReg(0), Mad1, Flags);

  }


  const bool IsFiniteOnly =

      (MI.getFlag(MachineInstr::FmNoNans) || TM.Options.NoNaNsFPMath) &&

      (MI.getFlag(MachineInstr::FmNoInfs) || TM.Options.NoInfsFPMath);


  if (!IsFiniteOnly) {

    // Expand isfinite(x) => fabs(x) < inf

    auto Inf = B.buildFConstant(Ty, APFloat::getInf(APFloat::IEEEsingle()));

    auto Fabs = B.buildFAbs(Ty, Y);

    auto IsFinite =

        B.buildFCmp(CmpInst::FCMP_OLT, LLT::scalar(1), Fabs, Inf, Flags);

    R = B.buildSelect(Ty, IsFinite, R, Y, Flags).getReg(0);

  }


  if (ScaledInput) {

    auto Zero = B.buildFConstant(Ty, 0.0);

    auto ShiftK =

        B.buildFConstant(Ty, IsLog10 ? 0x1.344136p+3f : 0x1.62e430p+4f);

    auto Shift = B.buildSelect(Ty, IsScaled, ShiftK, Zero, Flags);

    B.buildFSub(Dst, R, Shift, Flags);

  } else {

    B.buildCopy(Dst, R);

  }


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFlogUnsafe(MachineIRBuilder &B, Register Dst,

                                             Register Src, bool IsLog10,

                                             unsigned Flags) const {

  const double Log2BaseInverted =

      IsLog10 ? numbers::ln2 / numbers::ln10 : numbers::ln2;


  LLT Ty = B.getMRI()->getType(Dst);


  if (Ty == LLT::scalar(32)) {

    auto [ScaledInput, IsScaled] = getScaledLogInput(B, Src, Flags);

    if (ScaledInput) {

      auto LogSrc = B.buildIntrinsic(Intrinsic::amdgcn_log, {Ty})

                        .addUse(Src)

                        .setMIFlags(Flags);

      auto ScaledResultOffset = B.buildFConstant(Ty, -32.0 * Log2BaseInverted);

      auto Zero = B.buildFConstant(Ty, 0.0);

      auto ResultOffset =

          B.buildSelect(Ty, IsScaled, ScaledResultOffset, Zero, Flags);

      auto Log2Inv = B.buildFConstant(Ty, Log2BaseInverted);


      if (ST.hasFastFMAF32())

        B.buildFMA(Dst, LogSrc, Log2Inv, ResultOffset, Flags);

      else {

        auto Mul = B.buildFMul(Ty, LogSrc, Log2Inv, Flags);

        B.buildFAdd(Dst, Mul, ResultOffset, Flags);

      }


      return true;

    }

  }


  auto Log2Operand = Ty == LLT::scalar(16)

                         ? B.buildFLog2(Ty, Src, Flags)

                         : B.buildIntrinsic(Intrinsic::amdgcn_log, {Ty})

                               .addUse(Src)

                               .setMIFlags(Flags);

  auto Log2BaseInvertedOperand = B.buildFConstant(Ty, Log2BaseInverted);

  B.buildFMul(Dst, Log2Operand, Log2BaseInvertedOperand, Flags);

  return true;

}


bool AMDGPULegalizerInfo::legalizeFExp2(MachineInstr &MI,

                                        MachineIRBuilder &B) const {

  // v_exp_f32 is good enough for OpenCL, except it doesn't handle denormals.

  // If we have to handle denormals, scale up the input and adjust the result.


  Register Dst = MI.getOperand(0).getReg();

  Register Src = MI.getOperand(1).getReg();

  unsigned Flags = MI.getFlags();

  LLT Ty = B.getMRI()->getType(Dst);

  const LLT F16 = LLT::scalar(16);

  const LLT F32 = LLT::scalar(32);


  if (Ty == F16) {

    // Nothing in half is a denormal when promoted to f32.

    auto Ext = B.buildFPExt(F32, Src, Flags);

    auto Log2 = B.buildIntrinsic(Intrinsic::amdgcn_exp2, {F32})

                    .addUse(Ext.getReg(0))

                    .setMIFlags(Flags);

    B.buildFPTrunc(Dst, Log2, Flags);

    MI.eraseFromParent();

    return true;

  }


  assert(Ty == F32);


  if (!needsDenormHandlingF32(B.getMF(), Src, Flags)) {

    B.buildIntrinsic(Intrinsic::amdgcn_exp2, ArrayRef<Register>{Dst})

        .addUse(Src)

        .setMIFlags(Flags);

    MI.eraseFromParent();

    return true;

  }


  // bool needs_scaling = x < -0x1.f80000p+6f;

  // v_exp_f32(x + (s ? 0x1.0p+6f : 0.0f)) * (s ? 0x1.0p-64f : 1.0f);


  // -nextafter(128.0, -1)

  auto RangeCheckConst = B.buildFConstant(Ty, -0x1.f80000p+6f);

  auto NeedsScaling = B.buildFCmp(CmpInst::FCMP_OLT, LLT::scalar(1), Src,

                                  RangeCheckConst, Flags);


  auto SixtyFour = B.buildFConstant(Ty, 0x1.0p+6f);

  auto Zero = B.buildFConstant(Ty, 0.0);

  auto AddOffset = B.buildSelect(F32, NeedsScaling, SixtyFour, Zero, Flags);

  auto AddInput = B.buildFAdd(F32, Src, AddOffset, Flags);


  auto Exp2 = B.buildIntrinsic(Intrinsic::amdgcn_exp2, {Ty})

                  .addUse(AddInput.getReg(0))

                  .setMIFlags(Flags);


  auto TwoExpNeg64 = B.buildFConstant(Ty, 0x1.0p-64f);

  auto One = B.buildFConstant(Ty, 1.0);

  auto ResultScale = B.buildSelect(F32, NeedsScaling, TwoExpNeg64, One, Flags);

  B.buildFMul(Dst, Exp2, ResultScale, Flags);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFExpUnsafe(MachineIRBuilder &B, Register Dst,

                                             Register X, unsigned Flags) const {

  LLT Ty = B.getMRI()->getType(Dst);

  LLT F32 = LLT::scalar(32);


  if (Ty != F32 || !needsDenormHandlingF32(B.getMF(), X, Flags)) {

    auto Log2E = B.buildFConstant(Ty, numbers::log2e);

    auto Mul = B.buildFMul(Ty, X, Log2E, Flags);


    if (Ty == F32) {

      B.buildIntrinsic(Intrinsic::amdgcn_exp2, ArrayRef<Register>{Dst})

        .addUse(Mul.getReg(0))

        .setMIFlags(Flags);

    } else {

      B.buildFExp2(Dst, Mul.getReg(0), Flags);

    }


    return true;

  }


  auto Threshold = B.buildFConstant(Ty, -0x1.5d58a0p+6f);

  auto NeedsScaling =

      B.buildFCmp(CmpInst::FCMP_OLT, LLT::scalar(1), X, Threshold, Flags);

  auto ScaleOffset = B.buildFConstant(Ty, 0x1.0p+6f);

  auto ScaledX = B.buildFAdd(Ty, X, ScaleOffset, Flags);

  auto AdjustedX = B.buildSelect(Ty, NeedsScaling, ScaledX, X, Flags);


  auto Log2E = B.buildFConstant(Ty, numbers::log2e);

  auto ExpInput = B.buildFMul(Ty, AdjustedX, Log2E, Flags);


  auto Exp2 = B.buildIntrinsic(Intrinsic::amdgcn_exp2, {Ty})

    .addUse(ExpInput.getReg(0))

    .setMIFlags(Flags);


  auto ResultScaleFactor = B.buildFConstant(Ty, 0x1.969d48p-93f);

  auto AdjustedResult = B.buildFMul(Ty, Exp2, ResultScaleFactor, Flags);

  B.buildSelect(Dst, NeedsScaling, AdjustedResult, Exp2, Flags);

  return true;

}


bool AMDGPULegalizerInfo::legalizeFExp(MachineInstr &MI,

                                       MachineIRBuilder &B) const {

  Register Dst = MI.getOperand(0).getReg();

  Register X = MI.getOperand(1).getReg();

  const unsigned Flags = MI.getFlags();

  MachineFunction &MF = B.getMF();

  MachineRegisterInfo &MRI = *B.getMRI();

  LLT Ty = MRI.getType(Dst);

  const LLT F16 = LLT::scalar(16);

  const LLT F32 = LLT::scalar(32);

  const bool IsExp10 = MI.getOpcode() == TargetOpcode::G_FEXP10;


  if (Ty == F16) {

    // v_exp_f16 (fmul x, log2e)

    if (allowApproxFunc(MF, Flags)) {

      // TODO: Does this really require fast?

      legalizeFExpUnsafe(B, Dst, X, Flags);

      MI.eraseFromParent();

      return true;

    }


    // exp(f16 x) ->

    //   fptrunc (v_exp_f32 (fmul (fpext x), log2e))


    // Nothing in half is a denormal when promoted to f32.

    auto Ext = B.buildFPExt(F32, X, Flags);

    Register Lowered = MRI.createGenericVirtualRegister(F32);

    legalizeFExpUnsafe(B, Lowered, Ext.getReg(0), Flags);

    B.buildFPTrunc(Dst, Lowered, Flags);

    MI.eraseFromParent();

    return true;

  }


  assert(Ty == F32);


  // TODO: Interpret allowApproxFunc as ignoring DAZ. This is currently copying

  // library behavior. Also, is known-not-daz source sufficient?

  if (allowApproxFunc(MF, Flags)) {

    legalizeFExpUnsafe(B, Dst, X, Flags);

    MI.eraseFromParent();

    return true;

  }


  //    Algorithm:

  //

  //    e^x = 2^(x/ln(2)) = 2^(x*(64/ln(2))/64)

  //

  //    x*(64/ln(2)) = n + f, |f| <= 0.5, n is integer

  //    n = 64*m + j,   0 <= j < 64

  //

  //    e^x = 2^((64*m + j + f)/64)

  //        = (2^m) * (2^(j/64)) * 2^(f/64)

  //        = (2^m) * (2^(j/64)) * e^(f*(ln(2)/64))

  //

  //    f = x*(64/ln(2)) - n

  //    r = f*(ln(2)/64) = x - n*(ln(2)/64)

  //

  //    e^x = (2^m) * (2^(j/64)) * e^r

  //

  //    (2^(j/64)) is precomputed

  //

  //    e^r = 1 + r + (r^2)/2! + (r^3)/3! + (r^4)/4! + (r^5)/5!

  //    e^r = 1 + q

  //

  //    q = r + (r^2)/2! + (r^3)/3! + (r^4)/4! + (r^5)/5!

  //

  //    e^x = (2^m) * ( (2^(j/64)) + q*(2^(j/64)) )

  const unsigned FlagsNoContract = Flags & ~MachineInstr::FmContract;

  Register PH, PL;


  if (ST.hasFastFMAF32()) {

    const float c_exp = numbers::log2ef;

    const float cc_exp = 0x1.4ae0bep-26f; // c+cc are 49 bits

    const float c_exp10 = 0x1.a934f0p+1f;

    const float cc_exp10 = 0x1.2f346ep-24f;


    auto C = B.buildFConstant(Ty, IsExp10 ? c_exp10 : c_exp);

    PH = B.buildFMul(Ty, X, C, Flags).getReg(0);

    auto NegPH = B.buildFNeg(Ty, PH, Flags);

    auto FMA0 = B.buildFMA(Ty, X, C, NegPH, Flags);


    auto CC = B.buildFConstant(Ty, IsExp10 ? cc_exp10 : cc_exp);

    PL = B.buildFMA(Ty, X, CC, FMA0, Flags).getReg(0);

  } else {

    const float ch_exp = 0x1.714000p+0f;

    const float cl_exp = 0x1.47652ap-12f; // ch + cl are 36 bits


    const float ch_exp10 = 0x1.a92000p+1f;

    const float cl_exp10 = 0x1.4f0978p-11f;


    auto MaskConst = B.buildConstant(Ty, 0xfffff000);

    auto XH = B.buildAnd(Ty, X, MaskConst);

    auto XL = B.buildFSub(Ty, X, XH, Flags);


    auto CH = B.buildFConstant(Ty, IsExp10 ? ch_exp10 : ch_exp);

    PH = B.buildFMul(Ty, XH, CH, Flags).getReg(0);


    auto CL = B.buildFConstant(Ty, IsExp10 ? cl_exp10 : cl_exp);

    auto XLCL = B.buildFMul(Ty, XL, CL, Flags);


    Register Mad0 =

        getMad(B, Ty, XL.getReg(0), CH.getReg(0), XLCL.getReg(0), Flags);

    PL = getMad(B, Ty, XH.getReg(0), CL.getReg(0), Mad0, Flags);

  }


  auto E = B.buildIntrinsicRoundeven(Ty, PH, Flags);


  // It is unsafe to contract this fsub into the PH multiply.

  auto PHSubE = B.buildFSub(Ty, PH, E, FlagsNoContract);

  auto A = B.buildFAdd(Ty, PHSubE, PL, Flags);

  auto IntE = B.buildFPTOSI(LLT::scalar(32), E);


  auto Exp2 = B.buildIntrinsic(Intrinsic::amdgcn_exp2, {Ty})

                  .addUse(A.getReg(0))

                  .setMIFlags(Flags);

  auto R = B.buildFLdexp(Ty, Exp2, IntE, Flags);


  auto UnderflowCheckConst =

      B.buildFConstant(Ty, IsExp10 ? -0x1.66d3e8p+5f : -0x1.9d1da0p+6f);

  auto Zero = B.buildFConstant(Ty, 0.0);

  auto Underflow =

      B.buildFCmp(CmpInst::FCMP_OLT, LLT::scalar(1), X, UnderflowCheckConst);


  R = B.buildSelect(Ty, Underflow, Zero, R);


  const auto &Options = MF.getTarget().Options;


  if (!(Flags & MachineInstr::FmNoInfs) && !Options.NoInfsFPMath) {

    auto OverflowCheckConst =

        B.buildFConstant(Ty, IsExp10 ? 0x1.344136p+5f : 0x1.62e430p+6f);


    auto Overflow =

        B.buildFCmp(CmpInst::FCMP_OGT, LLT::scalar(1), X, OverflowCheckConst);

    auto Inf = B.buildFConstant(Ty, APFloat::getInf(APFloat::IEEEsingle()));

    R = B.buildSelect(Ty, Overflow, Inf, R, Flags);

  }


  B.buildCopy(Dst, R);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFPow(MachineInstr &MI,

                                       MachineIRBuilder &B) const {

  Register Dst = MI.getOperand(0).getReg();

  Register Src0 = MI.getOperand(1).getReg();

  Register Src1 = MI.getOperand(2).getReg();

  unsigned Flags = MI.getFlags();

  LLT Ty = B.getMRI()->getType(Dst);

  const LLT F16 = LLT::float16();

  const LLT F32 = LLT::float32();


  if (Ty == F32) {

    auto Log = B.buildFLog2(F32, Src0, Flags);

    auto Mul = B.buildIntrinsic(Intrinsic::amdgcn_fmul_legacy, {F32})

                   .addUse(Log.getReg(0))

                   .addUse(Src1)

                   .setMIFlags(Flags);

    B.buildFExp2(Dst, Mul, Flags);

  } else if (Ty == F16) {

    // There's no f16 fmul_legacy, so we need to convert for it.

    auto Log = B.buildFLog2(F16, Src0, Flags);

    auto Ext0 = B.buildFPExt(F32, Log, Flags);

    auto Ext1 = B.buildFPExt(F32, Src1, Flags);

    auto Mul = B.buildIntrinsic(Intrinsic::amdgcn_fmul_legacy, {F32})

                   .addUse(Ext0.getReg(0))

                   .addUse(Ext1.getReg(0))

                   .setMIFlags(Flags);

    B.buildFExp2(Dst, B.buildFPTrunc(F16, Mul), Flags);

  } else

    return false;


  MI.eraseFromParent();

  return true;

}


// Find a source register, ignoring any possible source modifiers.


static Register stripAnySourceMods(Register OrigSrc, MachineRegisterInfo &MRI) {

  Register ModSrc = OrigSrc;

  if (MachineInstr *SrcFNeg = getOpcodeDef(AMDGPU::G_FNEG, ModSrc, MRI)) {

    ModSrc = SrcFNeg->getOperand(1).getReg();

    if (MachineInstr *SrcFAbs = getOpcodeDef(AMDGPU::G_FABS, ModSrc, MRI))

      ModSrc = SrcFAbs->getOperand(1).getReg();

  } else if (MachineInstr *SrcFAbs = getOpcodeDef(AMDGPU::G_FABS, ModSrc, MRI))

    ModSrc = SrcFAbs->getOperand(1).getReg();

  return ModSrc;

}


bool AMDGPULegalizerInfo::legalizeFFloor(MachineInstr &MI,

                                         MachineRegisterInfo &MRI,

                                         MachineIRBuilder &B) const {


  const LLT S1 = LLT::scalar(1);

  const LLT F64 = LLT::float64();

  Register Dst = MI.getOperand(0).getReg();

  Register OrigSrc = MI.getOperand(1).getReg();

  unsigned Flags = MI.getFlags();

  assert(ST.hasFractBug() && MRI.getType(Dst) == F64 &&

         "this should not have been custom lowered");


  // V_FRACT is buggy on SI, so the F32 version is never used and (x-floor(x))

  // is used instead. However, SI doesn't have V_FLOOR_F64, so the most

  // efficient way to implement it is using V_FRACT_F64. The workaround for the

  // V_FRACT bug is:

  //    fract(x) = isnan(x) ? x : min(V_FRACT(x), 0.99999999999999999)

  //

  // Convert floor(x) to (x - fract(x))


  auto Fract = B.buildIntrinsic(Intrinsic::amdgcn_fract, {F64})

                   .addUse(OrigSrc)

                   .setMIFlags(Flags);


  // Give source modifier matching some assistance before obscuring a foldable

  // pattern.


  // TODO: We can avoid the neg on the fract? The input sign to fract

  // shouldn't matter?

  Register ModSrc = stripAnySourceMods(OrigSrc, MRI);


  auto Const =

      B.buildFConstant(F64, llvm::bit_cast<double>(0x3fefffffffffffff));


  Register Min = MRI.createGenericVirtualRegister(F64);


  // We don't need to concern ourselves with the snan handling difference, so

  // use the one which will directly select.

  const SIMachineFunctionInfo *MFI = B.getMF().getInfo<SIMachineFunctionInfo>();

  if (MFI->getMode().IEEE)

    B.buildFMinNumIEEE(Min, Fract, Const, Flags);

  else

    B.buildFMinNum(Min, Fract, Const, Flags);


  Register CorrectedFract = Min;

  if (!MI.getFlag(MachineInstr::FmNoNans)) {

    auto IsNan = B.buildFCmp(CmpInst::FCMP_ORD, S1, ModSrc, ModSrc, Flags);

    CorrectedFract = B.buildSelect(F64, IsNan, ModSrc, Min, Flags).getReg(0);

  }


  auto NegFract = B.buildFNeg(F64, CorrectedFract, Flags);

  B.buildFAdd(Dst, OrigSrc, NegFract, Flags);


  MI.eraseFromParent();

  return true;

}


// Turn an illegal packed v2s16 build vector into bit operations.

// TODO: This should probably be a bitcast action in LegalizerHelper.


bool AMDGPULegalizerInfo::legalizeBuildVector(

  MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {

  Register Dst = MI.getOperand(0).getReg();

  const LLT S32 = LLT::scalar(32);

  const LLT S16 = LLT::scalar(16);

  assert(MRI.getType(Dst) == LLT::fixed_vector(2, 16));


  Register Src0 = MI.getOperand(1).getReg();

  Register Src1 = MI.getOperand(2).getReg();


  if (MI.getOpcode() == AMDGPU::G_BUILD_VECTOR_TRUNC) {

    assert(MRI.getType(Src0) == S32);

    Src0 = B.buildTrunc(S16, MI.getOperand(1).getReg()).getReg(0);

    Src1 = B.buildTrunc(S16, MI.getOperand(2).getReg()).getReg(0);

  }


  auto Merge = B.buildMergeLikeInstr(S32, {Src0, Src1});

  B.buildBitcast(Dst, Merge);


  MI.eraseFromParent();

  return true;

}


// Build a big integer multiply or multiply-add using MAD_64_32 instructions.

//

// Source and accumulation registers must all be 32-bits.

//

// TODO: When the multiply is uniform, we should produce a code sequence

// that is better suited to instruction selection on the SALU. Instead of

// the outer loop going over parts of the result, the outer loop should go

// over parts of one of the factors. This should result in instruction

// selection that makes full use of S_ADDC_U32 instructions.


void AMDGPULegalizerInfo::buildMultiply(LegalizerHelper &Helper,

                                        MutableArrayRef<Register> Accum,

                                        ArrayRef<Register> Src0,

                                        ArrayRef<Register> Src1,

                                        bool UsePartialMad64_32,

                                        bool SeparateOddAlignedProducts) const {

  // Use (possibly empty) vectors of S1 registers to represent the set of

  // carries from one pair of positions to the next.

  using Carry = SmallVector<Register, 2>;


  MachineIRBuilder &B = Helper.MIRBuilder;

  GISelValueTracking &VT = *Helper.getValueTracking();


  const LLT S1 = LLT::scalar(1);

  const LLT S32 = LLT::scalar(32);

  const LLT S64 = LLT::scalar(64);


  Register Zero32;

  Register Zero64;


  auto getZero32 = [&]() -> Register {

    if (!Zero32)

      Zero32 = B.buildConstant(S32, 0).getReg(0);

    return Zero32;

  };

  auto getZero64 = [&]() -> Register {

    if (!Zero64)

      Zero64 = B.buildConstant(S64, 0).getReg(0);

    return Zero64;

  };


  SmallVector<bool, 2> Src0KnownZeros, Src1KnownZeros;

  for (unsigned i = 0; i < Src0.size(); ++i) {

    Src0KnownZeros.push_back(VT.getKnownBits(Src0[i]).isZero());

    Src1KnownZeros.push_back(VT.getKnownBits(Src1[i]).isZero());

  }


  // Merge the given carries into the 32-bit LocalAccum, which is modified

  // in-place.

  //

  // Returns the carry-out, which is a single S1 register or null.

  auto mergeCarry =

      [&](Register &LocalAccum, const Carry &CarryIn) -> Register {

        if (CarryIn.empty())

          return Register();


        bool HaveCarryOut = true;

        Register CarryAccum;

        if (CarryIn.size() == 1) {

          if (!LocalAccum) {

            LocalAccum = B.buildZExt(S32, CarryIn[0]).getReg(0);

            return Register();

          }


          CarryAccum = getZero32();

        } else {

          CarryAccum = B.buildZExt(S32, CarryIn[0]).getReg(0);

          for (unsigned i = 1; i + 1 < CarryIn.size(); ++i) {

            CarryAccum =

                B.buildUAdde(S32, S1, CarryAccum, getZero32(), CarryIn[i])

                    .getReg(0);

          }


          if (!LocalAccum) {

            LocalAccum = getZero32();

            HaveCarryOut = false;

          }

        }


        auto Add =

            B.buildUAdde(S32, S1, CarryAccum, LocalAccum, CarryIn.back());

        LocalAccum = Add.getReg(0);

        return HaveCarryOut ? Add.getReg(1) : Register();

      };


  // Build a multiply-add chain to compute

  //

  //   LocalAccum + (partial products at DstIndex)

  //       + (opportunistic subset of CarryIn)

  //

  // LocalAccum is an array of one or two 32-bit registers that are updated

  // in-place. The incoming registers may be null.

  //

  // In some edge cases, carry-ins can be consumed "for free". In that case,

  // the consumed carry bits are removed from CarryIn in-place.

  auto buildMadChain =

      [&](MutableArrayRef<Register> LocalAccum, unsigned DstIndex, Carry &CarryIn)

          -> Carry {

        assert((DstIndex + 1 < Accum.size() && LocalAccum.size() == 2) ||

               (DstIndex + 1 >= Accum.size() && LocalAccum.size() == 1));


        Carry CarryOut;

        unsigned j0 = 0;


        // Use plain 32-bit multiplication for the most significant part of the

        // result by default.

        if (LocalAccum.size() == 1 &&

            (!UsePartialMad64_32 || !CarryIn.empty())) {

          do {

            // Skip multiplication if one of the operands is 0

            unsigned j1 = DstIndex - j0;

            if (Src0KnownZeros[j0] || Src1KnownZeros[j1]) {

              ++j0;

              continue;

            }

            auto Mul = B.buildMul(S32, Src0[j0], Src1[j1]);

            if (!LocalAccum[0] || VT.getKnownBits(LocalAccum[0]).isZero()) {

              LocalAccum[0] = Mul.getReg(0);

            } else {

              if (CarryIn.empty()) {

                LocalAccum[0] = B.buildAdd(S32, LocalAccum[0], Mul).getReg(0);

              } else {

                LocalAccum[0] =

                    B.buildUAdde(S32, S1, LocalAccum[0], Mul, CarryIn.back())

                        .getReg(0);

                CarryIn.pop_back();

              }

            }

            ++j0;

          } while (j0 <= DstIndex && (!UsePartialMad64_32 || !CarryIn.empty()));

        }


        // Build full 64-bit multiplies.

        if (j0 <= DstIndex) {

          bool HaveSmallAccum = false;

          Register Tmp;


          if (LocalAccum[0]) {

            if (LocalAccum.size() == 1) {

              Tmp = B.buildAnyExt(S64, LocalAccum[0]).getReg(0);

              HaveSmallAccum = true;

            } else if (LocalAccum[1]) {

              Tmp = B.buildMergeLikeInstr(S64, LocalAccum).getReg(0);

              HaveSmallAccum = false;

            } else {

              Tmp = B.buildZExt(S64, LocalAccum[0]).getReg(0);

              HaveSmallAccum = true;

            }

          } else {

            assert(LocalAccum.size() == 1 || !LocalAccum[1]);

            Tmp = getZero64();

            HaveSmallAccum = true;

          }


          do {

            unsigned j1 = DstIndex - j0;

            if (Src0KnownZeros[j0] || Src1KnownZeros[j1]) {

              ++j0;

              continue;

            }

            auto Mad = B.buildInstr(AMDGPU::G_AMDGPU_MAD_U64_U32, {S64, S1},

                                    {Src0[j0], Src1[j1], Tmp});

            Tmp = Mad.getReg(0);

            if (!HaveSmallAccum)

              CarryOut.push_back(Mad.getReg(1));

            HaveSmallAccum = false;


            ++j0;

          } while (j0 <= DstIndex);


          auto Unmerge = B.buildUnmerge(S32, Tmp);

          LocalAccum[0] = Unmerge.getReg(0);

          if (LocalAccum.size() > 1)

            LocalAccum[1] = Unmerge.getReg(1);

        }


        return CarryOut;

      };


  // Outer multiply loop, iterating over destination parts from least

  // significant to most significant parts.

  //

  // The columns of the following diagram correspond to the destination parts

  // affected by one iteration of the outer loop (ignoring boundary

  // conditions).

  //

  //   Dest index relative to 2 * i:      1 0 -1

  //                                      ------

  //   Carries from previous iteration:     e o

  //   Even-aligned partial product sum:  E E .

  //   Odd-aligned partial product sum:     O O

  //

  // 'o' is OddCarry, 'e' is EvenCarry.

  // EE and OO are computed from partial products via buildMadChain and use

  // accumulation where possible and appropriate.

  //

  Register SeparateOddCarry;

  Carry EvenCarry;

  Carry OddCarry;


  for (unsigned i = 0; i <= Accum.size() / 2; ++i) {

    Carry OddCarryIn = std::move(OddCarry);

    Carry EvenCarryIn = std::move(EvenCarry);

    OddCarry.clear();

    EvenCarry.clear();


    // Partial products at offset 2 * i.

    if (2 * i < Accum.size()) {

      auto LocalAccum = Accum.drop_front(2 * i).take_front(2);

      EvenCarry = buildMadChain(LocalAccum, 2 * i, EvenCarryIn);

    }


    // Partial products at offset 2 * i - 1.

    if (i > 0) {

      if (!SeparateOddAlignedProducts) {

        auto LocalAccum = Accum.drop_front(2 * i - 1).take_front(2);

        OddCarry = buildMadChain(LocalAccum, 2 * i - 1, OddCarryIn);

      } else {

        bool IsHighest = 2 * i >= Accum.size();

        Register SeparateOddOut[2];

        auto LocalAccum = MutableArrayRef(SeparateOddOut)

                              .take_front(IsHighest ? 1 : 2);

        OddCarry = buildMadChain(LocalAccum, 2 * i - 1, OddCarryIn);


        MachineInstr *Lo;


        if (i == 1) {

          if (!IsHighest)

            Lo = B.buildUAddo(S32, S1, Accum[2 * i - 1], SeparateOddOut[0]);

          else

            Lo = B.buildAdd(S32, Accum[2 * i - 1], SeparateOddOut[0]);

        } else {

          Lo = B.buildUAdde(S32, S1, Accum[2 * i - 1], SeparateOddOut[0],

                            SeparateOddCarry);

        }

        Accum[2 * i - 1] = Lo->getOperand(0).getReg();


        if (!IsHighest) {

          auto Hi = B.buildUAdde(S32, S1, Accum[2 * i], SeparateOddOut[1],

                                Lo->getOperand(1).getReg());

          Accum[2 * i] = Hi.getReg(0);

          SeparateOddCarry = Hi.getReg(1);

        }

      }

    }


    // Add in the carries from the previous iteration

    if (i > 0) {

      if (Register CarryOut = mergeCarry(Accum[2 * i - 1], OddCarryIn))

        EvenCarryIn.push_back(CarryOut);


      if (2 * i < Accum.size()) {

        if (Register CarryOut = mergeCarry(Accum[2 * i], EvenCarryIn))

          OddCarry.push_back(CarryOut);

      }

    }

  }

}


// Custom narrowing of wide multiplies using wide multiply-add instructions.

//

// TODO: If the multiply is followed by an addition, we should attempt to

// integrate it to make better use of V_MAD_U64_U32's multiply-add capabilities.


bool AMDGPULegalizerInfo::legalizeMul(LegalizerHelper &Helper,

                                      MachineInstr &MI) const {

  assert(ST.hasMad64_32());

  assert(MI.getOpcode() == TargetOpcode::G_MUL);


  MachineIRBuilder &B = Helper.MIRBuilder;

  MachineRegisterInfo &MRI = *B.getMRI();


  Register DstReg = MI.getOperand(0).getReg();

  Register Src0 = MI.getOperand(1).getReg();

  Register Src1 = MI.getOperand(2).getReg();


  LLT Ty = MRI.getType(DstReg);

  assert(Ty.isScalar());


  unsigned Size = Ty.getSizeInBits();

  if (ST.hasVectorMulU64() && Size == 64)

    return true;


  unsigned NumParts = Size / 32;

  assert((Size % 32) == 0);

  assert(NumParts >= 2);


  // Whether to use MAD_64_32 for partial products whose high half is

  // discarded. This avoids some ADD instructions but risks false dependency

  // stalls on some subtargets in some cases.

  const bool UsePartialMad64_32 = ST.getGeneration() < AMDGPUSubtarget::GFX10;


  // Whether to compute odd-aligned partial products separately. This is

  // advisable on subtargets where the accumulator of MAD_64_32 must be placed

  // in an even-aligned VGPR.

  const bool SeparateOddAlignedProducts = ST.hasFullRate64Ops();


  LLT S32 = LLT::scalar(32);

  SmallVector<Register, 2> Src0Parts, Src1Parts;

  for (unsigned i = 0; i < NumParts; ++i) {

    Src0Parts.push_back(MRI.createGenericVirtualRegister(S32));

    Src1Parts.push_back(MRI.createGenericVirtualRegister(S32));

  }

  B.buildUnmerge(Src0Parts, Src0);

  B.buildUnmerge(Src1Parts, Src1);


  SmallVector<Register, 2> AccumRegs(NumParts);

  buildMultiply(Helper, AccumRegs, Src0Parts, Src1Parts, UsePartialMad64_32,

                SeparateOddAlignedProducts);


  B.buildMergeLikeInstr(DstReg, AccumRegs);

  MI.eraseFromParent();

  return true;

}


// Legalize ctlz/cttz to ffbh/ffbl instead of the default legalization to

// ctlz/cttz_zero_undef. This allows us to fix up the result for the zero input

// case with a single min instruction instead of a compare+select.


bool AMDGPULegalizerInfo::legalizeCTLZ_CTTZ(MachineInstr &MI,

                                            MachineRegisterInfo &MRI,

                                            MachineIRBuilder &B) const {

  Register Dst = MI.getOperand(0).getReg();

  Register Src = MI.getOperand(1).getReg();

  LLT DstTy = MRI.getType(Dst);

  LLT SrcTy = MRI.getType(Src);


  unsigned NewOpc = MI.getOpcode() == AMDGPU::G_CTLZ

                        ? AMDGPU::G_AMDGPU_FFBH_U32

                        : AMDGPU::G_AMDGPU_FFBL_B32;

  auto Tmp = B.buildInstr(NewOpc, {DstTy}, {Src});

  B.buildUMin(Dst, Tmp, B.buildConstant(DstTy, SrcTy.getSizeInBits()));


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeCTLZ_ZERO_UNDEF(MachineInstr &MI,

                                                  MachineRegisterInfo &MRI,

                                                  MachineIRBuilder &B) const {

  Register Dst = MI.getOperand(0).getReg();

  Register Src = MI.getOperand(1).getReg();

  LLT SrcTy = MRI.getType(Src);

  TypeSize NumBits = SrcTy.getSizeInBits();


  assert(NumBits < 32u);


  auto ShiftAmt = B.buildConstant(S32, 32u - NumBits);

  auto Extend = B.buildAnyExt(S32, {Src}).getReg(0u);

  auto Shift = B.buildShl(S32, Extend, ShiftAmt);

  auto Ctlz = B.buildInstr(AMDGPU::G_AMDGPU_FFBH_U32, {S32}, {Shift});

  B.buildTrunc(Dst, Ctlz);

  MI.eraseFromParent();

  return true;

}


// Check that this is a G_XOR x, -1


static bool isNot(const MachineRegisterInfo &MRI, const MachineInstr &MI) {

  if (MI.getOpcode() != TargetOpcode::G_XOR)

    return false;

  auto ConstVal = getIConstantVRegSExtVal(MI.getOperand(2).getReg(), MRI);

  return ConstVal == -1;

}


// Return the use branch instruction, otherwise null if the usage is invalid.

static MachineInstr *


verifyCFIntrinsic(MachineInstr &MI, MachineRegisterInfo &MRI, MachineInstr *&Br,

                  MachineBasicBlock *&UncondBrTarget, bool &Negated) {

  Register CondDef = MI.getOperand(0).getReg();

  if (!MRI.hasOneNonDBGUse(CondDef))

    return nullptr;


  MachineBasicBlock *Parent = MI.getParent();

  MachineInstr *UseMI = &*MRI.use_instr_nodbg_begin(CondDef);


  if (isNot(MRI, *UseMI)) {

    Register NegatedCond = UseMI->getOperand(0).getReg();

    if (!MRI.hasOneNonDBGUse(NegatedCond))

      return nullptr;


    // We're deleting the def of this value, so we need to remove it.

    eraseInstr(*UseMI, MRI);


    UseMI = &*MRI.use_instr_nodbg_begin(NegatedCond);

    Negated = true;

  }


  if (UseMI->getParent() != Parent || UseMI->getOpcode() != AMDGPU::G_BRCOND)

    return nullptr;


  // Make sure the cond br is followed by a G_BR, or is the last instruction.

  MachineBasicBlock::iterator Next = std::next(UseMI->getIterator());

  if (Next == Parent->end()) {

    MachineFunction::iterator NextMBB = std::next(Parent->getIterator());

    if (NextMBB == Parent->getParent()->end()) // Illegal intrinsic use.

      return nullptr;

    UncondBrTarget = &*NextMBB;

  } else {

    if (Next->getOpcode() != AMDGPU::G_BR)

      return nullptr;

    Br = &*Next;

    UncondBrTarget = Br->getOperand(0).getMBB();

  }


  return UseMI;

}


void AMDGPULegalizerInfo::buildLoadInputValue(Register DstReg,

                                              MachineIRBuilder &B,

                                              const ArgDescriptor *Arg,

                                              const TargetRegisterClass *ArgRC,

                                              LLT ArgTy) const {

  MCRegister SrcReg = Arg->getRegister();

  assert(SrcReg.isPhysical() && "Physical register expected");

  assert(DstReg.isVirtual() && "Virtual register expected");


  Register LiveIn = getFunctionLiveInPhysReg(B.getMF(), B.getTII(), SrcReg,

                                             *ArgRC, B.getDebugLoc(), ArgTy);

  if (Arg->isMasked()) {

    // TODO: Should we try to emit this once in the entry block?

    const LLT S32 = LLT::scalar(32);

    const unsigned Mask = Arg->getMask();

    const unsigned Shift = llvm::countr_zero<unsigned>(Mask);


    Register AndMaskSrc = LiveIn;


    // TODO: Avoid clearing the high bits if we know workitem id y/z are always

    // 0.

    if (Shift != 0) {

      auto ShiftAmt = B.buildConstant(S32, Shift);

      AndMaskSrc = B.buildLShr(S32, LiveIn, ShiftAmt).getReg(0);

    }


    B.buildAnd(DstReg, AndMaskSrc, B.buildConstant(S32, Mask >> Shift));

  } else {

    B.buildCopy(DstReg, LiveIn);

  }

}


bool AMDGPULegalizerInfo::loadInputValue(

    Register DstReg, MachineIRBuilder &B,

    AMDGPUFunctionArgInfo::PreloadedValue ArgType) const {

  const SIMachineFunctionInfo *MFI = B.getMF().getInfo<SIMachineFunctionInfo>();

  const ArgDescriptor *Arg = nullptr;

  const TargetRegisterClass *ArgRC;

  LLT ArgTy;


  CallingConv::ID CC = B.getMF().getFunction().getCallingConv();

  const ArgDescriptor WorkGroupIDX =

      ArgDescriptor::createRegister(AMDGPU::TTMP9);

  // If GridZ is not programmed in an entry function then the hardware will set

  // it to all zeros, so there is no need to mask the GridY value in the low

  // order bits.

  const ArgDescriptor WorkGroupIDY = ArgDescriptor::createRegister(

      AMDGPU::TTMP7,

      AMDGPU::isEntryFunctionCC(CC) && !MFI->hasWorkGroupIDZ() ? ~0u : 0xFFFFu);

  const ArgDescriptor WorkGroupIDZ =

      ArgDescriptor::createRegister(AMDGPU::TTMP7, 0xFFFF0000u);

  if (ST.hasArchitectedSGPRs() &&

      (AMDGPU::isCompute(CC) || CC == CallingConv::AMDGPU_Gfx)) {

    switch (ArgType) {

    case AMDGPUFunctionArgInfo::WORKGROUP_ID_X:

      Arg = &WorkGroupIDX;

      ArgRC = &AMDGPU::SReg_32RegClass;

      ArgTy = LLT::scalar(32);

      break;

    case AMDGPUFunctionArgInfo::WORKGROUP_ID_Y:

      Arg = &WorkGroupIDY;

      ArgRC = &AMDGPU::SReg_32RegClass;

      ArgTy = LLT::scalar(32);

      break;

    case AMDGPUFunctionArgInfo::WORKGROUP_ID_Z:

      Arg = &WorkGroupIDZ;

      ArgRC = &AMDGPU::SReg_32RegClass;

      ArgTy = LLT::scalar(32);

      break;

    default:

      break;

    }

  }


  if (!Arg)

    std::tie(Arg, ArgRC, ArgTy) = MFI->getPreloadedValue(ArgType);


  if (!Arg) {

    if (ArgType == AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR) {

      // The intrinsic may appear when we have a 0 sized kernarg segment, in which

      // case the pointer argument may be missing and we use null.

      B.buildConstant(DstReg, 0);

      return true;

    }


    // It's undefined behavior if a function marked with the amdgpu-no-*

    // attributes uses the corresponding intrinsic.

    B.buildUndef(DstReg);

    return true;

  }


  if (!Arg->isRegister() || !Arg->getRegister().isValid())

    return false; // TODO: Handle these

  buildLoadInputValue(DstReg, B, Arg, ArgRC, ArgTy);

  return true;

}


bool AMDGPULegalizerInfo::legalizePreloadedArgIntrin(

    MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B,

    AMDGPUFunctionArgInfo::PreloadedValue ArgType) const {

  if (!loadInputValue(MI.getOperand(0).getReg(), B, ArgType))

    return false;


  MI.eraseFromParent();

  return true;

}


static bool replaceWithConstant(MachineIRBuilder &B, MachineInstr &MI,

                                int64_t C) {

  B.buildConstant(MI.getOperand(0).getReg(), C);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeWorkitemIDIntrinsic(

    MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B,

    unsigned Dim, AMDGPUFunctionArgInfo::PreloadedValue ArgType) const {

  unsigned MaxID = ST.getMaxWorkitemID(B.getMF().getFunction(), Dim);

  if (MaxID == 0)

    return replaceWithConstant(B, MI, 0);


  const SIMachineFunctionInfo *MFI = B.getMF().getInfo<SIMachineFunctionInfo>();

  const ArgDescriptor *Arg;

  const TargetRegisterClass *ArgRC;

  LLT ArgTy;

  std::tie(Arg, ArgRC, ArgTy) = MFI->getPreloadedValue(ArgType);


  Register DstReg = MI.getOperand(0).getReg();

  if (!Arg) {

    // It's undefined behavior if a function marked with the amdgpu-no-*

    // attributes uses the corresponding intrinsic.

    B.buildUndef(DstReg);

    MI.eraseFromParent();

    return true;

  }


  if (Arg->isMasked()) {

    // Don't bother inserting AssertZext for packed IDs since we're emitting the

    // masking operations anyway.

    //

    // TODO: We could assert the top bit is 0 for the source copy.

    if (!loadInputValue(DstReg, B, ArgType))

      return false;

  } else {

    Register TmpReg = MRI.createGenericVirtualRegister(LLT::scalar(32));

    if (!loadInputValue(TmpReg, B, ArgType))

      return false;

    B.buildAssertZExt(DstReg, TmpReg, llvm::bit_width(MaxID));

  }


  MI.eraseFromParent();

  return true;

}


Register AMDGPULegalizerInfo::getKernargParameterPtr(MachineIRBuilder &B,

                                                     int64_t Offset) const {

  LLT PtrTy = LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64);

  Register KernArgReg = B.getMRI()->createGenericVirtualRegister(PtrTy);


  // TODO: If we passed in the base kernel offset we could have a better

  // alignment than 4, but we don't really need it.

  if (!loadInputValue(KernArgReg, B,

                      AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR))

    llvm_unreachable("failed to find kernarg segment ptr");


  auto COffset = B.buildConstant(LLT::scalar(64), Offset);

  return B.buildObjectPtrOffset(PtrTy, KernArgReg, COffset).getReg(0);

}


/// Legalize a value that's loaded from kernel arguments. This is only used by

/// legacy intrinsics.


bool AMDGPULegalizerInfo::legalizeKernargMemParameter(MachineInstr &MI,

                                                      MachineIRBuilder &B,

                                                      uint64_t Offset,

                                                      Align Alignment) const {

  Register DstReg = MI.getOperand(0).getReg();


  assert(B.getMRI()->getType(DstReg) == LLT::scalar(32) &&

         "unexpected kernarg parameter type");


  Register Ptr = getKernargParameterPtr(B, Offset);

  MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);

  B.buildLoad(DstReg, Ptr, PtrInfo, Align(4),

              MachineMemOperand::MODereferenceable |

                  MachineMemOperand::MOInvariant);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFDIV(MachineInstr &MI,

                                       MachineRegisterInfo &MRI,

                                       MachineIRBuilder &B) const {

  Register Dst = MI.getOperand(0).getReg();

  LLT DstTy = MRI.getType(Dst);

  LLT S16 = LLT::scalar(16);

  LLT S32 = LLT::scalar(32);

  LLT S64 = LLT::scalar(64);


  if (DstTy == S16)

    return legalizeFDIV16(MI, MRI, B);

  if (DstTy == S32)

    return legalizeFDIV32(MI, MRI, B);

  if (DstTy == S64)

    return legalizeFDIV64(MI, MRI, B);


  return false;

}


void AMDGPULegalizerInfo::legalizeUnsignedDIV_REM32Impl(MachineIRBuilder &B,

                                                        Register DstDivReg,

                                                        Register DstRemReg,

                                                        Register X,

                                                        Register Y) const {

  const LLT S1 = LLT::scalar(1);

  const LLT S32 = LLT::scalar(32);


  // See AMDGPUCodeGenPrepare::expandDivRem32 for a description of the

  // algorithm used here.


  // Initial estimate of inv(y).

  auto FloatY = B.buildUITOFP(S32, Y);

  auto RcpIFlag = B.buildInstr(AMDGPU::G_AMDGPU_RCP_IFLAG, {S32}, {FloatY});

  auto Scale = B.buildFConstant(S32, llvm::bit_cast<float>(0x4f7ffffe));

  auto ScaledY = B.buildFMul(S32, RcpIFlag, Scale);

  auto Z = B.buildFPTOUI(S32, ScaledY);


  // One round of UNR.

  auto NegY = B.buildSub(S32, B.buildConstant(S32, 0), Y);

  auto NegYZ = B.buildMul(S32, NegY, Z);

  Z = B.buildAdd(S32, Z, B.buildUMulH(S32, Z, NegYZ));


  // Quotient/remainder estimate.

  auto Q = B.buildUMulH(S32, X, Z);

  auto R = B.buildSub(S32, X, B.buildMul(S32, Q, Y));


  // First quotient/remainder refinement.

  auto One = B.buildConstant(S32, 1);

  auto Cond = B.buildICmp(CmpInst::ICMP_UGE, S1, R, Y);

  if (DstDivReg)

    Q = B.buildSelect(S32, Cond, B.buildAdd(S32, Q, One), Q);

  R = B.buildSelect(S32, Cond, B.buildSub(S32, R, Y), R);


  // Second quotient/remainder refinement.

  Cond = B.buildICmp(CmpInst::ICMP_UGE, S1, R, Y);

  if (DstDivReg)

    B.buildSelect(DstDivReg, Cond, B.buildAdd(S32, Q, One), Q);


  if (DstRemReg)

    B.buildSelect(DstRemReg, Cond, B.buildSub(S32, R, Y), R);

}


// Build integer reciprocal sequence around V_RCP_IFLAG_F32

//

// Return lo, hi of result

//

// %cvt.lo = G_UITOFP Val.lo

// %cvt.hi = G_UITOFP Val.hi

// %mad = G_FMAD %cvt.hi, 2**32, %cvt.lo

// %rcp = G_AMDGPU_RCP_IFLAG %mad

// %mul1 = G_FMUL %rcp, 0x5f7ffffc

// %mul2 = G_FMUL %mul1, 2**(-32)

// %trunc = G_INTRINSIC_TRUNC %mul2

// %mad2 = G_FMAD %trunc, -(2**32), %mul1

// return {G_FPTOUI %mad2, G_FPTOUI %trunc}


static std::pair<Register, Register> emitReciprocalU64(MachineIRBuilder &B,

                                                       Register Val) {

  const LLT S32 = LLT::scalar(32);

  auto Unmerge = B.buildUnmerge(S32, Val);


  auto CvtLo = B.buildUITOFP(S32, Unmerge.getReg(0));

  auto CvtHi = B.buildUITOFP(S32, Unmerge.getReg(1));


  auto Mad = B.buildFMAD(

      S32, CvtHi, // 2**32

      B.buildFConstant(S32, llvm::bit_cast<float>(0x4f800000)), CvtLo);


  auto Rcp = B.buildInstr(AMDGPU::G_AMDGPU_RCP_IFLAG, {S32}, {Mad});

  auto Mul1 = B.buildFMul(

      S32, Rcp, B.buildFConstant(S32, llvm::bit_cast<float>(0x5f7ffffc)));


  // 2**(-32)

  auto Mul2 = B.buildFMul(

      S32, Mul1, B.buildFConstant(S32, llvm::bit_cast<float>(0x2f800000)));

  auto Trunc = B.buildIntrinsicTrunc(S32, Mul2);


  // -(2**32)

  auto Mad2 = B.buildFMAD(

      S32, Trunc, B.buildFConstant(S32, llvm::bit_cast<float>(0xcf800000)),

      Mul1);


  auto ResultLo = B.buildFPTOUI(S32, Mad2);

  auto ResultHi = B.buildFPTOUI(S32, Trunc);


  return {ResultLo.getReg(0), ResultHi.getReg(0)};

}


void AMDGPULegalizerInfo::legalizeUnsignedDIV_REM64Impl(MachineIRBuilder &B,

                                                        Register DstDivReg,

                                                        Register DstRemReg,

                                                        Register Numer,

                                                        Register Denom) const {

  const LLT S32 = LLT::scalar(32);

  const LLT S64 = LLT::scalar(64);

  const LLT S1 = LLT::scalar(1);

  Register RcpLo, RcpHi;


  std::tie(RcpLo, RcpHi) = emitReciprocalU64(B, Denom);


  auto Rcp = B.buildMergeLikeInstr(S64, {RcpLo, RcpHi});


  auto Zero64 = B.buildConstant(S64, 0);

  auto NegDenom = B.buildSub(S64, Zero64, Denom);


  auto MulLo1 = B.buildMul(S64, NegDenom, Rcp);

  auto MulHi1 = B.buildUMulH(S64, Rcp, MulLo1);


  auto UnmergeMulHi1 = B.buildUnmerge(S32, MulHi1);

  Register MulHi1_Lo = UnmergeMulHi1.getReg(0);

  Register MulHi1_Hi = UnmergeMulHi1.getReg(1);


  auto Add1_Lo = B.buildUAddo(S32, S1, RcpLo, MulHi1_Lo);

  auto Add1_Hi = B.buildUAdde(S32, S1, RcpHi, MulHi1_Hi, Add1_Lo.getReg(1));

  auto Add1 = B.buildMergeLikeInstr(S64, {Add1_Lo, Add1_Hi});


  auto MulLo2 = B.buildMul(S64, NegDenom, Add1);

  auto MulHi2 = B.buildUMulH(S64, Add1, MulLo2);

  auto UnmergeMulHi2 = B.buildUnmerge(S32, MulHi2);

  Register MulHi2_Lo = UnmergeMulHi2.getReg(0);

  Register MulHi2_Hi = UnmergeMulHi2.getReg(1);


  auto Zero32 = B.buildConstant(S32, 0);

  auto Add2_Lo = B.buildUAddo(S32, S1, Add1_Lo, MulHi2_Lo);

  auto Add2_Hi = B.buildUAdde(S32, S1, Add1_Hi, MulHi2_Hi, Add2_Lo.getReg(1));

  auto Add2 = B.buildMergeLikeInstr(S64, {Add2_Lo, Add2_Hi});


  auto UnmergeNumer = B.buildUnmerge(S32, Numer);

  Register NumerLo = UnmergeNumer.getReg(0);

  Register NumerHi = UnmergeNumer.getReg(1);


  auto MulHi3 = B.buildUMulH(S64, Numer, Add2);

  auto Mul3 = B.buildMul(S64, Denom, MulHi3);

  auto UnmergeMul3 = B.buildUnmerge(S32, Mul3);

  Register Mul3_Lo = UnmergeMul3.getReg(0);

  Register Mul3_Hi = UnmergeMul3.getReg(1);

  auto Sub1_Lo = B.buildUSubo(S32, S1, NumerLo, Mul3_Lo);

  auto Sub1_Hi = B.buildUSube(S32, S1, NumerHi, Mul3_Hi, Sub1_Lo.getReg(1));

  auto Sub1_Mi = B.buildSub(S32, NumerHi, Mul3_Hi);

  auto Sub1 = B.buildMergeLikeInstr(S64, {Sub1_Lo, Sub1_Hi});


  auto UnmergeDenom = B.buildUnmerge(S32, Denom);

  Register DenomLo = UnmergeDenom.getReg(0);

  Register DenomHi = UnmergeDenom.getReg(1);


  auto CmpHi = B.buildICmp(CmpInst::ICMP_UGE, S1, Sub1_Hi, DenomHi);

  auto C1 = B.buildSExt(S32, CmpHi);


  auto CmpLo = B.buildICmp(CmpInst::ICMP_UGE, S1, Sub1_Lo, DenomLo);

  auto C2 = B.buildSExt(S32, CmpLo);


  auto CmpEq = B.buildICmp(CmpInst::ICMP_EQ, S1, Sub1_Hi, DenomHi);

  auto C3 = B.buildSelect(S32, CmpEq, C2, C1);


  // TODO: Here and below portions of the code can be enclosed into if/endif.

  // Currently control flow is unconditional and we have 4 selects after

  // potential endif to substitute PHIs.


  // if C3 != 0 ...

  auto Sub2_Lo = B.buildUSubo(S32, S1, Sub1_Lo, DenomLo);

  auto Sub2_Mi = B.buildUSube(S32, S1, Sub1_Mi, DenomHi, Sub1_Lo.getReg(1));

  auto Sub2_Hi = B.buildUSube(S32, S1, Sub2_Mi, Zero32, Sub2_Lo.getReg(1));

  auto Sub2 = B.buildMergeLikeInstr(S64, {Sub2_Lo, Sub2_Hi});


  auto One64 = B.buildConstant(S64, 1);

  auto Add3 = B.buildAdd(S64, MulHi3, One64);


  auto C4 =

      B.buildSExt(S32, B.buildICmp(CmpInst::ICMP_UGE, S1, Sub2_Hi, DenomHi));

  auto C5 =

      B.buildSExt(S32, B.buildICmp(CmpInst::ICMP_UGE, S1, Sub2_Lo, DenomLo));

  auto C6 = B.buildSelect(

      S32, B.buildICmp(CmpInst::ICMP_EQ, S1, Sub2_Hi, DenomHi), C5, C4);


  // if (C6 != 0)

  auto Add4 = B.buildAdd(S64, Add3, One64);

  auto Sub3_Lo = B.buildUSubo(S32, S1, Sub2_Lo, DenomLo);


  auto Sub3_Mi = B.buildUSube(S32, S1, Sub2_Mi, DenomHi, Sub2_Lo.getReg(1));

  auto Sub3_Hi = B.buildUSube(S32, S1, Sub3_Mi, Zero32, Sub3_Lo.getReg(1));

  auto Sub3 = B.buildMergeLikeInstr(S64, {Sub3_Lo, Sub3_Hi});


  // endif C6

  // endif C3


  if (DstDivReg) {

    auto Sel1 = B.buildSelect(

        S64, B.buildICmp(CmpInst::ICMP_NE, S1, C6, Zero32), Add4, Add3);

    B.buildSelect(DstDivReg, B.buildICmp(CmpInst::ICMP_NE, S1, C3, Zero32),

                  Sel1, MulHi3);

  }


  if (DstRemReg) {

    auto Sel2 = B.buildSelect(

        S64, B.buildICmp(CmpInst::ICMP_NE, S1, C6, Zero32), Sub3, Sub2);

    B.buildSelect(DstRemReg, B.buildICmp(CmpInst::ICMP_NE, S1, C3, Zero32),

                  Sel2, Sub1);

  }

}


bool AMDGPULegalizerInfo::legalizeUnsignedDIV_REM(MachineInstr &MI,

                                                  MachineRegisterInfo &MRI,

                                                  MachineIRBuilder &B) const {

  Register DstDivReg, DstRemReg;

  switch (MI.getOpcode()) {

  default:

    llvm_unreachable("Unexpected opcode!");

  case AMDGPU::G_UDIV: {

    DstDivReg = MI.getOperand(0).getReg();

    break;

  }

  case AMDGPU::G_UREM: {

    DstRemReg = MI.getOperand(0).getReg();

    break;

  }

  case AMDGPU::G_UDIVREM: {

    DstDivReg = MI.getOperand(0).getReg();

    DstRemReg = MI.getOperand(1).getReg();

    break;

  }

  }


  const LLT S64 = LLT::scalar(64);

  const LLT S32 = LLT::scalar(32);

  const unsigned FirstSrcOpIdx = MI.getNumExplicitDefs();

  Register Num = MI.getOperand(FirstSrcOpIdx).getReg();

  Register Den = MI.getOperand(FirstSrcOpIdx + 1).getReg();

  LLT Ty = MRI.getType(MI.getOperand(0).getReg());


  if (Ty == S32)

    legalizeUnsignedDIV_REM32Impl(B, DstDivReg, DstRemReg, Num, Den);

  else if (Ty == S64)

    legalizeUnsignedDIV_REM64Impl(B, DstDivReg, DstRemReg, Num, Den);

  else

    return false;


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeSignedDIV_REM(MachineInstr &MI,

                                                MachineRegisterInfo &MRI,

                                                MachineIRBuilder &B) const {

  const LLT S64 = LLT::scalar(64);

  const LLT S32 = LLT::scalar(32);


  LLT Ty = MRI.getType(MI.getOperand(0).getReg());

  if (Ty != S32 && Ty != S64)

    return false;


  const unsigned FirstSrcOpIdx = MI.getNumExplicitDefs();

  Register LHS = MI.getOperand(FirstSrcOpIdx).getReg();

  Register RHS = MI.getOperand(FirstSrcOpIdx + 1).getReg();


  auto SignBitOffset = B.buildConstant(S32, Ty.getSizeInBits() - 1);

  auto LHSign = B.buildAShr(Ty, LHS, SignBitOffset);

  auto RHSign = B.buildAShr(Ty, RHS, SignBitOffset);


  LHS = B.buildAdd(Ty, LHS, LHSign).getReg(0);

  RHS = B.buildAdd(Ty, RHS, RHSign).getReg(0);


  LHS = B.buildXor(Ty, LHS, LHSign).getReg(0);

  RHS = B.buildXor(Ty, RHS, RHSign).getReg(0);


  Register DstDivReg, DstRemReg, TmpDivReg, TmpRemReg;

  switch (MI.getOpcode()) {

  default:

    llvm_unreachable("Unexpected opcode!");

  case AMDGPU::G_SDIV: {

    DstDivReg = MI.getOperand(0).getReg();

    TmpDivReg = MRI.createGenericVirtualRegister(Ty);

    break;

  }

  case AMDGPU::G_SREM: {

    DstRemReg = MI.getOperand(0).getReg();

    TmpRemReg = MRI.createGenericVirtualRegister(Ty);

    break;

  }

  case AMDGPU::G_SDIVREM: {

    DstDivReg = MI.getOperand(0).getReg();

    DstRemReg = MI.getOperand(1).getReg();

    TmpDivReg = MRI.createGenericVirtualRegister(Ty);

    TmpRemReg = MRI.createGenericVirtualRegister(Ty);

    break;

  }

  }


  if (Ty == S32)

    legalizeUnsignedDIV_REM32Impl(B, TmpDivReg, TmpRemReg, LHS, RHS);

  else

    legalizeUnsignedDIV_REM64Impl(B, TmpDivReg, TmpRemReg, LHS, RHS);


  if (DstDivReg) {

    auto Sign = B.buildXor(Ty, LHSign, RHSign).getReg(0);

    auto SignXor = B.buildXor(Ty, TmpDivReg, Sign).getReg(0);

    B.buildSub(DstDivReg, SignXor, Sign);

  }


  if (DstRemReg) {

    auto Sign = LHSign.getReg(0); // Remainder sign is the same as LHS

    auto SignXor = B.buildXor(Ty, TmpRemReg, Sign).getReg(0);

    B.buildSub(DstRemReg, SignXor, Sign);

  }


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFastUnsafeFDIV(MachineInstr &MI,

                                                 MachineRegisterInfo &MRI,

                                                 MachineIRBuilder &B) const {

  Register Res = MI.getOperand(0).getReg();

  Register LHS = MI.getOperand(1).getReg();

  Register RHS = MI.getOperand(2).getReg();

  uint16_t Flags = MI.getFlags();

  LLT ResTy = MRI.getType(Res);


  bool AllowInaccurateRcp = MI.getFlag(MachineInstr::FmAfn);


  if (const auto *CLHS = getConstantFPVRegVal(LHS, MRI)) {

    if (!AllowInaccurateRcp && ResTy != LLT::scalar(16))

      return false;


    // v_rcp_f32 and v_rsq_f32 do not support denormals, and according to

    // the CI documentation has a worst case error of 1 ulp.

    // OpenCL requires <= 2.5 ulp for 1.0 / x, so it should always be OK to

    // use it as long as we aren't trying to use denormals.

    //

    // v_rcp_f16 and v_rsq_f16 DO support denormals and 0.51ulp.


    // 1 / x -> RCP(x)

    if (CLHS->isExactlyValue(1.0)) {

      B.buildIntrinsic(Intrinsic::amdgcn_rcp, Res)

          .addUse(RHS)

          .setMIFlags(Flags);


      MI.eraseFromParent();

      return true;

    }


    // -1 / x -> RCP( FNEG(x) )

    if (CLHS->isExactlyValue(-1.0)) {

      auto FNeg = B.buildFNeg(ResTy, RHS, Flags);

      B.buildIntrinsic(Intrinsic::amdgcn_rcp, Res)

          .addUse(FNeg.getReg(0))

          .setMIFlags(Flags);


      MI.eraseFromParent();

      return true;

    }

  }


  // For f16 require afn or arcp.

  // For f32 require afn.

  if (!AllowInaccurateRcp && (ResTy != LLT::scalar(16) ||

                              !MI.getFlag(MachineInstr::FmArcp)))

    return false;


  // x / y -> x * (1.0 / y)

  auto RCP = B.buildIntrinsic(Intrinsic::amdgcn_rcp, {ResTy})

                 .addUse(RHS)

                 .setMIFlags(Flags);

  B.buildFMul(Res, LHS, RCP, Flags);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFastUnsafeFDIV64(MachineInstr &MI,

                                                   MachineRegisterInfo &MRI,

                                                   MachineIRBuilder &B) const {

  Register Res = MI.getOperand(0).getReg();

  Register X = MI.getOperand(1).getReg();

  Register Y = MI.getOperand(2).getReg();

  uint16_t Flags = MI.getFlags();

  LLT ResTy = MRI.getType(Res);


  bool AllowInaccurateRcp = MI.getFlag(MachineInstr::FmAfn);


  if (!AllowInaccurateRcp)

    return false;


  auto NegY = B.buildFNeg(ResTy, Y);

  auto One = B.buildFConstant(ResTy, 1.0);


  auto R = B.buildIntrinsic(Intrinsic::amdgcn_rcp, {ResTy})

               .addUse(Y)

               .setMIFlags(Flags);


  auto Tmp0 = B.buildFMA(ResTy, NegY, R, One);

  R = B.buildFMA(ResTy, Tmp0, R, R);


  auto Tmp1 = B.buildFMA(ResTy, NegY, R, One);

  R = B.buildFMA(ResTy, Tmp1, R, R);


  auto Ret = B.buildFMul(ResTy, X, R);

  auto Tmp2 = B.buildFMA(ResTy, NegY, Ret, X);


  B.buildFMA(Res, Tmp2, R, Ret);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFDIV16(MachineInstr &MI,

                                         MachineRegisterInfo &MRI,

                                         MachineIRBuilder &B) const {

  if (legalizeFastUnsafeFDIV(MI, MRI, B))

    return true;


  Register Res = MI.getOperand(0).getReg();

  Register LHS = MI.getOperand(1).getReg();

  Register RHS = MI.getOperand(2).getReg();


  uint16_t Flags = MI.getFlags();


  LLT S16 = LLT::scalar(16);

  LLT S32 = LLT::scalar(32);


  // a32.u = opx(V_CVT_F32_F16, a.u); // CVT to F32

  // b32.u = opx(V_CVT_F32_F16, b.u); // CVT to F32

  // r32.u = opx(V_RCP_F32, b32.u); // rcp = 1 / d

  // q32.u = opx(V_MUL_F32, a32.u, r32.u); // q = n * rcp

  // e32.u = opx(V_MAD_F32, (b32.u^_neg32), q32.u, a32.u); // err = -d * q + n

  // q32.u = opx(V_MAD_F32, e32.u, r32.u, q32.u); // q = n * rcp

  // e32.u = opx(V_MAD_F32, (b32.u^_neg32), q32.u, a32.u); // err = -d * q + n

  // tmp.u = opx(V_MUL_F32, e32.u, r32.u);

  // tmp.u = opx(V_AND_B32, tmp.u, 0xff800000)

  // q32.u = opx(V_ADD_F32, tmp.u, q32.u);

  // q16.u = opx(V_CVT_F16_F32, q32.u);

  // q16.u = opx(V_DIV_FIXUP_F16, q16.u, b.u, a.u); // q = touchup(q, d, n)


  auto LHSExt = B.buildFPExt(S32, LHS, Flags);

  auto RHSExt = B.buildFPExt(S32, RHS, Flags);

  auto NegRHSExt = B.buildFNeg(S32, RHSExt);

  auto Rcp = B.buildIntrinsic(Intrinsic::amdgcn_rcp, {S32})

                 .addUse(RHSExt.getReg(0))

                 .setMIFlags(Flags);

  auto Quot = B.buildFMul(S32, LHSExt, Rcp, Flags);

  MachineInstrBuilder Err;

  if (ST.hasMadMacF32Insts()) {

    Err = B.buildFMAD(S32, NegRHSExt, Quot, LHSExt, Flags);

    Quot = B.buildFMAD(S32, Err, Rcp, Quot, Flags);

    Err = B.buildFMAD(S32, NegRHSExt, Quot, LHSExt, Flags);

  } else {

    Err = B.buildFMA(S32, NegRHSExt, Quot, LHSExt, Flags);

    Quot = B.buildFMA(S32, Err, Rcp, Quot, Flags);

    Err = B.buildFMA(S32, NegRHSExt, Quot, LHSExt, Flags);

  }

  auto Tmp = B.buildFMul(S32, Err, Rcp, Flags);

  Tmp = B.buildAnd(S32, Tmp, B.buildConstant(S32, 0xff800000));

  Quot = B.buildFAdd(S32, Tmp, Quot, Flags);

  auto RDst = B.buildFPTrunc(S16, Quot, Flags);

  B.buildIntrinsic(Intrinsic::amdgcn_div_fixup, Res)

      .addUse(RDst.getReg(0))

      .addUse(RHS)

      .addUse(LHS)

      .setMIFlags(Flags);


  MI.eraseFromParent();

  return true;

}


static constexpr unsigned SPDenormModeBitField =

    AMDGPU::Hwreg::HwregEncoding::encode(AMDGPU::Hwreg::ID_MODE, 4, 2);


// Enable or disable FP32 denorm mode. When 'Enable' is true, emit instructions

// to enable denorm mode. When 'Enable' is false, disable denorm mode.


static void toggleSPDenormMode(bool Enable, MachineIRBuilder &B,

                               const GCNSubtarget &ST,

                               SIModeRegisterDefaults Mode) {

  // Set SP denorm mode to this value.

  unsigned SPDenormMode =

    Enable ? FP_DENORM_FLUSH_NONE : Mode.fpDenormModeSPValue();


  if (ST.hasDenormModeInst()) {

    // Preserve default FP64FP16 denorm mode while updating FP32 mode.

    uint32_t DPDenormModeDefault = Mode.fpDenormModeDPValue();


    uint32_t NewDenormModeValue = SPDenormMode | (DPDenormModeDefault << 2);

    B.buildInstr(AMDGPU::S_DENORM_MODE)

      .addImm(NewDenormModeValue);


  } else {

    B.buildInstr(AMDGPU::S_SETREG_IMM32_B32)

      .addImm(SPDenormMode)

      .addImm(SPDenormModeBitField);

  }

}


bool AMDGPULegalizerInfo::legalizeFDIV32(MachineInstr &MI,

                                         MachineRegisterInfo &MRI,

                                         MachineIRBuilder &B) const {

  if (legalizeFastUnsafeFDIV(MI, MRI, B))

    return true;


  Register Res = MI.getOperand(0).getReg();

  Register LHS = MI.getOperand(1).getReg();

  Register RHS = MI.getOperand(2).getReg();

  const SIMachineFunctionInfo *MFI = B.getMF().getInfo<SIMachineFunctionInfo>();

  SIModeRegisterDefaults Mode = MFI->getMode();


  uint16_t Flags = MI.getFlags();


  LLT S32 = LLT::scalar(32);

  LLT S1 = LLT::scalar(1);


  auto One = B.buildFConstant(S32, 1.0f);


  auto DenominatorScaled =

      B.buildIntrinsic(Intrinsic::amdgcn_div_scale, {S32, S1})

          .addUse(LHS)

          .addUse(RHS)

          .addImm(0)

          .setMIFlags(Flags);

  auto NumeratorScaled =

      B.buildIntrinsic(Intrinsic::amdgcn_div_scale, {S32, S1})

          .addUse(LHS)

          .addUse(RHS)

          .addImm(1)

          .setMIFlags(Flags);


  auto ApproxRcp = B.buildIntrinsic(Intrinsic::amdgcn_rcp, {S32})

                       .addUse(DenominatorScaled.getReg(0))

                       .setMIFlags(Flags);

  auto NegDivScale0 = B.buildFNeg(S32, DenominatorScaled, Flags);


  const bool PreservesDenormals = Mode.FP32Denormals == DenormalMode::getIEEE();

  const bool HasDynamicDenormals =

      (Mode.FP32Denormals.Input == DenormalMode::Dynamic) ||

      (Mode.FP32Denormals.Output == DenormalMode::Dynamic);


  Register SavedSPDenormMode;

  if (!PreservesDenormals) {

    if (HasDynamicDenormals) {

      SavedSPDenormMode = MRI.createVirtualRegister(&AMDGPU::SReg_32RegClass);

      B.buildInstr(AMDGPU::S_GETREG_B32)

          .addDef(SavedSPDenormMode)

          .addImm(SPDenormModeBitField);

    }

    toggleSPDenormMode(true, B, ST, Mode);

  }


  auto Fma0 = B.buildFMA(S32, NegDivScale0, ApproxRcp, One, Flags);

  auto Fma1 = B.buildFMA(S32, Fma0, ApproxRcp, ApproxRcp, Flags);

  auto Mul = B.buildFMul(S32, NumeratorScaled, Fma1, Flags);

  auto Fma2 = B.buildFMA(S32, NegDivScale0, Mul, NumeratorScaled, Flags);

  auto Fma3 = B.buildFMA(S32, Fma2, Fma1, Mul, Flags);

  auto Fma4 = B.buildFMA(S32, NegDivScale0, Fma3, NumeratorScaled, Flags);


  if (!PreservesDenormals) {

    if (HasDynamicDenormals) {

      assert(SavedSPDenormMode);

      B.buildInstr(AMDGPU::S_SETREG_B32)

          .addReg(SavedSPDenormMode)

          .addImm(SPDenormModeBitField);

    } else

      toggleSPDenormMode(false, B, ST, Mode);

  }


  auto Fmas = B.buildIntrinsic(Intrinsic::amdgcn_div_fmas, {S32})

                  .addUse(Fma4.getReg(0))

                  .addUse(Fma1.getReg(0))

                  .addUse(Fma3.getReg(0))

                  .addUse(NumeratorScaled.getReg(1))

                  .setMIFlags(Flags);


  B.buildIntrinsic(Intrinsic::amdgcn_div_fixup, Res)

      .addUse(Fmas.getReg(0))

      .addUse(RHS)

      .addUse(LHS)

      .setMIFlags(Flags);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFDIV64(MachineInstr &MI,

                                         MachineRegisterInfo &MRI,

                                         MachineIRBuilder &B) const {

  if (legalizeFastUnsafeFDIV64(MI, MRI, B))

    return true;


  Register Res = MI.getOperand(0).getReg();

  Register LHS = MI.getOperand(1).getReg();

  Register RHS = MI.getOperand(2).getReg();


  uint16_t Flags = MI.getFlags();


  LLT S64 = LLT::scalar(64);

  LLT S1 = LLT::scalar(1);


  auto One = B.buildFConstant(S64, 1.0);


  auto DivScale0 = B.buildIntrinsic(Intrinsic::amdgcn_div_scale, {S64, S1})

                       .addUse(LHS)

                       .addUse(RHS)

                       .addImm(0)

                       .setMIFlags(Flags);


  auto NegDivScale0 = B.buildFNeg(S64, DivScale0.getReg(0), Flags);


  auto Rcp = B.buildIntrinsic(Intrinsic::amdgcn_rcp, {S64})

                 .addUse(DivScale0.getReg(0))

                 .setMIFlags(Flags);


  auto Fma0 = B.buildFMA(S64, NegDivScale0, Rcp, One, Flags);

  auto Fma1 = B.buildFMA(S64, Rcp, Fma0, Rcp, Flags);

  auto Fma2 = B.buildFMA(S64, NegDivScale0, Fma1, One, Flags);


  auto DivScale1 = B.buildIntrinsic(Intrinsic::amdgcn_div_scale, {S64, S1})

                       .addUse(LHS)

                       .addUse(RHS)

                       .addImm(1)

                       .setMIFlags(Flags);


  auto Fma3 = B.buildFMA(S64, Fma1, Fma2, Fma1, Flags);

  auto Mul = B.buildFMul(S64, DivScale1.getReg(0), Fma3, Flags);

  auto Fma4 = B.buildFMA(S64, NegDivScale0, Mul, DivScale1.getReg(0), Flags);


  Register Scale;

  if (!ST.hasUsableDivScaleConditionOutput()) {

    // Workaround a hardware bug on SI where the condition output from div_scale

    // is not usable.


    LLT S32 = LLT::scalar(32);


    auto NumUnmerge = B.buildUnmerge(S32, LHS);

    auto DenUnmerge = B.buildUnmerge(S32, RHS);

    auto Scale0Unmerge = B.buildUnmerge(S32, DivScale0);

    auto Scale1Unmerge = B.buildUnmerge(S32, DivScale1);


    auto CmpNum = B.buildICmp(ICmpInst::ICMP_EQ, S1, NumUnmerge.getReg(1),

                              Scale1Unmerge.getReg(1));

    auto CmpDen = B.buildICmp(ICmpInst::ICMP_EQ, S1, DenUnmerge.getReg(1),

                              Scale0Unmerge.getReg(1));

    Scale = B.buildXor(S1, CmpNum, CmpDen).getReg(0);

  } else {

    Scale = DivScale1.getReg(1);

  }


  auto Fmas = B.buildIntrinsic(Intrinsic::amdgcn_div_fmas, {S64})

                  .addUse(Fma4.getReg(0))

                  .addUse(Fma3.getReg(0))

                  .addUse(Mul.getReg(0))

                  .addUse(Scale)

                  .setMIFlags(Flags);


  B.buildIntrinsic(Intrinsic::amdgcn_div_fixup, ArrayRef(Res))

      .addUse(Fmas.getReg(0))

      .addUse(RHS)

      .addUse(LHS)

      .setMIFlags(Flags);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFFREXP(MachineInstr &MI,

                                         MachineRegisterInfo &MRI,

                                         MachineIRBuilder &B) const {

  Register Res0 = MI.getOperand(0).getReg();

  Register Res1 = MI.getOperand(1).getReg();

  Register Val = MI.getOperand(2).getReg();

  uint16_t Flags = MI.getFlags();


  LLT Ty = MRI.getType(Res0);

  LLT InstrExpTy = Ty == LLT::scalar(16) ? LLT::scalar(16) : LLT::scalar(32);


  auto Mant = B.buildIntrinsic(Intrinsic::amdgcn_frexp_mant, {Ty})

                  .addUse(Val)

                  .setMIFlags(Flags);

  auto Exp = B.buildIntrinsic(Intrinsic::amdgcn_frexp_exp, {InstrExpTy})

                 .addUse(Val)

                 .setMIFlags(Flags);


  if (ST.hasFractBug()) {

    auto Fabs = B.buildFAbs(Ty, Val);

    auto Inf = B.buildFConstant(Ty, APFloat::getInf(getFltSemanticForLLT(Ty)));

    auto IsFinite =

        B.buildFCmp(CmpInst::FCMP_OLT, LLT::scalar(1), Fabs, Inf, Flags);

    auto Zero = B.buildConstant(InstrExpTy, 0);

    Exp = B.buildSelect(InstrExpTy, IsFinite, Exp, Zero);

    Mant = B.buildSelect(Ty, IsFinite, Mant, Val);

  }


  B.buildCopy(Res0, Mant);

  B.buildSExtOrTrunc(Res1, Exp);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFDIVFastIntrin(MachineInstr &MI,

                                                 MachineRegisterInfo &MRI,

                                                 MachineIRBuilder &B) const {

  Register Res = MI.getOperand(0).getReg();

  Register LHS = MI.getOperand(2).getReg();

  Register RHS = MI.getOperand(3).getReg();

  uint16_t Flags = MI.getFlags();


  LLT S32 = LLT::scalar(32);

  LLT S1 = LLT::scalar(1);


  auto Abs = B.buildFAbs(S32, RHS, Flags);

  const APFloat C0Val(1.0f);


  auto C0 = B.buildFConstant(S32, 0x1p+96f);

  auto C1 = B.buildFConstant(S32, 0x1p-32f);

  auto C2 = B.buildFConstant(S32, 1.0f);


  auto CmpRes = B.buildFCmp(CmpInst::FCMP_OGT, S1, Abs, C0, Flags);

  auto Sel = B.buildSelect(S32, CmpRes, C1, C2, Flags);


  auto Mul0 = B.buildFMul(S32, RHS, Sel, Flags);


  auto RCP = B.buildIntrinsic(Intrinsic::amdgcn_rcp, {S32})

                 .addUse(Mul0.getReg(0))

                 .setMIFlags(Flags);


  auto Mul1 = B.buildFMul(S32, LHS, RCP, Flags);


  B.buildFMul(Res, Sel, Mul1, Flags);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFSQRTF16(MachineInstr &MI,

                                           MachineRegisterInfo &MRI,

                                           MachineIRBuilder &B) const {

  // Bypass the correct expansion a standard promotion through G_FSQRT would

  // get. The f32 op is accurate enough for the f16 cas.

  unsigned Flags = MI.getFlags();

  assert(!ST.has16BitInsts());

  const LLT F32 = LLT::scalar(32);

  auto Ext = B.buildFPExt(F32, MI.getOperand(1), Flags);

  auto Log2 = B.buildIntrinsic(Intrinsic::amdgcn_sqrt, {F32})

    .addUse(Ext.getReg(0))

    .setMIFlags(Flags);

  B.buildFPTrunc(MI.getOperand(0), Log2, Flags);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFSQRTF32(MachineInstr &MI,

                                           MachineRegisterInfo &MRI,

                                           MachineIRBuilder &B) const {

  MachineFunction &MF = B.getMF();

  Register Dst = MI.getOperand(0).getReg();

  Register X = MI.getOperand(1).getReg();

  const unsigned Flags = MI.getFlags();

  const LLT S1 = LLT::scalar(1);

  const LLT F32 = LLT::scalar(32);

  const LLT I32 = LLT::scalar(32);


  if (allowApproxFunc(MF, Flags)) {

    B.buildIntrinsic(Intrinsic::amdgcn_sqrt, ArrayRef<Register>({Dst}))

      .addUse(X)

      .setMIFlags(Flags);

    MI.eraseFromParent();

    return true;

  }


  auto ScaleThreshold = B.buildFConstant(F32, 0x1.0p-96f);

  auto NeedScale = B.buildFCmp(CmpInst::FCMP_OGT, S1, ScaleThreshold, X, Flags);

  auto ScaleUpFactor = B.buildFConstant(F32, 0x1.0p+32f);

  auto ScaledX = B.buildFMul(F32, X, ScaleUpFactor, Flags);

  auto SqrtX = B.buildSelect(F32, NeedScale, ScaledX, X, Flags);


  Register SqrtS = MRI.createGenericVirtualRegister(F32);

  if (needsDenormHandlingF32(MF, X, Flags)) {

    B.buildIntrinsic(Intrinsic::amdgcn_sqrt, ArrayRef<Register>({SqrtS}))

      .addUse(SqrtX.getReg(0))

      .setMIFlags(Flags);


    auto NegOne = B.buildConstant(I32, -1);

    auto SqrtSNextDown = B.buildAdd(I32, SqrtS, NegOne);


    auto NegSqrtSNextDown = B.buildFNeg(F32, SqrtSNextDown, Flags);

    auto SqrtVP = B.buildFMA(F32, NegSqrtSNextDown, SqrtS, SqrtX, Flags);


    auto PosOne = B.buildConstant(I32, 1);

    auto SqrtSNextUp = B.buildAdd(I32, SqrtS, PosOne);


    auto NegSqrtSNextUp = B.buildFNeg(F32, SqrtSNextUp, Flags);

    auto SqrtVS = B.buildFMA(F32, NegSqrtSNextUp, SqrtS, SqrtX, Flags);


    auto Zero = B.buildFConstant(F32, 0.0f);

    auto SqrtVPLE0 = B.buildFCmp(CmpInst::FCMP_OLE, S1, SqrtVP, Zero, Flags);


    SqrtS =

        B.buildSelect(F32, SqrtVPLE0, SqrtSNextDown, SqrtS, Flags).getReg(0);


    auto SqrtVPVSGT0 = B.buildFCmp(CmpInst::FCMP_OGT, S1, SqrtVS, Zero, Flags);

    SqrtS =

        B.buildSelect(F32, SqrtVPVSGT0, SqrtSNextUp, SqrtS, Flags).getReg(0);

  } else {

    auto SqrtR =

        B.buildIntrinsic(Intrinsic::amdgcn_rsq, {F32}).addReg(SqrtX.getReg(0));

    B.buildFMul(SqrtS, SqrtX, SqrtR, Flags);


    auto Half = B.buildFConstant(F32, 0.5f);

    auto SqrtH = B.buildFMul(F32, SqrtR, Half, Flags);

    auto NegSqrtH = B.buildFNeg(F32, SqrtH, Flags);

    auto SqrtE = B.buildFMA(F32, NegSqrtH, SqrtS, Half, Flags);

    SqrtH = B.buildFMA(F32, SqrtH, SqrtE, SqrtH, Flags);

    SqrtS = B.buildFMA(F32, SqrtS, SqrtE, SqrtS, Flags).getReg(0);

    auto NegSqrtS = B.buildFNeg(F32, SqrtS, Flags);

    auto SqrtD = B.buildFMA(F32, NegSqrtS, SqrtS, SqrtX, Flags);

    SqrtS = B.buildFMA(F32, SqrtD, SqrtH, SqrtS, Flags).getReg(0);

  }


  auto ScaleDownFactor = B.buildFConstant(F32, 0x1.0p-16f);


  auto ScaledDown = B.buildFMul(F32, SqrtS, ScaleDownFactor, Flags);


  SqrtS = B.buildSelect(F32, NeedScale, ScaledDown, SqrtS, Flags).getReg(0);


  auto IsZeroOrInf = B.buildIsFPClass(LLT::scalar(1), SqrtX, fcZero | fcPosInf);

  B.buildSelect(Dst, IsZeroOrInf, SqrtX, SqrtS, Flags);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFSQRTF64(MachineInstr &MI,

                                           MachineRegisterInfo &MRI,

                                           MachineIRBuilder &B) const {

  // For double type, the SQRT and RSQ instructions don't have required

  // precision, we apply Goldschmidt's algorithm to improve the result:

  //

  //   y0 = rsq(x)

  //   g0 = x * y0

  //   h0 = 0.5 * y0

  //

  //   r0 = 0.5 - h0 * g0

  //   g1 = g0 * r0 + g0

  //   h1 = h0 * r0 + h0

  //

  //   r1 = 0.5 - h1 * g1 => d0 = x - g1 * g1

  //   g2 = g1 * r1 + g1     g2 = d0 * h1 + g1

  //   h2 = h1 * r1 + h1

  //

  //   r2 = 0.5 - h2 * g2 => d1 = x - g2 * g2

  //   g3 = g2 * r2 + g2     g3 = d1 * h1 + g2

  //

  //   sqrt(x) = g3


  const LLT S1 = LLT::scalar(1);

  const LLT S32 = LLT::scalar(32);

  const LLT F64 = LLT::scalar(64);


  Register Dst = MI.getOperand(0).getReg();

  assert(MRI.getType(Dst) == F64 && "only expect to lower f64 sqrt");


  Register X = MI.getOperand(1).getReg();

  unsigned Flags = MI.getFlags();


  auto ScaleConstant = B.buildFConstant(F64, 0x1.0p-767);


  auto ZeroInt = B.buildConstant(S32, 0);

  auto Scaling = B.buildFCmp(FCmpInst::FCMP_OLT, S1, X, ScaleConstant);


  // Scale up input if it is too small.

  auto ScaleUpFactor = B.buildConstant(S32, 256);

  auto ScaleUp = B.buildSelect(S32, Scaling, ScaleUpFactor, ZeroInt);

  auto SqrtX = B.buildFLdexp(F64, X, ScaleUp, Flags);


  auto SqrtY =

      B.buildIntrinsic(Intrinsic::amdgcn_rsq, {F64}).addReg(SqrtX.getReg(0));


  auto Half = B.buildFConstant(F64, 0.5);

  auto SqrtH0 = B.buildFMul(F64, SqrtY, Half);

  auto SqrtS0 = B.buildFMul(F64, SqrtX, SqrtY);


  auto NegSqrtH0 = B.buildFNeg(F64, SqrtH0);

  auto SqrtR0 = B.buildFMA(F64, NegSqrtH0, SqrtS0, Half);


  auto SqrtS1 = B.buildFMA(F64, SqrtS0, SqrtR0, SqrtS0);

  auto SqrtH1 = B.buildFMA(F64, SqrtH0, SqrtR0, SqrtH0);


  auto NegSqrtS1 = B.buildFNeg(F64, SqrtS1);

  auto SqrtD0 = B.buildFMA(F64, NegSqrtS1, SqrtS1, SqrtX);


  auto SqrtS2 = B.buildFMA(F64, SqrtD0, SqrtH1, SqrtS1);


  auto NegSqrtS2 = B.buildFNeg(F64, SqrtS2);

  auto SqrtD1 = B.buildFMA(F64, NegSqrtS2, SqrtS2, SqrtX);


  auto SqrtRet = B.buildFMA(F64, SqrtD1, SqrtH1, SqrtS2);


  // Scale down the result.

  auto ScaleDownFactor = B.buildConstant(S32, -128);

  auto ScaleDown = B.buildSelect(S32, Scaling, ScaleDownFactor, ZeroInt);

  SqrtRet = B.buildFLdexp(F64, SqrtRet, ScaleDown, Flags);


  // TODO: Switch to fcmp oeq 0 for finite only. Can't fully remove this check

  // with finite only or nsz because rsq(+/-0) = +/-inf


  // TODO: Check for DAZ and expand to subnormals

  auto IsZeroOrInf = B.buildIsFPClass(LLT::scalar(1), SqrtX, fcZero | fcPosInf);


  // If x is +INF, +0, or -0, use its original value

  B.buildSelect(Dst, IsZeroOrInf, SqrtX, SqrtRet, Flags);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeFSQRT(MachineInstr &MI,

                                        MachineRegisterInfo &MRI,

                                        MachineIRBuilder &B) const {

  LLT Ty = MRI.getType(MI.getOperand(0).getReg());

  if (Ty == LLT::scalar(32))

    return legalizeFSQRTF32(MI, MRI, B);

  if (Ty == LLT::scalar(64))

    return legalizeFSQRTF64(MI, MRI, B);

  if (Ty == LLT::scalar(16))

    return legalizeFSQRTF16(MI, MRI, B);

  return false;

}


// Expand llvm.amdgcn.rsq.clamp on targets that don't support the instruction.

// FIXME: Why do we handle this one but not other removed instructions?

//

// Reciprocal square root.  The clamp prevents infinite results, clamping

// infinities to max_float.  D.f = 1.0 / sqrt(S0.f), result clamped to

// +-max_float.


bool AMDGPULegalizerInfo::legalizeRsqClampIntrinsic(MachineInstr &MI,

                                                    MachineRegisterInfo &MRI,

                                                    MachineIRBuilder &B) const {

  if (ST.getGeneration() < AMDGPUSubtarget::VOLCANIC_ISLANDS)

    return true;


  Register Dst = MI.getOperand(0).getReg();

  Register Src = MI.getOperand(2).getReg();

  auto Flags = MI.getFlags();


  LLT Ty = MRI.getType(Dst);


  const fltSemantics *FltSemantics;

  if (Ty == LLT::scalar(32))

    FltSemantics = &APFloat::IEEEsingle();

  else if (Ty == LLT::scalar(64))

    FltSemantics = &APFloat::IEEEdouble();

  else

    return false;


  auto Rsq = B.buildIntrinsic(Intrinsic::amdgcn_rsq, {Ty})

                 .addUse(Src)

                 .setMIFlags(Flags);


  // We don't need to concern ourselves with the snan handling difference, since

  // the rsq quieted (or not) so use the one which will directly select.

  const SIMachineFunctionInfo *MFI = B.getMF().getInfo<SIMachineFunctionInfo>();

  const bool UseIEEE = MFI->getMode().IEEE;


  auto MaxFlt = B.buildFConstant(Ty, APFloat::getLargest(*FltSemantics));

  auto ClampMax = UseIEEE ? B.buildFMinNumIEEE(Ty, Rsq, MaxFlt, Flags) :

                            B.buildFMinNum(Ty, Rsq, MaxFlt, Flags);


  auto MinFlt = B.buildFConstant(Ty, APFloat::getLargest(*FltSemantics, true));


  if (UseIEEE)

    B.buildFMaxNumIEEE(Dst, ClampMax, MinFlt, Flags);

  else

    B.buildFMaxNum(Dst, ClampMax, MinFlt, Flags);

  MI.eraseFromParent();

  return true;

}


// TODO: Fix pointer type handling


bool AMDGPULegalizerInfo::legalizeLaneOp(LegalizerHelper &Helper,

                                         MachineInstr &MI,

                                         Intrinsic::ID IID) const {


  MachineIRBuilder &B = Helper.MIRBuilder;

  MachineRegisterInfo &MRI = *B.getMRI();


  bool IsPermLane16 = IID == Intrinsic::amdgcn_permlane16 ||

                      IID == Intrinsic::amdgcn_permlanex16;

  bool IsSetInactive = IID == Intrinsic::amdgcn_set_inactive ||

                       IID == Intrinsic::amdgcn_set_inactive_chain_arg;


  auto createLaneOp = [&IID, &B, &MI](Register Src0, Register Src1,

                                      Register Src2, LLT VT) -> Register {

    auto LaneOp = B.buildIntrinsic(IID, {VT}).addUse(Src0);

    switch (IID) {

    case Intrinsic::amdgcn_readfirstlane:

    case Intrinsic::amdgcn_permlane64:

      return LaneOp.getReg(0);

    case Intrinsic::amdgcn_readlane:

    case Intrinsic::amdgcn_set_inactive:

    case Intrinsic::amdgcn_set_inactive_chain_arg:

      return LaneOp.addUse(Src1).getReg(0);

    case Intrinsic::amdgcn_writelane:

      return LaneOp.addUse(Src1).addUse(Src2).getReg(0);

    case Intrinsic::amdgcn_permlane16:

    case Intrinsic::amdgcn_permlanex16: {

      Register Src3 = MI.getOperand(5).getReg();

      int64_t Src4 = MI.getOperand(6).getImm();

      int64_t Src5 = MI.getOperand(7).getImm();

      return LaneOp.addUse(Src1)

          .addUse(Src2)

          .addUse(Src3)

          .addImm(Src4)

          .addImm(Src5)

          .getReg(0);

    }

    case Intrinsic::amdgcn_mov_dpp8:

      return LaneOp.addImm(MI.getOperand(3).getImm()).getReg(0);

    case Intrinsic::amdgcn_update_dpp:

      return LaneOp.addUse(Src1)

          .addImm(MI.getOperand(4).getImm())

          .addImm(MI.getOperand(5).getImm())

          .addImm(MI.getOperand(6).getImm())

          .addImm(MI.getOperand(7).getImm())

          .getReg(0);

    default:

      llvm_unreachable("unhandled lane op");

    }

  };


  Register DstReg = MI.getOperand(0).getReg();

  Register Src0 = MI.getOperand(2).getReg();

  Register Src1, Src2;

  if (IID == Intrinsic::amdgcn_readlane || IID == Intrinsic::amdgcn_writelane ||

      IID == Intrinsic::amdgcn_update_dpp || IsSetInactive || IsPermLane16) {

    Src1 = MI.getOperand(3).getReg();

    if (IID == Intrinsic::amdgcn_writelane || IsPermLane16) {

      Src2 = MI.getOperand(4).getReg();

    }

  }


  LLT Ty = MRI.getType(DstReg);

  unsigned Size = Ty.getSizeInBits();


  unsigned SplitSize = 32;

  if (IID == Intrinsic::amdgcn_update_dpp && (Size % 64 == 0) &&

      ST.hasDPALU_DPP() &&

      AMDGPU::isLegalDPALU_DPPControl(ST, MI.getOperand(4).getImm()))

    SplitSize = 64;


  if (Size == SplitSize) {

    // Already legal

    return true;

  }


  if (Size < 32) {

    Src0 = B.buildAnyExt(S32, Src0).getReg(0);


    if (IID == Intrinsic::amdgcn_update_dpp || IsSetInactive || IsPermLane16)

      Src1 = B.buildAnyExt(LLT::scalar(32), Src1).getReg(0);


    if (IID == Intrinsic::amdgcn_writelane)

      Src2 = B.buildAnyExt(LLT::scalar(32), Src2).getReg(0);


    Register LaneOpDst = createLaneOp(Src0, Src1, Src2, S32);

    B.buildTrunc(DstReg, LaneOpDst);

    MI.eraseFromParent();

    return true;

  }


  if (Size % SplitSize != 0)

    return false;


  LLT PartialResTy = LLT::scalar(SplitSize);

  bool NeedsBitcast = false;

  if (Ty.isVector()) {

    LLT EltTy = Ty.getElementType();

    unsigned EltSize = EltTy.getSizeInBits();

    if (EltSize == SplitSize) {

      PartialResTy = EltTy;

    } else if (EltSize == 16 || EltSize == 32) {

      unsigned NElem = SplitSize / EltSize;

      PartialResTy = Ty.changeElementCount(ElementCount::getFixed(NElem));

    } else {

      // Handle all other cases via S32/S64 pieces

      NeedsBitcast = true;

    }

  }


  SmallVector<Register, 4> PartialRes;

  unsigned NumParts = Size / SplitSize;

  MachineInstrBuilder Src0Parts = B.buildUnmerge(PartialResTy, Src0);

  MachineInstrBuilder Src1Parts, Src2Parts;


  if (IID == Intrinsic::amdgcn_update_dpp || IsSetInactive || IsPermLane16)

    Src1Parts = B.buildUnmerge(PartialResTy, Src1);


  if (IID == Intrinsic::amdgcn_writelane)

    Src2Parts = B.buildUnmerge(PartialResTy, Src2);


  for (unsigned i = 0; i < NumParts; ++i) {

    Src0 = Src0Parts.getReg(i);


    if (IID == Intrinsic::amdgcn_update_dpp || IsSetInactive || IsPermLane16)

      Src1 = Src1Parts.getReg(i);


    if (IID == Intrinsic::amdgcn_writelane)

      Src2 = Src2Parts.getReg(i);


    PartialRes.push_back(createLaneOp(Src0, Src1, Src2, PartialResTy));

  }


  if (NeedsBitcast)

    B.buildBitcast(DstReg, B.buildMergeLikeInstr(

                               LLT::scalar(Ty.getSizeInBits()), PartialRes));

  else

    B.buildMergeLikeInstr(DstReg, PartialRes);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::getImplicitArgPtr(Register DstReg,

                                            MachineRegisterInfo &MRI,

                                            MachineIRBuilder &B) const {

  uint64_t Offset =

    ST.getTargetLowering()->getImplicitParameterOffset(

      B.getMF(), AMDGPUTargetLowering::FIRST_IMPLICIT);

  LLT DstTy = MRI.getType(DstReg);

  LLT IdxTy = LLT::scalar(DstTy.getSizeInBits());


  Register KernargPtrReg = MRI.createGenericVirtualRegister(DstTy);

  if (!loadInputValue(KernargPtrReg, B,

                      AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR))

    return false;


  B.buildObjectPtrOffset(DstReg, KernargPtrReg,

                         B.buildConstant(IdxTy, Offset).getReg(0));

  return true;

}


/// To create a buffer resource from a 64-bit pointer, mask off the upper 32

/// bits of the pointer and replace them with the stride argument, then

/// merge_values everything together. In the common case of a raw buffer (the

/// stride component is 0), we can just AND off the upper half.


bool AMDGPULegalizerInfo::legalizePointerAsRsrcIntrin(

    MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {

  Register Result = MI.getOperand(0).getReg();

  Register Pointer = MI.getOperand(2).getReg();

  Register Stride = MI.getOperand(3).getReg();

  Register NumRecords = MI.getOperand(4).getReg();

  Register Flags = MI.getOperand(5).getReg();


  LLT S32 = LLT::scalar(32);


  B.setInsertPt(B.getMBB(), ++B.getInsertPt());

  auto Unmerge = B.buildUnmerge(S32, Pointer);

  Register LowHalf = Unmerge.getReg(0);

  Register HighHalf = Unmerge.getReg(1);


  auto AndMask = B.buildConstant(S32, 0x0000ffff);

  auto Masked = B.buildAnd(S32, HighHalf, AndMask);


  MachineInstrBuilder NewHighHalf = Masked;

  std::optional<ValueAndVReg> StrideConst =

      getIConstantVRegValWithLookThrough(Stride, MRI);

  if (!StrideConst || !StrideConst->Value.isZero()) {

    MachineInstrBuilder ShiftedStride;

    if (StrideConst) {

      uint32_t StrideVal = StrideConst->Value.getZExtValue();

      uint32_t ShiftedStrideVal = StrideVal << 16;

      ShiftedStride = B.buildConstant(S32, ShiftedStrideVal);

    } else {

      auto ExtStride = B.buildAnyExt(S32, Stride);

      auto ShiftConst = B.buildConstant(S32, 16);

      ShiftedStride = B.buildShl(S32, ExtStride, ShiftConst);

    }

    NewHighHalf = B.buildOr(S32, Masked, ShiftedStride);

  }

  Register NewHighHalfReg = NewHighHalf.getReg(0);

  B.buildMergeValues(Result, {LowHalf, NewHighHalfReg, NumRecords, Flags});

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeImplicitArgPtr(MachineInstr &MI,

                                                 MachineRegisterInfo &MRI,

                                                 MachineIRBuilder &B) const {

  const SIMachineFunctionInfo *MFI = B.getMF().getInfo<SIMachineFunctionInfo>();

  if (!MFI->isEntryFunction()) {

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::IMPLICIT_ARG_PTR);

  }


  Register DstReg = MI.getOperand(0).getReg();

  if (!getImplicitArgPtr(DstReg, MRI, B))

    return false;


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::getLDSKernelId(Register DstReg,

                                         MachineRegisterInfo &MRI,

                                         MachineIRBuilder &B) const {

  Function &F = B.getMF().getFunction();

  std::optional<uint32_t> KnownSize =

      AMDGPUMachineFunction::getLDSKernelIdMetadata(F);

  if (KnownSize.has_value())

    B.buildConstant(DstReg, *KnownSize);

  return false;

}


bool AMDGPULegalizerInfo::legalizeLDSKernelId(MachineInstr &MI,

                                              MachineRegisterInfo &MRI,

                                              MachineIRBuilder &B) const {


  const SIMachineFunctionInfo *MFI = B.getMF().getInfo<SIMachineFunctionInfo>();

  if (!MFI->isEntryFunction()) {

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::LDS_KERNEL_ID);

  }


  Register DstReg = MI.getOperand(0).getReg();

  if (!getLDSKernelId(DstReg, MRI, B))

    return false;


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeIsAddrSpace(MachineInstr &MI,

                                              MachineRegisterInfo &MRI,

                                              MachineIRBuilder &B,

                                              unsigned AddrSpace) const {

  const LLT S32 = LLT::scalar(32);

  auto Unmerge = B.buildUnmerge(S32, MI.getOperand(2).getReg());

  Register Hi32 = Unmerge.getReg(1);


  if (AddrSpace == AMDGPUAS::PRIVATE_ADDRESS &&

      ST.hasGloballyAddressableScratch()) {

    Register FlatScratchBaseHi =

        B.buildInstr(AMDGPU::S_MOV_B32, {S32},

                     {Register(AMDGPU::SRC_FLAT_SCRATCH_BASE_HI)})

            .getReg(0);

    MRI.setRegClass(FlatScratchBaseHi, &AMDGPU::SReg_32RegClass);

    // Test bits 63..58 against the aperture address.

    Register XOR = B.buildXor(S32, Hi32, FlatScratchBaseHi).getReg(0);

    B.buildICmp(ICmpInst::ICMP_ULT, MI.getOperand(0), XOR,

                B.buildConstant(S32, 1u << 26));

  } else {

    Register ApertureReg = getSegmentAperture(AddrSpace, MRI, B);

    B.buildICmp(ICmpInst::ICMP_EQ, MI.getOperand(0), Hi32, ApertureReg);

  }

  MI.eraseFromParent();

  return true;

}


// The raw.(t)buffer and struct.(t)buffer intrinsics have two offset args:

// offset (the offset that is included in bounds checking and swizzling, to be

// split between the instruction's voffset and immoffset fields) and soffset

// (the offset that is excluded from bounds checking and swizzling, to go in

// the instruction's soffset field).  This function takes the first kind of

// offset and figures out how to split it between voffset and immoffset.

std::pair<Register, unsigned>


AMDGPULegalizerInfo::splitBufferOffsets(MachineIRBuilder &B,

                                        Register OrigOffset) const {

  const unsigned MaxImm = SIInstrInfo::getMaxMUBUFImmOffset(ST);

  Register BaseReg;

  unsigned ImmOffset;

  const LLT S32 = LLT::scalar(32);

  MachineRegisterInfo &MRI = *B.getMRI();


  // On GFX1250+, voffset and immoffset are zero-extended from 32 bits before

  // being added, so we can only safely match a 32-bit addition with no unsigned

  // overflow.

  bool CheckNUW = AMDGPU::isGFX1250(ST);

  std::tie(BaseReg, ImmOffset) = AMDGPU::getBaseWithConstantOffset(

      MRI, OrigOffset, /*KnownBits=*/nullptr, CheckNUW);


  // If BaseReg is a pointer, convert it to int.

  if (MRI.getType(BaseReg).isPointer())

    BaseReg = B.buildPtrToInt(MRI.getType(OrigOffset), BaseReg).getReg(0);


  // If the immediate value is too big for the immoffset field, put only bits

  // that would normally fit in the immoffset field. The remaining value that

  // is copied/added for the voffset field is a large power of 2, and it

  // stands more chance of being CSEd with the copy/add for another similar

  // load/store.

  // However, do not do that rounding down if that is a negative

  // number, as it appears to be illegal to have a negative offset in the

  // vgpr, even if adding the immediate offset makes it positive.

  unsigned Overflow = ImmOffset & ~MaxImm;

  ImmOffset -= Overflow;

  if ((int32_t)Overflow < 0) {

    Overflow += ImmOffset;

    ImmOffset = 0;

  }


  if (Overflow != 0) {

    if (!BaseReg) {

      BaseReg = B.buildConstant(S32, Overflow).getReg(0);

    } else {

      auto OverflowVal = B.buildConstant(S32, Overflow);

      BaseReg = B.buildAdd(S32, BaseReg, OverflowVal).getReg(0);

    }

  }


  if (!BaseReg)

    BaseReg = B.buildConstant(S32, 0).getReg(0);


  return std::pair(BaseReg, ImmOffset);

}


/// Handle register layout difference for f16 images for some subtargets.


Register AMDGPULegalizerInfo::handleD16VData(MachineIRBuilder &B,

                                             MachineRegisterInfo &MRI,

                                             Register Reg,

                                             bool ImageStore) const {

  const LLT S16 = LLT::scalar(16);

  const LLT S32 = LLT::scalar(32);

  LLT StoreVT = MRI.getType(Reg);

  assert(StoreVT.isVector() && StoreVT.getElementType() == S16);


  if (ST.hasUnpackedD16VMem()) {

    auto Unmerge = B.buildUnmerge(S16, Reg);


    SmallVector<Register, 4> WideRegs;

    for (int I = 0, E = Unmerge->getNumOperands() - 1; I != E; ++I)

      WideRegs.push_back(B.buildAnyExt(S32, Unmerge.getReg(I)).getReg(0));


    int NumElts = StoreVT.getNumElements();


    return B.buildBuildVector(LLT::fixed_vector(NumElts, S32), WideRegs)

        .getReg(0);

  }


  if (ImageStore && ST.hasImageStoreD16Bug()) {

    if (StoreVT.getNumElements() == 2) {

      SmallVector<Register, 4> PackedRegs;

      Reg = B.buildBitcast(S32, Reg).getReg(0);

      PackedRegs.push_back(Reg);

      PackedRegs.resize(2, B.buildUndef(S32).getReg(0));

      return B.buildBuildVector(LLT::fixed_vector(2, S32), PackedRegs)

          .getReg(0);

    }


    if (StoreVT.getNumElements() == 3) {

      SmallVector<Register, 4> PackedRegs;

      auto Unmerge = B.buildUnmerge(S16, Reg);

      for (int I = 0, E = Unmerge->getNumOperands() - 1; I != E; ++I)

        PackedRegs.push_back(Unmerge.getReg(I));

      PackedRegs.resize(6, B.buildUndef(S16).getReg(0));

      Reg = B.buildBuildVector(LLT::fixed_vector(6, S16), PackedRegs).getReg(0);

      return B.buildBitcast(LLT::fixed_vector(3, S32), Reg).getReg(0);

    }


    if (StoreVT.getNumElements() == 4) {

      SmallVector<Register, 4> PackedRegs;

      Reg = B.buildBitcast(LLT::fixed_vector(2, S32), Reg).getReg(0);

      auto Unmerge = B.buildUnmerge(S32, Reg);

      for (int I = 0, E = Unmerge->getNumOperands() - 1; I != E; ++I)

        PackedRegs.push_back(Unmerge.getReg(I));

      PackedRegs.resize(4, B.buildUndef(S32).getReg(0));

      return B.buildBuildVector(LLT::fixed_vector(4, S32), PackedRegs)

          .getReg(0);

    }


    llvm_unreachable("invalid data type");

  }


  if (StoreVT == LLT::fixed_vector(3, S16)) {

    Reg = B.buildPadVectorWithUndefElements(LLT::fixed_vector(4, S16), Reg)

              .getReg(0);

  }

  return Reg;

}


Register AMDGPULegalizerInfo::fixStoreSourceType(MachineIRBuilder &B,

                                                 Register VData, LLT MemTy,

                                                 bool IsFormat) const {

  MachineRegisterInfo *MRI = B.getMRI();

  LLT Ty = MRI->getType(VData);


  const LLT S16 = LLT::scalar(16);


  // Fixup buffer resources themselves needing to be v4i128.

  if (hasBufferRsrcWorkaround(Ty))

    return castBufferRsrcToV4I32(VData, B);


  if (shouldBitcastLoadStoreType(ST, Ty, MemTy)) {

    Ty = getBitcastRegisterType(Ty);

    VData = B.buildBitcast(Ty, VData).getReg(0);

  }

  // Fixup illegal register types for i8 stores.

  if (Ty == LLT::scalar(8) || Ty == S16) {

    Register AnyExt = B.buildAnyExt(LLT::scalar(32), VData).getReg(0);

    return AnyExt;

  }


  if (Ty.isVector()) {

    if (Ty.getElementType() == S16 && Ty.getNumElements() <= 4) {

      if (IsFormat)

        return handleD16VData(B, *MRI, VData);

    }

  }


  return VData;

}


bool AMDGPULegalizerInfo::legalizeBufferStore(MachineInstr &MI,

                                              LegalizerHelper &Helper,

                                              bool IsTyped,

                                              bool IsFormat) const {

  MachineIRBuilder &B = Helper.MIRBuilder;

  MachineRegisterInfo &MRI = *B.getMRI();


  Register VData = MI.getOperand(1).getReg();

  LLT Ty = MRI.getType(VData);

  LLT EltTy = Ty.getScalarType();

  const bool IsD16 = IsFormat && (EltTy.getSizeInBits() == 16);

  const LLT S32 = LLT::scalar(32);


  MachineMemOperand *MMO = *MI.memoperands_begin();

  const int MemSize = MMO->getSize().getValue();

  LLT MemTy = MMO->getMemoryType();


  VData = fixStoreSourceType(B, VData, MemTy, IsFormat);


  castBufferRsrcArgToV4I32(MI, B, 2);

  Register RSrc = MI.getOperand(2).getReg();


  unsigned ImmOffset;


  // The typed intrinsics add an immediate after the registers.

  const unsigned NumVIndexOps = IsTyped ? 8 : 7;


  // The struct intrinsic variants add one additional operand over raw.

  const bool HasVIndex = MI.getNumOperands() == NumVIndexOps;

  Register VIndex;

  int OpOffset = 0;

  if (HasVIndex) {

    VIndex = MI.getOperand(3).getReg();

    OpOffset = 1;

  } else {

    VIndex = B.buildConstant(S32, 0).getReg(0);

  }


  Register VOffset = MI.getOperand(3 + OpOffset).getReg();

  Register SOffset = MI.getOperand(4 + OpOffset).getReg();


  unsigned Format = 0;

  if (IsTyped) {

    Format = MI.getOperand(5 + OpOffset).getImm();

    ++OpOffset;

  }


  unsigned AuxiliaryData = MI.getOperand(5 + OpOffset).getImm();


  std::tie(VOffset, ImmOffset) = splitBufferOffsets(B, VOffset);


  unsigned Opc;

  if (IsTyped) {

    Opc = IsD16 ? AMDGPU::G_AMDGPU_TBUFFER_STORE_FORMAT_D16 :

                  AMDGPU::G_AMDGPU_TBUFFER_STORE_FORMAT;

  } else if (IsFormat) {

    Opc = IsD16 ? AMDGPU::G_AMDGPU_BUFFER_STORE_FORMAT_D16 :

                  AMDGPU::G_AMDGPU_BUFFER_STORE_FORMAT;

  } else {

    switch (MemSize) {

    case 1:

      Opc = AMDGPU::G_AMDGPU_BUFFER_STORE_BYTE;

      break;

    case 2:

      Opc = AMDGPU::G_AMDGPU_BUFFER_STORE_SHORT;

      break;

    default:

      Opc = AMDGPU::G_AMDGPU_BUFFER_STORE;

      break;

    }

  }


  auto MIB = B.buildInstr(Opc)

    .addUse(VData)              // vdata

    .addUse(RSrc)               // rsrc

    .addUse(VIndex)             // vindex

    .addUse(VOffset)            // voffset

    .addUse(SOffset)            // soffset

    .addImm(ImmOffset);         // offset(imm)


  if (IsTyped)

    MIB.addImm(Format);


  MIB.addImm(AuxiliaryData)      // cachepolicy, swizzled buffer(imm)

     .addImm(HasVIndex ? -1 : 0) // idxen(imm)

     .addMemOperand(MMO);


  MI.eraseFromParent();

  return true;

}


static void buildBufferLoad(unsigned Opc, Register LoadDstReg, Register RSrc,

                            Register VIndex, Register VOffset, Register SOffset,

                            unsigned ImmOffset, unsigned Format,

                            unsigned AuxiliaryData, MachineMemOperand *MMO,

                            bool IsTyped, bool HasVIndex, MachineIRBuilder &B) {

  auto MIB = B.buildInstr(Opc)

                 .addDef(LoadDstReg) // vdata

                 .addUse(RSrc)       // rsrc

                 .addUse(VIndex)     // vindex

                 .addUse(VOffset)    // voffset

                 .addUse(SOffset)    // soffset

                 .addImm(ImmOffset); // offset(imm)


  if (IsTyped)

    MIB.addImm(Format);


  MIB.addImm(AuxiliaryData)       // cachepolicy, swizzled buffer(imm)

      .addImm(HasVIndex ? -1 : 0) // idxen(imm)

      .addMemOperand(MMO);

}


bool AMDGPULegalizerInfo::legalizeBufferLoad(MachineInstr &MI,

                                             LegalizerHelper &Helper,

                                             bool IsFormat,

                                             bool IsTyped) const {

  MachineIRBuilder &B = Helper.MIRBuilder;

  MachineRegisterInfo &MRI = *B.getMRI();

  GISelChangeObserver &Observer = Helper.Observer;


  // FIXME: Verifier should enforce 1 MMO for these intrinsics.

  MachineMemOperand *MMO = *MI.memoperands_begin();

  const LLT MemTy = MMO->getMemoryType();

  const LLT S32 = LLT::scalar(32);


  Register Dst = MI.getOperand(0).getReg();


  Register StatusDst;

  int OpOffset = 0;

  assert(MI.getNumExplicitDefs() == 1 || MI.getNumExplicitDefs() == 2);

  bool IsTFE = MI.getNumExplicitDefs() == 2;

  if (IsTFE) {

    StatusDst = MI.getOperand(1).getReg();

    ++OpOffset;

  }


  castBufferRsrcArgToV4I32(MI, B, 2 + OpOffset);

  Register RSrc = MI.getOperand(2 + OpOffset).getReg();


  // The typed intrinsics add an immediate after the registers.

  const unsigned NumVIndexOps = IsTyped ? 8 : 7;


  // The struct intrinsic variants add one additional operand over raw.

  const bool HasVIndex = MI.getNumOperands() == NumVIndexOps + OpOffset;

  Register VIndex;

  if (HasVIndex) {

    VIndex = MI.getOperand(3 + OpOffset).getReg();

    ++OpOffset;

  } else {

    VIndex = B.buildConstant(S32, 0).getReg(0);

  }


  Register VOffset = MI.getOperand(3 + OpOffset).getReg();

  Register SOffset = MI.getOperand(4 + OpOffset).getReg();


  unsigned Format = 0;

  if (IsTyped) {

    Format = MI.getOperand(5 + OpOffset).getImm();

    ++OpOffset;

  }


  unsigned AuxiliaryData = MI.getOperand(5 + OpOffset).getImm();

  unsigned ImmOffset;


  LLT Ty = MRI.getType(Dst);

  // Make addrspace 8 pointers loads into 4xs32 loads here, so the rest of the

  // logic doesn't have to handle that case.

  if (hasBufferRsrcWorkaround(Ty)) {

    Observer.changingInstr(MI);

    Ty = castBufferRsrcFromV4I32(MI, B, MRI, 0);

    Observer.changedInstr(MI);

    Dst = MI.getOperand(0).getReg();

    B.setInsertPt(B.getMBB(), MI);

  }

  if (shouldBitcastLoadStoreType(ST, Ty, MemTy)) {

    Ty = getBitcastRegisterType(Ty);

    Observer.changingInstr(MI);

    Helper.bitcastDst(MI, Ty, 0);

    Observer.changedInstr(MI);

    Dst = MI.getOperand(0).getReg();

    B.setInsertPt(B.getMBB(), MI);

  }


  LLT EltTy = Ty.getScalarType();

  const bool IsD16 = IsFormat && (EltTy.getSizeInBits() == 16);

  const bool Unpacked = ST.hasUnpackedD16VMem();


  std::tie(VOffset, ImmOffset) = splitBufferOffsets(B, VOffset);


  unsigned Opc;


  // TODO: Support TFE for typed and narrow loads.

  if (IsTyped) {

    if (IsTFE)

      return false;

    Opc = IsD16 ? AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT_D16 :

                  AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT;

  } else if (IsFormat) {

    if (IsD16) {

      if (IsTFE)

        return false;

      Opc = AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_D16;

    } else {

      Opc = IsTFE ? AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_TFE

                  : AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT;

    }

  } else {

    switch (MemTy.getSizeInBits()) {

    case 8:

      Opc = IsTFE ? AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE_TFE

                  : AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE;

      break;

    case 16:

      Opc = IsTFE ? AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT_TFE

                  : AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT;

      break;

    default:

      Opc = IsTFE ? AMDGPU::G_AMDGPU_BUFFER_LOAD_TFE

                  : AMDGPU::G_AMDGPU_BUFFER_LOAD;

      break;

    }

  }


  if (IsTFE) {

    unsigned NumValueDWords = divideCeil(Ty.getSizeInBits(), 32);

    unsigned NumLoadDWords = NumValueDWords + 1;

    LLT LoadTy = LLT::fixed_vector(NumLoadDWords, S32);

    Register LoadDstReg = B.getMRI()->createGenericVirtualRegister(LoadTy);

    buildBufferLoad(Opc, LoadDstReg, RSrc, VIndex, VOffset, SOffset, ImmOffset,

                    Format, AuxiliaryData, MMO, IsTyped, HasVIndex, B);

    if (MemTy.getSizeInBits() < 32) {

      Register ExtDst = B.getMRI()->createGenericVirtualRegister(S32);

      B.buildUnmerge({ExtDst, StatusDst}, LoadDstReg);

      B.buildTrunc(Dst, ExtDst);

    } else if (NumValueDWords == 1) {

      B.buildUnmerge({Dst, StatusDst}, LoadDstReg);

    } else {

      SmallVector<Register, 5> LoadElts;

      for (unsigned I = 0; I != NumValueDWords; ++I)

        LoadElts.push_back(B.getMRI()->createGenericVirtualRegister(S32));

      LoadElts.push_back(StatusDst);

      B.buildUnmerge(LoadElts, LoadDstReg);

      LoadElts.truncate(NumValueDWords);

      B.buildMergeLikeInstr(Dst, LoadElts);

    }

  } else if ((!IsD16 && MemTy.getSizeInBits() < 32) ||

             (IsD16 && !Ty.isVector())) {

    Register LoadDstReg = B.getMRI()->createGenericVirtualRegister(S32);

    buildBufferLoad(Opc, LoadDstReg, RSrc, VIndex, VOffset, SOffset, ImmOffset,

                    Format, AuxiliaryData, MMO, IsTyped, HasVIndex, B);

    B.setInsertPt(B.getMBB(), ++B.getInsertPt());

    B.buildTrunc(Dst, LoadDstReg);

  } else if (Unpacked && IsD16 && Ty.isVector()) {

    LLT UnpackedTy = Ty.changeElementSize(32);

    Register LoadDstReg = B.getMRI()->createGenericVirtualRegister(UnpackedTy);

    buildBufferLoad(Opc, LoadDstReg, RSrc, VIndex, VOffset, SOffset, ImmOffset,

                    Format, AuxiliaryData, MMO, IsTyped, HasVIndex, B);

    B.setInsertPt(B.getMBB(), ++B.getInsertPt());

    // FIXME: G_TRUNC should work, but legalization currently fails

    auto Unmerge = B.buildUnmerge(S32, LoadDstReg);

    SmallVector<Register, 4> Repack;

    for (unsigned I = 0, N = Unmerge->getNumOperands() - 1; I != N; ++I)

      Repack.push_back(B.buildTrunc(EltTy, Unmerge.getReg(I)).getReg(0));

    B.buildMergeLikeInstr(Dst, Repack);

  } else {

    buildBufferLoad(Opc, Dst, RSrc, VIndex, VOffset, SOffset, ImmOffset, Format,

                    AuxiliaryData, MMO, IsTyped, HasVIndex, B);

  }


  MI.eraseFromParent();

  return true;

}


static unsigned getBufferAtomicPseudo(Intrinsic::ID IntrID) {

  switch (IntrID) {

  case Intrinsic::amdgcn_raw_buffer_atomic_swap:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_swap:

  case Intrinsic::amdgcn_struct_buffer_atomic_swap:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_swap:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_SWAP;

  case Intrinsic::amdgcn_raw_buffer_atomic_add:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_add:

  case Intrinsic::amdgcn_struct_buffer_atomic_add:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_add:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_ADD;

  case Intrinsic::amdgcn_raw_buffer_atomic_sub:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_sub:

  case Intrinsic::amdgcn_struct_buffer_atomic_sub:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_sub:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_SUB;

  case Intrinsic::amdgcn_raw_buffer_atomic_smin:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_smin:

  case Intrinsic::amdgcn_struct_buffer_atomic_smin:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_smin:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_SMIN;

  case Intrinsic::amdgcn_raw_buffer_atomic_umin:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_umin:

  case Intrinsic::amdgcn_struct_buffer_atomic_umin:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_umin:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_UMIN;

  case Intrinsic::amdgcn_raw_buffer_atomic_smax:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_smax:

  case Intrinsic::amdgcn_struct_buffer_atomic_smax:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_smax:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_SMAX;

  case Intrinsic::amdgcn_raw_buffer_atomic_umax:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_umax:

  case Intrinsic::amdgcn_struct_buffer_atomic_umax:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_umax:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_UMAX;

  case Intrinsic::amdgcn_raw_buffer_atomic_and:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_and:

  case Intrinsic::amdgcn_struct_buffer_atomic_and:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_and:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_AND;

  case Intrinsic::amdgcn_raw_buffer_atomic_or:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_or:

  case Intrinsic::amdgcn_struct_buffer_atomic_or:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_or:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_OR;

  case Intrinsic::amdgcn_raw_buffer_atomic_xor:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_xor:

  case Intrinsic::amdgcn_struct_buffer_atomic_xor:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_xor:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_XOR;

  case Intrinsic::amdgcn_raw_buffer_atomic_inc:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_inc:

  case Intrinsic::amdgcn_struct_buffer_atomic_inc:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_inc:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_INC;

  case Intrinsic::amdgcn_raw_buffer_atomic_dec:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_dec:

  case Intrinsic::amdgcn_struct_buffer_atomic_dec:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_dec:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_DEC;

  case Intrinsic::amdgcn_raw_buffer_atomic_cmpswap:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_cmpswap:

  case Intrinsic::amdgcn_struct_buffer_atomic_cmpswap:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_cmpswap:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_CMPSWAP;

  case Intrinsic::amdgcn_raw_buffer_atomic_fadd:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_fadd:

  case Intrinsic::amdgcn_struct_buffer_atomic_fadd:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_fadd:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FADD;

  case Intrinsic::amdgcn_raw_buffer_atomic_fmin:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_fmin:

  case Intrinsic::amdgcn_struct_buffer_atomic_fmin:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_fmin:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FMIN;

  case Intrinsic::amdgcn_raw_buffer_atomic_fmax:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_fmax:

  case Intrinsic::amdgcn_struct_buffer_atomic_fmax:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_fmax:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FMAX;

  case Intrinsic::amdgcn_raw_buffer_atomic_cond_sub_u32:

  case Intrinsic::amdgcn_struct_buffer_atomic_cond_sub_u32:

    return AMDGPU::G_AMDGPU_BUFFER_ATOMIC_COND_SUB_U32;

  default:

    llvm_unreachable("unhandled atomic opcode");

  }

}


bool AMDGPULegalizerInfo::legalizeBufferAtomic(MachineInstr &MI,

                                               MachineIRBuilder &B,

                                               Intrinsic::ID IID) const {

  const bool IsCmpSwap =

      IID == Intrinsic::amdgcn_raw_buffer_atomic_cmpswap ||

      IID == Intrinsic::amdgcn_struct_buffer_atomic_cmpswap ||

      IID == Intrinsic::amdgcn_raw_ptr_buffer_atomic_cmpswap ||

      IID == Intrinsic::amdgcn_struct_ptr_buffer_atomic_cmpswap;


  Register Dst = MI.getOperand(0).getReg();

  // Since we don't have 128-bit atomics, we don't need to handle the case of

  // p8 argmunents to the atomic itself

  Register VData = MI.getOperand(2).getReg();


  Register CmpVal;

  int OpOffset = 0;


  if (IsCmpSwap) {

    CmpVal = MI.getOperand(3).getReg();

    ++OpOffset;

  }


  castBufferRsrcArgToV4I32(MI, B, 3 + OpOffset);

  Register RSrc = MI.getOperand(3 + OpOffset).getReg();

  const unsigned NumVIndexOps = IsCmpSwap ? 9 : 8;


  // The struct intrinsic variants add one additional operand over raw.

  const bool HasVIndex = MI.getNumOperands() == NumVIndexOps;

  Register VIndex;

  if (HasVIndex) {

    VIndex = MI.getOperand(4 + OpOffset).getReg();

    ++OpOffset;

  } else {

    VIndex = B.buildConstant(LLT::scalar(32), 0).getReg(0);

  }


  Register VOffset = MI.getOperand(4 + OpOffset).getReg();

  Register SOffset = MI.getOperand(5 + OpOffset).getReg();

  unsigned AuxiliaryData = MI.getOperand(6 + OpOffset).getImm();


  MachineMemOperand *MMO = *MI.memoperands_begin();


  unsigned ImmOffset;

  std::tie(VOffset, ImmOffset) = splitBufferOffsets(B, VOffset);


  auto MIB = B.buildInstr(getBufferAtomicPseudo(IID))

      .addDef(Dst)

      .addUse(VData); // vdata


  if (IsCmpSwap)

    MIB.addReg(CmpVal);


  MIB.addUse(RSrc)               // rsrc

     .addUse(VIndex)             // vindex

     .addUse(VOffset)            // voffset

     .addUse(SOffset)            // soffset

     .addImm(ImmOffset)          // offset(imm)

     .addImm(AuxiliaryData)      // cachepolicy, swizzled buffer(imm)

     .addImm(HasVIndex ? -1 : 0) // idxen(imm)

     .addMemOperand(MMO);


  MI.eraseFromParent();

  return true;

}


/// Turn a set of s16 typed registers in \p AddrRegs into a dword sized

/// vector with s16 typed elements.


static void packImage16bitOpsToDwords(MachineIRBuilder &B, MachineInstr &MI,

                                      SmallVectorImpl<Register> &PackedAddrs,

                                      unsigned ArgOffset,

                                      const AMDGPU::ImageDimIntrinsicInfo *Intr,

                                      bool IsA16, bool IsG16) {

  const LLT S16 = LLT::scalar(16);

  const LLT V2S16 = LLT::fixed_vector(2, 16);

  auto EndIdx = Intr->VAddrEnd;


  for (unsigned I = Intr->VAddrStart; I < EndIdx; I++) {

    MachineOperand &SrcOp = MI.getOperand(ArgOffset + I);

    if (!SrcOp.isReg())

      continue; // _L to _LZ may have eliminated this.


    Register AddrReg = SrcOp.getReg();


    if ((I < Intr->GradientStart) ||

        (I >= Intr->GradientStart && I < Intr->CoordStart && !IsG16) ||

        (I >= Intr->CoordStart && !IsA16)) {

      if ((I < Intr->GradientStart) && IsA16 &&

          (B.getMRI()->getType(AddrReg) == S16)) {

        assert(I == Intr->BiasIndex && "Got unexpected 16-bit extra argument");

        // Special handling of bias when A16 is on. Bias is of type half but

        // occupies full 32-bit.

        PackedAddrs.push_back(

            B.buildBuildVector(V2S16, {AddrReg, B.buildUndef(S16).getReg(0)})

                .getReg(0));

      } else {

        assert((!IsA16 || Intr->NumBiasArgs == 0 || I != Intr->BiasIndex) &&

               "Bias needs to be converted to 16 bit in A16 mode");

        // Handle any gradient or coordinate operands that should not be packed

        AddrReg = B.buildBitcast(V2S16, AddrReg).getReg(0);

        PackedAddrs.push_back(AddrReg);

      }

    } else {

      // Dz/dh, dz/dv and the last odd coord are packed with undef. Also, in 1D,

      // derivatives dx/dh and dx/dv are packed with undef.

      if (((I + 1) >= EndIdx) ||

          ((Intr->NumGradients / 2) % 2 == 1 &&

           (I == static_cast<unsigned>(Intr->GradientStart +

                                       (Intr->NumGradients / 2) - 1) ||

            I == static_cast<unsigned>(Intr->GradientStart +

                                       Intr->NumGradients - 1))) ||

          // Check for _L to _LZ optimization

          !MI.getOperand(ArgOffset + I + 1).isReg()) {

        PackedAddrs.push_back(

            B.buildBuildVector(V2S16, {AddrReg, B.buildUndef(S16).getReg(0)})

                .getReg(0));

      } else {

        PackedAddrs.push_back(

            B.buildBuildVector(

                 V2S16, {AddrReg, MI.getOperand(ArgOffset + I + 1).getReg()})

                .getReg(0));

        ++I;

      }

    }

  }

}


/// Convert from separate vaddr components to a single vector address register,

/// and replace the remaining operands with $noreg.


static void convertImageAddrToPacked(MachineIRBuilder &B, MachineInstr &MI,

                                     int DimIdx, int NumVAddrs) {

  const LLT S32 = LLT::scalar(32);

  (void)S32;

  SmallVector<Register, 8> AddrRegs;

  for (int I = 0; I != NumVAddrs; ++I) {

    MachineOperand &SrcOp = MI.getOperand(DimIdx + I);

    if (SrcOp.isReg()) {

      AddrRegs.push_back(SrcOp.getReg());

      assert(B.getMRI()->getType(SrcOp.getReg()) == S32);

    }

  }


  int NumAddrRegs = AddrRegs.size();

  if (NumAddrRegs != 1) {

    auto VAddr =

        B.buildBuildVector(LLT::fixed_vector(NumAddrRegs, 32), AddrRegs);

    MI.getOperand(DimIdx).setReg(VAddr.getReg(0));

  }


  for (int I = 1; I != NumVAddrs; ++I) {

    MachineOperand &SrcOp = MI.getOperand(DimIdx + I);

    if (SrcOp.isReg())

      MI.getOperand(DimIdx + I).setReg(AMDGPU::NoRegister);

  }

}


/// Rewrite image intrinsics to use register layouts expected by the subtarget.

///

/// Depending on the subtarget, load/store with 16-bit element data need to be

/// rewritten to use the low half of 32-bit registers, or directly use a packed

/// layout. 16-bit addresses should also sometimes be packed into 32-bit

/// registers.

///

/// We don't want to directly select image instructions just yet, but also want

/// to exposes all register repacking to the legalizer/combiners. We also don't

/// want a selected instruction entering RegBankSelect. In order to avoid

/// defining a multitude of intermediate image instructions, directly hack on

/// the intrinsic's arguments. In cases like a16 addresses, this requires

/// padding now unnecessary arguments with $noreg.


bool AMDGPULegalizerInfo::legalizeImageIntrinsic(

    MachineInstr &MI, MachineIRBuilder &B, GISelChangeObserver &Observer,

    const AMDGPU::ImageDimIntrinsicInfo *Intr) const {


  const MachineFunction &MF = *MI.getMF();

  const unsigned NumDefs = MI.getNumExplicitDefs();

  const unsigned ArgOffset = NumDefs + 1;

  bool IsTFE = NumDefs == 2;

  // We are only processing the operands of d16 image operations on subtargets

  // that use the unpacked register layout, or need to repack the TFE result.


  // TODO: Do we need to guard against already legalized intrinsics?

  const AMDGPU::MIMGBaseOpcodeInfo *BaseOpcode =

      AMDGPU::getMIMGBaseOpcodeInfo(Intr->BaseOpcode);


  MachineRegisterInfo *MRI = B.getMRI();

  const LLT S32 = LLT::scalar(32);

  const LLT S16 = LLT::scalar(16);

  const LLT V2S16 = LLT::fixed_vector(2, 16);


  unsigned DMask = 0;

  Register VData;

  LLT Ty;


  if (!BaseOpcode->NoReturn || BaseOpcode->Store) {

    VData = MI.getOperand(NumDefs == 0 ? 1 : 0).getReg();

    Ty = MRI->getType(VData);

  }


  const bool IsAtomicPacked16Bit =

      (BaseOpcode->BaseOpcode == AMDGPU::IMAGE_ATOMIC_PK_ADD_F16 ||

       BaseOpcode->BaseOpcode == AMDGPU::IMAGE_ATOMIC_PK_ADD_BF16);


  // Check for 16 bit addresses and pack if true.

  LLT GradTy =

      MRI->getType(MI.getOperand(ArgOffset + Intr->GradientStart).getReg());

  LLT AddrTy =

      MRI->getType(MI.getOperand(ArgOffset + Intr->CoordStart).getReg());

  const bool IsG16 =

      ST.hasG16() ? (BaseOpcode->Gradients && GradTy == S16) : GradTy == S16;

  const bool IsA16 = AddrTy == S16;

  const bool IsD16 = !IsAtomicPacked16Bit && Ty.getScalarType() == S16;


  int DMaskLanes = 0;

  if (!BaseOpcode->Atomic) {

    DMask = MI.getOperand(ArgOffset + Intr->DMaskIndex).getImm();

    if (BaseOpcode->Gather4) {

      DMaskLanes = 4;

    } else if (DMask != 0) {

      DMaskLanes = llvm::popcount(DMask);

    } else if (!IsTFE && !BaseOpcode->Store) {

      // If dmask is 0, this is a no-op load. This can be eliminated.

      B.buildUndef(MI.getOperand(0));

      MI.eraseFromParent();

      return true;

    }

  }


  Observer.changingInstr(MI);

  auto ChangedInstr = make_scope_exit([&] { Observer.changedInstr(MI); });


  const unsigned StoreOpcode = IsD16 ? AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE_D16

                                     : AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE;

  const unsigned LoadOpcode = IsD16 ? AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD_D16

                                    : AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD;

  unsigned NewOpcode = LoadOpcode;

  if (BaseOpcode->Store)

    NewOpcode = StoreOpcode;

  else if (BaseOpcode->NoReturn)

    NewOpcode = AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD_NORET;


  // Track that we legalized this

  MI.setDesc(B.getTII().get(NewOpcode));


  // Expecting to get an error flag since TFC is on - and dmask is 0 Force

  // dmask to be at least 1 otherwise the instruction will fail

  if (IsTFE && DMask == 0) {

    DMask = 0x1;

    DMaskLanes = 1;

    MI.getOperand(ArgOffset + Intr->DMaskIndex).setImm(DMask);

  }


  if (BaseOpcode->Atomic) {

    Register VData0 = MI.getOperand(2).getReg();

    LLT Ty = MRI->getType(VData0);


    // TODO: Allow atomic swap and bit ops for v2s16/v4s16

    if (Ty.isVector() && !IsAtomicPacked16Bit)

      return false;


    if (BaseOpcode->AtomicX2) {

      Register VData1 = MI.getOperand(3).getReg();

      // The two values are packed in one register.

      LLT PackedTy = LLT::fixed_vector(2, Ty);

      auto Concat = B.buildBuildVector(PackedTy, {VData0, VData1});

      MI.getOperand(2).setReg(Concat.getReg(0));

      MI.getOperand(3).setReg(AMDGPU::NoRegister);

    }

  }


  unsigned CorrectedNumVAddrs = Intr->NumVAddrs;


  // Rewrite the addressing register layout before doing anything else.

  if (BaseOpcode->Gradients && !ST.hasG16() && (IsA16 != IsG16)) {

    // 16 bit gradients are supported, but are tied to the A16 control

    // so both gradients and addresses must be 16 bit

    return false;

  }


  if (IsA16 && !ST.hasA16()) {

    // A16 not supported

    return false;

  }


  const unsigned NSAMaxSize = ST.getNSAMaxSize(BaseOpcode->Sampler);

  const unsigned HasPartialNSA = ST.hasPartialNSAEncoding();


  if (IsA16 || IsG16) {

    // Even if NumVAddrs == 1 we should pack it into a 32-bit value, because the

    // instructions expect VGPR_32

    SmallVector<Register, 4> PackedRegs;


    packImage16bitOpsToDwords(B, MI, PackedRegs, ArgOffset, Intr, IsA16, IsG16);


    // See also below in the non-a16 branch

    const bool UseNSA = ST.hasNSAEncoding() &&

                        PackedRegs.size() >= ST.getNSAThreshold(MF) &&

                        (PackedRegs.size() <= NSAMaxSize || HasPartialNSA);

    const bool UsePartialNSA =

        UseNSA && HasPartialNSA && PackedRegs.size() > NSAMaxSize;


    if (UsePartialNSA) {

      // Pack registers that would go over NSAMaxSize into last VAddr register

      LLT PackedAddrTy =

          LLT::fixed_vector(2 * (PackedRegs.size() - NSAMaxSize + 1), 16);

      auto Concat = B.buildConcatVectors(

          PackedAddrTy, ArrayRef(PackedRegs).slice(NSAMaxSize - 1));

      PackedRegs[NSAMaxSize - 1] = Concat.getReg(0);

      PackedRegs.resize(NSAMaxSize);

    } else if (!UseNSA && PackedRegs.size() > 1) {

      LLT PackedAddrTy = LLT::fixed_vector(2 * PackedRegs.size(), 16);

      auto Concat = B.buildConcatVectors(PackedAddrTy, PackedRegs);

      PackedRegs[0] = Concat.getReg(0);

      PackedRegs.resize(1);

    }


    const unsigned NumPacked = PackedRegs.size();

    for (unsigned I = Intr->VAddrStart; I < Intr->VAddrEnd; I++) {

      MachineOperand &SrcOp = MI.getOperand(ArgOffset + I);

      if (!SrcOp.isReg()) {

        assert(SrcOp.isImm() && SrcOp.getImm() == 0);

        continue;

      }


      assert(SrcOp.getReg() != AMDGPU::NoRegister);


      if (I - Intr->VAddrStart < NumPacked)

        SrcOp.setReg(PackedRegs[I - Intr->VAddrStart]);

      else

        SrcOp.setReg(AMDGPU::NoRegister);

    }

  } else {

    // If the register allocator cannot place the address registers contiguously

    // without introducing moves, then using the non-sequential address encoding

    // is always preferable, since it saves VALU instructions and is usually a

    // wash in terms of code size or even better.

    //

    // However, we currently have no way of hinting to the register allocator

    // that MIMG addresses should be placed contiguously when it is possible to

    // do so, so force non-NSA for the common 2-address case as a heuristic.

    //

    // SIShrinkInstructions will convert NSA encodings to non-NSA after register

    // allocation when possible.

    //

    // Partial NSA is allowed on GFX11+ where the final register is a contiguous

    // set of the remaining addresses.

    const bool UseNSA = ST.hasNSAEncoding() &&

                        CorrectedNumVAddrs >= ST.getNSAThreshold(MF) &&

                        (CorrectedNumVAddrs <= NSAMaxSize || HasPartialNSA);

    const bool UsePartialNSA =

        UseNSA && HasPartialNSA && CorrectedNumVAddrs > NSAMaxSize;


    if (UsePartialNSA) {

      convertImageAddrToPacked(B, MI,

                               ArgOffset + Intr->VAddrStart + NSAMaxSize - 1,

                               Intr->NumVAddrs - NSAMaxSize + 1);

    } else if (!UseNSA && Intr->NumVAddrs > 1) {

      convertImageAddrToPacked(B, MI, ArgOffset + Intr->VAddrStart,

                               Intr->NumVAddrs);

    }

  }


  int Flags = 0;

  if (IsA16)

    Flags |= 1;

  if (IsG16)

    Flags |= 2;

  MI.addOperand(MachineOperand::CreateImm(Flags));


  if (BaseOpcode->NoReturn) { // No TFE for stores?

    // TODO: Handle dmask trim

    if (!Ty.isVector() || !IsD16)

      return true;


    Register RepackedReg = handleD16VData(B, *MRI, VData, true);

    if (RepackedReg != VData) {

      MI.getOperand(1).setReg(RepackedReg);

    }


    return true;

  }


  Register DstReg = MI.getOperand(0).getReg();

  const LLT EltTy = Ty.getScalarType();

  const int NumElts = Ty.isVector() ? Ty.getNumElements() : 1;


  // Confirm that the return type is large enough for the dmask specified

  if (NumElts < DMaskLanes)

    return false;


  if (NumElts > 4 || DMaskLanes > 4)

    return false;


  // Image atomic instructions are using DMask to specify how many bits

  // input/output data will have. 32-bits (s32, v2s16) or 64-bits (s64, v4s16).

  // DMaskLanes for image atomic has default value '0'.

  // We must be sure that atomic variants (especially packed) will not be

  // truncated from v2s16 or v4s16 to s16 type.

  //

  // ChangeElementCount will be needed for image load where Ty is always scalar.

  const unsigned AdjustedNumElts = DMaskLanes == 0 ? 1 : DMaskLanes;

  const LLT AdjustedTy =

      DMaskLanes == 0

          ? Ty

          : Ty.changeElementCount(ElementCount::getFixed(AdjustedNumElts));


  // The raw dword aligned data component of the load. The only legal cases

  // where this matters should be when using the packed D16 format, for

  // s16 -> <2 x s16>, and <3 x s16> -> <4 x s16>,

  LLT RoundedTy;


  // S32 vector to cover all data, plus TFE result element.

  LLT TFETy;


  // Register type to use for each loaded component. Will be S32 or V2S16.

  LLT RegTy;


  if (IsD16 && ST.hasUnpackedD16VMem()) {

    RoundedTy =

        LLT::scalarOrVector(ElementCount::getFixed(AdjustedNumElts), 32);

    TFETy = LLT::fixed_vector(AdjustedNumElts + 1, 32);

    RegTy = S32;

  } else {

    unsigned EltSize = EltTy.getSizeInBits();

    unsigned RoundedElts = (AdjustedTy.getSizeInBits() + 31) / 32;

    unsigned RoundedSize = 32 * RoundedElts;

    RoundedTy = LLT::scalarOrVector(

        ElementCount::getFixed(RoundedSize / EltSize), EltSize);

    TFETy = LLT::fixed_vector(RoundedSize / 32 + 1, S32);

    RegTy = !IsTFE && EltSize == 16 ? V2S16 : S32;

  }


  // The return type does not need adjustment.

  // TODO: Should we change s16 case to s32 or <2 x s16>?

  if (!IsTFE && (RoundedTy == Ty || !Ty.isVector()))

    return true;


  Register Dst1Reg;


  // Insert after the instruction.

  B.setInsertPt(*MI.getParent(), ++MI.getIterator());


  // TODO: For TFE with d16, if we used a TFE type that was a multiple of <2 x

  // s16> instead of s32, we would only need 1 bitcast instead of multiple.

  const LLT LoadResultTy = IsTFE ? TFETy : RoundedTy;

  const int ResultNumRegs = LoadResultTy.getSizeInBits() / 32;


  Register NewResultReg = MRI->createGenericVirtualRegister(LoadResultTy);


  MI.getOperand(0).setReg(NewResultReg);


  // In the IR, TFE is supposed to be used with a 2 element struct return

  // type. The instruction really returns these two values in one contiguous

  // register, with one additional dword beyond the loaded data. Rewrite the

  // return type to use a single register result.


  if (IsTFE) {

    Dst1Reg = MI.getOperand(1).getReg();

    if (MRI->getType(Dst1Reg) != S32)

      return false;


    // TODO: Make sure the TFE operand bit is set.

    MI.removeOperand(1);


    // Handle the easy case that requires no repack instructions.

    if (Ty == S32) {

      B.buildUnmerge({DstReg, Dst1Reg}, NewResultReg);

      return true;

    }

  }


  // Now figure out how to copy the new result register back into the old

  // result.

  SmallVector<Register, 5> ResultRegs(ResultNumRegs, Dst1Reg);


  const int NumDataRegs = IsTFE ? ResultNumRegs - 1  : ResultNumRegs;


  if (ResultNumRegs == 1) {

    assert(!IsTFE);

    ResultRegs[0] = NewResultReg;

  } else {

    // We have to repack into a new vector of some kind.

    for (int I = 0; I != NumDataRegs; ++I)

      ResultRegs[I] = MRI->createGenericVirtualRegister(RegTy);

    B.buildUnmerge(ResultRegs, NewResultReg);


    // Drop the final TFE element to get the data part. The TFE result is

    // directly written to the right place already.

    if (IsTFE)

      ResultRegs.resize(NumDataRegs);

  }


  // For an s16 scalar result, we form an s32 result with a truncate regardless

  // of packed vs. unpacked.

  if (IsD16 && !Ty.isVector()) {

    B.buildTrunc(DstReg, ResultRegs[0]);

    return true;

  }


  // Avoid a build/concat_vector of 1 entry.

  if (Ty == V2S16 && NumDataRegs == 1 && !ST.hasUnpackedD16VMem()) {

    B.buildBitcast(DstReg, ResultRegs[0]);

    return true;

  }


  assert(Ty.isVector());


  if (IsD16) {

    // For packed D16 results with TFE enabled, all the data components are

    // S32. Cast back to the expected type.

    //

    // TODO: We don't really need to use load s32 elements. We would only need one

    // cast for the TFE result if a multiple of v2s16 was used.

    if (RegTy != V2S16 && !ST.hasUnpackedD16VMem()) {

      for (Register &Reg : ResultRegs)

        Reg = B.buildBitcast(V2S16, Reg).getReg(0);

    } else if (ST.hasUnpackedD16VMem()) {

      for (Register &Reg : ResultRegs)

        Reg = B.buildTrunc(S16, Reg).getReg(0);

    }

  }


  auto padWithUndef = [&](LLT Ty, int NumElts) {

    if (NumElts == 0)

      return;

    Register Undef = B.buildUndef(Ty).getReg(0);

    for (int I = 0; I != NumElts; ++I)

      ResultRegs.push_back(Undef);

  };


  // Pad out any elements eliminated due to the dmask.

  LLT ResTy = MRI->getType(ResultRegs[0]);

  if (!ResTy.isVector()) {

    padWithUndef(ResTy, NumElts - ResultRegs.size());

    B.buildBuildVector(DstReg, ResultRegs);

    return true;

  }


  assert(!ST.hasUnpackedD16VMem() && ResTy == V2S16);

  const int RegsToCover = (Ty.getSizeInBits() + 31) / 32;


  // Deal with the one annoying legal case.

  const LLT V3S16 = LLT::fixed_vector(3, 16);

  if (Ty == V3S16) {

    if (IsTFE) {

      if (ResultRegs.size() == 1) {

        NewResultReg = ResultRegs[0];

      } else if (ResultRegs.size() == 2) {

        LLT V4S16 = LLT::fixed_vector(4, 16);

        NewResultReg = B.buildConcatVectors(V4S16, ResultRegs).getReg(0);

      } else {

        return false;

      }

    }


    if (MRI->getType(DstReg).getNumElements() <

        MRI->getType(NewResultReg).getNumElements()) {

      B.buildDeleteTrailingVectorElements(DstReg, NewResultReg);

    } else {

      B.buildPadVectorWithUndefElements(DstReg, NewResultReg);

    }

    return true;

  }


  padWithUndef(ResTy, RegsToCover - ResultRegs.size());

  B.buildConcatVectors(DstReg, ResultRegs);

  return true;

}


bool AMDGPULegalizerInfo::legalizeSBufferLoad(LegalizerHelper &Helper,

                                              MachineInstr &MI) const {

  MachineIRBuilder &B = Helper.MIRBuilder;

  GISelChangeObserver &Observer = Helper.Observer;


  Register OrigDst = MI.getOperand(0).getReg();

  Register Dst;

  LLT Ty = B.getMRI()->getType(OrigDst);

  unsigned Size = Ty.getSizeInBits();

  MachineFunction &MF = B.getMF();

  unsigned Opc = 0;

  if (Size < 32 && ST.hasScalarSubwordLoads()) {

    assert(Size == 8 || Size == 16);

    Opc = Size == 8 ? AMDGPU::G_AMDGPU_S_BUFFER_LOAD_UBYTE

                    : AMDGPU::G_AMDGPU_S_BUFFER_LOAD_USHORT;

    // The 8-bit and 16-bit scalar buffer load instructions have 32-bit

    // destination register.

    Dst = B.getMRI()->createGenericVirtualRegister(LLT::scalar(32));

  } else {

    Opc = AMDGPU::G_AMDGPU_S_BUFFER_LOAD;

    Dst = OrigDst;

  }


  Observer.changingInstr(MI);


  // Handle needing to s.buffer.load() a p8 value.

  if (hasBufferRsrcWorkaround(Ty)) {

    Ty = castBufferRsrcFromV4I32(MI, B, *B.getMRI(), 0);

    B.setInsertPt(B.getMBB(), MI);

  }

  if (shouldBitcastLoadStoreType(ST, Ty, LLT::scalar(Size))) {

    Ty = getBitcastRegisterType(Ty);

    Helper.bitcastDst(MI, Ty, 0);

    B.setInsertPt(B.getMBB(), MI);

  }


  // FIXME: We don't really need this intermediate instruction. The intrinsic

  // should be fixed to have a memory operand. Since it's readnone, we're not

  // allowed to add one.

  MI.setDesc(B.getTII().get(Opc));

  MI.removeOperand(1); // Remove intrinsic ID


  // FIXME: When intrinsic definition is fixed, this should have an MMO already.

  const unsigned MemSize = (Size + 7) / 8;

  const Align MemAlign = B.getDataLayout().getABITypeAlign(

      getTypeForLLT(Ty, MF.getFunction().getContext()));

  MachineMemOperand *MMO = MF.getMachineMemOperand(

      MachinePointerInfo(),

      MachineMemOperand::MOLoad | MachineMemOperand::MODereferenceable |

          MachineMemOperand::MOInvariant,

      MemSize, MemAlign);

  MI.addMemOperand(MF, MMO);

  if (Dst != OrigDst) {

    MI.getOperand(0).setReg(Dst);

    B.setInsertPt(B.getMBB(), ++B.getInsertPt());

    B.buildTrunc(OrigDst, Dst);

  }


  // If we don't have 96-bit result scalar loads, widening to 128-bit should

  // always be legal. We may need to restore this to a 96-bit result if it turns

  // out this needs to be converted to a vector load during RegBankSelect.

  if (!isPowerOf2_32(Size) && (Size != 96 || !ST.hasScalarDwordx3Loads())) {

    if (Ty.isVector())

      Helper.moreElementsVectorDst(MI, getPow2VectorType(Ty), 0);

    else

      Helper.widenScalarDst(MI, getPow2ScalarType(Ty), 0);

  }


  Observer.changedInstr(MI);

  return true;

}


bool AMDGPULegalizerInfo::legalizeSBufferPrefetch(LegalizerHelper &Helper,

                                                  MachineInstr &MI) const {

  MachineIRBuilder &B = Helper.MIRBuilder;

  GISelChangeObserver &Observer = Helper.Observer;

  Observer.changingInstr(MI);

  MI.setDesc(B.getTII().get(AMDGPU::G_AMDGPU_S_BUFFER_PREFETCH));

  MI.removeOperand(0); // Remove intrinsic ID

  castBufferRsrcArgToV4I32(MI, B, 0);

  Observer.changedInstr(MI);

  return true;

}


// TODO: Move to selection


bool AMDGPULegalizerInfo::legalizeTrap(MachineInstr &MI,

                                       MachineRegisterInfo &MRI,

                                       MachineIRBuilder &B) const {

  if (!ST.isTrapHandlerEnabled() ||

      ST.getTrapHandlerAbi() != GCNSubtarget::TrapHandlerAbi::AMDHSA)

    return legalizeTrapEndpgm(MI, MRI, B);


  return ST.supportsGetDoorbellID() ?

         legalizeTrapHsa(MI, MRI, B) : legalizeTrapHsaQueuePtr(MI, MRI, B);

}


bool AMDGPULegalizerInfo::legalizeTrapEndpgm(

    MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {

  const DebugLoc &DL = MI.getDebugLoc();

  MachineBasicBlock &BB = B.getMBB();

  MachineFunction *MF = BB.getParent();


  if (BB.succ_empty() && std::next(MI.getIterator()) == BB.end()) {

    BuildMI(BB, BB.end(), DL, B.getTII().get(AMDGPU::S_ENDPGM))

      .addImm(0);

    MI.eraseFromParent();

    return true;

  }


  // We need a block split to make the real endpgm a terminator. We also don't

  // want to break phis in successor blocks, so we can't just delete to the

  // end of the block.

  BB.splitAt(MI, false /*UpdateLiveIns*/);

  MachineBasicBlock *TrapBB = MF->CreateMachineBasicBlock();

  MF->push_back(TrapBB);

  BuildMI(*TrapBB, TrapBB->end(), DL, B.getTII().get(AMDGPU::S_ENDPGM))

    .addImm(0);

  BuildMI(BB, &MI, DL, B.getTII().get(AMDGPU::S_CBRANCH_EXECNZ))

    .addMBB(TrapBB);


  BB.addSuccessor(TrapBB);

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeTrapHsaQueuePtr(

    MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {

  MachineFunction &MF = B.getMF();

  const LLT S64 = LLT::scalar(64);


  Register SGPR01(AMDGPU::SGPR0_SGPR1);

  // For code object version 5, queue_ptr is passed through implicit kernarg.

  if (AMDGPU::getAMDHSACodeObjectVersion(*MF.getFunction().getParent()) >=

      AMDGPU::AMDHSA_COV5) {

    AMDGPUTargetLowering::ImplicitParameter Param =

        AMDGPUTargetLowering::QUEUE_PTR;

    uint64_t Offset =

        ST.getTargetLowering()->getImplicitParameterOffset(B.getMF(), Param);


    Register KernargPtrReg = MRI.createGenericVirtualRegister(

        LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));


    if (!loadInputValue(KernargPtrReg, B,

                        AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR))

      return false;


    // TODO: can we be smarter about machine pointer info?

    MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);

    MachineMemOperand *MMO = MF.getMachineMemOperand(

        PtrInfo,

        MachineMemOperand::MOLoad | MachineMemOperand::MODereferenceable |

            MachineMemOperand::MOInvariant,

        LLT::scalar(64), commonAlignment(Align(64), Offset));


    // Pointer address

    Register LoadAddr = MRI.createGenericVirtualRegister(

        LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));

    B.buildObjectPtrOffset(LoadAddr, KernargPtrReg,

                           B.buildConstant(LLT::scalar(64), Offset).getReg(0));

    // Load address

    Register Temp = B.buildLoad(S64, LoadAddr, *MMO).getReg(0);

    B.buildCopy(SGPR01, Temp);

    B.buildInstr(AMDGPU::S_TRAP)

        .addImm(static_cast<unsigned>(GCNSubtarget::TrapID::LLVMAMDHSATrap))

        .addReg(SGPR01, RegState::Implicit);

    MI.eraseFromParent();

    return true;

  }


  // Pass queue pointer to trap handler as input, and insert trap instruction

  // Reference: https://llvm.org/docs/AMDGPUUsage.html#trap-handler-abi

  Register LiveIn =

    MRI.createGenericVirtualRegister(LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));

  if (!loadInputValue(LiveIn, B, AMDGPUFunctionArgInfo::QUEUE_PTR))

    return false;


  B.buildCopy(SGPR01, LiveIn);

  B.buildInstr(AMDGPU::S_TRAP)

      .addImm(static_cast<unsigned>(GCNSubtarget::TrapID::LLVMAMDHSATrap))

      .addReg(SGPR01, RegState::Implicit);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeTrapHsa(MachineInstr &MI,

                                          MachineRegisterInfo &MRI,

                                          MachineIRBuilder &B) const {

  // We need to simulate the 's_trap 2' instruction on targets that run in

  // PRIV=1 (where it is treated as a nop).

  if (ST.hasPrivEnabledTrap2NopBug()) {

    ST.getInstrInfo()->insertSimulatedTrap(MRI, B.getMBB(), MI,

                                           MI.getDebugLoc());

    MI.eraseFromParent();

    return true;

  }


  B.buildInstr(AMDGPU::S_TRAP)

      .addImm(static_cast<unsigned>(GCNSubtarget::TrapID::LLVMAMDHSATrap));

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeDebugTrap(MachineInstr &MI,

                                            MachineRegisterInfo &MRI,

                                            MachineIRBuilder &B) const {

  // Is non-HSA path or trap-handler disabled? Then, report a warning

  // accordingly

  if (!ST.isTrapHandlerEnabled() ||

      ST.getTrapHandlerAbi() != GCNSubtarget::TrapHandlerAbi::AMDHSA) {

    Function &Fn = B.getMF().getFunction();

    Fn.getContext().diagnose(DiagnosticInfoUnsupported(

        Fn, "debugtrap handler not supported", MI.getDebugLoc(), DS_Warning));

  } else {

    // Insert debug-trap instruction

    B.buildInstr(AMDGPU::S_TRAP)

        .addImm(static_cast<unsigned>(GCNSubtarget::TrapID::LLVMAMDHSADebugTrap));

  }


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeBVHIntersectRayIntrinsic(

    MachineInstr &MI, MachineIRBuilder &B) const {

  MachineRegisterInfo &MRI = *B.getMRI();

  const LLT S16 = LLT::scalar(16);

  const LLT S32 = LLT::scalar(32);

  const LLT V2S16 = LLT::fixed_vector(2, 16);

  const LLT V3S32 = LLT::fixed_vector(3, 32);


  Register DstReg = MI.getOperand(0).getReg();

  Register NodePtr = MI.getOperand(2).getReg();

  Register RayExtent = MI.getOperand(3).getReg();

  Register RayOrigin = MI.getOperand(4).getReg();

  Register RayDir = MI.getOperand(5).getReg();

  Register RayInvDir = MI.getOperand(6).getReg();

  Register TDescr = MI.getOperand(7).getReg();


  if (!ST.hasGFX10_AEncoding()) {

    Function &Fn = B.getMF().getFunction();

    Fn.getContext().diagnose(DiagnosticInfoUnsupported(

        Fn, "intrinsic not supported on subtarget", MI.getDebugLoc()));

    return false;

  }


  const bool IsGFX11 = AMDGPU::isGFX11(ST);

  const bool IsGFX11Plus = AMDGPU::isGFX11Plus(ST);

  const bool IsGFX12Plus = AMDGPU::isGFX12Plus(ST);

  const bool IsA16 = MRI.getType(RayDir).getElementType().getSizeInBits() == 16;

  const bool Is64 = MRI.getType(NodePtr).getSizeInBits() == 64;

  const unsigned NumVDataDwords = 4;

  const unsigned NumVAddrDwords = IsA16 ? (Is64 ? 9 : 8) : (Is64 ? 12 : 11);

  const unsigned NumVAddrs = IsGFX11Plus ? (IsA16 ? 4 : 5) : NumVAddrDwords;

  const bool UseNSA =

      IsGFX12Plus || (ST.hasNSAEncoding() && NumVAddrs <= ST.getNSAMaxSize());


  const unsigned BaseOpcodes[2][2] = {

      {AMDGPU::IMAGE_BVH_INTERSECT_RAY, AMDGPU::IMAGE_BVH_INTERSECT_RAY_a16},

      {AMDGPU::IMAGE_BVH64_INTERSECT_RAY,

       AMDGPU::IMAGE_BVH64_INTERSECT_RAY_a16}};

  int Opcode;

  if (UseNSA) {

    Opcode = AMDGPU::getMIMGOpcode(BaseOpcodes[Is64][IsA16],

                                   IsGFX12Plus ? AMDGPU::MIMGEncGfx12

                                   : IsGFX11   ? AMDGPU::MIMGEncGfx11NSA

                                               : AMDGPU::MIMGEncGfx10NSA,

                                   NumVDataDwords, NumVAddrDwords);

  } else {

    assert(!IsGFX12Plus);

    Opcode = AMDGPU::getMIMGOpcode(BaseOpcodes[Is64][IsA16],

                                   IsGFX11 ? AMDGPU::MIMGEncGfx11Default

                                           : AMDGPU::MIMGEncGfx10Default,

                                   NumVDataDwords, NumVAddrDwords);

  }

  assert(Opcode != -1);


  SmallVector<Register, 12> Ops;

  if (UseNSA && IsGFX11Plus) {

    auto packLanes = [&Ops, &S32, &V3S32, &B](Register Src) {

      auto Unmerge = B.buildUnmerge({S32, S32, S32}, Src);

      auto Merged = B.buildMergeLikeInstr(

          V3S32, {Unmerge.getReg(0), Unmerge.getReg(1), Unmerge.getReg(2)});

      Ops.push_back(Merged.getReg(0));

    };


    Ops.push_back(NodePtr);

    Ops.push_back(RayExtent);

    packLanes(RayOrigin);


    if (IsA16) {

      auto UnmergeRayDir = B.buildUnmerge({S16, S16, S16}, RayDir);

      auto UnmergeRayInvDir = B.buildUnmerge({S16, S16, S16}, RayInvDir);

      auto MergedDir = B.buildMergeLikeInstr(

          V3S32,

          {B.buildBitcast(

                S32, B.buildMergeLikeInstr(V2S16, {UnmergeRayInvDir.getReg(0),

                                                   UnmergeRayDir.getReg(0)}))

               .getReg(0),

           B.buildBitcast(

                S32, B.buildMergeLikeInstr(V2S16, {UnmergeRayInvDir.getReg(1),

                                                   UnmergeRayDir.getReg(1)}))

               .getReg(0),

           B.buildBitcast(

                S32, B.buildMergeLikeInstr(V2S16, {UnmergeRayInvDir.getReg(2),

                                                   UnmergeRayDir.getReg(2)}))

               .getReg(0)});

      Ops.push_back(MergedDir.getReg(0));

    } else {

      packLanes(RayDir);

      packLanes(RayInvDir);

    }

  } else {

    if (Is64) {

      auto Unmerge = B.buildUnmerge({S32, S32}, NodePtr);

      Ops.push_back(Unmerge.getReg(0));

      Ops.push_back(Unmerge.getReg(1));

    } else {

      Ops.push_back(NodePtr);

    }

    Ops.push_back(RayExtent);


    auto packLanes = [&Ops, &S32, &B](Register Src) {

      auto Unmerge = B.buildUnmerge({S32, S32, S32}, Src);

      Ops.push_back(Unmerge.getReg(0));

      Ops.push_back(Unmerge.getReg(1));

      Ops.push_back(Unmerge.getReg(2));

    };


    packLanes(RayOrigin);

    if (IsA16) {

      auto UnmergeRayDir = B.buildUnmerge({S16, S16, S16}, RayDir);

      auto UnmergeRayInvDir = B.buildUnmerge({S16, S16, S16}, RayInvDir);

      Register R1 = MRI.createGenericVirtualRegister(S32);

      Register R2 = MRI.createGenericVirtualRegister(S32);

      Register R3 = MRI.createGenericVirtualRegister(S32);

      B.buildMergeLikeInstr(R1,

                            {UnmergeRayDir.getReg(0), UnmergeRayDir.getReg(1)});

      B.buildMergeLikeInstr(

          R2, {UnmergeRayDir.getReg(2), UnmergeRayInvDir.getReg(0)});

      B.buildMergeLikeInstr(

          R3, {UnmergeRayInvDir.getReg(1), UnmergeRayInvDir.getReg(2)});

      Ops.push_back(R1);

      Ops.push_back(R2);

      Ops.push_back(R3);

    } else {

      packLanes(RayDir);

      packLanes(RayInvDir);

    }

  }


  if (!UseNSA) {

    // Build a single vector containing all the operands so far prepared.

    LLT OpTy = LLT::fixed_vector(Ops.size(), 32);

    Register MergedOps = B.buildMergeLikeInstr(OpTy, Ops).getReg(0);

    Ops.clear();

    Ops.push_back(MergedOps);

  }


  auto MIB = B.buildInstr(AMDGPU::G_AMDGPU_BVH_INTERSECT_RAY)

                 .addDef(DstReg)

                 .addImm(Opcode);


  for (Register R : Ops) {

    MIB.addUse(R);

  }


  MIB.addUse(TDescr)

     .addImm(IsA16 ? 1 : 0)

     .cloneMemRefs(MI);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeBVHDualOrBVH8IntersectRayIntrinsic(

    MachineInstr &MI, MachineIRBuilder &B) const {

  const LLT S32 = LLT::scalar(32);

  const LLT V2S32 = LLT::fixed_vector(2, 32);


  Register DstReg = MI.getOperand(0).getReg();

  Register DstOrigin = MI.getOperand(1).getReg();

  Register DstDir = MI.getOperand(2).getReg();

  Register NodePtr = MI.getOperand(4).getReg();

  Register RayExtent = MI.getOperand(5).getReg();

  Register InstanceMask = MI.getOperand(6).getReg();

  Register RayOrigin = MI.getOperand(7).getReg();

  Register RayDir = MI.getOperand(8).getReg();

  Register Offsets = MI.getOperand(9).getReg();

  Register TDescr = MI.getOperand(10).getReg();


  if (!ST.hasBVHDualAndBVH8Insts()) {

    Function &Fn = B.getMF().getFunction();

    Fn.getContext().diagnose(DiagnosticInfoUnsupported(

        Fn, "intrinsic not supported on subtarget", MI.getDebugLoc()));

    return false;

  }


  bool IsBVH8 = cast<GIntrinsic>(MI).getIntrinsicID() ==

                Intrinsic::amdgcn_image_bvh8_intersect_ray;

  const unsigned NumVDataDwords = 10;

  const unsigned NumVAddrDwords = IsBVH8 ? 11 : 12;

  int Opcode = AMDGPU::getMIMGOpcode(

      IsBVH8 ? AMDGPU::IMAGE_BVH8_INTERSECT_RAY

             : AMDGPU::IMAGE_BVH_DUAL_INTERSECT_RAY,

      AMDGPU::MIMGEncGfx12, NumVDataDwords, NumVAddrDwords);

  assert(Opcode != -1);


  auto RayExtentInstanceMaskVec = B.buildMergeLikeInstr(

      V2S32, {RayExtent, B.buildAnyExt(S32, InstanceMask)});


  B.buildInstr(IsBVH8 ? AMDGPU::G_AMDGPU_BVH8_INTERSECT_RAY

                      : AMDGPU::G_AMDGPU_BVH_DUAL_INTERSECT_RAY)

      .addDef(DstReg)

      .addDef(DstOrigin)

      .addDef(DstDir)

      .addImm(Opcode)

      .addUse(NodePtr)

      .addUse(RayExtentInstanceMaskVec.getReg(0))

      .addUse(RayOrigin)

      .addUse(RayDir)

      .addUse(Offsets)

      .addUse(TDescr)

      .cloneMemRefs(MI);


  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeStackSave(MachineInstr &MI,

                                            MachineIRBuilder &B) const {

  const SITargetLowering *TLI = ST.getTargetLowering();

  Register StackPtr = TLI->getStackPointerRegisterToSaveRestore();

  Register DstReg = MI.getOperand(0).getReg();

  B.buildInstr(AMDGPU::G_AMDGPU_WAVE_ADDRESS, {DstReg}, {StackPtr});

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeWaveID(MachineInstr &MI,

                                         MachineIRBuilder &B) const {

  // With architected SGPRs, waveIDinGroup is in TTMP8[29:25].

  if (!ST.hasArchitectedSGPRs())

    return false;

  LLT S32 = LLT::scalar(32);

  Register DstReg = MI.getOperand(0).getReg();

  auto TTMP8 = B.buildCopy(S32, Register(AMDGPU::TTMP8));

  auto LSB = B.buildConstant(S32, 25);

  auto Width = B.buildConstant(S32, 5);

  B.buildUbfx(DstReg, TTMP8, LSB, Width);

  MI.eraseFromParent();

  return true;

}


static constexpr unsigned FPEnvModeBitField =

    AMDGPU::Hwreg::HwregEncoding::encode(AMDGPU::Hwreg::ID_MODE, 0, 23);


static constexpr unsigned FPEnvTrapBitField =

    AMDGPU::Hwreg::HwregEncoding::encode(AMDGPU::Hwreg::ID_TRAPSTS, 0, 5);


bool AMDGPULegalizerInfo::legalizeGetFPEnv(MachineInstr &MI,

                                           MachineRegisterInfo &MRI,

                                           MachineIRBuilder &B) const {

  Register Src = MI.getOperand(0).getReg();

  if (MRI.getType(Src) != S64)

    return false;


  auto ModeReg =

      B.buildIntrinsic(Intrinsic::amdgcn_s_getreg, {S32},

                       /*HasSideEffects=*/true, /*isConvergent=*/false)

          .addImm(FPEnvModeBitField);

  auto TrapReg =

      B.buildIntrinsic(Intrinsic::amdgcn_s_getreg, {S32},

                       /*HasSideEffects=*/true, /*isConvergent=*/false)

          .addImm(FPEnvTrapBitField);

  B.buildMergeLikeInstr(Src, {ModeReg, TrapReg});

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeSetFPEnv(MachineInstr &MI,

                                           MachineRegisterInfo &MRI,

                                           MachineIRBuilder &B) const {

  Register Src = MI.getOperand(0).getReg();

  if (MRI.getType(Src) != S64)

    return false;


  auto Unmerge = B.buildUnmerge({S32, S32}, MI.getOperand(0));

  B.buildIntrinsic(Intrinsic::amdgcn_s_setreg, ArrayRef<DstOp>(),

                   /*HasSideEffects=*/true, /*isConvergent=*/false)

      .addImm(static_cast<int16_t>(FPEnvModeBitField))

      .addReg(Unmerge.getReg(0));

  B.buildIntrinsic(Intrinsic::amdgcn_s_setreg, ArrayRef<DstOp>(),

                   /*HasSideEffects=*/true, /*isConvergent=*/false)

      .addImm(static_cast<int16_t>(FPEnvTrapBitField))

      .addReg(Unmerge.getReg(1));

  MI.eraseFromParent();

  return true;

}


bool AMDGPULegalizerInfo::legalizeIntrinsic(LegalizerHelper &Helper,

                                            MachineInstr &MI) const {

  MachineIRBuilder &B = Helper.MIRBuilder;

  MachineRegisterInfo &MRI = *B.getMRI();


  // Replace the use G_BRCOND with the exec manipulate and branch pseudos.

  auto IntrID = cast<GIntrinsic>(MI).getIntrinsicID();

  switch (IntrID) {

  case Intrinsic::amdgcn_if:

  case Intrinsic::amdgcn_else: {

    MachineInstr *Br = nullptr;

    MachineBasicBlock *UncondBrTarget = nullptr;

    bool Negated = false;

    if (MachineInstr *BrCond =

            verifyCFIntrinsic(MI, MRI, Br, UncondBrTarget, Negated)) {

      const SIRegisterInfo *TRI

        = static_cast<const SIRegisterInfo *>(MRI.getTargetRegisterInfo());


      Register Def = MI.getOperand(1).getReg();

      Register Use = MI.getOperand(3).getReg();


      MachineBasicBlock *CondBrTarget = BrCond->getOperand(1).getMBB();


      if (Negated)

        std::swap(CondBrTarget, UncondBrTarget);


      B.setInsertPt(B.getMBB(), BrCond->getIterator());

      if (IntrID == Intrinsic::amdgcn_if) {

        B.buildInstr(AMDGPU::SI_IF)

          .addDef(Def)

          .addUse(Use)

          .addMBB(UncondBrTarget);

      } else {

        B.buildInstr(AMDGPU::SI_ELSE)

            .addDef(Def)

            .addUse(Use)

            .addMBB(UncondBrTarget);

      }


      if (Br) {

        Br->getOperand(0).setMBB(CondBrTarget);

      } else {

        // The IRTranslator skips inserting the G_BR for fallthrough cases, but

        // since we're swapping branch targets it needs to be reinserted.

        // FIXME: IRTranslator should probably not do this

        B.buildBr(*CondBrTarget);

      }


      MRI.setRegClass(Def, TRI->getWaveMaskRegClass());

      MRI.setRegClass(Use, TRI->getWaveMaskRegClass());

      MI.eraseFromParent();

      BrCond->eraseFromParent();

      return true;

    }


    return false;

  }

  case Intrinsic::amdgcn_loop: {

    MachineInstr *Br = nullptr;

    MachineBasicBlock *UncondBrTarget = nullptr;

    bool Negated = false;

    if (MachineInstr *BrCond =

            verifyCFIntrinsic(MI, MRI, Br, UncondBrTarget, Negated)) {

      const SIRegisterInfo *TRI

        = static_cast<const SIRegisterInfo *>(MRI.getTargetRegisterInfo());


      MachineBasicBlock *CondBrTarget = BrCond->getOperand(1).getMBB();

      Register Reg = MI.getOperand(2).getReg();


      if (Negated)

        std::swap(CondBrTarget, UncondBrTarget);


      B.setInsertPt(B.getMBB(), BrCond->getIterator());

      B.buildInstr(AMDGPU::SI_LOOP)

        .addUse(Reg)

        .addMBB(UncondBrTarget);


      if (Br)

        Br->getOperand(0).setMBB(CondBrTarget);

      else

        B.buildBr(*CondBrTarget);


      MI.eraseFromParent();

      BrCond->eraseFromParent();

      MRI.setRegClass(Reg, TRI->getWaveMaskRegClass());

      return true;

    }


    return false;

  }

  case Intrinsic::amdgcn_addrspacecast_nonnull:

    return legalizeAddrSpaceCast(MI, MRI, B);

  case Intrinsic::amdgcn_make_buffer_rsrc:

    return legalizePointerAsRsrcIntrin(MI, MRI, B);

  case Intrinsic::amdgcn_kernarg_segment_ptr:

    if (!AMDGPU::isKernel(B.getMF().getFunction().getCallingConv())) {

      // This only makes sense to call in a kernel, so just lower to null.

      B.buildConstant(MI.getOperand(0).getReg(), 0);

      MI.eraseFromParent();

      return true;

    }


    return legalizePreloadedArgIntrin(

      MI, MRI, B, AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR);

  case Intrinsic::amdgcn_implicitarg_ptr:

    return legalizeImplicitArgPtr(MI, MRI, B);

  case Intrinsic::amdgcn_workitem_id_x:

    return legalizeWorkitemIDIntrinsic(MI, MRI, B, 0,

                                       AMDGPUFunctionArgInfo::WORKITEM_ID_X);

  case Intrinsic::amdgcn_workitem_id_y:

    return legalizeWorkitemIDIntrinsic(MI, MRI, B, 1,

                                       AMDGPUFunctionArgInfo::WORKITEM_ID_Y);

  case Intrinsic::amdgcn_workitem_id_z:

    return legalizeWorkitemIDIntrinsic(MI, MRI, B, 2,

                                       AMDGPUFunctionArgInfo::WORKITEM_ID_Z);

  case Intrinsic::amdgcn_workgroup_id_x:

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::WORKGROUP_ID_X);

  case Intrinsic::amdgcn_workgroup_id_y:

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::WORKGROUP_ID_Y);

  case Intrinsic::amdgcn_workgroup_id_z:

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::WORKGROUP_ID_Z);

  case Intrinsic::amdgcn_wave_id:

    return legalizeWaveID(MI, B);

  case Intrinsic::amdgcn_lds_kernel_id:

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::LDS_KERNEL_ID);

  case Intrinsic::amdgcn_dispatch_ptr:

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::DISPATCH_PTR);

  case Intrinsic::amdgcn_queue_ptr:

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::QUEUE_PTR);

  case Intrinsic::amdgcn_implicit_buffer_ptr:

    return legalizePreloadedArgIntrin(

      MI, MRI, B, AMDGPUFunctionArgInfo::IMPLICIT_BUFFER_PTR);

  case Intrinsic::amdgcn_dispatch_id:

    return legalizePreloadedArgIntrin(MI, MRI, B,

                                      AMDGPUFunctionArgInfo::DISPATCH_ID);

  case Intrinsic::r600_read_ngroups_x:

    // TODO: Emit error for hsa

    return legalizeKernargMemParameter(MI, B,

                                       SI::KernelInputOffsets::NGROUPS_X);

  case Intrinsic::r600_read_ngroups_y:

    return legalizeKernargMemParameter(MI, B,

                                       SI::KernelInputOffsets::NGROUPS_Y);

  case Intrinsic::r600_read_ngroups_z:

    return legalizeKernargMemParameter(MI, B,

                                       SI::KernelInputOffsets::NGROUPS_Z);

  case Intrinsic::r600_read_local_size_x:

    // TODO: Could insert G_ASSERT_ZEXT from s16

    return legalizeKernargMemParameter(MI, B, SI::KernelInputOffsets::LOCAL_SIZE_X);

  case Intrinsic::r600_read_local_size_y:

    // TODO: Could insert G_ASSERT_ZEXT from s16

    return legalizeKernargMemParameter(MI, B,  SI::KernelInputOffsets::LOCAL_SIZE_Y);

    // TODO: Could insert G_ASSERT_ZEXT from s16

  case Intrinsic::r600_read_local_size_z:

    return legalizeKernargMemParameter(MI, B,

                                       SI::KernelInputOffsets::LOCAL_SIZE_Z);

  case Intrinsic::amdgcn_fdiv_fast:

    return legalizeFDIVFastIntrin(MI, MRI, B);

  case Intrinsic::amdgcn_is_shared:

    return legalizeIsAddrSpace(MI, MRI, B, AMDGPUAS::LOCAL_ADDRESS);

  case Intrinsic::amdgcn_is_private:

    return legalizeIsAddrSpace(MI, MRI, B, AMDGPUAS::PRIVATE_ADDRESS);

  case Intrinsic::amdgcn_wavefrontsize: {

    B.buildConstant(MI.getOperand(0), ST.getWavefrontSize());

    MI.eraseFromParent();

    return true;

  }

  case Intrinsic::amdgcn_s_buffer_load:

    return legalizeSBufferLoad(Helper, MI);

  case Intrinsic::amdgcn_raw_buffer_store:

  case Intrinsic::amdgcn_raw_ptr_buffer_store:

  case Intrinsic::amdgcn_struct_buffer_store:

  case Intrinsic::amdgcn_struct_ptr_buffer_store:

    return legalizeBufferStore(MI, Helper, false, false);

  case Intrinsic::amdgcn_raw_buffer_store_format:

  case Intrinsic::amdgcn_raw_ptr_buffer_store_format:

  case Intrinsic::amdgcn_struct_buffer_store_format:

  case Intrinsic::amdgcn_struct_ptr_buffer_store_format:

    return legalizeBufferStore(MI, Helper, false, true);

  case Intrinsic::amdgcn_raw_tbuffer_store:

  case Intrinsic::amdgcn_raw_ptr_tbuffer_store:

  case Intrinsic::amdgcn_struct_tbuffer_store:

  case Intrinsic::amdgcn_struct_ptr_tbuffer_store:

    return legalizeBufferStore(MI, Helper, true, true);

  case Intrinsic::amdgcn_raw_buffer_load:

  case Intrinsic::amdgcn_raw_ptr_buffer_load:

  case Intrinsic::amdgcn_raw_atomic_buffer_load:

  case Intrinsic::amdgcn_raw_ptr_atomic_buffer_load:

  case Intrinsic::amdgcn_struct_buffer_load:

  case Intrinsic::amdgcn_struct_ptr_buffer_load:

  case Intrinsic::amdgcn_struct_atomic_buffer_load:

  case Intrinsic::amdgcn_struct_ptr_atomic_buffer_load:

    return legalizeBufferLoad(MI, Helper, false, false);

  case Intrinsic::amdgcn_raw_buffer_load_format:

  case Intrinsic::amdgcn_raw_ptr_buffer_load_format:

  case Intrinsic::amdgcn_struct_buffer_load_format:

  case Intrinsic::amdgcn_struct_ptr_buffer_load_format:

    return legalizeBufferLoad(MI, Helper, true, false);

  case Intrinsic::amdgcn_raw_tbuffer_load:

  case Intrinsic::amdgcn_raw_ptr_tbuffer_load:

  case Intrinsic::amdgcn_struct_tbuffer_load:

  case Intrinsic::amdgcn_struct_ptr_tbuffer_load:

    return legalizeBufferLoad(MI, Helper, true, true);

  case Intrinsic::amdgcn_raw_buffer_atomic_swap:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_swap:

  case Intrinsic::amdgcn_struct_buffer_atomic_swap:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_swap:

  case Intrinsic::amdgcn_raw_buffer_atomic_add:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_add:

  case Intrinsic::amdgcn_struct_buffer_atomic_add:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_add:

  case Intrinsic::amdgcn_raw_buffer_atomic_sub:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_sub:

  case Intrinsic::amdgcn_struct_buffer_atomic_sub:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_sub:

  case Intrinsic::amdgcn_raw_buffer_atomic_smin:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_smin:

  case Intrinsic::amdgcn_struct_buffer_atomic_smin:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_smin:

  case Intrinsic::amdgcn_raw_buffer_atomic_umin:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_umin:

  case Intrinsic::amdgcn_struct_buffer_atomic_umin:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_umin:

  case Intrinsic::amdgcn_raw_buffer_atomic_smax:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_smax:

  case Intrinsic::amdgcn_struct_buffer_atomic_smax:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_smax:

  case Intrinsic::amdgcn_raw_buffer_atomic_umax:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_umax:

  case Intrinsic::amdgcn_struct_buffer_atomic_umax:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_umax:

  case Intrinsic::amdgcn_raw_buffer_atomic_and:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_and:

  case Intrinsic::amdgcn_struct_buffer_atomic_and:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_and:

  case Intrinsic::amdgcn_raw_buffer_atomic_or:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_or:

  case Intrinsic::amdgcn_struct_buffer_atomic_or:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_or:

  case Intrinsic::amdgcn_raw_buffer_atomic_xor:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_xor:

  case Intrinsic::amdgcn_struct_buffer_atomic_xor:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_xor:

  case Intrinsic::amdgcn_raw_buffer_atomic_inc:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_inc:

  case Intrinsic::amdgcn_struct_buffer_atomic_inc:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_inc:

  case Intrinsic::amdgcn_raw_buffer_atomic_dec:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_dec:

  case Intrinsic::amdgcn_struct_buffer_atomic_dec:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_dec:

  case Intrinsic::amdgcn_raw_buffer_atomic_cmpswap:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_cmpswap:

  case Intrinsic::amdgcn_struct_buffer_atomic_cmpswap:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_cmpswap:

  case Intrinsic::amdgcn_raw_buffer_atomic_fmin:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_fmin:

  case Intrinsic::amdgcn_struct_buffer_atomic_fmin:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_fmin:

  case Intrinsic::amdgcn_raw_buffer_atomic_fmax:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_fmax:

  case Intrinsic::amdgcn_struct_buffer_atomic_fmax:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_fmax:

  case Intrinsic::amdgcn_raw_buffer_atomic_fadd:

  case Intrinsic::amdgcn_raw_ptr_buffer_atomic_fadd:

  case Intrinsic::amdgcn_struct_buffer_atomic_fadd:

  case Intrinsic::amdgcn_struct_ptr_buffer_atomic_fadd:

    return legalizeBufferAtomic(MI, B, IntrID);

  case Intrinsic::amdgcn_rsq_clamp:

    return legalizeRsqClampIntrinsic(MI, MRI, B);

  case Intrinsic::amdgcn_image_bvh_intersect_ray:

    return legalizeBVHIntersectRayIntrinsic(MI, B);

  case Intrinsic::amdgcn_image_bvh_dual_intersect_ray:

  case Intrinsic::amdgcn_image_bvh8_intersect_ray:

    return legalizeBVHDualOrBVH8IntersectRayIntrinsic(MI, B);

  case Intrinsic::amdgcn_swmmac_f32_16x16x128_fp8_fp8:

  case Intrinsic::amdgcn_swmmac_f32_16x16x128_fp8_bf8:

  case Intrinsic::amdgcn_swmmac_f32_16x16x128_bf8_fp8:

  case Intrinsic::amdgcn_swmmac_f32_16x16x128_bf8_bf8:

  case Intrinsic::amdgcn_swmmac_f16_16x16x128_fp8_fp8:

  case Intrinsic::amdgcn_swmmac_f16_16x16x128_fp8_bf8:

  case Intrinsic::amdgcn_swmmac_f16_16x16x128_bf8_fp8:

  case Intrinsic::amdgcn_swmmac_f16_16x16x128_bf8_bf8: {

    Register Index = MI.getOperand(5).getReg();

    LLT S64 = LLT::scalar(64);

    if (MRI.getType(Index) != S64)

      MI.getOperand(5).setReg(B.buildAnyExt(S64, Index).getReg(0));

    return true;

  }

  case Intrinsic::amdgcn_swmmac_f16_16x16x32_f16:

  case Intrinsic::amdgcn_swmmac_bf16_16x16x32_bf16:

  case Intrinsic::amdgcn_swmmac_f32_16x16x32_bf16:

  case Intrinsic::amdgcn_swmmac_f32_16x16x32_f16:

  case Intrinsic::amdgcn_swmmac_f32_16x16x32_fp8_fp8:

  case Intrinsic::amdgcn_swmmac_f32_16x16x32_fp8_bf8:

  case Intrinsic::amdgcn_swmmac_f32_16x16x32_bf8_fp8:

  case Intrinsic::amdgcn_swmmac_f32_16x16x32_bf8_bf8: {

    Register Index = MI.getOperand(5).getReg();

    LLT S32 = LLT::scalar(32);

    if (MRI.getType(Index) != S32)

      MI.getOperand(5).setReg(B.buildAnyExt(S32, Index).getReg(0));

    return true;

  }

  case Intrinsic::amdgcn_swmmac_f16_16x16x64_f16:

  case Intrinsic::amdgcn_swmmac_bf16_16x16x64_bf16:

  case Intrinsic::amdgcn_swmmac_f32_16x16x64_bf16:

  case Intrinsic::amdgcn_swmmac_bf16f32_16x16x64_bf16:

  case Intrinsic::amdgcn_swmmac_f32_16x16x64_f16:

  case Intrinsic::amdgcn_swmmac_i32_16x16x128_iu8:

  case Intrinsic::amdgcn_swmmac_i32_16x16x32_iu4:

  case Intrinsic::amdgcn_swmmac_i32_16x16x32_iu8:

  case Intrinsic::amdgcn_swmmac_i32_16x16x64_iu4: {

    Register Index = MI.getOperand(7).getReg();

    LLT IdxTy = IntrID == Intrinsic::amdgcn_swmmac_i32_16x16x128_iu8

                    ? LLT::scalar(64)

                    : LLT::scalar(32);

    if (MRI.getType(Index) != IdxTy)

      MI.getOperand(7).setReg(B.buildAnyExt(IdxTy, Index).getReg(0));

    return true;

  }


  case Intrinsic::amdgcn_fmed3: {

    GISelChangeObserver &Observer = Helper.Observer;


    // FIXME: This is to workaround the inability of tablegen match combiners to

    // match intrinsics in patterns.

    Observer.changingInstr(MI);

    MI.setDesc(B.getTII().get(AMDGPU::G_AMDGPU_FMED3));

    MI.removeOperand(1);

    Observer.changedInstr(MI);

    return true;

  }

  case Intrinsic::amdgcn_readlane:

  case Intrinsic::amdgcn_writelane:

  case Intrinsic::amdgcn_readfirstlane:

  case Intrinsic::amdgcn_permlane16:

  case Intrinsic::amdgcn_permlanex16:

  case Intrinsic::amdgcn_permlane64:

  case Intrinsic::amdgcn_set_inactive:

  case Intrinsic::amdgcn_set_inactive_chain_arg:

  case Intrinsic::amdgcn_mov_dpp8:

  case Intrinsic::amdgcn_update_dpp:

    return legalizeLaneOp(Helper, MI, IntrID);

  case Intrinsic::amdgcn_s_buffer_prefetch_data:

    return legalizeSBufferPrefetch(Helper, MI);

  case Intrinsic::amdgcn_dead: {

    // TODO: Use poison instead of undef

    for (const MachineOperand &Def : MI.defs())

      B.buildUndef(Def);

    MI.eraseFromParent();

    return true;

  }

  case Intrinsic::amdgcn_cooperative_atomic_load_32x4B:

  case Intrinsic::amdgcn_cooperative_atomic_load_16x8B:

  case Intrinsic::amdgcn_cooperative_atomic_load_8x16B:

    assert(MI.hasOneMemOperand() && "Expected IRTranslator to set MemOp!");

    B.buildLoad(MI.getOperand(0), MI.getOperand(2), **MI.memoperands_begin());

    MI.eraseFromParent();

    return true;

  case Intrinsic::amdgcn_cooperative_atomic_store_32x4B:

  case Intrinsic::amdgcn_cooperative_atomic_store_16x8B:

  case Intrinsic::amdgcn_cooperative_atomic_store_8x16B:

    assert(MI.hasOneMemOperand() && "Expected IRTranslator to set MemOp!");

    B.buildStore(MI.getOperand(2), MI.getOperand(1), **MI.memoperands_begin());

    MI.eraseFromParent();

    return true;

  default: {

    if (const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr =

            AMDGPU::getImageDimIntrinsicInfo(IntrID))

      return legalizeImageIntrinsic(MI, B, Helper.Observer, ImageDimIntr);

    return true;

  }

  }


  return true;

}


MRI
unsigned const MachineRegisterInfo * MRI
Definition AArch64AdvSIMDScalarPass.cpp:103

UseMI
MachineInstrBuilder & UseMI
Definition AArch64ExpandPseudoInsts.cpp:111

DefMI
MachineInstrBuilder MachineInstrBuilder & DefMI
Definition AArch64ExpandPseudoInsts.cpp:112

getIntrinsicID
static unsigned getIntrinsicID(const SDNode *N)
Definition AArch64ISelLowering.cpp:7928

RegSize
unsigned RegSize
Definition AArch64MIPeepholeOpt.cpp:165

assert
assert(UImm &&(UImm !=~static_cast< T >(0)) &&"Invalid immediate!")

AMDGPUBaseInfo.h

AMDGPUGlobalISelUtils.h

extractF64Exponent
static SDValue extractF64Exponent(SDValue Hi, const SDLoc &SL, SelectionDAG &DAG)
Definition AMDGPUISelLowering.cpp:2463

getMad
static SDValue getMad(SelectionDAG &DAG, const SDLoc &SL, EVT VT, SDValue X, SDValue Y, SDValue C, SDNodeFlags Flags=SDNodeFlags())
Definition AMDGPUISelLowering.cpp:2755

valueIsKnownNeverF32Denorm
static bool valueIsKnownNeverF32Denorm(SDValue Src)
Return true if it's known that Src can never be an f32 denormal value.
Definition AMDGPUISelLowering.cpp:2625

AMDGPUInstrInfo.h
Contains the definition of a TargetInstrInfo class that is common to all AMD GPUs.

packImage16bitOpsToDwords
static void packImage16bitOpsToDwords(MachineIRBuilder &B, MachineInstr &MI, SmallVectorImpl< Register > &PackedAddrs, unsigned ArgOffset, const AMDGPU::ImageDimIntrinsicInfo *Intr, bool IsA16, bool IsG16)
Turn a set of s16 typed registers in AddrRegs into a dword sized vector with s16 typed elements.
Definition AMDGPULegalizerInfo.cpp:6464

getBufferAtomicPseudo
static unsigned getBufferAtomicPseudo(Intrinsic::ID IntrID)
Definition AMDGPULegalizerInfo.cpp:6307

getBufferRsrcScalarType
static LLT getBufferRsrcScalarType(const LLT Ty)
Definition AMDGPULegalizerInfo.cpp:171

isIllegalRegisterType
static LegalityPredicate isIllegalRegisterType(const GCNSubtarget &ST, unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:275

EnableNewLegality
static cl::opt< bool > EnableNewLegality("amdgpu-global-isel-new-legality", cl::desc("Use GlobalISel desired legality, rather than try to use" "rules compatible with selection patterns"), cl::init(false), cl::ReallyHidden)

needsDenormHandlingF32
static bool needsDenormHandlingF32(const MachineFunction &MF, Register Src, unsigned Flags)
Definition AMDGPULegalizerInfo.cpp:3419

AllVectors
constexpr std::initializer_list< LLT > AllVectors
Definition AMDGPULegalizerInfo.cpp:362

bitcastToVectorElement32
static LegalizeMutation bitcastToVectorElement32(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:204

isSmallOddVector
static LegalityPredicate isSmallOddVector(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:73

oneMoreElement
static LegalizeMutation oneMoreElement(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:102

F64
constexpr LLT F64
Definition AMDGPULegalizerInfo.cpp:300

vectorSmallerThan
static LegalityPredicate vectorSmallerThan(unsigned TypeIdx, unsigned Size)
Definition AMDGPULegalizerInfo.cpp:214

V2S8
constexpr LLT V2S8
Definition AMDGPULegalizerInfo.cpp:311

allowApproxFunc
static bool allowApproxFunc(const MachineFunction &MF, unsigned Flags)
Definition AMDGPULegalizerInfo.cpp:3415

V4S128
constexpr LLT V4S128
Definition AMDGPULegalizerInfo.cpp:347

S16
constexpr LLT S16
Definition AMDGPULegalizerInfo.cpp:296

S1
constexpr LLT S1
Definition AMDGPULegalizerInfo.cpp:294

shouldBitcastLoadStoreType
static bool shouldBitcastLoadStoreType(const GCNSubtarget &ST, const LLT Ty, const LLT MemTy)
Return true if a load or store of the type should be lowered with a bitcast to a different type.
Definition AMDGPULegalizerInfo.cpp:550

S1024
constexpr LLT S1024
Definition AMDGPULegalizerInfo.cpp:308

FPEnvModeBitField
static constexpr unsigned FPEnvModeBitField
Definition AMDGPULegalizerInfo.cpp:7418

V7S64
constexpr LLT V7S64
Definition AMDGPULegalizerInfo.cpp:342

getScalarTypeFromMemDesc
static LegalizeMutation getScalarTypeFromMemDesc(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:142

vectorWiderThan
static LegalityPredicate vectorWiderThan(unsigned TypeIdx, unsigned Size)
Definition AMDGPULegalizerInfo.cpp:221

shouldWidenLoad
static bool shouldWidenLoad(const GCNSubtarget &ST, LLT MemoryTy, uint64_t AlignInBits, unsigned AddrSpace, unsigned Opcode)
Return true if we should legalize a load by widening an odd sized memory access up to the alignment.
Definition AMDGPULegalizerInfo.cpp:569

isRegisterVectorElementType
static bool isRegisterVectorElementType(LLT EltTy)
Definition AMDGPULegalizerInfo.cpp:240

fewerEltsToSize64Vector
static LegalizeMutation fewerEltsToSize64Vector(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:111

isWideVec16
static LegalityPredicate isWideVec16(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:94

AllScalarTypes
constexpr std::initializer_list< LLT > AllScalarTypes
Definition AMDGPULegalizerInfo.cpp:349

isTruncStoreToSizePowerOf2
static LegalityPredicate isTruncStoreToSizePowerOf2(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:398

V2S16
constexpr LLT V2S16
Definition AMDGPULegalizerInfo.cpp:312

V8S16
constexpr LLT V8S16
Definition AMDGPULegalizerInfo.cpp:315

V9S32
constexpr LLT V9S32
Definition AMDGPULegalizerInfo.cpp:330

AllS32Vectors
constexpr std::initializer_list< LLT > AllS32Vectors
Definition AMDGPULegalizerInfo.cpp:355

S224
constexpr LLT S224
Definition AMDGPULegalizerInfo.cpp:305

moreElementsToNextExistingRegClass
static LegalizeMutation moreElementsToNextExistingRegClass(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:150

S512
constexpr LLT S512
Definition AMDGPULegalizerInfo.cpp:307

MaxScalar
constexpr LLT MaxScalar
Definition AMDGPULegalizerInfo.cpp:309

castBufferRsrcToV4I32
static Register castBufferRsrcToV4I32(Register Pointer, MachineIRBuilder &B)
Cast a buffer resource (an address space 8 pointer) into a 4xi32, which is the form in which the valu...
Definition AMDGPULegalizerInfo.cpp:657

V11S32
constexpr LLT V11S32
Definition AMDGPULegalizerInfo.cpp:332

isRegisterClassType
static bool isRegisterClassType(const GCNSubtarget &ST, LLT Ty)
Definition AMDGPULegalizerInfo.cpp:369

V6S64
constexpr LLT V6S64
Definition AMDGPULegalizerInfo.cpp:341

V2S64
constexpr LLT V2S64
Definition AMDGPULegalizerInfo.cpp:337

emitReciprocalU64
static std::pair< Register, Register > emitReciprocalU64(MachineIRBuilder &B, Register Val)
Definition AMDGPULegalizerInfo.cpp:4687

getBitcastRegisterType
static LLT getBitcastRegisterType(const LLT Ty)
Definition AMDGPULegalizerInfo.cpp:185

getBufferRsrcRegisterType
static LLT getBufferRsrcRegisterType(const LLT Ty)
Definition AMDGPULegalizerInfo.cpp:178

S32
constexpr LLT S32
Definition AMDGPULegalizerInfo.cpp:297

V2F16
constexpr LLT V2F16
Definition AMDGPULegalizerInfo.cpp:320

bitcastToRegisterType
static LegalizeMutation bitcastToRegisterType(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:197

stripAnySourceMods
static Register stripAnySourceMods(Register OrigSrc, MachineRegisterInfo &MRI)
Definition AMDGPULegalizerInfo.cpp:3926

V8S32
constexpr LLT V8S32
Definition AMDGPULegalizerInfo.cpp:329

V2BF16
constexpr LLT V2BF16
Definition AMDGPULegalizerInfo.cpp:321

S192
constexpr LLT S192
Definition AMDGPULegalizerInfo.cpp:304

castBufferRsrcFromV4I32
static LLT castBufferRsrcFromV4I32(MachineInstr &MI, MachineIRBuilder &B, MachineRegisterInfo &MRI, unsigned Idx)
Mutates IR (typicaly a load instruction) to use a <4 x s32> as the initial type of the operand idx an...
Definition AMDGPULegalizerInfo.cpp:616

replaceWithConstant
static bool replaceWithConstant(MachineIRBuilder &B, MachineInstr &MI, int64_t C)
Definition AMDGPULegalizerInfo.cpp:4530

SPDenormModeBitField
static constexpr unsigned SPDenormModeBitField
Definition AMDGPULegalizerInfo.cpp:5093

F32
constexpr LLT F32
Definition AMDGPULegalizerInfo.cpp:298

maxSizeForAddrSpace
static unsigned maxSizeForAddrSpace(const GCNSubtarget &ST, unsigned AS, bool IsLoad, bool IsAtomic)
Definition AMDGPULegalizerInfo.cpp:409

V6S32
constexpr LLT V6S32
Definition AMDGPULegalizerInfo.cpp:327

isLoadStoreSizeLegal
static bool isLoadStoreSizeLegal(const GCNSubtarget &ST, const LegalityQuery &Query)
Definition AMDGPULegalizerInfo.cpp:436

S160
constexpr LLT S160
Definition AMDGPULegalizerInfo.cpp:303

verifyCFIntrinsic
static MachineInstr * verifyCFIntrinsic(MachineInstr &MI, MachineRegisterInfo &MRI, MachineInstr *&Br, MachineBasicBlock *&UncondBrTarget, bool &Negated)
Definition AMDGPULegalizerInfo.cpp:4382

V4S16
constexpr LLT V4S16
Definition AMDGPULegalizerInfo.cpp:313

V2S128
constexpr LLT V2S128
Definition AMDGPULegalizerInfo.cpp:346

V10S16
constexpr LLT V10S16
Definition AMDGPULegalizerInfo.cpp:316

numElementsNotEven
static LegalityPredicate numElementsNotEven(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:228

V4S32
constexpr LLT V4S32
Definition AMDGPULegalizerInfo.cpp:325

V3S32
constexpr LLT V3S32
Definition AMDGPULegalizerInfo.cpp:324

V6S16
constexpr LLT V6S16
Definition AMDGPULegalizerInfo.cpp:314

AllS64Vectors
constexpr std::initializer_list< LLT > AllS64Vectors
Definition AMDGPULegalizerInfo.cpp:359

S256
constexpr LLT S256
Definition AMDGPULegalizerInfo.cpp:306

castBufferRsrcArgToV4I32
static void castBufferRsrcArgToV4I32(MachineInstr &MI, MachineIRBuilder &B, unsigned Idx)
Definition AMDGPULegalizerInfo.cpp:676

V4S64
constexpr LLT V4S64
Definition AMDGPULegalizerInfo.cpp:339

FPEnvTrapBitField
static constexpr unsigned FPEnvTrapBitField
Definition AMDGPULegalizerInfo.cpp:7421

V10S32
constexpr LLT V10S32
Definition AMDGPULegalizerInfo.cpp:331

V16S32
constexpr LLT V16S32
Definition AMDGPULegalizerInfo.cpp:334

MaxRegisterSize
static constexpr unsigned MaxRegisterSize
Definition AMDGPULegalizerInfo.cpp:54

V7S32
constexpr LLT V7S32
Definition AMDGPULegalizerInfo.cpp:328

S96
constexpr LLT S96
Definition AMDGPULegalizerInfo.cpp:301

V12S16
constexpr LLT V12S16
Definition AMDGPULegalizerInfo.cpp:317

V16S64
constexpr LLT V16S64
Definition AMDGPULegalizerInfo.cpp:344

isRegisterSize
static bool isRegisterSize(const GCNSubtarget &ST, unsigned Size)
Definition AMDGPULegalizerInfo.cpp:235

isWideScalarExtLoadTruncStore
static LegalityPredicate isWideScalarExtLoadTruncStore(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:388

hasBufferRsrcWorkaround
static bool hasBufferRsrcWorkaround(const LLT Ty)
Definition AMDGPULegalizerInfo.cpp:509

V32S32
constexpr LLT V32S32
Definition AMDGPULegalizerInfo.cpp:335

toggleSPDenormMode
static void toggleSPDenormMode(bool Enable, MachineIRBuilder &B, const GCNSubtarget &ST, SIModeRegisterDefaults Mode)
Definition AMDGPULegalizerInfo.cpp:5098

S64
constexpr LLT S64
Definition AMDGPULegalizerInfo.cpp:299

AllS16Vectors
constexpr std::initializer_list< LLT > AllS16Vectors
Definition AMDGPULegalizerInfo.cpp:352

loadStoreBitcastWorkaround
static bool loadStoreBitcastWorkaround(const LLT Ty)
Definition AMDGPULegalizerInfo.cpp:523

widenToNextPowerOf2
static LLT widenToNextPowerOf2(LLT Ty)
Definition AMDGPULegalizerInfo.cpp:3222

isNot
static bool isNot(const MachineRegisterInfo &MRI, const MachineInstr &MI)
Definition AMDGPULegalizerInfo.cpp:4373

V16S16
constexpr LLT V16S16
Definition AMDGPULegalizerInfo.cpp:318

convertImageAddrToPacked
static void convertImageAddrToPacked(MachineIRBuilder &B, MachineInstr &MI, int DimIdx, int NumVAddrs)
Convert from separate vaddr components to a single vector address register, and replace the remaining...
Definition AMDGPULegalizerInfo.cpp:6525

isLoadStoreLegal
static bool isLoadStoreLegal(const GCNSubtarget &ST, const LegalityQuery &Query)
Definition AMDGPULegalizerInfo.cpp:542

moreEltsToNext32Bit
static LegalizeMutation moreEltsToNext32Bit(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:125

V5S32
constexpr LLT V5S32
Definition AMDGPULegalizerInfo.cpp:326

V5S64
constexpr LLT V5S64
Definition AMDGPULegalizerInfo.cpp:340

V3S64
constexpr LLT V3S64
Definition AMDGPULegalizerInfo.cpp:338

getPow2VectorType
static LLT getPow2VectorType(LLT Ty)
Definition AMDGPULegalizerInfo.cpp:57

buildBufferLoad
static void buildBufferLoad(unsigned Opc, Register LoadDstReg, Register RSrc, Register VIndex, Register VOffset, Register SOffset, unsigned ImmOffset, unsigned Format, unsigned AuxiliaryData, MachineMemOperand *MMO, bool IsTyped, bool HasVIndex, MachineIRBuilder &B)
Definition AMDGPULegalizerInfo.cpp:6125

V8S64
constexpr LLT V8S64
Definition AMDGPULegalizerInfo.cpp:343

getPow2ScalarType
static LLT getPow2ScalarType(LLT Ty)
Definition AMDGPULegalizerInfo.cpp:64

elementTypeIsLegal
static LegalityPredicate elementTypeIsLegal(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:284

V2S32
constexpr LLT V2S32
Definition AMDGPULegalizerInfo.cpp:323

isRegisterVectorType
static bool isRegisterVectorType(LLT Ty)
Definition AMDGPULegalizerInfo.cpp:245

V12S32
constexpr LLT V12S32
Definition AMDGPULegalizerInfo.cpp:333

S128
constexpr LLT S128
Definition AMDGPULegalizerInfo.cpp:302

sizeIsMultipleOf32
static LegalityPredicate sizeIsMultipleOf32(unsigned TypeIdx)
Definition AMDGPULegalizerInfo.cpp:87

S8
constexpr LLT S8
Definition AMDGPULegalizerInfo.cpp:295

isRegisterType
static bool isRegisterType(const GCNSubtarget &ST, LLT Ty)
Definition AMDGPULegalizerInfo.cpp:253

isKnownNonNull
static bool isKnownNonNull(Register Val, MachineRegisterInfo &MRI, const AMDGPUTargetMachine &TM, unsigned AddrSpace)
Return true if the value is a known valid address, such that a null check is not necessary.
Definition AMDGPULegalizerInfo.cpp:2367

AMDGPULegalizerInfo.h
This file declares the targeting of the Machinelegalizer class for AMDGPU.

AMDGPUMCTargetDesc.h
Provides AMDGPU specific target descriptions.

AMDGPUMemoryUtils.h

AMDGPUTargetMachine.h
The AMDGPU TargetMachine interface definition for hw codegen targets.

AMDGPU.h

DL
MachineBasicBlock MachineBasicBlock::iterator DebugLoc DL
Definition ARMSLSHardening.cpp:73

unsupported
static Error unsupported(const char *Str, const Triple &T)
Definition MachO.cpp:71

A
static GCRegistry::Add< ErlangGC > A("erlang", "erlang-compatible garbage collector")

B
static GCRegistry::Add< OcamlGC > B("ocaml", "ocaml 3.10-compatible GC")

Utils.h

DiagnosticInfo.h

Enable
@ Enable
Definition DwarfDebug.cpp:86

GenericMachineInstrs.h
Declares convenience wrapper classes for interpreting MachineInstr instances as specific generic oper...

MI
IRTranslator LLVM IR MI
Definition IRTranslator.cpp:110

InlinePriorityMode::Size
@ Size
Definition InlineOrder.cpp:25

Ops
const AbstractManglingParser< Derived, Alloc >::OperatorInfo AbstractManglingParser< Derived, Alloc >::Ops[]
Definition ItaniumDemangle.h:3368

Options
static LVOptions Options
Definition LVOptions.cpp:25

LegalizerHelper.h

LegalizerInfo.h
Interface for Targets to specify which operations they can successfully select and how the others sho...

F
#define F(x, y, z)
Definition MD5.cpp:55

I
#define I(x, y, z)
Definition MD5.cpp:58

MIPatternMatch.h
Contains matchers for matching SSA Machine Instructions.

MachineIRBuilder.h
This file declares the MachineIRBuilder class.

TRI
Register const TargetRegisterInfo * TRI
Definition MachineSink.cpp:2118

R2
#define R2(n)

Register
Promote Memory to Register
Definition Mem2Reg.cpp:110

getReg
static unsigned getReg(const MCDisassembler *D, unsigned RC, unsigned RegNo)
Definition MipsDisassembler.cpp:106

verify
ppc ctr loops verify
Definition PPCCTRLoopsVerify.cpp:71

Merge
R600 Clause Merge
Definition R600ClauseMergePass.cpp:70

Cond
const SmallVectorImpl< MachineOperand > & Cond
Definition RISCVRedundantCopyElimination.cpp:71

Opc
auto Opc
Definition RISCVRedundantCopyElimination.cpp:75

Mode
static cl::opt< RegAllocEvictionAdvisorAnalysisLegacy::AdvisorMode > Mode("regalloc-enable-advisor", cl::Hidden, cl::init(RegAllocEvictionAdvisorAnalysisLegacy::AdvisorMode::Default), cl::desc("Enable regalloc advisor mode"), cl::values(clEnumValN(RegAllocEvictionAdvisorAnalysisLegacy::AdvisorMode::Default, "default", "Default"), clEnumValN(RegAllocEvictionAdvisorAnalysisLegacy::AdvisorMode::Release, "release", "precompiled"), clEnumValN(RegAllocEvictionAdvisorAnalysisLegacy::AdvisorMode::Development, "development", "for training")))

CH
#define CH(x, y, z)
Definition SHA256.cpp:34

FP_DENORM_FLUSH_NONE
#define FP_DENORM_FLUSH_NONE
Definition SIDefines.h:1247

SIInstrInfo.h
Interface definition for SIInstrInfo.

SIMachineFunctionInfo.h

SIRegisterInfo.h
Interface definition for SIRegisterInfo.

ScopeExit.h
This file defines the make_scope_exit function, which executes user-defined cleanup logic at scope ex...

Y
static TableGen::Emitter::Opt Y("gen-skeleton-entry", EmitSkeleton, "Generate example skeleton entry")

X
static TableGen::Emitter::OptClass< SkeletonEmitter > X("gen-skeleton-class", "Generate example skeleton class")

Ptr
@ Ptr
Definition TargetLibraryInfo.cpp:77

TargetOpcodes.h

Concat
static constexpr int Concat[]
Definition X86InterleavedAccess.cpp:232

llvm::AMDGPULegalizerInfo::buildMultiply
void buildMultiply(LegalizerHelper &Helper, MutableArrayRef< Register > Accum, ArrayRef< Register > Src0, ArrayRef< Register > Src1, bool UsePartialMad64_32, bool SeparateOddAlignedProducts) const
Definition AMDGPULegalizerInfo.cpp:4028

llvm::AMDGPULegalizerInfo::legalizeGlobalValue
bool legalizeGlobalValue(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3115

llvm::AMDGPULegalizerInfo::legalizeFSQRTF16
bool legalizeFSQRTF16(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5358

llvm::AMDGPULegalizerInfo::legalizeIntrinsicTrunc
bool legalizeIntrinsicTrunc(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2650

llvm::AMDGPULegalizerInfo::splitBufferOffsets
std::pair< Register, unsigned > splitBufferOffsets(MachineIRBuilder &B, Register OrigOffset) const
Definition AMDGPULegalizerInfo.cpp:5889

llvm::AMDGPULegalizerInfo::legalizeBVHIntersectRayIntrinsic
bool legalizeBVHIntersectRayIntrinsic(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7187

llvm::AMDGPULegalizerInfo::legalizeIsAddrSpace
bool legalizeIsAddrSpace(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B, unsigned AddrSpace) const
Definition AMDGPULegalizerInfo.cpp:5855

llvm::AMDGPULegalizerInfo::legalizeUnsignedDIV_REM
bool legalizeUnsignedDIV_REM(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:4831

llvm::AMDGPULegalizerInfo::legalizeFSQRTF32
bool legalizeFSQRTF32(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5375

llvm::AMDGPULegalizerInfo::legalizeAtomicCmpXChg
bool legalizeAtomicCmpXChg(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3360

llvm::AMDGPULegalizerInfo::legalizeTrapHsa
bool legalizeTrapHsa(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7149

llvm::AMDGPULegalizerInfo::legalizeBufferStore
bool legalizeBufferStore(MachineInstr &MI, LegalizerHelper &Helper, bool IsTyped, bool IsFormat) const
Definition AMDGPULegalizerInfo.cpp:6034

llvm::AMDGPULegalizerInfo::legalizeMul
bool legalizeMul(LegalizerHelper &Helper, MachineInstr &MI) const
Definition AMDGPULegalizerInfo.cpp:4281

llvm::AMDGPULegalizerInfo::legalizeFFREXP
bool legalizeFFREXP(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5288

llvm::AMDGPULegalizerInfo::getSegmentAperture
Register getSegmentAperture(unsigned AddrSpace, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2275

llvm::AMDGPULegalizerInfo::legalizeFDIV64
bool legalizeFDIV64(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5207

llvm::AMDGPULegalizerInfo::legalizePointerAsRsrcIntrin
bool legalizePointerAsRsrcIntrin(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
To create a buffer resource from a 64-bit pointer, mask off the upper 32 bits of the pointer and repl...
Definition AMDGPULegalizerInfo.cpp:5769

llvm::AMDGPULegalizerInfo::legalizeFlogCommon
bool legalizeFlogCommon(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3503

llvm::AMDGPULegalizerInfo::getLDSKernelId
bool getLDSKernelId(Register DstReg, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5826

llvm::AMDGPULegalizerInfo::legalizeFExp2
bool legalizeFExp2(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3651

llvm::AMDGPULegalizerInfo::legalizeTrap
bool legalizeTrap(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7049

llvm::AMDGPULegalizerInfo::legalizeBufferAtomic
bool legalizeBufferAtomic(MachineInstr &MI, MachineIRBuilder &B, Intrinsic::ID IID) const
Definition AMDGPULegalizerInfo.cpp:6397

llvm::AMDGPULegalizerInfo::legalizeUnsignedDIV_REM32Impl
void legalizeUnsignedDIV_REM32Impl(MachineIRBuilder &B, Register DstDivReg, Register DstRemReg, Register Num, Register Den) const
Definition AMDGPULegalizerInfo.cpp:4631

llvm::AMDGPULegalizerInfo::handleD16VData
Register handleD16VData(MachineIRBuilder &B, MachineRegisterInfo &MRI, Register Reg, bool ImageStore=false) const
Handle register layout difference for f16 images for some subtargets.
Definition AMDGPULegalizerInfo.cpp:5939

llvm::AMDGPULegalizerInfo::legalizeCTLZ_CTTZ
bool legalizeCTLZ_CTTZ(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:4335

llvm::AMDGPULegalizerInfo::legalizeBuildVector
bool legalizeBuildVector(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3996

llvm::AMDGPULegalizerInfo::legalizeFFloor
bool legalizeFFloor(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3937

llvm::AMDGPULegalizerInfo::AMDGPULegalizerInfo
AMDGPULegalizerInfo(const GCNSubtarget &ST, const GCNTargetMachine &TM)
Definition AMDGPULegalizerInfo.cpp:687

llvm::AMDGPULegalizerInfo::legalizeFDIV32
bool legalizeFDIV32(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5120

llvm::AMDGPULegalizerInfo::legalizeFMad
bool legalizeFMad(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3336

llvm::AMDGPULegalizerInfo::legalizeFDIV
bool legalizeFDIV(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:4612

llvm::AMDGPULegalizerInfo::legalizeSBufferPrefetch
bool legalizeSBufferPrefetch(LegalizerHelper &Helper, MachineInstr &MI) const
Definition AMDGPULegalizerInfo.cpp:7036

llvm::AMDGPULegalizerInfo::legalizeFExp
bool legalizeFExp(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3749

llvm::AMDGPULegalizerInfo::legalizeIntrinsic
bool legalizeIntrinsic(LegalizerHelper &Helper, MachineInstr &MI) const override
Definition AMDGPULegalizerInfo.cpp:7464

llvm::AMDGPULegalizerInfo::legalizeFrem
bool legalizeFrem(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2616

llvm::AMDGPULegalizerInfo::legalizePreloadedArgIntrin
bool legalizePreloadedArgIntrin(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B, AMDGPUFunctionArgInfo::PreloadedValue ArgType) const
Definition AMDGPULegalizerInfo.cpp:4520

llvm::AMDGPULegalizerInfo::legalizeStore
bool legalizeStore(LegalizerHelper &Helper, MachineInstr &MI) const
Definition AMDGPULegalizerInfo.cpp:3318

llvm::AMDGPULegalizerInfo::legalizeCustom
bool legalizeCustom(LegalizerHelper &Helper, MachineInstr &MI, LostDebugLocObserver &LocObserver) const override
Called for instructions with the Custom LegalizationAction.
Definition AMDGPULegalizerInfo.cpp:2169

llvm::AMDGPULegalizerInfo::buildPCRelGlobalAddress
bool buildPCRelGlobalAddress(Register DstReg, LLT PtrTy, MachineIRBuilder &B, const GlobalValue *GV, int64_t Offset, unsigned GAFlags=SIInstrInfo::MO_NONE) const
Definition AMDGPULegalizerInfo.cpp:2990

llvm::AMDGPULegalizerInfo::legalizeFDIV16
bool legalizeFDIV16(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5034

llvm::AMDGPULegalizerInfo::legalizeRsqClampIntrinsic
bool legalizeRsqClampIntrinsic(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5559

llvm::AMDGPULegalizerInfo::getScaledLogInput
std::pair< Register, Register > getScaledLogInput(MachineIRBuilder &B, Register Src, unsigned Flags) const
Definition AMDGPULegalizerInfo.cpp:3427

llvm::AMDGPULegalizerInfo::legalizeFDIVFastIntrin
bool legalizeFDIVFastIntrin(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5323

llvm::AMDGPULegalizerInfo::loadInputValue
bool loadInputValue(Register DstReg, MachineIRBuilder &B, AMDGPUFunctionArgInfo::PreloadedValue ArgType) const
Definition AMDGPULegalizerInfo.cpp:4455

llvm::AMDGPULegalizerInfo::legalizeBVHDualOrBVH8IntersectRayIntrinsic
bool legalizeBVHDualOrBVH8IntersectRayIntrinsic(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7339

llvm::AMDGPULegalizerInfo::legalizeInsertVectorElt
bool legalizeInsertVectorElt(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2900

llvm::AMDGPULegalizerInfo::legalizeFExpUnsafe
bool legalizeFExpUnsafe(MachineIRBuilder &B, Register Dst, Register Src, unsigned Flags) const
Definition AMDGPULegalizerInfo.cpp:3709

llvm::AMDGPULegalizerInfo::legalizeAddrSpaceCast
bool legalizeAddrSpaceCast(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2386

llvm::AMDGPULegalizerInfo::legalizeBufferLoad
bool legalizeBufferLoad(MachineInstr &MI, LegalizerHelper &Helper, bool IsFormat, bool IsTyped) const
Definition AMDGPULegalizerInfo.cpp:6146

llvm::AMDGPULegalizerInfo::legalizeImplicitArgPtr
bool legalizeImplicitArgPtr(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5809

llvm::AMDGPULegalizerInfo::legalizeMinNumMaxNum
bool legalizeMinNumMaxNum(LegalizerHelper &Helper, MachineInstr &MI) const
Definition AMDGPULegalizerInfo.cpp:2822

llvm::AMDGPULegalizerInfo::legalizeUnsignedDIV_REM64Impl
void legalizeUnsignedDIV_REM64Impl(MachineIRBuilder &B, Register DstDivReg, Register DstRemReg, Register Num, Register Den) const
Definition AMDGPULegalizerInfo.cpp:4719

llvm::AMDGPULegalizerInfo::legalizeDebugTrap
bool legalizeDebugTrap(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7167

llvm::AMDGPULegalizerInfo::legalizeFastUnsafeFDIV
bool legalizeFastUnsafeFDIV(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:4939

llvm::AMDGPULegalizerInfo::legalizeSinCos
bool legalizeSinCos(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2961

llvm::AMDGPULegalizerInfo::legalizeWaveID
bool legalizeWaveID(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7403

llvm::AMDGPULegalizerInfo::legalizeFroundeven
bool legalizeFroundeven(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2561

llvm::AMDGPULegalizerInfo::legalizeLDSKernelId
bool legalizeLDSKernelId(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5837

llvm::AMDGPULegalizerInfo::legalizeSignedDIV_REM
bool legalizeSignedDIV_REM(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:4871

llvm::AMDGPULegalizerInfo::legalizeITOFP
bool legalizeITOFP(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B, bool Signed) const
Definition AMDGPULegalizerInfo.cpp:2695

llvm::AMDGPULegalizerInfo::legalizeFPow
bool legalizeFPow(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3891

llvm::AMDGPULegalizerInfo::legalizeFastUnsafeFDIV64
bool legalizeFastUnsafeFDIV64(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:4999

llvm::AMDGPULegalizerInfo::legalizeFPTOI
bool legalizeFPTOI(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B, bool Signed) const
Definition AMDGPULegalizerInfo.cpp:2752

llvm::AMDGPULegalizerInfo::legalizeStackSave
bool legalizeStackSave(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7393

llvm::AMDGPULegalizerInfo::legalizeFlogUnsafe
bool legalizeFlogUnsafe(MachineIRBuilder &B, Register Dst, Register Src, bool IsLog10, unsigned Flags) const
Definition AMDGPULegalizerInfo.cpp:3610

llvm::AMDGPULegalizerInfo::legalizeKernargMemParameter
bool legalizeKernargMemParameter(MachineInstr &MI, MachineIRBuilder &B, uint64_t Offset, Align Alignment=Align(4)) const
Legalize a value that's loaded from kernel arguments.
Definition AMDGPULegalizerInfo.cpp:4594

llvm::AMDGPULegalizerInfo::legalizeImageIntrinsic
bool legalizeImageIntrinsic(MachineInstr &MI, MachineIRBuilder &B, GISelChangeObserver &Observer, const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr) const
Rewrite image intrinsics to use register layouts expected by the subtarget.
Definition AMDGPULegalizerInfo.cpp:6565

llvm::AMDGPULegalizerInfo::buildAbsGlobalAddress
void buildAbsGlobalAddress(Register DstReg, LLT PtrTy, MachineIRBuilder &B, const GlobalValue *GV, MachineRegisterInfo &MRI) const
Definition AMDGPULegalizerInfo.cpp:3051

llvm::AMDGPULegalizerInfo::legalizeGetFPEnv
bool legalizeGetFPEnv(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7424

llvm::AMDGPULegalizerInfo::getImplicitArgPtr
bool getImplicitArgPtr(Register DstReg, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5746

llvm::AMDGPULegalizerInfo::legalizeFSQRT
bool legalizeFSQRT(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5540

llvm::AMDGPULegalizerInfo::getKernargParameterPtr
Register getKernargParameterPtr(MachineIRBuilder &B, int64_t Offset) const
Definition AMDGPULegalizerInfo.cpp:4577

llvm::AMDGPULegalizerInfo::legalizeSBufferLoad
bool legalizeSBufferLoad(LegalizerHelper &Helper, MachineInstr &MI) const
Definition AMDGPULegalizerInfo.cpp:6964

llvm::AMDGPULegalizerInfo::legalizeFceil
bool legalizeFceil(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2587

llvm::AMDGPULegalizerInfo::legalizeFSQRTF64
bool legalizeFSQRTF64(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:5456

llvm::AMDGPULegalizerInfo::legalizeExtractVectorElt
bool legalizeExtractVectorElt(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:2849

llvm::AMDGPULegalizerInfo::legalizeLoad
bool legalizeLoad(LegalizerHelper &Helper, MachineInstr &MI) const
Definition AMDGPULegalizerInfo.cpp:3229

llvm::AMDGPULegalizerInfo::legalizeCTLZ_ZERO_UNDEF
bool legalizeCTLZ_ZERO_UNDEF(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:4353

llvm::AMDGPULegalizerInfo::fixStoreSourceType
Register fixStoreSourceType(MachineIRBuilder &B, Register VData, LLT MemTy, bool IsFormat) const
Definition AMDGPULegalizerInfo.cpp:6002

llvm::AMDGPULegalizerInfo::legalizeLaneOp
bool legalizeLaneOp(LegalizerHelper &Helper, MachineInstr &MI, Intrinsic::ID IID) const
Definition AMDGPULegalizerInfo.cpp:5603

llvm::AMDGPULegalizerInfo::legalizeSetFPEnv
bool legalizeSetFPEnv(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7444

llvm::AMDGPULegalizerInfo::legalizeWorkitemIDIntrinsic
bool legalizeWorkitemIDIntrinsic(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B, unsigned Dim, AMDGPUFunctionArgInfo::PreloadedValue ArgType) const
Definition AMDGPULegalizerInfo.cpp:4537

llvm::AMDGPULegalizerInfo::buildLoadInputValue
void buildLoadInputValue(Register DstReg, MachineIRBuilder &B, const ArgDescriptor *Arg, const TargetRegisterClass *ArgRC, LLT ArgTy) const
Definition AMDGPULegalizerInfo.cpp:4423

llvm::AMDGPULegalizerInfo::legalizeTrapHsaQueuePtr
bool legalizeTrapHsaQueuePtr(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7089

llvm::AMDGPULegalizerInfo::legalizeFlog2
bool legalizeFlog2(MachineInstr &MI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:3447

llvm::AMDGPULegalizerInfo::legalizeTrapEndpgm
bool legalizeTrapEndpgm(MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const
Definition AMDGPULegalizerInfo.cpp:7060

llvm::AMDGPUMachineFunction::getLDSKernelIdMetadata
static std::optional< uint32_t > getLDSKernelIdMetadata(const Function &F)
Definition AMDGPUMachineFunction.cpp:175

llvm::AMDGPUMachineFunction::setDynLDSAlign
void setDynLDSAlign(const Function &F, const GlobalVariable &GV)
Definition AMDGPUMachineFunction.cpp:209

llvm::AMDGPUMachineFunction::allocateLDSGlobal
unsigned allocateLDSGlobal(const DataLayout &DL, const GlobalVariable &GV)
Definition AMDGPUMachineFunction.h:125

llvm::AMDGPUMachineFunction::isEntryFunction
bool isEntryFunction() const
Definition AMDGPUMachineFunction.h:97

llvm::AMDGPUMachineFunction::isModuleEntryFunction
bool isModuleEntryFunction() const
Definition AMDGPUMachineFunction.h:101

llvm::AMDGPUSubtarget::GFX10
@ GFX10
Definition AMDGPUSubtarget.h:42

llvm::AMDGPUSubtarget::SEA_ISLANDS
@ SEA_ISLANDS
Definition AMDGPUSubtarget.h:39

llvm::AMDGPUSubtarget::VOLCANIC_ISLANDS
@ VOLCANIC_ISLANDS
Definition AMDGPUSubtarget.h:40

llvm::AMDGPUTargetLowering::ImplicitParameter
ImplicitParameter
Definition AMDGPUISelLowering.h:380

llvm::AMDGPUTargetLowering::SHARED_BASE
@ SHARED_BASE
Definition AMDGPUISelLowering.h:383

llvm::AMDGPUTargetLowering::PRIVATE_BASE
@ PRIVATE_BASE
Definition AMDGPUISelLowering.h:382

llvm::AMDGPUTargetLowering::FIRST_IMPLICIT
@ FIRST_IMPLICIT
Definition AMDGPUISelLowering.h:381

llvm::AMDGPUTargetLowering::QUEUE_PTR
@ QUEUE_PTR
Definition AMDGPUISelLowering.h:384

llvm::AMDGPUTargetMachine
Definition AMDGPUTargetMachine.h:30

llvm::APFloat
Definition APFloat.h:900

llvm::APFloat::getSmallestNormalized
static APFloat getSmallestNormalized(const fltSemantics &Sem, bool Negative=false)
Returns the smallest (by magnitude) normalized finite number in the given semantics.
Definition APFloat.h:1158

llvm::APFloat::getLargest
static APFloat getLargest(const fltSemantics &Sem, bool Negative=false)
Returns the largest finite number in the given semantics.
Definition APFloat.h:1138

llvm::APFloat::getInf
static APFloat getInf(const fltSemantics &Sem, bool Negative=false)
Factory for Positive and Negative Infinity.
Definition APFloat.h:1098

llvm::ArrayRef
ArrayRef - Represent a constant reference to an array (0 or more elements consecutively in memory),...
Definition ArrayRef.h:41

llvm::ArrayRef::size
size_t size() const
size - Get the array size.
Definition ArrayRef.h:147

llvm::CmpInst::ICMP_SLT
@ ICMP_SLT
signed less than
Definition InstrTypes.h:707

llvm::CmpInst::FCMP_OLT
@ FCMP_OLT
0 1 0 0 True if ordered and less than
Definition InstrTypes.h:684

llvm::CmpInst::FCMP_OGT
@ FCMP_OGT
0 0 1 0 True if ordered and greater than
Definition InstrTypes.h:682

llvm::CmpInst::ICMP_UGE
@ ICMP_UGE
unsigned greater or equal
Definition InstrTypes.h:702

llvm::CmpInst::ICMP_SGT
@ ICMP_SGT
signed greater than
Definition InstrTypes.h:705

llvm::CmpInst::FCMP_ONE
@ FCMP_ONE
0 1 1 0 True if ordered and operands are unequal
Definition InstrTypes.h:686

llvm::CmpInst::ICMP_ULT
@ ICMP_ULT
unsigned less than
Definition InstrTypes.h:703

llvm::CmpInst::FCMP_OLE
@ FCMP_OLE
0 1 0 1 True if ordered and less than or equal
Definition InstrTypes.h:685

llvm::CmpInst::FCMP_ORD
@ FCMP_ORD
0 1 1 1 True if ordered (no nans)
Definition InstrTypes.h:687

llvm::CmpInst::ICMP_EQ
@ ICMP_EQ
equal
Definition InstrTypes.h:699

llvm::CmpInst::ICMP_NE
@ ICMP_NE
not equal
Definition InstrTypes.h:700

llvm::ConstantInt
This is the shared class of boolean and integer constants.
Definition Constants.h:87

llvm::ConstantInt::getSExtValue
int64_t getSExtValue() const
Return the constant as a 64-bit integer value after it has been sign extended as appropriate for the ...
Definition Constants.h:169

llvm::DebugLoc
A debug info location.
Definition DebugLoc.h:124

llvm::DiagnosticInfoUnsupported
Diagnostic information for unsupported feature in backend.
Definition DiagnosticInfo.h:1101

llvm::DstOp
Definition MachineIRBuilder.h:71

llvm::ElementCount
Definition TypeSize.h:298

llvm::ElementCount::getFixed
static constexpr ElementCount getFixed(ScalarTy MinVal)
Definition TypeSize.h:309

llvm::Function
Definition Function.h:64

llvm::Function::getContext
LLVMContext & getContext() const
getContext - Return a reference to the LLVMContext associated with this function.
Definition Function.cpp:359

llvm::GCNSubtarget
Definition GCNSubtarget.h:34

llvm::GCNSubtarget::TrapHandlerAbi::AMDHSA
@ AMDHSA
Definition GCNSubtarget.h:42

llvm::GCNSubtarget::TrapID::LLVMAMDHSADebugTrap
@ LLVMAMDHSADebugTrap
Definition GCNSubtarget.h:47

llvm::GCNSubtarget::TrapID::LLVMAMDHSATrap
@ LLVMAMDHSATrap
Definition GCNSubtarget.h:46

llvm::GCNTargetMachine
Definition AMDGPUTargetMachine.h:81

llvm::GISelChangeObserver
Abstract class that contains various methods for clients to notify about changes.
Definition GISelChangeObserver.h:30

llvm::GISelChangeObserver::changingInstr
virtual void changingInstr(MachineInstr &MI)=0
This instruction is about to be mutated in some way.

llvm::GISelChangeObserver::changedInstr
virtual void changedInstr(MachineInstr &MI)=0
This instruction was mutated in some way.

llvm::GISelObserverWrapper
Simple wrapper observer that takes several observers, and calls each one for each event.
Definition GISelChangeObserver.h:68

llvm::GISelValueTracking
Definition GISelValueTracking.h:34

llvm::GISelValueTracking::getKnownBits
KnownBits getKnownBits(Register R)
Definition GISelValueTracking.cpp:83

llvm::GlobalValue
Definition GlobalValue.h:49

llvm::GlobalValue::hasExternalLinkage
bool hasExternalLinkage() const
Definition GlobalValue.h:513

llvm::GlobalValue::getParent
Module * getParent()
Get the module that this global value is contained inside of...
Definition GlobalValue.h:663

llvm::GlobalValue::getValueType
Type * getValueType() const
Definition GlobalValue.h:298

llvm::LLT
Definition LowLevelType.h:40

llvm::LLT::float64
static constexpr LLT float64()
Get a 64-bit IEEE double value.
Definition LowLevelType.h:95

llvm::LLT::getScalarSizeInBits
constexpr unsigned getScalarSizeInBits() const
Definition LowLevelType.h:265

llvm::LLT::changeElementType
constexpr LLT changeElementType(LLT NewEltTy) const
If this type is a vector, return a vector with the same number of elements but the new element type.
Definition LowLevelType.h:212

llvm::LLT::vector
static constexpr LLT vector(ElementCount EC, unsigned ScalarSizeInBits)
Get a low-level vector of some number of elements and element width.
Definition LowLevelType.h:65

llvm::LLT::scalar
static constexpr LLT scalar(unsigned SizeInBits)
Get a low-level scalar or aggregate "bag of bits".
Definition LowLevelType.h:43

llvm::LLT::getNumElements
constexpr uint16_t getNumElements() const
Returns the number of elements in a vector LLT.
Definition LowLevelType.h:160

llvm::LLT::isVector
constexpr bool isVector() const
Definition LowLevelType.h:149

llvm::LLT::pointer
static constexpr LLT pointer(unsigned AddressSpace, unsigned SizeInBits)
Get a low-level pointer in the given address space.
Definition LowLevelType.h:58

llvm::LLT::getSizeInBits
constexpr TypeSize getSizeInBits() const
Returns the total size of the type. Must only be called on sized types.
Definition LowLevelType.h:191

llvm::LLT::isPointer
constexpr bool isPointer() const
Definition LowLevelType.h:150

llvm::LLT::getElementType
constexpr LLT getElementType() const
Returns the vector's element type. Only valid for vector types.
Definition LowLevelType.h:278

llvm::LLT::changeElementSize
constexpr LLT changeElementSize(unsigned NewEltSize) const
If this type is a vector, return a vector with the same number of elements but the new element size.
Definition LowLevelType.h:219

llvm::LLT::float16
static constexpr LLT float16()
Get a 16-bit IEEE half value.
Definition LowLevelType.h:85

llvm::LLT::getAddressSpace
constexpr unsigned getAddressSpace() const
Definition LowLevelType.h:271

llvm::LLT::fixed_vector
static constexpr LLT fixed_vector(unsigned NumElements, unsigned ScalarSizeInBits)
Get a low-level fixed-width vector of some number of elements and element width.
Definition LowLevelType.h:101

llvm::LLT::changeElementCount
constexpr LLT changeElementCount(ElementCount EC) const
Return a vector or scalar with the same element type and the new element count.
Definition LowLevelType.h:228

llvm::LLT::getScalarType
constexpr LLT getScalarType() const
Definition LowLevelType.h:206

llvm::LLT::scalarOrVector
static constexpr LLT scalarOrVector(ElementCount EC, LLT ScalarTy)
Definition LowLevelType.h:125

llvm::LLT::float32
static constexpr LLT float32()
Get a 32-bit IEEE float value.
Definition LowLevelType.h:90

llvm::LLVMContext::diagnose
LLVM_ABI void diagnose(const DiagnosticInfo &DI)
Report a message to the currently installed diagnostic handler.
Definition LLVMContext.cpp:245

llvm::LegacyLegalizerInfo::computeTables
LLVM_ABI void computeTables()
Compute any ancillary tables needed to quickly decide how an operation should be handled.
Definition LegacyLegalizerInfo.cpp:105

llvm::LegalizeRuleSet::minScalar
LegalizeRuleSet & minScalar(unsigned TypeIdx, const LLT Ty)
Ensure the scalar is at least as wide as Ty.
Definition LegalizerInfo.h:1057

llvm::LegalizeRuleSet::legalFor
LegalizeRuleSet & legalFor(std::initializer_list< LLT > Types)
The instruction is legal when type index 0 is any type in the given list.
Definition LegalizerInfo.h:622

llvm::LegalizeRuleSet::unsupported
LegalizeRuleSet & unsupported()
The instruction is unsupported.
Definition LegalizerInfo.h:858

llvm::LegalizeRuleSet::scalarSameSizeAs
LegalizeRuleSet & scalarSameSizeAs(unsigned TypeIdx, unsigned SameSizeIdx)
Change the type TypeIdx to have the same scalar size as type SameSizeIdx.
Definition LegalizerInfo.h:1168

llvm::LegalizeRuleSet::fewerElementsIf
LegalizeRuleSet & fewerElementsIf(LegalityPredicate Predicate, LegalizeMutation Mutation)
Remove elements to reach the type selected by the mutation if the predicate is true.
Definition LegalizerInfo.h:849

llvm::LegalizeRuleSet::clampScalarOrElt
LegalizeRuleSet & clampScalarOrElt(unsigned TypeIdx, const LLT MinTy, const LLT MaxTy)
Limit the range of scalar sizes to MinTy and MaxTy.
Definition LegalizerInfo.h:1137

llvm::LegalizeRuleSet::bitcastIf
LegalizeRuleSet & bitcastIf(LegalityPredicate Predicate, LegalizeMutation Mutation)
The specified type index is coerced if predicate is true.
Definition LegalizerInfo.h:696

llvm::LegalizeRuleSet::maxScalar
LegalizeRuleSet & maxScalar(unsigned TypeIdx, const LLT Ty)
Ensure the scalar is at most as wide as Ty.
Definition LegalizerInfo.h:1096

llvm::LegalizeRuleSet::minScalarOrElt
LegalizeRuleSet & minScalarOrElt(unsigned TypeIdx, const LLT Ty)
Ensure the scalar or element is at least as wide as Ty.
Definition LegalizerInfo.h:1016

llvm::LegalizeRuleSet::clampMaxNumElements
LegalizeRuleSet & clampMaxNumElements(unsigned TypeIdx, const LLT EltTy, unsigned MaxElements)
Limit the number of elements in EltTy vectors to at most MaxElements.
Definition LegalizerInfo.h:1257

llvm::LegalizeRuleSet::unsupportedFor
LegalizeRuleSet & unsupportedFor(std::initializer_list< LLT > Types)
Definition LegalizerInfo.h:866

llvm::LegalizeRuleSet::lower
LegalizeRuleSet & lower()
The instruction is lowered.
Definition LegalizerInfo.h:705

llvm::LegalizeRuleSet::moreElementsIf
LegalizeRuleSet & moreElementsIf(LegalityPredicate Predicate, LegalizeMutation Mutation)
Add more elements to reach the type selected by the mutation if the predicate is true.
Definition LegalizerInfo.h:840

llvm::LegalizeRuleSet::lowerFor
LegalizeRuleSet & lowerFor(std::initializer_list< LLT > Types)
The instruction is lowered when type index 0 is any type in the given list.
Definition LegalizerInfo.h:731

llvm::LegalizeRuleSet::lowerIf
LegalizeRuleSet & lowerIf(LegalityPredicate Predicate)
The instruction is lowered if predicate is true.
Definition LegalizerInfo.h:714

llvm::LegalizeRuleSet::clampScalar
LegalizeRuleSet & clampScalar(unsigned TypeIdx, const LLT MinTy, const LLT MaxTy)
Limit the range of scalar sizes to MinTy and MaxTy.
Definition LegalizerInfo.h:1123

llvm::LegalizeRuleSet::custom
LegalizeRuleSet & custom()
Unconditionally custom lower.
Definition LegalizerInfo.h:949

llvm::LegalizeRuleSet::clampMaxNumElementsStrict
LegalizeRuleSet & clampMaxNumElementsStrict(unsigned TypeIdx, const LLT EltTy, unsigned NumElts)
Express EltTy vectors strictly using vectors with NumElts elements (or scalars when NumElts equals 1)...
Definition LegalizerInfo.h:1301

llvm::LegalizeRuleSet::unsupportedIf
LegalizeRuleSet & unsupportedIf(LegalityPredicate Predicate)
Definition LegalizerInfo.h:862

llvm::LegalizeRuleSet::widenScalarIf
LegalizeRuleSet & widenScalarIf(LegalityPredicate Predicate, LegalizeMutation Mutation)
Widen the scalar to the one selected by the mutation if the predicate is true.
Definition LegalizerInfo.h:814

llvm::LegalizeRuleSet::alwaysLegal
LegalizeRuleSet & alwaysLegal()
Definition LegalizerInfo.h:689

llvm::LegalizeRuleSet::clampNumElements
LegalizeRuleSet & clampNumElements(unsigned TypeIdx, const LLT MinTy, const LLT MaxTy)
Limit the number of elements for the given vectors to at least MinTy's number of elements and at most...
Definition LegalizerInfo.h:1281

llvm::LegalizeRuleSet::maxScalarIf
LegalizeRuleSet & maxScalarIf(LegalityPredicate Predicate, unsigned TypeIdx, const LLT Ty)
Conditionally limit the maximum size of the scalar.
Definition LegalizerInfo.h:1107

llvm::LegalizeRuleSet::customIf
LegalizeRuleSet & customIf(LegalityPredicate Predicate)
Definition LegalizerInfo.h:891

llvm::LegalizeRuleSet::widenScalarToNextPow2
LegalizeRuleSet & widenScalarToNextPow2(unsigned TypeIdx, unsigned MinSize=0)
Widen the scalar to the next power of two that is at least MinSize.
Definition LegalizerInfo.h:956

llvm::LegalizeRuleSet::scalarize
LegalizeRuleSet & scalarize(unsigned TypeIdx)
Definition LegalizerInfo.h:1002

llvm::LegalizeRuleSet::legalForCartesianProduct
LegalizeRuleSet & legalForCartesianProduct(std::initializer_list< LLT > Types)
The instruction is legal when type indexes 0 and 1 are both in the given list.
Definition LegalizerInfo.h:671

llvm::LegalizeRuleSet::legalIf
LegalizeRuleSet & legalIf(LegalityPredicate Predicate)
The instruction is legal if predicate is true.
Definition LegalizerInfo.h:615

llvm::LegalizeRuleSet::customFor
LegalizeRuleSet & customFor(std::initializer_list< LLT > Types)
Definition LegalizerInfo.h:897

llvm::LegalizeRuleSet::widenScalarToNextMultipleOf
LegalizeRuleSet & widenScalarToNextMultipleOf(unsigned TypeIdx, unsigned Size)
Widen the scalar to the next multiple of Size.
Definition LegalizerInfo.h:966

llvm::LegalizerHelper
Definition LegalizerHelper.h:49

llvm::LegalizerHelper::lowerFMinNumMaxNum
LLVM_ABI LegalizeResult lowerFMinNumMaxNum(MachineInstr &MI)
Definition LegalizerHelper.cpp:8657

llvm::LegalizerHelper::moreElementsVectorDst
LLVM_ABI void moreElementsVectorDst(MachineInstr &MI, LLT MoreTy, unsigned OpIdx)
Legalize a single operand OpIdx of the machine instruction MI as a Def by performing it with addition...
Definition LegalizerHelper.cpp:2114

llvm::LegalizerHelper::getValueTracking
GISelValueTracking * getValueTracking() const
Definition LegalizerHelper.h:81

llvm::LegalizerHelper::Legalized
@ Legalized
Instruction has been legalized and the MachineFunction changed.
Definition LegalizerHelper.h:71

llvm::LegalizerHelper::Observer
GISelChangeObserver & Observer
To keep track of changes made by the LegalizerHelper.
Definition LegalizerHelper.h:56

llvm::LegalizerHelper::bitcastDst
LLVM_ABI void bitcastDst(MachineInstr &MI, LLT CastTy, unsigned OpIdx)
Legalize a single operand OpIdx of the machine instruction MI as a def by inserting a G_BITCAST from ...
Definition LegalizerHelper.cpp:2135

llvm::LegalizerHelper::lowerFMad
LLVM_ABI LegalizeResult lowerFMad(MachineInstr &MI)
Definition LegalizerHelper.cpp:8704

llvm::LegalizerHelper::MIRBuilder
MachineIRBuilder & MIRBuilder
Expose MIRBuilder so clients can set their own RecordInsertInstruction functions.
Definition LegalizerHelper.h:53

llvm::LegalizerHelper::widenScalarDst
LLVM_ABI void widenScalarDst(MachineInstr &MI, LLT WideTy, unsigned OpIdx=0, unsigned TruncOpcode=TargetOpcode::G_TRUNC)
Legalize a single operand OpIdx of the machine instruction MI as a Def by extending the operand's typ...
Definition LegalizerHelper.cpp:2096

llvm::LegalizerInfo::getActionDefinitionsBuilder
LegalizeRuleSet & getActionDefinitionsBuilder(unsigned Opcode)
Get the action definition builder for the given opcode.
Definition LegalizerInfo.cpp:314

llvm::LegalizerInfo::getLegacyLegalizerInfo
const LegacyLegalizerInfo & getLegacyLegalizerInfo() const
Definition LegalizerInfo.h:1331

llvm::LocationSize::getValue
TypeSize getValue() const
Definition MemoryLocation.h:157

llvm::LostDebugLocObserver
Definition LostDebugLocObserver.h:20

llvm::MCRegister
Wrapper class representing physical registers. Should be passed by value.
Definition MCRegister.h:33

llvm::MCRegister::isPhysical
constexpr bool isPhysical() const
Return true if the specified register number is in the physical register namespace.
Definition MCRegister.h:64

llvm::MachineBasicBlock
Definition MachineBasicBlock.h:122

llvm::MachineBasicBlock::addSuccessor
LLVM_ABI void addSuccessor(MachineBasicBlock *Succ, BranchProbability Prob=BranchProbability::getUnknown())
Add Succ as a successor of this MachineBasicBlock.
Definition MachineBasicBlock.cpp:796

llvm::MachineBasicBlock::succ_empty
bool succ_empty() const
Definition MachineBasicBlock.h:458

llvm::MachineBasicBlock::splitAt
LLVM_ABI MachineBasicBlock * splitAt(MachineInstr &SplitInst, bool UpdateLiveIns=true, LiveIntervals *LIS=nullptr)
Split a basic block into 2 pieces at SplitPoint.
Definition MachineBasicBlock.cpp:1023

llvm::MachineBasicBlock::end
iterator end()
Definition MachineBasicBlock.h:379

llvm::MachineBasicBlock::getParent
const MachineFunction * getParent() const
Return the MachineFunction containing this basic block.
Definition MachineBasicBlock.h:323

llvm::MachineBasicBlock::iterator
MachineInstrBundleIterator< MachineInstr > iterator
Definition MachineBasicBlock.h:341

llvm::MachineFunction
Definition MachineFunction.h:286

llvm::MachineFunction::getSubtarget
const TargetSubtargetInfo & getSubtarget() const
getSubtarget - Return the subtarget for which this machine code is being compiled.
Definition MachineFunction.h:762

llvm::MachineFunction::getMachineMemOperand
MachineMemOperand * getMachineMemOperand(MachinePointerInfo PtrInfo, MachineMemOperand::Flags f, LLT MemTy, Align base_alignment, const AAMDNodes &AAInfo=AAMDNodes(), const MDNode *Ranges=nullptr, SyncScope::ID SSID=SyncScope::System, AtomicOrdering Ordering=AtomicOrdering::NotAtomic, AtomicOrdering FailureOrdering=AtomicOrdering::NotAtomic)
getMachineMemOperand - Allocate a new MachineMemOperand.
Definition MachineFunction.cpp:536

llvm::MachineFunction::getDenormalMode
DenormalMode getDenormalMode(const fltSemantics &FPType) const
Returns the denormal handling type for the default rounding mode of the function.
Definition MachineFunction.cpp:324

llvm::MachineFunction::push_back
void push_back(MachineBasicBlock *MBB)
Definition MachineFunction.h:1001

llvm::MachineFunction::getRegInfo
MachineRegisterInfo & getRegInfo()
getRegInfo - Return information about the registers currently in use.
Definition MachineFunction.h:772

llvm::MachineFunction::getFunction
Function & getFunction()
Return the LLVM function that this machine code represents.
Definition MachineFunction.h:733

llvm::MachineFunction::end
iterator end()
Definition MachineFunction.h:986

llvm::MachineFunction::iterator
BasicBlockListType::iterator iterator
Definition MachineFunction.h:966

llvm::MachineFunction::getInfo
Ty * getInfo()
getInfo - Keep track of various per-function pieces of information for backends that would like to do...
Definition MachineFunction.h:860

llvm::MachineFunction::CreateMachineBasicBlock
MachineBasicBlock * CreateMachineBasicBlock(const BasicBlock *BB=nullptr, std::optional< UniqueBBID > BBID=std::nullopt)
CreateMachineInstr - Allocate a new MachineInstr.
Definition MachineFunction.cpp:499

llvm::MachineFunction::getTarget
const TargetMachine & getTarget() const
getTarget - Return the target machine this machine code is compiled with
Definition MachineFunction.h:758

llvm::MachineIRBuilder
Helper class to build MachineInstr.
Definition MachineIRBuilder.h:236

llvm::MachineIRBuilder::getMF
MachineFunction & getMF()
Getter for the function we currently build.
Definition MachineIRBuilder.h:288

llvm::MachineInstrBuilder
Definition MachineInstrBuilder.h:98

llvm::MachineInstrBuilder::getReg
Register getReg(unsigned Idx) const
Get the register for the operand index.
Definition MachineInstrBuilder.h:123

llvm::MachineInstrBuilder::addImm
const MachineInstrBuilder & addImm(int64_t Val) const
Add a new immediate operand.
Definition MachineInstrBuilder.h:160

llvm::MachineInstrBuilder::addGlobalAddress
const MachineInstrBuilder & addGlobalAddress(const GlobalValue *GV, int64_t Offset=0, unsigned TargetFlags=0) const
Definition MachineInstrBuilder.h:206

llvm::MachineInstrBuilder::addMBB
const MachineInstrBuilder & addMBB(MachineBasicBlock *MBB, unsigned TargetFlags=0) const
Definition MachineInstrBuilder.h:175

llvm::MachineInstr
Representation of each machine instruction.
Definition MachineInstr.h:72

llvm::MachineInstr::FmArcp
@ FmArcp
Definition MachineInstr.h:100

llvm::MachineInstr::FmNoInfs
@ FmNoInfs
Definition MachineInstr.h:96

llvm::MachineInstr::FmAfn
@ FmAfn
Definition MachineInstr.h:104

llvm::MachineInstr::FmNoNans
@ FmNoNans
Definition MachineInstr.h:94

llvm::MachineInstr::getOperand
const MachineOperand & getOperand(unsigned i) const
Definition MachineInstr.h:595

llvm::MachineMemOperand
A description of a memory reference used in the backend.
Definition MachineMemOperand.h:130

llvm::MachineMemOperand::getSize
LocationSize getSize() const
Return the size in bytes of the memory reference.
Definition MachineMemOperand.h:243

llvm::MachineMemOperand::getMemoryType
LLT getMemoryType() const
Return the memory type of the memory reference.
Definition MachineMemOperand.h:240

llvm::MachineMemOperand::MODereferenceable
@ MODereferenceable
The memory access is dereferenceable (i.e., doesn't trap).
Definition MachineMemOperand.h:145

llvm::MachineMemOperand::MOLoad
@ MOLoad
The memory access reads data.
Definition MachineMemOperand.h:137

llvm::MachineMemOperand::MOInvariant
@ MOInvariant
The memory access always returns the same value (or traps).
Definition MachineMemOperand.h:147

llvm::MachineMemOperand::getAlign
LLVM_ABI Align getAlign() const
Return the minimum known alignment in bytes of the actual memory reference.
Definition MachineOperand.cpp:1138

llvm::MachineOperand
MachineOperand class - Representation of each machine instruction operand.
Definition MachineOperand.h:48

llvm::MachineOperand::getMBB
MachineBasicBlock * getMBB() const
Definition MachineOperand.h:571

llvm::MachineOperand::setReg
LLVM_ABI void setReg(Register Reg)
Change the register this operand corresponds to.
Definition MachineOperand.cpp:60

llvm::MachineOperand::setMBB
void setMBB(MachineBasicBlock *MBB)
Definition MachineOperand.h:728

llvm::MachineOperand::CreateImm
static MachineOperand CreateImm(int64_t Val)
Definition MachineOperand.h:821

llvm::MachineOperand::getReg
Register getReg() const
getReg - Returns the register number.
Definition MachineOperand.h:368

llvm::MachineRegisterInfo
MachineRegisterInfo - Keep track of information for virtual and physical registers,...
Definition MachineRegisterInfo.h:53

llvm::MutableArrayRef
MutableArrayRef - Represent a mutable reference to an array (0 or more elements consecutively in memo...
Definition ArrayRef.h:303

llvm::MutableArrayRef::drop_front
MutableArrayRef< T > drop_front(size_t N=1) const
Drop the first N elements of the array.
Definition ArrayRef.h:392

llvm::Register
Wrapper class representing virtual and physical registers.
Definition Register.h:19

llvm::Register::isValid
constexpr bool isValid() const
Definition Register.h:107

llvm::Register::isVirtual
constexpr bool isVirtual() const
Return true if the specified register number is in the virtual register namespace.
Definition Register.h:74

llvm::SIInstrInfo::getMaxMUBUFImmOffset
static unsigned getMaxMUBUFImmOffset(const GCNSubtarget &ST)
Definition SIInstrInfo.cpp:9701

llvm::SIInstrInfo::MO_ABS32_HI
@ MO_ABS32_HI
Definition SIInstrInfo.h:233

llvm::SIInstrInfo::MO_REL32
@ MO_REL32
Definition SIInstrInfo.h:224

llvm::SIInstrInfo::MO_NONE
@ MO_NONE
Definition SIInstrInfo.h:213

llvm::SIInstrInfo::MO_ABS64
@ MO_ABS64
Definition SIInstrInfo.h:234

llvm::SIInstrInfo::MO_GOTPCREL32
@ MO_GOTPCREL32
Definition SIInstrInfo.h:217

llvm::SIInstrInfo::MO_ABS32_LO
@ MO_ABS32_LO
Definition SIInstrInfo.h:232

llvm::SIMachineFunctionInfo
This class keeps track of the SPI_SP_INPUT_ADDR config register, which tells the hardware which inter...
Definition SIMachineFunctionInfo.h:412

llvm::SIMachineFunctionInfo::hasWorkGroupIDZ
bool hasWorkGroupIDZ() const
Definition SIMachineFunctionInfo.h:933

llvm::SIMachineFunctionInfo::getMode
SIModeRegisterDefaults getMode() const
Definition SIMachineFunctionInfo.h:664

llvm::SIMachineFunctionInfo::getPreloadedValue
std::tuple< const ArgDescriptor *, const TargetRegisterClass *, LLT > getPreloadedValue(AMDGPUFunctionArgInfo::PreloadedValue Value) const
Definition SIMachineFunctionInfo.h:970

llvm::SIRegisterInfo
Definition SIRegisterInfo.h:40

llvm::SIRegisterInfo::getSGPRClassForBitWidth
static LLVM_READONLY const TargetRegisterClass * getSGPRClassForBitWidth(unsigned BitWidth)
Definition SIRegisterInfo.cpp:3542

llvm::SITargetLowering
Definition SIISelLowering.h:31

llvm::SITargetLowering::allowsMisalignedMemoryAccessesImpl
bool allowsMisalignedMemoryAccessesImpl(unsigned Size, unsigned AddrSpace, Align Alignment, MachineMemOperand::Flags Flags=MachineMemOperand::MONone, unsigned *IsFast=nullptr) const
Definition SIISelLowering.cpp:1960

llvm::SITargetLowering::shouldEmitFixup
bool shouldEmitFixup(const GlobalValue *GV) const
Definition SIISelLowering.cpp:7363

llvm::SITargetLowering::shouldUseLDSConstAddress
bool shouldUseLDSConstAddress(const GlobalValue *GV) const
Definition SIISelLowering.cpp:7385

llvm::SITargetLowering::shouldEmitPCReloc
bool shouldEmitPCReloc(const GlobalValue *GV) const
Definition SIISelLowering.cpp:7381

llvm::SmallVectorImpl
This class consists of common code factored out of the SmallVector class to reduce code duplication b...
Definition SmallVector.h:574

llvm::SmallVectorImpl::truncate
void truncate(size_type N)
Like resize, but requires that N is less than size().
Definition SmallVector.h:645

llvm::SmallVectorImpl::resize
void resize(size_type N)
Definition SmallVector.h:639

llvm::SmallVectorTemplateBase::push_back
void push_back(const T &Elt)
Definition SmallVector.h:414

llvm::SmallVectorTemplateCommon::size
size_t size() const
Definition SmallVector.h:79

llvm::SmallVector
This is a 'vector' (really, a variable-sized array), optimized for the case when the array is small.
Definition SmallVector.h:1197

llvm::SrcOp
Definition MachineIRBuilder.h:143

llvm::SrcOp::getImm
int64_t getImm() const
Definition MachineIRBuilder.h:217

llvm::SrcOp::getReg
Register getReg() const
Definition MachineIRBuilder.h:195

llvm::TargetLoweringBase::getStackPointerRegisterToSaveRestore
Register getStackPointerRegisterToSaveRestore() const
If a physical register, this specifies the register that llvm.savestack/llvm.restorestack should save...
Definition TargetLowering.h:2068

llvm::TargetMachine::Options
TargetOptions Options
Definition TargetMachine.h:124

llvm::TargetRegisterClass
Definition TargetRegisterInfo.h:45

llvm::TypeSize
Definition TypeSize.h:332

llvm::Type
The instances of the Type class are immutable: once they are created, they are never changed.
Definition Type.h:45

llvm::Use
A Use represents the edge between a Value definition and its users.
Definition Use.h:35

llvm::Value::getName
LLVM_ABI StringRef getName() const
Return a constant reference to the value's name.
Definition Value.cpp:322

llvm::cl::opt
Definition CommandLine.h:1429

llvm::ilist_node_impl::getIterator
self_iterator getIterator()
Definition ilist_node.h:134

uint16_t

uint32_t

uint64_t

llvm_unreachable
#define llvm_unreachable(msg)
Marks that the current location is not supposed to be reachable.
Definition ErrorHandling.h:164

llvm::AMDGPUAS::CONSTANT_ADDRESS_32BIT
@ CONSTANT_ADDRESS_32BIT
Address space for 32-bit constant memory.
Definition AMDGPUAddrSpace.h:38

llvm::AMDGPUAS::BUFFER_STRIDED_POINTER
@ BUFFER_STRIDED_POINTER
Address space for 192-bit fat buffer pointers with an additional index.
Definition AMDGPUAddrSpace.h:45

llvm::AMDGPUAS::REGION_ADDRESS
@ REGION_ADDRESS
Address space for region memory. (GDS)
Definition AMDGPUAddrSpace.h:32

llvm::AMDGPUAS::LOCAL_ADDRESS
@ LOCAL_ADDRESS
Address space for local memory.
Definition AMDGPUAddrSpace.h:34

llvm::AMDGPUAS::CONSTANT_ADDRESS
@ CONSTANT_ADDRESS
Address space for constant memory (VTX2).
Definition AMDGPUAddrSpace.h:35

llvm::AMDGPUAS::FLAT_ADDRESS
@ FLAT_ADDRESS
Address space for flat memory.
Definition AMDGPUAddrSpace.h:30

llvm::AMDGPUAS::GLOBAL_ADDRESS
@ GLOBAL_ADDRESS
Address space for global memory (RAT0, VTX0).
Definition AMDGPUAddrSpace.h:31

llvm::AMDGPUAS::BUFFER_FAT_POINTER
@ BUFFER_FAT_POINTER
Address space for 160-bit buffer fat pointers.
Definition AMDGPUAddrSpace.h:40

llvm::AMDGPUAS::PRIVATE_ADDRESS
@ PRIVATE_ADDRESS
Address space for private memory.
Definition AMDGPUAddrSpace.h:36

llvm::AMDGPUAS::BUFFER_RESOURCE
@ BUFFER_RESOURCE
Address space for 128-bit buffer resources.
Definition AMDGPUAddrSpace.h:43

llvm::AMDGPU::Hwreg::ID_TRAPSTS
@ ID_TRAPSTS
Definition SIDefines.h:504

llvm::AMDGPU::Hwreg::ID_MODE
@ ID_MODE
Definition SIDefines.h:502

llvm::AMDGPU::getMIMGOpcode
int getMIMGOpcode(unsigned BaseOpcode, unsigned MIMGEncoding, unsigned VDataDwords, unsigned VAddrDwords)
Definition AMDGPUBaseInfo.cpp:303

llvm::AMDGPU::isFlatGlobalAddrSpace
bool isFlatGlobalAddrSpace(unsigned AS)
Definition AMDGPUAddrSpace.h:86

llvm::AMDGPU::AMDHSA_COV5
@ AMDHSA_COV5
Definition AMDGPUBaseInfo.h:61

llvm::AMDGPU::isGFX12Plus
bool isGFX12Plus(const MCSubtargetInfo &STI)
Definition AMDGPUBaseInfo.cpp:2522

llvm::AMDGPU::isGFX11
bool isGFX11(const MCSubtargetInfo &STI)
Definition AMDGPUBaseInfo.cpp:2510

llvm::AMDGPU::isLegalDPALU_DPPControl
LLVM_READNONE bool isLegalDPALU_DPPControl(const MCSubtargetInfo &ST, unsigned DC)
Definition AMDGPUBaseInfo.h:1766

llvm::AMDGPU::getAMDHSACodeObjectVersion
unsigned getAMDHSACodeObjectVersion(const Module &M)
Definition AMDGPUBaseInfo.cpp:202

llvm::AMDGPU::isKernel
LLVM_READNONE constexpr bool isKernel(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1499

llvm::AMDGPU::isEntryFunctionCC
LLVM_READNONE constexpr bool isEntryFunctionCC(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1454

llvm::AMDGPU::isCompute
LLVM_READNONE constexpr bool isCompute(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1449

llvm::AMDGPU::isNamedBarrier
TargetExtType * isNamedBarrier(const GlobalVariable &GV)
Definition AMDGPUMemoryUtils.cpp:61

llvm::AMDGPU::isGFX11Plus
bool isGFX11Plus(const MCSubtargetInfo &STI)
Definition AMDGPUBaseInfo.cpp:2514

llvm::AMDGPU::isGFX1250
bool isGFX1250(const MCSubtargetInfo &STI)
Definition AMDGPUBaseInfo.cpp:2526

llvm::AMDGPU::getMIMGBaseOpcodeInfo
LLVM_READONLY const MIMGBaseOpcodeInfo * getMIMGBaseOpcodeInfo(unsigned BaseOpcode)

llvm::AMDGPU::getBaseWithConstantOffset
std::pair< Register, unsigned > getBaseWithConstantOffset(MachineRegisterInfo &MRI, Register Reg, GISelValueTracking *ValueTracking=nullptr, bool CheckNUW=false)
Returns base register and constant offset.
Definition AMDGPUGlobalISelUtils.cpp:26

llvm::AMDGPU::getImageDimIntrinsicInfo
const ImageDimIntrinsicInfo * getImageDimIntrinsicInfo(unsigned Intr)

llvm::CallingConv::ID
unsigned ID
LLVM IR allows to use arbitrary numbers as calling convention identifiers.
Definition CallingConv.h:24

llvm::CallingConv::MaxID
@ MaxID
The highest possible ID. Must be some 2^k - 1.
Definition CallingConv.h:291

llvm::CallingConv::AMDGPU_Gfx
@ AMDGPU_Gfx
Used for AMD graphics targets.
Definition CallingConv.h:232

llvm::CallingConv::Fast
@ Fast
Attempts to make calls as fast as possible (e.g.
Definition CallingConv.h:41

llvm::CallingConv::C
@ C
The default llvm calling convention, compatible with C.
Definition CallingConv.h:34

llvm::Intrinsic::ID
unsigned ID
Definition GenericSSAContext.h:28

llvm::LegalityPredicates
Definition LegalizerInfo.h:203

llvm::LegalityPredicates::scalarOrEltWiderThan
LLVM_ABI LegalityPredicate scalarOrEltWiderThan(unsigned TypeIdx, unsigned Size)
True iff the specified type index is a scalar or a vector with an element type that's wider than the ...
Definition LegalityPredicates.cpp:158

llvm::LegalityPredicates::isScalar
LLVM_ABI LegalityPredicate isScalar(unsigned TypeIdx)
True iff the specified type index is a scalar.
Definition LegalityPredicates.cpp:78

llvm::LegalityPredicates::isPointer
LLVM_ABI LegalityPredicate isPointer(unsigned TypeIdx)
True iff the specified type index is a pointer (with any address space).
Definition LegalityPredicates.cpp:90

llvm::LegalityPredicates::typeInSet
LLVM_ABI LegalityPredicate typeInSet(unsigned TypeIdx, std::initializer_list< LLT > TypesInit)
True iff the given type index is one of the specified types.
Definition LegalityPredicates.cpp:34

llvm::LegalityPredicates::smallerThan
LLVM_ABI LegalityPredicate smallerThan(unsigned TypeIdx0, unsigned TypeIdx1)
True iff the first type index has a smaller total bit size than second type index.
Definition LegalityPredicates.cpp:134

llvm::LegalityPredicates::largerThan
LLVM_ABI LegalityPredicate largerThan(unsigned TypeIdx0, unsigned TypeIdx1)
True iff the first type index has a larger total bit size than second type index.
Definition LegalityPredicates.cpp:142

llvm::LegalityPredicates::elementTypeIs
LLVM_ABI LegalityPredicate elementTypeIs(unsigned TypeIdx, LLT EltTy)
True if the type index is a vector with element type EltTy.
Definition LegalityPredicates.cpp:110

llvm::LegalityPredicates::sameSize
LLVM_ABI LegalityPredicate sameSize(unsigned TypeIdx0, unsigned TypeIdx1)
True iff the specified type indices are both the same bit size.
Definition LegalityPredicates.cpp:195

llvm::LegalityPredicates::scalarOrEltNarrowerThan
LLVM_ABI LegalityPredicate scalarOrEltNarrowerThan(unsigned TypeIdx, unsigned Size)
True iff the specified type index is a scalar or vector with an element type that's narrower than the...
Definition LegalityPredicates.cpp:150

llvm::LegalityPredicates::sizeIs
LLVM_ABI LegalityPredicate sizeIs(unsigned TypeIdx, unsigned Size)
True if the total bitwidth of the specified type index is Size bits.
Definition LegalityPredicates.cpp:189

llvm::LegalityPredicates::typeIsNot
LegalityPredicate typeIsNot(unsigned TypeIdx, LLT Type)
True iff the given type index is not the specified type.
Definition LegalizerInfo.h:264

llvm::LegalityPredicates::all
Predicate all(Predicate P0, Predicate P1)
True iff P0 and P1 are true.
Definition LegalizerInfo.h:233

llvm::LegalityPredicates::typeIs
LLVM_ABI LegalityPredicate typeIs(unsigned TypeIdx, LLT TypesInit)
True iff the given type index is the specified type.
Definition LegalityPredicates.cpp:28

llvm::LegalityPredicates::scalarNarrowerThan
LLVM_ABI LegalityPredicate scalarNarrowerThan(unsigned TypeIdx, unsigned Size)
True iff the specified type index is a scalar that's narrower than the given size.
Definition LegalityPredicates.cpp:118

llvm::LegalizeActions
Definition LegalizerInfo.h:44

llvm::LegalizeMutations
Definition LegalizerInfo.h:362

llvm::LegalizeMutations::scalarize
LLVM_ABI LegalizeMutation scalarize(unsigned TypeIdx)
Break up the vector type for the given type index into the element type.
Definition LegalizeMutations.cpp:108

llvm::LegalizeMutations::widenScalarOrEltToNextPow2
LLVM_ABI LegalizeMutation widenScalarOrEltToNextPow2(unsigned TypeIdx, unsigned Min=0)
Widen the scalar type or vector element type for the given type index to the next power of 2.
Definition LegalizeMutations.cpp:77

llvm::LegalizeMutations::changeTo
LLVM_ABI LegalizeMutation changeTo(unsigned TypeIdx, LLT Ty)
Select this specific type for the given type index.
Definition LegalizeMutations.cpp:17

llvm::MIPatternMatch
Definition MIPatternMatch.h:25

llvm::RegState::Implicit
@ Implicit
Not emitted register (e.g. carry, or temporary result).
Definition MachineInstrBuilder.h:49

llvm::SI::KernelInputOffsets::NGROUPS_Y
@ NGROUPS_Y
Definition SIInstrInfo.h:1724

llvm::SI::KernelInputOffsets::NGROUPS_Z
@ NGROUPS_Z
Definition SIInstrInfo.h:1725

llvm::SI::KernelInputOffsets::LOCAL_SIZE_Z
@ LOCAL_SIZE_Z
Definition SIInstrInfo.h:1731

llvm::SI::KernelInputOffsets::NGROUPS_X
@ NGROUPS_X
Definition SIInstrInfo.h:1723

llvm::SI::KernelInputOffsets::LOCAL_SIZE_Y
@ LOCAL_SIZE_Y
Definition SIInstrInfo.h:1730

llvm::SI::KernelInputOffsets::LOCAL_SIZE_X
@ LOCAL_SIZE_X
Definition SIInstrInfo.h:1729

llvm::TargetOpcode
Invariant opcodes: All instruction sets have these as their low opcodes.
Definition TargetOpcodes.h:20

llvm::cl::ReallyHidden
@ ReallyHidden
Definition CommandLine.h:139

llvm::cl::init
initializer< Ty > init(const Ty &Val)
Definition CommandLine.h:444

llvm::numbers::inv_pi
constexpr double inv_pi
Definition MathExtras.h:54

llvm::numbers::ln2
constexpr double ln2
Definition MathExtras.h:49

llvm::numbers::ln10
constexpr double ln10
Definition MathExtras.h:50

llvm::numbers::log2ef
constexpr float log2ef
Definition MathExtras.h:66

llvm::numbers::log2e
constexpr double log2e
Definition MathExtras.h:51

llvm
This is an optimization pass for GlobalISel generic memory operations.
Definition AddressRanges.h:18

llvm::getFunctionLiveInPhysReg
LLVM_ABI Register getFunctionLiveInPhysReg(MachineFunction &MF, const TargetInstrInfo &TII, MCRegister PhysReg, const TargetRegisterClass &RC, const DebugLoc &DL, LLT RegTy=LLT())
Return a virtual register corresponding to the incoming argument register PhysReg.
Definition Utils.cpp:916

llvm::Log2_32_Ceil
unsigned Log2_32_Ceil(uint32_t Value)
Return the ceil log base 2 of the specified value, 32 if the value is zero.
Definition MathExtras.h:349

llvm::Offset
@ Offset
Definition DWP.cpp:477

llvm::getTypeForLLT
LLVM_ABI Type * getTypeForLLT(LLT Ty, LLVMContext &C)
Get the type back from LLT.
Definition Utils.cpp:2029

llvm::getOpcodeDef
LLVM_ABI MachineInstr * getOpcodeDef(unsigned Opcode, Register Reg, const MachineRegisterInfo &MRI)
See if Reg is defined by an single def instruction that is Opcode.
Definition Utils.cpp:651

llvm::popcount
int popcount(T Value) noexcept
Count the number of set bits in a value.
Definition bit.h:307

llvm::getConstantFPVRegVal
LLVM_ABI const ConstantFP * getConstantFPVRegVal(Register VReg, const MachineRegisterInfo &MRI)
Definition Utils.cpp:459

llvm::BuildMI
MachineInstrBuilder BuildMI(MachineFunction &MF, const MIMetadata &MIMD, const MCInstrDesc &MCID)
Builder interface. Specify how to create the initial instruction itself.
Definition MachineInstrBuilder.h:369

llvm::isInt
constexpr bool isInt(int64_t x)
Checks if an integer fits into the given bit width.
Definition MathExtras.h:174

llvm::make_scope_exit
detail::scope_exit< std::decay_t< Callable > > make_scope_exit(Callable &&F)
Definition ScopeExit.h:59

llvm::LoopIdiomVectorizeStyle::Masked
@ Masked
Definition LoopIdiomVectorize.h:16

llvm::getFltSemanticForLLT
LLVM_ABI const llvm::fltSemantics & getFltSemanticForLLT(LLT Ty)
Get the appropriate floating point arithmetic semantic based on the bit size of the given scalar LLT.
Definition LowLevelTypeUtils.cpp:74

llvm::LegalizeMutation
std::function< std::pair< unsigned, LLT >(const LegalityQuery &)> LegalizeMutation
Definition LegalizerInfo.h:200

llvm::bit_width
int bit_width(T Value)
Returns the number of bits needed to represent Value if Value is nonzero.
Definition bit.h:270

llvm::PointerTy
void * PointerTy
Definition GenericValue.h:21

llvm::isPowerOf2_64
constexpr bool isPowerOf2_64(uint64_t Value)
Return true if the argument is a power of two > 0 (64 bit edition.)
Definition MathExtras.h:293

llvm::PowerOf2Ceil
uint64_t PowerOf2Ceil(uint64_t A)
Returns the power of two which is greater than or equal to the given value.
Definition MathExtras.h:390

llvm::getIConstantVRegSExtVal
LLVM_ABI std::optional< int64_t > getIConstantVRegSExtVal(Register VReg, const MachineRegisterInfo &MRI)
If VReg is defined by a G_CONSTANT fits in int64_t returns it.
Definition Utils.cpp:314

llvm::countr_zero
int countr_zero(T Val)
Count number of 0's from the least significant bit to the most stopping at the first 1.
Definition bit.h:157

llvm::has_single_bit
constexpr bool has_single_bit(T Value) noexcept
Definition bit.h:147

llvm::LegalityPredicate
std::function< bool(const LegalityQuery &)> LegalityPredicate
Definition LegalizerInfo.h:199

llvm::isPowerOf2_32
constexpr bool isPowerOf2_32(uint32_t Value)
Return true if the argument is a power of two > 0.
Definition MathExtras.h:288

llvm::fcZero
@ fcZero
Definition FloatingPointMode.h:258

llvm::fcPosInf
@ fcPosInf
Definition FloatingPointMode.h:252

llvm::isa
bool isa(const From &Val)
isa<X> - Return true if the parameter to the template is an instance of one of the template type argu...
Definition Casting.h:548

llvm::MutableArrayRef
MutableArrayRef(T &OneElt) -> MutableArrayRef< T >

llvm::PackElem::Hi
@ Hi
Definition VECustomDAG.h:132

llvm::PackElem::Lo
@ Lo
Definition VECustomDAG.h:131

llvm::AtomicOrdering::NotAtomic
@ NotAtomic
Definition AtomicOrdering.h:57

llvm::divideCeil
constexpr T divideCeil(U Numerator, V Denominator)
Returns the integer ceil(Numerator / Denominator).
Definition MathExtras.h:399

llvm::LEB128Sign::Signed
@ Signed
Definition LEB128.h:234

llvm::bit_cast
To bit_cast(const From &from) noexcept
Definition bit.h:90

llvm::RecurKind::Mul
@ Mul
Product of integers.
Definition IVDescriptors.h:40

llvm::RecurKind::FMul
@ FMul
Product of floats.
Definition IVDescriptors.h:49

llvm::RecurKind::Sub
@ Sub
Subtraction of integers.
Definition IVDescriptors.h:38

llvm::RecurKind::Add
@ Add
Sum of integers.
Definition IVDescriptors.h:37

llvm::alignTo
uint64_t alignTo(uint64_t Size, Align A)
Returns a multiple of A needed to store Size bytes.
Definition Alignment.h:155

llvm::Next
FunctionAddr VTableAddr Next
Definition InstrProf.h:141

llvm::Op
DWARFExpression::Operation Op
Definition DWARFExpressionPrinter.cpp:22

llvm::ReplacementType::Format
@ Format
Definition FormatVariadic.h:47

llvm::ArrayRef
ArrayRef(const T &OneElt) -> ArrayRef< T >

llvm::eraseInstr
LLVM_ABI void eraseInstr(MachineInstr &MI, MachineRegisterInfo &MRI, LostDebugLocObserver *LocObserver=nullptr)
Definition Utils.cpp:1718

llvm::DS_Warning
@ DS_Warning
Definition DiagnosticInfo.h:53

llvm::cast
decltype(auto) cast(const From &Val)
cast<X> - Return the argument parameter cast to the specified type.
Definition Casting.h:565

llvm::getIConstantVRegValWithLookThrough
LLVM_ABI std::optional< ValueAndVReg > getIConstantVRegValWithLookThrough(Register VReg, const MachineRegisterInfo &MRI, bool LookThroughInstrs=true)
If VReg is defined by a statically evaluable chain of instructions rooted on a G_CONSTANT returns its...
Definition Utils.cpp:433

llvm::is_contained
bool is_contained(R &&Range, const E &Element)
Returns true if Element is found in Range.
Definition STLExtras.h:1899

llvm::commonAlignment
Align commonAlignment(Align A, uint64_t Offset)
Returns the alignment that satisfies both alignments.
Definition Alignment.h:212

llvm::Log2
unsigned Log2(Align A)
Returns the log2 of the alignment.
Definition Alignment.h:208

llvm::bit_floor
T bit_floor(T Value)
Returns the largest integral power of two no greater than Value if Value is nonzero.
Definition bit.h:280

llvm::fltNanEncoding::AllOnes
@ AllOnes
Definition APFloat.cpp:92

llvm::NextPowerOf2
constexpr uint64_t NextPowerOf2(uint64_t A)
Returns the next power of two (in 64-bits) that is strictly greater than A.
Definition MathExtras.h:378

std::swap
void swap(llvm::BitVector &LHS, llvm::BitVector &RHS)
Implement std::swap in terms of BitVector swap.
Definition BitVector.h:853

N
#define N

llvm::AMDGPUFunctionArgInfo::PreloadedValue
PreloadedValue
Definition AMDGPUArgumentUsageInfo.h:105

llvm::AMDGPUFunctionArgInfo::LDS_KERNEL_ID
@ LDS_KERNEL_ID
Definition AMDGPUArgumentUsageInfo.h:113

llvm::AMDGPUFunctionArgInfo::QUEUE_PTR
@ QUEUE_PTR
Definition AMDGPUArgumentUsageInfo.h:109

llvm::AMDGPUFunctionArgInfo::IMPLICIT_ARG_PTR
@ IMPLICIT_ARG_PTR
Definition AMDGPUArgumentUsageInfo.h:119

llvm::AMDGPUFunctionArgInfo::WORKITEM_ID_Y
@ WORKITEM_ID_Y
Definition AMDGPUArgumentUsageInfo.h:124

llvm::AMDGPUFunctionArgInfo::WORKGROUP_ID_Y
@ WORKGROUP_ID_Y
Definition AMDGPUArgumentUsageInfo.h:115

llvm::AMDGPUFunctionArgInfo::DISPATCH_ID
@ DISPATCH_ID
Definition AMDGPUArgumentUsageInfo.h:111

llvm::AMDGPUFunctionArgInfo::DISPATCH_PTR
@ DISPATCH_PTR
Definition AMDGPUArgumentUsageInfo.h:108

llvm::AMDGPUFunctionArgInfo::WORKGROUP_ID_X
@ WORKGROUP_ID_X
Definition AMDGPUArgumentUsageInfo.h:114

llvm::AMDGPUFunctionArgInfo::IMPLICIT_BUFFER_PTR
@ IMPLICIT_BUFFER_PTR
Definition AMDGPUArgumentUsageInfo.h:118

llvm::AMDGPUFunctionArgInfo::WORKITEM_ID_X
@ WORKITEM_ID_X
Definition AMDGPUArgumentUsageInfo.h:123

llvm::AMDGPUFunctionArgInfo::WORKITEM_ID_Z
@ WORKITEM_ID_Z
Definition AMDGPUArgumentUsageInfo.h:125

llvm::AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR
@ KERNARG_SEGMENT_PTR
Definition AMDGPUArgumentUsageInfo.h:110

llvm::AMDGPUFunctionArgInfo::WORKGROUP_ID_Z
@ WORKGROUP_ID_Z
Definition AMDGPUArgumentUsageInfo.h:116

llvm::AMDGPU::EncodingFields< HwregId, HwregOffset, HwregSize >::encode
static constexpr uint64_t encode(Fields... Values)
Definition AMDGPUBaseInfo.h:403

llvm::AMDGPU::ImageDimIntrinsicInfo
Definition AMDGPUInstrInfo.h:50

llvm::AMDGPU::ImageDimIntrinsicInfo::NumVAddrs
uint8_t NumVAddrs
Definition AMDGPUInstrInfo.h:61

llvm::AMDGPU::ImageDimIntrinsicInfo::BaseOpcode
unsigned BaseOpcode
Definition AMDGPUInstrInfo.h:52

llvm::AMDGPU::ImageDimIntrinsicInfo::VAddrEnd
uint8_t VAddrEnd
Definition AMDGPUInstrInfo.h:73

llvm::AMDGPU::ImageDimIntrinsicInfo::NumBiasArgs
uint8_t NumBiasArgs
Definition AMDGPUInstrInfo.h:56

llvm::AMDGPU::ImageDimIntrinsicInfo::BiasIndex
uint8_t BiasIndex
Definition AMDGPUInstrInfo.h:67

llvm::AMDGPU::ImageDimIntrinsicInfo::GradientStart
uint8_t GradientStart
Definition AMDGPUInstrInfo.h:69

llvm::AMDGPU::ImageDimIntrinsicInfo::NumGradients
uint8_t NumGradients
Definition AMDGPUInstrInfo.h:58

llvm::AMDGPU::ImageDimIntrinsicInfo::CoordStart
uint8_t CoordStart
Definition AMDGPUInstrInfo.h:70

llvm::AMDGPU::ImageDimIntrinsicInfo::VAddrStart
uint8_t VAddrStart
Definition AMDGPUInstrInfo.h:65

llvm::AMDGPU::ImageDimIntrinsicInfo::DMaskIndex
uint8_t DMaskIndex
Definition AMDGPUInstrInfo.h:64

llvm::AMDGPU::MIMGBaseOpcodeInfo
Definition AMDGPUBaseInfo.h:421

llvm::AMDGPU::MIMGBaseOpcodeInfo::Gather4
bool Gather4
Definition AMDGPUBaseInfo.h:427

llvm::AMDGPU::MIMGBaseOpcodeInfo::Gradients
bool Gradients
Definition AMDGPUBaseInfo.h:430

llvm::AMDGPU::MIMGBaseOpcodeInfo::AtomicX2
bool AtomicX2
Definition AMDGPUBaseInfo.h:425

llvm::AMDGPU::MIMGBaseOpcodeInfo::Sampler
bool Sampler
Definition AMDGPUBaseInfo.h:426

llvm::AMDGPU::MIMGBaseOpcodeInfo::BaseOpcode
MIMGBaseOpcode BaseOpcode
Definition AMDGPUBaseInfo.h:422

llvm::AMDGPU::MIMGBaseOpcodeInfo::NoReturn
bool NoReturn
Definition AMDGPUBaseInfo.h:438

llvm::AMDGPU::MIMGBaseOpcodeInfo::Store
bool Store
Definition AMDGPUBaseInfo.h:423

llvm::AMDGPU::MIMGBaseOpcodeInfo::Atomic
bool Atomic
Definition AMDGPUBaseInfo.h:424

llvm::APFloatBase::IEEEsingle
static LLVM_ABI const fltSemantics & IEEEsingle() LLVM_READNONE
Definition APFloat.cpp:266

llvm::APFloatBase::IEEEdouble
static LLVM_ABI const fltSemantics & IEEEdouble() LLVM_READNONE
Definition APFloat.cpp:267

llvm::Align
This struct is a compact representation of a valid (non-zero power of two) alignment.
Definition Alignment.h:39

llvm::Align::value
uint64_t value() const
This is a hole in the type system and should not be abused.
Definition Alignment.h:85

llvm::ArgDescriptor
Definition AMDGPUArgumentUsageInfo.h:25

llvm::ArgDescriptor::getRegister
MCRegister getRegister() const
Definition AMDGPUArgumentUsageInfo.h:70

llvm::ArgDescriptor::isMasked
bool isMasked() const
Definition AMDGPUArgumentUsageInfo.h:86

llvm::ArgDescriptor::createRegister
static ArgDescriptor createRegister(Register Reg, unsigned Mask=~0u)
Definition AMDGPUArgumentUsageInfo.h:46

llvm::ArgDescriptor::getMask
unsigned getMask() const
Definition AMDGPUArgumentUsageInfo.h:80

llvm::DenormalMode::Input
DenormalModeKind Input
Denormal treatment kind for floating point instruction inputs in the default floating-point environme...
Definition FloatingPointMode.h:97

llvm::DenormalMode::PreserveSign
@ PreserveSign
The sign of a flushed-to-zero number is preserved in the sign of 0.
Definition FloatingPointMode.h:81

llvm::DenormalMode::Dynamic
@ Dynamic
Denormals have unknown treatment.
Definition FloatingPointMode.h:87

llvm::DenormalMode::getPreserveSign
static constexpr DenormalMode getPreserveSign()
Definition FloatingPointMode.h:119

llvm::DenormalMode::getIEEE
static constexpr DenormalMode getIEEE()
Definition FloatingPointMode.h:115

llvm::KnownBits::isZero
bool isZero() const
Returns true if value is all zero.
Definition KnownBits.h:80

llvm::LegalityQuery
The LegalityQuery object bundles together all the information that's needed to decide whether a given...
Definition LegalizerInfo.h:111

llvm::LegalityQuery::MMODescrs
ArrayRef< MemDesc > MMODescrs
Operations which require memory can use this to place requirements on the memory type for each MMO.
Definition LegalizerInfo.h:130

llvm::LegalityQuery::Types
ArrayRef< LLT > Types
Definition LegalizerInfo.h:113

llvm::LegalityQuery::Opcode
unsigned Opcode
Definition LegalizerInfo.h:112

llvm::MIPatternMatch::And
Matching combinators.
Definition MIPatternMatch.h:313

llvm::MachinePointerInfo
This class contains a discriminated union of information about pointers in memory operands,...
Definition MachineMemOperand.h:42

llvm::MachinePointerInfo::getGOT
static LLVM_ABI MachinePointerInfo getGOT(MachineFunction &MF)
Return a MachinePointerInfo record that refers to a GOT entry.
Definition MachineOperand.cpp:1073

llvm::SIModeRegisterDefaults
Definition SIModeRegisterDefaults.h:20

llvm::SIModeRegisterDefaults::FP64FP16Denormals
DenormalMode FP64FP16Denormals
If this is set, neither input or output denormals are flushed for both f64 and f16/v2f16 instructions...
Definition SIModeRegisterDefaults.h:37

llvm::SIModeRegisterDefaults::IEEE
bool IEEE
Floating point opcodes that support exception flag gathering quiet and propagate signaling NaN inputs...
Definition SIModeRegisterDefaults.h:25

llvm::SIModeRegisterDefaults::FP32Denormals
DenormalMode FP32Denormals
If this is set, neither input or output denormals are flushed for most f32 instructions.
Definition SIModeRegisterDefaults.h:33

llvm::cl::desc
Definition CommandLine.h:410

llvm::fltSemantics
Definition APFloat.cpp:103