LLVM: lib/Target/AMDGPU/AMDGPUCallLowering.cpp Source File

//===-- llvm/lib/Target/AMDGPU/AMDGPUCallLowering.cpp - Call lowering -----===//

//

// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

// See https://llvm.org/LICENSE.txt for license information.

// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

//

//===----------------------------------------------------------------------===//

///

/// \file

/// This file implements the lowering of LLVM calls to machine code calls for

/// GlobalISel.

///

//===----------------------------------------------------------------------===//


#include "AMDGPUCallLowering.h"

#include "AMDGPU.h"

#include "AMDGPULegalizerInfo.h"

#include "SIMachineFunctionInfo.h"

#include "SIRegisterInfo.h"

#include "llvm/CodeGen/Analysis.h"

#include "llvm/CodeGen/FunctionLoweringInfo.h"

#include "llvm/CodeGen/GlobalISel/MachineIRBuilder.h"

#include "llvm/CodeGen/MachineFrameInfo.h"

#include "llvm/IR/IntrinsicsAMDGPU.h"


#define DEBUG_TYPE "amdgpu-call-lowering"


using namespace llvm;


namespace {


/// Wrapper around extendRegister to ensure we extend to a full 32-bit register.

static Register extendRegisterMin32(CallLowering::ValueHandler &Handler,

                                    Register ValVReg, const CCValAssign &VA) {

  if (VA.getLocVT().getSizeInBits() < 32) {

    // 16-bit types are reported as legal for 32-bit registers. We need to

    // extend and do a 32-bit copy to avoid the verifier complaining about it.

    return Handler.MIRBuilder.buildAnyExt(LLT::scalar(32), ValVReg).getReg(0);

  }


  return Handler.extendRegister(ValVReg, VA);

}


struct AMDGPUOutgoingValueHandler : public CallLowering::OutgoingValueHandler {

  AMDGPUOutgoingValueHandler(MachineIRBuilder &B, MachineRegisterInfo &MRI,

                             MachineInstrBuilder MIB)

      : OutgoingValueHandler(B, MRI), MIB(MIB) {}


  MachineInstrBuilder MIB;


  Register getStackAddress(uint64_t Size, int64_t Offset,

                           MachinePointerInfo &MPO,

                           ISD::ArgFlagsTy Flags) override {

    llvm_unreachable("not implemented");

  }


  void assignValueToAddress(Register ValVReg, Register Addr, LLT MemTy,

                            const MachinePointerInfo &MPO,

                            const CCValAssign &VA) override {

    llvm_unreachable("not implemented");

  }


  void assignValueToReg(Register ValVReg, Register PhysReg,

                        const CCValAssign &VA) override {

    Register ExtReg = extendRegisterMin32(*this, ValVReg, VA);


    // If this is a scalar return, insert a readfirstlane just in case the value

    // ends up in a VGPR.

    // FIXME: Assert this is a shader return.

    const SIRegisterInfo *TRI

      = static_cast<const SIRegisterInfo *>(MRI.getTargetRegisterInfo());

    if (TRI->isSGPRReg(MRI, PhysReg)) {

      LLT Ty = MRI.getType(ExtReg);

      LLT S32 = LLT::scalar(32);

      if (Ty != S32) {

        // FIXME: We should probably support readfirstlane intrinsics with all

        // legal 32-bit types.

        assert(Ty.getSizeInBits() == 32);

        if (Ty.isPointer())

          ExtReg = MIRBuilder.buildPtrToInt(S32, ExtReg).getReg(0);

        else

          ExtReg = MIRBuilder.buildBitcast(S32, ExtReg).getReg(0);

      }


      auto ToSGPR = MIRBuilder

                        .buildIntrinsic(Intrinsic::amdgcn_readfirstlane,

                                        {MRI.getType(ExtReg)})

                        .addReg(ExtReg);

      ExtReg = ToSGPR.getReg(0);

    }


    MIRBuilder.buildCopy(PhysReg, ExtReg);

    MIB.addUse(PhysReg, RegState::Implicit);

  }

};


struct AMDGPUIncomingArgHandler : public CallLowering::IncomingValueHandler {

  uint64_t StackUsed = 0;


  AMDGPUIncomingArgHandler(MachineIRBuilder &B, MachineRegisterInfo &MRI)

      : IncomingValueHandler(B, MRI) {}


  Register getStackAddress(uint64_t Size, int64_t Offset,

                           MachinePointerInfo &MPO,

                           ISD::ArgFlagsTy Flags) override {

    auto &MFI = MIRBuilder.getMF().getFrameInfo();


    // Byval is assumed to be writable memory, but other stack passed arguments

    // are not.

    const bool IsImmutable = !Flags.isByVal();

    int FI = MFI.CreateFixedObject(Size, Offset, IsImmutable);

    MPO = MachinePointerInfo::getFixedStack(MIRBuilder.getMF(), FI);

    auto AddrReg = MIRBuilder.buildFrameIndex(

        LLT::pointer(AMDGPUAS::PRIVATE_ADDRESS, 32), FI);

    StackUsed = std::max(StackUsed, Size + Offset);

    return AddrReg.getReg(0);

  }


  void assignValueToReg(Register ValVReg, Register PhysReg,

                        const CCValAssign &VA) override {

    markPhysRegUsed(PhysReg);


    if (VA.getLocVT().getSizeInBits() < 32) {

      // 16-bit types are reported as legal for 32-bit registers. We need to do

      // a 32-bit copy, and truncate to avoid the verifier complaining about it.

      auto Copy = MIRBuilder.buildCopy(LLT::scalar(32), PhysReg);


      // If we have signext/zeroext, it applies to the whole 32-bit register

      // before truncation.

      auto Extended =

          buildExtensionHint(VA, Copy.getReg(0), LLT(VA.getLocVT()));

      MIRBuilder.buildTrunc(ValVReg, Extended);

      return;

    }


    IncomingValueHandler::assignValueToReg(ValVReg, PhysReg, VA);

  }


  void assignValueToAddress(Register ValVReg, Register Addr, LLT MemTy,

                            const MachinePointerInfo &MPO,

                            const CCValAssign &VA) override {

    MachineFunction &MF = MIRBuilder.getMF();


    auto *MMO = MF.getMachineMemOperand(

        MPO, MachineMemOperand::MOLoad | MachineMemOperand::MOInvariant, MemTy,

        inferAlignFromPtrInfo(MF, MPO));

    MIRBuilder.buildLoad(ValVReg, Addr, *MMO);

  }


  /// How the physical register gets marked varies between formal

  /// parameters (it's a basic-block live-in), and a call instruction

  /// (it's an implicit-def of the BL).

  virtual void markPhysRegUsed(unsigned PhysReg) = 0;

};


struct FormalArgHandler : public AMDGPUIncomingArgHandler {

  FormalArgHandler(MachineIRBuilder &B, MachineRegisterInfo &MRI)

      : AMDGPUIncomingArgHandler(B, MRI) {}


  void markPhysRegUsed(unsigned PhysReg) override {

    MIRBuilder.getMBB().addLiveIn(PhysReg);

  }

};


struct CallReturnHandler : public AMDGPUIncomingArgHandler {

  CallReturnHandler(MachineIRBuilder &MIRBuilder, MachineRegisterInfo &MRI,

                    MachineInstrBuilder MIB)

      : AMDGPUIncomingArgHandler(MIRBuilder, MRI), MIB(MIB) {}


  void markPhysRegUsed(unsigned PhysReg) override {

    MIB.addDef(PhysReg, RegState::Implicit);

  }


  MachineInstrBuilder MIB;

};


struct AMDGPUOutgoingArgHandler : public AMDGPUOutgoingValueHandler {

  /// For tail calls, the byte offset of the call's argument area from the

  /// callee's. Unused elsewhere.

  int FPDiff;


  // Cache the SP register vreg if we need it more than once in this call site.

  Register SPReg;


  bool IsTailCall;


  AMDGPUOutgoingArgHandler(MachineIRBuilder &MIRBuilder,

                           MachineRegisterInfo &MRI, MachineInstrBuilder MIB,

                           bool IsTailCall = false, int FPDiff = 0)

      : AMDGPUOutgoingValueHandler(MIRBuilder, MRI, MIB), FPDiff(FPDiff),

        IsTailCall(IsTailCall) {}


  Register getStackAddress(uint64_t Size, int64_t Offset,

                           MachinePointerInfo &MPO,

                           ISD::ArgFlagsTy Flags) override {

    MachineFunction &MF = MIRBuilder.getMF();

    const LLT PtrTy = LLT::pointer(AMDGPUAS::PRIVATE_ADDRESS, 32);

    const LLT S32 = LLT::scalar(32);


    if (IsTailCall) {

      Offset += FPDiff;

      int FI = MF.getFrameInfo().CreateFixedObject(Size, Offset, true);

      auto FIReg = MIRBuilder.buildFrameIndex(PtrTy, FI);

      MPO = MachinePointerInfo::getFixedStack(MF, FI);

      return FIReg.getReg(0);

    }


    const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();


    if (!SPReg) {

      const GCNSubtarget &ST = MIRBuilder.getMF().getSubtarget<GCNSubtarget>();

      if (ST.enableFlatScratch()) {

        // The stack is accessed unswizzled, so we can use a regular copy.

        SPReg = MIRBuilder.buildCopy(PtrTy,

                                     MFI->getStackPtrOffsetReg()).getReg(0);

      } else {

        // The address we produce here, without knowing the use context, is going

        // to be interpreted as a vector address, so we need to convert to a

        // swizzled address.

        SPReg = MIRBuilder.buildInstr(AMDGPU::G_AMDGPU_WAVE_ADDRESS, {PtrTy},

                                      {MFI->getStackPtrOffsetReg()}).getReg(0);

      }

    }


    auto OffsetReg = MIRBuilder.buildConstant(S32, Offset);


    auto AddrReg = MIRBuilder.buildPtrAdd(PtrTy, SPReg, OffsetReg);

    MPO = MachinePointerInfo::getStack(MF, Offset);

    return AddrReg.getReg(0);

  }


  void assignValueToAddress(Register ValVReg, Register Addr, LLT MemTy,

                            const MachinePointerInfo &MPO,

                            const CCValAssign &VA) override {

    MachineFunction &MF = MIRBuilder.getMF();

    uint64_t LocMemOffset = VA.getLocMemOffset();

    const auto &ST = MF.getSubtarget<GCNSubtarget>();


    auto *MMO = MF.getMachineMemOperand(

        MPO, MachineMemOperand::MOStore, MemTy,

        commonAlignment(ST.getStackAlignment(), LocMemOffset));

    MIRBuilder.buildStore(ValVReg, Addr, *MMO);

  }


  void assignValueToAddress(const CallLowering::ArgInfo &Arg,

                            unsigned ValRegIndex, Register Addr, LLT MemTy,

                            const MachinePointerInfo &MPO,

                            const CCValAssign &VA) override {

    Register ValVReg = VA.getLocInfo() != CCValAssign::LocInfo::FPExt

                           ? extendRegister(Arg.Regs[ValRegIndex], VA)

                           : Arg.Regs[ValRegIndex];

    assignValueToAddress(ValVReg, Addr, MemTy, MPO, VA);

  }

};

} // anonymous namespace


AMDGPUCallLowering::AMDGPUCallLowering(const AMDGPUTargetLowering &TLI)

  : CallLowering(&TLI) {

}


// FIXME: Compatibility shim


static ISD::NodeType extOpcodeToISDExtOpcode(unsigned MIOpc) {

  switch (MIOpc) {

  case TargetOpcode::G_SEXT:

    return ISD::SIGN_EXTEND;

  case TargetOpcode::G_ZEXT:

    return ISD::ZERO_EXTEND;

  case TargetOpcode::G_ANYEXT:

    return ISD::ANY_EXTEND;

  default:

    llvm_unreachable("not an extend opcode");

  }

}


bool AMDGPUCallLowering::canLowerReturn(MachineFunction &MF,

                                        CallingConv::ID CallConv,

                                        SmallVectorImpl<BaseArgInfo> &Outs,

                                        bool IsVarArg) const {

  // For shaders. Vector types should be explicitly handled by CC.

  if (AMDGPU::isEntryFunctionCC(CallConv))

    return true;


  SmallVector<CCValAssign, 16> ArgLocs;

  const SITargetLowering &TLI = *getTLI<SITargetLowering>();

  CCState CCInfo(CallConv, IsVarArg, MF, ArgLocs,

                 MF.getFunction().getContext());


  return checkReturn(CCInfo, Outs, TLI.CCAssignFnForReturn(CallConv, IsVarArg));

}


/// Lower the return value for the already existing \p Ret. This assumes that

/// \p B's insertion point is correct.

bool AMDGPUCallLowering::lowerReturnVal(MachineIRBuilder &B,

                                        const Value *Val, ArrayRef<Register> VRegs,

                                        MachineInstrBuilder &Ret) const {

  if (!Val)

    return true;


  auto &MF = B.getMF();

  const auto &F = MF.getFunction();

  const DataLayout &DL = MF.getDataLayout();

  MachineRegisterInfo *MRI = B.getMRI();

  LLVMContext &Ctx = F.getContext();


  CallingConv::ID CC = F.getCallingConv();

  const SITargetLowering &TLI = *getTLI<SITargetLowering>();


  SmallVector<EVT, 8> SplitEVTs;

  ComputeValueVTs(TLI, DL, Val->getType(), SplitEVTs);

  assert(VRegs.size() == SplitEVTs.size() &&

         "For each split Type there should be exactly one VReg.");


  SmallVector<ArgInfo, 8> SplitRetInfos;


  for (unsigned i = 0; i < SplitEVTs.size(); ++i) {

    EVT VT = SplitEVTs[i];

    Register Reg = VRegs[i];

    ArgInfo RetInfo(Reg, VT.getTypeForEVT(Ctx), 0);

    setArgFlags(RetInfo, AttributeList::ReturnIndex, DL, F);


    if (VT.isScalarInteger()) {

      unsigned ExtendOp = TargetOpcode::G_ANYEXT;

      if (RetInfo.Flags[0].isSExt()) {

        assert(RetInfo.Regs.size() == 1 && "expect only simple return values");

        ExtendOp = TargetOpcode::G_SEXT;

      } else if (RetInfo.Flags[0].isZExt()) {

        assert(RetInfo.Regs.size() == 1 && "expect only simple return values");

        ExtendOp = TargetOpcode::G_ZEXT;

      }


      EVT ExtVT = TLI.getTypeForExtReturn(Ctx, VT,

                                          extOpcodeToISDExtOpcode(ExtendOp));

      if (ExtVT != VT) {

        RetInfo.Ty = ExtVT.getTypeForEVT(Ctx);

        LLT ExtTy = getLLTForType(*RetInfo.Ty, DL);

        Reg = B.buildInstr(ExtendOp, {ExtTy}, {Reg}).getReg(0);

      }

    }


    if (Reg != RetInfo.Regs[0]) {

      RetInfo.Regs[0] = Reg;

      // Reset the arg flags after modifying Reg.

      setArgFlags(RetInfo, AttributeList::ReturnIndex, DL, F);

    }


    splitToValueTypes(RetInfo, SplitRetInfos, DL, CC);

  }


  CCAssignFn *AssignFn = TLI.CCAssignFnForReturn(CC, F.isVarArg());


  OutgoingValueAssigner Assigner(AssignFn);

  AMDGPUOutgoingValueHandler RetHandler(B, *MRI, Ret);

  return determineAndHandleAssignments(RetHandler, Assigner, SplitRetInfos, B,

                                       CC, F.isVarArg());

}


bool AMDGPUCallLowering::lowerReturn(MachineIRBuilder &B, const Value *Val,

                                     ArrayRef<Register> VRegs,

                                     FunctionLoweringInfo &FLI) const {


  MachineFunction &MF = B.getMF();

  SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  MFI->setIfReturnsVoid(!Val);


  assert(!Val == VRegs.empty() && "Return value without a vreg");


  CallingConv::ID CC = B.getMF().getFunction().getCallingConv();

  const bool IsShader = AMDGPU::isShader(CC);

  const bool IsWaveEnd =

      (IsShader && MFI->returnsVoid()) || AMDGPU::isKernel(CC);

  if (IsWaveEnd) {

    B.buildInstr(AMDGPU::S_ENDPGM)

      .addImm(0);

    return true;

  }


  const bool IsWholeWave = MFI->isWholeWaveFunction();

  unsigned ReturnOpc = IsWholeWave ? AMDGPU::G_AMDGPU_WHOLE_WAVE_FUNC_RETURN

                       : IsShader  ? AMDGPU::SI_RETURN_TO_EPILOG

                                   : AMDGPU::SI_RETURN;

  auto Ret = B.buildInstrNoInsert(ReturnOpc);


  if (!FLI.CanLowerReturn)

    insertSRetStores(B, Val->getType(), VRegs, FLI.DemoteRegister);

  else if (!lowerReturnVal(B, Val, VRegs, Ret))

    return false;


  if (IsWholeWave)

    addOriginalExecToReturn(B.getMF(), Ret);


  // TODO: Handle CalleeSavedRegsViaCopy.


  B.insertInstr(Ret);

  return true;

}


void AMDGPUCallLowering::lowerParameterPtr(Register DstReg, MachineIRBuilder &B,

                                           uint64_t Offset) const {

  MachineFunction &MF = B.getMF();

  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  MachineRegisterInfo &MRI = MF.getRegInfo();

  Register KernArgSegmentPtr =

    MFI->getPreloadedReg(AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR);

  Register KernArgSegmentVReg = MRI.getLiveInVirtReg(KernArgSegmentPtr);


  auto OffsetReg = B.buildConstant(LLT::scalar(64), Offset);


  B.buildPtrAdd(DstReg, KernArgSegmentVReg, OffsetReg);

}


void AMDGPUCallLowering::lowerParameter(MachineIRBuilder &B, ArgInfo &OrigArg,

                                        uint64_t Offset,

                                        Align Alignment) const {

  MachineFunction &MF = B.getMF();

  const Function &F = MF.getFunction();

  const DataLayout &DL = F.getDataLayout();

  MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);


  LLT PtrTy = LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64);


  SmallVector<ArgInfo, 32> SplitArgs;

  SmallVector<uint64_t> FieldOffsets;

  splitToValueTypes(OrigArg, SplitArgs, DL, F.getCallingConv(), &FieldOffsets);


  unsigned Idx = 0;

  for (ArgInfo &SplitArg : SplitArgs) {

    Register PtrReg = B.getMRI()->createGenericVirtualRegister(PtrTy);

    lowerParameterPtr(PtrReg, B, Offset + FieldOffsets[Idx]);


    LLT ArgTy = getLLTForType(*SplitArg.Ty, DL);

    if (SplitArg.Flags[0].isPointer()) {

      // Compensate for losing pointeriness in splitValueTypes.

      LLT PtrTy = LLT::pointer(SplitArg.Flags[0].getPointerAddrSpace(),

                               ArgTy.getScalarSizeInBits());

      ArgTy = ArgTy.isVector() ? LLT::vector(ArgTy.getElementCount(), PtrTy)

                               : PtrTy;

    }


    MachineMemOperand *MMO = MF.getMachineMemOperand(

        PtrInfo,

        MachineMemOperand::MOLoad | MachineMemOperand::MODereferenceable |

            MachineMemOperand::MOInvariant,

        ArgTy, commonAlignment(Alignment, FieldOffsets[Idx]));


    assert(SplitArg.Regs.size() == 1);


    B.buildLoad(SplitArg.Regs[0], PtrReg, *MMO);

    ++Idx;

  }

}


// Allocate special inputs passed in user SGPRs.


static void allocateHSAUserSGPRs(CCState &CCInfo,

                                 MachineIRBuilder &B,

                                 MachineFunction &MF,

                                 const SIRegisterInfo &TRI,

                                 SIMachineFunctionInfo &Info) {

  // FIXME: How should these inputs interact with inreg / custom SGPR inputs?

  const GCNUserSGPRUsageInfo &UserSGPRInfo = Info.getUserSGPRInfo();

  if (UserSGPRInfo.hasPrivateSegmentBuffer()) {

    Register PrivateSegmentBufferReg = Info.addPrivateSegmentBuffer(TRI);

    MF.addLiveIn(PrivateSegmentBufferReg, &AMDGPU::SGPR_128RegClass);

    CCInfo.AllocateReg(PrivateSegmentBufferReg);

  }


  if (UserSGPRInfo.hasDispatchPtr()) {

    Register DispatchPtrReg = Info.addDispatchPtr(TRI);

    MF.addLiveIn(DispatchPtrReg, &AMDGPU::SGPR_64RegClass);

    CCInfo.AllocateReg(DispatchPtrReg);

  }


  if (UserSGPRInfo.hasQueuePtr()) {

    Register QueuePtrReg = Info.addQueuePtr(TRI);

    MF.addLiveIn(QueuePtrReg, &AMDGPU::SGPR_64RegClass);

    CCInfo.AllocateReg(QueuePtrReg);

  }


  if (UserSGPRInfo.hasKernargSegmentPtr()) {

    MachineRegisterInfo &MRI = MF.getRegInfo();

    Register InputPtrReg = Info.addKernargSegmentPtr(TRI);

    const LLT P4 = LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64);

    Register VReg = MRI.createGenericVirtualRegister(P4);

    MRI.addLiveIn(InputPtrReg, VReg);

    B.getMBB().addLiveIn(InputPtrReg);

    B.buildCopy(VReg, InputPtrReg);

    CCInfo.AllocateReg(InputPtrReg);

  }


  if (UserSGPRInfo.hasDispatchID()) {

    Register DispatchIDReg = Info.addDispatchID(TRI);

    MF.addLiveIn(DispatchIDReg, &AMDGPU::SGPR_64RegClass);

    CCInfo.AllocateReg(DispatchIDReg);

  }


  if (UserSGPRInfo.hasFlatScratchInit()) {

    Register FlatScratchInitReg = Info.addFlatScratchInit(TRI);

    MF.addLiveIn(FlatScratchInitReg, &AMDGPU::SGPR_64RegClass);

    CCInfo.AllocateReg(FlatScratchInitReg);

  }


  if (UserSGPRInfo.hasPrivateSegmentSize()) {

    Register PrivateSegmentSizeReg = Info.addPrivateSegmentSize(TRI);

    MF.addLiveIn(PrivateSegmentSizeReg, &AMDGPU::SGPR_32RegClass);

    CCInfo.AllocateReg(PrivateSegmentSizeReg);

  }


  // TODO: Add GridWorkGroupCount user SGPRs when used. For now with HSA we read

  // these from the dispatch pointer.

}


bool AMDGPUCallLowering::lowerFormalArgumentsKernel(

    MachineIRBuilder &B, const Function &F,

    ArrayRef<ArrayRef<Register>> VRegs) const {

  MachineFunction &MF = B.getMF();

  const GCNSubtarget *Subtarget = &MF.getSubtarget<GCNSubtarget>();

  MachineRegisterInfo &MRI = MF.getRegInfo();

  SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();

  const SIRegisterInfo *TRI = Subtarget->getRegisterInfo();

  const SITargetLowering &TLI = *getTLI<SITargetLowering>();

  const DataLayout &DL = F.getDataLayout();


  SmallVector<CCValAssign, 16> ArgLocs;

  CCState CCInfo(F.getCallingConv(), F.isVarArg(), MF, ArgLocs, F.getContext());


  allocateHSAUserSGPRs(CCInfo, B, MF, *TRI, *Info);


  unsigned i = 0;

  const Align KernArgBaseAlign(16);

  const unsigned BaseOffset = Subtarget->getExplicitKernelArgOffset();

  uint64_t ExplicitArgOffset = 0;


  // TODO: Align down to dword alignment and extract bits for extending loads.

  for (auto &Arg : F.args()) {

    // TODO: Add support for kernarg preload.

    if (Arg.hasAttribute("amdgpu-hidden-argument")) {

      LLVM_DEBUG(dbgs() << "Preloading hidden arguments is not supported\n");

      return false;

    }


    const bool IsByRef = Arg.hasByRefAttr();

    Type *ArgTy = IsByRef ? Arg.getParamByRefType() : Arg.getType();

    unsigned AllocSize = DL.getTypeAllocSize(ArgTy);

    if (AllocSize == 0)

      continue;


    MaybeAlign ParamAlign = IsByRef ? Arg.getParamAlign() : std::nullopt;

    Align ABIAlign = DL.getValueOrABITypeAlignment(ParamAlign, ArgTy);


    uint64_t ArgOffset = alignTo(ExplicitArgOffset, ABIAlign) + BaseOffset;

    ExplicitArgOffset = alignTo(ExplicitArgOffset, ABIAlign) + AllocSize;


    if (Arg.use_empty()) {

      ++i;

      continue;

    }


    Align Alignment = commonAlignment(KernArgBaseAlign, ArgOffset);


    if (IsByRef) {

      unsigned ByRefAS = cast<PointerType>(Arg.getType())->getAddressSpace();


      assert(VRegs[i].size() == 1 &&

             "expected only one register for byval pointers");

      if (ByRefAS == AMDGPUAS::CONSTANT_ADDRESS) {

        lowerParameterPtr(VRegs[i][0], B, ArgOffset);

      } else {

        const LLT ConstPtrTy = LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64);

        Register PtrReg = MRI.createGenericVirtualRegister(ConstPtrTy);

        lowerParameterPtr(PtrReg, B, ArgOffset);


        B.buildAddrSpaceCast(VRegs[i][0], PtrReg);

      }

    } else {

      ArgInfo OrigArg(VRegs[i], Arg, i);

      const unsigned OrigArgIdx = i + AttributeList::FirstArgIndex;

      setArgFlags(OrigArg, OrigArgIdx, DL, F);

      lowerParameter(B, OrigArg, ArgOffset, Alignment);

    }


    ++i;

  }


  if (Info->getNumKernargPreloadedSGPRs())

    Info->setNumWaveDispatchSGPRs(Info->getNumUserSGPRs());


  TLI.allocateSpecialEntryInputVGPRs(CCInfo, MF, *TRI, *Info);

  TLI.allocateSystemSGPRs(CCInfo, MF, *Info, F.getCallingConv(), false);

  return true;

}


bool AMDGPUCallLowering::lowerFormalArguments(

    MachineIRBuilder &B, const Function &F, ArrayRef<ArrayRef<Register>> VRegs,

    FunctionLoweringInfo &FLI) const {

  CallingConv::ID CC = F.getCallingConv();


  // The infrastructure for normal calling convention lowering is essentially

  // useless for kernels. We want to avoid any kind of legalization or argument

  // splitting.

  if (CC == CallingConv::AMDGPU_KERNEL)

    return lowerFormalArgumentsKernel(B, F, VRegs);


  const bool IsGraphics = AMDGPU::isGraphics(CC);

  const bool IsEntryFunc = AMDGPU::isEntryFunctionCC(CC);


  MachineFunction &MF = B.getMF();

  MachineBasicBlock &MBB = B.getMBB();

  MachineRegisterInfo &MRI = MF.getRegInfo();

  SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();

  const GCNSubtarget &Subtarget = MF.getSubtarget<GCNSubtarget>();

  const SIRegisterInfo *TRI = Subtarget.getRegisterInfo();

  const DataLayout &DL = F.getDataLayout();


  SmallVector<CCValAssign, 16> ArgLocs;

  CCState CCInfo(CC, F.isVarArg(), MF, ArgLocs, F.getContext());

  const GCNUserSGPRUsageInfo &UserSGPRInfo = Info->getUserSGPRInfo();


  if (UserSGPRInfo.hasImplicitBufferPtr()) {

    Register ImplicitBufferPtrReg = Info->addImplicitBufferPtr(*TRI);

    MF.addLiveIn(ImplicitBufferPtrReg, &AMDGPU::SGPR_64RegClass);

    CCInfo.AllocateReg(ImplicitBufferPtrReg);

  }


  // FIXME: This probably isn't defined for mesa

  if (UserSGPRInfo.hasFlatScratchInit() && !Subtarget.isAmdPalOS()) {

    Register FlatScratchInitReg = Info->addFlatScratchInit(*TRI);

    MF.addLiveIn(FlatScratchInitReg, &AMDGPU::SGPR_64RegClass);

    CCInfo.AllocateReg(FlatScratchInitReg);

  }


  SmallVector<ArgInfo, 32> SplitArgs;

  unsigned Idx = 0;

  unsigned PSInputNum = 0;


  // Insert the hidden sret parameter if the return value won't fit in the

  // return registers.

  if (!FLI.CanLowerReturn)

    insertSRetIncomingArgument(F, SplitArgs, FLI.DemoteRegister, MRI, DL);


  for (auto &Arg : F.args()) {

    if (DL.getTypeStoreSize(Arg.getType()) == 0)

      continue;


    if (Info->isWholeWaveFunction() && Idx == 0) {

      assert(VRegs[Idx].size() == 1 && "Expected only one register");


      // The first argument for whole wave functions is the original EXEC value.

      B.buildInstr(AMDGPU::G_AMDGPU_WHOLE_WAVE_FUNC_SETUP)

          .addDef(VRegs[Idx][0]);


      ++Idx;

      continue;

    }


    const bool InReg = Arg.hasAttribute(Attribute::InReg);


    if (Arg.hasAttribute(Attribute::SwiftSelf) ||

        Arg.hasAttribute(Attribute::SwiftError) ||

        Arg.hasAttribute(Attribute::Nest))

      return false;


    if (CC == CallingConv::AMDGPU_PS && !InReg && PSInputNum <= 15) {

      const bool ArgUsed = !Arg.use_empty();

      bool SkipArg = !ArgUsed && !Info->isPSInputAllocated(PSInputNum);


      if (!SkipArg) {

        Info->markPSInputAllocated(PSInputNum);

        if (ArgUsed)

          Info->markPSInputEnabled(PSInputNum);

      }


      ++PSInputNum;


      if (SkipArg) {

        for (Register R : VRegs[Idx])

          B.buildUndef(R);


        ++Idx;

        continue;

      }

    }


    ArgInfo OrigArg(VRegs[Idx], Arg, Idx);

    const unsigned OrigArgIdx = Idx + AttributeList::FirstArgIndex;

    setArgFlags(OrigArg, OrigArgIdx, DL, F);


    splitToValueTypes(OrigArg, SplitArgs, DL, CC);

    ++Idx;

  }


  // At least one interpolation mode must be enabled or else the GPU will

  // hang.

  //

  // Check PSInputAddr instead of PSInputEnable. The idea is that if the user

  // set PSInputAddr, the user wants to enable some bits after the compilation

  // based on run-time states. Since we can't know what the final PSInputEna

  // will look like, so we shouldn't do anything here and the user should take

  // responsibility for the correct programming.

  //

  // Otherwise, the following restrictions apply:

  // - At least one of PERSP_* (0xF) or LINEAR_* (0x70) must be enabled.

  // - If POS_W_FLOAT (11) is enabled, at least one of PERSP_* must be

  //   enabled too.

  if (CC == CallingConv::AMDGPU_PS) {

    if ((Info->getPSInputAddr() & 0x7F) == 0 ||

        ((Info->getPSInputAddr() & 0xF) == 0 &&

         Info->isPSInputAllocated(11))) {

      CCInfo.AllocateReg(AMDGPU::VGPR0);

      CCInfo.AllocateReg(AMDGPU::VGPR1);

      Info->markPSInputAllocated(0);

      Info->markPSInputEnabled(0);

    }


    if (Subtarget.isAmdPalOS()) {

      // For isAmdPalOS, the user does not enable some bits after compilation

      // based on run-time states; the register values being generated here are

      // the final ones set in hardware. Therefore we need to apply the

      // workaround to PSInputAddr and PSInputEnable together.  (The case where

      // a bit is set in PSInputAddr but not PSInputEnable is where the frontend

      // set up an input arg for a particular interpolation mode, but nothing

      // uses that input arg. Really we should have an earlier pass that removes

      // such an arg.)

      unsigned PsInputBits = Info->getPSInputAddr() & Info->getPSInputEnable();

      if ((PsInputBits & 0x7F) == 0 ||

          ((PsInputBits & 0xF) == 0 &&

           (PsInputBits >> 11 & 1)))

        Info->markPSInputEnabled(llvm::countr_zero(Info->getPSInputAddr()));

    }

  }


  const SITargetLowering &TLI = *getTLI<SITargetLowering>();

  CCAssignFn *AssignFn = TLI.CCAssignFnForCall(CC, F.isVarArg());


  if (!MBB.empty())

    B.setInstr(*MBB.begin());


  if (!IsEntryFunc && !IsGraphics) {

    // For the fixed ABI, pass workitem IDs in the last argument register.

    TLI.allocateSpecialInputVGPRsFixed(CCInfo, MF, *TRI, *Info);


    if (!Subtarget.enableFlatScratch())

      CCInfo.AllocateReg(Info->getScratchRSrcReg());

    TLI.allocateSpecialInputSGPRs(CCInfo, MF, *TRI, *Info);

  }


  IncomingValueAssigner Assigner(AssignFn);

  if (!determineAssignments(Assigner, SplitArgs, CCInfo))

    return false;


  if (IsEntryFunc) {

    // This assumes the registers are allocated by CCInfo in ascending order

    // with no gaps.

    Info->setNumWaveDispatchSGPRs(

        CCInfo.getFirstUnallocated(AMDGPU::SGPR_32RegClass.getRegisters()));

    Info->setNumWaveDispatchVGPRs(

        CCInfo.getFirstUnallocated(AMDGPU::VGPR_32RegClass.getRegisters()));

  }


  FormalArgHandler Handler(B, MRI);

  if (!handleAssignments(Handler, SplitArgs, CCInfo, ArgLocs, B))

    return false;


  uint64_t StackSize = Assigner.StackSize;


  // Start adding system SGPRs.

  if (IsEntryFunc)

    TLI.allocateSystemSGPRs(CCInfo, MF, *Info, CC, IsGraphics);


  // When we tail call, we need to check if the callee's arguments will fit on

  // the caller's stack. So, whenever we lower formal arguments, we should keep

  // track of this information, since we might lower a tail call in this

  // function later.

  Info->setBytesInStackArgArea(StackSize);


  // Move back to the end of the basic block.

  B.setMBB(MBB);


  return true;

}


bool AMDGPUCallLowering::passSpecialInputs(MachineIRBuilder &MIRBuilder,

                                           CCState &CCInfo,

                                           SmallVectorImpl<std::pair<MCRegister, Register>> &ArgRegs,

                                           CallLoweringInfo &Info) const {

  MachineFunction &MF = MIRBuilder.getMF();


  // If there's no call site, this doesn't correspond to a call from the IR and

  // doesn't need implicit inputs.

  if (!Info.CB)

    return true;


  const AMDGPUFunctionArgInfo *CalleeArgInfo

    = &AMDGPUArgumentUsageInfo::FixedABIFunctionInfo;


  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  const AMDGPUFunctionArgInfo &CallerArgInfo = MFI->getArgInfo();


  // TODO: Unify with private memory register handling. This is complicated by

  // the fact that at least in kernels, the input argument is not necessarily

  // in the same location as the input.

  AMDGPUFunctionArgInfo::PreloadedValue InputRegs[] = {

    AMDGPUFunctionArgInfo::DISPATCH_PTR,

    AMDGPUFunctionArgInfo::QUEUE_PTR,

    AMDGPUFunctionArgInfo::IMPLICIT_ARG_PTR,

    AMDGPUFunctionArgInfo::DISPATCH_ID,

    AMDGPUFunctionArgInfo::WORKGROUP_ID_X,

    AMDGPUFunctionArgInfo::WORKGROUP_ID_Y,

    AMDGPUFunctionArgInfo::WORKGROUP_ID_Z,

    AMDGPUFunctionArgInfo::LDS_KERNEL_ID,

  };


  static constexpr StringLiteral ImplicitAttrNames[] = {

    "amdgpu-no-dispatch-ptr",

    "amdgpu-no-queue-ptr",

    "amdgpu-no-implicitarg-ptr",

    "amdgpu-no-dispatch-id",

    "amdgpu-no-workgroup-id-x",

    "amdgpu-no-workgroup-id-y",

    "amdgpu-no-workgroup-id-z",

    "amdgpu-no-lds-kernel-id",

  };


  MachineRegisterInfo &MRI = MF.getRegInfo();


  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

  const AMDGPULegalizerInfo *LI

    = static_cast<const AMDGPULegalizerInfo*>(ST.getLegalizerInfo());


  unsigned I = 0;

  for (auto InputID : InputRegs) {

    const ArgDescriptor *OutgoingArg;

    const TargetRegisterClass *ArgRC;

    LLT ArgTy;


    // If the callee does not use the attribute value, skip copying the value.

    if (Info.CB->hasFnAttr(ImplicitAttrNames[I++]))

      continue;


    std::tie(OutgoingArg, ArgRC, ArgTy) =

        CalleeArgInfo->getPreloadedValue(InputID);

    if (!OutgoingArg)

      continue;


    const ArgDescriptor *IncomingArg;

    const TargetRegisterClass *IncomingArgRC;

    std::tie(IncomingArg, IncomingArgRC, ArgTy) =

        CallerArgInfo.getPreloadedValue(InputID);

    assert(IncomingArgRC == ArgRC);


    Register InputReg = MRI.createGenericVirtualRegister(ArgTy);


    if (IncomingArg) {

      LI->buildLoadInputValue(InputReg, MIRBuilder, IncomingArg, ArgRC, ArgTy);

    } else if (InputID == AMDGPUFunctionArgInfo::IMPLICIT_ARG_PTR) {

      LI->getImplicitArgPtr(InputReg, MRI, MIRBuilder);

    } else if (InputID == AMDGPUFunctionArgInfo::LDS_KERNEL_ID) {

      std::optional<uint32_t> Id =

          AMDGPUMachineFunction::getLDSKernelIdMetadata(MF.getFunction());

      if (Id) {

        MIRBuilder.buildConstant(InputReg, *Id);

      } else {

        MIRBuilder.buildUndef(InputReg);

      }

    } else {

      // We may have proven the input wasn't needed, although the ABI is

      // requiring it. We just need to allocate the register appropriately.

      MIRBuilder.buildUndef(InputReg);

    }


    if (OutgoingArg->isRegister()) {

      ArgRegs.emplace_back(OutgoingArg->getRegister(), InputReg);

      if (!CCInfo.AllocateReg(OutgoingArg->getRegister()))

        report_fatal_error("failed to allocate implicit input argument");

    } else {

      LLVM_DEBUG(dbgs() << "Unhandled stack passed implicit input argument\n");

      return false;

    }

  }


  // Pack workitem IDs into a single register or pass it as is if already

  // packed.

  const ArgDescriptor *OutgoingArg;

  const TargetRegisterClass *ArgRC;

  LLT ArgTy;


  std::tie(OutgoingArg, ArgRC, ArgTy) =

      CalleeArgInfo->getPreloadedValue(AMDGPUFunctionArgInfo::WORKITEM_ID_X);

  if (!OutgoingArg)

    std::tie(OutgoingArg, ArgRC, ArgTy) =

        CalleeArgInfo->getPreloadedValue(AMDGPUFunctionArgInfo::WORKITEM_ID_Y);

  if (!OutgoingArg)

    std::tie(OutgoingArg, ArgRC, ArgTy) =

        CalleeArgInfo->getPreloadedValue(AMDGPUFunctionArgInfo::WORKITEM_ID_Z);

  if (!OutgoingArg)

    return false;


  auto WorkitemIDX =

      CallerArgInfo.getPreloadedValue(AMDGPUFunctionArgInfo::WORKITEM_ID_X);

  auto WorkitemIDY =

      CallerArgInfo.getPreloadedValue(AMDGPUFunctionArgInfo::WORKITEM_ID_Y);

  auto WorkitemIDZ =

      CallerArgInfo.getPreloadedValue(AMDGPUFunctionArgInfo::WORKITEM_ID_Z);


  const ArgDescriptor *IncomingArgX = std::get<0>(WorkitemIDX);

  const ArgDescriptor *IncomingArgY = std::get<0>(WorkitemIDY);

  const ArgDescriptor *IncomingArgZ = std::get<0>(WorkitemIDZ);

  const LLT S32 = LLT::scalar(32);


  const bool NeedWorkItemIDX = !Info.CB->hasFnAttr("amdgpu-no-workitem-id-x");

  const bool NeedWorkItemIDY = !Info.CB->hasFnAttr("amdgpu-no-workitem-id-y");

  const bool NeedWorkItemIDZ = !Info.CB->hasFnAttr("amdgpu-no-workitem-id-z");


  // If incoming ids are not packed we need to pack them.

  // FIXME: Should consider known workgroup size to eliminate known 0 cases.

  Register InputReg;

  if (IncomingArgX && !IncomingArgX->isMasked() && CalleeArgInfo->WorkItemIDX &&

      NeedWorkItemIDX) {

    if (ST.getMaxWorkitemID(MF.getFunction(), 0) != 0) {

      InputReg = MRI.createGenericVirtualRegister(S32);

      LI->buildLoadInputValue(InputReg, MIRBuilder, IncomingArgX,

                              std::get<1>(WorkitemIDX),

                              std::get<2>(WorkitemIDX));

    } else {

      InputReg = MIRBuilder.buildConstant(S32, 0).getReg(0);

    }

  }


  if (IncomingArgY && !IncomingArgY->isMasked() && CalleeArgInfo->WorkItemIDY &&

      NeedWorkItemIDY && ST.getMaxWorkitemID(MF.getFunction(), 1) != 0) {

    Register Y = MRI.createGenericVirtualRegister(S32);

    LI->buildLoadInputValue(Y, MIRBuilder, IncomingArgY,

                            std::get<1>(WorkitemIDY), std::get<2>(WorkitemIDY));


    Y = MIRBuilder.buildShl(S32, Y, MIRBuilder.buildConstant(S32, 10)).getReg(0);

    InputReg = InputReg ? MIRBuilder.buildOr(S32, InputReg, Y).getReg(0) : Y;

  }


  if (IncomingArgZ && !IncomingArgZ->isMasked() && CalleeArgInfo->WorkItemIDZ &&

      NeedWorkItemIDZ && ST.getMaxWorkitemID(MF.getFunction(), 2) != 0) {

    Register Z = MRI.createGenericVirtualRegister(S32);

    LI->buildLoadInputValue(Z, MIRBuilder, IncomingArgZ,

                            std::get<1>(WorkitemIDZ), std::get<2>(WorkitemIDZ));


    Z = MIRBuilder.buildShl(S32, Z, MIRBuilder.buildConstant(S32, 20)).getReg(0);

    InputReg = InputReg ? MIRBuilder.buildOr(S32, InputReg, Z).getReg(0) : Z;

  }


  if (!InputReg &&

      (NeedWorkItemIDX || NeedWorkItemIDY || NeedWorkItemIDZ)) {

    InputReg = MRI.createGenericVirtualRegister(S32);

    if (!IncomingArgX && !IncomingArgY && !IncomingArgZ) {

      // We're in a situation where the outgoing function requires the workitem

      // ID, but the calling function does not have it (e.g a graphics function

      // calling a C calling convention function). This is illegal, but we need

      // to produce something.

      MIRBuilder.buildUndef(InputReg);

    } else {

      // Workitem ids are already packed, any of present incoming arguments will

      // carry all required fields.

      ArgDescriptor IncomingArg = ArgDescriptor::createArg(

        IncomingArgX ? *IncomingArgX :

        IncomingArgY ? *IncomingArgY : *IncomingArgZ, ~0u);

      LI->buildLoadInputValue(InputReg, MIRBuilder, &IncomingArg,

                              &AMDGPU::VGPR_32RegClass, S32);

    }

  }


  if (OutgoingArg->isRegister()) {

    if (InputReg)

      ArgRegs.emplace_back(OutgoingArg->getRegister(), InputReg);


    if (!CCInfo.AllocateReg(OutgoingArg->getRegister()))

      report_fatal_error("failed to allocate implicit input argument");

  } else {

    LLVM_DEBUG(dbgs() << "Unhandled stack passed implicit input argument\n");

    return false;

  }


  return true;

}


/// Returns a pair containing the fixed CCAssignFn and the vararg CCAssignFn for

/// CC.

static std::pair<CCAssignFn *, CCAssignFn *>


getAssignFnsForCC(CallingConv::ID CC, const SITargetLowering &TLI) {

  return {TLI.CCAssignFnForCall(CC, false), TLI.CCAssignFnForCall(CC, true)};

}


static unsigned getCallOpcode(const MachineFunction &CallerF, bool IsIndirect,

                              bool IsTailCall, bool IsWave32,

                              CallingConv::ID CC,

                              bool IsDynamicVGPRChainCall = false) {

  // For calls to amdgpu_cs_chain functions, the address is known to be uniform.

  assert((AMDGPU::isChainCC(CC) || !IsIndirect || !IsTailCall) &&

         "Indirect calls can't be tail calls, "

         "because the address can be divergent");

  if (!IsTailCall)

    return AMDGPU::G_SI_CALL;


  if (AMDGPU::isChainCC(CC)) {

    if (IsDynamicVGPRChainCall)

      return IsWave32 ? AMDGPU::SI_CS_CHAIN_TC_W32_DVGPR

                      : AMDGPU::SI_CS_CHAIN_TC_W64_DVGPR;

    return IsWave32 ? AMDGPU::SI_CS_CHAIN_TC_W32 : AMDGPU::SI_CS_CHAIN_TC_W64;

  }


  if (CallerF.getFunction().getCallingConv() ==

      CallingConv::AMDGPU_Gfx_WholeWave)

    return AMDGPU::SI_TCRETURN_GFX_WholeWave;


  if (CC == CallingConv::AMDGPU_Gfx || CC == CallingConv::AMDGPU_Gfx_WholeWave)

    return AMDGPU::SI_TCRETURN_GFX;


  return AMDGPU::SI_TCRETURN;

}


// Add operands to call instruction to track the callee.


static bool addCallTargetOperands(MachineInstrBuilder &CallInst,

                                  MachineIRBuilder &MIRBuilder,

                                  AMDGPUCallLowering::CallLoweringInfo &Info,

                                  bool IsDynamicVGPRChainCall = false) {

  if (Info.Callee.isReg()) {

    CallInst.addReg(Info.Callee.getReg());

    CallInst.addImm(0);

  } else if (Info.Callee.isGlobal() && Info.Callee.getOffset() == 0) {

    // The call lowering lightly assumed we can directly encode a call target in

    // the instruction, which is not the case. Materialize the address here.

    const GlobalValue *GV = Info.Callee.getGlobal();

    auto Ptr = MIRBuilder.buildGlobalValue(

      LLT::pointer(GV->getAddressSpace(), 64), GV);

    CallInst.addReg(Ptr.getReg(0));


    if (IsDynamicVGPRChainCall) {

      // DynamicVGPR chain calls are always indirect.

      CallInst.addImm(0);

    } else

      CallInst.add(Info.Callee);

  } else

    return false;


  return true;

}


bool AMDGPUCallLowering::doCallerAndCalleePassArgsTheSameWay(

    CallLoweringInfo &Info, MachineFunction &MF,

    SmallVectorImpl<ArgInfo> &InArgs) const {

  const Function &CallerF = MF.getFunction();

  CallingConv::ID CalleeCC = Info.CallConv;

  CallingConv::ID CallerCC = CallerF.getCallingConv();


  // If the calling conventions match, then everything must be the same.

  if (CalleeCC == CallerCC)

    return true;


  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();


  // Make sure that the caller and callee preserve all of the same registers.

  const auto *TRI = ST.getRegisterInfo();


  const uint32_t *CallerPreserved = TRI->getCallPreservedMask(MF, CallerCC);

  const uint32_t *CalleePreserved = TRI->getCallPreservedMask(MF, CalleeCC);

  if (!TRI->regmaskSubsetEqual(CallerPreserved, CalleePreserved))

    return false;


  // Check if the caller and callee will handle arguments in the same way.

  const SITargetLowering &TLI = *getTLI<SITargetLowering>();

  CCAssignFn *CalleeAssignFnFixed;

  CCAssignFn *CalleeAssignFnVarArg;

  std::tie(CalleeAssignFnFixed, CalleeAssignFnVarArg) =

      getAssignFnsForCC(CalleeCC, TLI);


  CCAssignFn *CallerAssignFnFixed;

  CCAssignFn *CallerAssignFnVarArg;

  std::tie(CallerAssignFnFixed, CallerAssignFnVarArg) =

      getAssignFnsForCC(CallerCC, TLI);


  // FIXME: We are not accounting for potential differences in implicitly passed

  // inputs, but only the fixed ABI is supported now anyway.

  IncomingValueAssigner CalleeAssigner(CalleeAssignFnFixed,

                                       CalleeAssignFnVarArg);

  IncomingValueAssigner CallerAssigner(CallerAssignFnFixed,

                                       CallerAssignFnVarArg);

  return resultsCompatible(Info, MF, InArgs, CalleeAssigner, CallerAssigner);

}


bool AMDGPUCallLowering::areCalleeOutgoingArgsTailCallable(

    CallLoweringInfo &Info, MachineFunction &MF,

    SmallVectorImpl<ArgInfo> &OutArgs) const {

  // If there are no outgoing arguments, then we are done.

  if (OutArgs.empty())

    return true;


  const Function &CallerF = MF.getFunction();

  CallingConv::ID CalleeCC = Info.CallConv;

  CallingConv::ID CallerCC = CallerF.getCallingConv();

  const SITargetLowering &TLI = *getTLI<SITargetLowering>();


  CCAssignFn *AssignFnFixed;

  CCAssignFn *AssignFnVarArg;

  std::tie(AssignFnFixed, AssignFnVarArg) = getAssignFnsForCC(CalleeCC, TLI);


  // We have outgoing arguments. Make sure that we can tail call with them.

  SmallVector<CCValAssign, 16> OutLocs;

  CCState OutInfo(CalleeCC, false, MF, OutLocs, CallerF.getContext());

  OutgoingValueAssigner Assigner(AssignFnFixed, AssignFnVarArg);


  if (!determineAssignments(Assigner, OutArgs, OutInfo)) {

    LLVM_DEBUG(dbgs() << "... Could not analyze call operands.\n");

    return false;

  }


  // Make sure that they can fit on the caller's stack.

  const SIMachineFunctionInfo *FuncInfo = MF.getInfo<SIMachineFunctionInfo>();

  if (OutInfo.getStackSize() > FuncInfo->getBytesInStackArgArea()) {

    LLVM_DEBUG(dbgs() << "... Cannot fit call operands on caller's stack.\n");

    return false;

  }


  // Verify that the parameters in callee-saved registers match.

  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

  const SIRegisterInfo *TRI = ST.getRegisterInfo();

  const uint32_t *CallerPreservedMask = TRI->getCallPreservedMask(MF, CallerCC);

  MachineRegisterInfo &MRI = MF.getRegInfo();

  return parametersInCSRMatch(MRI, CallerPreservedMask, OutLocs, OutArgs);

}


bool AMDGPUCallLowering::isEligibleForTailCallOptimization(

    MachineIRBuilder &B, CallLoweringInfo &Info,

    SmallVectorImpl<ArgInfo> &InArgs, SmallVectorImpl<ArgInfo> &OutArgs) const {

  // Must pass all target-independent checks in order to tail call optimize.

  if (!Info.IsTailCall)

    return false;


  // Indirect calls can't be tail calls, because the address can be divergent.

  // TODO Check divergence info if the call really is divergent.

  if (Info.Callee.isReg())

    return false;


  MachineFunction &MF = B.getMF();

  const Function &CallerF = MF.getFunction();

  CallingConv::ID CalleeCC = Info.CallConv;

  CallingConv::ID CallerCC = CallerF.getCallingConv();


  const SIRegisterInfo *TRI = MF.getSubtarget<GCNSubtarget>().getRegisterInfo();

  const uint32_t *CallerPreserved = TRI->getCallPreservedMask(MF, CallerCC);

  // Kernels aren't callable, and don't have a live in return address so it

  // doesn't make sense to do a tail call with entry functions.

  if (!CallerPreserved)

    return false;


  if (!AMDGPU::mayTailCallThisCC(CalleeCC)) {

    LLVM_DEBUG(dbgs() << "... Calling convention cannot be tail called.\n");

    return false;

  }


  if (any_of(CallerF.args(), [](const Argument &A) {

        return A.hasByValAttr() || A.hasSwiftErrorAttr();

      })) {

    LLVM_DEBUG(dbgs() << "... Cannot tail call from callers with byval "

                         "or swifterror arguments\n");

    return false;

  }


  // If we have -tailcallopt, then we're done.

  if (MF.getTarget().Options.GuaranteedTailCallOpt) {

    return AMDGPU::canGuaranteeTCO(CalleeCC) &&

           CalleeCC == CallerF.getCallingConv();

  }


  // Verify that the incoming and outgoing arguments from the callee are

  // safe to tail call.

  if (!doCallerAndCalleePassArgsTheSameWay(Info, MF, InArgs)) {

    LLVM_DEBUG(

        dbgs()

        << "... Caller and callee have incompatible calling conventions.\n");

    return false;

  }


  // FIXME: We need to check if any arguments passed in SGPR are uniform. If

  // they are not, this cannot be a tail call. If they are uniform, but may be

  // VGPR, we need to insert readfirstlanes.

  if (!areCalleeOutgoingArgsTailCallable(Info, MF, OutArgs))

    return false;


  LLVM_DEBUG(dbgs() << "... Call is eligible for tail call optimization.\n");

  return true;

}


// Insert outgoing implicit arguments for a call, by inserting copies to the

// implicit argument registers and adding the necessary implicit uses to the

// call instruction.


void AMDGPUCallLowering::handleImplicitCallArguments(

    MachineIRBuilder &MIRBuilder, MachineInstrBuilder &CallInst,

    const GCNSubtarget &ST, const SIMachineFunctionInfo &FuncInfo,

    CallingConv::ID CalleeCC,

    ArrayRef<std::pair<MCRegister, Register>> ImplicitArgRegs) const {

  if (!ST.enableFlatScratch()) {

    // Insert copies for the SRD. In the HSA case, this should be an identity

    // copy.

    auto ScratchRSrcReg = MIRBuilder.buildCopy(LLT::fixed_vector(4, 32),

                                               FuncInfo.getScratchRSrcReg());


    auto CalleeRSrcReg = AMDGPU::isChainCC(CalleeCC)

                             ? AMDGPU::SGPR48_SGPR49_SGPR50_SGPR51

                             : AMDGPU::SGPR0_SGPR1_SGPR2_SGPR3;


    MIRBuilder.buildCopy(CalleeRSrcReg, ScratchRSrcReg);

    CallInst.addReg(CalleeRSrcReg, RegState::Implicit);

  }


  for (std::pair<MCRegister, Register> ArgReg : ImplicitArgRegs) {

    MIRBuilder.buildCopy((Register)ArgReg.first, ArgReg.second);

    CallInst.addReg(ArgReg.first, RegState::Implicit);

  }

}


namespace {

// Chain calls have special arguments that we need to handle. These have the

// same index as they do in the llvm.amdgcn.cs.chain intrinsic.

enum ChainCallArgIdx {

  Exec = 1,

  Flags = 4,

  NumVGPRs = 5,

  FallbackExec = 6,

  FallbackCallee = 7,

};

} // anonymous namespace


bool AMDGPUCallLowering::lowerTailCall(

    MachineIRBuilder &MIRBuilder, CallLoweringInfo &Info,

    SmallVectorImpl<ArgInfo> &OutArgs) const {

  MachineFunction &MF = MIRBuilder.getMF();

  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

  SIMachineFunctionInfo *FuncInfo = MF.getInfo<SIMachineFunctionInfo>();

  const Function &F = MF.getFunction();

  MachineRegisterInfo &MRI = MF.getRegInfo();

  const SIInstrInfo *TII = ST.getInstrInfo();

  const SIRegisterInfo *TRI = ST.getRegisterInfo();

  const SITargetLowering &TLI = *getTLI<SITargetLowering>();


  // True when we're tail calling, but without -tailcallopt.

  bool IsSibCall = !MF.getTarget().Options.GuaranteedTailCallOpt;


  // Find out which ABI gets to decide where things go.

  CallingConv::ID CalleeCC = Info.CallConv;

  CCAssignFn *AssignFnFixed;

  CCAssignFn *AssignFnVarArg;

  std::tie(AssignFnFixed, AssignFnVarArg) = getAssignFnsForCC(CalleeCC, TLI);


  MachineInstrBuilder CallSeqStart;

  if (!IsSibCall)

    CallSeqStart = MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKUP);


  bool IsChainCall = AMDGPU::isChainCC(Info.CallConv);

  bool IsDynamicVGPRChainCall = false;


  if (IsChainCall) {

    ArgInfo FlagsArg = Info.OrigArgs[ChainCallArgIdx::Flags];

    const APInt &FlagsValue = cast<ConstantInt>(FlagsArg.OrigValue)->getValue();

    if (FlagsValue.isZero()) {

      if (Info.OrigArgs.size() != 5) {

        LLVM_DEBUG(dbgs() << "No additional args allowed if flags == 0\n");

        return false;

      }

    } else if (FlagsValue.isOneBitSet(0)) {

      IsDynamicVGPRChainCall = true;


      if (Info.OrigArgs.size() != 8) {

        LLVM_DEBUG(dbgs() << "Expected 3 additional args\n");

        return false;

      }


      // On GFX12, we can only change the VGPR allocation for wave32.

      if (!ST.isWave32()) {

        F.getContext().diagnose(DiagnosticInfoUnsupported(

            F, "dynamic VGPR mode is only supported for wave32"));

        return false;

      }


      ArgInfo FallbackExecArg = Info.OrigArgs[ChainCallArgIdx::FallbackExec];

      assert(FallbackExecArg.Regs.size() == 1 &&

             "Expected single register for fallback EXEC");

      if (!FallbackExecArg.Ty->isIntegerTy(ST.getWavefrontSize())) {

        LLVM_DEBUG(dbgs() << "Bad type for fallback EXEC\n");

        return false;

      }

    }

  }


  unsigned Opc = getCallOpcode(MF, Info.Callee.isReg(), /*IsTailCall*/ true,

                               ST.isWave32(), CalleeCC, IsDynamicVGPRChainCall);

  auto MIB = MIRBuilder.buildInstrNoInsert(Opc);


  if (FuncInfo->isWholeWaveFunction())

    addOriginalExecToReturn(MF, MIB);


  // Keep track of the index of the next operand to be added to the call

  unsigned CalleeIdx = MIB->getNumOperands();


  if (!addCallTargetOperands(MIB, MIRBuilder, Info, IsDynamicVGPRChainCall))

    return false;


  // Byte offset for the tail call. When we are sibcalling, this will always

  // be 0.

  MIB.addImm(0);


  // If this is a chain call, we need to pass in the EXEC mask as well as any

  // other special args.

  if (IsChainCall) {

    auto AddRegOrImm = [&](const ArgInfo &Arg) {

      if (auto CI = dyn_cast<ConstantInt>(Arg.OrigValue)) {

        MIB.addImm(CI->getSExtValue());

      } else {

        MIB.addReg(Arg.Regs[0]);

        unsigned Idx = MIB->getNumOperands() - 1;

        MIB->getOperand(Idx).setReg(constrainOperandRegClass(

            MF, *TRI, MRI, *TII, *ST.getRegBankInfo(), *MIB, MIB->getDesc(),

            MIB->getOperand(Idx), Idx));

      }

    };


    ArgInfo ExecArg = Info.OrigArgs[ChainCallArgIdx::Exec];

    assert(ExecArg.Regs.size() == 1 && "Too many regs for EXEC");


    if (!ExecArg.Ty->isIntegerTy(ST.getWavefrontSize())) {

      LLVM_DEBUG(dbgs() << "Bad type for EXEC");

      return false;

    }


    AddRegOrImm(ExecArg);

    if (IsDynamicVGPRChainCall)

      std::for_each(Info.OrigArgs.begin() + ChainCallArgIdx::NumVGPRs,

                    Info.OrigArgs.end(), AddRegOrImm);

  }


  // Tell the call which registers are clobbered.

  const uint32_t *Mask = TRI->getCallPreservedMask(MF, CalleeCC);

  MIB.addRegMask(Mask);


  // FPDiff is the byte offset of the call's argument area from the callee's.

  // Stores to callee stack arguments will be placed in FixedStackSlots offset

  // by this amount for a tail call. In a sibling call it must be 0 because the

  // caller will deallocate the entire stack and the callee still expects its

  // arguments to begin at SP+0.

  int FPDiff = 0;


  // This will be 0 for sibcalls, potentially nonzero for tail calls produced

  // by -tailcallopt. For sibcalls, the memory operands for the call are

  // already available in the caller's incoming argument space.

  unsigned NumBytes = 0;

  if (!IsSibCall) {

    // We aren't sibcalling, so we need to compute FPDiff. We need to do this

    // before handling assignments, because FPDiff must be known for memory

    // arguments.

    unsigned NumReusableBytes = FuncInfo->getBytesInStackArgArea();

    SmallVector<CCValAssign, 16> OutLocs;

    CCState OutInfo(CalleeCC, false, MF, OutLocs, F.getContext());


    // FIXME: Not accounting for callee implicit inputs

    OutgoingValueAssigner CalleeAssigner(AssignFnFixed, AssignFnVarArg);

    if (!determineAssignments(CalleeAssigner, OutArgs, OutInfo))

      return false;


    // The callee will pop the argument stack as a tail call. Thus, we must

    // keep it 16-byte aligned.

    NumBytes = alignTo(OutInfo.getStackSize(), ST.getStackAlignment());


    // FPDiff will be negative if this tail call requires more space than we

    // would automatically have in our incoming argument space. Positive if we

    // actually shrink the stack.

    FPDiff = NumReusableBytes - NumBytes;


    // The stack pointer must be 16-byte aligned at all times it's used for a

    // memory operation, which in practice means at *all* times and in

    // particular across call boundaries. Therefore our own arguments started at

    // a 16-byte aligned SP and the delta applied for the tail call should

    // satisfy the same constraint.

    assert(isAligned(ST.getStackAlignment(), FPDiff) &&

           "unaligned stack on tail call");

  }


  SmallVector<CCValAssign, 16> ArgLocs;

  CCState CCInfo(Info.CallConv, Info.IsVarArg, MF, ArgLocs, F.getContext());


  // We could pass MIB and directly add the implicit uses to the call

  // now. However, as an aesthetic choice, place implicit argument operands

  // after the ordinary user argument registers.

  SmallVector<std::pair<MCRegister, Register>, 12> ImplicitArgRegs;


  if (Info.CallConv != CallingConv::AMDGPU_Gfx &&

      Info.CallConv != CallingConv::AMDGPU_Gfx_WholeWave &&

      !AMDGPU::isChainCC(Info.CallConv)) {

    // With a fixed ABI, allocate fixed registers before user arguments.

    if (!passSpecialInputs(MIRBuilder, CCInfo, ImplicitArgRegs, Info))

      return false;

  }


  OutgoingValueAssigner Assigner(AssignFnFixed, AssignFnVarArg);


  if (!determineAssignments(Assigner, OutArgs, CCInfo))

    return false;


  // Do the actual argument marshalling.

  AMDGPUOutgoingArgHandler Handler(MIRBuilder, MRI, MIB, true, FPDiff);

  if (!handleAssignments(Handler, OutArgs, CCInfo, ArgLocs, MIRBuilder))

    return false;


  if (Info.ConvergenceCtrlToken) {

    MIB.addUse(Info.ConvergenceCtrlToken, RegState::Implicit);

  }

  handleImplicitCallArguments(MIRBuilder, MIB, ST, *FuncInfo, CalleeCC,

                              ImplicitArgRegs);


  // If we have -tailcallopt, we need to adjust the stack. We'll do the call

  // sequence start and end here.

  if (!IsSibCall) {

    MIB->getOperand(CalleeIdx + 1).setImm(FPDiff);

    CallSeqStart.addImm(NumBytes).addImm(0);

    // End the call sequence *before* emitting the call. Normally, we would

    // tidy the frame up after the call. However, here, we've laid out the

    // parameters so that when SP is reset, they will be in the correct

    // location.

    MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKDOWN).addImm(NumBytes).addImm(0);

  }


  // Now we can add the actual call instruction to the correct basic block.

  MIRBuilder.insertInstr(MIB);


  // If this is a whole wave tail call, we need to constrain the register for

  // the original EXEC.

  if (MIB->getOpcode() == AMDGPU::SI_TCRETURN_GFX_WholeWave) {

    MIB->getOperand(0).setReg(

        constrainOperandRegClass(MF, *TRI, MRI, *TII, *ST.getRegBankInfo(),

                                 *MIB, MIB->getDesc(), MIB->getOperand(0), 0));

  }


  // If Callee is a reg, since it is used by a target specific

  // instruction, it must have a register class matching the

  // constraint of that instruction.


  // FIXME: We should define regbankselectable call instructions to handle

  // divergent call targets.

  if (MIB->getOperand(CalleeIdx).isReg()) {

    MIB->getOperand(CalleeIdx).setReg(constrainOperandRegClass(

        MF, *TRI, MRI, *TII, *ST.getRegBankInfo(), *MIB, MIB->getDesc(),

        MIB->getOperand(CalleeIdx), CalleeIdx));

  }


  MF.getFrameInfo().setHasTailCall();

  Info.LoweredTailCall = true;

  return true;

}


/// Lower a call to the @llvm.amdgcn.cs.chain intrinsic.


bool AMDGPUCallLowering::lowerChainCall(MachineIRBuilder &MIRBuilder,

                                        CallLoweringInfo &Info) const {

  ArgInfo Callee = Info.OrigArgs[0];

  ArgInfo SGPRArgs = Info.OrigArgs[2];

  ArgInfo VGPRArgs = Info.OrigArgs[3];


  MachineFunction &MF = MIRBuilder.getMF();

  const Function &F = MF.getFunction();

  const DataLayout &DL = F.getDataLayout();


  // The function to jump to is actually the first argument, so we'll change the

  // Callee and other info to match that before using our existing helper.

  const Value *CalleeV = Callee.OrigValue->stripPointerCasts();

  if (const Function *F = dyn_cast<Function>(CalleeV)) {

    Info.Callee = MachineOperand::CreateGA(F, 0);

    Info.CallConv = F->getCallingConv();

  } else {

    assert(Callee.Regs.size() == 1 && "Too many regs for the callee");

    Info.Callee = MachineOperand::CreateReg(Callee.Regs[0], false);

    Info.CallConv = CallingConv::AMDGPU_CS_Chain; // amdgpu_cs_chain_preserve

                                                  // behaves the same here.

  }


  // The function that we're calling cannot be vararg (only the intrinsic is).

  Info.IsVarArg = false;


  assert(

      all_of(SGPRArgs.Flags, [](ISD::ArgFlagsTy F) { return F.isInReg(); }) &&

      "SGPR arguments should be marked inreg");

  assert(

      none_of(VGPRArgs.Flags, [](ISD::ArgFlagsTy F) { return F.isInReg(); }) &&

      "VGPR arguments should not be marked inreg");


  SmallVector<ArgInfo, 8> OutArgs;

  splitToValueTypes(SGPRArgs, OutArgs, DL, Info.CallConv);

  splitToValueTypes(VGPRArgs, OutArgs, DL, Info.CallConv);


  Info.IsMustTailCall = true;

  return lowerTailCall(MIRBuilder, Info, OutArgs);

}


bool AMDGPUCallLowering::lowerCall(MachineIRBuilder &MIRBuilder,

                                   CallLoweringInfo &Info) const {

  if (Function *F = Info.CB->getCalledFunction())

    if (F->isIntrinsic()) {

      switch (F->getIntrinsicID()) {

      case Intrinsic::amdgcn_cs_chain:

        return lowerChainCall(MIRBuilder, Info);

      case Intrinsic::amdgcn_call_whole_wave:

        Info.CallConv = CallingConv::AMDGPU_Gfx_WholeWave;


        // Get the callee from the original instruction, so it doesn't look like

        // this is an indirect call.

        Info.Callee = MachineOperand::CreateGA(

            cast<GlobalValue>(Info.CB->getOperand(0)), /*Offset=*/0);

        Info.OrigArgs.erase(Info.OrigArgs.begin());

        Info.IsVarArg = false;

        break;

      default:

        llvm_unreachable("Unexpected intrinsic call");

      }

    }


  if (Info.IsVarArg) {

    LLVM_DEBUG(dbgs() << "Variadic functions not implemented\n");

    return false;

  }


  MachineFunction &MF = MIRBuilder.getMF();

  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

  const SIRegisterInfo *TRI = ST.getRegisterInfo();


  const Function &F = MF.getFunction();

  MachineRegisterInfo &MRI = MF.getRegInfo();

  const SITargetLowering &TLI = *getTLI<SITargetLowering>();

  const DataLayout &DL = F.getDataLayout();


  SmallVector<ArgInfo, 8> OutArgs;

  for (auto &OrigArg : Info.OrigArgs)

    splitToValueTypes(OrigArg, OutArgs, DL, Info.CallConv);


  SmallVector<ArgInfo, 8> InArgs;

  if (Info.CanLowerReturn && !Info.OrigRet.Ty->isVoidTy())

    splitToValueTypes(Info.OrigRet, InArgs, DL, Info.CallConv);


  // If we can lower as a tail call, do that instead.

  bool CanTailCallOpt =

      isEligibleForTailCallOptimization(MIRBuilder, Info, InArgs, OutArgs);


  // We must emit a tail call if we have musttail.

  if (Info.IsMustTailCall && !CanTailCallOpt) {

    LLVM_DEBUG(dbgs() << "Failed to lower musttail call as tail call\n");

    return false;

  }


  Info.IsTailCall = CanTailCallOpt;

  if (CanTailCallOpt)

    return lowerTailCall(MIRBuilder, Info, OutArgs);


  // Find out which ABI gets to decide where things go.

  CCAssignFn *AssignFnFixed;

  CCAssignFn *AssignFnVarArg;

  std::tie(AssignFnFixed, AssignFnVarArg) =

      getAssignFnsForCC(Info.CallConv, TLI);


  MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKUP)

    .addImm(0)

    .addImm(0);


  // Create a temporarily-floating call instruction so we can add the implicit

  // uses of arg registers.

  unsigned Opc = getCallOpcode(MF, Info.Callee.isReg(), false, ST.isWave32(),

                               Info.CallConv);


  auto MIB = MIRBuilder.buildInstrNoInsert(Opc);

  MIB.addDef(TRI->getReturnAddressReg(MF));


  if (!Info.IsConvergent)

    MIB.setMIFlag(MachineInstr::NoConvergent);


  if (!addCallTargetOperands(MIB, MIRBuilder, Info))

    return false;


  // Tell the call which registers are clobbered.

  const uint32_t *Mask = TRI->getCallPreservedMask(MF, Info.CallConv);

  MIB.addRegMask(Mask);


  SmallVector<CCValAssign, 16> ArgLocs;

  CCState CCInfo(Info.CallConv, Info.IsVarArg, MF, ArgLocs, F.getContext());


  // We could pass MIB and directly add the implicit uses to the call

  // now. However, as an aesthetic choice, place implicit argument operands

  // after the ordinary user argument registers.

  SmallVector<std::pair<MCRegister, Register>, 12> ImplicitArgRegs;


  if (Info.CallConv != CallingConv::AMDGPU_Gfx &&

      Info.CallConv != CallingConv::AMDGPU_Gfx_WholeWave) {

    // With a fixed ABI, allocate fixed registers before user arguments.

    if (!passSpecialInputs(MIRBuilder, CCInfo, ImplicitArgRegs, Info))

      return false;

  }


  // Do the actual argument marshalling.

  OutgoingValueAssigner Assigner(AssignFnFixed, AssignFnVarArg);

  if (!determineAssignments(Assigner, OutArgs, CCInfo))

    return false;


  AMDGPUOutgoingArgHandler Handler(MIRBuilder, MRI, MIB, false);

  if (!handleAssignments(Handler, OutArgs, CCInfo, ArgLocs, MIRBuilder))

    return false;


  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();


  if (Info.ConvergenceCtrlToken) {

    MIB.addUse(Info.ConvergenceCtrlToken, RegState::Implicit);

  }

  handleImplicitCallArguments(MIRBuilder, MIB, ST, *MFI, Info.CallConv,

                              ImplicitArgRegs);


  // Get a count of how many bytes are to be pushed on the stack.

  unsigned NumBytes = CCInfo.getStackSize();


  // If Callee is a reg, since it is used by a target specific

  // instruction, it must have a register class matching the

  // constraint of that instruction.


  // FIXME: We should define regbankselectable call instructions to handle

  // divergent call targets.

  if (MIB->getOperand(1).isReg()) {

    MIB->getOperand(1).setReg(constrainOperandRegClass(

        MF, *TRI, MRI, *ST.getInstrInfo(),

        *ST.getRegBankInfo(), *MIB, MIB->getDesc(), MIB->getOperand(1),

        1));

  }


  // Now we can add the actual call instruction to the correct position.

  MIRBuilder.insertInstr(MIB);


  // Finally we can copy the returned value back into its virtual-register. In

  // symmetry with the arguments, the physical register must be an

  // implicit-define of the call instruction.

  if (Info.CanLowerReturn && !Info.OrigRet.Ty->isVoidTy()) {

    CCAssignFn *RetAssignFn = TLI.CCAssignFnForReturn(Info.CallConv,

                                                      Info.IsVarArg);

    IncomingValueAssigner Assigner(RetAssignFn);

    CallReturnHandler Handler(MIRBuilder, MRI, MIB);

    if (!determineAndHandleAssignments(Handler, Assigner, InArgs, MIRBuilder,

                                       Info.CallConv, Info.IsVarArg))

      return false;

  }


  uint64_t CalleePopBytes = NumBytes;


  MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKDOWN)

            .addImm(0)

            .addImm(CalleePopBytes);


  if (!Info.CanLowerReturn) {

    insertSRetLoads(MIRBuilder, Info.OrigRet.Ty, Info.OrigRet.Regs,

                    Info.DemoteRegister, Info.DemoteStackIndex);

  }


  return true;

}


void AMDGPUCallLowering::addOriginalExecToReturn(

    MachineFunction &MF, MachineInstrBuilder &Ret) const {

  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

  const SIInstrInfo *TII = ST.getInstrInfo();

  const MachineInstr *Setup = TII->getWholeWaveFunctionSetup(MF);

  Ret.addReg(Setup->getOperand(0).getReg());

}

MRI
unsigned const MachineRegisterInfo * MRI
Definition AArch64AdvSIMDScalarPass.cpp:103

getCallOpcode
static unsigned getCallOpcode(const MachineFunction &CallerF, bool IsIndirect, bool IsTailCall, std::optional< CallLowering::PtrAuthInfo > &PAI, MachineRegisterInfo &MRI)
Definition AArch64CallLowering.cpp:1071

getAssignFnsForCC
static std::pair< CCAssignFn *, CCAssignFn * > getAssignFnsForCC(CallingConv::ID CC, const AArch64TargetLowering &TLI)
Returns a pair containing the fixed CCAssignFn and the vararg CCAssignFn for CC.
Definition AArch64CallLowering.cpp:855

assert
assert(UImm &&(UImm !=~static_cast< T >(0)) &&"Invalid immediate!")

extOpcodeToISDExtOpcode
static ISD::NodeType extOpcodeToISDExtOpcode(unsigned MIOpc)
Definition AMDGPUCallLowering.cpp:262

allocateHSAUserSGPRs
static void allocateHSAUserSGPRs(CCState &CCInfo, MachineIRBuilder &B, MachineFunction &MF, const SIRegisterInfo &TRI, SIMachineFunctionInfo &Info)
Definition AMDGPUCallLowering.cpp:453

addCallTargetOperands
static bool addCallTargetOperands(MachineInstrBuilder &CallInst, MachineIRBuilder &MIRBuilder, AMDGPUCallLowering::CallLoweringInfo &Info, bool IsDynamicVGPRChainCall=false)
Definition AMDGPUCallLowering.cpp:1018

AMDGPUCallLowering.h
This file describes how to lower LLVM calls to machine code calls.

S32
constexpr LLT S32
Definition AMDGPULegalizerInfo.cpp:297

AMDGPULegalizerInfo.h
This file declares the targeting of the Machinelegalizer class for AMDGPU.

AMDGPU.h

MBB
MachineBasicBlock & MBB
Definition ARMSLSHardening.cpp:71

DL
MachineBasicBlock MachineBasicBlock::iterator DebugLoc DL
Definition ARMSLSHardening.cpp:73

A
static GCRegistry::Add< ErlangGC > A("erlang", "erlang-compatible garbage collector")

B
static GCRegistry::Add< OcamlGC > B("ocaml", "ocaml 3.10-compatible GC")

Info
Analysis containing CSE Info
Definition CSEInfo.cpp:27

FunctionLoweringInfo.h

TII
const HexagonInstrInfo * TII
Definition HexagonCopyToCombine.cpp:118

InlinePriorityMode::Size
@ Size
Definition InlineOrder.cpp:25

F
#define F(x, y, z)
Definition MD5.cpp:55

I
#define I(x, y, z)
Definition MD5.cpp:58

MachineFrameInfo.h

MachineIRBuilder.h
This file declares the MachineIRBuilder class.

Reg
Register Reg
Definition MachineSink.cpp:2117

TRI
Register const TargetRegisterInfo * TRI
Definition MachineSink.cpp:2118

Register
Promote Memory to Register
Definition Mem2Reg.cpp:110

getReg
static unsigned getReg(const MCDisassembler *D, unsigned RC, unsigned RegNo)
Definition MipsDisassembler.cpp:106

SPReg
static constexpr MCPhysReg SPReg
Definition RISCVFrameLowering.cpp:54

Opc
auto Opc
Definition RISCVRedundantCopyElimination.cpp:75

SIMachineFunctionInfo.h

SIRegisterInfo.h
Interface definition for SIRegisterInfo.

LLVM_DEBUG
#define LLVM_DEBUG(...)
Definition Debug.h:119

Y
static TableGen::Emitter::Opt Y("gen-skeleton-entry", EmitSkeleton, "Generate example skeleton entry")

Ptr
@ Ptr
Definition TargetLibraryInfo.cpp:77

llvm::AMDGPUArgumentUsageInfo::FixedABIFunctionInfo
static const AMDGPUFunctionArgInfo FixedABIFunctionInfo
Definition AMDGPUArgumentUsageInfo.h:182

llvm::AMDGPUCallLowering::lowerTailCall
bool lowerTailCall(MachineIRBuilder &MIRBuilder, CallLoweringInfo &Info, SmallVectorImpl< ArgInfo > &OutArgs) const
Definition AMDGPUCallLowering.cpp:1229

llvm::AMDGPUCallLowering::isEligibleForTailCallOptimization
bool isEligibleForTailCallOptimization(MachineIRBuilder &MIRBuilder, CallLoweringInfo &Info, SmallVectorImpl< ArgInfo > &InArgs, SmallVectorImpl< ArgInfo > &OutArgs) const
Returns true if the call can be lowered as a tail call.
Definition AMDGPUCallLowering.cpp:1127

llvm::AMDGPUCallLowering::lowerFormalArgumentsKernel
bool lowerFormalArgumentsKernel(MachineIRBuilder &B, const Function &F, ArrayRef< ArrayRef< Register > > VRegs) const
Definition AMDGPUCallLowering.cpp:511

llvm::AMDGPUCallLowering::lowerReturn
bool lowerReturn(MachineIRBuilder &B, const Value *Val, ArrayRef< Register > VRegs, FunctionLoweringInfo &FLI) const override
This hook behaves as the extended lowerReturn function, but for targets that do not support swifterro...
Definition AMDGPUCallLowering.cpp:357

llvm::AMDGPUCallLowering::handleImplicitCallArguments
void handleImplicitCallArguments(MachineIRBuilder &MIRBuilder, MachineInstrBuilder &CallInst, const GCNSubtarget &ST, const SIMachineFunctionInfo &MFI, CallingConv::ID CalleeCC, ArrayRef< std::pair< MCRegister, Register > > ImplicitArgRegs) const
Definition AMDGPUCallLowering.cpp:1192

llvm::AMDGPUCallLowering::areCalleeOutgoingArgsTailCallable
bool areCalleeOutgoingArgsTailCallable(CallLoweringInfo &Info, MachineFunction &MF, SmallVectorImpl< ArgInfo > &OutArgs) const
Definition AMDGPUCallLowering.cpp:1086

llvm::AMDGPUCallLowering::lowerChainCall
bool lowerChainCall(MachineIRBuilder &MIRBuilder, CallLoweringInfo &Info) const
Lower a call to the @llvm.amdgcn.cs.chain intrinsic.
Definition AMDGPUCallLowering.cpp:1455

llvm::AMDGPUCallLowering::AMDGPUCallLowering
AMDGPUCallLowering(const AMDGPUTargetLowering &TLI)
Definition AMDGPUCallLowering.cpp:257

llvm::AMDGPUCallLowering::passSpecialInputs
bool passSpecialInputs(MachineIRBuilder &MIRBuilder, CCState &CCInfo, SmallVectorImpl< std::pair< MCRegister, Register > > &ArgRegs, CallLoweringInfo &Info) const
Definition AMDGPUCallLowering.cpp:780

llvm::AMDGPUCallLowering::lowerFormalArguments
bool lowerFormalArguments(MachineIRBuilder &B, const Function &F, ArrayRef< ArrayRef< Register > > VRegs, FunctionLoweringInfo &FLI) const override
This hook must be implemented to lower the incoming (formal) arguments, described by VRegs,...
Definition AMDGPUCallLowering.cpp:591

llvm::AMDGPUCallLowering::lowerCall
bool lowerCall(MachineIRBuilder &MIRBuilder, CallLoweringInfo &Info) const override
This hook must be implemented to lower the given call instruction, including argument and return valu...
Definition AMDGPUCallLowering.cpp:1496

llvm::AMDGPUCallLowering::doCallerAndCalleePassArgsTheSameWay
bool doCallerAndCalleePassArgsTheSameWay(CallLoweringInfo &Info, MachineFunction &MF, SmallVectorImpl< ArgInfo > &InArgs) const
Definition AMDGPUCallLowering.cpp:1044

llvm::AMDGPULegalizerInfo
Definition AMDGPULegalizerInfo.h:30

llvm::AMDGPUMachineFunction::getLDSKernelIdMetadata
static std::optional< uint32_t > getLDSKernelIdMetadata(const Function &F)
Definition AMDGPUMachineFunction.cpp:175

llvm::AMDGPUSubtarget::getExplicitKernelArgOffset
unsigned getExplicitKernelArgOffset() const
Returns the offset in bytes from the start of the input buffer of the first explicit kernel argument.
Definition AMDGPUSubtarget.h:342

llvm::AMDGPUTargetLowering
Definition AMDGPUISelLowering.h:27

llvm::AMDGPUTargetLowering::CCAssignFnForCall
static CCAssignFn * CCAssignFnForCall(CallingConv::ID CC, bool IsVarArg)
Selects the correct CCAssignFn for a given CallingConvention value.
Definition AMDGPUISelLowering.cpp:1345

llvm::APInt
Class for arbitrary precision integers.
Definition APInt.h:78

llvm::APInt::isZero
bool isZero() const
Determine if this value is zero, i.e. all bits are clear.
Definition APInt.h:380

llvm::APInt::isOneBitSet
bool isOneBitSet(unsigned BitNo) const
Determine if this APInt Value only has the specified bit set.
Definition APInt.h:366

llvm::Argument
This class represents an incoming formal argument to a Function.
Definition Argument.h:32

llvm::ArrayRef
ArrayRef - Represent a constant reference to an array (0 or more elements consecutively in memory),...
Definition ArrayRef.h:41

llvm::ArrayRef::size
size_t size() const
size - Get the array size.
Definition ArrayRef.h:147

llvm::ArrayRef::empty
bool empty() const
empty - Check if the array is empty.
Definition ArrayRef.h:142

llvm::CCState
CCState - This class holds information needed while lowering arguments and return values.
Definition CallingConvLower.h:171

llvm::CCState::getFirstUnallocated
unsigned getFirstUnallocated(ArrayRef< MCPhysReg > Regs) const
getFirstUnallocated - Return the index of the first unallocated register in the set,...
Definition CallingConvLower.h:318

llvm::CCState::AllocateReg
MCRegister AllocateReg(MCPhysReg Reg)
AllocateReg - Attempt to allocate one register.
Definition CallingConvLower.h:333

llvm::CCState::getStackSize
uint64_t getStackSize() const
Returns the size of the currently allocated portion of the stack.
Definition CallingConvLower.h:246

llvm::CCValAssign
CCValAssign - Represent assignment of one arg/retval to a location.
Definition CallingConvLower.h:34

llvm::CCValAssign::getLocInfo
LocInfo getLocInfo() const
Definition CallingConvLower.h:135

llvm::CCValAssign::FPExt
@ FPExt
Definition CallingConvLower.h:52

llvm::CCValAssign::getLocMemOffset
int64_t getLocMemOffset() const
Definition CallingConvLower.h:130

llvm::CCValAssign::getLocVT
MVT getLocVT() const
Definition CallingConvLower.h:133

llvm::CallInst
This class represents a function call, abstracting a target machine's calling convention.
Definition Instructions.h:1510

llvm::CallLowering::insertSRetLoads
void insertSRetLoads(MachineIRBuilder &MIRBuilder, Type *RetTy, ArrayRef< Register > VRegs, Register DemoteReg, int FI) const
Load the returned value from the stack into virtual registers in VRegs.
Definition CallLowering.cpp:990

llvm::CallLowering::handleAssignments
bool handleAssignments(ValueHandler &Handler, SmallVectorImpl< ArgInfo > &Args, CCState &CCState, SmallVectorImpl< CCValAssign > &ArgLocs, MachineIRBuilder &MIRBuilder, ArrayRef< Register > ThisReturnRegs={}) const
Use Handler to insert code to handle the argument/return values represented by Args.
Definition CallLowering.cpp:735

llvm::CallLowering::resultsCompatible
bool resultsCompatible(CallLoweringInfo &Info, MachineFunction &MF, SmallVectorImpl< ArgInfo > &InArgs, ValueAssigner &CalleeAssigner, ValueAssigner &CallerAssigner) const
Definition CallLowering.cpp:1194

llvm::CallLowering::splitToValueTypes
void splitToValueTypes(const ArgInfo &OrigArgInfo, SmallVectorImpl< ArgInfo > &SplitArgs, const DataLayout &DL, CallingConv::ID CallConv, SmallVectorImpl< uint64_t > *Offsets=nullptr) const
Break OrigArgInfo into one or more pieces the calling convention can process, returned in SplitArgs.
Definition CallLowering.cpp:287

llvm::CallLowering::insertSRetIncomingArgument
void insertSRetIncomingArgument(const Function &F, SmallVectorImpl< ArgInfo > &SplitArgs, Register &DemoteReg, MachineRegisterInfo &MRI, const DataLayout &DL) const
Insert the hidden sret ArgInfo to the beginning of SplitArgs.
Definition CallLowering.cpp:1053

llvm::CallLowering::determineAndHandleAssignments
bool determineAndHandleAssignments(ValueHandler &Handler, ValueAssigner &Assigner, SmallVectorImpl< ArgInfo > &Args, MachineIRBuilder &MIRBuilder, CallingConv::ID CallConv, bool IsVarArg, ArrayRef< Register > ThisReturnRegs={}) const
Invoke ValueAssigner::assignArg on each of the given Args and then use Handler to move them to the as...
Definition CallLowering.cpp:649

llvm::CallLowering::insertSRetStores
void insertSRetStores(MachineIRBuilder &MIRBuilder, Type *RetTy, ArrayRef< Register > VRegs, Register DemoteReg) const
Store the return value given by VRegs into stack starting at the offset specified in DemoteReg.
Definition CallLowering.cpp:1022

llvm::CallLowering::parametersInCSRMatch
bool parametersInCSRMatch(const MachineRegisterInfo &MRI, const uint32_t *CallerPreservedMask, const SmallVectorImpl< CCValAssign > &ArgLocs, const SmallVectorImpl< ArgInfo > &OutVals) const
Check whether parameters to a call that are passed in callee saved registers are the same as from the...
Definition CallLowering.cpp:1142

llvm::CallLowering::determineAssignments
bool determineAssignments(ValueAssigner &Assigner, SmallVectorImpl< ArgInfo > &Args, CCState &CCInfo) const
Analyze the argument list in Args, using Assigner to populate CCInfo.
Definition CallLowering.cpp:674

llvm::CallLowering::checkReturn
bool checkReturn(CCState &CCInfo, SmallVectorImpl< BaseArgInfo > &Outs, CCAssignFn *Fn) const
Definition CallLowering.cpp:1097

llvm::CallLowering::CallLowering
CallLowering(const TargetLowering *TLI)
Definition CallLowering.h:450

llvm::CallLowering::getTLI
const TargetLowering * getTLI() const
Getter for generic TargetLowering class.
Definition CallLowering.h:352

llvm::CallLowering::setArgFlags
void setArgFlags(ArgInfo &Arg, unsigned OpIdx, const DataLayout &DL, const FuncInfoTy &FuncInfo) const
Definition CallLowering.cpp:220

llvm::DataLayout
A parsed version of the target data layout string in and methods for querying it.
Definition DataLayout.h:63

llvm::DiagnosticInfoUnsupported
Diagnostic information for unsupported feature in backend.
Definition DiagnosticInfo.h:1101

llvm::FormalArgHandler
Definition PPCCallLowering.h:61

llvm::FunctionLoweringInfo
FunctionLoweringInfo - This contains information that is global to a function that is used when lower...
Definition FunctionLoweringInfo.h:56

llvm::FunctionLoweringInfo::DemoteRegister
Register DemoteRegister
DemoteRegister - if CanLowerReturn is false, DemoteRegister is a vreg allocated to hold a pointer to ...
Definition FunctionLoweringInfo.h:73

llvm::FunctionLoweringInfo::CanLowerReturn
bool CanLowerReturn
CanLowerReturn - true iff the function's return value can be lowered to registers.
Definition FunctionLoweringInfo.h:66

llvm::Function
Definition Function.h:64

llvm::Function::args
iterator_range< arg_iterator > args()
Definition Function.h:890

llvm::Function::getCallingConv
CallingConv::ID getCallingConv() const
getCallingConv()/setCallingConv(CC) - These method get and set the calling convention of this functio...
Definition Function.h:270

llvm::Function::getContext
LLVMContext & getContext() const
getContext - Return a reference to the LLVMContext associated with this function.
Definition Function.cpp:359

llvm::GCNSubtarget
Definition GCNSubtarget.h:34

llvm::GCNSubtarget::getRegisterInfo
const SIRegisterInfo * getRegisterInfo() const override
Definition GCNSubtarget.h:320

llvm::GCNUserSGPRUsageInfo
Definition GCNSubtarget.h:1844

llvm::GCNUserSGPRUsageInfo::hasQueuePtr
bool hasQueuePtr() const
Definition GCNSubtarget.h:1852

llvm::GCNUserSGPRUsageInfo::hasKernargSegmentPtr
bool hasKernargSegmentPtr() const
Definition GCNSubtarget.h:1854

llvm::GCNUserSGPRUsageInfo::hasDispatchID
bool hasDispatchID() const
Definition GCNSubtarget.h:1856

llvm::GCNUserSGPRUsageInfo::hasPrivateSegmentBuffer
bool hasPrivateSegmentBuffer() const
Definition GCNSubtarget.h:1848

llvm::GCNUserSGPRUsageInfo::hasImplicitBufferPtr
bool hasImplicitBufferPtr() const
Definition GCNSubtarget.h:1846

llvm::GCNUserSGPRUsageInfo::hasPrivateSegmentSize
bool hasPrivateSegmentSize() const
Definition GCNSubtarget.h:1860

llvm::GCNUserSGPRUsageInfo::hasDispatchPtr
bool hasDispatchPtr() const
Definition GCNSubtarget.h:1850

llvm::GCNUserSGPRUsageInfo::hasFlatScratchInit
bool hasFlatScratchInit() const
Definition GCNSubtarget.h:1858

llvm::GlobalValue
Definition GlobalValue.h:49

llvm::GlobalValue::getAddressSpace
unsigned getAddressSpace() const
Definition GlobalValue.h:207

llvm::LLT
Definition LowLevelType.h:40

llvm::LLT::getScalarSizeInBits
constexpr unsigned getScalarSizeInBits() const
Definition LowLevelType.h:265

llvm::LLT::vector
static constexpr LLT vector(ElementCount EC, unsigned ScalarSizeInBits)
Get a low-level vector of some number of elements and element width.
Definition LowLevelType.h:65

llvm::LLT::scalar
static constexpr LLT scalar(unsigned SizeInBits)
Get a low-level scalar or aggregate "bag of bits".
Definition LowLevelType.h:43

llvm::LLT::isVector
constexpr bool isVector() const
Definition LowLevelType.h:149

llvm::LLT::pointer
static constexpr LLT pointer(unsigned AddressSpace, unsigned SizeInBits)
Get a low-level pointer in the given address space.
Definition LowLevelType.h:58

llvm::LLT::getElementCount
constexpr ElementCount getElementCount() const
Definition LowLevelType.h:184

llvm::LLT::fixed_vector
static constexpr LLT fixed_vector(unsigned NumElements, unsigned ScalarSizeInBits)
Get a low-level fixed-width vector of some number of elements and element width.
Definition LowLevelType.h:101

llvm::MVT::getSizeInBits
TypeSize getSizeInBits() const
Returns the size of the specified MVT in bits.
Definition MachineValueType.h:309

llvm::MachineBasicBlock
Definition MachineBasicBlock.h:122

llvm::MachineFrameInfo::CreateFixedObject
LLVM_ABI int CreateFixedObject(uint64_t Size, int64_t SPOffset, bool IsImmutable, bool isAliased=false)
Create a new object at a fixed location on the stack.
Definition MachineFrameInfo.cpp:83

llvm::MachineFrameInfo::setHasTailCall
void setHasTailCall(bool V=true)
Definition MachineFrameInfo.h:649

llvm::MachineFunction
Definition MachineFunction.h:286

llvm::MachineFunction::getSubtarget
const TargetSubtargetInfo & getSubtarget() const
getSubtarget - Return the subtarget for which this machine code is being compiled.
Definition MachineFunction.h:762

llvm::MachineFunction::getMachineMemOperand
MachineMemOperand * getMachineMemOperand(MachinePointerInfo PtrInfo, MachineMemOperand::Flags f, LLT MemTy, Align base_alignment, const AAMDNodes &AAInfo=AAMDNodes(), const MDNode *Ranges=nullptr, SyncScope::ID SSID=SyncScope::System, AtomicOrdering Ordering=AtomicOrdering::NotAtomic, AtomicOrdering FailureOrdering=AtomicOrdering::NotAtomic)
getMachineMemOperand - Allocate a new MachineMemOperand.
Definition MachineFunction.cpp:536

llvm::MachineFunction::getFrameInfo
MachineFrameInfo & getFrameInfo()
getFrameInfo - Return the frame info object for the current function.
Definition MachineFunction.h:778

llvm::MachineFunction::getRegInfo
MachineRegisterInfo & getRegInfo()
getRegInfo - Return information about the registers currently in use.
Definition MachineFunction.h:772

llvm::MachineFunction::getDataLayout
const DataLayout & getDataLayout() const
Return the DataLayout attached to the Module associated to this MF.
Definition MachineFunction.cpp:309

llvm::MachineFunction::getFunction
Function & getFunction()
Return the LLVM function that this machine code represents.
Definition MachineFunction.h:733

llvm::MachineFunction::getInfo
Ty * getInfo()
getInfo - Keep track of various per-function pieces of information for backends that would like to do...
Definition MachineFunction.h:860

llvm::MachineFunction::addLiveIn
Register addLiveIn(MCRegister PReg, const TargetRegisterClass *RC)
addLiveIn - Add the specified physical register as a live-in value and create a corresponding virtual...
Definition MachineFunction.cpp:782

llvm::MachineFunction::getTarget
const TargetMachine & getTarget() const
getTarget - Return the target machine this machine code is compiled with
Definition MachineFunction.h:758

llvm::MachineIRBuilder
Helper class to build MachineInstr.
Definition MachineIRBuilder.h:236

llvm::MachineIRBuilder::insertInstr
MachineInstrBuilder insertInstr(MachineInstrBuilder MIB)
Insert an existing instruction at the insertion point.
Definition MachineIRBuilder.cpp:45

llvm::MachineIRBuilder::buildGlobalValue
MachineInstrBuilder buildGlobalValue(const DstOp &Res, const GlobalValue *GV)
Build and insert Res = G_GLOBAL_VALUE GV.
Definition MachineIRBuilder.cpp:156

llvm::MachineIRBuilder::buildUndef
MachineInstrBuilder buildUndef(const DstOp &Res)
Build and insert Res = IMPLICIT_DEF.
Definition MachineIRBuilder.cpp:659

llvm::MachineIRBuilder::buildPtrAdd
MachineInstrBuilder buildPtrAdd(const DstOp &Res, const SrcOp &Op0, const SrcOp &Op1, std::optional< unsigned > Flags=std::nullopt)
Build and insert Res = G_PTR_ADD Op0, Op1.
Definition MachineIRBuilder.cpp:202

llvm::MachineIRBuilder::buildShl
MachineInstrBuilder buildShl(const DstOp &Dst, const SrcOp &Src0, const SrcOp &Src1, std::optional< unsigned > Flags=std::nullopt)
Definition MachineIRBuilder.h:1964

llvm::MachineIRBuilder::buildStore
MachineInstrBuilder buildStore(const SrcOp &Val, const SrcOp &Addr, MachineMemOperand &MMO)
Build and insert G_STORE Val, Addr, MMO.
Definition MachineIRBuilder.cpp:486

llvm::MachineIRBuilder::buildInstr
MachineInstrBuilder buildInstr(unsigned Opcode)
Build and insert <empty> = Opcode <empty>.
Definition MachineIRBuilder.h:418

llvm::MachineIRBuilder::buildFrameIndex
MachineInstrBuilder buildFrameIndex(const DstOp &Res, int Idx)
Build and insert Res = G_FRAME_INDEX Idx.
Definition MachineIRBuilder.cpp:147

llvm::MachineIRBuilder::getMF
MachineFunction & getMF()
Getter for the function we currently build.
Definition MachineIRBuilder.h:288

llvm::MachineIRBuilder::buildAnyExt
MachineInstrBuilder buildAnyExt(const DstOp &Res, const SrcOp &Op)
Build and insert Res = G_ANYEXT Op0.
Definition MachineIRBuilder.cpp:513

llvm::MachineIRBuilder::buildOr
MachineInstrBuilder buildOr(const DstOp &Dst, const SrcOp &Src0, const SrcOp &Src1, std::optional< unsigned > Flags=std::nullopt)
Build and insert Res = G_OR Op0, Op1.
Definition MachineIRBuilder.h:2008

llvm::MachineIRBuilder::buildInstrNoInsert
MachineInstrBuilder buildInstrNoInsert(unsigned Opcode)
Build but don't insert <empty> = Opcode <empty>.
Definition MachineIRBuilder.cpp:40

llvm::MachineIRBuilder::buildCopy
MachineInstrBuilder buildCopy(const DstOp &Res, const SrcOp &Op)
Build and insert Res = COPY Op.
Definition MachineIRBuilder.cpp:328

llvm::MachineIRBuilder::buildConstant
virtual MachineInstrBuilder buildConstant(const DstOp &Res, const ConstantInt &Val)
Build and insert Res = G_CONSTANT Val.
Definition MachineIRBuilder.cpp:333

llvm::MachineInstrBuilder
Definition MachineInstrBuilder.h:98

llvm::MachineInstrBuilder::getReg
Register getReg(unsigned Idx) const
Get the register for the operand index.
Definition MachineInstrBuilder.h:123

llvm::MachineInstrBuilder::setMIFlag
const MachineInstrBuilder & setMIFlag(MachineInstr::MIFlag Flag) const
Definition MachineInstrBuilder.h:306

llvm::MachineInstrBuilder::addImm
const MachineInstrBuilder & addImm(int64_t Val) const
Add a new immediate operand.
Definition MachineInstrBuilder.h:160

llvm::MachineInstrBuilder::addUse
const MachineInstrBuilder & addUse(Register RegNo, unsigned Flags=0, unsigned SubReg=0) const
Add a virtual register use operand.
Definition MachineInstrBuilder.h:152

llvm::MachineInstrBuilder::addDef
const MachineInstrBuilder & addDef(Register RegNo, unsigned Flags=0, unsigned SubReg=0) const
Add a virtual register definition operand.
Definition MachineInstrBuilder.h:145

llvm::MachineInstr
Representation of each machine instruction.
Definition MachineInstr.h:72

llvm::MachineInstr::NoConvergent
@ NoConvergent
Definition MachineInstr.h:120

llvm::MachineMemOperand::MODereferenceable
@ MODereferenceable
The memory access is dereferenceable (i.e., doesn't trap).
Definition MachineMemOperand.h:145

llvm::MachineMemOperand::MOLoad
@ MOLoad
The memory access reads data.
Definition MachineMemOperand.h:137

llvm::MachineMemOperand::MOInvariant
@ MOInvariant
The memory access always returns the same value (or traps).
Definition MachineMemOperand.h:147

llvm::MachineMemOperand::MOStore
@ MOStore
The memory access writes data.
Definition MachineMemOperand.h:139

llvm::MachineOperand::CreateGA
static MachineOperand CreateGA(const GlobalValue *GV, int64_t Offset, unsigned TargetFlags=0)
Definition MachineOperand.h:898

llvm::MachineOperand::CreateReg
static MachineOperand CreateReg(Register Reg, bool isDef, bool isImp=false, bool isKill=false, bool isDead=false, bool isUndef=false, bool isEarlyClobber=false, unsigned SubReg=0, bool isDebug=false, bool isInternalRead=false, bool isRenamable=false)
Definition MachineOperand.h:839

llvm::MachineRegisterInfo
MachineRegisterInfo - Keep track of information for virtual and physical registers,...
Definition MachineRegisterInfo.h:53

llvm::Register
Wrapper class representing virtual and physical registers.
Definition Register.h:19

llvm::SIInstrInfo
Definition SIInstrInfo.h:90

llvm::SIMachineFunctionInfo
This class keeps track of the SPI_SP_INPUT_ADDR config register, which tells the hardware which inter...
Definition SIMachineFunctionInfo.h:412

llvm::SIMachineFunctionInfo::isWholeWaveFunction
bool isWholeWaveFunction() const
Definition SIMachineFunctionInfo.h:684

llvm::SIMachineFunctionInfo::getStackPtrOffsetReg
Register getStackPtrOffsetReg() const
Definition SIMachineFunctionInfo.h:1044

llvm::SIMachineFunctionInfo::getScratchRSrcReg
Register getScratchRSrcReg() const
Returns the physical register reserved for use as the resource descriptor for scratch accesses.
Definition SIMachineFunctionInfo.h:1015

llvm::SIMachineFunctionInfo::returnsVoid
bool returnsVoid() const
Definition SIMachineFunctionInfo.h:1126

llvm::SIMachineFunctionInfo::getBytesInStackArgArea
unsigned getBytesInStackArgArea() const
Definition SIMachineFunctionInfo.h:832

llvm::SIMachineFunctionInfo::setIfReturnsVoid
void setIfReturnsVoid(bool Value)
Definition SIMachineFunctionInfo.h:1130

llvm::SIMachineFunctionInfo::getPreloadedReg
MCRegister getPreloadedReg(AMDGPUFunctionArgInfo::PreloadedValue Value) const
Definition SIMachineFunctionInfo.h:974

llvm::SIMachineFunctionInfo::getArgInfo
AMDGPUFunctionArgInfo & getArgInfo()
Definition SIMachineFunctionInfo.h:961

llvm::SIRegisterInfo
Definition SIRegisterInfo.h:40

llvm::SITargetLowering
Definition SIISelLowering.h:31

llvm::SmallVectorImpl
This class consists of common code factored out of the SmallVector class to reduce code duplication b...
Definition SmallVector.h:574

llvm::SmallVectorTemplateCommon::size
size_t size() const
Definition SmallVector.h:79

llvm::SmallVectorTemplateCommon::empty
bool empty() const
Definition SmallVector.h:82

llvm::SmallVector
This is a 'vector' (really, a variable-sized array), optimized for the case when the array is small.
Definition SmallVector.h:1197

llvm::StringLiteral
A wrapper around a string literal that serves as a proxy for constructing global tables of StringRefs...
Definition StringRef.h:862

llvm::TargetMachine::Options
TargetOptions Options
Definition TargetMachine.h:124

llvm::TargetOptions::GuaranteedTailCallOpt
unsigned GuaranteedTailCallOpt
GuaranteedTailCallOpt - This flag is enabled when -tailcallopt is specified on the commandline.
Definition TargetOptions.h:216

llvm::TargetRegisterClass
Definition TargetRegisterInfo.h:45

llvm::Type
The instances of the Type class are immutable: once they are created, they are never changed.
Definition Type.h:45

llvm::Type::isIntegerTy
bool isIntegerTy() const
True if this is an instance of IntegerType.
Definition Type.h:240

llvm::Value
LLVM Value Representation.
Definition Value.h:75

llvm::Value::getType
Type * getType() const
All values are typed, get the type of this value.
Definition Value.h:256

uint32_t

uint64_t

Analysis.h

llvm_unreachable
#define llvm_unreachable(msg)
Marks that the current location is not supposed to be reachable.
Definition ErrorHandling.h:164

llvm::AMDGPUAS::CONSTANT_ADDRESS
@ CONSTANT_ADDRESS
Address space for constant memory (VTX2).
Definition AMDGPUAddrSpace.h:35

llvm::AMDGPUAS::PRIVATE_ADDRESS
@ PRIVATE_ADDRESS
Address space for private memory.
Definition AMDGPUAddrSpace.h:36

llvm::AMDGPU::isShader
LLVM_READNONE constexpr bool isShader(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1425

llvm::AMDGPU::mayTailCallThisCC
LLVM_READNONE constexpr bool mayTailCallThisCC(CallingConv::ID CC)
Return true if we might ever do TCO for calls with this calling convention.
Definition AMDGPUBaseInfo.h:1516

llvm::AMDGPU::isKernel
LLVM_READNONE constexpr bool isKernel(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1499

llvm::AMDGPU::isEntryFunctionCC
LLVM_READNONE constexpr bool isEntryFunctionCC(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1454

llvm::AMDGPU::isChainCC
LLVM_READNONE constexpr bool isChainCC(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1472

llvm::AMDGPU::canGuaranteeTCO
LLVM_READNONE constexpr bool canGuaranteeTCO(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1510

llvm::AMDGPU::isGraphics
LLVM_READNONE constexpr bool isGraphics(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1443

llvm::CallingConv::ID
unsigned ID
LLVM IR allows to use arbitrary numbers as calling convention identifiers.
Definition CallingConv.h:24

llvm::CallingConv::AMDGPU_KERNEL
@ AMDGPU_KERNEL
Used for AMDGPU code object kernels.
Definition CallingConv.h:200

llvm::CallingConv::AMDGPU_Gfx
@ AMDGPU_Gfx
Used for AMD graphics targets.
Definition CallingConv.h:232

llvm::CallingConv::AMDGPU_CS_Chain
@ AMDGPU_CS_Chain
Used on AMDGPUs to give the middle-end more control over argument placement.
Definition CallingConv.h:245

llvm::CallingConv::AMDGPU_PS
@ AMDGPU_PS
Used for Mesa/AMDPAL pixel shaders.
Definition CallingConv.h:194

llvm::CallingConv::AMDGPU_Gfx_WholeWave
@ AMDGPU_Gfx_WholeWave
Definition CallingConv.h:288

llvm::ISD::NodeType
NodeType
ISD::NodeType enum - This enum defines the target-independent operators for a SelectionDAG.
Definition ISDOpcodes.h:41

llvm::ISD::ANY_EXTEND
@ ANY_EXTEND
ANY_EXTEND - Used for integer types. The high bits are undefined.
Definition ISDOpcodes.h:835

llvm::ISD::SIGN_EXTEND
@ SIGN_EXTEND
Conversion operators.
Definition ISDOpcodes.h:826

llvm::ISD::ZERO_EXTEND
@ ZERO_EXTEND
ZERO_EXTEND - Used for integer types, zeroing the new bits.
Definition ISDOpcodes.h:832

llvm::RegState::Implicit
@ Implicit
Not emitted register (e.g. carry, or temporary result).
Definition MachineInstrBuilder.h:49

llvm
This is an optimization pass for GlobalISel generic memory operations.
Definition AddressRanges.h:18

llvm::Offset
@ Offset
Definition DWP.cpp:477

llvm::all_of
bool all_of(R &&range, UnaryPredicate P)
Provide wrappers to std::all_of which take ranges instead of having to pass begin/end explicitly.
Definition STLExtras.h:1727

llvm::constrainOperandRegClass
LLVM_ABI Register constrainOperandRegClass(const MachineFunction &MF, const TargetRegisterInfo &TRI, MachineRegisterInfo &MRI, const TargetInstrInfo &TII, const RegisterBankInfo &RBI, MachineInstr &InsertPt, const TargetRegisterClass &RegClass, MachineOperand &RegMO)
Constrain the Register operand OpIdx, so that it is now constrained to the TargetRegisterClass passed...
Definition Utils.cpp:56

llvm::size
auto size(R &&Range, std::enable_if_t< std::is_base_of< std::random_access_iterator_tag, typename std::iterator_traits< decltype(Range.begin())>::iterator_category >::value, void > *=nullptr)
Get the size of a range.
Definition STLExtras.h:1685

llvm::dyn_cast
decltype(auto) dyn_cast(const From &Val)
dyn_cast<X> - Return the argument parameter cast to the specified type.
Definition Casting.h:649

llvm::CCAssignFn
bool CCAssignFn(unsigned ValNo, MVT ValVT, MVT LocVT, CCValAssign::LocInfo LocInfo, ISD::ArgFlagsTy ArgFlags, Type *OrigTy, CCState &State)
CCAssignFn - This function assigns a location for Val, updating State to reflect the change.
Definition CallingConvLower.h:157

llvm::isAligned
bool isAligned(Align Lhs, uint64_t SizeInBytes)
Checks that SizeInBytes is a multiple of the alignment.
Definition Alignment.h:145

llvm::countr_zero
int countr_zero(T Val)
Count number of 0's from the least significant bit to the most stopping at the first 1.
Definition bit.h:157

llvm::any_of
bool any_of(R &&range, UnaryPredicate P)
Provide wrappers to std::any_of which take ranges instead of having to pass begin/end explicitly.
Definition STLExtras.h:1734

llvm::dbgs
LLVM_ABI raw_ostream & dbgs()
dbgs() - This returns a reference to a raw_ostream for debugging messages.
Definition Debug.cpp:207

llvm::none_of
bool none_of(R &&Range, UnaryPredicate P)
Provide wrappers to std::none_of which take ranges instead of having to pass begin/end explicitly.
Definition STLExtras.h:1741

llvm::report_fatal_error
LLVM_ABI void report_fatal_error(Error Err, bool gen_crash_diag=true)
Definition Error.cpp:167

llvm::SmallVector
class LLVM_GSL_OWNER SmallVector
Forward declaration of SmallVector so that calculateSmallVectorDefaultInlinedElements can reference s...
Definition SmallVector.h:1123

llvm::alignTo
uint64_t alignTo(uint64_t Size, Align A)
Returns a multiple of A needed to store Size bytes.
Definition Alignment.h:155

llvm::ComputeValueVTs
void ComputeValueVTs(const TargetLowering &TLI, const DataLayout &DL, Type *Ty, SmallVectorImpl< EVT > &ValueVTs, SmallVectorImpl< EVT > *MemVTs, SmallVectorImpl< TypeSize > *Offsets=nullptr, TypeSize StartingOffset=TypeSize::getZero())
ComputeValueVTs - Given an LLVM IR type, compute a sequence of EVTs that represent all the individual...
Definition Analysis.cpp:119

llvm::cast
decltype(auto) cast(const From &Val)
cast<X> - Return the argument parameter cast to the specified type.
Definition Casting.h:565

llvm::commonAlignment
Align commonAlignment(Align A, uint64_t Offset)
Returns the alignment that satisfies both alignments.
Definition Alignment.h:212

llvm::getLLTForType
LLVM_ABI LLT getLLTForType(Type &Ty, const DataLayout &DL)
Construct a low-level type based on an LLVM type.
Definition LowLevelTypeUtils.cpp:20

llvm::inferAlignFromPtrInfo
LLVM_ABI Align inferAlignFromPtrInfo(MachineFunction &MF, const MachinePointerInfo &MPO)
Definition Utils.cpp:899

llvm::AMDGPUFunctionArgInfo
Definition AMDGPUArgumentUsageInfo.h:103

llvm::AMDGPUFunctionArgInfo::PreloadedValue
PreloadedValue
Definition AMDGPUArgumentUsageInfo.h:105

llvm::AMDGPUFunctionArgInfo::LDS_KERNEL_ID
@ LDS_KERNEL_ID
Definition AMDGPUArgumentUsageInfo.h:113

llvm::AMDGPUFunctionArgInfo::QUEUE_PTR
@ QUEUE_PTR
Definition AMDGPUArgumentUsageInfo.h:109

llvm::AMDGPUFunctionArgInfo::IMPLICIT_ARG_PTR
@ IMPLICIT_ARG_PTR
Definition AMDGPUArgumentUsageInfo.h:119

llvm::AMDGPUFunctionArgInfo::WORKITEM_ID_Y
@ WORKITEM_ID_Y
Definition AMDGPUArgumentUsageInfo.h:124

llvm::AMDGPUFunctionArgInfo::WORKGROUP_ID_Y
@ WORKGROUP_ID_Y
Definition AMDGPUArgumentUsageInfo.h:115

llvm::AMDGPUFunctionArgInfo::DISPATCH_ID
@ DISPATCH_ID
Definition AMDGPUArgumentUsageInfo.h:111

llvm::AMDGPUFunctionArgInfo::DISPATCH_PTR
@ DISPATCH_PTR
Definition AMDGPUArgumentUsageInfo.h:108

llvm::AMDGPUFunctionArgInfo::WORKGROUP_ID_X
@ WORKGROUP_ID_X
Definition AMDGPUArgumentUsageInfo.h:114

llvm::AMDGPUFunctionArgInfo::WORKITEM_ID_X
@ WORKITEM_ID_X
Definition AMDGPUArgumentUsageInfo.h:123

llvm::AMDGPUFunctionArgInfo::WORKITEM_ID_Z
@ WORKITEM_ID_Z
Definition AMDGPUArgumentUsageInfo.h:125

llvm::AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR
@ KERNARG_SEGMENT_PTR
Definition AMDGPUArgumentUsageInfo.h:110

llvm::AMDGPUFunctionArgInfo::WORKGROUP_ID_Z
@ WORKGROUP_ID_Z
Definition AMDGPUArgumentUsageInfo.h:116

llvm::AMDGPUFunctionArgInfo::WorkItemIDZ
ArgDescriptor WorkItemIDZ
Definition AMDGPUArgumentUsageInfo.h:161

llvm::AMDGPUFunctionArgInfo::WorkItemIDY
ArgDescriptor WorkItemIDY
Definition AMDGPUArgumentUsageInfo.h:160

llvm::AMDGPUFunctionArgInfo::getPreloadedValue
std::tuple< const ArgDescriptor *, const TargetRegisterClass *, LLT > getPreloadedValue(PreloadedValue Value) const
Definition AMDGPUArgumentUsageInfo.cpp:90

llvm::AMDGPUFunctionArgInfo::WorkItemIDX
ArgDescriptor WorkItemIDX
Definition AMDGPUArgumentUsageInfo.h:159

llvm::Align
This struct is a compact representation of a valid (non-zero power of two) alignment.
Definition Alignment.h:39

llvm::ArgDescriptor
Definition AMDGPUArgumentUsageInfo.h:25

llvm::ArgDescriptor::getRegister
MCRegister getRegister() const
Definition AMDGPUArgumentUsageInfo.h:70

llvm::ArgDescriptor::isRegister
bool isRegister() const
Definition AMDGPUArgumentUsageInfo.h:66

llvm::ArgDescriptor::createArg
static ArgDescriptor createArg(const ArgDescriptor &Arg, unsigned Mask)
Definition AMDGPUArgumentUsageInfo.h:54

llvm::ArgDescriptor::isMasked
bool isMasked() const
Definition AMDGPUArgumentUsageInfo.h:86

llvm::ArgInfo
Helper struct shared between Function Specialization and SCCP Solver.
Definition SCCPSolver.h:42

llvm::CallLowering::ArgInfo
Definition CallLowering.h:61

llvm::CallLowering::ArgInfo::OrigValue
const Value * OrigValue
Optionally track the original IR value for the argument.
Definition CallLowering.h:72

llvm::CallLowering::ArgInfo::Regs
SmallVector< Register, 4 > Regs
Definition CallLowering.h:62

llvm::CallLowering::BaseArgInfo::Flags
SmallVector< ISD::ArgFlagsTy, 4 > Flags
Definition CallLowering.h:52

llvm::CallLowering::BaseArgInfo::Ty
Type * Ty
Definition CallLowering.h:51

llvm::CallLowering::CallLoweringInfo
Definition CallLowering.h:105

llvm::CallLowering::IncomingValueAssigner
Definition CallLowering.h:228

llvm::CallLowering::IncomingValueHandler
Base class for ValueHandlers used for arguments coming into the current function, or for return value...
Definition CallLowering.h:329

llvm::CallLowering::OutgoingValueAssigner
Definition CallLowering.h:234

llvm::CallLowering::OutgoingValueHandler
Base class for ValueHandlers used for arguments passed to a function call, or for return values.
Definition CallLowering.h:345

llvm::CallLowering::ValueAssigner::StackSize
uint64_t StackSize
The size of the currently allocated portion of the stack.
Definition CallLowering.h:215

llvm::CallLowering::ValueHandler
Definition CallLowering.h:240

llvm::CallLowering::ValueHandler::MIRBuilder
MachineIRBuilder & MIRBuilder
Definition CallLowering.h:241

llvm::CallLowering::ValueHandler::extendRegister
Register extendRegister(Register ValReg, const CCValAssign &VA, unsigned MaxSizeBits=0)
Extend a register to the location type given in VA, capped at extending to at most MaxSize bits.
Definition CallLowering.cpp:1294

llvm::EVT::getTypeForEVT
LLVM_ABI Type * getTypeForEVT(LLVMContext &Context) const
This method returns an LLVM type corresponding to the specified EVT.
Definition ValueTypes.cpp:216

llvm::EVT::isScalarInteger
bool isScalarInteger() const
Return true if this is an integer, but not a vector.
Definition ValueTypes.h:157

llvm::ISD::ArgFlagsTy
Definition TargetCallingConv.h:27

llvm::MachinePointerInfo
This class contains a discriminated union of information about pointers in memory operands,...
Definition MachineMemOperand.h:42

llvm::MachinePointerInfo::getStack
static LLVM_ABI MachinePointerInfo getStack(MachineFunction &MF, int64_t Offset, uint8_t ID=0)
Stack pointer relative access.
Definition MachineOperand.cpp:1077

llvm::MachinePointerInfo::getFixedStack
static LLVM_ABI MachinePointerInfo getFixedStack(MachineFunction &MF, int FI, int64_t Offset=0)
Return a MachinePointerInfo record that refers to the specified FrameIndex.
Definition MachineOperand.cpp:1064

llvm::MaybeAlign
This struct is a compact representation of a valid (power of two) or undefined (0) alignment.
Definition Alignment.h:117