// Copyright (C) 2009-present, Panagiotis Christopoulos Charitos and contributors. // All rights reserved. // Code licensed under the BSD License. // http://www.anki3d.org/LICENSE #include #include #include #include using namespace anki; [[maybe_unused]] static void clearSwapchain(CommandBufferPtr cmdb = CommandBufferPtr()) { const Bool continueCmdb = cmdb.isCreated(); TexturePtr presentTex = GrManager::getSingleton().acquireNextPresentableTexture(); if(!continueCmdb) { CommandBufferInitInfo cinit; cinit.m_flags = CommandBufferFlag::kGeneralWork | CommandBufferFlag::kSmallBatch; cmdb = GrManager::getSingleton().newCommandBuffer(cinit); } const TextureBarrierInfo barrier = {TextureView(presentTex.get(), TextureSubresourceDesc::all()), TextureUsageBit::kNone, TextureUsageBit::kRtvDsvWrite}; cmdb->setPipelineBarrier({&barrier, 1}, {}, {}); RenderTarget rt; rt.m_textureView = TextureView(presentTex.get(), TextureSubresourceDesc::all()); rt.m_clearValue.m_colorf = {1.0f, F32(rand()) / F32(RAND_MAX), 1.0f, 1.0f}; cmdb->beginRenderPass({rt}); cmdb->endRenderPass(); const TextureBarrierInfo barrier2 = {TextureView(presentTex.get(), TextureSubresourceDesc::all()), TextureUsageBit::kRtvDsvWrite, TextureUsageBit::kPresent}; cmdb->setPipelineBarrier({&barrier2, 1}, {}, {}); if(!continueCmdb) { cmdb->endRecording(); GrManager::getSingleton().submit(cmdb.get()); } } template static void runBenchmark(U32 iterationCount, U32 iterationsPerCommandBuffer, Bool bBenchmark, TFunc func) { ANKI_ASSERT(iterationCount >= iterationsPerCommandBuffer && (iterationCount % iterationsPerCommandBuffer) == 0); FencePtr fence; F64 avgCpuTimePerIterationMs = 0.0; DynamicArray timestamps; const U32 commandBufferCount = iterationCount / iterationsPerCommandBuffer; for(U32 icmdb = 0; icmdb < commandBufferCount; ++icmdb) { CommandBufferPtr cmdb = GrManager::getSingleton().newCommandBuffer(CommandBufferInitInfo(CommandBufferFlag::kGeneralWork)); TimestampQueryPtr query1 = GrManager::getSingleton().newTimestampQuery(); cmdb->writeTimestamp(query1.get()); timestamps.emplaceBack(query1); const U64 cpuTimeStart = HighRezTimer::getCurrentTimeUs(); for(U32 i = 0; i < iterationsPerCommandBuffer; ++i) { func(*cmdb); } // clearSwapchain(cmdb); TimestampQueryPtr query2 = GrManager::getSingleton().newTimestampQuery(); cmdb->writeTimestamp(query2.get()); timestamps.emplaceBack(query2); cmdb->endRecording(); const U64 cpuTimeEnd = HighRezTimer::getCurrentTimeUs(); avgCpuTimePerIterationMs += (Second(cpuTimeEnd - cpuTimeStart) * 0.001) / Second(iterationCount); GrManager::getSingleton().submit(cmdb.get(), {}, (icmdb == commandBufferCount - 1) ? &fence : nullptr); // GrManager::getSingleton().swapBuffers(); } const Bool done = fence->clientWait(kMaxSecond); ANKI_TEST_EXPECT_EQ(done, true); F64 avgTimePerIterationMs = 0.0f; for(U32 i = 0; i < timestamps.getSize(); i += 2) { Second a, b; ANKI_TEST_EXPECT_EQ(timestamps[i]->getResult(a), TimestampQueryResult::kAvailable); ANKI_TEST_EXPECT_EQ(timestamps[i + 1]->getResult(b), TimestampQueryResult::kAvailable); avgTimePerIterationMs += (Second(b - a) * 1000.0) / Second(iterationCount); } if(bBenchmark) { ANKI_TEST_LOGI("Benchmark: avg GPU time: %fms, avg CPU time: %fms", avgTimePerIterationMs, avgCpuTimePerIterationMs); } } void commonInitWg(Bool& bBenchmark, Bool& bWorkgraphs) { bBenchmark = getenv("BENCHMARK") && CString(getenv("BENCHMARK")) == "1"; [[maybe_unused]] Error err = CVarSet::getSingleton().setMultiple(Array{"WorkGraphs", "1"}); commonInit(!bBenchmark); bWorkgraphs = getenv("WORKGRAPHS") && CString(getenv("WORKGRAPHS")) == "1" && GrManager::getSingleton().getDeviceCapabilities().m_workGraphs; ANKI_TEST_LOGI("Testing with BENCHMARK=%u WORKGRAPHS=%u", bBenchmark, bWorkgraphs); } ANKI_TEST(Gr, WorkGraphHelloWorld) { // CVarSet::getSingleton().setMultiple(Array{"Device", "1"}); commonInit(); { const Char* kSrc = R"( struct FirstNodeRecord { uint3 m_gridSize : SV_DispatchGrid; uint m_value; }; struct SecondNodeRecord { uint3 m_gridSize : SV_DispatchGrid; uint m_value; }; struct ThirdNodeRecord { uint m_value; }; RWStructuredBuffer g_buff : register(u0); [Shader("node")] [NodeLaunch("broadcasting")] [NodeIsProgramEntry] [NodeMaxDispatchGrid(1, 1, 1)] [numthreads(16, 1, 1)] void main(DispatchNodeInputRecord inp, [MaxRecords(2)] NodeOutput secondNode, uint svGroupIndex : SV_GROUPINDEX) { GroupNodeOutputRecords rec = secondNode.GetGroupNodeOutputRecords(2); if(svGroupIndex < 2) { rec[svGroupIndex].m_gridSize = uint3(16, 1, 1); rec[svGroupIndex].m_value = inp.Get().m_value; } rec.OutputComplete(); } [Shader("node")] [NodeLaunch("broadcasting")] [numthreads(16, 1, 1)] [NodeMaxDispatchGrid(16, 1, 1)] void secondNode(DispatchNodeInputRecord inp, [MaxRecords(32)] NodeOutput thirdNode, uint svGroupIndex : SV_GROUPINDEX) { GroupNodeOutputRecords recs = thirdNode.GetGroupNodeOutputRecords(32); recs[svGroupIndex * 2 + 0].m_value = inp.Get().m_value; recs[svGroupIndex * 2 + 1].m_value = inp.Get().m_value; recs.OutputComplete(); } [Shader("node")] [NodeLaunch("coalescing")] [numthreads(16, 1, 1)] void thirdNode([MaxRecords(32)] GroupNodeInputRecords inp, uint svGroupIndex : SV_GROUPINDEX) { if (svGroupIndex * 2 < inp.Count()) InterlockedAdd(g_buff[0], inp[svGroupIndex * 2].m_value); if (svGroupIndex * 2 + 1 < inp.Count()) InterlockedAdd(g_buff[0], inp[svGroupIndex * 2 + 1].m_value); } )"; ShaderPtr shader = createShader(kSrc, ShaderType::kWorkGraph); ShaderProgramInitInfo progInit; progInit.m_workGraph.m_shader = shader.get(); WorkGraphNodeSpecialization wgSpecialization = {"main", UVec3(4, 1, 1)}; progInit.m_workGraph.m_nodeSpecializations = ConstWeakArray(&wgSpecialization, 1); ShaderProgramPtr prog = GrManager::getSingleton().newShaderProgram(progInit); BufferPtr counterBuff = createBuffer(BufferUsageBit::kAllUav | BufferUsageBit::kCopySource, 0u, 1, "CounterBuffer"); BufferInitInfo scratchInit("scratch"); scratchInit.m_size = prog->getWorkGraphMemoryRequirements(); scratchInit.m_usage = BufferUsageBit::kAllUav; BufferPtr scratchBuff = GrManager::getSingleton().newBuffer(scratchInit); struct FirstNodeRecord { UVec3 m_gridSize; U32 m_value; }; Array records; for(U32 i = 0; i < records.getSize(); ++i) { records[i].m_gridSize = UVec3(4, 1, 1); records[i].m_value = (i + 1) * 10; } CommandBufferPtr cmdb = GrManager::getSingleton().newCommandBuffer(CommandBufferInitInfo(CommandBufferFlag::kSmallBatch)); cmdb->bindShaderProgram(prog.get()); cmdb->bindUav(0, 0, BufferView(counterBuff.get())); cmdb->dispatchGraph(BufferView(scratchBuff.get()), records.getBegin(), records.getSize(), sizeof(records[0])); cmdb->endRecording(); FencePtr fence; GrManager::getSingleton().submit(cmdb.get(), {}, &fence); fence->clientWait(kMaxSecond); validateBuffer(counterBuff, ConstWeakArray(Array{122880})); } commonDestroy(); } ANKI_TEST(Gr, WorkGraphAmplification) { // CVarSet::getSingleton().setMultiple(Array{"Device", "2"}); Bool bBenchmark, bWorkgraphs; commonInitWg(bBenchmark, bWorkgraphs); { const Char* kSrc = R"( struct FirstNodeRecord { uint3 m_dispatchGrid : SV_DispatchGrid; }; struct SecondNodeRecord { uint3 m_dispatchGrid : SV_DispatchGrid; uint m_objectIndex; }; struct Aabb { uint m_min; uint m_max; }; struct Object { uint m_positionsStart; // Points to g_positions uint m_positionCount; }; RWStructuredBuffer g_aabbs : register(u0); StructuredBuffer