1 year ago · 5b611d68d9
--- a/.github/workflows/determinism_check.yml
+++ b/.github/workflows/determinism_check.yml
@@ -106,16 +106,16 @@ jobs:
 
				       working-directory: ${{github.workspace}}/Build/Linux_Distribution
			
 
				       run: ./PerformanceTest -q=LinearCast -t=2 -s=Ragdoll -validate_hash=${RAGDOLL_HASH}
			
 
				 
			
 
				-  arm:
			
 
				+  arm_clang:
			
 
				     runs-on: ubuntu-latest
			
 
				-    name: ARM Determinism Check
			
 
				+    name: ARM Clang Determinism Check
			
 
				     steps:
			
 
				     - name: Checkout Code
			
 
				       uses: actions/checkout@v4
			
 
				     - name: Update index
			
 
				       run: sudo apt-get update
			
 
				     - name: Install Cross Compiler
			
 
				-      run: sudo apt-get install gcc-11-aarch64-linux-gnu gcc-11-multilib g++-11-multilib libstdc++-11-dev-arm64-cross qemu-user -y
			
 
				+      run: sudo apt-get install gcc-12-aarch64-linux-gnu gcc-12-multilib g++-12-multilib libstdc++-12-dev-arm64-cross qemu-user -y
			
 
				     - name: Configure CMake
			
 
				       run: cmake -B ${{github.workspace}}/Build/Linux_Distribution -DCMAKE_BUILD_TYPE=Distribution -DCMAKE_CXX_COMPILER=clang++ Build -DCROSS_PLATFORM_DETERMINISTIC=ON -DCROSS_COMPILE_ARM=ON -DTARGET_VIEWER=OFF -DTARGET_SAMPLES=OFF -DTARGET_HELLO_WORLD=OFF -DTARGET_UNIT_TESTS=ON
			
 
				     - name: Build
			
@@ -129,3 +129,27 @@ jobs:
 
				     - name: Test Ragdoll
			
 
				       working-directory: ${{github.workspace}}/Build/Linux_Distribution
			
 
				       run: qemu-aarch64 -L /usr/aarch64-linux-gnu/ ./PerformanceTest -q=LinearCast -t=2 -s=Ragdoll -validate_hash=${RAGDOLL_HASH}
			
 
				+
			
 
				+  arm_gcc:
			
 
				+    runs-on: ubuntu-latest
			
 
				+    name: ARM GCC Determinism Check
			
 
				+    steps:
			
 
				+    - name: Checkout Code
			
 
				+      uses: actions/checkout@v4
			
 
				+    - name: Update index
			
 
				+      run: sudo apt-get update
			
 
				+    - name: Install Cross Compiler
			
 
				+      run: sudo apt-get install g++-12-aarch64-linux-gnu gcc-12-multilib g++-12-multilib libstdc++-12-dev-arm64-cross qemu-user -y
			
 
				+    - name: Configure CMake
			
 
				+      run: cmake -B ${{github.workspace}}/Build/Linux_Distribution -DCMAKE_BUILD_TYPE=Distribution -DCMAKE_CXX_COMPILER=aarch64-linux-gnu-g++-12 Build -DCROSS_PLATFORM_DETERMINISTIC=ON -DCROSS_COMPILE_ARM=ON -DTARGET_VIEWER=OFF -DTARGET_SAMPLES=OFF -DTARGET_HELLO_WORLD=OFF -DTARGET_UNIT_TESTS=ON
			
 
				+    - name: Build
			
 
				+      run: cmake --build ${{github.workspace}}/Build/Linux_Distribution
			
 
				+    - name: Unit Tests
			
 
				+      working-directory: ${{github.workspace}}/Build/Linux_Distribution
			
 
				+      run: qemu-aarch64 -L /usr/aarch64-linux-gnu/ ./UnitTests
			
 
				+    - name: Test ConvexVsMesh
			
 
				+      working-directory: ${{github.workspace}}/Build/Linux_Distribution
			
 
				+      run: qemu-aarch64 -L /usr/aarch64-linux-gnu/ ./PerformanceTest -q=LinearCast -t=2 -s=ConvexVsMesh -validate_hash=${CONVEX_VS_MESH_HASH}
			
 
				+    - name: Test Ragdoll
			
 
				+      working-directory: ${{github.workspace}}/Build/Linux_Distribution
			
 
				+      run: qemu-aarch64 -L /usr/aarch64-linux-gnu/ ./PerformanceTest -q=LinearCast -t=2 -s=Ragdoll -validate_hash=${RAGDOLL_HASH}
			
--- a/Build/CMakeLists.txt
+++ b/Build/CMakeLists.txt
@@ -179,8 +179,7 @@ else()
 
				 	if ("${CMAKE_CXX_COMPILER_ID}" STREQUAL "GNU")
			
 
				 		# Also disable -Wstringop-overflow or it will generate false positives that can't be disabled from code when link-time optimizations are enabled
			
 
				 		# Also turn off automatic fused multiply add contractions, there doesn't seem to be a way to do this selectively through the macro JPH_PRECISE_MATH_OFF
			
 
				-		# Also permit conversions between vectors with differing element types or numbers of subparts (clang doesn't care so the code is a bit sloppy)
			
 
				-		set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -Wno-stringop-overflow -ffp-contract=off -flax-vector-conversions")
			
 
				+		set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -Wno-stringop-overflow -ffp-contract=off")
			
 
				 	else()
			
 
				 		# Do not use -ffast-math since it cannot be turned off in a single compilation unit under clang, see Core.h
			
 
				 		set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -ffp-model=precise")
			
@@ -189,6 +188,11 @@ else()
 
				 		if (CMAKE_CXX_COMPILER_VERSION LESS 14 OR CROSS_PLATFORM_DETERMINISTIC)
			
 
				 			set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -ffp-contract=off")
			
 
				 		endif()
			
 
				+
			
 
				+		# Cross compiler flags
			
 
				+		if (CROSS_COMPILE_ARM)
			
 
				+			set(CMAKE_CXX_FLAGS "--target=aarch64-linux-gnu ${CMAKE_CXX_FLAGS}")
			
 
				+		endif()
			
 
				 	endif()
			
 
				 
			
 
				 	# See https://github.com/jrouwe/JoltPhysics/issues/922. When compiling with DOUBLE_PRECISION=YES and CMAKE_OSX_DEPLOYMENT_TARGET=10.12 clang triggers a warning that we silence here.
			
@@ -196,11 +200,6 @@ else()
 
				 		set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -faligned-allocation")
			
 
				 	endif()
			
 
				 
			
 
				-	# Cross compiler flags
			
 
				-	if (CROSS_COMPILE_ARM)
			
 
				-		set(CMAKE_CXX_FLAGS "--target=aarch64-linux-gnu ${CMAKE_CXX_FLAGS}")
			
 
				-	endif()
			
 
				-
			
 
				 	# Set compiler flags for various configurations
			
 
				 	if (OVERRIDE_CXX_FLAGS)
			
 
				 		set(CMAKE_CXX_FLAGS_DEBUG "")
			
--- a/Jolt/Core/ARMNeon.h
+++ b/Jolt/Core/ARMNeon.h
@@ -13,6 +13,7 @@
 
				 	#define JPH_NEON_INT32x4(v1, v2, v3, v4) { int64_t(v1) + (int64_t(v2) << 32), int64_t(v3) + (int64_t(v4) << 32) }
			
 
				 	#define JPH_NEON_UINT32x4(v1, v2, v3, v4) { uint64_t(v1) + (uint64_t(v2) << 32), uint64_t(v3) + (uint64_t(v4) << 32) }
			
 
				 	#define JPH_NEON_INT8x16(v1, v2, v3, v4, v5, v6, v7, v8, v9, v10, v11, v12, v13, v14, v15, v16) { int64_t(v1) + (int64_t(v2) << 8) + (int64_t(v3) << 16) + (int64_t(v4) << 24) + (int64_t(v5) << 32) + (int64_t(v6) << 40) + (int64_t(v7) << 48) + (int64_t(v8) << 56), int64_t(v9) + (int64_t(v10) << 8) + (int64_t(v11) << 16) + (int64_t(v12) << 24) + (int64_t(v13) << 32) + (int64_t(v14) << 40) + (int64_t(v15) << 48) + (int64_t(v16) << 56) }
			
 
				+	#define JPH_NEON_UINT8x16(v1, v2, v3, v4, v5, v6, v7, v8, v9, v10, v11, v12, v13, v14, v15, v16) { uint64_t(v1) + (uint64_t(v2) << 8) + (uint64_t(v3) << 16) + (uint64_t(v4) << 24) + (uint64_t(v5) << 32) + (uint64_t(v6) << 40) + (uint64_t(v7) << 48) + (uint64_t(v8) << 56), uint64_t(v9) + (uint64_t(v10) << 8) + (uint64_t(v11) << 16) + (uint64_t(v12) << 24) + (uint64_t(v13) << 32) + (uint64_t(v14) << 40) + (uint64_t(v15) << 48) + (uint64_t(v16) << 56) }
			
 
				 
			
 
				 	// Generic shuffle vector template
			
 
				 	template <unsigned I1, unsigned I2, unsigned I3, unsigned I4>
			
@@ -80,6 +81,7 @@
 
				 	#define JPH_NEON_INT32x4(v1, v2, v3, v4) { v1, v2, v3, v4 }
			
 
				 	#define JPH_NEON_UINT32x4(v1, v2, v3, v4) { v1, v2, v3, v4 }
			
 
				 	#define JPH_NEON_INT8x16(v1, v2, v3, v4, v5, v6, v7, v8, v9, v10, v11, v12, v13, v14, v15, v16) { v1, v2, v3, v4, v5, v6, v7, v8, v9, v10, v11, v12, v13, v14, v15, v16 }
			
 
				+	#define JPH_NEON_UINT8x16(v1, v2, v3, v4, v5, v6, v7, v8, v9, v10, v11, v12, v13, v14, v15, v16) { v1, v2, v3, v4, v5, v6, v7, v8, v9, v10, v11, v12, v13, v14, v15, v16 }
			
 
				 
			
 
				 	// Shuffle a vector
			
 
				 	#define JPH_NEON_SHUFFLE_F32x4(vec1, vec2, index1, index2, index3, index4) __builtin_shufflevector(vec1, vec2, index1, index2, index3, index4)
			
--- a/Jolt/Math/DVec3.inl
+++ b/Jolt/Math/DVec3.inl
@@ -323,7 +323,8 @@ DVec3 DVec3::sSelect(DVec3Arg inV1, DVec3Arg inV2, DVec3Arg inControl)
 
				 	Type v = { _mm_blendv_pd(inV1.mValue.mLow, inV2.mValue.mLow, inControl.mValue.mLow), _mm_blendv_pd(inV1.mValue.mHigh, inV2.mValue.mHigh, inControl.mValue.mHigh) };
			
 
				 	return sFixW(v);
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	Type v = { vbslq_f64(vshrq_n_s64(vreinterpretq_s64_f64(inControl.mValue.val[0]), 63), inV2.mValue.val[0], inV1.mValue.val[0]), vbslq_f64(vshrq_n_s64(vreinterpretq_s64_f64(inControl.mValue.val[1]), 63), inV2.mValue.val[1], inV1.mValue.val[1]) };
			
 
				+	Type v = { vbslq_f64(vreinterpretq_u64_s64(vshrq_n_s64(vreinterpretq_s64_f64(inControl.mValue.val[0]), 63)), inV2.mValue.val[0], inV1.mValue.val[0]),
			
 
				+			   vbslq_f64(vreinterpretq_u64_s64(vshrq_n_s64(vreinterpretq_s64_f64(inControl.mValue.val[1]), 63)), inV2.mValue.val[1], inV1.mValue.val[1]) };
			
 
				 	return sFixW(v);
			
 
				 #else
			
 
				 	DVec3 result;
			
@@ -343,7 +344,8 @@ DVec3 DVec3::sOr(DVec3Arg inV1, DVec3Arg inV2)
 
				 #elif defined(JPH_USE_SSE)
			
 
				 	return DVec3({ _mm_or_pd(inV1.mValue.mLow, inV2.mValue.mLow), _mm_or_pd(inV1.mValue.mHigh, inV2.mValue.mHigh) });
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	return DVec3({ vreinterpretq_f64_u64(vorrq_u64(vreinterpretq_u64_f64(inV1.mValue.val[0]), vreinterpretq_u64_f64(inV2.mValue.val[0]))), vreinterpretq_f64_u64(vorrq_u64(vreinterpretq_u64_f64(inV1.mValue.val[1]), vreinterpretq_u64_f64(inV2.mValue.val[1]))) });
			
 
				+	return DVec3({ vreinterpretq_f64_u64(vorrq_u64(vreinterpretq_u64_f64(inV1.mValue.val[0]), vreinterpretq_u64_f64(inV2.mValue.val[0]))),
			
 
				+				   vreinterpretq_f64_u64(vorrq_u64(vreinterpretq_u64_f64(inV1.mValue.val[1]), vreinterpretq_u64_f64(inV2.mValue.val[1]))) });
			
 
				 #else
			
 
				 	return DVec3(BitCast<double>(BitCast<uint64>(inV1.mF64[0]) | BitCast<uint64>(inV2.mF64[0])),
			
 
				 				 BitCast<double>(BitCast<uint64>(inV1.mF64[1]) | BitCast<uint64>(inV2.mF64[1])),
			
@@ -358,7 +360,8 @@ DVec3 DVec3::sXor(DVec3Arg inV1, DVec3Arg inV2)
 
				 #elif defined(JPH_USE_SSE)
			
 
				 	return DVec3({ _mm_xor_pd(inV1.mValue.mLow, inV2.mValue.mLow), _mm_xor_pd(inV1.mValue.mHigh, inV2.mValue.mHigh) });
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	return DVec3({ vreinterpretq_f64_u64(veorq_u64(vreinterpretq_u64_f64(inV1.mValue.val[0]), vreinterpretq_u64_f64(inV2.mValue.val[0]))), vreinterpretq_f64_u64(veorq_u64(vreinterpretq_u64_f64(inV1.mValue.val[1]), vreinterpretq_u64_f64(inV2.mValue.val[1]))) });
			
 
				+	return DVec3({ vreinterpretq_f64_u64(veorq_u64(vreinterpretq_u64_f64(inV1.mValue.val[0]), vreinterpretq_u64_f64(inV2.mValue.val[0]))),
			
 
				+				   vreinterpretq_f64_u64(veorq_u64(vreinterpretq_u64_f64(inV1.mValue.val[1]), vreinterpretq_u64_f64(inV2.mValue.val[1]))) });
			
 
				 #else
			
 
				 	return DVec3(BitCast<double>(BitCast<uint64>(inV1.mF64[0]) ^ BitCast<uint64>(inV2.mF64[0])),
			
 
				 				 BitCast<double>(BitCast<uint64>(inV1.mF64[1]) ^ BitCast<uint64>(inV2.mF64[1])),
			
@@ -373,7 +376,8 @@ DVec3 DVec3::sAnd(DVec3Arg inV1, DVec3Arg inV2)
 
				 #elif defined(JPH_USE_SSE)
			
 
				 	return DVec3({ _mm_and_pd(inV1.mValue.mLow, inV2.mValue.mLow), _mm_and_pd(inV1.mValue.mHigh, inV2.mValue.mHigh) });
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	return DVec3({ vreinterpretq_f64_u64(vandq_u64(vreinterpretq_u64_f64(inV1.mValue.val[0]), vreinterpretq_u64_f64(inV2.mValue.val[0]))), vreinterpretq_f64_u64(vandq_u64(vreinterpretq_u64_f64(inV1.mValue.val[1]), vreinterpretq_u64_f64(inV2.mValue.val[1]))) });
			
 
				+	return DVec3({ vreinterpretq_f64_u64(vandq_u64(vreinterpretq_u64_f64(inV1.mValue.val[0]), vreinterpretq_u64_f64(inV2.mValue.val[0]))),
			
 
				+				   vreinterpretq_f64_u64(vandq_u64(vreinterpretq_u64_f64(inV1.mValue.val[1]), vreinterpretq_u64_f64(inV2.mValue.val[1]))) });
			
 
				 #else
			
 
				 	return DVec3(BitCast<double>(BitCast<uint64>(inV1.mF64[0]) & BitCast<uint64>(inV2.mF64[0])),
			
 
				 				 BitCast<double>(BitCast<uint64>(inV1.mF64[1]) & BitCast<uint64>(inV2.mF64[1])),
			
@@ -832,7 +836,8 @@ DVec3 DVec3::GetSign() const
 
				 #elif defined(JPH_USE_NEON)
			
 
				 	uint64x2_t minus_one = vreinterpretq_u64_f64(vdupq_n_f64(-1.0f));
			
 
				 	uint64x2_t one = vreinterpretq_u64_f64(vdupq_n_f64(1.0f));
			
 
				-	return DVec3({ vreinterpretq_f64_u64(vorrq_u64(vandq_u64(vreinterpretq_u64_f64(mValue.val[0]), minus_one), one)), vreinterpretq_f64_u64(vorrq_u64(vandq_u64(vreinterpretq_u64_f64(mValue.val[1]), minus_one), one)) });
			
 
				+	return DVec3({ vreinterpretq_f64_u64(vorrq_u64(vandq_u64(vreinterpretq_u64_f64(mValue.val[0]), minus_one), one)),
			
 
				+				   vreinterpretq_f64_u64(vorrq_u64(vandq_u64(vreinterpretq_u64_f64(mValue.val[1]), minus_one), one)) });
			
 
				 #else
			
 
				 	return DVec3(std::signbit(mF64[0])? -1.0 : 1.0,
			
 
				 				 std::signbit(mF64[1])? -1.0 : 1.0,
			
@@ -852,7 +857,8 @@ DVec3 DVec3::PrepareRoundToZero() const
 
				 	return DVec3({ _mm_and_pd(mValue.mLow, mask), _mm_and_pd(mValue.mHigh, mask) });
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				 	uint64x2_t mask = vdupq_n_u64(~cDoubleToFloatMantissaLoss);
			
 
				-	return DVec3({ vreinterpretq_f64_u64(vandq_u64(vreinterpretq_u64_f64(mValue.val[0]), mask)), vreinterpretq_f64_u64(vandq_u64(vreinterpretq_u64_f64(mValue.val[1]), mask)) });
			
 
				+	return DVec3({ vreinterpretq_f64_u64(vandq_u64(vreinterpretq_u64_f64(mValue.val[0]), mask)),
			
 
				+				   vreinterpretq_f64_u64(vandq_u64(vreinterpretq_u64_f64(mValue.val[1]), mask)) });
			
 
				 #else
			
 
				 	double x = BitCast<double>(BitCast<uint64>(mF64[0]) & ~cDoubleToFloatMantissaLoss);
			
 
				 	double y = BitCast<double>(BitCast<uint64>(mF64[1]) & ~cDoubleToFloatMantissaLoss);
			
--- a/Jolt/Math/UVec4.inl
+++ b/Jolt/Math/UVec4.inl
@@ -154,7 +154,7 @@ UVec4 UVec4::sSelect(UVec4Arg inV1, UVec4Arg inV2, UVec4Arg inControl)
 
				 #if defined(JPH_USE_SSE4_1)
			
 
				 	return _mm_castps_si128(_mm_blendv_ps(_mm_castsi128_ps(inV1.mValue), _mm_castsi128_ps(inV2.mValue), _mm_castsi128_ps(inControl.mValue)));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	return vbslq_u32(vshrq_n_s32(inControl.mValue, 31), inV2.mValue, inV1.mValue);
			
 
				+	return vbslq_u32(vreinterpretq_u32_s32(vshrq_n_s32(vreinterpretq_s32_u32(inControl.mValue), 31)), inV2.mValue, inV1.mValue);
			
 
				 #else
			
 
				 	UVec4 result;
			
 
				 	for (int i = 0; i < 4; i++)
			
@@ -323,7 +323,7 @@ Vec4 UVec4::ToFloat() const
 
				 #if defined(JPH_USE_SSE)
			
 
				 	return _mm_cvtepi32_ps(mValue);
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	return vcvtq_f32_s32(mValue);
			
 
				+	return vcvtq_f32_u32(mValue);
			
 
				 #else
			
 
				 	return Vec4((float)mU32[0], (float)mU32[1], (float)mU32[2], (float)mU32[3]);
			
 
				 #endif
			
@@ -334,7 +334,7 @@ Vec4 UVec4::ReinterpretAsFloat() const
 
				 #if defined(JPH_USE_SSE)
			
 
				 	return Vec4(_mm_castsi128_ps(mValue));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	return vreinterpretq_f32_s32(mValue);
			
 
				+	return vreinterpretq_f32_u32(mValue);
			
 
				 #else
			
 
				 	return *reinterpret_cast<const Vec4 *>(this);
			
 
				 #endif
			
@@ -443,7 +443,7 @@ UVec4 UVec4::ArithmeticShiftRight() const
 
				 #if defined(JPH_USE_SSE)
			
 
				 	return _mm_srai_epi32(mValue, Count);
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	return vshrq_n_s32(mValue, Count);
			
 
				+	return vreinterpretq_u32_s32(vshrq_n_s32(vreinterpretq_s32_u32(mValue), Count));
			
 
				 #else
			
 
				 	return UVec4(uint32(int32_t(mU32[0]) >> Count),
			
 
				 				 uint32(int32_t(mU32[1]) >> Count),
			
@@ -457,9 +457,9 @@ UVec4 UVec4::Expand4Uint16Lo() const
 
				 #if defined(JPH_USE_SSE)
			
 
				 	return _mm_unpacklo_epi16(mValue, _mm_castps_si128(_mm_setzero_ps()));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	int16x4_t value = vget_low_s16(mValue);
			
 
				-	int16x4_t zero = vdup_n_s16(0);
			
 
				-	return vcombine_s16(vzip1_s16(value, zero), vzip2_s16(value, zero));
			
 
				+	uint16x4_t value = vget_low_u16(vreinterpretq_u16_u32(mValue));
			
 
				+	uint16x4_t zero = vdup_n_u16(0);
			
 
				+	return vreinterpretq_u32_u16(vcombine_u16(vzip1_u16(value, zero), vzip2_u16(value, zero)));
			
 
				 #else
			
 
				 	return UVec4(mU32[0] & 0xffff,
			
 
				 				 (mU32[0] >> 16) & 0xffff,
			
@@ -473,9 +473,9 @@ UVec4 UVec4::Expand4Uint16Hi() const
 
				 #if defined(JPH_USE_SSE)
			
 
				 	return _mm_unpackhi_epi16(mValue, _mm_castps_si128(_mm_setzero_ps()));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	int16x4_t value = vget_high_s16(mValue);
			
 
				-	int16x4_t zero = vdup_n_s16(0);
			
 
				-	return vcombine_s16(vzip1_s16(value, zero), vzip2_s16(value, zero));
			
 
				+	uint16x4_t value = vget_high_u16(vreinterpretq_u16_u32(mValue));
			
 
				+	uint16x4_t zero = vdup_n_u16(0);
			
 
				+	return vreinterpretq_u32_u16(vcombine_u16(vzip1_u16(value, zero), vzip2_u16(value, zero)));
			
 
				 #else
			
 
				 	return UVec4(mU32[2] & 0xffff,
			
 
				 				 (mU32[2] >> 16) & 0xffff,
			
@@ -489,7 +489,7 @@ UVec4 UVec4::Expand4Byte0() const
 
				 #if defined(JPH_USE_SSE4_1)
			
 
				 	return _mm_shuffle_epi8(mValue, _mm_set_epi32(int(0xffffff03), int(0xffffff02), int(0xffffff01), int(0xffffff00)));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	int8x16_t idx = JPH_NEON_INT8x16(0x00, 0x7f, 0x7f, 0x7f, 0x01, 0x7f, 0x7f, 0x7f, 0x02, 0x7f, 0x7f, 0x7f, 0x03, 0x7f, 0x7f, 0x7f);
			
 
				+	uint8x16_t idx = JPH_NEON_UINT8x16(0x00, 0x7f, 0x7f, 0x7f, 0x01, 0x7f, 0x7f, 0x7f, 0x02, 0x7f, 0x7f, 0x7f, 0x03, 0x7f, 0x7f, 0x7f);
			
 
				 	return vreinterpretq_u32_s8(vqtbl1q_s8(vreinterpretq_s8_u32(mValue), idx));
			
 
				 #else
			
 
				 	UVec4 result;
			
@@ -504,7 +504,7 @@ UVec4 UVec4::Expand4Byte4() const
 
				 #if defined(JPH_USE_SSE4_1)
			
 
				 	return _mm_shuffle_epi8(mValue, _mm_set_epi32(int(0xffffff07), int(0xffffff06), int(0xffffff05), int(0xffffff04)));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	int8x16_t idx = JPH_NEON_INT8x16(0x04, 0x7f, 0x7f, 0x7f, 0x05, 0x7f, 0x7f, 0x7f, 0x06, 0x7f, 0x7f, 0x7f, 0x07, 0x7f, 0x7f, 0x7f);
			
 
				+	uint8x16_t idx = JPH_NEON_UINT8x16(0x04, 0x7f, 0x7f, 0x7f, 0x05, 0x7f, 0x7f, 0x7f, 0x06, 0x7f, 0x7f, 0x7f, 0x07, 0x7f, 0x7f, 0x7f);
			
 
				 	return vreinterpretq_u32_s8(vqtbl1q_s8(vreinterpretq_s8_u32(mValue), idx));
			
 
				 #else
			
 
				 	UVec4 result;
			
@@ -519,7 +519,7 @@ UVec4 UVec4::Expand4Byte8() const
 
				 #if defined(JPH_USE_SSE4_1)
			
 
				 	return _mm_shuffle_epi8(mValue, _mm_set_epi32(int(0xffffff0b), int(0xffffff0a), int(0xffffff09), int(0xffffff08)));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	int8x16_t idx = JPH_NEON_INT8x16(0x08, 0x7f, 0x7f, 0x7f, 0x09, 0x7f, 0x7f, 0x7f, 0x0a, 0x7f, 0x7f, 0x7f, 0x0b, 0x7f, 0x7f, 0x7f);
			
 
				+	uint8x16_t idx = JPH_NEON_UINT8x16(0x08, 0x7f, 0x7f, 0x7f, 0x09, 0x7f, 0x7f, 0x7f, 0x0a, 0x7f, 0x7f, 0x7f, 0x0b, 0x7f, 0x7f, 0x7f);
			
 
				 	return vreinterpretq_u32_s8(vqtbl1q_s8(vreinterpretq_s8_u32(mValue), idx));
			
 
				 #else
			
 
				 	UVec4 result;
			
@@ -534,7 +534,7 @@ UVec4 UVec4::Expand4Byte12() const
 
				 #if defined(JPH_USE_SSE4_1)
			
 
				 	return _mm_shuffle_epi8(mValue, _mm_set_epi32(int(0xffffff0f), int(0xffffff0e), int(0xffffff0d), int(0xffffff0c)));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	int8x16_t idx = JPH_NEON_INT8x16(0x0c, 0x7f, 0x7f, 0x7f, 0x0d, 0x7f, 0x7f, 0x7f, 0x0e, 0x7f, 0x7f, 0x7f, 0x0f, 0x7f, 0x7f, 0x7f);
			
 
				+	uint8x16_t idx = JPH_NEON_UINT8x16(0x0c, 0x7f, 0x7f, 0x7f, 0x0d, 0x7f, 0x7f, 0x7f, 0x0e, 0x7f, 0x7f, 0x7f, 0x0f, 0x7f, 0x7f, 0x7f);
			
 
				 	return vreinterpretq_u32_s8(vqtbl1q_s8(vreinterpretq_s8_u32(mValue), idx));
			
 
				 #else
			
 
				 	UVec4 result;
			
--- a/Jolt/Math/Vec3.inl
+++ b/Jolt/Math/Vec3.inl
@@ -272,7 +272,7 @@ Vec3 Vec3::sSelect(Vec3Arg inV1, Vec3Arg inV2, UVec4Arg inControl)
 
				 	Type v = _mm_blendv_ps(inV1.mValue, inV2.mValue, _mm_castsi128_ps(inControl.mValue));
			
 
				 	return sFixW(v);
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	Type v = vbslq_f32(vshrq_n_s32(inControl.mValue, 31), inV2.mValue, inV1.mValue);
			
 
				+	Type v = vbslq_f32(vreinterpretq_u32_s32(vshrq_n_s32(vreinterpretq_s32_u32(inControl.mValue), 31)), inV2.mValue, inV1.mValue);
			
 
				 	return sFixW(v);
			
 
				 #else
			
 
				 	Vec3 result;
			
--- a/Jolt/Math/Vec4.inl
+++ b/Jolt/Math/Vec4.inl
@@ -256,7 +256,7 @@ Vec4 Vec4::sSelect(Vec4Arg inV1, Vec4Arg inV2, UVec4Arg inControl)
 
				 #if defined(JPH_USE_SSE4_1)
			
 
				 	return _mm_blendv_ps(inV1.mValue, inV2.mValue, _mm_castsi128_ps(inControl.mValue));
			
 
				 #elif defined(JPH_USE_NEON)
			
 
				-	return vbslq_f32(vshrq_n_s32(inControl.mValue, 31), inV2.mValue, inV1.mValue);
			
 
				+	return vbslq_f32(vreinterpretq_u32_s32(vshrq_n_s32(vreinterpretq_s32_u32(inControl.mValue), 31)), inV2.mValue, inV1.mValue);
			
 
				 #else
			
 
				 	Vec4 result;
			
 
				 	for (int i = 0; i < 4; i++)